Dynamický rozsah je komprimovaný alebo štandardný. Dynamická kompresia

V čase, keď vedci práve začínali riešiť problém vytvárania rečového rozhrania pre počítače, museli často vyrobiť vlastné zariadenie, ktoré im umožňovalo vkladať do počítača zvukové informácie, ako aj ich výstup z počítača. Dnes môžu mať tieto zariadenia iba historický význam, pretože moderné počítače je možné ľahko vybaviť vstupnými a výstupnými zvukovými zariadeniami, akými sú zvukové adaptéry, mikrofóny, slúchadlá a reproduktory.

Nebudeme sa zaoberať podrobnosťami o vnútornej štruktúre týchto zariadení, ale povieme si, ako fungujú, a poskytneme niekoľko odporúčaní pre výber zvukových počítačových zariadení na prácu so systémami rozpoznávania a syntézy reči.

Ako sme už povedali v predchádzajúcej kapitole, zvuk nie je nič iné ako vibrácie vzduchu, ktorých frekvencia leží v rozsahu frekvencií vnímaných osobou. Presné hranice počuteľného frekvenčného rozsahu sa môžu líšiť od osoby k osobe, ale verí sa, že zvukové vibrácie ležia v rozsahu 16-20 000 Hz.

Úlohou mikrofónu je prevádzať zvukové vibrácie na elektrické vibrácie, ktoré je možné ďalej zosilňovať, filtrovať na odstránenie rušenia a digitalizovať na vkladanie zvukových informácií do počítača.

Podľa princípu činnosti sú najbežnejšie mikrofóny rozdelené na uhlíkové, elektrodynamické, kondenzátorové a elektretové. Niektoré z týchto mikrofónov vyžadujú na svoju činnosť externý zdroj prúdu (napríklad uhlíkové a kondenzátorové mikrofóny), zatiaľ čo iné sú pod vplyvom zvukových vibrácií schopné nezávisle vytvárať striedavé elektrické napätie (jedná sa o elektrodynamické a elektretové mikrofóny).

Mikrofóny môžete tiež oddeliť podľa účelu. Existujú štúdiové mikrofóny, ktoré môžete držať v ruke alebo pripnúť na stojan, existujú rádiové mikrofóny, ktoré si môžete pripnúť na oblečenie a podobne.

Existujú aj mikrofóny navrhnuté špeciálne pre počítače. Tieto mikrofóny sú zvyčajne namontované na stojane, ktorý je umiestnený na vrchu stola. Počítačové mikrofóny je možné kombinovať s náhlavnými súpravami, ako je znázornené na obr. 2-1.

Ryža. 2-1. Slúchadlá s mikrofónom

Ako si teda vyberiete z rôznych mikrofónov ten, ktorý najlepšie vyhovuje systémom rozpoznávania reči?

V zásade môžete experimentovať s akýmkoľvek mikrofónom, ktorý máte, pokiaľ je možné ho pripojiť k zvukovému adaptéru počítača. Vývojári systémov rozpoznávania reči však odporúčajú nákup mikrofónu, ktorý bude počas prevádzky v konštantnej vzdialenosti od úst rečníka.

Ak sa vzdialenosť medzi mikrofónom a ústami nezmení, potom sa priemerná úroveň elektrického signálu vychádzajúceho z mikrofónu príliš nezmení. To bude mať pozitívny vplyv na výkonnosť moderných systémov rozpoznávania reči.

V čom je problém?

Osoba je schopná úspešne rozpoznať reč, ktorej objem sa líši vo veľmi širokom rozsahu. Ľudský mozog je schopný filtrovať tichú reč od rušenia, ako je hluk áut prechádzajúcich ulicou, cudzie konverzácie a hudba.

Pokiaľ ide o moderné systémy rozpoznávania reči, ich schopnosti v tejto oblasti zostávajú veľmi žiaduce. Ak je mikrofón na stole, potom, keď otočíte hlavu alebo zmeníte polohu tela, vzdialenosť medzi ústami a mikrofónom sa zmení. To povedie k zmene výstupnej úrovne mikrofónu, čo zase zhorší spoľahlivosť rozpoznávania reči.

Preto pri práci so systémami rozpoznávania reči dosiahnete najlepšie výsledky, ak použijete mikrofón pripevnený k slúchadlám, ako je znázornené na obr. 2-1. Pri použití takého mikrofónu bude vzdialenosť medzi ústami a mikrofónom konštantná.

Upozorňujeme, že všetky experimenty so systémami rozpoznávania reči sa najlepšie vykonávajú v tichej miestnosti. V tomto prípade bude vplyv rušenia minimálny. Samozrejme, ak potrebujete vybrať systém rozpoznávania reči, ktorý môže fungovať v prostredí silného rušenia, potom je potrebné test vykonať inak. Pokiaľ však autori knihy vedia, odolnosť voči šumu systémov rozpoznávania reči je stále veľmi, veľmi nízka.

Mikrofón pre nás vykonáva transformáciu zvukových vibrácií na vibrácie elektrického prúdu. Tieto výkyvy je možné vidieť na obrazovke osciloskopu, ale neponáhľajte sa do obchodu kúpiť toto drahé zariadenie. Všetky oscilografické štúdie môžeme vykonať pomocou bežného počítača vybaveného zvukovým adaptérom, napríklad adaptérom Sound Blaster. Povieme vám, ako to urobiť neskôr.

Na obr. 2-2, ukázali sme oscilogram zvukového signálu získaný vyslovením dlhého zvuku a. Tento tvar vlny bol získaný pomocou softvéru GoldWave, o ktorom budeme diskutovať neskôr v tejto kapitole knihy, ako aj pomocou zvukového adaptéra Sound Blaster a mikrofónu podobného mikrofónu uvedenému na obr. 2-1.

Ryža. 2-2. Oscilogram zvukového signálu

Softvér GoldWave vám umožňuje roztiahnuť tvar vlny pozdĺž časovej osi, čo vám umožní vidieť najmenšie detaily. Na obr. 2-3 sme ukázali roztiahnutý fragment vyššie uvedeného oscilogramu zvuku a.

Ryža. 2-3. Fragment oscilogramu zvukového signálu

Všimnite si toho, že veľkosť vstupného signálu z mikrofónu sa periodicky mení a nadobúda kladné aj záporné hodnoty.

Ak by vo vstupnom signáli bola iba jedna frekvencia (to znamená, ak by bol zvuk „čistý“), priebeh vlny prijatý z mikrofónu by bol sínusový. Ako sme však už povedali, spektrum zvukov ľudskej reči pozostáva zo súboru frekvencií, v dôsledku ktorých je priebeh signálu reči ďaleko od sínusoidu.

Bude vyzvaný signál, ktorého veľkosť sa priebežne mení s časom analógový signál... Toto je signál, ktorý pochádza z mikrofónu. Na rozdiel od analógového signálu je digitálny signál súborom číselných hodnôt, ktoré sa v priebehu času diskrétne menia.

Aby počítač spracoval zvukový signál, musí byť prevedený z analógovej na digitálnu formu, to znamená, že je prezentovaný ako súbor číselných hodnôt. Tento proces sa nazýva digitalizácia analógového signálu.

Digitalizácia zvukového (a akéhokoľvek analógového) signálu sa vykonáva pomocou špeciálneho zariadenia s názvom analógovo-digitálny prevodník ADC (analógovo -digitálny prevodník, ADC). Toto zariadenie je umiestnené na doske zvukového adaptéra a je to obyčajný mikroobvod.

Ako funguje analógovo -digitálny prevodník?

Periodicky meria úroveň vstupného signálu a na výstup privádza číselnú hodnotu výsledku merania. Tento proces je znázornený na obr. 2-4. Sivé obdĺžniky tu označujú hodnoty vstupného signálu namerané s určitým konštantným časovým intervalom. Množina týchto hodnôt je digitalizovaná reprezentácia vstupného analógového signálu.

Ryža. 2-4. Merania amplitúdy signálu voči času

Na obr. 2-5 sme ukázali pripojenie analógovo-digitálneho prevodníka k mikrofónu. V tomto prípade je analógový signál privedený na vstup x 1 a digitálny signál je odstránený z výstupov u 1 -u n.

Ryža. 2-5. Analógovo-digitálny prevodník

Analógovo-digitálne prevodníky sa vyznačujú dvoma dôležitými parametrami-frekvenciou prevodu a počtom úrovní kvantizácie vstupného signálu. Správny výber týchto parametrov je rozhodujúci pre dosiahnutie adekvátnej digitálnej reprezentácie analógového signálu.

Ako často potrebujete merať hodnotu amplitúdy vstupného analógového signálu, aby ste nestratili informácie o zmenách vstupného analógového signálu v dôsledku digitalizácie?

Zdá sa, že odpoveď je jednoduchá - vstupný signál by sa mal merať tak často, ako je to možné. Skutočne, čím častejšie analógovo-digitálny prevodník vykonáva tieto merania, tým lepšie budú sledované najmenšie zmeny v amplitúde vstupného analógového signálu.

Príliš časté merania však môžu viesť k neodôvodnenému zvýšeniu toku digitálnych dát a plytvaniu počítačovými prostriedkami pri spracovaní signálu.

Našťastie správna voľba konverzný pomer (vzorkovacia frekvencia) je pomerne jednoduchý. Na to stačí obrátiť sa na Kotelnikovovu vetu, známu odborníkom v oblasti spracovania digitálneho signálu. Veta hovorí, že frekvencia konverzie by mala byť dvakrát vyššia maximálna frekvencia spektrum konvertovaného signálu. Preto je na digitalizáciu bez straty kvality zvukového signálu, ktorého frekvencia leží v rozmedzí 16-20 000 Hz, potrebné zvoliť prevodnú frekvenciu najmenej 40 000 Hz.

Všimnite si však, že v profesionálnom zvukovom zariadení je frekvencia prevodu zvolená niekoľkokrát vyššia ako špecifikovaná hodnota. To sa robí s cieľom dosiahnuť veľmi Vysoká kvalita digitalizovaný zvuk. V prípade systémov na rozpoznávanie reči taká kvalita nie je relevantná, preto na túto voľbu nebudeme zameriavať vašu pozornosť.

A aká frekvencia konverzie je potrebná na digitalizáciu zvuku ľudskej reči?

Pretože zvuky ľudskej reči ležia vo frekvenčnom rozsahu 300-4 000 Hz, minimálna požadovaná frekvencia prevodu je 8 000 Hz. Avšak, mnoho počítačové programy Rozpoznávanie reči používa konverzný pomer 44 000 Hz, ktorý je štandardný pre konvenčné zvukové adaptéry. Na jednej strane takýto konverzný pomer nevedie k nadmernému zvýšeniu toku digitálnych údajov a na druhej strane zaisťuje dostatočne kvalitnú digitalizáciu reči.

Už v škole nás učili, že akékoľvek merania spôsobujú chyby, ktoré nemožno úplne odstrániť. Takéto chyby vznikajú v dôsledku obmedzeného rozlíšenia meracích prístrojov, ako aj v dôsledku skutočnosti, že samotný proces merania môže zaviesť určité zmeny v nameranej hodnote.

Analógovo-digitálny prevodník predstavuje analógový vstupný signál ako prúd čísiel s obmedzenou dĺžkou. Bežné zvukové adaptéry obsahujú 16-bitové bloky ADC, ktoré môžu reprezentovať amplitúdu vstupného signálu ako 216 = 65 536 rôznych hodnôt. Zariadenia ADC v špičkových zvukových zariadeniach môžu byť 20-bitové, čo poskytuje presnejšie zobrazenie amplitúdy zvukového signálu.

Boli vytvorené moderné systémy a programy na rozpoznávanie reči konvenčné počítače vybavené obvyklými zvukovými adaptérmi. Na experimentovanie s rozpoznávaním reči preto nemusíte kupovať profesionálny zvukový adaptér. Adaptér, akým je napríklad Sound Blaster, je celkom vhodný na digitalizáciu reči na účely jej ďalšieho rozpoznávania.

Spolu s užitočným signálom sa do mikrofónu zvyčajne dostávajú rôzne zvuky - hluk z ulice, hluk vetra, cudzie konverzácie atď. Hluk má negatívny vplyv na kvalitu systémov rozpoznávania reči, takže s ním treba zaobchádzať. Jeden zo spôsobov, ktoré sme už spomenuli, je, že dnešné systémy rozpoznávania reči sa najlepšie používajú v tichej miestnosti, keď ste sami s počítačom.

Nie je však vždy možné vytvoriť ideálne podmienky, takže na odstránenie rušenia musíte použiť špeciálne metódy. Na zníženie hladiny hluku sa pri navrhovaní mikrofónov a špeciálnych filtrov používajú špeciálne triky, ktoré odstraňujú zo spektra analógového signálu frekvencie, ktoré nenesú užitočné informácie. Okrem toho sa používa technika, ako je kompresia dynamického rozsahu úrovní vstupného signálu.

Porozprávajme sa o tom všetkom v poriadku.

Frekvenčný filter sa nazýva zariadenie, ktoré prevádza frekvenčné spektrum analógového signálu. V tomto prípade v procese transformácie dochádza k výberu (alebo absorpcii) kmitov určitých frekvencií.

Toto zariadenie si môžete predstaviť ako akúsi čiernu skrinku s jedným vstupom a jedným výstupom. V našej situácii bude na vstup frekvenčného filtra pripojený mikrofón a na výstup analógovo-digitálny prevodník.

Frekvenčné filtre sú rôzne:

· Nízkopriepustné filtre;

· High-pass filtre;

· Pásmové filtre;

· Zárezové pásmové filtre.

Nízkopriepustné filtre(dolnopriepustný filter) odstráni zo spektra vstupného signálu všetky frekvencie, ktorých hodnoty sú pod určitou prahovou frekvenciou, v závislosti od nastavenia filtra.

Keďže zvukové signály sú v rozsahu 16-20 000 Hz, všetky frekvencie pod 16 Hz je možné znížiť bez zníženia kvality zvuku. Pre rozpoznávanie reči je dôležitý frekvenčný rozsah 300-4 000 Hz, preto je možné znížiť frekvencie pod 300 Hz. V tomto prípade budú všetky interferencie s frekvenčným spektrom pod 300 Hz vylúčené zo vstupného signálu a nebudú zasahovať do procesu rozpoznávania reči.

Podobne, vysokopriepustné filtre(hornopriepustný filter) vyreže všetky frekvencie nad určitou prahovou frekvenciou zo spektra vstupného signálu.

Osoba nepočuje zvuky s frekvenciou 20 000 Hz a vyššou, takže ich možno zo spektra odrezať bez znateľného zhoršenia kvality zvuku. Pokiaľ ide o rozpoznávanie reči, tu môžete vystrihnúť všetky frekvencie nad 4000 Hz, čo povedie k významnému zníženiu úrovne vysokofrekvenčného rušenia.

Prejdite pásmovým filtrom(pásmový filter) je možné chápať ako kombináciu dolného a horného priepustného filtra. Takýto filter oneskoruje všetky frekvencie pod tzv dolná priepustná frekvencia ako aj vyššie horná priepustná frekvencia.

Filter priepustného pásma je teda vhodný pre systémy rozpoznávania reči, ktoré oneskorujú všetky frekvencie, okrem frekvencií v rozmedzí 300-4 000 Hz.

Pokiaľ ide o filtre pásmového zastavenia, umožňujú vám vystrihnúť všetky frekvencie zo spektra vstupného signálu, ktoré sa nachádzajú v danom rozsahu. Takýto filter je vhodný napríklad na potlačenie rušenia, ktoré zaberá určitú súvislú časť spektra signálu.

Na obr. 2-6 sme ukázali zapojenie priepustného filtra.

Ryža. 2-6. Filtrovanie zvukového signálu pred digitalizáciou

Musím povedať, že bežné zvukové adaptéry nainštalované v počítači obsahujú pásmový filter, cez ktorý prechádza analógový signál pred digitalizáciou. Šírka pásma takého filtra zvyčajne zodpovedá rozsahu zvukových signálov, konkrétne 16-20 000 Hz (v rôznych zvukových adaptéroch sa hodnoty horných a dolných frekvencií môžu mierne líšiť).

A ako dosiahnuť užšiu šírku pásma 300-4 000 Hz, zodpovedajúcu najinformatívnejšej časti spektra ľudskej reči?

Samozrejme, ak máte záľubu v navrhovaní elektronických zariadení, môžete si svoj filter vyrobiť z čipu operačného zosilňovača, rezistorov a kondenzátorov. Približne to urobili prví tvorcovia systémov rozpoznávania reči.

Priemyselné systémy rozpoznávania reči však musia byť funkčné na štandardnom počítačovom zariadení, takže spôsob výroby špeciálneho pásmového filtra tu nie je vhodný.

Namiesto toho moderné systémy na spracovanie reči používajú tzv digitálne frekvenčné filtre implementované v softvéri. To bolo možné potom, čo bola centrálna procesorová jednotka počítača dostatočne výkonná.

V softvéri implementovaný digitálny frekvenčný filter prevádza vstupný digitálny signál na výstupný digitálny signál. Počas prevodu program špeciálnym spôsobom spracováva tok číselných hodnôt amplitúdy signálu pochádzajúceho z analógovo-digitálneho prevodníka. Výsledkom prevodu bude tiež prúd čísel, ale tento tok bude zodpovedať už filtrovanému signálu.

Keď už hovoríme o analógovo-digitálnom prevodníku, zaznamenali sme pre neho takú dôležitú vlastnosť, ako je počet úrovní kvantizácie. Ak je do zvukového adaptéra nainštalovaný 16-bitový analógovo-digitálny prevodník, potom môžu byť úrovne digitálneho signálu po digitalizácii reprezentované ako 216 = 65 536 rôznych hodnôt.

Ak existuje málo úrovní kvantizácie, potom tzv kvantizačný šum... Na zníženie tohto šumu by vysokokvalitné systémy vzorkovania zvuku mali používať analógovo-digitálne prevodníky s čo najväčším počtom kvantizačných úrovní.

V systémoch digitálneho záznamu zvuku sa však používa ešte jedna technika na zníženie účinku kvantizačného šumu na kvalitu zvukového signálu. Pri tejto technike je signál prechádzaný nelineárnym zosilňovačom pred digitalizáciou, ktorá zdôrazňuje signály s nízkou amplitúdou. Takéto zariadenie zosilňuje slabé signály viac ako silné.

Ilustruje to graf závislosti amplitúdy výstupného signálu od amplitúdy vstupného signálu, znázornený na obr. 2-7.

Ryža. 2-7. Nelineárny zisk pred digitalizáciou

V kroku prevodu digitalizovaného zvuku späť na analógový (tento krok bude diskutovaný neskôr v tejto kapitole) analógový signál opäť prechádza nelineárnym zosilňovačom a potom je vyvedený do reproduktorov. Tentokrát sa používa iný zosilňovač, ktorý kladie dôraz na signály s veľkou amplitúdou a má prenosovú charakteristiku (závislosť amplitúdy výstupného signálu od amplitúdy vstupného signálu), opačnú k tej, ktorá sa používa pri digitalizácii.

Ako môže toto všetko pomôcť tvorcom systémov rozpoznávania reči?

Osoba, ako viete, dostatočne dobre rozpoznáva reč podanú tichým šepotom alebo dostatočne silným hlasom. Môžeme to povedať dynamický rozsahúrovne hlasitosti úspešne rozpoznanej reči pre osobu sú dosť široké.

Dnešný počítačové systémy rozpoznávanie reči sa tým, bohužiaľ, ešte nemôže pochváliť. Aby ste však mierne rozšírili špecifikovaný dynamický rozsah, pred digitalizáciou môžete prejsť signál z mikrofónu cez nelineárny zosilňovač, ktorého prenosová charakteristika je znázornená na obr. 2-7. Pri digitalizácii slabých signálov sa tým zníži úroveň kvantizačného šumu.

Vývojári systémov rozpoznávania reči sú opäť nútení zamerať sa predovšetkým na komerčne dostupné zvukové adaptéry. Nezabezpečujú vyššie opísanú nelineárnu konverziu signálu.

Môžete však vytvoriť softvérový ekvivalent nelineárneho zosilňovača, ktorý prevedie digitalizovaný signál pred jeho prenosom do systému rozpoznávania reči. A hoci takýto softvérový zosilňovač nebude schopný znížiť kvantizačný šum, môže byť použitý na zdôraznenie tých úrovní signálu, ktoré prenášajú najviac rečových informácií. Môžete napríklad znížiť amplitúdu slabých signálov, čím odstránite šum zo signálu.

Kompresia je jednou z najtajomnejších tém zvukovej produkcie. Hovorí sa, že Beethoven dokonca vystrašil deti svojich susedov :(

Dobre, v skutočnosti nie je použitie kompresie ťažšie ako skreslenie. Hlavnou vecou je pochopiť, ako funguje, a mať dobrú kontrolu. Čo sme teraz spolu a uvidíme.

Čo je to kompresia zvuku

Prvá vec, ktorú musíte pochopiť pred prípravou, je kompresia. pracovať s dynamickým rozsahom zvuku... A to nie je nič iné ako rozdiel medzi najhlučnejšími a najtichšími úrovňami signálu:

Takže, kompresia je kompresia dynamického rozsahu... Áno, jednoducho kompresia dynamického rozsahu alebo inými slovami znížte úroveň hlasných častí signálu a zvýšte hlasitosť zvuku... Nikdy viac.

Môžete sa rozumne čudovať, prečo je potom taký humbuk spojený? Prečo všetci hovoria o receptoch na správne nastavenia kompresora, ale nikto ich nezdieľa? Prečo sú napriek veľkému počtu skvelých doplnkov v mnohých štúdiách stále používané drahé vintage modely kompresorov? Prečo niektorí výrobcovia používajú kompresory v extrémnych podmienkach, zatiaľ čo iní ich nepoužívajú vôbec? A kto z nich má nakoniec pravdu?

Kompresné úlohy

Odpovede na tieto otázky ležia v rovine porozumenia úlohe kompresie pri práci so zvukom. A umožňuje:

  1. Zdôraznite útok zvuk, urobte ho výraznejším;
  2. Do mixu „vložte“ jednotlivé časti nástroja pridaním sily a „hmotnosti“ k nim;
  3. Skupiny nástrojov alebo celý mix urobte súdržnejšími, taký jediný monolit;
  4. Riešenie konfliktov medzi nástrojmi pomocou bočného reťazca;
  5. Opravte chyby speváka alebo hudobníkov zosúladenie ich dynamiky;
  6. S určitým nastavením pôsobiť ako umelecký efekt.

Ako vidíte, toto nie je o nič menej významný tvorivý proces, ako povedzme vymýšľanie melódií alebo uvádzanie zaujímavých timbrov. V tomto prípade je možné ktorúkoľvek z vyššie uvedených úloh vyriešiť pomocou 4 hlavných parametrov.

Hlavné parametre kompresora

Napriek obrovskému počtu softvérových a hardvérových modelov kompresorov dochádza k všetkému „kúzlu“ kompresie pri správnom nastavení hlavných parametrov: prah, pomer, útok a uvoľnenie. Pozrime sa na ne podrobnejšie:

Prah alebo prah, dB

Tento parameter vám umožňuje nastaviť hodnotu, od ktorej bude kompresor pracovať (t.j. komprimovať zvukový signál). Ak teda nastavíme prahovú hodnotu na -12 dB, kompresor sa spustí iba v tých miestach dynamického rozsahu, ktoré presiahnu túto hodnotu. Ak je všetok náš zvuk tichší ako -12 dB, kompresor ho jednoducho nechá prejsť sám bez toho, aby ho akýmkoľvek spôsobom ovplyvnil.

Pomer alebo kompresný pomer

Parameter ratio určuje, ako silne bude signál prekračujúci prah komprimovaný. Trochu matematiky na doplnenie obrázku: Povedzme, že sme nastavili kompresor s prahom -12dB, pomerom 2: 1 a napájali sme ho bubnovou slučkou, v ktorej je objem bubna -4dB. Aký bude v tomto prípade výsledok kompresora?

V našom prípade hladina suda prekračuje prah o 8 dB. Tento rozdiel v súlade s pomerom bude komprimovaný na 4 dB (8 dB / 2). V kombinácii s nespracovanou časťou signálu to bude mať za následok, že objem kopu bude po spracovaní kompresorom -8 dB (prahová hodnota -12 dB + komprimovaný signál 4 dB).

Útok, ms

Toto je čas, po ktorom kompresor zareaguje pri prekročení prahu. To znamená, že ak je doba útoku dlhšia ako 0 ms - kompresor začne stláčať prekročenie prahového signálu nie okamžite, ale po stanovenom čase.

Uvoľnenie alebo obnova, ms

Opak útoku - hodnota tohto parametra vám umožňuje určiť čas po návrate úrovne signálu pod prahovú hodnotu kompresor prestane stláčať.

Predtým, ako sa pohneme ďalej, dôrazne odporúčam odobrať známu vzorku, zavesiť na kanál akýkoľvek kompresor a experimentovať s vyššie uvedenými parametrami 5-10 minút, aby sa materiál bezpečne fixoval.

Všetko ostatné parametre sú voliteľné... Môžu sa líšiť v rôznych modeloch kompresorov, čo je čiastočne dôvod, prečo výrobcovia používajú rôzne modely na akýkoľvek konkrétny účel (napríklad jeden kompresor pre spev, druhý pre skupinu bicích nástrojov a tretí pre hlavný kanál). Nebudem sa podrobne zaoberať týmito parametrami, ale poskytnem iba všeobecné informácie, aby som pochopil, o čo ide:

  • Koleno alebo koleno (tvrdé / mäkké koleno)... Tento parameter určuje, ako rýchlo sa bude pomer uplatňovať: tvrdý pozdĺž krivky alebo hladký. Všimnite si toho, že v režime Soft Knee kompresor nepracuje v priamke, ale spúšťa sa hladko (pokiaľ to môže byť vhodné, keď hovoríme o milisekundách) na kompresiu zvuku. už pred prahovou hodnotou... Na spracovanie skupín kanálov a všeobecného mixu sa najčastejšie používa mäkké koleno (pretože funguje nepostrehnuteľne) a na zdôraznenie útoku a ďalších vlastností jednotlivých nástrojov - tvrdé koleno;
  • Režim odozvy: Peak / RMS... Režim špičky je opodstatnený, keď potrebujete prísne obmedziť výbuchy amplitúdy, ako aj pri signáloch so zložitým tvarom, ktorých dynamika a čitateľnosť musia byť plne sprostredkované. Režim RMS je k zvuku veľmi šetrný, umožňuje vám ho zahustiť pri zachovaní útoku;
  • Pozerať sa dopredu... To je čas, ktorý kompresor potrebuje, aby vedel, čo bude trvať. Druh predbežnej analýzy prichádzajúcich signálov;
  • Make -up alebo zisk... Parameter, ktorý vám umožňuje kompenzovať pokles objemu v dôsledku operácie kompresie.

Prvá a najdôležitejšia rada, ktorý odstraňuje všetky ďalšie otázky týkajúce sa kompresie: ak ste a) pochopili princíp kompresie, b) pevne viete, ako tento alebo ten parameter ovplyvňuje zvuk, a c) podarilo sa vám vyskúšať niekoľko rôzne modelynepotrebuješ žiadnu radu.

Myslím to úplne vážne. Ak si pozorne prečítate tento príspevok, experimentujete so štandardným kompresorom vášho DAW a jedným alebo dvoma doplnkami, ale stále nerozumiete, v ktorých prípadoch musíte nastaviť veľké hodnoty útoku, aký pomer použiť a v akom režime spracovať pôvodný signál, potom budete. Pokračujte v hľadaní hotových receptov na internete a bezmyšlienkovitého uplatňovania kdekoľvek.

Recepty na jemné doladenie kompresora je to niečo ako recepty na jemné doladenie reverbu alebo refrénu - bez akéhokoľvek zmyslu a nemá nič spoločné s kreativitou. Preto vytrvalo opakujem jediný správny recept: vyzbrojte sa týmto článkom, dobrými monitorovými slúchadlami, doplnkom na vizuálne ovládanie tvaru vlny a strávte večer s pár kompresormi.

Konajte!

Táto skupina metód je založená na skutočnosti, že prenášané signály sú podrobené nelineárnym transformáciám amplitúdy a vo vysielacích a prijímacích častiach nelinearity sú recipročné. Ak napríklad vysielač používa nelineárnu funkciu Öu, prijímač používa u 2. Sekvenčná aplikácia recipročných funkcií bude mať za následok, že transformácia zostane lineárna ako celok.

Myšlienka metód nelineárnej kompresie údajov sa scvrkáva na skutočnosť, že vysielač môže prenášať väčší rozsah zmien prenášaného parametra (to znamená väčší dynamický rozsah) s rovnakou amplitúdou výstupných signálov. Dynamický rozsah je pomer najväčšej prípustnej amplitúdy signálu k najmenšiemu, vyjadrený v relatívnych jednotkách alebo decibeloch:

; (2.17)
. (2.18)

Prirodzená túžba zvýšiť dynamický rozsah znížením U min je obmedzená citlivosťou zariadenia a zvýšením vplyvu rušenia a vlastného šumu.

Kompresia dynamického rozsahu sa najčastejšie vykonáva pomocou dvojice funkcií inverzného logaritmu a potenciácie. Prvá operácia na zmenu amplitúdy sa nazýva kompresia(kompresiou), druhá je rozšírenie(natiahnutím). Voľba týchto funkcií je spojená s ich najväčšou schopnosťou kompresie.

Tieto metódy majú zároveň svoje nevýhody. Prvá je, že logaritmus malého čísla je v limite záporný:

to znamená, že citlivosť je veľmi nelineárna.

Aby sa tieto nevýhody zmenšili, obe funkcie sa upravia s posunom a aproximáciou. Napríklad pre telefónne kanály má približná funkcia tvar (typ A,):

a A = 87,6. Zisk z kompresie je 24 dB.

Kompresia dát pomocou nelineárnych postupov je implementovaná analógovými prostriedkami s veľkými chybami. Použitie digitálnych nástrojov môže výrazne zlepšiť presnosť alebo rýchlosť prevodu. Priame používanie počítačovej technológie (to znamená priamy výpočet logaritmov a exponenciálov) zároveň neposkytne najlepší výsledok kvôli nízkej rýchlosti a akumulujúcej sa chybe výpočtu.

Vzhľadom na obmedzenia presnosti sa kompresia údajov kompresiou používa v nekritických prípadoch, napríklad na prenos hlasu cez telefónne a rádiové kanály.

Efektívne kódovanie

Efektívne kódy navrhli K. Shannon, Fano a Huffman. Podstata kódov spočíva v tom, že sú nerovnomerné, to znamená s nerovnakým počtom bitov, a dĺžka kódu je nepriamo úmerná pravdepodobnosti jeho výskytu. Ďalšou skvelou vlastnosťou efektívnych kódov je, že nevyžadujú oddeľovače, t.j. špeciálne znaky oddeľujúce susediace kódové slová. To sa dosiahne dodržaním jednoduchého pravidla: kratšie kódy nie sú začiatkom dlhších. V tomto prípade je kontinuálny bitový tok jedinečne dekódovaný, pretože dekodér najskôr detekuje kratšie kódové slová. Efektívne kódy dlho boli čisto akademické, ale v poslednej dobe sa úspešne používajú pri vytváraní databáz, ako aj pri kompresii informácií v moderných modemoch a softvérových archivátoroch.

Vzhľadom na nerovnosti sa zadáva priemerná dĺžka kódu. Priemerná dĺžka je matematickým očakávaním dĺžky kódu:

okrem toho l cf má tendenciu k H (x) zhora (to znamená l cf> H (x)).

Splnenie podmienky (2,23) sa zvyšuje s rastúcim N.

Existujú dva typy efektívnych kódov: Shannon-Fano a Huffman. Pozrime sa, ako ich získať na príklade. Predpokladajme, že pravdepodobnosti symbolov v sekvencii majú hodnoty uvedené v tabuľke 2.1.

Tabuľka 2.1.

Symbolové pravdepodobnosti

N.
p i 0.1 0.2 0.1 0.3 0.05 0.15 0.03 0.02 0.05

Symboly sú zoradené, to znamená, že sú uvedené v sérii v zostupnom poradí pravdepodobností. Potom sa podľa metódy Shannon-Fano periodicky opakuje nasledujúci postup: celá skupina udalostí je rozdelená do dvoch podskupín s rovnakou (alebo približne rovnakou) celkovou pravdepodobnosťou. Postup pokračuje, kým jeden prvok nezostane v ďalšej podskupine, potom sa tento prvok odstráni a označené akcie pokračujú so zostávajúcimi. Stáva sa to, kým jeden prvok nezostane v posledných dvoch podskupinách. Pokračujme v našom príklade, ktorý je zhrnutý v tabuľke 2.2.

Tabuľka 2.2.

Kódovanie Shannon-Fano

N. P i
4 0.3 Ja
0.2 Ja II
6 0.15 Ja Ja
0.1 II
1 0.1 Ja Ja
9 0.05 II II
5 0.05 II Ja
7 0.03 II II Ja
8 0.02 II

Ako je zrejmé z tabuľky 2.2, prvý symbol s pravdepodobnosťou p 4 = 0,3 sa zúčastnil dvoch postupov rozdelenia do skupín a oba časy spadali do skupiny s číslom I. Preto je kódovaný dvojciferným kódom II. Druhý prvok v prvej fáze priečky patril skupine I, v druhej skupine II. Preto je jeho kód 10. Kódy iných symbolov nepotrebujú ďalší komentár.

Nejednotné kódy sú zvyčajne zobrazené ako kódové stromy. Strom kódov je graf, ktorý označuje povolené kombinácie kódov. Smery hrán tohto grafu sú prednastavené, ako je znázornené na obr. 2.11 (výber smerov je ľubovoľný).

V grafe sú vedení nasledujúcim spôsobom: vytvorte trasu pre zvolený symbol; počet číslic pre ňu sa rovná počtu hrán na trase a hodnota každej číslice sa rovná smeru príslušnej hrany. Trasa je zostavená z východiskového bodu (na výkrese je označená písmenom A). Napríklad trasa k vrcholu 5 pozostáva z piatich hrán, z ktorých všetky okrem posledných majú smer 0; dostaneme kód 00001.

Vypočítajme entropiu a priemernú dĺžku slova pre tento príklad.

H (x) = - (0,3 log 0,3 + 0,2 log 0,2 + 2 0,1 log 0,1+ 2 0,05 log 0,05+

0,03 log 0,03 + 0,02 log 0,02) = 2,23 bitov

l av = 0,3 2 + 0,2 2 + 0,15 3 + 0,1 3 + 0,1 4 + 0,05 5 +0,05 4+

0.03 6 + 0.02 6 = 2.9 .

Ako vidíte, priemerná dĺžka slova sa blíži entropii.

Huffmanov kódy sú skonštruované podľa iného algoritmu. Procedúra kódovania pozostáva z dvoch fáz. V prvej fáze sa sekvenčne vykonáva jednorazová kompresia abecedy. Jednorazová kompresia - nahradenie posledných dvoch znakov (s najnižšou pravdepodobnosťou) jedným, s celkovou pravdepodobnosťou. Kompresia sa vykonáva, kým nezostanú dve postavy. V tomto prípade je vyplnená kódovacia tabuľka, v ktorej sú zapísané výsledné pravdepodobnosti, a tiež sú znázornené trasy, po ktorých sa nové symboly presúvajú do ďalšej fázy.

V druhej fáze prebieha samotné kódovanie, ktoré začína od poslednej fázy: prvému z dvoch znakov je priradený kód 1, druhému - 0. Potom prejde predchádzajúca etapa. Kódy z ďalšej fázy sa pripisujú znakom, ktoré sa v tejto fáze nezúčastnili kompresie, a kód znaku získaný po zlepení sa dvakrát pripisuje posledným dvom znakom a pripočíta sa ku kódu horného znaku 1, nižší - 0. Ak znak nie je ďalej v procese lepenia, jeho kód zostáva nezmenený. Procedúra pokračuje až do konca (to znamená do prvej etapy).

Tabuľka 2.3 ukazuje Huffmanovo kódovanie. Ako vidíte z tabuľky, kódovanie prebiehalo v 7 fázach. Vľavo sú pravdepodobnosti symbolov, vpravo - prechodné kódy. Šípky znázorňujú pohyby novovytvorených symbolov. V každej fáze sa posledné dve postavy líšia iba najmenej významným bitom, ktorý zodpovedá technike kódovania. Vypočítajme priemernú dĺžku slova:

l av = 0,3 2 + 0,2 2 + 0,15 3 ++ 2 0,1 3 + +0,05 4 + 0,05 5 + 0,03 6 + 0,02 6 = 2,7

To je ešte bližšie k entropii: kód je ešte efektívnejší. Na obr. 2.12 ukazuje strom Huffmanovho kódu.

Tabuľka 2.3.

Huffmanovo kódovanie

N. p i kód Ja II III IV V. VI VII
0.3 0.3 11 0.3 11 0.3 11 0.3 11 0.3 11 0.4 0 0.6 1
0.2 0.2 01 0.2 01 0.2 01 0.2 01 0.3 10 0.3 11 0.4 0
0.15 0.15 101 0.15 101 0.15 101 0.2 00 0.2 01 0.3 10
0.1 0.1 001 0.1 001 0.15 100 0.15 101 0.2 00
0.1 0.1 000 0.1 000 0.1 001 0.15 100
0.05 0.05 1000 0.1 1001 0.1 000
0.05 0.05 10011 0.05 1000
0.03 0.05 10010
0.02

Oba kódy spĺňajú požiadavku jednoznačnosti dekódovania: ako je zrejmé z tabuliek, kratšie kombinácie nie sú začiatkom dlhších kódov.

Ako sa zvyšuje počet symbolov, zvyšuje sa účinnosť kódov, a preto v niektorých prípadoch sú kódované väčšie bloky (napríklad pokiaľ ide o texty, môžete kódovať niektoré z najbežnejších slabík, slov a dokonca aj fráz) .

Účinok zavedenia takýchto kódov je určený ich porovnaním s jednotným kódom:

(2.24)

kde n je počet bitov jednotného kódu, ktorý je nahradený efektívnym.

Úpravy Huffmanovho kódu

Klasický Huffmanov algoritmus sa týka dvojpriechodových, t.j. vyžaduje najskôr zber štatistík o symboloch a správach a potom postupy popísané vyššie. To je v praxi nepohodlné, pretože to predlžuje čas na spracovanie správ a hromadenie slovníka. Častejšie sa používajú jednopriechodové metódy, pri ktorých sa kombinujú postupy akumulácie a kódovania. Také metódy sa nazývajú aj adaptívna kompresia podľa Huffmana [46].

Podstata adaptívnej Huffmanovej kompresie sa redukuje na konštrukciu počiatočného stromového kódu a jeho postupnú úpravu po príchode každého ďalšieho znaku. Ako predtým, stromy sú tu binárne, t.j. z každého vrcholu stromového grafu vychádzajú maximálne dva oblúky. Je zvykom nazývať pôvodný vrchol rodičom a dva nasledujúce vrcholy s ním spojené, deti. Predstavme si pojem váhy vrcholu - je to počet symbolov (slov) zodpovedajúcich danému vrcholu, získaný pri predložení pôvodnej postupnosti. Je zrejmé, že súčet hmotností detí sa rovná hmotnosti rodiča.

Po zavedení ďalšieho znaku vstupnej sekvencie sa strom kódu zreviduje: váhy vrcholov sa prepočítajú a v prípade potreby sa vrcholy preusporiadajú. Permutačné pravidlo pre vrcholy je nasledujúce: hmotnosti dolných vrcholov sú najmenšie a vrcholy v ľavej časti grafu majú najmenšie hmotnosti.

Súčasne sú vrcholy očíslované. Číslovanie začína od spodných (visiacich, tj. Bez detí) vrcholov zľava doprava, potom sa prenáša na najvyššiu úroveň atď. pred číslovaním posledného, ​​pôvodného vrcholu. V tomto prípade sa dosiahne nasledujúci výsledok: čím menšia je hmotnosť vrcholu, tým je jeho počet menší.

Permutácia sa vykonáva hlavne pre visiace štíty. Pri preskupovaní by sa malo vziať do úvahy pravidlo formulované vyššie: vrcholy s vyššou hmotnosťou majú tiež vyššie číslo.

Po prechode sekvenciou (nazýva sa to aj kontrola alebo test) sa všetkým závesným vrcholom priradia kombinácie kódov. Pravidlo priraďovania kódov je podobné vyššie uvedenému: počet kódových bitov sa rovná počtu vrcholov, ktorými trasa prechádza z pôvodného do daného závesného vrcholu, a hodnota konkrétneho bitu zodpovedá smeru od rodiča na „dieťa“ (napríklad prechod vľavo od rodiča zodpovedá hodnote 1, vpravo - 0).

Výsledné kombinácie kódov sú uložené v pamäti kompresného zariadenia spolu s ich náprotivkami a tvoria slovník. Algoritmus sa používa nasledovne. Komprimovaná sekvencia znakov je rozdelená na fragmenty v súlade s dostupným slovníkom, potom je každý z fragmentov nahradený svojim kódom zo slovníka. Fragmenty, ktoré sa nenachádzajú v slovníku, tvoria nové visiace vrcholy, priberajú na váhe a sú tiež zapísané do slovníka. Vytvorí sa tak algoritmus doplnkového slovníka na doplnenie slovníka.

Na zlepšenie účinnosti metódy je žiaduce zvýšiť veľkosť slovníka; v tomto prípade je kompresný pomer zvýšený. Prakticky veľkosť slovníka je 4 - 16 kB pamäte.


Ukážme daný algoritmus na príklade. Na obr. 2.13 ukazuje pôvodný diagram (nazýva sa tiež strom Huffman). Každý vrchol stromu je zobrazený obdĺžnikom, v ktorom sú dve čísla zapísané zlomkom: prvý znamená číslo vrcholu, druhý - jeho hmotnosť. Ako vidíte, korešpondencia medzi hmotnosťou vrcholov a ich počtom je splnená.

Predpokladajme teraz, že so symbolom zodpovedajúcim vrcholu 1 sa v testovacej sekvencii stretneme druhýkrát. Váha vrcholu sa zmenila, ako je znázornené na obr. 2.14, v dôsledku čoho je porušené pravidlo číslovania vrcholov. V ďalšej fáze zmeníme umiestnenie visiacich vrcholov, za ktoré zameníme vrcholy 1 a 4 a prečíslujeme všetky vrcholy stromu. Výsledný graf je znázornený na obr. 2.15. Ďalej postup pokračuje rovnakým spôsobom.

Malo by sa pamätať na to, že každý visiaci vrchol v Huffmanovom strome zodpovedá určitému symbolu alebo ich skupine. Rodič sa líši od detí v tom, že skupina symbolov, ktoré mu zodpovedajú, je o jeden symbol kratšia ako symbol jeho detí a tieto deti sa líšia v poslednom symbole. Napríklad znaky „kar“ zodpovedajú rodičovi; potom môžu mať deti sekvencie „kara“ a „kapor“.

Daný algoritmus nie je akademický a aktívne sa používa v programoch - archivátoroch, vrátane kompresie grafických údajov (o nich budeme hovoriť nižšie).

Lempel - Zivove algoritmy

Toto sú dnes najčastejšie používané kompresné algoritmy. Používajú sa vo väčšine archivačných programov (napr. PKZIP. ARJ, LHA). Podstatou algoritmov je, že určitá sada symbolov je počas archivácie nahradená jej číslom v špeciálne vytvorenom slovníku. Napríklad fráza „Odchádzajúce číslo na váš list ...“, ktorá sa často nachádza v obchodnej korešpondencii, môže vo slovníku zaujímať pozíciu 121; potom namiesto prenosu alebo uloženia spomínanej frázy (30 bajtov) môžete uložiť číslo frázy (1,5 bajtu v binárnom - desatinnom tvare alebo 1 byte - v binárnom formáte).

Algoritmy sú pomenované podľa autorov, ktorí ich prvýkrát navrhli v roku 1977. Prvým z nich je LZ77. Na archiváciu je vytvorené takzvané posuvné okno, ktoré sa skladá z dvoch častí. Prvá časť, väčšieho formátu, slúži na vytvorenie slovníka a má veľkosť rádovo niekoľko kilobajtov. Druhá, menšia časť (zvyčajne až 100 bajtov) akceptuje aktuálne znaky prezeraného textu. Algoritmus sa pokúša nájsť v slovníku zbierku znakov, ktoré sa zhodujú s tými, ktoré boli prijaté vo výreze. Ak sa to podarí, vytvorí sa kód, ktorý sa skladá z troch častí: ofset v slovníku vzhľadom na jeho počiatočný podreťazec, dĺžka tohto podreťazca a znak nasledujúci za týmto podreťazcom. Vybratý podreťazec napríklad pozostáva zo znakov „aplikácia“ (celkom 6 znakov), za ktorými nasleduje znak „e“. Potom, ak má podreťazec adresu (miesto v slovníku) 45, potom záznam v slovníku má tvar „45, 6. e“. Potom sa obsah okna posunie o jednu pozíciu a vyhľadávanie pokračuje. Tak sa vytvorí slovník.

Výhodou algoritmu je ľahko formalizovaný algoritmus kompilácie slovníka. Navyše je možné rozbaliť bez pôvodného slovníka (je žiaduce mať súčasne testovaciu postupnosť) - slovník sa vytvára v priebehu rozbaľovania.

Nevýhody algoritmu sa objavujú, keď sa veľkosť slovníka zvyšuje - čas hľadania sa zvyšuje. Navyše, ak sa v aktuálnom okne, ktoré nie je v slovníku, objaví reťazec znakov, každý znak je napísaný trojprvkovým kódom, t.j. výsledkom nie je kompresia, ale strečing.

Najlepšie vlastnosti má algoritmus LZSS navrhnutý v roku 1978. Má rozdiely v kódoch údržby posuvných okien a výstupných kódoch kompresora. Algoritmus okrem okna tvorí aj binárny strom podobný Huffmanovmu stromu, aby urýchlil hľadanie zhody: každý podreťazec, ktorý opustí aktuálne okno, sa pridá do stromu ako jedno z detí. Tento algoritmus vám umožňuje dodatočne zväčšiť veľkosť aktuálneho okna (je žiaduce, aby sa jeho veľkosť rovnala mocnine dvoch: 128, 256 atď. Bajtov). Sekvenčné kódy sú tiež tvorené iným spôsobom: zavedie sa ďalšia 1-bitová predpona na rozlíšenie nekódovaných znakov od párov „offset, length“.

Ešte vyšší kompresný pomer sa dosiahne pri použití algoritmov, ako je LZW. Algoritmy popísané vyššie majú pevnú veľkosť okna, čo znemožňuje zadávať do slovníka frázy dlhšie ako veľkosť okna. V algoritmoch LZW (a ich predchodcovi LZ78) má zobrazovaná oblasť neobmedzenú veľkosť a slovník akumuluje frázy (nie zbierku znakov, ako predtým). Slovník má neobmedzenú dĺžku a kodér (dekodér) funguje v pohotovostnom režime frázy. Keď sa vytvorí fráza, ktorá sa zhoduje so slovníkom, vráti sa zodpovedajúci kód (t. J. Kód tejto frázy v slovníku) a kód nasledujúceho znaku za ním. Ak sa pri hromadení znakov vytvorí nová fráza, bude tiež zadaná do slovníka, podobne ako kratšia. Výsledkom je rekurzívny postup, ktorý poskytuje rýchle kódovanie a dekódovanie.

Dodatočná príležitosť kompresia poskytuje komprimované kódovanie opakujúcich sa symbolov. Ak v poradí nasledujú niektoré znaky za sebou (napríklad v texte to môžu byť znaky „medzera“, v číselnom poradí - po sebe idúce nuly atď.), Potom má zmysel nahradiť ich dvojicou „znakov“ ; dĺžka "alebo" znak, dĺžka ". V prvom prípade kód označuje znak, že sekvencia bude kódovaná (zvyčajne 1 bit), potom kód opakovaného symbolu a dĺžku sekvencie. V druhom prípade (pokiaľ ide o najčastejšie sa vyskytujúce opakujúce sa znaky) predpona jednoducho označuje opakujúci sa atribút.

Druhá časť série je venovaná funkciám optimalizácie dynamického rozsahu obrázkov. V ňom vám povieme, prečo sú také riešenia potrebné, zvážte rôzne možnosti ich implementácie, ako aj ich výhody a nevýhody.

Prijmite nesmiernosť

V ideálnom prípade by mala kamera zachytiť obraz okolitého sveta tak, ako ho človek vníma. Avšak vzhľadom na skutočnosť, že mechanizmy „videnia“ kamery a ľudského oka sú výrazne odlišné, existuje množstvo obmedzení, ktoré bránia splneniu tejto podmienky.

Jeden z problémov, s ktorými sa predtým stretávali používatelia filmových kamier a majitelia digitálnych fotoaparátov, je nemožnosť adekvátneho zachytenia scén s veľkým rozdielom v osvetlení bez použitia špeciálnych zariadení a / alebo špeciálnych techník snímania. Zvláštnosti ľudského zrakového aparátu umožňujú rovnako dobre vnímať detaily vysoko kontrastných scén v jasne osvetlených aj tmavých oblastiach. Senzor fotoaparátu bohužiaľ nie vždy dokáže zachytiť obrázok tak, ako ho vidíme.

Čím väčší je rozdiel v svetlosti na fotografovanej scéne, tým vyššia je pravdepodobnosť straty detailov vo svetlách a / alebo tieňoch. Výsledkom je, že na obrázku sa namiesto modrej oblohy so sviežimi mrakmi objaví iba belavá škvrna a objekty nachádzajúce sa v tieni sa zmenia na nevýrazné tmavé siluety alebo sa úplne spoja s okolitým prostredím.

V klasickej fotografii sa na posúdenie schopnosti kamery (alebo média v prípade filmových kamier) prenášať určitý rozsah jasu používa koncept. fotografická šírka(podrobnosti nájdete na bočnom paneli). Fotografická šírka digitálnych fotoaparátov je teoreticky určená číslicovou kapacitou analógovo-digitálneho prevodníka (ADC). Napríklad pri použití 8-bitového ADC s prihliadnutím na chybu kvantovania bude teoreticky dosiahnuteľná hodnota fotografickej šírky 7 EV, pre 12-bitový ADC-11 EV atď. V skutočných zariadeniach sa však ukazuje, že dynamický rozsah obrázkov je o rovnaké teoretické maximum v dôsledku vplyvu rôznych druhov hluku a ďalších faktorov.

Veľké rozdiely v úrovniach jasu predstavujú vážny jav
problém pri fotografovaní. V tomto prípade možnosti fotoaparátu
nestačilo adekvátne previesť väčšinu
svetlé oblasti scény a v dôsledku toho namiesto modrej oblasti
obloha (označená ťahom) má bielu „škvrnu“

Maximálna hodnota jasu, ktorú môže fotocitlivý senzor zaznamenať, je určená úrovňou nasýtenia jeho buniek. Minimálna hodnota závisí od niekoľkých faktorov, vrátane tepelného šumu matice, hluku prenosu náboja a chyby ADC.

Za zmienku tiež stojí, že fotografická šírka rovnakého digitálneho fotoaparátu sa môže líšiť v závislosti od hodnoty citlivosti nastavenej v nastaveniach. Maximálny dynamický rozsah je dosiahnuteľný, keď je nastavená takzvaná základná citlivosť (zodpovedajúca minimálnej možnej číselnej hodnote). So zvyšujúcou sa hodnotou tohto parametra sa dynamický rozsah znižuje v dôsledku zvyšujúcej sa hladiny hluku.

Fotografická šírka moderných modelov digitálnych fotoaparátov vybavených snímačmi veľká veľkosť a 14- alebo 16-bitové ADC, v rozmedzí od 9 do 11 EV, výrazne viac ako 35 mm farebné negatívne filmy (v priemere 4 až 5 EV). Aj relatívne lacné digitálne fotoaparáty majú teda fotografickú šírku dostatočnú na adekvátne sprostredkovanie väčšiny typických predmetov amatérskej fotografie.

Existuje však problém iného druhu. Súvisí to s obmedzeniami, ktoré ukladajú existujúce normy pre záznam digitálnych fotografií. Pri použití formátu JPEG s 8 bitmi na farebný kanál (ktorý sa teraz stal de facto štandardom na zaznamenávanie digitálnych fotografií v počítačovom priemysle a digitálnej technológii) nie je ani teoreticky možné uložiť obrázok s fotografickou šírkou viac ako 8 EV.

Predpokladajme, že ADC fotoaparátu vytvára obraz s 12 alebo 14 bitmi, ktorý obsahuje rozlíšiteľné detaily vo svetlách a tieňoch. Ak však fotografická šírka tohto obrázka prekročí 8 EV, v procese prevodu na štandardný 8-bitový formát bez akýchkoľvek ďalších akcií (to znamená jednoducho odstránením „extra“ bitov) niektoré informácie zaznamenané fotocitlivý senzor sa stratí.

Dynamický rozsah a fotografická šírka

Zjednodušene povedané, dynamický rozsah je definovaný ako pomer maximálnej hodnoty jasu obrazu k jeho minimálnej hodnote. V klasickej fotografii sa tradične používa výraz fotografická šírka, čo v podstate znamená to isté.

Šírku dynamického rozsahu je možné vyjadriť v pomere (napríklad 1 000: 1, 2 500: 1 atď.), Na to sa však najčastejšie používa logaritmická stupnica. V tomto prípade sa vypočíta hodnota desatinného logaritmu pomeru maximálneho jasu k minimálnej hodnote a za číslo sa umiestni veľké písmeno D (z anglickej denzity? - hustota), menej často? - skratka OD (z anglického Optical Density? - Optická hustota). Ak je napríklad pomer maximálnej hodnoty jasu k minimálnej hodnote zariadenia 1 000: 1, potom bude dynamický rozsah 3,0 D:

Na meranie fotografickej šírky sa tradične používajú takzvané expozičné jednotky, označované skratkou EV (z anglických hodnôt expozície; profesionáli ich často nazývajú „zastávky“ alebo „kroky“). Práve v týchto jednotkách je zvyčajne nastavená výška kompenzácie expozície v nastaveniach fotoaparátu. Zvýšenie hodnoty fotografickej šírky o 1 EV sa rovná zdvojnásobeniu rozdielu medzi maximálnou a minimálnou úrovňou jasu. Stupnica EV je teda tiež logaritmická, ale v tomto prípade sa na výpočet číselných hodnôt používa logaritmus základnej 2. Ak napríklad akékoľvek zariadenie poskytuje schopnosť zachytávať obrázky, pomer maximálneho jasu k minimálnej hodnote dosahuje 256: 1, potom je jeho fotografická šírka 8 EV:

Kompresia je múdry kompromis

Najúčinnejším spôsobom, ako zachovať úplné obrazové informácie zachytené svetelným senzorom fotoaparátu, je zaznamenávať obrázky vo formáte RAW. Táto funkcia však nie je k dispozícii vo všetkých fotoaparátoch a nie každý amatérsky fotograf je pripravený zapojiť sa do usilovnej práce pri výbere individuálnych nastavení pre každý záber.

Aby sa znížila pravdepodobnosť straty detailov pri vysokokontrastných obrázkoch prevedených vo vnútri fotoaparátu na 8-bitový formát JPEG, v zariadeniach mnohých výrobcov (nielen kompaktných, ale aj zrkadloviek) boli zavedené špeciálne funkcie, ktoré vám umožňujú komprimovať dynamické rozsah uložených obrázkov bez zásahu používateľa. Znížením celkového kontrastu a stratou nepodstatnej časti informácií na pôvodnom obrázku vám tieto riešenia umožnia uložiť v 8-bitovom formáte JPEG detaily vo svetlých častiach a tieňoch zachytených senzorom zariadenia citlivým na svetlo, aj keď dynamický rozsah pôvodného obrázku je širší ako 8 EV.

Jedným z priekopníkov vo vývoji týmto smerom bola spoločnosť HP. Digitálny fotoaparát HP Photosmart 945, ktorý bol uvedený na trh v roku 2003, predstavil prvú technológiu HP Adaptive Lightling na svete, ktorá automaticky kompenzuje slabé svetlo v tmavých oblastiach obrázkov a zachováva tak detaily tieňa bez rizika preexponovania (čo je veľmi dôležité pri snímaní s vysokým kontrastom. scény). Algoritmus HP Adaptive Lightling je založený na zásadách stanovených anglickým vedcom Edwinom Landom v teórii vizuálneho vnímania človeka RETINEX.

Ponuka HP Adaptive Lighting

Ako funguje adaptívne osvetlenie? Po získaní 12-bitového obrázka z neho je extrahovaný pomocný monochromatický obrázok, čo je vlastne svetelná mapa. Pri spracovaní obrázku sa táto mapa používa ako maska, ktorá vám umožňuje nastaviť stupeň vplyvu pomerne zložitého digitálneho filtra na obrázok. V oblastiach zodpovedajúcich najtmavším bodom mapy je teda vplyv na obraz budúceho obrazu minimálny a naopak. Tento prístup vám umožňuje zobrazovať detaily v tieni selektívnym zosvetlením týchto oblastí a podľa toho znížením celkového kontrastu výsledného obrázku.

Všimnite si toho, že keď je zapnuté Adaptívne osvetlenie, nasnímaný obrázok sa spracuje tak, ako je popísané vyššie, než sa konečný obrázok zapíše do súboru. Všetky popísané operácie sa vykonávajú automaticky a používateľ si môže v ponuke fotoaparátu vybrať iba jeden z dvoch režimov adaptívneho osvetlenia (nízky alebo vysoký stupeň vplyv) alebo deaktivujte túto funkciu.

Všeobecne povedané, mnohé zo špecifických funkcií moderných digitálnych fotoaparátov (vrátane systémov na rozpoznávanie tváre, o ktorých sa hovorilo v predchádzajúcom článku) sú druhom vedľajších produktov alebo produktov konverzie výskumných projektov, ktoré boli pôvodne vykonávané pre vojenských zákazníkov. Pokiaľ ide o funkcie optimalizácie dynamického rozsahu obrázkov, jeden z najznámejších dodávateľov podobné rozhodnutia je spoločnosť Apical. Algoritmy vytvorené jej zamestnancami sú základom funkcie SAT (Shadow Adjustment Technology), ktorá je implementovaná v mnohých digitálnych fotoaparátoch Olympus. Stručne povedané, fungovanie funkcie SAT je možné opísať nasledovne: na základe pôvodného obrázku obrázku sa vytvorí maska ​​zodpovedajúca najtmavším oblastiam a potom sa pre tieto oblasti hodnota expozície automaticky opraví.

Spoločnosť Sony tiež získala licenciu na používanie vývoja spoločnosti Apical. Mnoho kompaktných fotoaparátov Cyber-shot a digitálnych jednookých zrkadloviek radu alpha má takzvanú funkciu Dynamic Range Optimizer (DRO).

Fotografie nasnímané pomocou zariadenia HP Photosmart R927 s (horným) vypnutým
a aktivované adaptívne osvetlenie

Oprava snímky, keď je aktivovaný DRO, sa vykonáva počas počiatočného spracovania obrazu (to znamená pred nahrávaním) hotový súbor Formát JPEG). V základnej verzii má DRO dvojstupňové nastavenie (v ponuke si môžete vybrať štandardný alebo pokročilý režim jeho prevádzky). Keď vyberiete štandardný režim, na základe analýzy obrázka sa opraví hodnota expozície a potom sa na obrázok použije tonálna krivka na vyrovnanie celkového vyváženia. Rozšírený režim používa sofistikovanejší algoritmus na opravu tieňov aj svetlých miest.

Vývojári spoločnosti Sony neustále pracujú na zlepšení algoritmu DRO. Napríklad v zrkadlovke a700 si pri aktivácii pokročilého režimu DRO môžete vybrať jednu z piatich možností korekcie. Okrem toho je implementovaná možnosť uložiť tri varianty jedného obrázku naraz (druh bracketingu) s rôznymi nastaveniami DRO.

Mnoho digitálnych fotoaparátov Nikon je vybavených funkciou D-Lighting, ktorá je tiež založená na algoritmoch Apical. Na rozdiel od vyššie popísaných riešení je však D-Lighting implementovaný vo forme filtra na spracovanie predtým uložených obrázkov pomocou tonálnej krivky, ktorej tvar zosvetľuje tiene a zvyšok obrazu zostáva nezmenený. Ale pretože v tomto prípade sú spracované už hotové 8-bitové obrázky (a nie pôvodný obraz rámca, ktorý má väčšiu bitovú hĺbku a podľa toho aj širší dynamický rozsah), možnosti D-Lighting sú veľmi obmedzené. Rovnaký výsledok môže používateľ získať spracovaním obrázka v grafickom editore.

Pri porovnaní zväčšených fragmentov je jasne viditeľné, že tmavé oblasti pôvodného obrázku (vľavo)
sa stanú svetlejšími, keď je zapnuté adaptívne osvetlenie

Existuje aj množstvo riešení založených na iných princípoch. V mnohých fotoaparátoch rodiny Lumix spoločnosti Panasonic (najmä DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18 atď.) Je teda implementovaná funkcia inteligentnej expozície, ktorá je časť iA inteligentné automatické riadiace systémy. Inteligentná expozícia sa spolieha na automatickú analýzu rámcového obrazu a korekciu tmavých oblastí obrazu, aby sa zabránilo strate detailov v tieňoch, a tiež (v prípade potreby) na kompresiu dynamického rozsahu scén s vysokým kontrastom.

V niektorých prípadoch prevádzkovanie funkcie optimalizácie dynamického rozsahu zahŕňa nielen určité operácie na spracovanie pôvodného obrázku snímky, ale aj opravu nastavení snímania. Napríklad v nových modeloch digitálnych fotoaparátov Fujifilm (najmä v FinePix S100FS) je implementovaná funkcia rozšírenia dynamického rozsahu (Wide Dynamic Range, WDR), ktorá podľa vývojárov umožňuje zväčšenie fotografickej šírky. o jednu alebo dve zastávky (v terminológii nastavení - 200 a 400%).

Keď je aktivovaná funkcia WDR, fotoaparát zhotoví snímky s kompenzáciou expozície –1 alebo –2 EV (v závislosti od zvoleného nastavenia). Obraz rámu je teda podexponovaný - je to nevyhnutné na to, aby sa vo svetlách zachovali maximálne informácie o podrobnostiach. Výsledný obrázok je potom spracovaný pomocou tonálnej krivky na vyrovnanie celkového vyváženia a úpravu úrovne čiernej. Obrázok sa potom skonvertuje do 8-bitového formátu a zaznamená sa ako súbor JPEG.

Kompresia dynamického rozsahu zachováva viac podrobností
vo svetlách a tieňoch, ale nevyhnutným dôsledkom takéhoto nárazu
je zníženie celkového kontrastu. Na spodnom obrázku
textúra mrakov je však oveľa lepšie spracovaná
kvôli nižšiemu kontrastu, táto verzia obrázku
vyzerá menej prirodzene

Podobná funkcia s názvom Dynamic Range Enlargement je implementovaná v mnohých kompaktných a zrkadlovkách Pentaxu (Optio S12, K200D atď.). Podľa výrobcu vám použitie funkcie Dynamic Range Enlargement umožňuje zvýšiť fotografickú šírku o 1 EV bez straty detailov vo svetlách a tieňoch.

Podobná funkcia s názvom Highlight tone priority (HTP) je implementovaná v mnohých modeloch digitálnych zrkadloviek Canon (EOS 40D, EOS 450D atď.). Podľa informácií v používateľskej príručke môže aktivácia HTP zlepšiť detaily vo svetlých častiach (konkrétnejšie v rozsahu úrovní od 0 do 18% šedej).

Záver

Zhrňme si to. Vstavaná kompresia dynamického rozsahu vám umožňuje previesť pôvodný obrázok s vysokým dynamickým rozsahom na 8-bitový s minimálnym poškodením Súbor JPEG... Pri absencii funkcie snímania vo formáte RAW umožňuje kompresia dynamického rozsahu fotografovi naplno využiť potenciál svojho fotoaparátu pri snímaní scén s vysokým kontrastom.

Samozrejme, majte na pamäti, že kompresia dynamického rozsahu nie je kúzelná guľka, ale skôr kompromis. Za zachovanie detailov vo svetlách a / alebo tieňoch musíte zaplatiť zvýšením úrovne šumu v tmavých oblastiach obrazu, znížením jeho kontrastu a určitým zhrubnutím plynulých tónových prechodov.

Rovnako ako všetky automatické funkcie, ani algoritmus kompresie dynamického rozsahu nie je úplne univerzálnym riešením na zlepšenie úplne akéhokoľvek obrazu. A preto má zmysel aktivovať ho iba v tých prípadoch, keď je to skutočne nevyhnutné. Napríklad na to, aby ste mohli zachytiť siluetu s dobre vyvinutým pozadím, je potrebné vypnúť funkciu kompresie dynamického rozsahu - v opačnom prípade bude efektívna scéna beznádejne zničená.

Na záver zváženia tejto témy je potrebné poznamenať, že použitie funkcií kompresie dynamického rozsahu neumožňuje "natiahnuť" na výsledné detaily obrazu, ktoré neboli fixované snímačom fotoaparátu. Aby ste dosiahli uspokojivý výsledok pri snímaní scén s vysokým kontrastom, musíte použiť ďalšie zariadenia (napríklad gradientové filtre na fotografovanie krajiniek) alebo špeciálne techniky (napríklad nasnímanie viacerých rámov s expozičným bracketingom a ich následné skombinovanie do jedného obrázku pomocou mapovania tónov technológie).

Nasledujúci článok sa zameria na funkciu sekvenčného snímania.

Pokračovanie nabudúce

Zamyslime sa nad otázkou - prečo potrebujeme zvýšiť hlasitosť? Aby ste počuli tiché zvuky, ktoré nie sú v našom okolí počuteľné (napríklad ak nemôžete nahlas počúvať, ak existuje cudzí hluk v miestnosti atď.). Je možné zosilniť tiché zvuky bez toho, aby ste sa dotkli hlasných? Ukazuje sa, že môžete. Táto technika sa nazýva kompresia dynamického rozsahu (DRC). Aby ste to urobili, musíte neustále meniť aktuálnu hlasitosť - zosilňovať tiché zvuky, hlasné - nie. Najjednoduchší zákon variácií hlasitosti je lineárny, t.j. objem sa mení podľa zákona output_loudness = k * input_loudness, kde k je kompresný pomer dynamického rozsahu:

Obrázok 18. Kompresia dynamického rozsahu.

Keď k = 1, nevykonajú sa žiadne zmeny (výstupná hlasitosť sa rovná vstupnej). Vidlička< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - hlasitosť sa zníži a dynamický rozsah sa zvýši.

Pozrime sa na grafy hlasitosti (k = 1/2: kompresia DD na polovicu):

Obrázok 19. Grafy hlasitosti.

Ako vidíte v origináli, boli počuť veľmi tiché zvuky, 30 dB pod úrovňou dialógu a veľmi hlasné - 30 dB nad úrovňou dialógu. To. dynamický rozsah bol 60 dB. Po kompresii sú hlasné zvuky iba o 15 dB vyššie a tiché zvuky sú o 15 dB nižšie ako úrovne dialógového okna (dynamický rozsah je teraz 30 dB). Hlasné zvuky sú teda oveľa tichšie a tiché oveľa hlasnejšie. V tomto prípade nedochádza k pretečeniu!

Teraz sa obrátime na histogramy:

Obrázok 20. Príklad kompresie.

Ako vidíte, pri zosilnení do + 30 dB je tvar histogramu dobre zachovaný, čo znamená, že hlasné zvuky zostávajú dobre výrazné (nejdú na maximum a neprerušujú sa, ako sa to stáva pri jednoduchom zosilnení ). Vytvára tiché zvuky. Histogram to ukazuje zle, ale rozdiel je veľmi viditeľný podľa sluchu. Nevýhodou tejto metódy sú rovnaké skoky hlasitosti. Mechanizmus ich výskytu sa však líši od skokov v hlasitosti vyplývajúcich z orezávania a ich povaha je odlišná - objavujú sa hlavne pri veľmi silnom zosilnení tichých zvukov (a nie pri odrezávaní hlasných zvukov, ako pri konvenčnom zosilnení). Nadmerná úroveň kompresie vedie k splošteniu zvukového obrazu - všetky zvuky majú rovnakú hlasitosť a nevýraznosť.

Silné zosilnenie tichých zvukov môže spôsobiť, že budete počuť hluk z nahrávania. Preto sa vo filtri použije mierne upravený algoritmus, aby hladina hluku stúpala menej:

Obrázok 21. Zvýšenie hlasitosti bez zvýšenia hluku.

Títo. pri úrovni hlasitosti -50 dB je prenosová funkcia skloňovaná a šum bude zosilnený menej (žltá čiara). Pri absencii takéhoto skloňovania bude hluk oveľa hlasnejší (sivá čiara). Táto jednoduchá modifikácia výrazne znižuje množstvo šumu aj pri veľmi vysokých úrovniach kompresie (na obrázku - kompresia 1: 5). Úroveň „DRC“ vo filtri teda nastavuje úroveň zosilnenia pre tiché zvuky (na úrovni –50 dB). úroveň kompresie 1/5 zobrazená na obrázku zodpovedá úrovni +40 dB v nastaveniach filtra.