Dynamický rozsah je komprimovaný alebo štandardný. Mastering v opačnom smere: je možné zvýšiť dynamický rozsah komprimovaných nahrávok? Hlavné parametre kompresorov

Druhá časť cyklu je venovaná funkciám optimalizácie dynamického rozsahu snímok. V ňom vysvetlíme, prečo sú takéto riešenia potrebné, zvážime rôzne možnosti ich implementácie, ako aj ich výhody a nevýhody.

Prijmite tú nesmiernosť

Ideálne je, ak kamera zachytáva obraz okolitého sveta tak, ako ho vníma človek. Avšak vzhľadom na to, že mechanizmy „videnia“ kamery a ľudského oka sú výrazne odlišné, existuje množstvo obmedzení, ktoré túto podmienku nedovoľujú splniť.

Jedným z problémov, ktorým predtým čelili používatelia filmových fotoaparátov a ktorým teraz čelia majitelia digitálnych fotoaparátov, je neschopnosť adekvátne zachytiť scény s veľkými rozdielmi vo svetle bez použitia špeciálnych zariadení a/alebo špeciálnych techník snímania. Vlastnosti ľudského zrakového aparátu umožňujú rovnako dobre vnímať detaily vysoko kontrastných scén v jasne osvetlených aj tmavých oblastiach. Bohužiaľ, snímač fotoaparátu nie vždy dokáže zachytiť obraz tak, ako ho vidíme.

Čím väčší je rozdiel v jasoch na fotografovanej scéne, tým vyššia je pravdepodobnosť straty detailov vo svetlách a/alebo tieňoch. Výsledkom je, že namiesto modrej oblohy so sviežimi mrakmi na obrázku sa získa iba belavá škvrna a objekty nachádzajúce sa v tieni sa zmenia na nevýrazné tmavé siluety alebo sa dokonca zlúčia s okolím.

Klasická fotografia používa tento pojem fotografická šírka(podrobnosti nájdete na bočnom paneli). Teoreticky je fotografická šírka digitálnych fotoaparátov určená bitovou hĺbkou analógovo-digitálneho prevodníka (ADC). Napríklad pri použití 8-bitového ADC, berúc do úvahy kvantizačnú chybu, bude teoreticky dosiahnuteľná hodnota fotografickej šírky 7 EV, pre 12-bitový ADC - 11 EV atď. V skutočných zariadeniach je však dynamický rozsah obrázkov pri rovnaké teoretické maximum vplyvom rôznych druhov hluku a iných faktorov.

Veľký rozdiel v úrovniach jasu je vážny
problém s fotografovaním. V tomto prípade možnosti fotoaparátu
nestačilo primerane sprostredkovať maximum
svetlé oblasti scény a v dôsledku toho namiesto modrej oblasti
obloha (označená ťahom) sa ukázala ako biela „náplasť“

Maximálna hodnota jasu, ktorú môže fotosenzitívny senzor zistiť, je určená úrovňou nasýtenia jeho buniek. Minimálna hodnota závisí od niekoľkých faktorov, vrátane množstva tepelného šumu matrice, šumu prenosu náboja a chyby ADC.

Za zmienku tiež stojí, že fotografická šírka toho istého digitálneho fotoaparátu sa môže líšiť v závislosti od hodnoty citlivosti nastavenej v nastaveniach. Maximálny dynamický rozsah je dosiahnuteľný nastavením takzvanej základnej citlivosti (zodpovedajúcej minimálnej možnej číselnej hodnote). S rastúcou hodnotou tohto parametra sa dynamický rozsah znižuje v dôsledku zvýšenej hladiny hluku.

Fotografická šírka moderných modelov digitálnych fotoaparátov vybavených senzormi veľká veľkosť a 14-bitové alebo 16-bitové ADC je 9 až 11 EV, čo je výrazne viac ako pri 35 mm formáte farebného negatívneho filmu (priemer 4 až 5 EV). Dokonca aj relatívne lacné digitálne fotoaparáty majú dostatočnú fotografickú šírku, aby primerane zachytili väčšinu typických amatérskych fotografických scén.

Je tu však problém iného druhu. Súvisí to s obmedzeniami uloženými existujúcimi normami pre záznam digitálnych obrázkov. Použitím formátu JPEG s 8 bitmi na farebný kanál (ktorý sa teraz stal de facto štandardom pre záznam digitálnych obrázkov v počítačovom priemysle a digitálnej technike) je dokonca teoreticky nemožné uložiť obrázok s fotografickou šírkou väčšou ako 8 EV. .

Predpokladajme, že ADC fotoaparátu vám umožňuje získať obrázok s bitovou hĺbkou 12 alebo 14 bitov, ktorý obsahuje rozlíšiteľné detaily vo svetlách aj v tieňoch. Ak však fotografická šírka tohto obrázka presiahne 8 EV, potom v procese konverzie na štandardný 8-bitový formát bez akýchkoľvek dodatočné akcie(čiže jednoduchým vyradením bitov „navyše“) sa časť informácií zaznamenaných fotosenzitívnym snímačom stratí.

Dynamický rozsah a fotografická šírka

Zjednodušene povedané, dynamický rozsah je definovaný ako pomer maximálnej hodnoty jasu obrazu k jeho minimálnej hodnote. V klasickej fotografii sa tradične používa pojem fotografická šírka, čo v podstate znamená to isté.

Šírka dynamického rozsahu môže byť vyjadrená ako pomer (napríklad 1000:1, 2500:1 atď.), ale najčastejšie sa používa logaritmická mierka. V tomto prípade sa vypočíta hodnota dekadického logaritmu pomeru maximálneho jasu k jeho minimálnej hodnote a za číslom nasleduje veľké písmeno D (z anglického hustota? - hustota), menej často? - skratka OD (z anglického optická hustota? - optická hustota). Napríklad, ak je pomer maximálnej hodnoty jasu k minimálnej hodnote akéhokoľvek zariadenia 1000:1, potom dynamický rozsah bude 3,0 D:

Na meranie fotografickej šírky sa tradične používajú takzvané expozičné jednotky označované skratkou EV (z anglického expozičné hodnoty; profesionáli ich často označujú ako „nohy“ alebo „kroky“). Práve v týchto jednotkách sa zvyčajne v nastaveniach fotoaparátu nastavuje hodnota kompenzácie expozície. Zvýšenie hodnoty fotografickej zemepisnej šírky o 1 EV sa rovná zdvojnásobeniu rozdielu medzi maximálnou a minimálnou úrovňou jasu. Stupnica EV je teda tiež logaritmická stupnica, ale v tomto prípade sa na výpočet číselných hodnôt používa logaritmus so základom 2. Fotografická šírka bude 8 EV:

Kompresia je rozumný kompromis

Väčšina efektívnym spôsobom Ak chcete uložiť úplné obrazové informácie zachytené fotosenzitívnym snímačom fotoaparátu, musíte zaznamenať obrázky RAW formát. Nie všetky fotoaparáty však takouto funkciou disponujú a nie každý amatérsky fotograf je pripravený vykonávať starostlivú prácu s výberom individuálnych nastavení pre každý zhotovený záber.

Pre zníženie možnosti straty detailov vo vysoko kontrastných snímkach prevedených do 8-bitového JPEG vo vnútri fotoaparátu boli do zariadení mnohých výrobcov (nielen kompaktných, ale aj zrkadloviek) zavedené špeciálne funkcie, ktoré umožňujú kompresiu dynamického rozsahu uložené obrázky bez zásahu používateľa. Znížením celkového kontrastu a stratou malej časti informácií pôvodného obrázka takéto riešenia umožňujú zachovať v 8-bitovom JPEG detaily vo svetlách a tieňoch zaznamenaných svetlocitlivým snímačom zariadenia, aj keď dynamický rozsah pôvodnej snímky sa ukázal byť širší ako 8 EV.

Jedným z priekopníkov vo vývoji tohto smeru bola spoločnosť HP. Digitálny fotoaparát HP Photosmart 945 bol uvedený na trh v roku 2003 a ako prvý na svete implementoval technológiu HP Adaptive Lightling, ktorá automaticky kompenzuje nedostatok svetla v tmavých oblastiach obrázkov a zachováva tak detaily tieňov bez rizika preexponovania (čo je veľmi dôležité pri snímanie scén s vysokým kontrastom). Algoritmus HP Adaptive Lightling je založený na princípoch, ktoré stanovil anglický vedec Edwin Land v teórii ľudského zrakového vnímania RETINEX.

Ponuka funkcií adaptívneho osvetlenia HP

Ako funguje adaptívne osvetlenie? Po získaní 12-bitového obrázku sa z neho extrahuje pomocný monochromatický obrázok, ktorý je vlastne svetelnou mapou. Pri spracovaní obrázka sa táto mapa používa ako maska, ktorá umožňuje nastaviť mieru vplyvu pomerne zložitého digitálneho filtra na obrázok. V oblastiach zodpovedajúcich najtmavším bodom mapy je teda vplyv na obraz budúceho obrazu minimálny a naopak. Tento prístup vám umožňuje zobraziť detaily v tieňoch selektívnym zosvetlením týchto oblastí a tým aj znížením celkového kontrastu výsledného obrazu.

Je potrebné poznamenať, že keď je aktivovaná funkcia Adaptívne osvetlenie, nasnímaný obrázok sa pred zapísaním konečného obrázka do súboru spracuje spôsobom opísaným vyššie. Všetky popísané operácie sa vykonávajú automaticky a používateľ si môže v menu fotoaparátu vybrať iba jeden z dvoch režimov adaptívneho osvetlenia (nízky resp. vysoký stupeň vplyv) alebo túto funkciu vypnite.

Vo všeobecnosti možno povedať, že mnohé zo špecifických funkcií moderných digitálnych fotoaparátov (vrátane systémov rozpoznávania tváre diskutovaných v predchádzajúcom článku) sú určitými druhmi vedľajších produktov alebo produktov konverzie výskumných projektov, ktoré boli pôvodne realizované pre vojenských zákazníkov. Čo sa týka funkcií optimalizácie dynamického rozsahu obrazu, jeden z najznámejších predajcov podobné rozhodnutia je apikálny. Základom fungovania funkcie SAT (Shadow Adjustment Technology - technológia korekcie tieňov) implementovanej v mnohých digitálnych fotoaparátoch Olympus sú najmä algoritmy vytvorené jej zamestnancami. Fungovanie funkcie SAT možno v stručnosti opísať takto: na základe pôvodného obrázku sa vytvorí maska ​​zodpovedajúca najtmavším oblastiam a následne sa pre tieto oblasti automaticky upraví úroveň expozície.

Spoločnosť Sony tiež získala licenciu na právo používať vývoj spoločnosti Apical. Mnoho modelov kompaktných fotoaparátov radu Cyber-shot a v zrkadlovkách radu alpha má funkciu takzvanej optimalizácie dynamického rozsahu (Dynamic Range Optimizer, DRO).

Fotografie nasnímané s vypnutým zariadením HP Photosmart R927 (hore)
a aktivované adaptívne osvetlenie

Oprava obrazu, keď je aktivovaná funkcia DRO, sa vykonáva počas počiatočného spracovania obrazu (teda pred nahrávaním hotový súbor formát JPEG). DRO má v základnej verzii dvojstupňové nastavenie (v menu si môžete zvoliť štandardný alebo rozšírený režim jeho prevádzky). Keď je vybratý režim Standard, na základe analýzy snímky sa expozícia upraví na hodnotu expozície a potom sa na snímku aplikuje tónová krivka, aby sa vyrovnalo celkové vyváženie. Pokročilý režim používa zložitejší algoritmus, ktorý vám umožňuje vykonávať korekcie v tieňoch aj vo svetlách.

Vývojári Sony neustále pracujú na zlepšovaní algoritmu DRO. Napríklad v zrkadlovke a700 je možné pri aktivácii pokročilého režimu DRO zvoliť jednu z piatich možností korekcie. Okrem toho je možné uložiť tri varianty jednej snímky naraz (akýsi bracketing). rôzne možnosti nastavenia DRO.

Mnoho digitálnych fotoaparátov Nikon má funkciu D-Lighting, ktorá je tiež založená na Apical algoritmoch. Je pravda, že na rozdiel od vyššie popísaných riešení je D-Lighting implementovaný ako filter na spracovanie predtým uložených obrázkov pomocou tónovej krivky, ktorej tvar umožňuje zosvetliť tiene, pričom zvyšok obrázka zostane nezmenený. No keďže sa v tomto prípade spracúvajú hotové 8-bitové snímky (a nie pôvodný obraz snímky, ktorý má vyššiu bitovú hĺbku a teda aj širší dynamický rozsah), sú možnosti D-Lightingu veľmi obmedzené. Používateľ môže získať rovnaký výsledok spracovaním obrázka v grafickom editore.

Pri porovnaní zväčšených fragmentov je jasne vidieť, že tmavé oblasti pôvodného obrázka (vľavo)
keď je zapnutá funkcia adaptívneho osvetlenia, budú svetlejšie

Existuje aj množstvo riešení založených na iných princípoch. Takže v mnohých fotoaparátoch radu Lumix od Panasonic (najmä DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18 atď.) je implementovaná funkcia rozpoznávania osvetlenia (Inteligentná expozícia), ktorý je neoddeliteľnou súčasťou iA inteligentné systémy automatického riadenia streľby. Funkcia inteligentnej expozície je založená na automatickej analýze snímky snímky a korekcii tmavých oblastí snímky, aby sa predišlo strate detailov v tieňoch, ako aj (v prípade potreby) kompresii dynamického rozsahu scén s vysokým kontrastom.

V niektorých prípadoch prevádzka funkcie optimalizácie dynamického rozsahu poskytuje nielen určité operácie na spracovanie pôvodnej snímky, ale aj korekciu nastavení snímania. Napríklad v nových modeloch digitálnych fotoaparátov Fujifilm (najmä vo FinePix S100FS) je implementovaná funkcia rozšírenia dynamického rozsahu (Wide Dynamic Range, WDR), čo podľa vývojárov umožňuje zvýšiť fotografický zemepisnej šírky o jeden alebo dva kroky (v zmysle nastavení - 200 a 400 %).

Keď je aktivovaná funkcia WDR, fotoaparát zhotovuje snímky s kompenzáciou expozície -1 alebo -2 EV (v závislosti od zvoleného nastavenia). Obraz rámu je teda podexponovaný - je to potrebné, aby sa zachovalo maximum informácií o detailoch vo svetlách. Následne je výsledný obraz spracovaný pomocou tónovej krivky, ktorá umožňuje vyrovnať celkové vyváženie a upraviť úroveň čiernej. Obrázok sa potom skonvertuje do 8-bitového formátu a zaznamená sa ako súbor JPEG.

Kompresia dynamického rozsahu umožňuje zachovať viac detailov
vo svetlách a tieňoch, ale nevyhnutným dôsledkom takéhoto nárazu
je zníženie celkového kontrastu. Na spodnom obrázku
textúra oblakov je však oveľa lepšie spracovaná
z dôvodu nižšieho kontrastu tento variant obrazu
vyzerá menej prirodzene

Podobná funkcia s názvom Dynamic Range Enlargement je implementovaná v rade kompaktov a zrkadloviek Pentax (Optio S12, K200D atď.). Využitie funkcie Dynamic Range Enlargement podľa výrobcu umožňuje zväčšiť fotografickú šírku záberov o 1 EV bez straty detailov vo svetlách a tieňoch.

Podobná funkcia s názvom Highlight tone priority (HTP) je implementovaná v niekoľkých modeloch zrkadloviek Canon (EOS 40D, EOS 450D atď.). Podľa informácií v používateľskej príručke umožňuje aktivácia HTP lepšie detaily v zvýrazneniach (konkrétnejšie v rozsahu úrovní od 0 do 18 % sivej).

Záver

Poďme si to zhrnúť. Zabudovaná kompresia dynamického rozsahu umožňuje previesť pôvodný obrázok s veľkým dynamickým rozsahom na 8-bitový s minimálnym poškodením jpeg súbor. Pri absencii ukladania snímok RAW umožňuje režim kompresie dynamického rozsahu fotografovi využiť plný potenciál jeho fotoaparátu pri snímaní scén s vysokým kontrastom.

Samozrejme, majte na pamäti, že kompresia dynamického rozsahu nie je zázračný liek, ale skôr kompromis. Zachovanie detailov vo svetlách a/alebo tieňoch prichádza za cenu zvýšeného šumu v tmavých oblastiach obrazu, zníženého kontrastu a určitého zhrubnutia plynulých tonálnych prechodov.

Ako každá automatická funkcia, ani algoritmus kompresie dynamického rozsahu nie je úplne univerzálnym riešením, ktoré vám umožní vylepšiť absolútne akýkoľvek obrázok. Preto má zmysel aktivovať ho iba v prípadoch, keď je to skutočne potrebné. Napríklad, aby ste mohli nasnímať siluetu s dobre vyvinutým pozadím, musíte vypnúť funkciu kompresie dynamického rozsahu - inak sa veľkolepý dej beznádejne pokazí.

Na záver úvahy o tejto téme treba poznamenať, že použitie funkcií kompresie dynamického rozsahu neumožňuje „vytiahnuť“ z výsledného obrazu detaily, ktoré nezachytil snímač fotoaparátu. Na dosiahnutie uspokojivého výsledku pri snímaní scén s vysokým kontrastom je potrebné použiť prídavné zariadenia (napríklad prechodové filtre na fotografovanie krajiny) alebo špeciálne techniky (napríklad zhotovenie niekoľkých expozične stupňovaných záberov a ich následné spojenie do jednej snímky pomocou mapovania tónov). technológia).

Nasledujúci článok sa zameria na funkciu sériového snímania.

Pokračovanie nabudúce

Táto skupina metód je založená na skutočnosti, že prenášané signály sú podrobené nelineárnym amplitúdovým transformáciám a vo vysielacej a prijímacej časti sú nelinearity vzájomne inverzné. Napríklad, ak vysielač používa nelineárnu funkciu Öu , prijímač používa u 2 . Postupná aplikácia recipročných funkcií povedie k tomu, že celková transformácia zostane lineárna.

Myšlienkou nelineárnych metód kompresie dát je, že vysielač môže pri rovnakej amplitúde výstupných signálov prenášať väčší rozsah zmien prenášaného parametra (teda väčší dynamický rozsah). Dynamický rozsah je pomer najväčšej prípustnej amplitúdy signálu k najmenšej, vyjadrený v relatívnych jednotkách alebo decibeloch:

; (2.17)
. (2.18)

Prirodzená túžba zvýšiť dynamický rozsah znížením U min je obmedzená citlivosťou zariadenia a zvýšením vplyvu rušenia a vlastného hluku.

Kompresia dynamického rozsahu sa najčastejšie vykonáva pomocou dvojice recipročných logaritmických a potenciačných funkcií. Prvá operácia zmeny amplitúdy je tzv kompresia(kompresia), druhá - rozšírenie(natiahnuť). Voľba týchto funkcií je spojená s ich najväčšou možnosťou kompresie.

Zároveň majú tieto metódy aj nevýhody. Prvým z nich je, že logaritmus malého čísla je záporný a v limite:

to znamená, že citlivosť je vysoko nelineárna.

Na zníženie týchto nedostatkov sú obe funkcie modifikované skreslením a aproximáciou. Napríklad pre telefónne kanály má približná funkcia tvar (typ A):

kde A = 87,6. Zisk z kompresie je v tomto prípade 24 dB.

Kompresia dát nelineárnymi postupmi je realizovaná analógovými prostriedkami s veľkými chybami. Použitie digitálnych nástrojov môže výrazne zlepšiť presnosť alebo rýchlosť prevodu. V tomto prípade priame použitie výpočtovej techniky (t. j. priamy výpočet logaritmov a exponenciál) neprinesie najlepší výsledok z dôvodu nízkej rýchlosti a hromadiacich sa chýb vo výpočtoch.

Kompresia údajov kompresiou z dôvodu obmedzení presnosti sa používa v nekritických prípadoch, napríklad pri prenose hlasu cez telefón a rádiové kanály.

Efektívne kódovanie

Efektívne kódy navrhli K. Shannon, Fano a Huffman. Podstata kódov spočíva v tom, že sú nepárne, teda s nerovnakým počtom číslic a dĺžka kódu je nepriamo úmerná pravdepodobnosti jeho výskytu. Ďalšou skvelou vlastnosťou efektívnych kódov je, že nevyžadujú oddeľovače, t.j. špeciálne znaky oddelenie susedných kombinácií kódov. To sa dosiahne dodržiavaním jednoduchého pravidla: kratšie kódy nie sú začiatkom dlhších. V tomto prípade je súvislý bitový tok jednoznačne dekódovaný, pretože dekodér deteguje najskôr kratšie vzory. Účinné kódexy na dlhú dobu boli čisto akademické, ale v poslednej dobe sa úspešne používajú pri vytváraní databáz, ako aj pri kompresii informácií v moderných modemoch a softvérových archivátoroch.

Kvôli nerovnomernosti sa zavádza priemerná dĺžka kódu. Priemerná dĺžka - matematické očakávanie dĺžky kódu:

navyše l cf smeruje k H(x) zhora (to znamená l cf > H(x)).

S pribúdajúcim N sa splnenie podmienky (2.23) stáva silnejším.

Existujú dva typy efektívnych kódov: Shannon-Fano a Huffman. Zoberme si príklad, aby sme ich získali. Predpokladajme, že pravdepodobnosti znakov v sekvencii majú hodnoty uvedené v tabuľke 2.1.

Tabuľka 2.1.

Pravdepodobnosti symbolov

N
pi 0.1 0.2 0.1 0.3 0.05 0.15 0.03 0.02 0.05

Symboly sú zoradené, to znamená, že sú uvedené v sérii v zostupnom poradí pravdepodobnosti. Potom sa podľa metódy Shannon-Fano periodicky opakuje nasledujúci postup: celá skupina udalostí sa rozdelí na dve podskupiny s rovnakými (alebo približne rovnakými) celkovými pravdepodobnosťami. Postup pokračuje dovtedy, kým jeden prvok nezostane v ďalšej podskupine, potom sa tento prvok odstráni a zadané akcie pokračujú so zvyšnými. Takto to pokračuje, kým v posledných dvoch podskupinách nezostane iba jeden prvok. Pokračujme v úvahách o našom príklade, ktorý je zhrnutý v tabuľke 2.2.

Tabuľka 2.2.

Shannon-Fano kódovanie

N Pi
4 0.3 ja
0.2 ja II
6 0.15 ja ja
0.1 II
1 0.1 ja ja
9 0.05 II II
5 0.05 II ja
7 0.03 II II ja
8 0.02 II

Ako je zrejmé z tabuľky 2.2, prvý symbol s pravdepodobnosťou p 4 = 0,3 sa zúčastnil dvoch procedúr rozdelenia do skupín a oba časy spadal do skupiny s číslom I . Podľa toho je kódovaný dvojmiestnym kódom II. Druhý prvok v prvom štádiu delenia patril do skupiny I, v druhom do skupiny II. Preto je jeho kód 10. Kódy zvyšných znakov nepotrebujú ďalší komentár.

Nejednotné kódy sú zvyčajne zobrazené ako kódové stromy. Strom kódov je graf označujúci povolené kombinácie kódov. Smery hrán tohto grafu sú predbežne nastavené, ako je znázornené na obr. 2.11 (výber smerov je ľubovoľný).

Podľa grafu sa riadia nasledovne: zostavte trasu pre vybraný symbol; počet bitov sa rovná počtu hrán v ceste a hodnota každého bitu sa rovná smeru zodpovedajúcej hrany. Trasa sa kreslí z miesta štartu (na výkrese je označená písmenom A). Napríklad cesta k vrcholu 5 pozostáva z piatich hrán, z ktorých všetky okrem poslednej majú smer 0; dostaneme kód 00001.

Pre tento príklad vypočítame entropiu a priemernú dĺžku slova.

H(x) = -(0,3 log 0,3 + 0,2 log 0,2 + 2 0,1 log 0,1+ 2 0,05 log 0,05+

0,03 log 0,03 + 0,02 log 0,02) = 2,23 bitov

lav = 0,3 2 + 0,2 2 + 0,15 3 + 0,1 3 + 0,1 4 + 0,05 5 + 0,05 4+

0.03 6 + 0.02 6 = 2.9 .

Ako vidíte, priemerná dĺžka slova je blízka entropii.

Huffmanove kódy sú zostavené podľa iného algoritmu. Proces kódovania pozostáva z dvoch krokov. V prvej fáze sa postupne vykonáva jednorazová kompresia abecedy. Jednorazová kompresia - nahradenie posledných dvoch znakov (s najnižšou pravdepodobnosťou) jedným, s celkovou pravdepodobnosťou. Kompresia sa vykonáva, kým nezostanú dva znaky. Zároveň sa vyplní kódovacia tabuľka, v ktorej sú uvedené výsledné pravdepodobnosti a znázornené sú aj trasy, po ktorých prechádzajú nové symboly v ďalšej fáze.

V druhej fáze prebieha skutočné kódovanie, ktoré začína od poslednej fázy: prvému z dvoch znakov je priradený kód 1, druhému - 0. Potom prejdú do predchádzajúcej fázy. Znakom, ktoré sa v tomto štádiu nezúčastnili kompresie, sa priradia kódy z ďalšej fázy a k posledným dvom znakom sa dvakrát priradí kód znaku získaný po zlepení a pripojí sa ku kódu horného znaku 1, nižšia - 0. Ak sa znak ďalej nezúčastňuje lepenia, jeho kód zostáva nezmenený. Postup pokračuje až do konca (to znamená do prvej fázy).

Tabuľka 2.3 ukazuje Huffmanovo kódovanie. Ako je zrejmé z tabuľky, kódovanie sa uskutočnilo v 7 etapách. Vľavo sú pravdepodobnosti symbolov, vpravo stredné kódy. Šípky ukazujú pohyby novovytvorených symbolov. V každej fáze sa posledné dva znaky líšia len najmenej významným bitom, ktorý zodpovedá technike kódovania. Vypočítajte priemernú dĺžku slova:

lav = 0,3 2 + 0,2 2 + 0,15 3 ++ 2 0,1 3 + +0,05 4 + 0,05 5 + 0,03 6 + 0,02 6 = 2,7

Toto je ešte bližšie k entropii: kód je ešte efektívnejší. Na obr. 2.12 ukazuje strom Huffmanovho kódu.

Tabuľka 2.3.

Huffmanovo kódovanie

N pi kód ja II III IV V VI VII
0.3 0.3 11 0.3 11 0.3 11 0.3 11 0.3 11 0.4 0 0.6 1
0.2 0.2 01 0.2 01 0.2 01 0.2 01 0.3 10 0.3 11 0.4 0
0.15 0.15 101 0.15 101 0.15 101 0.2 00 0.2 01 0.3 10
0.1 0.1 001 0.1 001 0.15 100 0.15 101 0.2 00
0.1 0.1 000 0.1 000 0.1 001 0.15 100
0.05 0.05 1000 0.1 1001 0.1 000
0.05 0.05 10011 0.05 1000
0.03 0.05 10010
0.02

Oba kódy spĺňajú požiadavku jednoznačného dekódovania: ako je zrejmé z tabuliek, kratšie kombinácie nie sú začiatkom dlhších kódov.

So zvyšujúcim sa počtom znakov sa zvyšuje efektívnosť kódov, preto sa v niektorých prípadoch kódujú väčšie bloky (napríklad pri textoch môžete zakódovať niektoré z najbežnejších slabík, slov a dokonca aj fráz. ).

Účinok zavedenia takýchto kódov sa určuje ich porovnaním s jednotným kódom:

(2.24)

kde n je počet číslic jednotného kódu, ktorý sa nahrádza platným kódom.

Úpravy Huffmanových kódov

Klasický Huffmanov algoritmus sa týka dvojpriechodového, t.j. vyžaduje najprv súbor štatistík o symboloch a správach a potom postupy opísané vyššie. To je v praxi nepohodlné, pretože to zvyšuje čas na spracovanie správ a akumuláciu slovníka. Bežnejšie sa používajú jednopriechodové metódy, v ktorých sa kombinujú postupy akumulácie a kódovania. Takéto metódy sa tiež nazývajú Huffmanova adaptívna kompresia [46].

Podstata adaptívnej kompresie podľa Huffmana sa redukuje na konštrukciu počiatočného kódového stromu a jeho následnú úpravu po príchode každého ďalšieho znaku. Tak ako predtým, aj tu sú stromy binárne, t.j. z každého vrcholu stromu grafu vychádzajú maximálne dva oblúky. Je zvykom nazývať počiatočný vrchol rodičom a ďalšie dva vrcholy s ním spojené - deti. Zavedieme si pojem váhy vrcholu – ide o počet znakov (slov) zodpovedajúcich danému vrcholu, získaný pri odovzdaní pôvodnej sekvencie. Je zrejmé, že súčet váh detí sa rovná váhe rodiča.

Po zavedení ďalšieho symbolu vstupnej sekvencie sa kódový strom zreviduje: prepočítajú sa váhy vrcholov a v prípade potreby sa vrcholy preusporiadajú. Pravidlo permutácie vrcholov je nasledovné: váhy dolných vrcholov sú najmenšie a vrcholy naľavo od grafu majú najmenšie váhy.

Zároveň sú vrcholy očíslované. Číslovanie začína od spodných (závesných, t.j. bez detí) vrcholov zľava doprava, potom sa prenesie do hornej úrovne atď. až po číslovanie posledného, ​​počiatočného vrcholu. V tomto prípade sa dosiahne nasledujúci výsledok: čím menšia je hmotnosť vrcholu, tým menšie je jeho číslo.

Permutácia sa vykonáva hlavne pre závesné vrcholy. Pri preskupovaní treba brať do úvahy vyššie formulované pravidlo: vrcholy s veľkou hmotnosťou majú aj väčší počet.

Po prejdení sekvenciou (nazýva sa aj kontrola alebo test) sú kombinácie kódov priradené všetkým visiacim vrcholom. Pravidlo prideľovania kódu je podobné ako vyššie: počet kódových bitov sa rovná počtu vrcholov, cez ktoré trasa prechádza od zdroja k danému závesnému vrcholu, a hodnota konkrétneho bitu zodpovedá smeru od rodič na "dieťa" (povedzme, pohyb doľava od rodiča zodpovedá hodnote 1, doprava - 0).

Výsledné kombinácie kódov sa vkladajú do pamäte kompresného zariadenia spolu s ich náprotivkami a tvoria slovník. Použitie algoritmu je nasledovné. Komprimovaná sekvencia znakov je rozdelená na fragmenty podľa dostupného slovníka, po ktorých je každý z fragmentov nahradený svojim kódom zo slovníka. Fragmenty, ktoré sa v slovníku nenachádzajú, tvoria nové visiace vrcholy, priberajú na váhe a sú tiež zapísané do slovníka. Takto sa vytvorí adaptívny algoritmus dopĺňania slovníka.

Na zvýšenie účinnosti metódy je žiaduce zväčšiť veľkosť slovníka; v tomto prípade sa zvýši kompresný pomer. V praxi je veľkosť slovníka 4 - 16 KB pamäte.


Ukážme si vyššie uvedený algoritmus na príklade. Na obr. 2.13 ukazuje pôvodný diagram (nazývaný aj Huffmanov strom). Každý vrchol stromu je znázornený obdĺžnikom, v ktorom sú dve číslice zadané cez zlomok: prvý označuje číslo vrcholu, druhý - jeho hmotnosť. Ako vidíte, súlad medzi váhami vrcholov a ich číslami je splnený.

Predpokladajme teraz, že symbol zodpovedajúci vrcholu 1 sa v testovacej sekvencii vyskytuje druhýkrát. Hmotnosť vrcholu sa zmenila, ako je znázornené na obr. 2.14, v dôsledku čoho je porušené pravidlo číslovania vrcholov. V ďalšej fáze zmeníme umiestnenie visiacich vrcholov, za ktoré vymeníme vrcholy 1 a 4 a prečíslujeme všetky vrcholy stromu. Výsledný graf je znázornený na obr. 2.15. Postup potom pokračuje rovnakým spôsobom.

Malo by sa pamätať na to, že každý visiaci uzol v Huffmanovom strome zodpovedá určitému znaku alebo skupine z nich. Rodič sa od detí líši tým, že jemu zodpovedajúca skupina postáv je o jeden znak kratšia ako jeho deti a tieto deti sa líšia posledným znakom. Napríklad rodič sa zhoduje so znakmi „kar“; potom môžu mať deti sekvencie „kara“ a „karp“.

Vyššie uvedený algoritmus nie je akademický a aktívne sa používa v programoch na archiváciu, a to aj pri komprimácii grafických údajov (o nich sa bude diskutovať nižšie).

Algoritmy Lempel-Ziva

Toto sú dnes najčastejšie používané kompresné algoritmy. Používajú sa vo väčšine programov - archivátorov (napríklad PKZIP, ARJ, LHA). Podstata algoritmov spočíva v tom, že určitá množina znakov je pri archivácii nahradená jej číslom v špeciálne vytvorenom slovníku. Napríklad fráza „Odchádzajúce číslo pre váš list ...“, ktorá sa často nachádza v obchodnej korešpondencii, môže v slovníku obsadiť pozíciu 121; potom namiesto prenosu alebo uloženia uvedenej frázy (30 bajtov) môžete uložiť číslo frázy (1,5 bajtu v BCD alebo 1 bajt v binárnom).

Algoritmy sú pomenované podľa autorov, ktorí ich prvýkrát navrhli v roku 1977. Prvým z nich je LZ77. Pre archiváciu je vytvorené takzvané message-sliding window, ktoré pozostáva z dvoch častí. Prvá časť, väčší formát, slúži na vytvorenie slovníka a má veľkosť rádovo niekoľko kilobajtov. Druhá, menšia časť (zvyčajne do 100 bajtov) prijíma aktuálne znaky prezeraného textu. Algoritmus sa pokúša nájsť množinu znakov v slovníku, ktorá sa zhoduje so znakmi prijatými vo výreze. Ak sa to podarí, vytvorí sa kód pozostávajúci z troch častí: posun v slovníku vzhľadom na jeho počiatočný podreťazec, dĺžka tohto podreťazca a znak nasledujúci za týmto podreťazcom. Napríklad vybraný podreťazec pozostáva zo znakov „app“ (celkovo 6 znakov), za ním nasledujúci znak je „e“. Potom, ak má podreťazec adresu (miesto v slovníku) 45, potom záznam v slovníku vyzerá ako "45, 6. e". Potom sa obsah okna posunie o pozíciu a vyhľadávanie pokračuje. Tak sa vytvorí slovník.

Výhodou algoritmu je ľahko formalizovaný algoritmus kompilácie slovníka. Rozbaľovanie je navyše možné aj bez úvodného slovníka (je žiaduce mať zároveň aj testovaciu sekvenciu) – slovník sa tvorí pri rozbaľovaní.

Nevýhody algoritmu sa prejavia, keď sa veľkosť slovníka zväčší - čas na vyhľadávanie sa zvýši. Navyše, ak sa v aktuálnom okne objaví reťazec znakov, ktorý nie je v slovníku, každý znak sa zapíše trojprvkovým kódom, t.j. Nie je to kompresia, ale expanzia.

Najlepšie vlastnosti má algoritmus LZSS navrhnutý v roku 1978. Má rozdiely v údržbe posuvného okna a výstupných kódov kompresora. Okrem okna algoritmus vytvára binárny strom podobný Huffmanovmu stromu na urýchlenie vyhľadávania zhôd: každý podreťazec, ktorý opustí aktuálne okno, sa pridá do stromu ako jedno z potomkov. Tento algoritmus vám umožňuje dodatočne zväčšiť veľkosť aktuálneho okna (je žiaduce, aby sa jeho hodnota rovnala mocnine dvoch: 128, 256 atď. bajtov). Sekvenčné kódy sú tiež tvorené odlišne: zavádza sa dodatočná 1-bitová predpona na rozlíšenie nezakódovaných znakov od párov „offset, dĺžka“.

Ešte väčší stupeň kompresie sa dosiahne pri použití algoritmov, ako je LZW. Algoritmy opísané vyššie majú pevnú veľkosť okna, čo znemožňuje zadávanie fráz dlhších ako je veľkosť okna do slovníka. V algoritmoch LZW (a ich predchodcovi LZ78) má výrez neobmedzenú veľkosť a slovník zhromažďuje frázy (a nie zbierku znakov ako predtým). Slovník má neobmedzenú dĺžku a kodér (dekodér) pracuje vo frázovom čakacom režime. Keď sa vytvorí fráza zodpovedajúca slovníku, vráti sa kód zhody (t. j. kód tejto frázy v slovníku) a kód znaku, ktorý za ňou nasleduje. Ak sa pri hromadení znakov vytvorí nová fráza, zapíše sa aj do slovníka, ako aj kratšia. Výsledkom je rekurzívna procedúra, ktorá poskytuje rýchle kódovanie a dekódovanie.

Dodatočnú schopnosť kompresie poskytuje komprimované kódovanie opakujúcich sa znakov. Ak v sekvencii nasledujú niektoré znaky za sebou (napr. v texte to môžu byť znaky „medzery“, v číselnom poradí – po sebe idúce nuly a pod.), potom má zmysel nahradiť ich dvojicou „znakov“. ; dĺžka" alebo "znak, dĺžka". V prvom prípade kód označuje znak, že sekvencia bude kódovaná (zvyčajne 1 bit), potom kód opakujúceho sa znaku a dĺžku sekvencie. V druhom prípade (poskytnutom pre najčastejšie sa opakujúce znaky) predpona jednoducho označuje znak opakovaní.

Dynamická kompresia(Dynamic range compress, DRC) - zúženie (alebo rozšírenie v prípade expandéra) dynamického rozsahu zvukového záznamu. Dynamický rozsah, je rozdiel medzi najtichším a najhlasnejším zvukom. Niekedy bude najtichší zvuk vo zvukovom zázname o niečo hlasnejší ako hladina hluku a niekedy o niečo tichší ako najhlasnejší. Hardvérové ​​zariadenia a programy, ktoré vykonávajú dynamickú kompresiu, sa nazývajú kompresory a rozlišujú medzi nimi štyri hlavné skupiny: samotné kompresory, obmedzovače, expandéry a brány.

Rúrkový analógový kompresor DBX 566

Kompresia nadol a nahor

downkompresia(Kompresia smerom nadol) znižuje hlasitosť zvuku, keď prekročí určitú hranicu, pričom tichšie zvuky zostanú nezmenené. Extrémna verzia downkompresie je obmedzovač. Horná kompresia(Stlačenie smerom nahor) naopak zvyšuje hlasitosť zvuku, ak je pod prahovou hodnotou, bez ovplyvnenia hlasnejších zvukov. Oba typy kompresie zároveň zužujú dynamický rozsah zvukového signálu.

downkompresia

Horná kompresia

Expander a brána

Ak kompresor zníži dynamický rozsah, expandér ho zvýši. Keď sa úroveň signálu dostane nad prahovú úroveň, expandér ju ešte zvýši, čím sa zvýši rozdiel medzi hlasitými a tichými zvukmi. Takéto zariadenia sa často používajú pri nahrávaní súpravy bicích na oddelenie zvukov jedného bubna od druhého.

Typ expandéra, ktorý sa používa nie na zosilnenie hlasných zvukov, ale na tlmenie jemných zvukov, ktoré nepresahujú prahovú úroveň (napr. hluk pozadia) sa nazýva hluková brána. V takomto zariadení, akonáhle hladina zvuku klesne pod prahovú hodnotu, signál prestane prechádzať. Typicky sa brána používa na potlačenie hluku v pauzách. Pri niektorých modeloch sa môžete uistiť, že zvuk sa po dosiahnutí prahovej úrovne náhle nezastaví, ale postupne zoslabne. V tomto prípade je rýchlosť poklesu nastavená ovládačom Decay.

Gate, rovnako ako iné typy kompresorov, môže byť frekvenčne závislé(t. j. zaobchádzať s určitými frekvenčnými pásmami odlišne) a môže fungovať v bočný reťazec(Pozri nižšie).

Princíp činnosti kompresora

Signál vstupujúci do kompresora je rozdelený na dve kópie. Jedna kópia sa posiela do zosilňovača, v ktorom je zosilnenie riadené externým signálom, druhá kópia tvorí tento signál. Vstúpi do zariadenia zvaného side-chain, kde sa meria signál a na základe týchto údajov sa vytvorí obálka, ktorá popisuje zmenu jeho objemu.
Takto je usporiadaná väčšina moderných kompresorov, ide o takzvaný feed-forward typ. V starších zariadeniach (typ spätnej väzby) sa úroveň signálu meria za zosilňovačom.

Existujú rôzne analógové technológie na riadené zosilnenie (zosilnenie s premenlivým ziskom), z ktorých každá má svoje výhody a nevýhody: trubicové, optické s použitím fotorezistorov a tranzistorov. Pri práci s digitálnym zvukom (v zvukový editor alebo DAW) môžu používať svoje vlastné matematické algoritmy alebo napodobňovať prácu analógových technológií.

Hlavné parametre kompresorov

Prah

Kompresor znižuje úroveň zvukového signálu, ak jeho amplitúda prekročí určitú prahovú hodnotu (prah). Zvyčajne sa uvádza v decibeloch, pričom nižší prah (napr. -60 dB) znamená, že sa spracuje viac zvuku ako vyšší prah (napr. -5 dB).

pomer

Miera zníženia úrovne je určená parametrom pomeru: pomer 4:1 znamená, že ak je vstupná úroveň 4 dB nad prahovou hodnotou, výstupná úroveň bude 1 dB nad prahovou hodnotou.
Napríklad:
Prah = -10dB
Vstupný signál = -6 dB (4 dB nad prahovou hodnotou)
Výstupný signál = -9 dB (1 dB nad prahovou hodnotou)

Je dôležité mať na pamäti, že potlačenie úrovne signálu pokračuje ešte nejaký čas po jej poklese pod prahovú úroveň a tento čas je určený hodnotou parametra uvoľniť.

Kompresia s maximálnym pomerom ∞:1 sa nazýva obmedzujúca. To znamená, že každý signál nad prahovou úrovňou je zoslabený na prahovú úroveň (okrem krátkeho obdobia po náhlom zvýšení vstupnej hlasitosti). Podrobnosti nájdete v časti „Obmedzovač“ nižšie.

Príklady rôznych hodnôt pomeru

Útok a uvoľnenie

Kompresor poskytuje určitú kontrolu nad tým, ako rýchlo reaguje na meniacu sa dynamiku signálu. Parameter Attack určuje čas, ktorý potrebuje kompresor na zníženie zosilnenia na úroveň špecifikovanú parametrom Ratio. Release určuje čas, ktorý kompresor potrebuje na zvýšenie zosilnenia alebo na návrat do normálu, ak vstupná úroveň klesne pod prahovú hodnotu.

Fázy útoku a uvoľnenia

Tieto parametre udávajú čas (zvyčajne v milisekundách), ktorý je potrebný na zmenu zosilnenia o určitý počet decibelov, zvyčajne o 10 dB. Napríklad v tomto prípade, ak je Attack nastavený na 1 ms, bude trvať 1 ms, kým sa zisk zníži o 10 dB, a 2 ms o 20 dB.

V mnohých kompresoroch je možné upraviť parametre Attack a Release, ale v niektorých sú prednastavené a nie sú nastaviteľné. Niekedy sa označujú ako „automatické“ alebo „závislé na programe“, t.j. meniť v závislosti od vstupného signálu.

koleno

Ďalšia možnosť kompresora: tvrdé/mäkké koleno. Určuje, či začiatok aplikácie kompresie bude náhly (tvrdý) alebo postupný (mäkký). Mäkké koleno znižuje viditeľnosť prechodu signálu zo suchého na stlačený, najmä pri vysokých pomeroch a náhlom zvýšení hlasitosti.

Hard Knee a Soft Knee Compression

Vrchol a RMS

Kompresor môže reagovať na špičkové (krátkodobé maximálne) hodnoty alebo na priemernú úroveň vstupného signálu. Použitie špičkových hodnôt môže viesť k veľkým výkyvom v stupni kompresie a dokonca k skresleniu. Preto kompresory aplikujú funkciu spriemerovania (zvyčajne RMS) vstupného signálu, keď ho porovnávajú s prahovou hodnotou. To poskytuje pohodlnejšiu kompresiu, ktorá je bližšia ľudskému vnímaniu hlasitosti.

RMS je parameter, ktorý odráža priemernú hlasitosť zvukového záznamu. Z matematického hľadiska RMS (Root Mean Square) je stredná kvadratická hodnota amplitúdy určitého počtu vzoriek:

stereo prepojenie

Kompresor v režime stereo prepojenia aplikuje rovnaký zisk na oba stereo kanály. Tým sa zabráni posunutiu stereo panorámy, ktoré môže byť výsledkom spracovania ľavého a pravého kanálu jednotlivo. K takémuto posunu dôjde, ak je napríklad akýkoľvek hlasný prvok posunutý mimo stredu.

zisk make-upu

Keďže kompresor znižuje celkovú úroveň signálu, je bežné pridať k výstupu možnosť pevného zosilnenia, aby sa dosiahla optimálna úroveň.

Pozerať sa dopredu

Funkcia dopredu je určená na riešenie problémov spojených s príliš veľkými a príliš malými hodnotami Attack and Release. Príliš dlhý čas útoku neumožňuje efektívne zachytenie prechodových javov a príliš krátky čas útoku nemusí byť pre poslucháča pohodlný. Pri použití funkcie dopredu je hlavný signál oneskorený vzhľadom na riadiaci signál, čo umožňuje spustenie kompresie v predstihu, ešte predtým, ako signál dosiahne prahovú hodnotu.
Jedinou nevýhodou tejto metódy je časové oneskorenie signálu, ktoré je v niektorých prípadoch nežiaduce.

Použitie dynamickej kompresie

Kompresia sa používa všade, nielen pri hudobných zvukových záznamoch, ale aj všade tam, kde je potrebné zvýšiť celkovú hlasitosť bez zvýšenia špičkových úrovní, kde sa používajú lacné zariadenia na reprodukciu zvuku alebo obmedzený prenosový kanál (ozvučovacie a komunikačné systémy, amatérske rádio atď. .).

Kompresia sa používa pri prehrávaní hudby na pozadí (v obchodoch, reštauráciách atď.), kde sú nežiaduce akékoľvek viditeľné zmeny hlasitosti.

Ale najdôležitejšia oblasť použitia dynamická kompresia- hudobná produkcia a vysielanie. Kompresia sa používa na dodanie zvuku „hrúbku“ a „drive“, na lepšie vzájomné zladenie nástrojov a najmä pri spracovaní vokálov.

Vokály v rockovej a popovej hudbe sú zvyčajne komprimované, aby vynikli od sprievodu a dodali jasnosti. zvláštny druh na potlačenie syčivých foném sa používa kompresor naladený len na určité frekvencie - de-esser.

V inštrumentálnych častiach sa kompresia používa aj pre efekty, ktoré priamo nesúvisia s hlasitosťou, napríklad rýchlo slabnúce zvuky bicích sa môžu predĺžiť.

Elektronická tanečná hudba (EDM) často využíva bočné reťazenie (pozri nižšie) – napríklad basová linka môže byť poháňaná kopákom alebo podobne, aby sa predišlo konfliktu basov/bicí a vytvorilo sa dynamické pulzovanie.

Kompresia je široko používaná vo vysielaní (rádio, TV, internet) na zvýšenie vnímanej hlasitosti a zároveň zníženie dynamického rozsahu pôvodného zvuku (zvyčajne CD). Väčšina krajín má zákonné limity na okamžitú maximálnu hlasitosť, ktorá sa môže vysielať. Zvyčajne sú tieto obmedzenia implementované permanentnými hardvérovými kompresormi v okruhu on-air. Navyše, zvýšenie vnímanej hlasitosti zlepšuje „kvalitu“ zvuku z pohľadu väčšiny poslucháčov.

pozri tiež Vojna hlasitosti.

Postupné zvyšovanie hlasitosti tej istej skladby, remastrovanej na CD od roku 1983 do roku 2000.

bočné reťazenie

Ďalším bežným spínačom kompresora je "bočný reťazec". V tomto režime je zvuk komprimovaný nie v závislosti od vlastnej úrovne, ale v závislosti od úrovne signálu prichádzajúceho do konektora, ktorý sa zvyčajne nazýva bočný reťazec.

Využití na to je viacero. Napríklad spevák píska a všetky písmená „s“ vyčnievajú z celkového obrazu. Prejdete jeho hlasom cez kompresor a ten istý zvuk sa privedie do bočného reťazového konektora, ale prejde cez ekvalizér. Na ekvalizéri odstránite všetky frekvencie okrem tých, ktoré používa spevák pri vyslovovaní písmena „c“. Zvyčajne okolo 5 kHz, ale môže byť od 3 kHz do 8 kHz. Ak potom prepnete kompresor do režimu bočného reťazca, kompresia hlasu nastane v momentoch, keď sa vysloví písmeno „s“. Tak sa získalo zariadenie známe ako „de-esser“ (de-esser). Tento spôsob práce sa nazýva frekvenčne závislý.

Ďalšia aplikácia tejto funkcie sa nazýva „ducker“. Napríklad v rádiu ide hudba cez kompresor a slová DJ-a idú cez vedľajší reťazec. Keď DJ začne chatovať, hlasitosť hudby sa automaticky zníži. Tento efekt je možné úspešne aplikovať aj pri nahrávaní, napríklad na zníženie hlasitosti klávesových partov pri speve.

obmedzenie tehlovej steny

Kompresor a obmedzovač fungujú približne rovnako, môžeme povedať, že obmedzovač je kompresor s vysokým pomerom (od 10:1) a zvyčajne s nízkou dobou nábehu.

Existuje koncept obmedzovania tehlovej steny - obmedzovanie s veľmi vysokým pomerom (od 20:1 a vyššie) a veľmi rýchlym útokom. Ideálne je, ak signál vôbec neprekročí prahovú úroveň. Výsledok bude pre ucho nepríjemný, ale zabráni poškodeniu zariadenia na reprodukciu zvuku alebo prekročeniu šírku pásma kanál. Mnoho výrobcov integruje do svojich zariadení obmedzovače práve na tento účel.

Clipper vs. Obmedzovač, mäkké a tvrdé strihanie

V čase, keď výskumníci len začínali riešiť problém vytvorenia rečového rozhrania pre počítače, museli si často vyrobiť vlastné zariadenie, ktoré umožňuje zadávať zvukové informácie do počítača, ako aj výstup z počítača. Dnes môžu byť takéto zariadenia len historicky zaujímavé, pretože moderné počítače môžu byť jednoducho vybavené zvukovými vstupnými a výstupnými zariadeniami, ako sú zvukové adaptéry, mikrofóny, slúchadlá a reproduktory.

Nebudeme zachádzať do podrobností o vnútornej štruktúre týchto zariadení, ale povieme si o tom, ako fungujú, a poskytneme niekoľko odporúčaní pre výber zvukových počítačových zariadení na prácu so systémami rozpoznávania a syntézy reči.

Ako sme si povedali v predchádzajúcej kapitole, zvuk nie je nič iné ako vibrácie vzduchu, ktorých frekvencia leží vo frekvenčnom rozsahu vnímanom človekom. Presné hranice rozsahu počuteľných frekvencií sa môžu líšiť od človeka k človeku, ale predpokladá sa, že zvukové vibrácie ležia v rozsahu 16-20 000 Hz.

Úlohou mikrofónu je premieňať zvukové vibrácie na elektrické vibrácie, ktoré je možné následne zosilniť, filtrovať na odstránenie rušenia a digitalizovať na zadávanie zvukových informácií do počítača.

Podľa princípu činnosti sa najbežnejšie mikrofóny delia na uhlíkové, elektrodynamické, kondenzátorové a elektretové. Niektoré z týchto mikrofónov vyžadujú externý zdroj prúd (napríklad uhlie a kondenzátor), iné sú pod vplyvom zvukových vibrácií schopné samostatne vytvárať striedavé elektrické napätie (ide o elektrodynamické a elektretové mikrofóny).

Môžete tiež oddeliť mikrofóny podľa účelu. Existujú štúdiové mikrofóny, ktoré sa dajú držať v ruke alebo namontovať na stojan, existujú rádiové mikrofóny, ktoré sa dajú pripnúť na odev atď.

Existujú aj mikrofóny navrhnuté špeciálne pre počítače. Tieto mikrofóny sú zvyčajne namontované na stojane umiestnenom na povrchu stola. Počítačové mikrofóny je možné kombinovať so slúchadlami, ako je znázornené na obr. 2-1.

Ryža. 2-1. Slúchadlá s mikrofónom

Ako si z celej škály mikrofónov vybrať ten, ktorý sa najlepšie hodí pre systémy rozpoznávania reči?

V zásade môžete experimentovať s akýmkoľvek mikrofónom, ktorý máte, pokiaľ ho možno pripojiť k zvukovému adaptéru vášho počítača. Vývojári systémov rozpoznávania reči však odporúčajú zakúpiť si mikrofón, ktorý bude počas prevádzky v konštantnej vzdialenosti od úst hovoriaceho.

Ak sa vzdialenosť medzi mikrofónom a ústami nezmení, potom sa príliš nezmení ani priemerná úroveň elektrického signálu prichádzajúceho z mikrofónu. To bude mať pozitívny vplyv na kvalitu moderných systémov rozpoznávania reči.

Aký je tu problém?

Človek je schopný úspešne rozpoznať reč, ktorej hlasitosť sa mení vo veľmi širokom rozsahu. Ľudský mozog je schopný odfiltrovať tichú reč od hluku, ako je hluk áut jazdiacich po ulici, cudzie rozhovory a hudba.

Čo sa týka moderných systémov rozpoznávania reči, ich schopnosti v tejto oblasti nie sú veľmi žiadúce. Ak je mikrofón na stole, potom keď otočíte hlavu alebo zmeníte polohu tela, vzdialenosť medzi vašimi ústami a mikrofónom sa zmení. Tým sa zmení výstupná úroveň mikrofónu, čo zase zníži spoľahlivosť rozpoznávania reči.

Preto pri práci so systémami rozpoznávania reči najlepšie výsledky dosiahnete, ak použijete mikrofón pripojený k slúchadlám, ako je znázornené na obr. 2-1. Pri použití takéhoto mikrofónu bude vzdialenosť medzi ústami a mikrofónom konštantná.

Upozorňujeme tiež na skutočnosť, že všetky experimenty so systémami rozpoznávania reči sa najlepšie vykonávajú v ústraní v tichej miestnosti. V tomto prípade bude vplyv rušenia minimálny. Samozrejme, ak potrebujete vybrať systém rozpoznávania reči, ktorý dokáže fungovať v podmienkach silného rušenia, potom je potrebné testy vykonať inak. Ako však autori knihy vedia, odolnosť systémov rozpoznávania reči voči šumu je stále veľmi, veľmi nízka.

Mikrofón pre nás vykonáva premenu zvukových vibrácií na vibrácie elektrického prúdu. Tieto výkyvy možno vidieť na obrazovke osciloskopu, ale neponáhľajte sa do obchodu, aby ste si kúpili toto drahé zariadenie. Všetky oscilografické štúdie môžeme vykonávať pomocou bežného počítača vybaveného zvukovým adaptérom, napríklad adaptérom Sound Blaster. Neskôr vám povieme, ako na to.

Na obr. 2-2 sme ukázali oscilogram zvukového signálu získaného pri vyslovení dlhej hlásky a. Tento priebeh bol získaný pomocou programu GoldWave, o ktorom budeme diskutovať neskôr v tejto kapitole knihy, ako aj pomocou zvukového adaptéra Sound Blaster a mikrofónu podobného tomu, ktorý je znázornený na obr. 2-1.

Ryža. 2-2. Oscilogram zvukového signálu

Program GoldWave umožňuje natiahnuť priebeh pozdĺž časovej osi, čo vám umožní vidieť tie najmenšie detaily. Na obr. 2-3 sme ukázali natiahnutý fragment oscilogramu zvuku a uvedeného vyššie.

Ryža. 2-3. Fragment oscilogramu zvukového signálu

Všimnite si, že veľkosť vstupného signálu z mikrofónu sa periodicky mení a nadobúda kladné aj záporné hodnoty.

Ak by bola vo vstupnom signáli prítomná len jedna frekvencia (teda ak by bol zvuk „čistý“), priebeh prijímaný z mikrofónu by bol sínusový. Ako sme však už povedali, spektrum zvukov ľudskej reči pozostáva zo súboru frekvencií, v dôsledku čoho má tvar oscilogramu rečového signálu ďaleko od sínusového tvaru.

Signál, ktorého veľkosť sa plynule mení s časom, budeme volať analógový signál. Toto je signál prichádzajúci z mikrofónu. Na rozdiel od analógového signálu je digitálny signál súborom číselných hodnôt, ktoré sa v priebehu času diskrétne menia.

Aby počítač mohol spracovať zvukový signál, musí byť prevedený z analógovej do digitálnej formy, teda prezentovaný ako súbor číselných hodnôt. Tento proces sa nazýva analógová digitalizácia.

Digitalizácia zvukového (a akéhokoľvek analógového) signálu sa vykonáva pomocou špeciálneho zariadenia tzv analógovo-digitálny prevodník ADC (Analógovo-digitálny prevodník, ADC). Toto zariadenie sa nachádza na doske zvukového adaptéra a je to obyčajne vyzerajúci mikroobvod.

Ako funguje analógovo-digitálny prevodník?

Periodicky meria úroveň vstupného signálu a na výstup vydáva číselnú hodnotu výsledku merania. Tento proces je znázornený na obr. 2-4. Sivé obdĺžniky tu označujú hodnoty vstupného signálu merané s určitým konštantným časovým intervalom. Množina takýchto hodnôt je digitalizovaná reprezentácia vstupného analógového signálu.

Ryža. 2-4. Merania závislosti amplitúdy signálu od času

Na obr. Na obrázku 2-5 sme ukázali pripojenie analógovo-digitálneho prevodníka k mikrofónu. V tomto prípade sa analógový signál privedie na vstup x 1 a digitálny signál sa odstráni z výstupov u 1 -u n.

Ryža. 2-5. Analógovo-digitálny prevodník

Analógovo-digitálne prevodníky sa vyznačujú dvoma dôležitými parametrami - frekvenciou prevodu a počtom úrovní kvantizácie vstupného signálu. Správny výber týchto parametrov je rozhodujúci pre dosiahnutie adekvátnej digitalizácie analógového signálu.

Ako často potrebujete merať hodnotu amplitúdy vstupného analógového signálu, aby sa v dôsledku digitalizácie nestratili informácie o zmenách vstupného analógového signálu?

Zdá sa, že odpoveď je jednoduchá - vstupný signál by sa mal merať čo najčastejšie. V skutočnosti, čím častejšie analógovo-digitálny prevodník vykonáva takéto merania, tým lepšie bude sledovať najmenšie zmeny v amplitúde analógového vstupného signálu.

Príliš časté merania však môžu viesť k neodôvodnenému zvýšeniu toku digitálnych dát a plytvaniu počítačovými zdrojmi pri spracovaní signálov.

Našťastie správna voľba Konverzná frekvencia (vzorkovacia frekvencia) je pomerne jednoduchá. Na to stačí odkázať na Kotelnikovovu vetu, ktorá je známa odborníkom v oblasti digitálneho spracovania signálov. Veta hovorí, že frekvencia konverzie by mala byť dvakrát vyššia maximálna frekvencia spektrum konvertovaného signálu. Preto, aby ste mohli digitalizovať bez straty kvality zvukového signálu, ktorého frekvencia leží v rozsahu 16-20 000 Hz, musíte zvoliť konverznú frekvenciu, ktorá nie je menšia ako 40 000 Hz.

Upozorňujeme však, že v profesionálnom audio zariadení je frekvencia prevodu zvolená niekoľkonásobne vyššia, než je špecifikovaná hodnota. Toto sa robí s cieľom dosiahnuť veľmi Vysoká kvalita digitalizovaný zvuk. Pre systémy rozpoznávania reči táto kvalita nie je relevantná, preto na túto voľbu nebudeme upozorňovať.

A aká konverzná frekvencia je potrebná na digitalizáciu zvuku ľudskej reči?

Keďže zvuky ľudskej reči ležia vo frekvenčnom rozsahu 300-4000 Hz, minimálna požadovaná konverzná frekvencia je 8000 Hz. Avšak mnohí počítačové programy rozpoznávanie reči používa štandardný konverzný pomer 44 000 Hz pre bežné zvukové adaptéry. Na jednej strane takýto konverzný pomer nevedie k nadmernému nárastu toku digitálnych dát a na druhej strane zabezpečuje dostatočne kvalitnú digitalizáciu reči.

Ešte v škole nás učili, že pri akomkoľvek meraní vznikajú chyby, ktoré sa nedajú úplne odstrániť. Takéto chyby vznikajú v dôsledku obmedzeného rozlíšenia meracích prístrojov a tiež v dôsledku skutočnosti, že samotný proces merania môže spôsobiť určité zmeny nameranej hodnoty.

Analógovo-digitálny prevodník predstavuje vstupný analógový signál ako prúd čísel s obmedzenou kapacitou. Bežné audio adaptéry obsahujú 16-bitové ADC bloky schopné reprezentovať amplitúdu vstupného signálu ako 216 = 65536 rôznych hodnôt. Zariadenia ADC v špičkových audio zariadeniach môžu byť 20-bitové, čo poskytuje väčšiu presnosť pri reprezentácii amplitúdy zvukového signálu.

Boli vytvorené moderné systémy a programy na rozpoznávanie reči konvenčné počítače vybavené konvenčnými audio adaptérmi. Preto na vykonávanie experimentov s rozpoznávaním reči nemusíte kupovať profesionálny zvukový adaptér. Adaptér ako Sound Blaster je celkom vhodný na digitalizáciu reči pre ďalšie rozpoznávanie.

Spolu s užitočným signálom sa do mikrofónu zvyčajne dostávajú rôzne zvuky - hluk z ulice, hluk vetra, cudzie rozhovory atď. Hluk má negatívny vplyv na kvalitu systémov rozpoznávania reči, preto sa s ním treba vysporiadať. Jedným zo spôsobov, ktoré sme už spomenuli, je, že dnešné systémy rozpoznávania reči sa najlepšie používajú v tichej miestnosti, kde zostávajú osamote s počítačom.

Nie vždy je však možné vytvoriť ideálne podmienky, takže na odstránenie rušenia musíte použiť špeciálne metódy. Na zníženie úrovne šumu sa pri navrhovaní mikrofónov používajú špeciálne triky a špeciálne filtre, ktoré odstraňujú frekvencie zo spektra analógového signálu, ktoré neprenášajú užitočná informácia. Okrem toho sa používa taká technika, ako je kompresia dynamického rozsahu úrovní vstupného signálu.

Povedzme si o tom všetkom v poriadku.

frekvenčný filter Zariadenie, ktoré konvertuje frekvenčné spektrum analógového signálu, sa nazýva. V tomto prípade v procese transformácie dochádza k selekcii (alebo absorpcii) kmitov určitých frekvencií.

Toto zariadenie si môžete predstaviť ako akúsi čiernu skrinku s jedným vstupom a jedným výstupom. V súvislosti s našou situáciou bude na vstup frekvenčného filtra pripojený mikrofón a na výstup analógovo-digitálny prevodník.

Frekvenčné filtre sú rôzne:

dolnopriepustné filtre;

Vysokopriepustné filtre

Priepustné pásmové filtre

blokovacie pásmové filtre.

Nízkopriepustné filtre(dolnopriepustný filter) odstráni zo spektra vstupného signálu všetky frekvencie, ktorých hodnoty sú pod určitou prahovou frekvenciou v závislosti od nastavenia filtra.

Keďže zvukové signály ležia v rozsahu 16-20 000 Hz, všetky frekvencie pod 16 Hz môžu byť odrezané bez zníženia kvality zvuku. Pre rozpoznávanie reči je dôležitý frekvenčný rozsah 300-4000 Hz, takže frekvencie pod 300 Hz je možné vystrihnúť. V tomto prípade budú všetky šumy, ktorých frekvenčné spektrum leží pod 300 Hz, odrezané zo vstupného signálu a nebudú rušiť proces rozpoznávania reči.

podobne, hornopriepustné filtre(hornopriepustný filter) vystrihne zo spektra vstupného signálu všetky frekvencie nad určitou prahovou frekvenciou.

Ľudia nemôžu počuť zvuky s frekvenciou 20 000 Hz alebo vyššou, takže môžu byť vyrezané zo spektra bez viditeľného zhoršenia kvality zvuku. Čo sa týka rozpoznávania reči, všetky frekvencie nad 4000 Hz je možné vystrihnúť, čo povedie k výraznému zníženiu úrovne vysokofrekvenčného rušenia.

Pásmový filter(pásmový filter) si možno predstaviť ako kombináciu dolnopriepustného filtra a hornopriepustného filtra. Takýto filter zastaví všetky frekvencie pod tzv nižšia frekvencia priechodu, ako aj vyššie frekvencia horného priechodu.

Pre systém rozpoznávania reči je teda vhodný priepustný pásmový filter, ktorý oneskoruje všetky frekvencie, okrem frekvencií v rozsahu 300-4000 Hz.

Čo sa týka pásmových zádržných filtrov (pásmových zádržných filtrov), tie umožňujú vystrihnúť zo spektra vstupného signálu všetky frekvencie, ktoré ležia v danom rozsahu. Takýto filter je vhodný napríklad na potlačenie šumu, ktorý zaberá určitú súvislú časť spektra signálu.

Na obr. 2-6 sme si ukázali zapojenie priechodného filtra.

Ryža. 2-6. Filtrovanie zvukového signálu pred digitalizáciou

Musím povedať, že bežné zvukové adaptéry nainštalované v počítači majú pásmový filter, cez ktorý prechádza analógový signál pred digitalizáciou. Šírka pásma takéhoto filtra zvyčajne zodpovedá rozsahu zvukových signálov, konkrétne 16-20 000 Hz (v rôznych zvukových adaptéroch sa hodnoty hornej a dolnej frekvencie môžu mierne líšiť).

Ako však dosiahnuť užšiu šírku pásma 300-4000 Hz, zodpovedajúcu najinformatívnejšej časti spektra ľudskej reči?

Samozrejme, ak máte záľubu v navrhovaní elektronických zariadení, môžete si vyrobiť vlastný filter z čipu operačného zosilňovača, rezistorov a kondenzátorov. Presne to urobili prví tvorcovia systémov rozpoznávania reči.

Priemyselné systémy rozpoznávania reči však musia byť schopné pracovať na štandardnom počítačovom vybavení, takže spôsob výroby špeciálneho pásmového filtra tu nie je vhodný.

Namiesto toho moderné systémy na spracovanie reči využívajú tzv digitálne frekvenčné filtre implementované v softvéri. To sa stalo možným po tom, čo sa centrálna procesorová jednotka počítača stala dostatočne výkonnou.

Digitálny frekvenčný filter implementovaný v softvéri prevádza vstupný digitálny signál na výstupný digitálny signál. Počas procesu prevodu program spracováva špeciálnym spôsobom prúd číselných hodnôt amplitúdy signálu z analógovo-digitálneho prevodníka. Výsledkom prevodu bude tiež prúd čísel, ale tento prúd bude zodpovedať už filtrovanému signálu.

Keď už hovoríme o analógovo-digitálnom prevodníku, zaznamenali sme takú dôležitú charakteristiku, ako je počet úrovní kvantizácie. Ak je v audio adaptéri nainštalovaný 16-bitový analógovo-digitálny prevodník, potom po digitalizácii môžu byť úrovne audio signálu reprezentované 216 = 65536 rôznymi hodnotami.

Ak je málo kvantizačných úrovní, tak tzv kvantizačný šum. Na zníženie tohto šumu by vysokokvalitné systémy na digitalizáciu zvuku mali používať analógovo-digitálne prevodníky s maximálnym počtom dostupných úrovní kvantizácie.

Existuje však ďalší trik na zníženie vplyvu kvantizačného šumu na kvalitu zvukového signálu, ktorý sa používa v systémoch digitálneho záznamu zvuku. Pomocou tejto techniky prechádza signál pred digitalizáciou cez nelineárny zosilňovač, ktorý zvýrazní signály s malou amplitúdou signálu. Takéto zariadenie zosilňuje slabé signály viac ako silné.

Toto je znázornené grafom amplitúdy výstupného signálu versus amplitúda vstupného signálu znázorneného na obr. 2-7.

Ryža. 2-7. Nelineárne zosilnenie pred digitalizáciou

V kroku konverzie digitalizovaného zvuku späť na analógový (o ktorom budeme diskutovať neskôr v tejto kapitole) sa analógový signál opäť prenesie cez nelineárny zosilňovač a potom sa dostane na výstup do reproduktorov. Tentokrát je použitý iný zosilňovač, ktorý zvýrazňuje signály s veľkou amplitúdou a má prenosovú charakteristiku (závislosť amplitúdy výstupného signálu od amplitúdy vstupného signálu), ktorá je opačná ako pri digitalizácii.

Ako to všetko môže pomôcť tvorcom systémov rozpoznávania reči?

Ako viete, človek je celkom dobrý v rozpoznávaní reči vyslovenej tichým šepotom alebo pomerne hlasným hlasom. Dá sa povedať, že dynamický rozsah úrovní hlasitosti úspešne rozpoznanej reči pre človeka je dosť široký.

Dnešný počítačové systémy Rozpoznávanie reči sa tým, žiaľ, ešte nemôže pochváliť. Aby sa však zadaný dynamický rozsah pred digitalizáciou mierne rozšíril, je možné previesť signál z mikrofónu cez nelineárny zosilňovač, ktorého prenosová charakteristika je na obr. 2-7. Tým sa zníži úroveň kvantizačného šumu pri digitalizácii slabých signálov.

Vývojári systémov rozpoznávania reči sú opäť nútení zamerať sa predovšetkým na komerčne dostupné zvukové adaptéry. Neposkytujú vyššie opísanú konverziu nelineárneho signálu.

Je však možné vytvoriť softvérový ekvivalent nelineárneho zosilňovača, ktorý konvertuje digitalizovaný signál pred jeho odovzdaním do modulu rozpoznávania reči. A hoci takýto softvérový zosilňovač nebude schopný znížiť kvantizačný šum, dá sa použiť na zdôraznenie tých úrovní signálu, ktoré nesú najviac rečových informácií. Môžete napríklad znížiť amplitúdu slabých signálov, čím sa signál zbaví šumu.

, Prehrávače médií

Nahrávky, najmä staršie platne, ktoré boli nahrané a vyrobené pred rokom 1982, boli oveľa menej pravdepodobné, že budú zmiešané, aby bola platňa hlasnejšia. Reprodukujú prirodzenú hudbu s prirodzeným dynamickým rozsahom, ktorý je zachovaný na zázname a stratený vo väčšine štandardných digitálnych formátov alebo digitálnych formátov s vysokým rozlíšením.

Samozrejme, existujú výnimky – vypočujte si nedávno vydaný album Stevena Wilsona od MA Recordings alebo Reference Recordings a budete počuť, aký dobrý môže byť digitálny zvuk. Ale to je zriedkavé, väčšina moderných zvukových nahrávok je hlasná a komprimovaná.

Kompresia hudby sa v poslednej dobe stala terčom veľkej kritiky, ale stavím sa, že takmer všetky vaše obľúbené nahrávky sú komprimované. Niektoré z nich menej, niektoré viac, ale stále komprimované. Kompresia dynamického rozsahu je obetným baránkom, ktorý je obviňovaný zo zlých hudobných zvukov, ale vysoko komprimovaná hudba nie je novým trendom: počúvajte albumy Motown zo 60. rokov. To isté možno povedať o klasikách Led Zeppelin či mladších albumoch Wilco a Radiohead. Kompresia dynamického rozsahu znižuje prirodzený pomer medzi najhlasnejším a najhlučnejším tichý zvuk na nahrávke, takže šepot môže byť hlasný ako krik. Je dosť ťažké nájsť popovú hudbu za posledných 50 rokov, ktorá by nebola komprimovaná.

Nedávno som mal pekný rozhovor so zakladateľom a redaktorom časopisu Tape Op Larrym Craneom o dobrých, zlých a „zlých“ aspektoch kompresie. Larry Crane spolupracoval s takými kapelami a umelcami ako Stefan Marcus, Cat Power, Sleater-Kinney, Jenny Lewis, M. Ward, The Go-Betweens, Jason Little, Eliot Smith, Quasi a Richmond Fontaine. Vedie aj nahrávacie štúdio Jackpot! v Portlande v Oregone, ktorý bol domovom The Breeders, The Decemberists, Eddie Vedder, Pavement, R.E.M., She & Him a mnohých, mnohých ďalších.

Ako príklad prekvapivo študovaných, no stále skvelých skladieb uvádzam Spoonov album „They Want My Soul“, vydaný v roku 2014. Crane sa smeje a hovorí, že to počúva v aute, pretože to tam znie skvele. Čo nás privádza k ďalšej odpovedi na to, prečo je hudba komprimovaná: pretože kompresia a extra „čistota“ uľahčuje počúvanie na hlučných miestach.

Larry Crane v práci. Autor fotografie: Jason Quigley

Keď ľudia hovoria, že sa im páči zvuk zvukovej nahrávky, myslím si, že sa im páči hudba, akoby zvuk a hudba boli neoddeliteľné pojmy. Ale pre seba tieto pojmy rozlišujem. Z pohľadu milovníka hudby je zvuk možno drsný a surový, ale to bude väčšine poslucháčov jedno.

Mnoho ľudí rýchlo obviní masteringových inžinierov zo zneužívania kompresie, no kompresia sa aplikuje priamo pri nahrávaní, pri mixovaní a až potom pri masteringu. Ak ste neboli osobne prítomní na každej z týchto fáz, nebudete môcť povedať, ako zneli nástroje a vokály na samom začiatku procesu.

Crane bol v plameňoch: "Ak chce hudobník úmyselne urobiť zvuk šialeným a skresleným ako nahrávky Guided by Voices, tak na tom nie je nič zlé - túžba vždy preváži kvalitu zvuku." Hlas interpreta je takmer vždy komprimovaný, to isté sa deje s basou, bicími, gitarami a syntetizátormi. Pomocou kompresie je hlasitosť vokálov udržiavaná na správnej úrovni počas celej skladby alebo mierne vyčnieva z pozadia zvyšku zvukov.

Správne vykonaná kompresia môže spôsobiť, že bicie budú znieť živšie alebo zámerne zvláštne. Aby hudba znela skvele, musíte na to vedieť používať potrebné nástroje. Preto trvá roky, kým prídete na to, ako používať kompresiu a nepreháňať to. Ak mixový inžinier stlačí gitarový part príliš veľa, potom masteringový inžinier už nebude schopný úplne obnoviť chýbajúce frekvencie.

Ak by hudobníci chceli, aby ste počúvali hudbu, ktorá neprešla fázami mixovania a masteringu, potom by ju vydali na pulty obchodov priamo zo štúdia. Crane hovorí, že ľudia, ktorí vytvárajú, upravujú, mixujú a masterujú hudobné nahrávky, nie sú na to, aby hudobníkom prekážali – pomáhajú interpretom od úplného začiatku, teda už viac ako sto rokov.

Títo ľudia sú súčasťou tvorivého procesu, ktorého výsledkom sú úžasné umelecké diela. Crane dodáva: "Nechcete verziu 'Dark Side of the Moon', ktorá nebola zmiešaná a zvládnutá." Pink Floyd vydali pieseň tak, ako ju chceli počuť.