Dinamik aralık sıkıştırılmış veya standarttır. Ters mastering: Sıkıştırılmış kayıtların dinamik aralığı artırılabilir mi? Kompresörlerin temel parametreleri

Serinin ikinci kısmı, dinamik görüntü aralığını optimize etme işlevlerine ayrılmıştır. İçinde size bu tür çözümlerin neden gerekli olduğunu anlatacağız, bunların uygulanması için çeşitli seçeneklerin yanı sıra avantajlarını ve dezavantajlarını göz önünde bulunduracağız.

Sonsuzluğu kucakla

İdeal olarak, kamera çevreleyen dünyanın görüntüsünü bir kişinin algıladığı gibi yakalamalıdır. Ancak, kamera ve insan gözünün "görme" mekanizmalarının önemli ölçüde farklı olması nedeniyle, bu koşulun sağlanmasını engelleyen bir takım sınırlamalar vardır.

Daha önce film kamera kullanıcılarının ve dijital kamera sahiplerinin karşılaştığı sorunlardan biri, aydınlatmada büyük bir fark olan sahneleri özel cihazlar ve/veya özel çekim teknikleri kullanmadan yeterince yakalamanın imkansızlığıdır. İnsan görsel aparatının özellikleri, hem parlak hem de karanlık alanlarda yüksek kontrastlı sahnelerin ayrıntılarını eşit derecede iyi algılamayı mümkün kılar. Ne yazık ki, kamera sensörü görüntüyü her zaman gördüğümüz gibi yakalayamıyor.

Fotoğraflanan sahnedeki parlaklık farkı ne kadar büyük olursa, parlak noktalarda ve/veya gölgelerde ayrıntı kaybı olasılığı o kadar yüksek olur. Sonuç olarak, yemyeşil bulutların olduğu mavi bir gökyüzü yerine, görüntüde sadece beyazımsı bir nokta belirir ve gölgelerde bulunan nesneler belirsiz karanlık silüetlere dönüşür veya çevredeki ortamla tamamen birleşir.

Klasik fotoğrafçılıkta, bir kameranın (veya film kameraları söz konusu olduğunda ortamın) belirli bir parlaklık aralığını iletme yeteneğini değerlendirmek için konsept kullanılır. fotoğrafik enlem(ayrıntılar için kenar çubuğuna bakın). Teorik olarak, dijital kameraların fotoğrafik enlemi, analogdan dijitale dönüştürücünün (ADC) kapasitesi ile belirlenir. Örneğin, 8 bitlik bir ADC kullanırken, niceleme hatası dikkate alındığında, fotoğrafik enlem için teorik olarak ulaşılabilir değer 7 EV, 12 bit ADC - 11 EV vb. olacaktır. Ancak, gerçek cihazlarda, dinamik görüntü aralığı, deçeşitli gürültü türlerinin ve diğer faktörlerin etkisi nedeniyle aynı teorik maksimum.

Parlaklık seviyelerindeki büyük farklılıklar, ciddi bir
fotoğraf çekerken sorun Bu durumda, kameranın yetenekleri
çoğunu yeterince aktarmak için yeterli değildi
sahnenin parlak alanları ve sonuç olarak mavi alan yerine
gökyüzünde (bir vuruşla işaretlenmiştir) beyaz bir "yama" vardır

Işığa duyarlı bir sensörün sabitleyebileceği maksimum parlaklık değeri, hücrelerinin doygunluk seviyesi ile belirlenir. Minimum değer, matris termal gürültüsü, yük transfer gürültüsü ve ADC hatası dahil olmak üzere çeşitli faktörlere bağlıdır.

Aynı dijital kameranın fotoğrafik enleminin ayarlarda ayarlanan hassasiyet değerine bağlı olarak değişebileceğini de belirtmekte fayda var. Maksimum dinamik aralığa, sözde temel hassasiyet ayarlandığında (mümkün olan minimum sayısal değere karşılık gelen) ulaşılabilir. Bu parametrenin değeri arttıkça artan gürültü seviyesi nedeniyle dinamik aralık azalır.

Sensörlerle donatılmış modern dijital kamera modellerinin fotoğrafik enlemi büyük beden ve 14- veya 16-bit ADC'ler, 9 ila 11 EV arasında değişir, 35 mm'lik renkli negatif filmlerden (ortalama 4 ila 5 EV) önemli ölçüde fazladır. Bu nedenle, nispeten ucuz dijital kameralar bile, tipik amatör fotoğrafçılık konularının çoğunu yeterince iletmek için yeterli bir fotoğraf genişliğine sahiptir.

Ancak, farklı bir sorun var. Dijital görüntülerin kaydedilmesi için mevcut standartların getirdiği kısıtlamalarla bağlantılıdır. Renk kanalı başına 8 bitlik JPEG formatını kullanarak (bu artık bilgisayar endüstrisinde ve dijital teknolojide dijital görüntüleri kaydetmek için fiili standart haline gelmiştir), fotoğraf genişliği 8'den fazla olan bir resmi kaydetmek teorik olarak bile mümkün değildir. EV.

Bir kameranın ADC'sinin hem açık tonlarda hem de gölgelerde ayırt edilebilir ayrıntılar içeren 12 bit veya 14 bit görüntü ürettiğini varsayalım. Ancak, bu görüntünün fotoğrafik enlemi 8 EV'yi aşarsa, standart 8 bit formatına dönüştürme sürecinde herhangi bir ek eylemler(yani, sadece "ekstra" deşarjların atılmasıyla), ışığa duyarlı sensör tarafından kaydedilen bilgilerin bir kısmı kaybolacaktır.

Dinamik aralık ve fotoğrafik enlem

Basitçe söylemek gerekirse, dinamik aralık, görüntü parlaklığının maksimum değerinin minimum değerine oranı olarak tanımlanır. Klasik fotoğrafçılıkta, geleneksel olarak fotoğrafik enlem terimi kullanılır, bu da aslında aynı anlama gelir.

Dinamik aralığın genişliği bir oran cinsinden ifade edilebilir (örneğin, 1000: 1, 2500: 1, vb.), ancak çoğu zaman bunun için bir logaritmik ölçek kullanılır. Bu durumda, maksimum parlaklığın minimum değerine oranının ondalık logaritmasının değeri hesaplanır ve sayıdan sonra, daha az sıklıkla bir büyük harf D (İngiliz yoğunluğundan? - yoğunluktan) konur? - kısaltma OD (İngilizce optik yoğunluktan? - optik yoğunluk). Örneğin, bir cihazın maksimum parlaklık değerinin minimum değerine oranı 1000: 1 ise, dinamik aralık 3,0 D olacaktır:

Fotoğrafik enlemi ölçmek için, geleneksel olarak, EV kısaltmasıyla gösterilen, sözde pozlama birimleri kullanılır (İngilizce pozlama değerlerinden; profesyoneller bunlara genellikle "dur" veya "adımlar" derler). Bu birimlerde, poz telafisi miktarı genellikle kamera ayarlarında belirlenir. Fotoğrafik enlem değerini 1 EV artırmak, maksimum ve minimum parlaklık seviyeleri arasındaki farkı ikiye katlamaya eşdeğerdir. Bu nedenle, EV ölçeği de logaritmiktir, ancak sayısal değerleri hesaplamak için taban 2 logaritması kullanılır.Örneğin, bir cihaz görüntü yakalama yeteneği sağlıyorsa, maksimum parlaklığın minimum değerine oranı 256'ya ulaşır: 1, o zaman fotoğraf enlemi 8 EV'dir:

Sıkıştırma akıllı bir uzlaşmadır

Çoğu etkili yol Fotoğraf makinesinin ışığa duyarlı sensörü tarafından kaydedilen görüntü hakkındaki bilgileri tam olarak kaydetmek, resimleri içine kaydetmektir. RAW formatı... Bununla birlikte, bu işlev tüm kameralarda mevcut değildir ve her amatör fotoğrafçı, her çekim için ayrı ayarların seçiminde özenli çalışmaya hazır değildir.

Birçok üreticinin cihazlarında (yalnızca kompakt değil, aynı zamanda SLR), kameranın içinde 8 bit JPEG'e dönüştürülen yüksek kontrastlı görüntülerde ayrıntı kaybı olasılığını azaltmak için, sıkıştırmanıza izin veren özel işlevler tanıtıldı. Kullanıcı müdahalesi olmadan kaydedilen görüntülerin dinamik aralığı. Genel kontrastı ve orijinal görüntünün bilgilerinin önemsiz bir bölümünün kaybını azaltan bu tür çözümler, cihazın ışığa duyarlı sensörü tarafından kaydedilen parlak noktalar ve gölgelerdeki ayrıntıları 8 bit JPEG formatında kaydetmenize olanak tanır. orijinal görüntünün dinamik aralığı 8 EV'den daha geniştir.

Bu yönün gelişmesinde öncülerden biri de HP şirketiydi. 2003 yılında piyasaya sürülen HP Photosmart 945 dijital kamera, görüntülerin karanlık alanlarındaki düşük ışık seviyelerini otomatik olarak telafi eden ve böylece aşırı pozlama riski olmadan gölge ayrıntısını koruyan (özellikle yüksek kontrastlı sahneler çekerken kullanışlı olan) dünyanın ilk HP Uyarlanabilir Aydınlatma teknolojisini tanıttı. ). HP Adaptive Lightling algoritması, İngiliz bilim adamı Edwin Land tarafından RETINEX insan görsel algısı teorisinde ortaya konan ilkelere dayanmaktadır.

HP Uyarlanabilir Aydınlatma menüsü

Uyarlanabilir Aydınlatma nasıl çalışır? Görüntünün 12 bitlik bir görüntüsünü elde ettikten sonra, ondan aslında bir ışık haritası olan yardımcı bir monokrom görüntü çıkarılır. Görüntüyü işlerken, bu harita, oldukça karmaşık bir dijital filtrenin görüntü üzerindeki etki derecesini ayarlamanıza izin veren bir maske olarak kullanılır. Böylece haritanın en karanlık noktalarına karşılık gelen alanlarda, gelecekteki görüntünün görüntüsü üzerindeki etkisi minimumdur ve bunun tersi de geçerlidir. Bu yaklaşım, bu alanları seçici olarak aydınlatarak ve buna bağlı olarak ortaya çıkan görüntünün genel kontrastını azaltarak gölgelerdeki ayrıntıları göstermenize olanak tanır.

Uyarlanabilir Aydınlatma etkinleştirildiğinde, yakalanan görüntünün, nihai görüntü bir dosyaya yazılmadan önce yukarıda açıklandığı gibi işlendiğini unutmayın. Açıklanan tüm işlemler otomatik olarak gerçekleştirilir ve kullanıcı kamera menüsünde iki Uyarlanabilir Aydınlatma modundan (düşük veya yüksek seviye etkisi) veya bu işlevi devre dışı bırakın.

Genel olarak konuşursak, modern dijital kameraların belirli işlevlerinin çoğu (önceki makalede tartışılan yüz tanıma sistemleri dahil), orijinal olarak askeri müşteriler için gerçekleştirilen araştırma projelerinin bir tür yan ürünleri veya dönüştürme ürünleridir. Dinamik görüntü aralığını optimize etme işlevlerine gelince, en ünlü tedarikçilerden biri benzer kararlar bir Apikal şirketidir. Özellikle çalışanları tarafından oluşturulan algoritmalar, bir dizi Olympus dijital fotoğraf makinesinde uygulanan SAT (Gölge Ayarlama Teknolojisi) işlevinin temelini oluşturur. Kısaca SAT işlevi şu şekilde açıklanabilir: görüntünün orijinal görüntüsüne göre en karanlık alanlara karşılık gelen bir maske oluşturulur ve ardından bu alanlar için pozlama değeri otomatik olarak düzeltilir.

Sony ayrıca Apical'in geliştirmelerini kullanmak için bir lisans aldı. Birçok Cyber-shot kompakt fotoğraf makinesi ve alfa serisi DSLR'de Dinamik Aralık Optimize Edici (DRO) adı verilen bir özellik bulunur.

HP Photosmart R927 ile (üstte) devre dışı bırakılarak çekilen fotoğraflar
ve etkinleştirilmiş Uyarlanabilir Aydınlatma

DRO etkinleştirildiğinde görüntünün düzeltilmesi, görüntünün ilk işlenmesi sırasında (yani kayıttan önce) gerçekleştirilir. bitmiş dosya JPEG formatı). Temel versiyonda, DRO'nun iki aşamalı bir ayarı vardır (menüde çalışmasının standart veya gelişmiş modunu seçebilirsiniz). Görüntü görüntüsünün analizine dayalı olarak Standart modu seçtiğinizde, pozlama değeri düzeltilir ve ardından genel dengeyi eşitlemek için görüntüye bir ton eğrisi uygulanır. Gelişmiş mod, hem gölgelerde hem de açık tonlarda düzeltmeler yapmanıza olanak tanıyan daha karmaşık bir algoritma kullanır.

Sony geliştiricileri, DRO algoritmasını geliştirmek için sürekli çalışıyor. Örneğin a700 SLR fotoğraf makinesinde gelişmiş DRO modu etkinleştirildiğinde beş düzeltme seçeneğinden biri seçilebilir. Ek olarak, bir görüntünün üç çeşidini aynı anda kaydetme yeteneği (bir tür basamaklama) farklı seçenekler DRO ayarları.

Birçok Nikon dijital fotoğraf makinesi, yine Apikal algoritmalara dayanan D-Lighting ile donatılmıştır. Bununla birlikte, yukarıda açıklanan çözümlerden farklı olarak, D-Lighting, şekli gölgeleri daha açık hale getirirken görüntünün geri kalanını değiştirmeden tutan bir ton eğrisi kullanarak önceden kaydedilmiş görüntüleri işlemek için bir filtre şeklinde uygulanır. Ancak bu durumda zaten bitmiş 8 bitlik görüntüler işlendiğinden (ve daha yüksek bit derinliğine ve buna bağlı olarak daha geniş bir dinamik aralığa sahip çerçevenin orijinal görüntüsü değil), D-Lighting'in olanakları çok sınırlıdır. Kullanıcı, görüntüyü bir grafik düzenleyicide işleyerek aynı sonucu elde edebilir.

Büyütülmüş parçaları karşılaştırırken, orijinal görüntünün karanlık alanlarının (solda) olduğu açıkça görülüyor.
Uyarlanabilir Aydınlatma etkinleştirildiğinde daha hafif hale gelir

Başka ilkelere dayanan bir dizi çözüm de vardır. Bu nedenle, Panasonic Lumix ailesinin birçok kamerasında (özellikle, DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18, vb.), Akıllı Pozlama işlevi uygulanır; parçası iA akıllı otomatik kontrol sistemleri. Akıllı Pozlama, gölgelerdeki ayrıntı kaybını önlemek için çerçeve görüntüsünün otomatik analizine ve görüntünün karanlık alanlarının düzeltilmesine ve (gerekirse) yüksek kontrastlı sahnelerin dinamik aralığının sıkıştırılmasına dayanır.

Bazı durumlarda, dinamik aralık optimizasyonu işlevinin çalışması, yalnızca görüntünün orijinal görüntüsünü işlemek için belirli işlemleri değil, aynı zamanda çekim ayarlarının düzeltilmesini de içerir. Örneğin, Fujifilm dijital kameraların yeni modellerinde (özellikle FinePix S100FS'de), geliştiricilere göre fotoğraf enlemini bir veya iki durak artırmaya izin veren Geniş Dinamik Aralık (WDR) işlevi uygulanmaktadır ( ayarların terminolojisinde - % 200 ve % 400).

WDR işlevi etkinleştirildiğinde, fotoğraf makinesi –1 veya –2 EV (seçilen ayara bağlı olarak) poz telafisi ile resimler çeker. Bu nedenle, çerçevenin görüntüsü az pozlanır - bu, vurgulardaki ayrıntılar hakkında maksimum bilgiyi korumak için gereklidir. Ortaya çıkan görüntü daha sonra genel dengeyi eşitlemek ve siyah seviyesini ayarlamak için bir ton eğrisi kullanılarak işlenir. Görüntü daha sonra 8 bit biçimine dönüştürülür ve bir JPEG dosyası olarak kaydedilir.

Dinamik aralık sıkıştırması daha fazla ayrıntıyı korur
vurgularda ve gölgelerde, ancak böyle bir etkinin kaçınılmaz sonucu
genel kontrasttaki azalmadır. alttaki resimde
bulutların dokusu çok daha iyi işlenmiş, ancak
düşük kontrast nedeniyle, görüntünün bu versiyonu
daha az doğal görünüyor

Dinamik Aralık Genişletme adı verilen benzer bir işlev, Pentax'ın bir dizi kompakt ve SLR fotoğraf makinesinde (Optio S12, K200D, vb.) uygulanmaktadır. Üreticiye göre, Dinamik Aralık Genişletme işlevinin kullanılması, parlak noktalarda ve gölgelerde ayrıntıları kaybetmeden fotoğraf enlemini 1 EV artırmanıza olanak tanır.

Vurgu tonu önceliği (HTP) adı verilen benzer bir işlev, bir dizi Canon DSLR modelinde (EOS 40D, EOS 450D, vb.) uygulanmaktadır. Kullanım kılavuzunda sağlanan bilgilere göre, HTP'yi etkinleştirmek, vurgulardaki ayrıntıları iyileştirebilir (daha spesifik olarak, %0 ila %18 gri düzey aralığında).

Çözüm

Özetleyelim. Yerleşik dinamik aralık sıkıştırma, orijinal yüksek dinamik aralık görüntüsünü minimum hasarla 8 bit'e dönüştürmenize olanak tanır JPEG dosyası... RAW yakalama işlevinin yokluğunda, Dinamik Aralık Sıkıştırma, fotoğrafçının yüksek kontrastlı sahneleri çekerken kameralarının potansiyelinden daha fazla yararlanmasına olanak tanır.

Elbette, dinamik aralık sıkıştırmanın sihirli bir kurşun değil, bir uzlaşma olduğunu unutmayın. Görüntünün karanlık alanlarındaki gürültü seviyesini artırarak, kontrastını azaltarak ve yumuşak ton geçişlerini biraz kalınlaştırarak, vurgularda ve / veya gölgelerde ayrıntıların korunması için ödeme yapmanız gerekir.

Herhangi bir otomatik işlev gibi, dinamik aralık sıkıştırma algoritması da herhangi bir resmi kesinlikle iyileştirmek için tamamen evrensel bir çözüm değildir. Bu nedenle, yalnızca gerçekten gerekli olduğu durumlarda etkinleştirilmesi mantıklıdır. Örneğin, iyi geliştirilmiş bir arka plana sahip bir silueti yakalamak için dinamik aralık sıkıştırma işlevi kapatılmalıdır - aksi takdirde etkili sahne umutsuzca mahvolur.

Bu konunun ele alınmasını sonlandırırken, dinamik aralık sıkıştırma işlevlerinin kullanılmasının, kamera sensörü tarafından sabitlenmemiş olan görüntü ayrıntılarının "uzatılmasına" izin vermediğine dikkat edilmelidir. Yüksek kontrastlı sahneleri çekerken tatmin edici bir sonuç elde etmek için, ek cihazlar (örneğin, manzara fotoğrafları çekmek için gradyan filtreleri) veya özel teknikler (örneğin, birden fazla poz-braketleme karesi çekmek ve ardından bunları Ton Eşleme kullanarak tek bir görüntüde birleştirmek gibi) kullanmanız gerekir. teknoloji).

Bir sonraki makale, patlama işlevine odaklanacaktır.

Devam edecek

Bu yöntem grubu, iletilen sinyallerin genliğin doğrusal olmayan dönüşümlerine tabi tutulması ve doğrusal olmayanlığın verici ve alıcı kısımlarında karşılıklı olduğu gerçeğine dayanmaktadır. Örneğin, verici doğrusal olmayan Öu işlevini kullanıyorsa, alıcı u 2'yi kullanır. Ters fonksiyonların sıralı uygulanması, dönüşümün bir bütün olarak doğrusal kalmasına neden olacaktır.

Doğrusal olmayan veri sıkıştırma yöntemleri fikri, vericinin iletilen parametrede (yani, daha büyük bir dinamik aralık) daha geniş bir değişiklik aralığını, çıkış sinyallerinin aynı genliği ile iletebilmesi gerçeğine dayanır. dinamik aralık göreli birimler veya desibel olarak ifade edilen, izin verilen en büyük sinyal genliğinin en küçüğüne oranıdır:

; (2.17)
. (2.18)

U min'i azaltarak dinamik aralığı artırmaya yönelik doğal istek, ekipmanın hassasiyeti ve parazit ile içsel gürültünün etkisindeki artışla sınırlıdır.

Çoğu zaman, dinamik aralık sıkıştırması, bir çift ters logaritma ve güçlendirme işlevi kullanılarak gerçekleştirilir. Genliği değiştirmek için yapılan ilk işleme denir. sıkıştırma(sıkıştırma yoluyla), ikincisi genleşme(uzatarak). Bu işlevlerin seçimi, en büyük sıkıştırma yetenekleriyle ilişkilidir.

Aynı zamanda, bu yöntemlerin dezavantajları da vardır. Birincisi, küçük bir sayının logaritmasının limitte negatif olmasıdır:

yani, duyarlılık çok doğrusal değildir.

Bu dezavantajları azaltmak için, her iki fonksiyon da ofset ve yaklaşıklık ile değiştirilir. Örneğin, telefon kanalları için yaklaşık fonksiyon şu şekildedir (A tipi):

ve A = 87.6. Sıkıştırmadan elde edilen kazanç 24 dB'dir.

Doğrusal olmayan prosedürler aracılığıyla veri sıkıştırma, büyük hatalarla analog araçlarla gerçekleştirilir. Dijital araçların kullanımı, dönüştürmenin doğruluğunu veya hızını önemli ölçüde artırabilir. Aynı zamanda, bilgisayar teknolojisinin doğrudan kullanımı (yani, logaritmaların ve üstellerin doğrudan hesaplanması), düşük performans ve biriken hesaplama hatası nedeniyle en iyi sonucu vermeyecektir.

Doğruluktaki sınırlamalar nedeniyle, örneğin telefon ve radyo kanalları üzerinden ses iletimi için kritik olmayan durumlarda sıkıştırma yoluyla veri sıkıştırması kullanılır.

Verimli kodlama

Etkili kodlar K. Shannon, Fano ve Huffman tarafından önerildi. Kodların özü, eşit olmayan, yani eşit olmayan sayıda bit ile olmaları ve kodun uzunluğunun, oluşma olasılığı ile ters orantılı olması gerçeğinde yatmaktadır. Verimli kodların bir başka harika özelliği de sınırlayıcı gerektirmemeleridir, yani. özel karakterler bitişik kod sözcüklerini ayırma. Bu, basit bir kural izlenerek elde edilir: daha kısa kodlar, uzun kodların başlangıcı değildir. Bu durumda, kod çözücü önce daha kısa kod sözcüklerini algıladığından, sürekli bit akışının kodu benzersiz bir şekilde çözülür. Etkili kodlar uzun zamandır tamamen akademiktiler, ancak son zamanlarda veritabanlarının oluşturulmasında ve modern modemlerde ve yazılım arşivleyicilerinde bilgilerin sıkıştırılmasında başarıyla kullanıldılar.

Düzensizlik nedeniyle, kodun ortalama uzunluğu girilir. Ortalama uzunluk, kodun uzunluğunun matematiksel beklentisidir:

ayrıca, l cf yukarıdan H (x)'e eğilimlidir (yani, l cf> H (x)).

(2.23) koşulunun yerine getirilmesi, artan N ile artar.

İki tür etkili kod vardır: Shannon-Fano ve Huffman. Bir örnek kullanarak bunları nasıl elde edeceğimizi görelim. Bir dizideki sembollerin olasılıklarının Tablo 2.1'de gösterilen değerlere sahip olduğunu varsayalım.

Tablo 2.1.

Sembol olasılıkları

n
ben 0.1 0.2 0.1 0.3 0.05 0.15 0.03 0.02 0.05

Semboller sıralanır, yani azalan olasılık sırasına göre bir dizi halinde sunulurlar. Bundan sonra, Shannon-Fano yöntemine göre, aşağıdaki prosedür periyodik olarak tekrarlanır: tüm olay grubu, aynı (veya yaklaşık olarak aynı) toplam olasılıklara sahip iki alt gruba ayrılır. Prosedür, bir sonraki alt grupta bir eleman kalana kadar devam eder, ardından bu eleman elimine edilir ve belirtilen eylemler kalanlarla devam eder. Bu, son iki alt grupta bir eleman kalana kadar olur. Tablo 2.2'de özetlenen örneğimize devam edelim.

Tablo 2.2.

Shannon-Fano kodlaması

n ben
4 0.3 Bence
0.2 Bence II
6 0.15 Bence Bence
0.1 II
1 0.1 Bence Bence
9 0.05 II II
5 0.05 II Bence
7 0.03 II II Bence
8 0.02 II

Tablo 2.2'den görülebileceği gibi, p 4 = 0.3 olasılığa sahip ilk sembol, iki gruplara ayırma prosedürüne katıldı ve her iki seferde de I numaralı gruba düştü. Buna göre, iki haneli bir kod II ile kodlanmıştır. Bölmenin ilk aşamasındaki ikinci unsur, ikinci grupta, grup II'ye aitti. Bu nedenle kodu 10'dur. Diğer sembollerin kodları ek açıklamalara ihtiyaç duymaz.

Tipik olarak, tek tip olmayan kodlar, kod ağaçları olarak gösterilir. Kod ağacı, izin verilen kod kombinasyonlarını gösteren bir grafiktir. Bu grafiğin kenarlarının yönleri, Şekil 2.11'de gösterildiği gibi önceden ayarlanmıştır (yön seçimi isteğe bağlıdır).

Aşağıdaki şekilde grafik tarafından yönlendirilirler: seçilen sembol için bir rota oluşturun; bunun için basamak sayısı, rotadaki kenarların sayısına eşittir ve her bir basamağın değeri, karşılık gelen kenarın yönüne eşittir. Rota başlangıç ​​noktasından derlenir (çizimde A harfi ile işaretlenmiştir). Örneğin, köşe 5'e giden bir yol, sonuncusu hariç tümü 0 yönüne sahip olan beş kenardan oluşur; 00001 kodunu alıyoruz.

Bu örnek için entropi ve ortalama kelime uzunluğunu hesaplayalım.

H (x) = - (0.3 log 0.3 + 0.2 log 0.2 + 2 0.1 log 0.1+ 2 0.05 log 0.05+

0,03 günlük 0,03 + 0,02 günlük 0,02 = 2,23 bit

l av = 0,3 2 + 0,2 2 + 0,15 3 + 0,1 3 + 0,1 4 + 0,05 5 +0,05 4+

0.03 6 + 0.02 6 = 2.9 .

Gördüğünüz gibi, ortalama kelime uzunluğu entropiye yakındır.

Huffman kodları farklı bir algoritmaya göre oluşturulmuştur. Kodlama işlemi iki aşamadan oluşmaktadır. İlk aşamada, alfabenin tek seferlik sıkıştırılması sırayla gerçekleştirilir. Tek seferlik sıkıştırma - son iki karakterin (en düşük olasılıklı) toplam olasılıkla bir karakterle değiştirilmesi. Sıkıştırma, iki karakter kalana kadar gerçekleştirilir. Aynı zamanda, ortaya çıkan olasılıkların yazıldığı kodlama tablosu doldurulur ve yeni sembollerin bir sonraki aşamaya geçtiği rotalar da tasvir edilir.

İkinci aşamada, son aşamadan başlayan gerçek kodlama gerçekleşir: iki karakterden ilkine 1, ikincisine - 0 kodu atanır. Bundan sonra, bir önceki aşamaya geçilir. Bir sonraki aşamadaki kodlar, bu aşamada sıkıştırmaya katılmayan karakterlere atfedilir ve yapıştırmadan sonra elde edilen karakterin kodu son iki karaktere iki kez atfedilir ve üst karakter 1'in koduna eklenir. bir alt - 0. Karakter yapıştırmada daha fazla değilse, kodu değişmeden kalır. İşlem sonuna kadar (yani ilk aşamaya kadar) devam eder.

Tablo 2.3, Huffman kodlamasını göstermektedir. Tablodan da anlaşılacağı üzere kodlama 7 aşamada gerçekleştirilmiştir. Solda sembollerin olasılıkları, sağda - ara kodlar. Oklar, yeni oluşturulan sembollerin hareketlerini gösterir. Her aşamada, son iki karakter yalnızca kodlama tekniğine karşılık gelen en az anlamlı bitte farklılık gösterir. Ortalama kelime uzunluğunu hesaplayalım:

l av = 0,3 2 + 0,2 2 + 0,15 3 ++ 2 0,1 3 + +0,05 4 + 0,05 5 + 0,03 6 + 0,02 6 = 2,7

Bu, entropiye daha da yakındır: kod daha da verimlidir. İncirde. 2.12, Huffman kod ağacını gösterir.

Tablo 2.3.

Huffman kodlaması

n ben kod Bence II III IV V VI vii
0.3 0.3 11 0.3 11 0.3 11 0.3 11 0.3 11 0.4 0 0.6 1
0.2 0.2 01 0.2 01 0.2 01 0.2 01 0.3 10 0.3 11 0.4 0
0.15 0.15 101 0.15 101 0.15 101 0.2 00 0.2 01 0.3 10
0.1 0.1 001 0.1 001 0.15 100 0.15 101 0.2 00
0.1 0.1 000 0.1 000 0.1 001 0.15 100
0.05 0.05 1000 0.1 1001 0.1 000
0.05 0.05 10011 0.05 1000
0.03 0.05 10010
0.02

Her iki kod da, açıklığın çözülmesi gereksinimini karşılamaktadır: Tablolardan da görülebileceği gibi, daha kısa kombinasyonlar, daha uzun kodların başlangıcı değildir.

Sembol sayısındaki artışla kodların verimliliği artar, bu nedenle bazı durumlarda daha büyük bloklar kodlanır (örneğin, metinler söz konusu olduğunda, en yaygın hecelerin, kelimelerin ve hatta bazılarının kodlanmasını sağlayabilirsiniz). cümleler).

Bu tür kodların getirilmesinin etkisi, bunları tek tip bir kodla karşılaştırarak belirlenir:

(2.24)

burada n, etkin kodla değiştirilen tek tip kodun bit sayısıdır.

Huffman kodları değişiklikleri

Klasik Huffman algoritması iki geçişi ifade eder, yani. önce semboller ve mesajlarla ilgili istatistiklerin toplanmasını ve ardından yukarıda açıklanan prosedürleri gerektirir. Bu, mesajların işlem süresini ve sözlük birikimini arttırdığı için pratikte elverişsizdir. Biriktirme ve kodlama işlemlerinin birleştirildiği tek geçişli yöntemler daha sık kullanılmaktadır. Bu tür yöntemlere Huffman'a [46] göre uyarlamalı sıkıştırma da denir.

Huffman uyarlamalı sıkıştırmanın özü, ilk kod ağacının oluşturulmasına ve sonraki her karakterin gelmesinden sonra sıralı olarak değiştirilmesine indirgenmiştir. Daha önce olduğu gibi, ağaçlar burada ikili, yani. ağaç grafiğinin her bir köşesinden en fazla iki yay çıkar. Orijinal köşeyi ebeveyn ve onunla ilişkili sonraki iki köşeyi çocuklar olarak adlandırmak gelenekseldir. Bir köşenin ağırlığı kavramını tanıtalım - bu, orijinal diziyi gönderirken elde edilen belirli bir köşeye karşılık gelen sembollerin (kelimelerin) sayısıdır. Açıkçası, çocukların ağırlıklarının toplamı ebeveynlerin ağırlığına eşittir.

Giriş dizisinin bir sonraki karakterinin girilmesinden sonra, kod ağacı revize edilir: köşelerin ağırlıkları yeniden hesaplanır ve gerekirse köşeler yeniden düzenlenir. Köşe permütasyon kuralı şu şekildedir: alt köşelerin ağırlıkları en küçüktür ve grafiğin solundaki köşeler en az ağırlığa sahiptir.

Aynı zamanda, köşeler numaralandırılmıştır. Numaralandırma, alttan (sarkan, yani çocuğu olmayan) köşelerden soldan sağa başlar, sonra en üst seviyeye taşınır, vb. son, orijinal tepe noktasının numaralandırılmasından önce. Bu durumda, aşağıdaki sonuç elde edilir: tepe noktasının ağırlığı ne kadar azsa, sayısı o kadar azdır.

Permütasyon esas olarak asılı tepeler için yapılır. Yeniden düzenlerken, yukarıda formüle edilen kural dikkate alınmalıdır: daha yüksek ağırlıklı köşeler de daha yüksek bir sayıya sahiptir.

Diziyi geçtikten sonra (aynı zamanda kontrol veya test olarak da adlandırılır), tüm asılı köşelere kod kombinasyonları atanır. Kod atama kuralı yukarıdakine benzer: kod bitlerinin sayısı, yolun kaynaktan verilen asılı tepe noktasına geçtiği köşelerin sayısına eşittir ve belirli bir bitin değeri, ana noktadan yöne karşılık gelir. "çocuk"a (örneğin, ebeveynden sola geçiş, 1, sağa - 0 değerine karşılık gelir).

Ortaya çıkan kod kombinasyonları, karşılıkları ile birlikte sıkıştırma cihazının hafızasına girilir ve bir sözlük oluşturur. Algoritmanın kullanımı aşağıdaki gibidir. Sıkıştırılmış karakter dizisi, mevcut sözlüğe göre parçalara bölünür, ardından parçaların her biri sözlükten kendi koduyla değiştirilir. Sözlükte bulunmayan parçalar yeni asılı köşeler oluşturur, ağırlık kazanır ve sözlüğe de girilir. Böylece uyarlanabilir bir sözlük yenileme algoritması oluşturulmuştur.

Yöntemin etkinliğini arttırmak için sözlüğün boyutunun arttırılması arzu edilir; bu durumda sıkıştırma oranı artar. Pratik olarak sözlüğün boyutu 4 - 16 Kbyte hafızadır.


Verilen algoritmayı bir örnekle açıklayalım. İncirde. 2.13 orijinal diyagramı gösterir (buna Huffman ağacı da denir). Ağacın her bir köşesi, bir kesir boyunca iki sayının yazıldığı bir dikdörtgen ile gösterilir: ilki, köşenin sayısı, ikincisi - ağırlığı anlamına gelir. Gördüğünüz gibi, köşelerin ağırlıklarının ve sayılarının yazışmaları yerine getirilmiştir.

Şimdi, test dizisinde köşe 1'e karşılık gelen sembolle ikinci kez karşılaşıldığını varsayalım. Köşe ağırlığı, Şekil 2'de gösterildiği gibi değişti. 2.14, bunun sonucunda köşe numaralandırma kuralı ihlal edilmiştir. Bir sonraki aşamada, 1 ve 4 köşelerini değiştirdiğimiz ve tüm ağaç köşelerini yeniden numaralandırdığımız asılı köşelerin konumunu değiştiriyoruz. Ortaya çıkan grafik Şekil 2'de gösterilmektedir. 2.15. Ayrıca işlem aynı şekilde devam eder.

Huffman ağacındaki her sarkan köşenin belirli bir sembole veya bir gruba karşılık geldiği unutulmamalıdır. Bir ebeveyn, çocuklardan, kendisine karşılık gelen sembol grubunun, çocuklarınınkinden bir sembol daha kısa olması ve bu çocukların son sembolde farklılık göstermesi bakımından farklıdır. Örneğin, "kar" sembolleri ebeveyne karşılık gelir; daha sonra çocuklar "kara" ve "sazan" dizilerine sahip olabilir.

Verilen algoritma akademik değildir ve grafik verilerinin sıkıştırılması da dahil olmak üzere arşivleme programlarında aktif olarak kullanılır (bunlardan aşağıda bahsedeceğiz).

Lempel - Ziv Algoritmaları

Bunlar günümüzde en sık kullanılan sıkıştırma algoritmalarıdır. Çoğu arşivleme programında kullanılırlar (örn. PKZIP. ARJ, LHA). Algoritmaların özü, arşivleme sırasında belirli bir sembol kümesinin özel olarak oluşturulmuş bir sözlükteki numarasıyla değiştirilmesidir. Örneğin, genellikle iş yazışmalarında bulunan "Mektubunuza giden numara ..." ifadesi sözlükte 121. sırada yer alabilir; daha sonra, söz konusu ifadeyi (30 bayt) iletmek veya saklamak yerine, söz öbeği numarasını (ikili - ondalık biçimde 1,5 bayt veya ikili olarak 1 bayt - ikili olarak) saklayabilirsiniz.

Algoritmalar, 1977'de onları ilk kez öneren yazarların adını almıştır. Bunlardan ilki LZ77'dir. Arşivleme için, iki bölümden oluşan sözde bir sürgülü pencere oluşturulur. İlk kısım, daha büyük format, bir sözlük oluşturmaya yarar ve birkaç kilobayt boyutundadır. İkinci, daha küçük kısım (genellikle 100 bayta kadar), görüntülenen metnin mevcut karakterlerini kabul eder. Algoritma, sözlükte, görünüm penceresinde alınanlarla eşleşen bir sembol koleksiyonu bulmaya çalışır. Bu başarılı olursa, üç bölümden oluşan bir kod oluşturulur: sözlükteki başlangıç ​​alt dizesine göre ofset, bu alt dizenin uzunluğu, bu alt dizeyi takip eden karakter. Örneğin, seçilen alt dize "app" karakterlerinden (toplam 6 karakter) ve ardından "e" karakterinden oluşur. Ardından, alt dizenin adresi (sözlükteki yeri) 45 ise, sözlükteki giriş "45, 6. e" biçimindedir. Bundan sonra, pencerenin içeriği bir konum kaydırılır ve arama devam eder. Böylece bir sözlük oluşturulmuş olur.

Algoritmanın avantajı, kolayca resmileştirilmiş sözlük derleme algoritmasıdır. Ek olarak, orijinal sözlük olmadan sıkıştırmayı açmak mümkündür (aynı anda bir test dizisinin olması istenir) - sözlük, açma işlemi sırasında oluşturulur.

Algoritmanın dezavantajları, sözlüğün boyutu arttığında ortaya çıkar - arama süresi artar. Ek olarak, geçerli pencerede sözlükte olmayan bir karakter dizisi görünürse, her karakter üç öğeli bir kodla yazılır, yani. sonuç sıkıştırma değil, esnemedir.

En iyi özellikler 1978'de önerilen LZSS algoritmasına sahiptir. Sürgülü pencere bakımı ve kompresör çıkış kodlarında farklılıklar vardır. Pencereye ek olarak, algoritma, eşleşme aramasını hızlandırmak için Huffman ağacına benzer bir ikili ağaç oluşturur: geçerli pencereden ayrılan her alt dizi, ağaca alt dizilerden biri olarak eklenir. Bu algoritma, mevcut pencerenin boyutunu ek olarak artırmanıza izin verir (boyutunun iki kata eşit olması istenir: 128, 256, vb. bayt). Sıra kodları da farklı bir şekilde oluşturulur: kodlanmamış karakterleri "ofset, uzunluk" çiftlerinden ayırt etmek için 1 bitlik ek bir önek eklenir.

LZW gibi algoritmalar kullanıldığında daha da yüksek bir sıkıştırma oranı elde edilir. Daha önce açıklanan algoritmaların sabit bir pencere boyutu vardır, bu da sözlüğe pencere boyutundan daha uzun tümceciklerin girilmesini imkansız hale getirir. LZW algoritmalarında (ve onların öncülü LZ78), görünüm penceresi sınırsız bir boyuta sahiptir ve sözlük ifadeler biriktirir (önceki gibi bir karakter koleksiyonu değil). Sözlük sınırsız bir uzunluğa sahiptir ve kodlayıcı (kod çözücü) tümce bekleme modunda çalışır. Sözlükle eşleşen ifade oluşturulduğunda, eşleşen kod (yani bu ifadenin sözlükteki kodu) ve ondan sonraki karakterin kodu döndürülür. Karakterler biriktikçe yeni bir ifade oluşursa, kısa olan gibi sözlüğe de girilir. Sonuç, hızlı kodlama ve kod çözme sağlayan özyinelemeli bir prosedürdür.

Ek sıkıştırma özelliği, sıkıştırılmış tekrarlayan sembol kodlaması ile sağlanır. Sırada bazı karakterler arka arkaya geliyorsa (örneğin, metinde sayısal bir dizide "boşluk" karakterleri olabilir - ardışık sıfırlar vb.), bunları bir çift "karakterle değiştirmek mantıklıdır. ; uzunluk" veya "işaret, uzunluk". İlk durumda, kod, dizinin kodlanacağının işaretini (genellikle 1 bit), ardından tekrarlanan sembolün kodunu ve dizinin uzunluğunu gösterir. İkinci durumda (en sık tekrarlanan karakterler için sağlanır), önek basitçe yinelenen niteliği belirtir.

Dinamik sıkıştırma(Dinamik aralık sıkıştırma, DRC) - bir fonogramın dinamik aralığını daraltma (veya genişletici durumunda genişletme). dinamik aralık, en sessiz ve en yüksek ses arasındaki farktır. Bazen film müziğindeki en sessiz ses, gürültü seviyesinden biraz daha yüksek, bazen de en yüksek ses seviyesinden biraz daha sessiz olacaktır. Dinamik sıkıştırma gerçekleştiren donanım aygıtları ve programlarına kompresörler denir ve bunlar arasında dört ana grup ayırt edilir: kompresörlerin kendileri, sınırlayıcılar, genişleticiler ve kapılar.

Vakum tüplü analog kompresör DBX 566

Yukarı ve aşağı sıkıştırma

Aşağı sıkıştırma(Aşağıya doğru sıkıştırma), belirli bir eşiği aşmaya başladığında sesin sesini azaltır ve daha sessiz sesleri değiştirmeden bırakır. Aşırı aşağı sıkıştırma seçeneği sınırlayıcı. yukarı sıkıştırma(Yukarı sıkıştırma), tam tersine, daha yüksek sesleri etkilemeden, eşik değerinin altındaysa ses düzeyini artırır. Bu durumda, her iki sıkıştırma türü de ses sinyalinin dinamik aralığını daraltır.

Aşağı sıkıştırma

yukarı sıkıştırma

Genişletici ve Kapı

Kompresör dinamik aralığı azaltırsa genişletici onu artırır. Sinyal seviyesi eşik seviyesinin üzerine çıktığında genişletici bunu daha da artırır, böylece yüksek ve sessiz sesler arasındaki farkı artırır. Bu tür cihazlar genellikle bateri kitlerini kaydederken bazı bateri seslerini diğerlerinden ayırmak için kullanılır.

Yüksek sesleri yükseltmek için değil, eşik seviyesini aşmayan sessiz sesleri boğmak için kullanılan bir genişletici türü (örneğin, arkaplan gürültüsü) denir Gürültü kapısı... Böyle bir cihazda ses seviyesi eşiğin altına düşer düşmez sinyal akışı durur. Genellikle geçit, duraklamalar sırasında gürültüyü bastırmak için kullanılır. Bazı modellerde, eşik düzeyine ulaşıldığında sesin aniden durmamasını, yavaş yavaş azalmasını sağlayabilirsiniz. Bu durumda, bozunma hızı Decay düğmesi ile ayarlanır.

Gate, diğer kompresör türleri gibi, frekansa bağlı(yani, belirli frekans bantlarını farklı şekilde ele alın) ve Yan zincir(aşağıya bakınız).

Kompresör çalışma prensibi

Kompresöre giren sinyal iki kopyaya bölünür. Bir kopya, amplifikasyon derecesinin harici bir sinyal tarafından kontrol edildiği bir amplifikatöre gönderilir, ikinci kopya bu sinyali oluşturur. Sinyalin ölçüldüğü yan zincir adı verilen bir cihaza girer ve bu verilere dayanarak hacmindeki değişimi tanımlayan bir zarf oluşturulur.
Modern kompresörlerin çoğu bu şekilde düzenlenir, bu sözde ileri besleme tipidir. Daha eski cihazlarda (geri bildirim tipi) sinyal seviyesi amplifikatörden sonra ölçülür.

Her biri kendi avantaj ve dezavantajlarına sahip çeşitli analog değişken kazançlı amplifikasyon teknolojileri vardır: tüp, optik kullanan fotodirençler ve transistör. Dijital sesle çalışırken (içinde ses düzenleyici veya DAW), kendi matematiksel algoritmalarınızı kullanabilir veya analog teknolojilerin çalışmasını taklit edebilirsiniz.

Kompresörlerin temel parametreleri

Eşik

Kompresör, genliği belirli bir eşik değerini aşarsa ses sinyali seviyesini azaltır. Genellikle desibel olarak belirtilir, daha düşük bir eşik (örn. -60 dB), daha yüksek bir eşikten (örn. -5 dB) daha fazla sesin işleneceği anlamına gelir.

Oran

Seviye düşürme miktarı oran parametresi tarafından belirlenir: oran 4:1, giriş seviyesi eşikten 4 dB daha yüksekse, çıkış sinyali seviyesi eşikten 1 dB daha yüksek olacağı anlamına gelir.
Örneğin:
Eşik = -10 dB
Giriş sinyali = -6 dB (eşiğin 4 dB üzerinde)
Çıkış sinyali = -9 dB (eşiğin 1 dB üzerinde)

Sinyal seviyesinin bastırılmasının eşik seviyesinin altına düştükten sonra bir süre daha devam ettiğini ve bu sürenin parametre değeri tarafından belirlendiğini unutmamak önemlidir. serbest bırakmak.

Maksimum ∞: 1 oranında sıkıştırmaya sınırlama denir. Bu, eşik seviyesinin üzerindeki herhangi bir sinyalin eşik seviyesine bastırıldığı anlamına gelir (giriş hacmindeki ani bir artıştan sonraki kısa bir süre hariç). Ayrıntılar için aşağıdaki Sınırlayıcıya bakın.

Farklı Oran değerlerine örnekler

Saldırı ve Serbest Bırakma

Kompresör, sinyal dinamiklerindeki değişikliklere ne kadar hızlı tepki verdiği konusunda bir miktar kontrol sağlar. Attack parametresi, kompresörün kazancı Oran parametresi tarafından belirlenen seviyeye düşürmesi için geçen süreyi belirler. Serbest bırakma, aksine, kompresörün kazancı artırdığı veya giriş sinyali seviyesi eşik değerinin altına düşerse normale döndüğü süreyi belirler.

Saldırı ve Serbest Bırakma aşamaları

Bu parametreler, kazancı belirli bir miktar desibel, genellikle 10 dB değiştirmek için gereken süreyi (genellikle milisaniye cinsinden) gösterir. Örneğin, bu durumda, Saldırı 1ms olarak ayarlanırsa, kazancı 10dB azaltmak 1ms ve 20dB azaltmak için 2ms alacaktır.

Birçok kompresörde Attack ve Release parametreleri ayarlanabilir, ancak bazılarında önceden ayarlanmıştır ve ayarlanamaz. Bazen "otomatik" veya "programa bağlı" olarak adlandırılırlar, yani. giriş sinyaline bağlı olarak değişir.

Diz

Bir kompresör parametresi daha: sert / yumuşak Diz... Sıkıştırmanın başlangıcının sert mi yoksa yumuşak mı olduğunu belirler. Yumuşak diz, özellikle yüksek Oranlarda ve hacimdeki ani artışlarda, kuru sinyalden sıkıştırılmış sinyale belirgin geçişi azaltır.

Sert Diz ve Yumuşak Diz Sıkıştırma

Tepe ve RMS

Kompresör, tepe (kısa süreli maksimum) değerlere veya ortalama giriş seviyesine yanıt verebilir. Piklerin kullanılması, sıkıştırma oranında keskin dalgalanmalara ve hatta bozulmaya neden olabilir. Bu nedenle kompresörler, giriş sinyalini eşik değeriyle karşılaştırırken bir ortalama alma işlevi (genellikle RMS) uygular. Bu, insanın ses yüksekliği algısına daha yakın, daha rahat bir sıkıştırma sağlar.

RMS, bir fonogramın ortalama hacmini yansıtan bir parametredir. Matematiksel bir bakış açısından, RMS (Kök Ortalama Kare), belirli sayıda örneğin genliğinin ortalama karekök değeridir:

Stereo bağlantı

Stereo bağlantı modundaki bir kompresör, her iki stereo kanala da aynı kazancı uygular. Bu, sol ve sağ kanalların ayrı ayrı işlenmesinden kaynaklanabilecek stereo panoramanın yer değiştirmesini önler. Bu kayma, örneğin yüksek sesli bir öğe merkezden kaydırılırsa gerçekleşir.

makyaj kazancı

Kompresör sinyalin genel seviyesini azalttığından, optimum seviyeyi elde etmek için sabit bir çıkış kazancı seçeneği eklemek yaygındır.

ileriye bakmak

İleriye bakma özelliği, hem çok yüksek hem de çok düşük Saldırı ve Bırakma değerlerinin sorunlarını çözmek için tasarlanmıştır. Çok uzun bir saldırı süresi, geçici olayları etkili bir şekilde engellememize izin vermez ve çok kısa bir saldırı süresi dinleyici için rahat olmayabilir. İleriye bakma işlevini kullanırken, ana sinyal yöneticiye göre geciktirilir, bu, sinyal eşiğe ulaşmadan önce bile sıkıştırmanın erken başlamasına izin verir.
Bu yöntemin tek dezavantajı, bazı durumlarda istenmeyen sinyal gecikmesidir.

Dinamik sıkıştırmayı kullanma

Sıkıştırma, yalnızca müzik fonogramlarında değil, aynı zamanda, pahalı olmayan ses üreten ekipmanın kullanıldığı veya sınırlı bir iletim kanalının (uyarı ve iletişim sistemleri, amatör radyo vb.) .) ...

Sıkıştırma, ses seviyesinde gözle görülür herhangi bir değişikliğin istenmediği durumlarda (mağazalarda, restoranlarda vb.) fon müziği çalarken kullanılır.

Ama en önemli uygulama alanı dinamik sıkıştırma- müzik prodüksiyonu ve yayını. Sıkıştırma, enstrümanların birbirleriyle ve özellikle vokalleri işlerken daha iyi kombinasyonu için sese "yoğunluk" ve "sürücü" vermek için kullanılır.

Rock ve pop müzikteki vokaller, eşlikten öne çıkmalarını sağlamak ve netlik kazandırmak için genellikle sıkıştırılır. Özel görünüm kompresör yalnızca belirli frekanslara ayarlanmıştır - ıslıklı fonemleri bastırmak için kullanılan özden arındırıcı.

Enstrümantal bölümlerde sıkıştırma, doğrudan ses seviyesi ile ilgili olmayan efektler için de kullanılır, örneğin hızlı bir şekilde azalan davul sesleri daha uzun olabilir.

Yan zincirleme genellikle elektronik dans müziğinde (EDM) kullanılır (aşağıya bakın) - örneğin, bas davul çatışmasını önlemek ve dinamik dalgalanma yaratmak için bir bas hattı bir kick davul veya benzeri tarafından sürülebilir.

Sıkıştırma, orijinal sesin (genellikle CD) dinamik aralığını azaltırken algılanan ses yüksekliğini artırmak için yayıncılıkta (radyo, televizyon, web yayını) yaygın olarak kullanılır. Çoğu ülkede, yayınlanabilecek anlık maksimum ses düzeyi konusunda yasal kısıtlamalar vardır. Genellikle bu kısıtlamalar, ether zincirindeki kalıcı donanım kompresörleri tarafından uygulanır. Ek olarak, algılanan ses yüksekliğinin arttırılması, çoğu dinleyicinin bakış açısından sesin "kalitesini" iyileştirir.

Ayrıca bakınız Gürültü savaşı.

1983'ten 2000'e CD için yeniden düzenlenmiş aynı şarkının hacmini sırayla artırın.

yan zincirleme

Diğer bir yaygın kompresör anahtarı, "yan zincir" anahtarıdır. Bu modda ses, kendi seviyesine bağlı olarak değil, genellikle yan zincir olarak adlandırılan konektöre giren sinyalin seviyesine bağlı olarak sıkıştırılır.

Bunun için birkaç kullanım var. Örneğin, bir vokalist peltek ses çıkarır ve tüm "s" harfleri genel resimden öne çıkar. Sesini kompresörden geçiriyorsunuz ve yan zincir konektörüne aynı sesi besliyorsunuz ancak ekolayzerden geçiyorsunuz. Ekolayzerde, "c" harfini telaffuz ederken vokalist tarafından kullanılanlar dışındaki tüm frekansları kaldırırsınız. Genellikle 5 kHz civarındadır, ancak 3 kHz ile 8 kHz arasında değişebilir. Daha sonra kompresörü yan zincir moduna geçirirseniz, "c" harfinin telaffuz edildiği anlarda sesin sıkıştırılması gerçekleşir. Böylece "de-esser" olarak bilinen cihaz elde edilmiş oldu. Bu çalışma şekline frekans bağımlı denir.

Bu özelliğin başka bir kullanımına "ducker" denir. Örneğin, bir radyo istasyonunda müzik kompresörden geçer ve DJ'in sözleri yan zincirden geçer. DJ sohbet etmeye başladığında müziğin sesi otomatik olarak azalır. Bu efekt, örneğin şarkı söylerken klavye bölümlerinin sesini kısarak kayıtta büyük bir başarıyla kullanılabilir.

Tuğla duvar sınırlama

Kompresör ve sınırlayıcı yaklaşık olarak aynı şekilde çalışır, bir sınırlayıcının yüksek Oranlı (10: 1'den) ve genellikle düşük Saldırı süresine sahip bir kompresör olduğunu söyleyebiliriz.

Çok yüksek bir Oran (20: 1 ve daha yüksek) ve çok hızlı bir saldırı ile sınırlama - Tuğla duvar sınırlama kavramı var. İdeal olarak, sinyalin eşik seviyesini hiç aşmasına izin vermez. Sonuç kulağa hoş gelmeyebilir, ancak ses üreten ekipmanın zarar görmesini veya aşırı Bant genişliği kanal. Birçok üretici, tam da bu amaçla cihazlarına sınırlayıcılar entegre eder.

Clipper vs. Sınırlayıcı, yumuşak ve sert kırpma

Araştırmacılar, bilgisayarlar için bir konuşma arayüzü oluşturma problemini yeni çözmeye başladıkları bir zamanda, genellikle bir bilgisayara ses bilgilerini girmelerine ve bir bilgisayardan çıktı almalarına izin veren kendi ekipmanlarını yapmak zorunda kaldılar. Modern bilgisayarlar ses bağdaştırıcıları, mikrofonlar, kulaklıklar ve hoparlörler gibi ses giriş ve çıkış aygıtlarıyla kolayca donatılabildiğinden, günümüzde bu tür aygıtlar yalnızca tarihsel açıdan ilgi çekici olabilir.

Bu cihazların iç yapısının ayrıntılarına girmeyeceğiz, ancak nasıl çalıştıkları hakkında konuşacağız ve konuşma tanıma ve sentez sistemleriyle çalışmak için ses bilgisayar cihazlarının seçilmesi için bazı önerilerde bulunacağız.

Önceki bölümde söylediğimiz gibi, ses, frekansı bir kişi tarafından algılanan frekans aralığında bulunan hava titreşimlerinden başka bir şey değildir. İşitilebilir frekans aralığının kesin sınırları kişiden kişiye değişebilir, ancak ses titreşimlerinin 16-20.000 Hz aralığında olduğuna inanılmaktadır.

Mikrofonun görevi, ses titreşimlerini daha da güçlendirilebilen, paraziti gidermek için filtrelenebilen ve ses bilgilerini bir bilgisayara girmek için dijitalleştirilebilen elektrik titreşimlerine dönüştürmektir.

Çalışma prensibine göre, en yaygın mikrofonlar karbon, elektrodinamik, kondansatör ve elektrete ayrılır. Bu mikrofonlardan bazıları şunları gerektirir: dış kaynak akım (örneğin, karbon ve kondansatör), diğerleri, ses titreşimlerinin etkisi altında, bağımsız olarak alternatif bir elektrik voltajı üretebilir (bunlar elektrodinamik ve elektret mikrofonlardır).

Mikrofonları amaçlarına göre de ayırabilirsiniz. Elinizde tutabileceğiniz veya bir standa klipsleyebileceğiniz stüdyo mikrofonları, kıyafetlerinize klipsleyebileceğiniz radyo mikrofonları vb.

Bilgisayarlar için özel olarak tasarlanmış mikrofonlar da vardır. Bu mikrofonlar genellikle masanın üstüne oturan bir stand üzerine monte edilir. Bilgisayar mikrofonları, Şekil 2'de gösterildiği gibi kulaklıklarla birleştirilebilir. 2-1.

Pirinç. 2-1. Mikrofonlu kulaklıklar

Peki, çeşitli mikrofonlar arasından konuşma tanıma sistemleri için en uygun olanı nasıl seçersiniz?

Temel olarak, bilgisayarınızın ses adaptörüne bağlanabildiği sürece sahip olduğunuz herhangi bir mikrofonla deney yapabilirsiniz. Bununla birlikte, konuşma tanıma sistemleri geliştiricileri, çalışma sırasında konuşmacının ağzından sabit bir mesafede olacak bir mikrofon satın almanızı önerir.

Mikrofon ile ağız arasındaki mesafe değişmezse, mikrofondan gelen elektrik sinyalinin ortalama seviyesi de çok fazla değişmeyecektir. Bu, modern konuşma tanıma sistemlerinin kalitesi üzerinde olumlu bir etkiye sahip olacaktır.

Burada sorun nedir?

Bir kişi, hacmi çok geniş bir aralıkta değişen konuşmayı başarıyla tanıyabilir. İnsan beyni, caddeden geçen arabaların gürültüsü, yabancı konuşmalar ve müzik gibi sessiz konuşmaları parazitlerden arındırabilir.

Modern konuşma tanıma sistemlerine gelince, bu alandaki yetenekleri arzulanan çok şey bırakıyor. Mikrofon bir masanın üzerindeyse, başınızı çevirdiğinizde veya vücudunuzun pozisyonunu değiştirdiğinizde, ağız ile mikrofon arasındaki mesafe değişecektir. Bu, mikrofonun çıkış seviyesini değiştirecek ve bu da konuşma tanımanın güvenilirliğini bozacaktır.

Bu nedenle, konuşma tanıma sistemleriyle çalışırken, Şekil 1'de gösterildiği gibi kulaklıklara takılı bir mikrofon kullanırsanız en iyi sonuçlar elde edilecektir. 2-1. Böyle bir mikrofon kullanırken, ağız ile mikrofon arasındaki mesafe sabit olacaktır.

Ayrıca konuşma tanıma sistemleriyle yapılan tüm deneylerin en iyi şekilde sessiz bir odada yapıldığını unutmayın. Bu durumda, girişimin etkisi minimum olacaktır. Tabii ki, güçlü bir parazit ortamında çalışabilecek bir konuşma tanıma sistemi seçmeniz gerekiyorsa, o zaman testlerin farklı yapılması gerekiyor. Ancak kitabın yazarlarının bildiği kadarıyla konuşma tanıma sistemlerinin gürültü bağışıklığı hala çok ama çok düşük.

Mikrofon bizim için ses titreşimlerinin elektrik akımı titreşimlerine dönüşümünü gerçekleştirir. Bu dalgalanmalar osiloskop ekranında görülebilir, ancak bu pahalı cihazı satın almak için mağazaya acele etmeyin. Tüm osilografik çalışmaları, örneğin bir Sound Blaster adaptörü gibi bir ses adaptörüyle donatılmış normal bir bilgisayar kullanarak gerçekleştirebiliriz. Bunu nasıl yapacağınızı daha sonra anlatacağız.

İncirde. 2-2'de uzun bir ses a'yı telaffuz ederek elde edilen ses sinyalinin osilogramını gösterdik. Bu dalga biçimi, kitabın bu bölümünde daha sonra tartışacağımız GoldWave yazılımının yanı sıra bir Sound Blaster ses adaptörü ve Şekil 2'de gösterilene benzer bir mikrofon kullanılarak elde edildi. 2-1.

Pirinç. 2-2. Bir ses sinyalinin osilogramı

GoldWave yazılımı, dalga biçimini zaman ekseni boyunca uzatmanıza izin vererek en küçük ayrıntıları görmenizi sağlar. İncirde. 2-3 yukarıda bahsedilen ses osilogramının uzatılmış bir parçasını gösterdik a.

Pirinç. 2-3. Bir ses sinyalinin osilogramının parçası

Mikrofondan gelen giriş sinyalinin büyüklüğünün periyodik olarak değiştiğini ve hem pozitif hem de negatif değerler aldığını unutmayın.

Giriş sinyalinde yalnızca bir frekans varsa (yani ses "temiz" ise), mikrofondan alınan dalga biçimi sinüsoidal olacaktır. Bununla birlikte, daha önce de söylediğimiz gibi, insan konuşma seslerinin spektrumu, konuşma sinyali osilogramının şeklinin sinüzoidal olmaktan uzak olduğu bir dizi frekanstan oluşur.

Büyüklüğü zamanla sürekli değişen bir sinyale denir. analog sinyal... Bu mikrofondan gelen sinyaldir. Bir analog sinyalden farklı olarak, bir dijital sinyal, zaman içinde ayrı ayrı değişen bir dizi sayısal değerdir.

Bir bilgisayarın bir ses sinyalini işleyebilmesi için analogdan dijital forma dönüştürülmesi, yani bir dizi sayısal değer olarak sunulması gerekir. Bu işleme bir analog sinyali sayısallaştırma denir.

Ses (ve herhangi bir analog) sinyalinin sayısallaştırılması, adı verilen özel bir cihaz kullanılarak gerçekleştirilir. analogtan dijitale dönüştürücü ADC (Analogdan Dijitale Dönüştürücü, ADC). Bu cihaz, ses adaptör kartında bulunur ve sıradan görünümlü bir mikro devredir.

Analogdan dijitale dönüştürücü nasıl çalışır?

Giriş sinyalinin seviyesini periyodik olarak ölçer ve çıkışta ölçüm sonucunun sayısal bir değerini verir. Bu süreç Şekil 2'de gösterilmektedir. 2-4. Burada gri dikdörtgenler belirli bir sabit zaman aralığı ile ölçülen giriş sinyali değerlerini işaretler. Bu tür değerlerin kümesi, giriş analog sinyalinin sayısallaştırılmış temsilidir.

Pirinç. 2-4. Sinyal genliğinin zamana karşı ölçümleri

İncirde. 2-5, bir analogdan dijitale dönüştürücünün bir mikrofona nasıl bağlanacağını gösterdik. Bu durumda, x 1 girişine bir analog sinyal verilir ve u 1 -u n çıkışlarından bir dijital sinyal çıkarılır.

Pirinç. 2-5. Analogtan dijitale dönüştürücü

Analogdan dijitale dönüştürücüler, iki önemli parametre ile karakterize edilir - dönüştürme frekansı ve giriş sinyalinin nicemleme düzeylerinin sayısı. Bu parametrelerin doğru seçilmesi, analog sinyalin yeterli dijital temsilini elde etmek için kritik öneme sahiptir.

Sayısallaştırmanın bir sonucu olarak giriş analog sinyalindeki değişiklikler hakkındaki bilgilerin kaybolmaması için bir giriş analog sinyalinin genlik değerini ne sıklıkla ölçmeniz gerekir?

Cevap basit gibi görünüyor - giriş sinyali mümkün olduğunca sık ölçülmelidir. Aslında, analogdan dijitale dönüştürücü bu tür ölçümleri ne kadar sık ​​yaparsa, giriş analog sinyalinin genliğindeki en küçük değişiklikler o kadar iyi izlenecektir.

Bununla birlikte, aşırı sık ölçümler, dijital veri akışında haksız bir artışa ve sinyal işlemede bilgisayar kaynaklarının israfına yol açabilir.

Neyse ki, doğru seçim dönüşüm oranı (örnekleme oranı) yapmak oldukça basittir. Bunu yapmak için, dijital sinyal işleme alanındaki uzmanlar tarafından bilinen Kotelnikov teoremine başvurmak yeterlidir. Teorem, dönüşüm sıklığının iki kat daha yüksek olması gerektiğini söylüyor. maksimum frekans Dönüştürülen sinyalin spektrumu. Bu nedenle, frekansı 16-20.000 Hz aralığında olan bir ses sinyalinin kalite kaybı olmadan sayısallaştırılması için, 40.000 Hz'den az olmayan bir dönüştürme frekansının seçilmesi gerekir.

Ancak, profesyonel ses ekipmanında dönüştürme frekansının belirtilen değerden birkaç kat daha yüksek seçildiğini unutmayın. Bu çok elde etmek için yapılır Yüksek kalite dijitalleştirilmiş ses Konuşma tanıma sistemleri için böyle bir kalite ilgili değildir, bu nedenle dikkatinizi bu seçime odaklamayacağız.

Ve insan konuşmasının sesini dijitalleştirmek için hangi sıklıkta dönüşüm gerekiyor?

İnsan konuşmasının sesleri 300-4000 Hz frekans aralığında olduğundan, gerekli minimum dönüştürme frekansı 8000 Hz'dir. Ancak birçok bilgisayar programları konuşma tanıma, geleneksel ses bağdaştırıcıları için standart olan 44.000 Hz dönüştürme oranını kullanır. Böyle bir dönüşüm oranı bir yandan sayısal veri akışında aşırı bir artışa yol açmazken diğer yandan konuşmanın yeterli kalitede sayısallaştırılmasını sağlar.

Okula döndüğümüzde, herhangi bir ölçümün tamamen ortadan kaldırılamayan hatalara yol açtığı öğretildi. Bu tür hatalar, ölçüm cihazlarının sınırlı çözünürlüğünden ve ayrıca ölçüm sürecinin kendisinin ölçülen değerde bazı değişikliklere neden olabilmesinden kaynaklanmaktadır.

Analogdan dijitale dönüştürücü, analog giriş sinyalini sınırlı uzunluktaki sayıların bir akışı olarak temsil eder. Tipik ses bağdaştırıcıları, giriş sinyalinin genliğini 216 = 65536 farklı değer olarak gösterebilen 16 bitlik ADC blokları içerir. Üst düzey ses ekipmanındaki ADC cihazları, ses sinyalinin genliğini temsil etmede daha fazla doğruluk sağlayan 20 bit olabilir.

Modern konuşma tanıma sistemleri ve programları oluşturulmuştur. geleneksel bilgisayarlar normal ses adaptörleri ile donatılmıştır. Bu nedenle, konuşma tanımayı denemek için profesyonel bir ses adaptörü satın almanıza gerek yoktur. Sound Blaster gibi bir adaptör, daha fazla tanınması amacıyla konuşmayı dijitalleştirmek için oldukça uygundur.

Kullanışlı sinyalin yanı sıra, mikrofona genellikle çeşitli sesler gelir - sokaktan gelen gürültü, rüzgar gürültüsü, yabancı konuşmalar vb. Gürültü, konuşma tanıma sistemlerinin performansı üzerinde olumsuz bir etkiye sahiptir ve bu nedenle ele alınması gerekir. Daha önce bahsettiğimiz yollardan biri, günümüzün konuşma tanıma sistemlerinin en iyi şekilde sessiz bir odada, bilgisayarla baş başayken kullanılmasıdır.

Ancak ideal koşulları oluşturmak her zaman mümkün değildir, bu nedenle parazitten kurtulmak için özel yöntemler kullanmanız gerekir. Gürültü seviyesini azaltmak için, mikrofonların tasarımında özel hileler ve taşımayan analog sinyal spektrumundan frekansları kaldıran özel filtreler kullanılır. kullanışlı bilgi... Ek olarak, giriş sinyali seviyelerinin dinamik aralığının sıkıştırılması gibi bir teknik kullanılır.

Tüm bunları sırayla konuşalım.

Frekans filtresi bir analog sinyalin frekans spektrumunu dönüştüren bir cihaz olarak adlandırılır. Bu durumda, dönüşüm sürecinde, belirli frekanslardaki salınımların seçimi (veya emilmesi) meydana gelir.

Bu cihazı bir giriş ve bir çıkışa sahip bir tür kara kutu olarak düşünebilirsiniz. Bizim durumumuzda olduğu gibi, frekans filtresinin girişine bir mikrofon bağlanacak ve çıkışa bir analogdan dijitale dönüştürücü bağlanacaktır.

Frekans filtreleri farklıdır:

· Alçak geçiren filtreler;

· Yüksek geçiren filtreler;

· Bant filtreleri geçirin;

· Çentik bant geçiren filtreler.

Düşük Geçişli Filtreler(düşük geçişli filtre), filtre ayarına bağlı olarak, değerleri belirli bir eşik frekansının altında olan tüm frekansları giriş sinyalinin spektrumundan kaldırır.

Ses sinyalleri 16-20.000 Hz aralığında olduğundan, 16 Hz'nin altındaki tüm frekanslar ses kalitesi bozulmadan kesilebilir. Konuşma tanıma için 300-4000 Hz frekans aralığı önemlidir, bu nedenle 300 Hz altındaki frekanslar kesilebilir. Bu durumda, 300 Hz'nin altındaki bir frekans spektrumuna sahip tüm parazitler giriş sinyalinden kesilecek ve konuşma tanıma sürecine müdahale etmeyeceklerdir.

Aynı şekilde, yüksek geçiş filtreleri(yüksek geçiş filtresi), giriş sinyali spektrumundan belirli bir eşik frekansının üzerindeki tüm frekansları keser.

Bir kişi 20.000 Hz ve üzeri frekanstaki sesleri duymaz, bu nedenle ses kalitesinde gözle görülür bir bozulma olmadan spektrumdan kesilebilirler. Konuşma tanımaya gelince, burada 4000 Hz'nin üzerindeki tüm frekansları kesebilirsiniz, bu da yüksek frekanslı parazit seviyesinde önemli bir azalmaya yol açacaktır.

Geçiş bandı filtresi(bant geçiren filtre), alçak ve yüksek geçiren filtrenin bir kombinasyonu olarak düşünülebilir. Böyle bir filtre, sözde altındaki tüm frekansları geciktirir. alt geçiş frekansı ayrıca yukarıdaki gibi üst geçiş frekansı.

Bu nedenle, konuşma tanıma sistemi için, 300-4000 Hz aralığındaki frekanslar dışında tüm frekansları geciktiren bir geçiş bant geçiren filtre uygundur.

Bant durdurma filtrelerine gelince, belirli bir aralıkta bulunan tüm frekansları giriş sinyalinin spektrumundan kesmenize izin verirler. Böyle bir filtre, örneğin, sinyal spektrumunun belirli bir sürekli bölümünü işgal eden girişimi bastırmak için uygundur.

İncirde. 2-6 bir geçiş bandı filtresinin bağlantısını gösterdik.

Pirinç. 2-6. Dijitalleştirmeden önce ses sinyalini filtreleme

Bir bilgisayara takılan sıradan ses adaptörlerinin, analog sinyalin sayısallaştırmadan önce geçtiği bir bant geçiren filtre içerdiğini söylemeliyim. Böyle bir filtrenin bant genişliği genellikle ses sinyalleri aralığına, yani 16-20.000 Hz'e karşılık gelir (farklı ses adaptörlerinde üst ve alt frekansların değerleri küçük sınırlar içinde değişebilir).

Ve insan konuşmasının spektrumunun en bilgilendirici kısmına karşılık gelen 300-4000 Hz'lik daha dar bir bant genişliği nasıl elde edilir?

Tabii ki, elektronik ekipman tasarlama tutkunuz varsa, filtrenizi işlemsel bir amplifikatör çipi, dirençler ve kapasitörlerden yapabilirsiniz. Bu, konuşma tanıma sistemlerinin ilk yaratıcılarının yaklaşık olarak yaptığı şeydir.

Ancak endüstriyel konuşma tanıma sistemleri, standart bilgisayar donanımı üzerinde çalıştırılabilir olmalıdır, bu nedenle özel bir bant geçiren filtre yapma şekli burada uygun değildir.

Bunun yerine, modern konuşma işleme sistemleri sözde dijital frekans filtreleri yazılımda uygulanmaktadır. Bu, bilgisayarın merkezi işlem birimi yeterince güçlendikten sonra mümkün oldu.

Yazılımda uygulanan bir dijital frekans filtresi, bir dijital giriş sinyalini bir çıkış dijital sinyaline dönüştürür. Dönüştürme sürecinde program, analogdan dijitale dönüştürücüden gelen sinyal genliğinin sayısal değerlerinin akışını özel bir şekilde işler. Dönüştürme sonucu da bir sayı akışı olacaktır, ancak bu akış zaten filtrelenmiş sinyale karşılık gelecektir.

Analogdan dijitale dönüştürücü hakkında konuşurken, niceleme seviyelerinin sayısı gibi önemli bir özelliğini kaydettik. Ses adaptöründe 16 bitlik bir analogdan dijitale dönüştürücü kuruluysa, sayısallaştırmadan sonra ses sinyali seviyeleri 216 = 65536 farklı değerler olarak gösterilebilir.

Birkaç niceleme seviyesi varsa, o zaman sözde nicemleme gürültüsü... Bu gürültüyü azaltmak için, yüksek kaliteli ses örnekleme sistemleri, mümkün olduğu kadar çok niceleme seviyesine sahip analogdan dijitale dönüştürücüler kullanmalıdır.

Ancak sayısal ses kayıt sistemlerinde nicemleme gürültüsünün ses sinyalinin kalitesi üzerindeki etkisini azaltmak için kullanılan başka bir teknik daha vardır. Bu teknikle, sinyal, sayısallaştırmadan önce, düşük genlikli sinyalleri vurgulayan doğrusal olmayan bir yükselticiden geçirilir. Bu cihaz, zayıf sinyalleri güçlü olanlardan daha fazla yükseltir.

Bu, Şekil 2'de gösterilen, çıkış sinyali genliğinin giriş sinyali genliğine bağımlılığının grafiği ile gösterilmektedir. 2-7.

Pirinç. 2-7. Sayısallaştırmadan önce doğrusal olmayan kazanç

Sayısallaştırılmış sesi tekrar analoga dönüştürme aşamasında (bu aşamayı bu bölümde daha sonra tartışacağız), analog sinyal hoparlörlere çıkış yapılmadan önce doğrusal olmayan bir amplifikatörden geçirilir. Bu sefer, büyük bir genliğe sahip sinyalleri vurgulayan ve bir aktarım özelliğine sahip olan (çıkış sinyalinin genliğinin giriş sinyalinin genliğine bağımlılığı), sayısallaştırma sırasında kullanılanın tersi olan farklı bir amplifikatör kullanılır.

Bütün bunlar konuşma tanıma sistemlerinin yaratıcılarına nasıl yardımcı olabilir?

Bildiğiniz gibi, bir kişi sessiz bir fısıltıda veya yeterince yüksek bir sesle telaffuz edilen konuşmayı oldukça iyi tanır. Bir kişi için başarıyla tanınan konuşmanın dinamik ses yüksekliği seviyelerinin oldukça geniş olduğunu söyleyebiliriz.

bugünün bilgisayar sistemleri konuşma tanıma, ne yazık ki, bununla övünemez. Bununla birlikte, belirtilen dinamik aralığı biraz genişletmek için, sayısallaştırmadan önce, mikrofondan gelen sinyali, aktarım özelliği Şekil 1'de gösterilen doğrusal olmayan bir amplifikatörden geçirebilirsiniz. 2-7. Bu, zayıf sinyalleri sayısallaştırırken nicemleme gürültüsü seviyesini azaltacaktır.

Konuşma tanıma sistemlerinin geliştiricileri, yine, öncelikle ticari olarak temin edilebilen ses adaptörlerine odaklanmaya zorlanıyor. Yukarıda açıklanan doğrusal olmayan sinyal dönüşümünü sağlamazlar.

Bununla birlikte, sayısallaştırılmış sinyali konuşma tanıma motoruna geçirmeden önce dönüştüren doğrusal olmayan bir amplifikatörün bir yazılım eşdeğerini yaratmak mümkündür. Ve böyle bir yazılım amplifikatörü niceleme gürültüsünü azaltamayacak olsa da, en fazla konuşma bilgisini taşıyan sinyal seviyelerini vurgulamak için kullanılabilir. Örneğin, zayıf sinyallerin genliğini azaltabilir, böylece sinyalden gürültüyü kaldırabilirsiniz.

, Medya oynatıcılar

Plakların, özellikle 1982'den önce kaydedilen ve üretilen eskilerin, karıştırılma ve daha yüksek sesle yapılma olasılığı çok daha düşüktü. Kayıtta tutulan ve çoğu standart dijital veya yüksek tanımlı formatta kaybolan doğal bir dinamik aralıkla doğal müziği yeniden üretirler.

Elbette istisnalar vardır - MA Recordings veya Reference Recordings'den yeni çıkan Steven Wilson albümünü dinleyin ve dijital sesin ne kadar iyi olabileceğini duyacaksınız. Ancak bu nadirdir, çoğu modern kayıt yüksek sesli ve sıkıştırılmıştır.

Müziğin sıkıştırması son zamanlarda ciddi eleştirilere maruz kalıyor ama en sevdiğiniz kayıtların neredeyse tamamının sıkıştırılmış olduğunu söyleyebilirim. Bazıları daha az, bazıları daha fazla, ancak yine de sıkıştırılmış durumda. Dinamik aralık sıkıştırma, zayıf müzik sesi için bir günah keçisidir, ancak yüksek oranda sıkıştırılmış müzik yeni bir trend değil: 60'ların Motown albümlerini dinleyin. Aynı şey Led Zeppelin klasikleri veya Wilco ve Radiohead'in daha genç albümleri için de söylenebilir. Dinamik aralık sıkıştırması, en gürültülü ve en gürültülü arasındaki doğal ilişkiyi azaltır. sessiz ses kayıtta, böylece bir fısıltı bir çığlık kadar yüksek olabilir. Son 50 yılın sıkıştırılmamış pop müziğini bulmak oldukça zor.

Geçenlerde Tape Op'un kurucusu ve editörü Larry Crane ile sıkıştırmanın iyi, kötü ve kötü yönleri hakkında hoş bir sohbet yaptım. Larry Crane, Stefan Marcus, Cat Power, Sleater-Kinney, Jenny Lewis, M. Ward, The Go-Betweens, Jason Little, Eliot Smith, Quasi ve Richmond Fontaine gibi gruplar ve sanatçılarla çalıştı. Ayrıca Jackpot Kayıt Stüdyosu'nu da yönetiyor! The Breeders, The Aralıkists, Eddie Vedder, Pavement, R.E.M., She & Him ve çok daha fazlasına ev sahipliği yapan Portland, Oregon'da.

Şaşırtıcı derecede doğal olmayan ama yine de harika şarkılara bir örnek olarak, Spoon'un 2014'te yayınlanan They Want My Soul albümünü alıntılıyorum. Crane gülüyor ve arabada onu dinlediğini çünkü orada harika ses çıkardığını söylüyor. Bu da bizi müziğin neden sıkıştırıldığı sorusuna başka bir yanıt getiriyor: çünkü sıkıştırma ve ekstra "netlik", gürültülü yerlerde daha iyi duyulmasını sağlıyor.

Larry Crane iş başında. Fotoğraf: Jason Quigley

İnsanlar bir ses kaydının sesini beğendiklerini söylediklerinde, sanki ses ve müzik ayrılmaz kavramlarmış gibi müziği sevdiklerine inanıyorum. Ama kendim için bu kavramları farklılaştırıyorum. Bir müzik aşığının bakış açısından, ses kaba ve ham olabilir, ancak çoğu dinleyici için bu önemli değildir.

Birçoğu, mastering mühendislerini sıkıştırmayı aşırı kullanmakla suçlamak için acele ediyor, ancak sıkıştırma doğrudan kayıt sırasında, miksaj sırasında ve ancak o zaman mastering sırasında uygulanır. Bu aşamaların her birinde kişisel olarak bulunmadıysanız, sürecin en başında enstrümanların ve vokallerin nasıl ses çıkardığını anlayamayacaksınız.

Crane yanıyordu: "Bir müzisyen, sesi Guided by Voices kayıtları gibi kasıtlı olarak çılgın ve çarpık hale getirmek istiyorsa, bunda yanlış bir şey yoktur - arzu her zaman ses kalitesinden daha ağır basar." Sanatçının sesi neredeyse her zaman sıkıştırılır, aynısı bas, davul, gitar ve sentezleyicilerde olur. Sıkıştırma, vokal ses düzeyini şarkı boyunca istenen seviyede tutar veya diğer seslerden biraz daha öne çıkar.

Doğru sıkıştırma, davul sesini daha canlı veya kasıtlı olarak garip yapabilir. Müziğin kulağa harika gelmesi için bunun için gerekli enstrümanları kullanabilmeniz gerekir. Bu nedenle sıkıştırmayı nasıl kullanacağınızı ve aşırıya kaçmamayı öğrenmek yıllar alır. Miks mühendisi gitar parçasını çok fazla sıkıştırdıysa, mastering mühendisi artık eksik frekansları tam olarak geri yükleyemeyecektir.

Müzisyenler, miksaj ve mastering aşamalarından geçmeyen müzikleri dinlemenizi isteselerdi, stüdyodan raflarda depolamak için piyasaya sürerlerdi. Crane, müziği yaratan, düzenleyen, miksleyen ve ustalaşan kişilerin müzisyenlerin ayaklarında kaybolmak için orada olmadıklarını söylüyor - bir yüzyıldan fazla bir süredir sanatçılara en başından beri yardım ediyorlar.

Bu insanlar, harika sanat eserleri üreten yaratım sürecinin bir parçası. Crane ekliyor, "'Dark Side of the Moon'un miksaj ve mastering'den geçmemiş bir versiyonunu istemezsiniz." Pink Floyd şarkıyı duymak istedikleri şekilde yayınladı.