Dinamik aralık sıkıştırılmış veya standarttır. Dinamik sıkıştırma

Araştırmacılar, bilgisayarlar için bir konuşma arayüzü oluşturma problemini yeni çözmeye başladıkları bir zamanda, genellikle bir bilgisayara ses bilgilerini girmelerine ve bir bilgisayardan çıktı almalarına izin veren kendi ekipmanlarını yapmak zorunda kaldılar. Modern bilgisayarlar ses bağdaştırıcıları, mikrofonlar, kulaklıklar ve hoparlörler gibi ses giriş ve çıkış aygıtlarıyla kolayca donatılabildiğinden, günümüzde bu tür aygıtlar yalnızca tarihsel açıdan ilgi çekici olabilir.

Bu cihazların iç yapısının ayrıntılarına girmeyeceğiz, ancak nasıl çalıştıkları hakkında konuşacağız ve konuşma tanıma ve sentez sistemleriyle çalışmak için ses bilgisayar cihazlarını seçmek için bazı önerilerde bulunacağız.

Önceki bölümde söylediğimiz gibi, ses, frekansı bir kişi tarafından algılanan frekans aralığında bulunan havanın titreşimlerinden başka bir şey değildir. İşitilebilir frekans aralığının kesin sınırları kişiden kişiye değişebilir, ancak ses titreşimlerinin 16-20.000 Hz aralığında olduğuna inanılmaktadır.

Mikrofonun görevi, ses titreşimlerini elektriksel titreşimlere dönüştürmektir; bu titreşimler daha da güçlendirilebilir, paraziti gidermek için filtrelenebilir ve ses bilgilerini bilgisayara girmek için sayısallaştırılabilir.

Çalışma prensibine göre, en yaygın mikrofonlar karbon, elektrodinamik, kondansatör ve elektrete ayrılır. Bu mikrofonlardan bazıları, çalışmaları için harici bir akım kaynağı gerektirir (örneğin, karbon ve kondenser mikrofonlar), diğerleri ise ses titreşimlerinin etkisi altında bağımsız olarak alternatif bir elektrik voltajı üretebilir (bunlar elektrodinamik ve elektret mikrofonlardır).

Mikrofonları amaçlarına göre de ayırabilirsiniz. Elinizde tutabileceğiniz veya bir standa takabileceğiniz stüdyo mikrofonları, kıyafetlerinize klipsleyebileceğiniz radyo mikrofonları vb.

Bilgisayarlar için özel olarak tasarlanmış mikrofonlar da vardır. Bu mikrofonlar genellikle masanın üstüne oturan bir stand üzerine monte edilir. Bilgisayar mikrofonları, Şekil 2'de gösterildiği gibi kulaklıklarla birleştirilebilir. 2-1.

Pirinç. 2-1. Mikrofonlu kulaklıklar

Peki, çeşitli mikrofonlar arasından konuşma tanıma sistemleri için en uygun olanı nasıl seçersiniz?

Temel olarak, bilgisayarınızın ses adaptörüne bağlanabildiği sürece sahip olduğunuz herhangi bir mikrofonla deney yapabilirsiniz. Bununla birlikte, konuşma tanıma sistemleri geliştiricileri, çalışma sırasında konuşmacının ağzından sabit bir mesafede olacak bir mikrofon satın almanızı önerir.

Mikrofon ile ağız arasındaki mesafe değişmezse, mikrofondan gelen elektrik sinyalinin ortalama seviyesi de çok fazla değişmeyecektir. Bunun, modern konuşma tanıma sistemlerinin performansı üzerinde olumlu bir etkisi olacaktır.

Burada sorun nedir?

Bir kişi, hacmi çok geniş bir aralıkta değişen konuşmayı başarıyla tanıyabilir. İnsan beyni, caddeden geçen arabaların gürültüsü, yabancı konuşmalar ve müzik gibi sessiz konuşmaları parazitlerden arındırabilir.

Modern konuşma tanıma sistemlerine gelince, bu alandaki yetenekleri arzulanan çok şey bırakıyor. Mikrofon bir masanın üzerindeyse, kafayı çevirdiğinizde veya vücudun pozisyonunu değiştirdiğinizde, ağız ile mikrofon arasındaki mesafe değişecektir. Bu, mikrofonun çıkış seviyesinde bir değişikliğe yol açacak ve bu da konuşma tanımanın güvenilirliğini bozacaktır.

Bu nedenle, konuşma tanıma sistemleriyle çalışırken, Şekil 1'de gösterildiği gibi kulaklıklara takılı bir mikrofon kullanırsanız en iyi sonuçlar elde edilecektir. 2-1. Böyle bir mikrofon kullanırken, ağız ile mikrofon arasındaki mesafe sabit olacaktır.

Ayrıca konuşma tanıma sistemleriyle yapılan tüm deneylerin en iyi şekilde sessiz bir odada yapıldığını unutmayın. Bu durumda, girişimin etkisi minimum olacaktır. Tabii ki, güçlü bir parazit ortamında çalışabilecek bir konuşma tanıma sistemi seçmeniz gerekiyorsa, o zaman testin farklı yapılması gerekiyor. Ancak kitabın yazarlarının bildiği kadarıyla konuşma tanıma sistemlerinin gürültü bağışıklığı hala çok ama çok düşük.

Mikrofon bizim için ses titreşimlerinin elektrik akımı titreşimlerine dönüşümünü gerçekleştirir. Bu dalgalanmalar osiloskop ekranında görülebilir, ancak bu pahalı cihazı satın almak için mağazaya acele etmeyin. Tüm osilografik çalışmaları, örneğin bir Sound Blaster adaptörü gibi bir ses adaptörüyle donatılmış normal bir bilgisayar kullanarak gerçekleştirebiliriz. Bunu nasıl yapacağınızı daha sonra anlatacağız.

İncirde. 2-2, uzun bir ses a'yı telaffuz ederek elde edilen ses sinyalinin osilogramını gösterdik. Bu dalga biçimi, kitabın bu bölümünde daha sonra tartışacağımız GoldWave yazılımının yanı sıra bir Sound Blaster ses adaptörü ve Şekil 2'de gösterilene benzer bir mikrofon kullanılarak elde edildi. 2-1.

Pirinç. 2-2. Bir ses sinyalinin osilogramı

GoldWave yazılımı, dalga biçimini zaman ekseni boyunca uzatmanıza izin vererek en küçük ayrıntıları görmenizi sağlar. İncirde. 2-3 yukarıda bahsedilen ses osilogramının uzatılmış bir parçasını gösterdik a.

Pirinç. 2-3. Bir ses sinyalinin osilogramının parçası

Mikrofondan gelen giriş sinyalinin büyüklüğünün periyodik olarak değiştiğini ve hem pozitif hem de negatif değerler aldığını unutmayın.

Giriş sinyalinde yalnızca bir frekans varsa (yani, ses "temiz" ise), mikrofondan alınan dalga biçimi sinüzoidal olacaktır. Bununla birlikte, daha önce de söylediğimiz gibi, insan konuşma seslerinin spektrumu, konuşma sinyalinin dalga biçiminin sinüzoidal olmaktan uzak olduğu bir dizi frekanstan oluşur.

Büyüklüğü zamanla sürekli değişen bir sinyale denir. analog sinyal... Bu mikrofondan gelen sinyaldir. Bir analog sinyalden farklı olarak, bir dijital sinyal, zaman içinde ayrı ayrı değişen bir dizi sayısal değerdir.

Bir bilgisayarın bir ses sinyalini işleyebilmesi için, analogdan dijital forma dönüştürülmesi, yani bir dizi sayısal değer olarak sunulması gerekir. Bu işleme bir analog sinyali sayısallaştırma denir.

Ses (ve herhangi bir analog) sinyalinin sayısallaştırılması, adı verilen özel bir cihaz kullanılarak gerçekleştirilir. analogtan dijitale dönüştürücü ADC (Analogdan Dijitale Dönüştürücü, ADC). Bu cihaz, ses adaptör kartında bulunur ve sıradan görünümlü bir mikro devredir.

Analogdan dijitale dönüştürücü nasıl çalışır?

Giriş sinyalinin seviyesini periyodik olarak ölçer ve çıkışta ölçüm sonucunun sayısal bir değerini verir. Bu süreç Şekil 2'de gösterilmektedir. 2-4. Burada gri dikdörtgenler belirli bir sabit zaman aralığı ile ölçülen giriş sinyali değerlerini işaretler. Bu tür değerlerin kümesi, giriş analog sinyalinin sayısallaştırılmış temsilidir.

Pirinç. 2-4. Zamana karşı sinyal genliği ölçümleri

İncirde. 2-5, bir analogdan dijitale dönüştürücüyü bir mikrofona bağlamayı gösterdik. Bu durumda, x 1 girişine bir analog sinyal verilir ve u 1 -u n çıkışlarından bir dijital sinyal çıkarılır.

Pirinç. 2-5. Analogtan dijitale dönüştürücü

Analogdan dijitale dönüştürücüler, iki önemli parametre ile karakterize edilir - dönüştürme frekansı ve giriş sinyalinin niceleme seviyelerinin sayısı. Bu parametrelerin doğru seçilmesi, analog sinyalin yeterli dijital temsilini elde etmek için kritik öneme sahiptir.

Sayısallaştırmanın bir sonucu olarak giriş analog sinyalindeki değişiklikler hakkında bilgi kaybetmemek için bir giriş analog sinyalinin genlik değerini ne sıklıkla ölçmeniz gerekir?

Cevap basit gibi görünüyor - giriş sinyali mümkün olduğunca sık ölçülmelidir. Aslında, analogdan dijitale dönüştürücü bu tür ölçümleri ne kadar sık ​​yaparsa, giriş analog sinyalinin genliğindeki en küçük değişiklikler o kadar iyi izlenecektir.

Bununla birlikte, aşırı sık ölçümler, dijital veri akışında haksız bir artışa ve sinyal işlemede bilgisayar kaynaklarının israfına yol açabilir.

Neyse ki, doğru seçim dönüşüm oranı (örnekleme oranı) yapmak oldukça basittir. Bunu yapmak için, dijital sinyal işleme alanındaki uzmanlar tarafından bilinen Kotelnikov teoremine başvurmak yeterlidir. Teorem, dönüşüm sıklığının iki kat daha yüksek olması gerektiğini söylüyor. maksimum frekans Dönüştürülen sinyalin spektrumu. Bu nedenle, frekansı 16-20.000 Hz aralığında olan bir ses sinyalinin kalite kaybı olmadan sayısallaştırılması için, 40.000 Hz'den az olmayan bir dönüştürme frekansının seçilmesi gerekir.

Ancak, profesyonel ses ekipmanında dönüştürme frekansının belirtilen değerden birkaç kat daha yüksek seçildiğini unutmayın. Bu çok elde etmek için yapılır Yüksek kalite sayısallaştırılmış ses Konuşma tanıma sistemleri için böyle bir kalite ilgili değildir, bu nedenle dikkatinizi bu seçime odaklamayacağız.

Ve insan konuşmasının sesini dijitalleştirmek için hangi sıklıkta dönüşüm gerekiyor?

İnsan konuşmasının sesleri 300-4000 Hz frekans aralığında yer aldığından, gereken minimum dönüştürme frekansı 8000 Hz'dir. Ancak birçok bilgisayar programları konuşma tanıma, geleneksel ses bağdaştırıcıları için standart olan 44.000 Hz dönüştürme oranını kullanır. Böyle bir dönüşüm oranı bir yandan dijital veri akışında aşırı bir artışa yol açmazken, diğer yandan konuşmanın yeterli kalitede sayısallaştırılmasını sağlar.

Okula döndüğümüzde, herhangi bir ölçümün tamamen ortadan kaldırılamayacak hatalara yol açtığı öğretildi. Bu tür hatalar, ölçüm cihazlarının sınırlı çözünürlüğünden ve ayrıca ölçüm sürecinin kendisinin ölçülen değerde bazı değişikliklere neden olabilmesinden kaynaklanmaktadır.

Analogdan dijitale dönüştürücü, analog giriş sinyalini sınırlı uzunluktaki sayıların bir akışı olarak temsil eder. Geleneksel ses bağdaştırıcıları, giriş sinyalinin genliğini 216 = 65536 farklı değer olarak gösterebilen 16 bitlik ADC blokları içerir. Üst düzey ses ekipmanındaki ADC cihazları, ses sinyalinin genliğinin daha doğru bir temsilini sağlayan 20 bit olabilir.

Modern konuşma tanıma sistemleri ve programları oluşturulmuştur. geleneksel bilgisayarlar normal ses adaptörleri ile donatılmıştır. Bu nedenle, konuşma tanımayı denemek için profesyonel bir ses adaptörü satın almanıza gerek yoktur. Sound Blaster gibi bir adaptör, daha fazla tanınması amacıyla konuşmayı dijitalleştirmek için oldukça uygundur.

Kullanışlı sinyalin yanı sıra, mikrofona genellikle çeşitli sesler gelir - sokaktan gelen gürültü, rüzgar gürültüsü, yabancı konuşmalar vb. Gürültü, konuşma tanıma sistemlerinin kalitesi üzerinde olumsuz bir etkiye sahiptir, bu nedenle ele alınması gerekir. Daha önce bahsettiğimiz yollardan biri, günümüzün konuşma tanıma sistemlerinin en iyi şekilde sessiz bir odada, bilgisayarla baş başayken kullanılmasıdır.

Ancak ideal koşulları oluşturmak her zaman mümkün değildir, bu nedenle parazitten kurtulmak için özel yöntemler kullanmanız gerekir. Gürültü seviyesini azaltmak için, mikrofonların tasarımında özel hileler ve analog sinyalin spektrumundan yararlı bilgiler taşımayan frekansları kaldıran özel filtreler kullanılır. Ek olarak, giriş sinyali seviyelerinin dinamik aralığının sıkıştırılması gibi bir teknik kullanılır.

Tüm bunları sırayla konuşalım.

Frekans filtresi bir analog sinyalin frekans spektrumunu dönüştüren bir cihaz olarak adlandırılır. Bu durumda, dönüşüm sürecinde, belirli frekanslardaki salınımların seçimi (veya emilmesi) meydana gelir.

Bu cihazı bir giriş ve bir çıkışa sahip bir tür kara kutu olarak düşünebilirsiniz. Bizim durumumuzda olduğu gibi, frekans filtresinin girişine bir mikrofon bağlanacak ve çıkışa bir analogdan dijitale dönüştürücü bağlanacaktır.

Frekans filtreleri farklıdır:

· Alçak geçiren filtreler;

· Yüksek geçiren filtreler;

· Bant filtreleri geçirin;

· Çentik bant geçiren filtreler.

Düşük Geçişli Filtreler(düşük geçişli filtre), filtre ayarına bağlı olarak, değerleri belirli bir eşik frekansının altında olan tüm frekansları giriş sinyalinin spektrumundan kaldırır.

Ses sinyalleri 16-20.000 Hz aralığında olduğundan, 16 Hz'nin altındaki tüm frekanslar ses kalitesi bozulmadan kesilebilir. Konuşma tanıma için 300-4000 Hz frekans aralığı önemlidir, bu nedenle 300 Hz altındaki frekanslar kesilebilir. Bu, frekans spektrumu 300 Hz'nin altında olan tüm parazitleri giriş sinyalinden kesecek ve konuşma tanıma sürecine müdahale etmeyeceklerdir.

Benzer şekilde, yüksek geçiren filtreler(yüksek geçiş filtresi) giriş sinyali spektrumundan belirli bir eşik frekansının üzerindeki tüm frekansları keser.

Bir kişi 20.000 Hz ve üzeri frekanstaki sesleri duymaz, bu nedenle ses kalitesinde gözle görülür bir bozulma olmadan spektrumdan kesilebilirler. Konuşma tanımaya gelince, burada 4000 Hz'nin üzerindeki tüm frekansları kesebilirsiniz, bu da yüksek frekanslı parazit seviyesinde önemli bir azalmaya yol açacaktır.

Geçiş bandı filtresi(bant geçiren filtre), alçak ve yüksek geçiren filtrenin bir kombinasyonu olarak düşünülebilir. Böyle bir filtre, sözde altındaki tüm frekansları geciktirir. alt geçiş frekansı ayrıca yukarıdaki gibi üst geçiş frekansı.

Bu nedenle, 300-4000 Hz aralığındaki frekanslar hariç tüm frekansları geciktiren konuşma tanıma sistemleri için bir geçiş bant geçiren filtre uygundur.

Bant durdurma filtrelerine gelince, belirli bir aralıkta bulunan tüm frekansları giriş sinyalinin spektrumundan kesmenize izin verir. Böyle bir filtre, örneğin, sinyal spektrumunun belirli bir sürekli bölümünü işgal eden girişimi bastırmak için uygundur.

İncirde. 2-6 bir geçiş bandı filtresinin bağlantısını gösterdik.

Pirinç. 2-6. Dijitalleştirmeden önce ses sinyalini filtreleme

Bir bilgisayara takılan sıradan ses adaptörlerinin, sayısallaştırmadan önce analog sinyalin içinden geçtiği bir bant geçiren filtre içerdiğini söylemeliyim. Böyle bir filtrenin bant genişliği genellikle ses sinyalleri aralığına, yani 16-20.000 Hz'e karşılık gelir (farklı ses adaptörlerinde üst ve alt frekansların değerleri küçük sınırlar içinde değişebilir).

Ve insan konuşmasının spektrumunun en bilgilendirici kısmına karşılık gelen 300-4000 Hz'lik daha dar bir bant genişliği nasıl elde edilir?

Tabii ki, elektronik ekipman tasarlama tutkunuz varsa, filtrenizi işlemsel bir amplifikatör çipi, dirençler ve kapasitörlerden yapabilirsiniz. Bu, konuşma tanıma sistemlerinin ilk yaratıcılarının yaklaşık olarak yaptığı şeydir.

Ancak endüstriyel konuşma tanıma sistemleri standart bilgisayar donanımı üzerinde çalıştırılabilir olmalıdır, bu nedenle özel bir bant geçiren filtre yapma şekli burada uygun değildir.

Bunun yerine, modern konuşma işleme sistemleri sözde dijital frekans filtreleri yazılımda uygulanmaktadır. Bu, bilgisayarın merkezi işlem birimi yeterince güçlendikten sonra mümkün oldu.

Yazılımda uygulanan bir dijital frekans filtresi, bir dijital giriş sinyalini bir çıkış dijital sinyaline dönüştürür. Dönüştürme sürecinde program, analogdan dijitale dönüştürücüden gelen sinyal genliğinin sayısal değerlerinin akışını özel bir şekilde işler. Dönüştürme sonucu da bir sayı akışı olacaktır, ancak bu akış zaten filtrelenmiş sinyale karşılık gelecektir.

Analogdan dijitale dönüştürücü hakkında konuşurken, niceleme seviyelerinin sayısı gibi önemli bir özelliğini kaydettik. Ses adaptörüne 16 bitlik bir analogdan dijitale dönüştürücü takılıysa, sayısallaştırmadan sonra ses sinyali seviyeleri 216 = 65536 farklı değerler olarak gösterilebilir.

Birkaç niceleme seviyesi varsa, o zaman sözde nicemleme gürültüsü... Bu gürültüyü azaltmak için, yüksek kaliteli ses örnekleme sistemleri, mümkün olduğu kadar çok niceleme seviyesine sahip analogdan dijitale dönüştürücüler kullanmalıdır.

Ancak sayısal ses kayıt sistemlerinde nicemleme gürültüsünün ses sinyalinin kalitesi üzerindeki etkisini azaltmak için kullanılan başka bir teknik daha vardır. Bu teknikle, sinyal, sayısallaştırmadan önce, düşük genlikli sinyalleri vurgulayan doğrusal olmayan bir yükselticiden geçirilir. Böyle bir cihaz, zayıf sinyalleri güçlü olanlardan daha fazla yükseltir.

Bu, çıkış sinyalinin genliğinin, Şekil 2'de gösterilen giriş sinyalinin genliğine bağımlılığının grafiği ile gösterilmektedir. 2-7.

Pirinç. 2-7. Sayısallaştırmadan önce doğrusal olmayan kazanç

Sayısallaştırılmış sesi tekrar analoga dönüştürme adımında (bu adım bu bölümde daha sonra tartışılacaktır), analog sinyal hoparlörlere çıkış yapılmadan önce tekrar doğrusal olmayan bir amplifikatörden geçirilir. Bu sefer, büyük bir genliğe sahip sinyalleri vurgulayan ve bir aktarım özelliğine sahip olan (çıkış sinyalinin genliğinin giriş sinyalinin genliğine bağımlılığı), sayısallaştırma sırasında kullanılanın tersi olan farklı bir amplifikatör kullanılır.

Bütün bunlar konuşma tanıma sistemlerinin yaratıcılarına nasıl yardımcı olabilir?

Bildiğiniz gibi, bir kişi sessiz bir fısıltıda veya yeterince yüksek bir sesle yapılan konuşmayı yeterince iyi tanır. şunu söyleyebiliriz dinamik aralık Bir kişi için başarıyla tanınan konuşmanın ses yüksekliği seviyeleri oldukça geniştir.

bugünün bilgisayar sistemleri konuşma tanıma, ne yazık ki, bununla övünemez. Bununla birlikte, belirtilen dinamik aralığı biraz genişletmek için, sayısallaştırmadan önce, mikrofondan gelen sinyali, aktarım özelliği Şekil 1'de gösterilen doğrusal olmayan bir amplifikatörden geçirebilirsiniz. 2-7. Bu, zayıf sinyalleri sayısallaştırırken nicemleme gürültüsü seviyesini azaltacaktır.

Konuşma tanıma sistemlerinin geliştiricileri, yine, öncelikle ticari olarak temin edilebilen ses adaptörlerine odaklanmaya zorlanıyor. Yukarıda açıklanan doğrusal olmayan sinyal dönüşümünü sağlamazlar.

Bununla birlikte, sayısallaştırılmış sinyali konuşma tanıma motoruna geçirmeden önce dönüştüren doğrusal olmayan bir amplifikatörün bir yazılım eşdeğerini yaratmak mümkündür. Ve böyle bir yazılım amplifikatörü nicemleme gürültüsünü azaltamayacak olsa da, en fazla konuşma bilgisini taşıyan sinyal seviyelerini vurgulamak için kullanılabilir. Örneğin, zayıf sinyallerin genliğini azaltabilir, böylece sinyalden gürültüyü kaldırabilirsiniz.

Sıkıştırma, ses üretimindeki en efsanevi temalardan biridir. Beethoven'ın komşularının çocuklarını bile korkuttuğunu söylüyorlar :(

Tamam, aslında sıkıştırma uygulamak, distorsiyon kullanmaktan daha zor değil, asıl mesele nasıl çalıştığını anlamak ve iyi kontrole sahip olmaktır. Şimdi birlikteyiz ve görüyoruz.

ses sıkıştırma nedir

Hazırlıktan önce anlaşılması gereken ilk şey sıkıştırmadır. dinamik ses aralığıyla çalışın... Ve sırayla, en yüksek ve en sessiz sinyal seviyeleri arasındaki farktan başka bir şey değildir:

Yani, sıkıştırma, dinamik aralığın sıkıştırılmasıdır... Evet, basitçe dinamik aralık sıkıştırması veya başka bir deyişle sinyalin gürültülü bölümlerinin seviyesini azaltın ve sessizliğin sesini artırın... Daha fazla yok.

O zaman neden böyle bir yutturmaca bağlı olduğunu makul bir şekilde merak edebilirsiniz? Neden herkes doğru kompresör ayarları için tariflerden bahsediyor da kimse bunları paylaşmıyor? Çok sayıda harika eklentiye rağmen neden hala birçok stüdyoda pahalı eski kompresör modelleri kullanılıyor? Neden bazı üreticiler kompresörleri aşırı ayarlarda kullanırken diğerleri hiç kullanmıyor? Ve sonunda hangisi doğru?

Sıkıştırma görevleri

Bu tür soruların cevapları, sesle çalışırken sıkıştırmanın rolünü anlama düzleminde yatmaktadır. Ve şunları sağlar:

  1. Saldırıyı vurgulayın ses, daha belirgin hale getirin;
  2. Ayrı enstrüman parçalarını karışıma "uydurun" onlara güç ve "ağırlık" ekleyerek;
  3. Enstrüman gruplarını veya bütün bir karışımı daha uyumlu hale getirin, böyle tek bir monolit;
  4. Enstrümanlar arasındaki çatışmaları çözün yan zincir kullanarak;
  5. Vokalist veya müzisyenlerin kusurlarını düzeltin dinamiklerini hizalamak;
  6. Belirli bir ayar ile sanatsal bir etki olarak hareket etmek.

Gördüğünüz gibi, bu, örneğin melodiler bulmaktan veya ilginç tınıları tanıtmaktan daha az önemli bir yaratıcı süreç değildir. Bu durumda, yukarıdaki görevlerden herhangi biri 4 ana parametre kullanılarak çözülebilir.

Kompresörün ana parametreleri

Çok sayıda yazılım ve donanım kompresör modeline rağmen, sıkıştırmanın tüm "sihri", ana parametrelerin doğru ayarlanmasıyla gerçekleşir: Eşik, Oran, Saldırı ve Serbest Bırakma. Onları daha ayrıntılı olarak ele alalım:

Eşik veya eşik, dB

Bu parametre, kompresörün çalışacağı değeri ayarlamanıza izin verir (yani, ses sinyalini sıkıştırır). Bu nedenle, eşiği -12dB'ye ayarlarsak, kompresör yalnızca dinamik aralığın bu değeri aşan yerlerinde tetiklenir. Tüm sesimiz -12db'den daha sessizse, kompresör onu hiçbir şekilde etkilemeden kendi içinden geçirecektir.

Oran veya sıkıştırma oranı

Oran parametresi, eşiği aşan sinyalin ne kadar güçlü sıkıştırılacağını belirler. Resmi tamamlamak için biraz matematik: diyelim ki -12dB eşik, 2: 1 oranına sahip bir kompresör kurduk ve tambur hacminin -4dB olduğu bir tambur döngüsü besledik. Bu durumda kompresörün sonucu ne olur?

Bizim durumumuzda, namlu seviyesi eşiği 8dB aşıyor. Bu fark orana göre 4dB (8dB/2) olarak sıkıştırılacaktır. Sinyalin işlenmemiş kısmı ile birlikte bu, kompresör tarafından işlendikten sonra kick hacminin -8db olmasına neden olacaktır (eşik -12dB + sıkıştırılmış 4dB sinyal).

saldırı, ms

Bu, eşik aşıldığında kompresörün tepki vereceği süredir. Yani, saldırı süresi 0ms'den yüksekse - kompresör sıkıştırmaya başlar eşik sinyalinin anında değil, belirli bir süre sonra aşılması.

Serbest bırakma veya kurtarma, ms

Saldırının tersi - bu parametrenin değeri, sinyal seviyesinin eşiğin altına dönmesinden sonraki süreyi belirlemenize izin verir. kompresör sıkıştırmayı durduracak.

Devam etmeden önce, iyi bilinen bir numune almanızı, herhangi bir kompresörü kanalına asmanızı ve malzemeyi güvenli bir şekilde sabitlemek için 5-10 dakika yukarıdaki parametreleri denemenizi şiddetle tavsiye ederim.

Her şey diğer parametreler isteğe bağlıdır... Farklı kompresör modellerinde farklılık gösterebilirler, bu nedenle üreticiler herhangi bir özel amaç için farklı modeller kullanırlar (örneğin, vokaller için bir kompresör, bir davul grubu için diğeri ve bir ana kanal için üçüncü bir kompresör). Bu parametreler üzerinde ayrıntılı olarak durmayacağım, sadece neyle ilgili olduğunu anlamak için genel bilgiler vereceğim:

  • Diz veya Diz (Sert / Yumuşak Diz)... Bu parametre, oranın ne kadar hızlı uygulanacağını belirler: eğri boyunca sert veya düz. Soft Knee modunda, kompresörün düz bir çizgide çalışmadığını, sesi sıkıştırmak için yumuşak bir şekilde (milisaniyelerden bahsederken uygun olabilecek kadar) başladığını not ediyorum. zaten eşik değerinden önce... Kanal gruplarını ve genel karışımı işlemek için, en sık kullanılan yumuşak dizdir (belirsiz bir şekilde çalıştığı için) ve bireysel enstrümanların saldırı ve diğer özelliklerini vurgulamak için - sert diz;
  • Tepki Modu: Tepe / RMS... Tepe modu, genlik patlamalarını ve ayrıca dinamikleri ve okunabilirliği tam olarak iletilmesi gereken karmaşık bir şekle sahip sinyallerde sıkı bir şekilde sınırlamanız gerektiğinde haklıdır. RMS modu, ses üzerinde çok hassastır ve saldırıyı sürdürürken sesi kalınlaştırmanıza izin verir;
  • ileriye dönük... Bu, kompresörün ne alacağını bilmesi için geçen zamandır. Gelen sinyallerin bir tür ön analizi;
  • Makyaj veya Kazanç... Sıkıştırma işleminin bir sonucu olarak hacimdeki azalmayı telafi etmenizi sağlayan bir parametre.

İlk ve en önemli tavsiye, sıkıştırma ile ilgili diğer tüm soruları ortadan kaldırır: a) sıkıştırma ilkesini anladıysanız, b) bu ​​veya bu parametrenin sesi nasıl etkilediğini kesin olarak biliyorsanız ve c) birkaç denemeyi başardıysanız farklı modellertavsiyeye ihtiyacın yok.

Kesinlikle ciddiyim. Bu gönderiyi dikkatlice okuduysanız, DAW'nizin standart kompresörü ve bir veya iki eklenti ile denemeler yaptıysanız, ancak yine de hangi durumlarda büyük saldırı değerleri ayarlamanız gerektiğini, hangi oranı kullanacağınızı ve hangi modda işleyeceğinizi anlamadıysanız. orijinal sinyal, o zaman hazır tarifler için internette aramaya devam edecek ve bunları düşüncesizce her yere uygulayacaksınız.

Kompresör İnce Ayar Tarifleri bir yankı veya koroya ince ayar yapmak için kullanılan reçeteler gibidir - herhangi bir anlamdan yoksundur ve yaratıcılıkla hiçbir ilgisi yoktur. Bu nedenle, tek doğru tarifi ısrarla tekrarlıyorum: kendinizi bu makaleyle donatın, iyi monitör kulaklıkları, dalga formunun görsel kontrolü için bir eklenti ve akşamı birkaç kompresörle geçirin.

Harekete geç!

Bu yöntem grubu, iletilen sinyallerin genliğin doğrusal olmayan dönüşümlerine tabi tutulması ve doğrusal olmayanlığın verici ve alıcı kısımlarında karşılıklı olduğu gerçeğine dayanmaktadır. Örneğin, verici doğrusal olmayan Öu işlevini kullanıyorsa, alıcı u 2'yi kullanır. Karşılıklı fonksiyonların sıralı uygulanması, dönüşümün bir bütün olarak doğrusal kalmasına neden olacaktır.

Doğrusal olmayan veri sıkıştırma yöntemleri fikri, vericinin iletilen parametrede (yani, daha büyük bir dinamik aralık) daha geniş bir değişiklik aralığını çıkış sinyallerinin aynı genliği ile iletebilmesi gerçeğine dayanır. Dinamik aralık göreli birimler veya desibel olarak ifade edilen, izin verilen en büyük sinyal genliğinin en küçüğüne oranıdır:

; (2.17)
. (2.18)

U min'i azaltarak dinamik aralığı artırmaya yönelik doğal istek, ekipmanın hassasiyeti ve parazit ile içsel gürültünün etkisindeki artışla sınırlıdır.

Çoğu zaman, dinamik aralık sıkıştırması, bir çift karşılıklı logaritma ve güçlendirme işlevi kullanılarak gerçekleştirilir. Genliği değiştirmek için yapılan ilk işleme denir. sıkıştırma(sıkıştırma yoluyla), ikincisi genişleme(uzatarak). Bu işlevlerin seçimi, en büyük sıkıştırma yetenekleriyle ilişkilidir.

Aynı zamanda, bu yöntemlerin dezavantajları da vardır. Birincisi, küçük bir sayının logaritmasının limitte negatif olmasıdır:

yani, duyarlılık çok doğrusal değildir.

Bu dezavantajları azaltmak için, her iki fonksiyon da ofset ve yaklaşımla değiştirilmiştir. Örneğin, telefon kanalları için yaklaşık işlev şu şekildedir (A tipi):

ve A = 87.6. Sıkıştırmadan elde edilen kazanç 24 dB'dir.

Doğrusal olmayan prosedürler aracılığıyla veri sıkıştırması, büyük hatalarla analog araçlarla gerçekleştirilir. Dijital araçların kullanımı, dönüştürmenin doğruluğunu veya hızını önemli ölçüde artırabilir. Aynı zamanda, bilgisayar teknolojisinin doğrudan kullanımı (yani, logaritmaların ve üstellerin doğrudan hesaplanması), düşük hız ve biriken hesaplama hatası nedeniyle en iyi sonucu vermeyecektir.

Doğruluktaki sınırlamalar nedeniyle, örneğin telefon ve radyo kanalları üzerinden ses iletimi için kritik olmayan durumlarda sıkıştırma yoluyla veri sıkıştırması kullanılır.

Verimli kodlama

Etkili kodlar K. Shannon, Fano ve Huffman tarafından önerildi. Kodların özü, eşit olmayan, yani eşit olmayan bit sayısına sahip olmaları ve kodun uzunluğunun, oluşma olasılığı ile ters orantılı olması gerçeğinde yatmaktadır. Verimli kodların bir başka harika özelliği de sınırlayıcı gerektirmemeleridir, yani. özel karakterler bitişik kod sözcüklerini ayırma. Bu, basit bir kuralı izleyerek elde edilir: daha kısa kodlar, daha uzun olanların başlangıcı değildir. Bu durumda, kod çözücü önce daha kısa kod sözcüklerini algıladığından, sürekli bit akışının kodu benzersiz bir şekilde çözülür. Etkili kodlar uzun zaman tamamen akademiktiler, ancak son zamanlarda veritabanlarının oluşturulmasında ve ayrıca modern modemlerde ve yazılım arşivleyicilerinde bilgilerin sıkıştırılmasında başarıyla kullanıldılar.

Düzensizlik nedeniyle, kodun ortalama uzunluğu girilir. Ortalama uzunluk, kodun uzunluğunun matematiksel beklentisidir:

ayrıca, l cf yukarıdan H (x)'e eğilimlidir (yani, l cf> H (x)).

(2.23) koşulunun yerine getirilmesi, artan N ile artar.

İki tür etkili kod vardır: Shannon-Fano ve Huffman. Bir örnek kullanarak bunları nasıl elde edeceğimizi görelim. Bir dizideki sembollerin olasılıklarının Tablo 2.1'de gösterilen değerlere sahip olduğunu varsayalım.

Tablo 2.1.

Sembol olasılıkları

n
ben 0.1 0.2 0.1 0.3 0.05 0.15 0.03 0.02 0.05

Semboller sıralanır, yani azalan olasılık sırasına göre bir dizi halinde sunulurlar. Bundan sonra, Shannon-Fano yöntemine göre, aşağıdaki prosedür periyodik olarak tekrarlanır: tüm olay grubu, aynı (veya yaklaşık olarak aynı) toplam olasılıklara sahip iki alt gruba ayrılır. Prosedür, bir sonraki alt grupta bir eleman kalana kadar devam eder, ardından bu eleman elimine edilir ve belirtilen eylemler kalanlarla devam eder. Bu, son iki alt grupta bir eleman kalana kadar olur. Tablo 2.2'de özetlenen örneğimize devam edelim.

Tablo 2.2.

Shannon-Fano kodlaması

n ben
4 0.3 ben
0.2 ben II
6 0.15 ben ben
0.1 II
1 0.1 ben ben
9 0.05 II II
5 0.05 II ben
7 0.03 II II ben
8 0.02 II

Tablo 2.2'den görülebileceği gibi, p 4 = 0.3 olasılığa sahip ilk sembol, iki gruplara ayırma prosedürüne katıldı ve her iki seferde de I numaralı gruba düştü. Buna göre, iki haneli bir kod II ile kodlanmıştır. Bölmenin ilk aşamasındaki ikinci eleman, ikinci grupta, grup II'ye aitti. Bu nedenle kodu 10'dur. Diğer sembollerin kodları ek açıklamalara ihtiyaç duymaz.

Tipik olarak, tek tip olmayan kodlar, kod ağaçları olarak gösterilir. Kod ağacı, izin verilen kod kombinasyonlarını gösteren bir grafiktir. Bu grafiğin kenarlarının yönleri, Şekil 2.11'de gösterildiği gibi önceden ayarlanmıştır (yön seçimi isteğe bağlıdır).

Aşağıdaki şekilde grafik tarafından yönlendirilirler: seçilen sembol için bir rota oluşturun; bunun için basamak sayısı, rotadaki kenarların sayısına eşittir ve her bir basamağın değeri, karşılık gelen kenarın yönüne eşittir. Rota başlangıç ​​noktasından derlenir (çizimde A harfi ile işaretlenmiştir). Örneğin, köşe 5'e giden bir yol, sonuncusu hariç tümü 0 yönüne sahip olan beş kenardan oluşur; 00001 kodunu alıyoruz.

Bu örnek için entropi ve ortalama kelime uzunluğunu hesaplayalım.

H (x) = - (0.3 log 0.3 + 0.2 log 0.2 + 2 0.1 log 0.1+ 2 0.05 log 0.05+

0,03 günlük 0,03 + 0,02 günlük 0,02 = 2,23 bit

l av = 0,3 2 + 0,2 2 + 0,15 3 + 0,1 3 + 0,1 4 + 0,05 5 +0,05 4+

0.03 6 + 0.02 6 = 2.9 .

Gördüğünüz gibi, ortalama kelime uzunluğu entropiye yakındır.

Huffman kodları farklı bir algoritmaya göre oluşturulmuştur. Kodlama işlemi iki aşamadan oluşmaktadır. İlk aşamada, alfabenin tek seferlik sıkıştırılması sırayla gerçekleştirilir. Tek seferlik sıkıştırma - son iki karakterin (en düşük olasılıklı) toplam olasılıkla bir karakterle değiştirilmesi. Sıkıştırma, iki karakter kalana kadar gerçekleştirilir. Bu durumda, ortaya çıkan olasılıkların yazıldığı kodlama tablosu doldurulur ve ayrıca yeni sembollerin bir sonraki aşamaya geçtiği rotalar gösterilir.

İkinci aşamada, son aşamadan başlayan gerçek kodlama gerçekleşir: iki karakterden ilkine 1, ikincisine - 0 kodu atanır. Bundan sonra, önceki aşamaya geçilir. Bir sonraki aşamadaki kodlar, bu aşamada sıkıştırmaya katılmayan karakterlere atfedilir ve yapıştırmadan sonra elde edilen karakterin kodu son iki karaktere iki kez atfedilir ve üst karakter 1'in koduna eklenir. bir alt - 0. Karakter yapıştırmada daha fazla değilse, kodu değişmeden kalır. İşlem sonuna kadar (yani ilk aşamaya kadar) devam eder.

Tablo 2.3, Huffman kodlamasını göstermektedir. Tablodan da görebileceğiniz gibi kodlama 7 aşamada gerçekleştirilmiştir. Solda sembollerin olasılıkları, sağda - ara kodlar. Oklar, yeni oluşturulan sembollerin hareketlerini gösterir. Her aşamada, son iki karakter yalnızca kodlama tekniğine karşılık gelen en az anlamlı bitte farklılık gösterir. Ortalama kelime uzunluğunu hesaplayalım:

l av = 0,3 2 + 0,2 2 + 0,15 3 ++ 2 0,1 3 + +0,05 4 + 0,05 5 + 0,03 6 + 0,02 6 = 2,7

Bu, entropiye daha da yakındır: kod daha da verimlidir. İncirde. 2.12, Huffman kod ağacını gösterir.

Tablo 2.3.

Huffman kodlaması

n ben kod ben II III IV V VI vii
0.3 0.3 11 0.3 11 0.3 11 0.3 11 0.3 11 0.4 0 0.6 1
0.2 0.2 01 0.2 01 0.2 01 0.2 01 0.3 10 0.3 11 0.4 0
0.15 0.15 101 0.15 101 0.15 101 0.2 00 0.2 01 0.3 10
0.1 0.1 001 0.1 001 0.15 100 0.15 101 0.2 00
0.1 0.1 000 0.1 000 0.1 001 0.15 100
0.05 0.05 1000 0.1 1001 0.1 000
0.05 0.05 10011 0.05 1000
0.03 0.05 10010
0.02

Her iki kod da, açıklığın çözülmesi gereksinimini karşılamaktadır: Tablolardan da görülebileceği gibi, daha kısa kombinasyonlar, daha uzun kodların başlangıcı değildir.

Sembol sayısı arttıkça kodların verimliliği artar, bu nedenle bazı durumlarda daha büyük bloklar kodlanır (örneğin, metinler söz konusu olduğunda, en yaygın hecelerin, kelimelerin ve hatta tümcelerin bazılarını kodlayabilirsiniz) .

Bu tür kodların getirilmesinin etkisi, bunları tek tip bir kodla karşılaştırarak belirlenir:

(2.24)

burada n, etkin kodla değiştirilen tek tip kodun bit sayısıdır.

Huffman kodları değişiklikleri

Klasik Huffman algoritması iki geçişi ifade eder, yani. önce semboller ve mesajlarla ilgili istatistiklerin toplanmasını ve ardından yukarıda açıklanan prosedürleri gerektirir. Bu, mesajları işleme ve sözlük biriktirme süresini arttırdığından pratikte elverişsizdir. Biriktirme ve kodlama prosedürlerinin birleştirildiği tek geçişli yöntemler daha sık kullanılmaktadır. Bu tür yöntemlere Huffman'a [46] göre uyarlamalı sıkıştırma da denir.

Uyarlanabilir Huffman sıkıştırmasının özü, ilk kod ağacının oluşturulmasına ve sonraki her karakterin gelmesinden sonra sıralı olarak değiştirilmesine indirgenir. Daha önce olduğu gibi, ağaçlar burada ikili, yani. ağaç grafiğinin her bir köşesinden en fazla iki yay çıkar. Orijinal köşeyi ebeveyn ve onunla ilişkili sonraki iki köşeyi çocuklar olarak adlandırmak gelenekseldir. Bir köşenin ağırlığı kavramını tanıtalım - bu, orijinal diziyi gönderirken elde edilen belirli bir köşeye karşılık gelen sembollerin (kelimelerin) sayısıdır. Açıkçası, çocukların ağırlıklarının toplamı ebeveynin ağırlığına eşittir.

Giriş dizisinin bir sonraki karakterinin girilmesinden sonra, kod ağacı revize edilir: köşelerin ağırlıkları yeniden hesaplanır ve gerekirse köşeler yeniden düzenlenir. Köşeler için permütasyon kuralı aşağıdaki gibidir: alt köşelerin ağırlıkları en küçüktür ve grafiğin solundaki köşeler en az ağırlığa sahiptir.

Aynı zamanda, köşeler numaralandırılmıştır. Numaralandırma, alttan (sarkan, yani çocuğu olmayan) köşelerden soldan sağa başlar, sonra en üst seviyeye taşınır, vb. son, orijinal tepe noktasının numaralandırılmasından önce. Bu durumda, aşağıdaki sonuç elde edilir: tepe noktasının ağırlığı ne kadar azsa, sayısı o kadar az olur.

Permütasyon esas olarak asılı tepeler için yapılır. Yeniden düzenlerken, yukarıda formüle edilen kural dikkate alınmalıdır: daha yüksek ağırlığa sahip köşeler de daha yüksek bir sayıya sahiptir.

Diziden geçtikten sonra (aynı zamanda kontrol veya test olarak da adlandırılır), tüm asılı köşelere kod kombinasyonları atanır. Kod atama kuralı yukarıdakine benzer: kod bitlerinin sayısı, yolun orijinalden verilen asılı tepe noktasına geçtiği köşelerin sayısına eşittir ve belirli bir bitin değeri, ana noktadan yöne karşılık gelir. "çocuk"a (örneğin, ebeveynden sola geçiş, 1, sağa - 0 değerine karşılık gelir).

Ortaya çıkan kod kombinasyonları, karşılıkları ile birlikte sıkıştırma cihazının hafızasında saklanır ve bir sözlük oluşturur. Algoritmanın kullanımı aşağıdaki gibidir. Sıkıştırılmış karakter dizisi, mevcut sözlüğe göre parçalara bölünür, ardından parçaların her biri sözlükten kendi koduyla değiştirilir. Sözlükte bulunmayan parçalar yeni asılı köşeler oluşturur, ağırlık kazanır ve sözlüğe de girilir. Böylece uyarlanabilir bir sözlük yenileme algoritması oluşturulmuştur.

Yöntemin etkinliğini arttırmak için sözlüğün boyutunun arttırılması arzu edilir; bu durumda sıkıştırma oranı artar. Pratik olarak sözlüğün boyutu 4 - 16 Kbyte hafızadır.


Verilen algoritmayı bir örnekle açıklayalım. İncirde. 2.13 orijinal diyagramı gösterir (buna Huffman ağacı da denir). Ağacın her bir köşesi, bir kesir boyunca iki sayının yazıldığı bir dikdörtgen ile gösterilir: ilki, köşenin sayısı, ikincisi - ağırlığı anlamına gelir. Gördüğünüz gibi, köşelerin ağırlıklarının ve sayılarının yazışmaları yerine getirildi.

Şimdi, test sırasında köşe 1'e karşılık gelen sembolle ikinci kez karşılaşıldığını varsayalım. Köşe ağırlığı, Şekil 1'de gösterildiği gibi değişti. 2.14, bunun sonucunda köşe numaralandırma kuralı ihlal edilmiştir. Bir sonraki aşamada, 1 ve 4 köşelerini değiştirdiğimiz ve tüm ağaç köşelerini yeniden numaralandırdığımız asılı köşelerin konumunu değiştiriyoruz. Ortaya çıkan grafik Şekil 2'de gösterilmektedir. 2.15. Ayrıca işlem aynı şekilde devam eder.

Huffman ağacındaki her sarkan tepe noktasının belirli bir sembole veya bunların bir grubuna karşılık geldiği unutulmamalıdır. Bir ebeveyn, çocuklardan, kendisine karşılık gelen semboller grubunun, çocuklarınınkinden bir sembol daha kısa olması ve bu çocukların son sembolde farklılık göstermesi bakımından farklıdır. Örneğin, "kar" karakterleri ebeveyne karşılık gelir; daha sonra çocuklar "kara" ve "sazan" dizilerine sahip olabilir.

Verilen algoritma akademik değildir ve programlarda aktif olarak kullanılır - grafik verilerini sıkıştırırken de dahil olmak üzere arşivleyiciler (bunlardan aşağıda bahsedeceğiz).

Lempel - Ziv Algoritmaları

Bunlar günümüzde en sık kullanılan sıkıştırma algoritmalarıdır. Çoğu arşivleme programında kullanılırlar (örn. PKZIP. ARJ, LHA). Algoritmaların özü, arşivleme sırasında belirli bir sembol kümesinin özel olarak oluşturulmuş bir sözlükteki numarasıyla değiştirilmesidir. Örneğin, genellikle iş yazışmalarında bulunan "Mektubunuza giden numara ..." ifadesi sözlükte 121. sırada yer alabilir; daha sonra, söz konusu ifadeyi (30 bayt) iletmek veya saklamak yerine, söz öbeği numarasını (ikili - ondalık biçimde 1,5 bayt veya ikili olarak 1 bayt - ikili olarak) saklayabilirsiniz.

Algoritmalar, 1977'de onları ilk kez öneren yazarların adını almıştır. Bunlardan ilki LZ77'dir. Arşivleme için, iki bölümden oluşan sözde bir sürgülü pencere oluşturulur. İlk kısım, daha büyük format, bir sözlük oluşturmaya yarar ve birkaç kilobayt boyutundadır. İkinci, daha küçük kısım (genellikle 100 bayta kadar), görüntülenen metnin mevcut karakterlerini kabul eder. Algoritma, sözlükte, görünüm alanında alınanlarla eşleşen bir karakter koleksiyonu bulmaya çalışır. Bu başarılı olursa, üç bölümden oluşan bir kod oluşturulur: sözlükteki başlangıç ​​alt dizesine göre ofset, bu alt dizenin uzunluğu, bu alt dizeyi takip eden karakter. Örneğin, seçilen alt dize "app" karakterlerinden (toplamda 6 karakter) ve ardından "e" karakterinden oluşur. Ardından, alt dizenin adresi (sözlükteki yeri) 45 ise, sözlükteki giriş "45, 6. e" biçimindedir. Bundan sonra, pencerenin içeriği bir konum kaydırılır ve arama devam eder. Böylece bir sözlük oluşur.

Algoritmanın avantajı, kolayca resmileştirilmiş sözlük derleme algoritmasıdır. Ek olarak, orijinal sözlük olmadan sıkıştırmayı açmak mümkündür (aynı anda bir test dizisinin olması istenir) - sözlük, açma işlemi sırasında oluşturulur.

Algoritmanın dezavantajları, sözlüğün boyutu arttığında ortaya çıkar - arama süresi artar. Ek olarak, geçerli pencerede sözlükte olmayan bir karakter dizisi görünürse, her karakter üç öğeli bir kodla yazılır, yani. sonuç sıkıştırma değil, esnemedir.

En iyi özellikler 1978'de önerilen LZSS algoritmasına sahiptir. Sürgülü pencere bakımı ve kompresör çıkış kodlarında farklılıklar vardır. Pencereye ek olarak, algoritma, eşleşme aramasını hızlandırmak için Huffman ağacına benzer bir ikili ağaç oluşturur: geçerli pencereden ayrılan her alt dizi, ağaca alt dizilerden biri olarak eklenir. Bu algoritma, mevcut pencerenin boyutunu ek olarak artırmanıza izin verir (boyutunun iki güce eşit olması istenir: 128, 256, vb. bayt). Sıra kodları da farklı bir şekilde oluşturulur: kodlanmamış karakterleri "ofset, uzunluk" çiftlerinden ayırt etmek için 1 bitlik ek bir önek eklenir.

LZW gibi algoritmalar kullanıldığında daha da yüksek bir sıkıştırma oranı elde edilir. Daha önce açıklanan algoritmaların sabit bir pencere boyutu vardır, bu da sözlüğe pencere boyutundan daha uzun tümceciklerin girilmesini imkansız hale getirir. LZW algoritmalarında (ve öncülleri LZ78), görünüm alanının sınırsız bir boyutu vardır ve sözlük ifadeler biriktirir (önceki gibi bir karakter koleksiyonu değil). Sözlük sınırsız uzunluktadır ve kodlayıcı (kod çözücü) tümce bekleme modunda çalışır. Sözlükle eşleşen bir ifade oluşturulduğunda, eşleşen kod (yani bu ifadenin sözlükteki kodu) ve ondan sonraki karakterin kodu döndürülür. Karakterler biriktikçe yeni bir ifade oluşursa, kısa olan gibi sözlüğe de girilir. Sonuç, hızlı kodlama ve kod çözme sağlayan özyinelemeli bir prosedürdür.

Ek fırsat sıkıştırma, tekrarlanan sembollerin sıkıştırılmış kodlamasını sağlar. Sırada bazı karakterler arka arkaya geliyorsa (örneğin, metinde sayısal bir dizide "boşluk" karakterleri olabilir - ardışık sıfırlar vb.), bunları bir çift "karakterle değiştirmek mantıklıdır. ; uzunluk" veya "işaret, uzunluk". İlk durumda, kod, dizinin kodlanacağına dair bir işareti (genellikle 1 bit), ardından tekrarlanan sembolün kodunu ve dizinin uzunluğunu gösterir. İkinci durumda (en sık tekrarlanan karakterler için sağlanır), önek basitçe yinelenen niteliği belirtir.

Serinin ikinci kısmı, dinamik görüntü aralığını optimize etme işlevlerine ayrılmıştır. İçinde size bu tür çözümlerin neden gerekli olduğunu anlatacağız, bunların uygulanması için çeşitli seçeneklerin yanı sıra avantajlarını ve dezavantajlarını göz önünde bulunduracağız.

Sonsuzluğu kucaklayın

İdeal olarak, kamera çevredeki dünyanın görüntüsünü bir kişinin algıladığı gibi yakalamalıdır. Ancak, kamera ve insan gözünün "görme" mekanizmalarının önemli ölçüde farklı olması nedeniyle, bu koşulun gerçekleşmesini engelleyen bir takım sınırlamalar vardır.

Daha önce film kamera kullanıcılarının ve dijital kamera sahiplerinin karşılaştıkları sorunlardan biri, özel cihazlar ve/veya özel çekim teknikleri kullanılmadan aydınlatmada büyük fark olan sahneleri yeterince yakalamanın imkansızlığıdır. İnsan görsel aparatının özellikleri, hem parlak hem de karanlık alanlarda yüksek kontrastlı sahnelerin ayrıntılarını eşit derecede iyi algılamayı mümkün kılar. Ne yazık ki, kamera sensörü görüntüyü her zaman gördüğümüz gibi yakalayamıyor.

Fotoğraflanan sahnedeki parlaklık farkı ne kadar büyük olursa, parlak noktalarda ve/veya gölgelerde ayrıntı kaybı olasılığı da o kadar yüksek olur. Sonuç olarak, gür bulutlu mavi bir gökyüzü yerine, görüntüde sadece beyazımsı bir nokta belirir ve gölgelerde bulunan nesneler belirsiz karanlık silüetlere dönüşür veya çevredeki ortamla tamamen birleşir.

Klasik fotoğrafçılıkta, bir kameranın (veya film kameraları söz konusu olduğunda ortamın) belirli bir parlaklık aralığını iletme yeteneğini değerlendirmek için konsept kullanılır. fotoğrafik enlem(ayrıntılar için kenar çubuğuna bakın). Teorik olarak, dijital kameraların fotoğrafik enlemi, analogdan dijitale dönüştürücünün (ADC) rakam kapasitesi ile belirlenir. Örneğin, 8 bitlik bir ADC kullanırken, niceleme hatası dikkate alındığında, teorik olarak ulaşılabilen fotoğrafik enlem değeri, 12 bit ADC - 11 EV vb. için 7 EV olacaktır. Bununla birlikte, gerçek cihazlarda, görüntülerin dinamik aralığı şu şekilde çıkıyor: NSçeşitli gürültü türlerinin ve diğer faktörlerin etkisi nedeniyle aynı teorik maksimum.

Parlaklık seviyelerindeki büyük farklılıklar, ciddi bir
fotoğraf çekerken sorun Bu durumda, kameranın yetenekleri
çoğunu yeterince aktarmak için yeterli değildi
sahnenin aydınlık alanları ve sonuç olarak mavi alan yerine
gökyüzünde (bir vuruşla işaretlenmiştir) beyaz bir "yama" vardır

Işığa duyarlı bir sensörün kaydedebileceği maksimum parlaklık değeri, hücrelerinin doygunluk düzeyine göre belirlenir. Minimum değer, matris termal gürültüsü, yük transfer gürültüsü ve ADC hatası dahil olmak üzere çeşitli faktörlere bağlıdır.

Aynı dijital kameranın fotoğrafik enleminin ayarlarda ayarlanan hassasiyet değerine bağlı olarak değişebileceğini de belirtmekte fayda var. Maksimum dinamik aralığa, sözde temel hassasiyet ayarlandığında (mümkün olan minimum sayısal değere karşılık gelen) ulaşılabilir. Bu parametrenin değeri arttıkça artan gürültü seviyesi nedeniyle dinamik aralık azalır.

Sensörlerle donatılmış modern dijital kamera modellerinin fotoğrafik enlemi büyük beden ve 14- veya 16-bit ADC'ler, 9 ila 11 EV arasında değişir, 35 mm'den önemli ölçüde daha fazla renkli negatif film (ortalama 4 ila 5 EV). Bu nedenle, nispeten ucuz dijital kameralar bile, tipik amatör fotoğraf konularının çoğunu yeterince iletmek için yeterli bir fotoğraf genişliğine sahiptir.

Ancak, farklı bir sorun var. Dijital görüntülerin kaydedilmesi için mevcut standartların getirdiği kısıtlamalarla bağlantılıdır. Renk kanalı başına 8 bitlik JPEG formatını kullanarak (bu artık bilgisayar endüstrisinde ve dijital teknolojide dijital görüntüleri kaydetmek için fiili standart haline gelmiştir), fotoğraf genişliği 8'den fazla olan bir resmi kaydetmek teorik olarak bile mümkün değildir. EV.

Bir kameranın ADC'sinin, hem vurgularda hem de gölgelerde ayırt edilebilir ayrıntılar içeren 12 veya 14 bit çözünürlüğe sahip bir görüntü ürettiğini varsayalım. Bununla birlikte, bu görüntünün fotoğrafik enlemi 8 EV'yi aşarsa, herhangi bir ek işlem yapmadan (yani, yalnızca "ekstra" bitleri atarak) standart 8 bit biçimine dönüştürme sürecinde, kaydedilen bilgilerin bir kısmı ışığa duyarlı sensör kaybolacaktır.

Dinamik aralık ve fotoğrafik enlem

Basitçe söylemek gerekirse, dinamik aralık, görüntü parlaklığının maksimum değerinin minimum değerine oranı olarak tanımlanır. Klasik fotoğrafçılıkta, geleneksel olarak fotoğrafik enlem terimi kullanılır, bu da aslında aynı anlama gelir.

Dinamik aralığın genişliği bir oran cinsinden ifade edilebilir (örneğin, 1000:1, 2500:1, vb.), ancak bunu yapmanın en yaygın yolu logaritmik bir ölçek kullanmaktır. Bu durumda, maksimum parlaklığın minimum değerine oranının ondalık logaritmasının değeri hesaplanır ve sayıdan sonra, daha az sıklıkla bir büyük harf D (İngiliz yoğunluğundan? - yoğunluktan) yerleştirilir? - kısaltma OD (İngilizce optik yoğunluktan? - optik yoğunluk). Örneğin, bir cihazın maksimum parlaklık değerinin minimum değerine oranı 1000:1 ise, dinamik aralık 3,0 D olacaktır:

Fotoğrafik enlemi ölçmek için, geleneksel olarak, EV kısaltması ile gösterilen sözde pozlama birimleri kullanılır (İngilizce pozlama değerlerinden; profesyoneller bunlara genellikle "duraklar" veya "adımlar" derler). Bu birimlerde, kamera ayarlarındaki poz telafisi miktarı genellikle ayarlanır. Fotoğrafik enlem değerini 1 EV artırmak, maksimum ve minimum parlaklık seviyeleri arasındaki farkı ikiye katlamaya eşdeğerdir. Dolayısıyla EV ölçeği de logaritmiktir, ancak bu durumda sayısal değerleri hesaplamak için taban 2 logaritması kullanılır.Örneğin, herhangi bir cihaz görüntü yakalama yeteneği sağlıyorsa, maksimum parlaklığın minimum değerine oranı 256: 1'e ulaşırsa, fotoğraf enlemi 8 EV'dir:

Sıkıştırma akıllı bir uzlaşmadır

Fotoğraf makinesinin ışık sensörü tarafından yakalanan tüm görüntü bilgilerini korumanın en etkili yolu, görüntüleri RAW formatında kaydetmektir. Bununla birlikte, bu işlev tüm kameralarda mevcut değildir ve her amatör fotoğrafçı, her çekim için ayrı ayarların seçiminde özenli çalışmaya hazır değildir.

Kameranın içinde 8 bit JPEG'e dönüştürülen yüksek kontrastlı görüntülerde ayrıntı kaybı olasılığını azaltmak için, birçok üreticinin cihazlarında (yalnızca kompakt değil, aynı zamanda SLR) dinamik sıkıştırmanıza izin veren özel işlevler tanıtıldı. Kullanıcı müdahalesi olmadan kaydedilen görüntülerin aralığı. Bu tür çözümler, genel kontrastı azaltarak ve orijinal görüntünün bilgilerinin önemsiz bir bölümünü kaybederek, cihazın ışığa duyarlı sensörü tarafından yakalanan parlak noktalar ve gölgelerdeki ayrıntıları 8 bit JPEG formatında kaydetmenize olanak tanır. orijinal görüntünün dinamik aralığı 8 EV'den daha geniştir.

Bu yönün gelişmesinde öncülerden biri HP şirketiydi. 2003 yılında piyasaya sürülen HP Photosmart 945 dijital kamera, görüntülerin karanlık alanlarındaki düşük ışığı otomatik olarak telafi eden ve böylece aşırı pozlama riski olmadan gölge ayrıntılarını koruyan (yüksek kontrastlı çekimlerde çok önemlidir) dünyanın ilk HP Uyarlanabilir Aydınlatma teknolojisini tanıttı. sahneler). HP Adaptive Lightling algoritması, İngiliz bilim adamı Edwin Land tarafından RETINEX insan görsel algısı teorisinde ortaya konan ilkelere dayanmaktadır.

HP Uyarlanabilir Aydınlatma menüsü

Uyarlanabilir Aydınlatma nasıl çalışır? Görüntünün 12 bitlik bir görüntüsünü elde ettikten sonra, ondan aslında bir ışık haritası olan yardımcı bir monokrom görüntü çıkarılır. Görüntüyü işlerken, bu harita, oldukça karmaşık bir dijital filtrenin görüntü üzerindeki etki derecesini ayarlamanıza izin veren bir maske olarak kullanılır. Böylece haritanın en karanlık noktalarına karşılık gelen alanlarda, gelecekteki görüntünün görüntüsü üzerindeki etkisi minimumdur ve bunun tersi de geçerlidir. Bu yaklaşım, bu alanları seçici olarak aydınlatarak ve buna bağlı olarak ortaya çıkan görüntünün genel kontrastını azaltarak gölgelerdeki ayrıntıları ortaya çıkarmanıza olanak tanır.

Uyarlanabilir Aydınlatma etkinleştirildiğinde, yakalanan görüntünün, nihai görüntü bir dosyaya yazılmadan önce yukarıda açıklandığı gibi işlendiğini unutmayın. Açıklanan tüm işlemler otomatik olarak gerçekleştirilir ve kullanıcı kamera menüsünde iki Uyarlanabilir Aydınlatma modundan (düşük veya yüksek seviye etkisi) veya bu işlevi devre dışı bırakın.

Genel olarak konuşursak, modern dijital kameraların belirli işlevlerinin çoğu (önceki makalede tartışılan yüz tanıma sistemleri dahil), orijinal olarak askeri müşteriler için gerçekleştirilen araştırma projelerinin bir tür yan ürünleri veya dönüştürme ürünleridir. Dinamik görüntü aralığını optimize etme işlevlerine gelince, en ünlü tedarikçilerden biri benzer kararlar bir Apikal şirketidir. Özellikle çalışanları tarafından oluşturulan algoritmalar, bir dizi Olympus dijital fotoğraf makinesinde uygulanan SAT işlevinin (Gölge Ayarlama Teknolojisi) çalışmasının temelini oluşturur. Kısaca, SAT fonksiyonunun çalışması şu şekilde tarif edilebilir: görüntünün orijinal görüntüsüne göre, en karanlık alanlara karşılık gelen bir maske oluşturulur ve ardından bu alanlar için pozlama değeri otomatik olarak düzeltilir.

Sony ayrıca Apical'in geliştirmelerini kullanmak için bir lisans aldı. Birçok Cyber-shot kompakt fotoğraf makinesi ve alfa serisi DSLR'de Dinamik Aralık Optimize Edici (DRO) adı verilen bir özellik bulunur.

(Üst) devre dışı bırakılmış HP Photosmart R927 ile çekilen fotoğraflar
ve etkinleştirilmiş Uyarlanabilir Aydınlatma

DRO etkinleştirildiğinde bir anlık görüntünün düzeltilmesi, görüntünün ilk işlenmesi sırasında (yani kayıttan önce) gerçekleştirilir. bitmiş dosya JPEG formatı). Temel versiyonda, DRO'nun iki aşamalı bir ayarı vardır (menüde çalışmasının standart veya gelişmiş modunu seçebilirsiniz). Standart modu seçtiğinizde, görüntü görüntüsünün analizine dayalı olarak, pozlama değeri düzeltilir ve ardından genel dengeyi eşitlemek için görüntüye bir ton eğrisi uygulanır. Gelişmiş mod, hem gölgelerde hem de açık tonlarda düzeltmeler yapmanıza olanak tanıyan daha karmaşık bir algoritma kullanır.

Sony geliştiricileri, DRO algoritmasını geliştirmek için sürekli çalışıyor. Örneğin a700 SLR fotoğraf makinesinde gelişmiş DRO modunu etkinleştirdiğinizde beş düzeltme seçeneğinden birini seçebilirsiniz. Ek olarak, farklı DRO ayarlarıyla bir görüntünün üç varyantını aynı anda kaydetme (bir tür basamaklama) yeteneği uygulanır.

Birçok Nikon dijital fotoğraf makinesi, yine Apikal algoritmalara dayanan D-Lighting ile donatılmıştır. Bununla birlikte, yukarıda açıklanan çözümlerden farklı olarak, D-Lighting, şekli gölgeleri daha açık hale getirirken görüntünün geri kalanını değiştirmeden tutan bir ton eğrisi kullanarak önceden kaydedilmiş görüntüleri işlemek için bir filtre şeklinde uygulanır. Ancak bu durumda zaten bitmiş 8 bit görüntüler işlendiğinden (ve daha yüksek bit derinliğine ve buna bağlı olarak daha geniş bir dinamik aralığa sahip çerçevenin orijinal görüntüsü değil), D-Lighting'in olanakları çok sınırlıdır. Kullanıcı, görüntüyü bir grafik düzenleyicide işleyerek aynı sonucu elde edebilir.

Büyütülmüş parçaları karşılaştırırken, orijinal görüntünün karanlık alanlarının (solda) olduğu açıkça görülebilir.
Uyarlanabilir Aydınlatma etkinleştirildiğinde daha hafif hale gelir

Başka ilkelere dayalı bir dizi çözüm de vardır. Bu nedenle, Panasonic şirketinin Lumix ailesinin birçok kamerasında (özellikle, DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18, vb.), Akıllı Pozlama işlevi uygulanmaktadır. parçası iA akıllı otomatik kontrol sistemleri. Akıllı Pozlama, çerçeve görüntüsünün otomatik analizine ve gölgelerdeki ayrıntı kaybını önlemek için görüntünün karanlık alanlarının düzeltilmesine ve (gerekirse) yüksek kontrastlı sahnelerin dinamik aralığının sıkıştırılmasına dayanır.

Bazı durumlarda, dinamik aralık optimizasyon işlevinin çalışması, yalnızca görüntünün orijinal görüntüsünü işlemek için belirli işlemleri değil, aynı zamanda çekim ayarlarının düzeltilmesini de içerir. Örneğin, Fujifilm dijital kameraların yeni modellerinde (özellikle FinePix S100FS'de), geliştiricilere göre fotoğraf enlemini artırmaya izin veren dinamik aralığı (Geniş Dinamik Aralık, WDR) genişletme işlevi uygulanmaktadır. bir veya iki durak (ayarların terminolojisinde -% 200 ve 400).

WDR işlevi etkinleştirildiğinde, fotoğraf makinesi –1 veya –2 EV (seçilen ayara bağlı olarak) poz telafisi ile resimler çeker. Bu nedenle, çerçevenin görüntüsü az pozlanır - bu, vurgulardaki ayrıntılar hakkında maksimum bilgiyi korumak için gereklidir. Ortaya çıkan görüntü daha sonra genel dengeyi eşitlemek ve siyah seviyesini ayarlamak için bir ton eğrisi ile işlenir. Görüntü daha sonra 8 bit formatına dönüştürülür ve bir JPEG dosyası olarak kaydedilir.

Dinamik Aralık Sıkıştırma Daha Fazla Ayrıntıyı Korur
vurgularda ve gölgelerde, ancak böyle bir etkinin kaçınılmaz sonucu
genel kontrasttaki azalmadır. Alttaki resimde
bulutların dokusu çok daha iyi işlenmiş, ancak
düşük kontrast nedeniyle, görüntünün bu versiyonu
daha az doğal görünüyor

Dinamik Aralık Genişletme adı verilen benzer bir işlev, Pentax'ın bir dizi kompakt ve SLR fotoğraf makinesinde (Optio S12, K200D, vb.) uygulanmaktadır. Üreticiye göre, Dinamik Aralık Büyütme özelliğinin kullanılması, parlak noktalarda ve gölgelerde ayrıntıları kaybetmeden fotoğraf enlemini 1 EV artırmanıza olanak tanır.

Vurgu tonu önceliği (HTP) adı verilen benzer bir işlev, bir dizi Canon DSLR modelinde (EOS 40D, EOS 450D, vb.) uygulanmaktadır. Kullanım kılavuzundaki bilgilere göre, HTP'yi etkinleştirmek, vurgulardaki ayrıntıları iyileştirebilir (daha spesifik olarak, %0 ila %18 gri düzey aralığında).

Çözüm

Özetleyelim. Dahili dinamik aralık sıkıştırma işlevi, yüksek dinamik aralıklı orijinal görüntüyü minimum hasarla 8 bit'e dönüştürmenize olanak tanır JPEG dosyası... RAW yakalama işlevinin yokluğunda, Dinamik Aralık Sıkıştırma, fotoğrafçının yüksek kontrastlı sahneleri çekerken kameralarının potansiyelinden daha fazla yararlanmasına olanak tanır.

Elbette, dinamik aralık sıkıştırmanın sihirli bir kurşun değil, bir uzlaşma olduğunu unutmayın. Görüntünün karanlık alanlarındaki gürültü seviyesini artırarak, kontrastını azaltarak ve yumuşak ton geçişlerini biraz kabalaştırarak, vurgularda ve / veya gölgelerde ayrıntıların korunması için ödeme yapmanız gerekir.

Herhangi bir otomatik işlev gibi, dinamik aralık sıkıştırma algoritması da herhangi bir resmi kesinlikle iyileştirmek için tamamen evrensel bir çözüm değildir. Bu nedenle, yalnızca gerçekten gerekli olduğu durumlarda etkinleştirilmesi mantıklıdır. Örneğin, iyi gelişmiş bir arka plana sahip bir silueti yakalamak için dinamik aralık sıkıştırma işlevi kapatılmalıdır - aksi takdirde etkili sahne umutsuzca mahvolacaktır.

Bu konunun ele alınmasını sonlandırırken, dinamik aralık sıkıştırma işlevlerinin kullanılmasının, kamera sensörü tarafından sabitlenmemiş olan görüntü ayrıntılarının "uzatılmasına" izin vermediğine dikkat edilmelidir. Yüksek kontrastlı sahneleri çekerken tatmin edici bir sonuç elde etmek için, ek cihazlar (örneğin manzara fotoğrafları çekmek için gradyan filtreleri) veya özel teknikler (birden çok poz-braketleme karesi çekmek ve ardından bunları Ton Eşleme kullanarak tek bir görüntüde birleştirmek gibi) kullanmanız gerekir. teknoloji).

Bir sonraki makale, patlama işlevine odaklanacaktır.

Devam edecek

Soruyu düşünelim - neden sesi yükseltmemiz gerekiyor? Çevremizde duyulmayan kısık sesleri duymak için (örneğin yüksek sesle dinleyemiyorsanız, varsa yabancı gürültü odada vb.). Yüksek seslere dokunmadan sessiz sesleri yükseltmek mümkün müdür? Yapabileceğin ortaya çıktı. Bu tekniğe Dinamik Aralık Sıkıştırma (DRC) denir. Bunu yapmak için, mevcut ses seviyesini sürekli olarak değiştirmeniz gerekir - sessiz sesleri, yüksek sesleri yükseltin - hayır. Ses yüksekliği değişiminin en basit yasası doğrusaldır, yani. hacim, çıktı_gürültüsü = k * girdi_yüksekliği yasasına göre değişir; burada k, dinamik aralığın sıkıştırma oranıdır:

Şekil 18. Dinamik aralık sıkıştırma.

k = 1 olduğunda, herhangi bir değişiklik yapılmaz (çıkış ses yüksekliği girişe eşittir). Çatal< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - ses seviyesi azalacak ve dinamik aralık artacaktır.

Ses yüksekliği grafiklerine bakalım (k = 1/2: DD'nin yarıya sıkıştırılması):

Şekil 19. Ses yüksekliği grafikleri.

Orijinalde görebileceğiniz gibi, diyalog seviyesinin 30 dB altında hem çok sessiz sesler hem de diyalog seviyesinin 30 dB üzerinde çok yüksek sesler vardı. O. dinamik aralık 60dB idi. Sıkıştırmadan sonra, yüksek sesler diyalog seviyelerinden sadece 15 dB daha yüksek ve sessiz sesler 15 dB daha düşüktür (dinamik aralık artık 30 dB'dir). Böylece, yüksek sesler çok daha sessiz ve sessiz olanlar çok daha yüksek. Bu durumda taşma olmaz!

Şimdi histogramlara dönelim:

Şekil 20. Sıkıştırma örneği.

Açıkça görebileceğiniz gibi, + 30dB'ye kadar amplifikasyonla, histogramın şekli iyi korunur, bu, yüksek seslerin iyi telaffuz edildiği anlamına gelir (basit amplifikasyonda olduğu gibi maksimuma gitmezler ve kesilmezler). ). Bu sessiz sesler üretir. Histogram bunu kötü gösteriyor, ancak fark kulak tarafından çok fark ediliyor. Bu yöntemin dezavantajı, aynı ses yüksekliği sıçramalarıdır. Bununla birlikte, oluşum mekanizmaları, kırpmadan kaynaklanan ses yüksekliğindeki sıçramalardan farklıdır ve doğası farklıdır - esas olarak sessiz seslerin çok güçlü bir şekilde yükseltilmesiyle ortaya çıkarlar (ve geleneksel amplifikasyonda olduğu gibi yüksek sesleri keserken değil). Aşırı sıkıştırma seviyesi, ses görüntüsünün düzleşmesine yol açar - tüm sesler aynı yüksekliğe ve ifadesizliğe eğilimlidir.

Sessiz seslerin güçlü bir şekilde yükseltilmesi, kayıt gürültüsünün duyulmasına neden olabilir. Bu nedenle, gürültü seviyesinin daha az yükselmesi için filtrede biraz değiştirilmiş bir algoritma uygulanır:

Şekil 21. Gürültüyü artırmadan sesi artırma.

Onlar. -50dB'lik bir ses seviyesinde, transfer fonksiyonu bükülür ve gürültü daha az yükseltilir (sarı çizgi). Böyle bir bükülmenin olmaması durumunda, gürültü çok daha yüksek olacaktır (gri çizgi). Bu basit değişiklik, çok yüksek sıkıştırma seviyelerinde bile gürültü miktarını önemli ölçüde azaltır (şekil - 1: 5 sıkıştırma). Filtredeki “DRC” seviyesi, sessiz sesler için (-50dB seviyesinde) kazanç seviyesini ayarlar. şekilde gösterilen 1/5 sıkıştırma seviyesi, filtre ayarlarında + 40dB seviyesine karşılık gelmektedir.