Komprese zvuku
Psychoakustický model
Psychoacoustics
Ještě vyššíí komperese je možné dosáhnout použitím psychoakustického modelu.
Jsou dva druhy maskování:
Frekvenční maskování – frekvence o definované intenzitě maskují okolní frekvence s menší intenzitou.
Časové maskování – signál o určité frekvenci a intenzitě i po odeznění maskuje jiné frekvence o menší intenzitě.
Kodér analyzuje data, určí množství frekv. vzorků, které mohou být zanedbány.
V podstatě se při kompresi založené na tomto modelu s vyšší citlivostí kvantují frekvence na které je ycho citlivější a ostatní se kvantují s menším krokem nebo se odstraňují.
Joint-stereo coding
Joint (audio engineering)
Metody:
Left-Right (Simple) Stereo – oba kanály jako samostatné entity (nevhodné, pokud jsou oba skoro identické)
Mid-side (MS) Stereo – vypočte středový kanál M = (L + R) / 2 a boční kanál S = (L − R) / 2 a pak L = M + S, R = M - S
Intensity Stereo – nahrazuje L/R jedním součtovým kanálem společně s informací o směru (tedy poměrně ztrátové)
Algoritmy kódování ve frekvenční oblasti
Oba používají psychoakustický model pro řízení přiřazování bitů (bit-allocation) a kvantování.
MUSICAM
MPEG-1 Audio Layer II#MUSICAM
Sub-band filtering
Signál rozdělen do 32 pásem
Každé pásmo 12 vzorků
FFT k nalezení maskovacích frekvencí alokace bitů pro kvantování na základě minimalizace odstupu šumu od maskovacího prahu (NMR = noise-to-mask ratio)
Výpočet rozsahů (scale factors), adaptivní kvantování (vzorky v rozsahu [-1, 1])
Informace o počtu přidělených bitů a rozsazích je kódována a přidána k rámci
ASPEC
Použití MDCT pro převod do frekv. oblasti
Signál rozdělen do 32 pásem.
Definovány dvě délky bloků: 256 vzorků pro 128 a 9 kbps, 512 vzorků pro 64 a 32 kbps.
Snižování aliasingu: TDAC (Windowing, Time Domain Aliasing Cancellation).
MPEG-1 audio komprese
MPEG-1
Založena na psychoakustickém modelu.
Možnost dosáhnout kompresního poměru řádově 1:10.
Alokace/přiřazování bitů vzorkům na základě odstupu signálu od masky/prahu (SMR = signal-to-mask ratio).
Pro stereo využívá joint-stereo, MS, separátní kódování.
CBR, VBR
Třívrstvová architektura
-
32 frekvenčních pásem (neodpovídá vlastnostem lidského ucha, nižší frekvence – užší pásma, vyšší frekvence – širší)
Každé pásmo má 12 vzorků (32*12=384 samples), Huffmanovo kódování
-
-