Komprese zvuku

Psychoakustický model

Ještě vyššíí komperese je možné dosáhnout použitím psychoakustického modelu.

Jsou dva druhy maskování:

Frekvenční maskování – frekvence o definované intenzitě maskují okolní frekvence s menší intenzitou.
Časové maskování – signál o určité frekvenci a intenzitě i po odeznění maskuje jiné frekvence o menší intenzitě.

Kodér analyzuje data, určí množství frekv. vzorků, které mohou být zanedbány.

V podstatě se při kompresi založené na tomto modelu s vyšší citlivostí kvantují frekvence na které je ycho citlivější a ostatní se kvantují s menším krokem nebo se odstraňují.

Joint-stereo coding

Joint (audio engineering)

Znamená podporu pro více než jednu metodu kódování stereo kanálů (L/R)
Tyto metody se obyčejně vhodně mění pro jednotlivé rámce (i sub-rámce)

Metody:

Left-Right (Simple) Stereo – oba kanály jako samostatné entity (nevhodné, pokud jsou oba skoro identické)
Mid-side (MS) Stereo – vypočte středový kanál M = (L + R) / 2 a boční kanál S = (L − R) / 2 a pak L = M + S, R = M - S
Intensity Stereo – nahrazuje L/R jedním součtovým kanálem společně s informací o směru (tedy poměrně ztrátové)

Algoritmy kódování ve frekvenční oblasti

Oba používají psychoakustický model pro řízení přiřazování bitů (bit-allocation) a kvantování.

MUSICAM

MPEG-1 Audio Layer II#MUSICAM

Sub-band filtering

Signál rozdělen do 32 pásem
Každé pásmo 12 vzorků
FFT k nalezení maskovacích frekvencí alokace bitů pro kvantování na základě minimalizace odstupu šumu od maskovacího prahu (NMR = noise-to-mask ratio)
Výpočet rozsahů (scale factors), adaptivní kvantování (vzorky v rozsahu [-1, 1])
Informace o počtu přidělených bitů a rozsazích je kódována a přidána k rámci

ASPEC

Použití MDCT pro převod do frekv. oblasti

Signál rozdělen do 32 pásem.
Definovány dvě délky bloků: 256 vzorků pro 128 a 9 kbps, 512 vzorků pro 64 a 32 kbps.
Snižování aliasingu: TDAC (Windowing, Time Domain Aliasing Cancellation).

MPEG-1 audio komprese

MPEG-1

Založena na psychoakustickém modelu.
Možnost dosáhnout kompresního poměru řádově 1:10.
Alokace/přiřazování bitů vzorkům na základě odstupu signálu od masky/prahu (SMR = signal-to-mask ratio).
Pro stereo využívá joint-stereo, MS, separátní kódování.
CBR, VBR

Třívrstvová architektura

MPEG-1 Audio Layer I
- 32 frekvenčních pásem (neodpovídá vlastnostem lidského ucha, nižší frekvence – užší pásma, vyšší frekvence – širší)
- Každé pásmo má 12 vzorků (32*12=384 samples), Huffmanovo kódování
MPEG-1 Audio Layer II
- Rámec obsahuje 3 × 12 × 32 = 1152 vzorků
- Definovány až 3 rozsahy/měřítka (scale factors) pro každé pásmo
MPEG-1 Audio Layer III (MP3)
- Frekvenční filtrace (sub-band filtering) + MDCT (MDCT přidána pro zvýšení frekvenčního rozlišení)
- Následuje neuniformní kvantování a Huffmanovo kódování

Kalábovi

Uživatelské nástroje

Nástroje pro tento web

Obsah