Codificación Audio : ¿Qué nos espera en el futuro?

Introducción a la compresión audio

1analog_to_digital1En el mundo de la alta fidelidad de hoy en día, queremos la mejor calidad en todas las películas, imagenes y sonidos que encontremos. El DVD Blu-Ray parece listo para imponerse en el mercado, enviando el DVD de calidad inferior al mismo rango que el VHS.

De una manera parecida, vemos que el audio digital está presionando para lograr la misma calidad. Aunque la popularidad del iPod y de los MP3 hayan dado lugar a una era de música sobre-comprimida y de menor calidad, también vemos que las ventas del vinilo aumentan, además de nuevos desarrollos como el Super Audio CD de Sony (SACD). Esto implementa un proceso relativamente nuevo en la forma de comprimir el audio y que allana el camino para un cambio masivo en la calidad de la música que escuchamos, si logra aceptarse.

Analógico vs Digital

Para poder entender la compresión audio, se debe comprender primero la diferencia entre el analógico y el digital. Algo analógico es un sonido sin interrupción, puro, natural. La voz humana, una guitarra, un vinilo son ejemplos de sonido analógico. Cuando se graba un vinilo, una agujera detecta las vibraciones de una fuente audio y la “imprime” exactamente al vinilo. Es la razón por la cual se dice del vinilo que tiene la mejor calidad sonora, y sigue muy popular hoy en día, a pesar de muchas alternativas y desarrollos. Una señal analógica abarca todas las frecuencias, hasta las inaudibles. Por eso una orquesta en vivo suena más “completa” que una grabación, aun de la calidad más alta. Los aficionados al sonido sostendrán que la energía de las frecuencias inaudibles añaden a la calidad del sonido, aunque su oído no las pueda percibir.

Una señal digital es una duplicación de una señal audio con unos y ceros. De la misma manera una imagen en una pantalla de un ordenador está duplicada por miles de valores de intensidad representados en un código binario. La música en un iPod, un disco compacto, y un MP3 son ejemplos de duplicación digital. Hasta muchos instrumentos musicales modernos han implementado el sonido digital, de teclados digitales a baterías electrónicas y pedales de guitarra. Se pueden obtener sonidos digitales con un chip programable, más que en un circuito, y es mucho más fiable, menos costoso, y fácil de producir en serie. Sin embargo, el sonido digital tiene inconvenientes que sacrifica la calidad del sonido, y estas desventajas están permanentemente corregidas para obtener una replica de la señal analógica más precisa.

Pulse Code Modulation (PCM)

Desde los inicios del disco compacto, el método de codificación ha sido el Pulse Code Modulation (PCM). En PCM, la señal analógica de una voz humana o de un instrumento musical está muestreada, o capturada, a intervalos regulares y recreada de forma digital. Es como utilizar un folioscopio para simular una imagen en movimiento. No es una duplicación exacta de la señal audio, sino una aproximación cercana. Sin embargo, el PCM tiene dos limites que impide que sea el método de codificación perfecto, a pesar de su longevidad en la industria.

La Frecuencia de Muestreo

2tn_rko-mr1000-b

Figura3. Dispositivos como este Korg MR-1000, una grabadora digital que utiliza la tecnología 1-Bit, ya han mejorado la fidelidad DSD básica, y se pueden obtener a un precio relativamente bajo.

Cuando se refiere a la frecuencia de una señal audio, Hertz también se usa. Cada nota tiene una frecuencia distinta, y todos los instrumentos producen una gran gama de frecuencias. Por ejemplo la cuerda de mi de un bajo es aproximadamente de 40Hz, mientras el traste más alto de la cuerda de sol está alrededor de 500-600Hz. El oído humano puede escuchar en un rango de más o menos 20Hz – 20 000Hz. El límite superior baja con la edad, y con el volumen particularmente alto de hoy en día, una persona media sólo podrá oír hasta 15 000kHz. Sin embargo, sigue siendo un rango muy amplio y se debe explicar para la duplicación digital.

Cuando se muestrea una señal audio, se debe seguir una norma llamada Nyquist Rate. Establece que la frecuencia de muestreo debe de ser por lo menos dos veces la banda ancha de una señal audio. Significa que para una onda de 1 000Hz, la frecuencia de muestreo debe de ser por lo menos de 2 000 Hz. Por lo tanto, cuando se muestrea una orquesta con todas las frecuencias audibles (hasta 20 000Hz), la frecuencia de muestreo debe de ser por lo menos de 40 000Hz. La decisión de establecer como estándar la frecuencia de muestreo de 44 100Hz se explica con las primeras grabadoras de vídeo monocromo. Aunque el disco compacto no tenga ningún circuito vídeo, los primeros procesos de grabación utilizaban el mismo equipo. Existían dos estándares diferentes para la grabación vídeo en los años 70, PAL y NTSC, ambos con frecuencias distintas. 44.1kHz fue simplemente un compromiso entre Sony y Philips para obtener una compatibilidad global con la grabación audio. [1]

De este modo, 44.1kHz se ha convertido en un estándar para los archivos audio. Porque respeta el Nyquist Rate, todas las frecuencias audibles se pueden captar. Sin embargo, no justifica la resolución del bit, que es otro límite del PCM.

La Resolución del Bit

31figure1

Figura1

La resolución del bit, o nivel de cuantización, es básicamente el número de unidades de almacenamiento disponibles que puede ocupar una señal audio. En código binario, el número de bits es un exponente de la cifra 2, entonces un CD audio de 16 bit estándar tiene 2^16 o 65 536 niveles de cuantización. Un mejor ejemplo de la resolución se demuestra en la Figura1.


Aquí vemos la señal analógica, representada por la línea roja, y el número de niveles de cuantización, representados por las barras verdes.

Figura2

Figura2

En la Figura2, vemos la aproximación de la onda analógica a la onda digital representada por la línea azul.

En este ejemplo, 10 niveles de cuantización pueden ocupar la señal. Si miramos la señal analógica, es obvio que está lejos de ser una representación precisa de la señal. Más alto el número de bits, más niveles de cuantización son posibles.

La Figura3 muestra una señal audio con 40 niveles de cuantización, muestreada a una frecuencia que es cuatro veces la frecuencia de la Figura1.

Es evidente que el aumento del número de niveles de cuantización aumentará la calidad de la señal audio duplicada. Sin embargo, el CD audio estándar está fijado con un muestreo de 16bit y 44.1kHz.

Figura3

Figura3

Aunque los discos compactos sean una duplicación del vinilo con menor calidad, son incomparablemente superiores a los archivos MP3. La velocidad binaria de un disco compacto, o el número de bits transferidos por segundo, es aproximadamente de 1411.2 kilobit/segundo (16 bit/muestra x 44100 muestras/segundos x 2 canales / 1000 bits/kilobit). Cuando se descodifica un archivo MP3, el número de bits/segundo disminuye drásticamente. Un MP3 estándar descodificará a 128kbit/s. Hasta el MP3 de mayor calidad tendrá una velocidad de 320 kbit/s. Es muy inferior a un CD audio, el cual ya es una aproximación a una señal analógica. Si nuevos desarrollos en el audio de alta definición se implementan de forma ingeniosa, la esperanza de vida del MP3 podría ser muy corta.

Modulación de 1-Bit

Un método alternativo de codificación del audio ha logrado algo de éxito estos últimos años. SACD es uno de los ejemplos de este método, y marcas como Sony están comercializando sistemas de home theatre con audio de alta definición en muchos de sus productos. La diferencia entre este nuevo tipo de audio de alta definición y el audio estándar en muchos productos actuales tiene que ver con la manera de codificarlo. En vez de usar la norma PCM, se utiliza un nuevo enfoque llamado codificación Delta-Sigma de 1-Bit.

Hay muchas diferencias fundamentales entre el muestreo de 1-Bit y el PCM. El método de cuantización es la más obvia. En PCM 16-bit, la señal se puede capturar hasta 2^16 o 65 536 niveles. Aunque la resolución se pueda aumentar, subiendo el número de bits, el convertidor digital-a-analógico (DAC) necesita una resistencia para cada bit. Por consiguiente, en 16 bit, 16 resistencias son necesarias en paralelo para capturar la señal. En 32 bit, son 32 resistencias. Una mayor resolución significa un mayor sistema de circuito, y un dispositivo más costoso.

Direct Stream Digital (DSD)

En el muestreo de 1-Bit, se necesita un solo nivel de cuantización. La señal está leída por el método Direct Stream Digital (DSD). Significa que, en vez de mirar la totalidad de la amplitud de la señal, sólo cada instante entrante está analizado de forma consecutiva. Cada muestra tiene sólo dos puntos de referencia, uno para la amplitud creciente, y uno para la amplitud decreciente. De ahí, con un bit, cada instante se puede clasificar como “on” u “off”. Con este método, se realiza un sistema de muestreo en escalera donde cada bit lee la señal analógica como hacia arriba o abajo. Se demuestra en la figura 4. Con DSD, el proceso de codificación tomará más tiempo, pero los resultados pueden ser una mayor resolución.

Figura4

Figura4

Ruido de Cuantización

51figure5

Figure5

Utilizando este bucle de feedback varias veces, y comparando varias diferentes muestras con la muestra analógica original, se puede calcular la media del valor y producir un ratio Señal-a-Ruido (SNR) más alto. El número de bucles de feedback en un codificador de 1-Bit es el orden del descodificador.

52figure6

Figure6

Figure6 muestra el ratio SNR correspondiente en dB para diferentes moduladores de orden con varias frecuencias de muestreo.





El Sobremuestreo

Figura7

Figura7

Toma nota de la Frecuencia de Sobremuestreo en el eje x de la Figura6. Es porque un modulador de 1-Bit no muestrea a 44.1kHz. Mejor dicho, se debe usar una frecuencia de muestreo más alta para justificar el ruido de cuantización. Este índice es a menudo 64 veces la frecuencia de muestreo deseada, o 64 x 44.1 kHz, o aproximadamente 2.8 GHz. Tomando este número de muestras, el ruido de cuantización no deseado se puede modelar para cada muestra, y el ruido medio puede ser muy inferior. Por un modulador de orden N, cada vez que se dobla la frecuencia de muestreo, el ruido de cuantización dentro de la banda disminuye de 3 x (2M+1) dB [2]. Doblando el muestreo para el modulador de primer orden, se reducirá el ruido de cuantización de 9dB, pero doblándolo para el modulador de segundo orden, el ruido estará reducido de 15dB, y así sucesivamente. Esto aumenta drásticamente el SNR de 64 veces la frecuencia de muestreo. La Figura7 muestra la respuesta en frecuencia de la señal y el ruido de un modulador de primer y de segundo orden.

En las frecuencias bajas, la eliminación del ruido es más eficiente con el aumento en cada orden. Sin embargo, debido al moldeo del ruido, a menudo las frecuencias altas se distorsionan en la modulación de 1-Bit. A veces es preferible al PCM que tiene ruido de cuantización de nivel bajo en todas las frecuencias.

Decimación

Porque el oído humano sólo puede detectar frecuencias hasta 20 kHz, una frecuencia de muestreo de 2.8GHz produce muchos datos superfluos. Para volver a traer la señal a un flujo realista, un proceso llamado dedicación bajara la salida a 44.1 kHz. Se hace usando cada 64° muestra. La Figura8 muestra un ejemplo de decimación.

Figura8

Figura8

Conclusión

Así, la modulación de 1-Bit ha sido implementada en muchos dispositivos audio nuevos de alta definición, y los programadores siguen utilizando este proceso para desarrollar moduladores multi-bit y otros convertidores híbridos. Ha sido reconocido por los aficionados, y poco a poco está reemplazando el PCM. ¿Es uno mejor que el otro? Se puede discutir. Sin embargo, la modulación de 1-Bit permite circuitos más simples, y un mejor moldeo del ruido en las bandas de frecuencias bajas. El SNR es mucho mejor que el PCM, excepto en las frecuencias más altas, donde la mayoría del ruido es inaudible de toda forma. El diseño es más simple, usando más implementación digital que el PCM, y como avances de programación, las funciones digitales como el moldeo del ruido se mejorarán.

Una vez más asequible la modulación de 1-Bit, el consumidor empezará a realizar la pobre calidad del MP3. Los próximos pasos serán la implementación del audio 1-Bit al mercado portátil, y el audio de alta definición se convertirá en la norma. Hasta ahí, sólo los pocos afortunados que hayan escuchado la diferencia podrán saber que puede haber una calidad de sonido muy superior, y se esforzarán por educar a los demás.

Referencias :

[1] John Watkinson, The Artof Digital Audio, 2ª edición, pg. 104

[2] James C. Candy, Gabor C. Temes. “Oversampling Methods for A/D D/A Conversion, Oversampling Delta-Sigma Converters”, New Jersey, IEEE Press, 1992., p. 3-7.

Figuras 1,2 & 3 han sido adaptadas de “Why does it say 1-bit Dual D/A converter on my CD player?”. 23 de Abril de 2001 http://entertainment.howstuffworks.com/question620.htm (12 de Noviembre de 2007)

Figura 4.  Muestreo en 1-Bit de una onda de seno estándar. Adaptada de An Introduction to Delta-Sigma Converters, Uwe Beis, Agosto de 2007. http://www.beis.de/Elektronik/DeltaSigma/DeltaSigma.html

Figura 5. El moldeo del ruido elimina el ruido de cuantización de un Modulador Delta-Sigma. Adaptada de “Getting the Most Out of Delta-Sigma Converters” de Russell Anderson, Analog Zone. http://www.analogzone.com/acqt0310.pdf

Figura6. Ruido de Conversión Delta-Siga – SNR vs Frecuencia de Sobremuestreo y Modulador de orden (0 – 5). Adaptada de An Introduction to Delta-Sigma Converters, Uwe Beis, Agosto de 2007. http://www.beis.de/Elektronik/DeltaSigma/DeltaSigma.html

Figura7. Respuestas en Frecuencia que causan el Moldeo del Ruido. Adaptada de An Introduction to Delta-Sigma Converters, Uwe Beis, Agosto de 2007. http://www.beis.de/Elektronik/DeltaSigma/DeltaSigma.html

Figura8. Decimación en el Tema del Tiempo. Adaptada de A Brief Introduction to Sigma Delta Conversion, David Jarman, Mayo de 1995. http://www.intersil.com/data/an/AN9504.pdf

Autor : Mark Kleback

Deja un comentario

Archivado bajo Informática musical, Pedagogía

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s