AntecedentesEditar
El algoritmo de compresión de datos de audio con pérdida MP3 aprovecha una limitación perceptiva del oído humano llamada enmascaramiento auditivo. En 1894, el físico estadounidense Alfred M. Mayer informó de que un tono podía hacerse inaudible por otro de menor frecuencia. En 1959, Richard Ehmer describió un conjunto completo de curvas auditivas relativas a este fenómeno. Entre 1967 y 1974, Eberhard Zwicker trabajó en las áreas de sintonización y enmascaramiento de las bandas de frecuencias críticas, que a su vez se basó en la investigación fundamental en el área de Harvey Fletcher y sus colaboradores en los Laboratorios Bell.
La codificación perceptiva se utilizó por primera vez para la compresión de la codificación del habla con la codificación predictiva lineal (LPC), que tiene sus orígenes en el trabajo de Fumitada Itakura (Universidad de Nagoya) y Shuzo Saito (Nippon Telegraph and Telephone) en 1966. En 1978, Bishnu S. Atal y Manfred R. Schroeder, de los Laboratorios Bell, propusieron un códec de voz LPC, denominado codificación predictiva adaptativa, que utilizaba un algoritmo de codificación psicoacústica que explotaba las propiedades de enmascaramiento del oído humano. Schroeder y Atal, junto con J.L. Hall, siguieron optimizando el sistema en un artículo de 1979. Ese mismo año, M. A. Krasner también propuso un códec de enmascaramiento psicoacústico, que publicó y produjo hardware para el habla (no utilizable como compresión de bits de música), pero la publicación de sus resultados en un informe técnico relativamente oscuro del Laboratorio Lincoln no influyó inmediatamente en la corriente principal de desarrollo de códecs psicoacústicos.
La transformada discreta del coseno (DCT), un tipo de codificación por transformada para la compresión con pérdidas, propuesta por Nasir Ahmed en 1972, fue desarrollada por Ahmed con T. Natarajan y K. R. Rao en 1973; publicaron sus resultados en 1974. Esto condujo al desarrollo de la transformada discreta de coseno modificada (MDCT), propuesta por J. P. Princen, A. W. Johnson y A. B. Bradley en 1987, tras el trabajo anterior de Princen y Bradley en 1986. La MDCT se convirtió posteriormente en una parte fundamental del algoritmo del MP3.
Ernst Terhardt et al. construyeron un algoritmo que describía el enmascaramiento auditivo con gran precisión en 1982. Este trabajo se sumó a una variedad de informes de autores que se remontan a Fletcher, y al trabajo que inicialmente determinó las relaciones críticas y los anchos de banda críticos.
En 1985 Atal y Schroeder presentaron la predicción lineal excitada por el código (CELP), un algoritmo de codificación perceptiva del habla basado en LPC con enmascaramiento auditivo que logró una relación de compresión de datos significativa para su época. El IEEE’s refereed Journal on Selected Areas in Communications informó en 1988 sobre una amplia variedad de algoritmos de compresión de audio (principalmente perceptivos). La edición «Voice Coding for Communications», publicada en febrero de 1988, informaba sobre una amplia gama de tecnologías de compresión de bits de audio establecidas y en funcionamiento, algunas de las cuales utilizaban el enmascaramiento auditivo como parte de su diseño fundamental, y varias mostraban implementaciones de hardware en tiempo real.
Desarrollo
La génesis de la tecnología MP3 se describe con detalle en un artículo del profesor Hans Musmann, que presidió el grupo de audio MPEG de la ISO durante varios años. En diciembre de 1988, MPEG solicitó un estándar de codificación de audio. En junio de 1989, se presentaron 14 algoritmos de codificación de audio. Debido a ciertas similitudes entre estas propuestas de codificación, se agruparon en cuatro grupos de desarrollo. El primer grupo fue ASPEC, formado por Fraunhofer Gesellschaft, AT&T, France Telecom, Deutsche y Thomson-Brandt. El segundo grupo era MUSICAM, de Matsushita, CCETT, ITT y Philips. El tercer grupo era ATAC, de Fujitsu, JVC, NEC y Sony. Y el cuarto grupo fue SB-ADPCM, de NTT y BTRL.
Los predecesores inmediatos del MP3 fueron la «codificación óptima en el dominio de la frecuencia» (OCF) y la codificación por transformación perceptiva (PXFM). Estos dos códecs, junto con las contribuciones de conmutación de bloques de Thomson-Brandt, se fusionaron en un códec llamado ASPEC, que se presentó a MPEG y que ganó el concurso de calidad, pero que fue rechazado erróneamente por ser demasiado complejo de implementar. La primera implementación práctica de un codificador perceptivo de audio (OCF) en hardware (el hardware de Krasner era demasiado engorroso y lento para su uso práctico), fue una implementación de un codificador de transformación psicoacústica basado en los chips DSP 56000 de Motorola.
Otro predecesor del formato y la tecnología MP3 se encuentra en el códec perceptivo MUSICAM, basado en un banco de filtros de aritmética entera de 32 sub-bandas, dirigido por un modelo psicoacústico. Fue diseñado principalmente para la radiodifusión de audio digital (radio digital) y la televisión digital, y sus principios básicos fueron revelados a la comunidad científica por el CCETT (Francia) y el IRT (Alemania) en Atlanta durante una conferencia del IEEE-ICASSP en 1991, después de haber trabajado en MUSICAM con Matsushita y Philips desde 1989.
Este códec incorporado a un sistema de radiodifusión que utiliza modulación COFDM fue demostrado en el aire y en el campo con Radio Canadá y CRC Canadá durante la feria NAB (Las Vegas) en 1991. La implementación de la parte de audio de este sistema de radiodifusión se basó en un codificador de dos chips (uno para la transformada de subbanda y otro para el modelo psicoacústico diseñado por el equipo de G. Stoll (IRT, Alemania), posteriormente conocido como modelo psicoacústico I) y un decodificador en tiempo real que utiliza un chip DSP Motorola 56001 que ejecuta un software de aritmética entera diseñado por el equipo de Y.F. Dehery (CCETT, Francia). La simplicidad del decodificador correspondiente junto con la alta calidad de audio de este códec que utilizaba por primera vez una frecuencia de muestreo de 48 kHz, un formato de entrada de 20 bits/muestra (el estándar de muestreo más alto disponible en 1991, compatible con el estándar de estudio de entrada digital profesional AES/EBU) fueron las principales razones para adoptar posteriormente las características de MUSICAM como características básicas para un códec de compresión musical digital avanzado.
Durante el desarrollo del software de codificación MUSICAM, el equipo de Stoll y Dehery hizo un uso exhaustivo de un conjunto de material de evaluación de audio de alta calidad seleccionado por un grupo de profesionales de audio de la Unión Europea de Radiodifusión y utilizado posteriormente como referencia para la evaluación de códecs de compresión musical. La técnica de codificación en subbanda resultó eficaz, no sólo para la codificación perceptiva de los materiales sonoros de alta calidad, sino especialmente para la codificación de materiales sonoros percusivos críticos (batería, triángulo,…), debido al efecto específico de enmascaramiento temporal del banco de filtros de sub-bandas de MUSICAM (siendo esta ventaja una característica específica de las técnicas de codificación por transformadas cortas).
Como estudiante de doctorado en la Universidad alemana de Erlangen-Nuremberg, Karlheinz Brandenburg comenzó a trabajar en la compresión de música digital a principios de la década de 1980, centrándose en cómo las personas perciben la música. Terminó su trabajo de doctorado en 1989. El MP3 desciende directamente de OCF y PXFM, y representa el resultado de la colaboración de Brandenburg -que trabajaba como investigador postdoctoral en AT&T-Bell Labs con James D. Johnston («JJ») de AT&T-Bell Labs- con el Instituto Fraunhofer de Circuitos Integrados de Erlangen (donde trabajó con Bernhard Grill y otros cuatro investigadores – «Los Seis Originales»), con contribuciones relativamente menores de la rama MP2 de codificadores psicoacústicos de subbanda. En 1990, Brandenburg se convirtió en profesor asistente en Erlangen-Nuremberg. Allí siguió trabajando en la compresión musical con científicos del Instituto Heinrich Herz de la Sociedad Fraunhofer (en 1993 se incorporó a la plantilla del Fraunhofer HHI). La canción «Tom’s Diner» de Suzanne Vega fue la primera que utilizó Karlheinz Brandenburg para desarrollar el MP3. Brandenburg adoptó la canción para probarla, escuchándola una y otra vez y refinando el esquema, asegurándose de que no afectaba negativamente a la sutileza de la voz de Vega.
EstandarizaciónEdit
En 1991 había dos propuestas disponibles que se evaluaron para un estándar de audio MPEG: MUSICAM (Masking pattern adapted Universal Subband Integrated Coding And Multiplexing) y ASPEC (Adaptive Spectral Perceptual Entropy Coding). La técnica MUSICAM, propuesta por Philips (Países Bajos), CCETT (Francia), el Instituto de Tecnología de la Radiodifusión (Alemania) y Matsushita (Japón), fue elegida por su sencillez y robustez frente a los errores, así como por su alto nivel de eficiencia computacional. El formato MUSICAM, basado en la codificación por sub-bandas, se convirtió en la base del formato de compresión de audio MPEG, incorporando, por ejemplo, su estructura de tramas, formato de cabecera, frecuencias de muestreo, etc.
Aunque gran parte de la tecnología y las ideas de MUSICAM se incorporaron a la definición de la Capa I y la Capa II de audio MPEG, el banco de filtros por sí solo y la estructura de datos basada en el encuadre de 1152 muestras (formato de archivo y flujo orientado a los bytes) de MUSICAM permanecieron en el formato de la Capa III (MP3), como parte del banco de filtros híbrido computacionalmente ineficiente. Bajo la presidencia del profesor Musmann, de la Universidad Leibniz de Hannover, la redacción de la norma se delegó en Leon van de Kerkhof (Países Bajos), Gerhard Stoll (Alemania) e Yves-François Dehery (Francia), que trabajaron en las Capas I y II. ASPEC fue la propuesta conjunta de AT&T Bell Laboratories, Thomson Consumer Electronics, Fraunhofer Society y CNET. Proporcionaba la mayor eficiencia de codificación.
Un grupo de trabajo formado por van de Kerkhof, Stoll, Leonardo Chiariglione (vicepresidente del CSELT para medios de comunicación), Yves-François Dehery, Karlheinz Brandenburg (Alemania) y James D. Johnston (Estados Unidos) tomaron ideas de ASPEC, integraron el banco de filtros de la Capa II, añadieron algunas ideas propias, como la codificación estéreo conjunta de MUSICAM, y crearon el formato MP3, diseñado para conseguir la misma calidad a 128 kbit/s que MP2 a 192 kbit/s.
Los algoritmos de MPEG-1 Audio Layer I, II y III se aprobaron en 1991 y se finalizaron en 1992 como parte de MPEG-1, el primer conjunto de normas de MPEG, que dio lugar a la norma internacional ISO/IEC 11172-3 (también conocida como MPEG-1 Audio o MPEG-1 Parte 3), publicada en 1993. Los archivos o flujos de datos que se ajustan a esta norma deben manejar frecuencias de muestreo de 48k, 44100 y 32k y siguen siendo compatibles con los reproductores y decodificadores MP3 actuales. Así, la primera generación de MP3 definió 14 × 3 = 42 interpretaciones de estructuras de datos de tramas de MP3 y disposiciones de tamaño.
El trabajo posterior sobre el audio MPEG finalizó en 1994 como parte del segundo conjunto de normas MPEG, MPEG-2, más formalmente conocido como norma internacional ISO/IEC 13818-3 (también conocida como MPEG-2 Parte 3 o MPEG-2 Audio compatible con versiones anteriores o MPEG-2 Audio BC), publicada originalmente en 1995. MPEG-2 Parte 3 (ISO/IEC 13818-3) definió 42 tasas de bits y frecuencias de muestreo adicionales para MPEG-1 Audio Layer I, II y III. Las nuevas frecuencias de muestreo son exactamente la mitad de las definidas originalmente en MPEG-1 Audio. Esta reducción de la frecuencia de muestreo sirve para reducir la fidelidad de la frecuencia disponible a la mitad y, al mismo tiempo, recortar el bitrate en un 50%.MPEG-2 Parte 3 también mejoró el audio de MPEG-1 al permitir la codificación de programas de audio con más de dos canales, hasta 5.1 multicanal. Un MP3 codificado con MPEG-2 da como resultado la mitad de la reproducción del ancho de banda de MPEG-1 apropiado para el piano y el canto.
Una tercera generación de flujos de datos (archivos) de estilo «MP3» amplió las ideas y la implementación de MPEG-2, pero se denominó MPEG-2.5 audio, ya que MPEG-3 ya tenía un significado diferente. Esta extensión se desarrolló en el Fraunhofer IIS, los titulares de la patente registrada de MP3, reduciendo el campo de sincronización de trama en la cabecera de MP3 de 12 a 11 bits. Al igual que en la transición de MPEG-1 a MPEG-2, MPEG-2.5 añade frecuencias de muestreo adicionales, exactamente la mitad de las disponibles con MPEG-2. De este modo, amplía el alcance del MP3 para incluir el habla humana y otras aplicaciones, pero sólo requiere el 25% del ancho de banda (reproducción de frecuencias) posible con las frecuencias de muestreo del MPEG-1. Aunque no es una norma reconocida por la ISO, MPEG-2.5 es ampliamente compatible con los reproductores de audio digitales chinos y de marca, así como con los codificadores (LAME), decodificadores (FFmpeg) y reproductores (MPC) de MP3 basados en software informático, que añaden 3 × 8 = 24 tipos de fotogramas adicionales de MP3. Así, cada generación de MP3 admite 3 frecuencias de muestreo, exactamente la mitad que la generación anterior, para un total de 9 variedades de archivos en formato MP3. La tabla de comparación de frecuencias de muestreo entre MPEG-1, 2 y 2.5 aparece más adelante en el artículo. MPEG-2.5 es compatible con LAME (desde el año 2000), Media Player Classic (MPC), iTunes y FFmpeg.
MPEG-2.5 no fue desarrollado por MPEG (véase más arriba) y nunca fue aprobado como norma internacional. Por lo tanto, MPEG-2.5 es una extensión no oficial o propietaria del formato MP3. No obstante, es omnipresente y especialmente ventajoso para las aplicaciones de voz humana de baja tasa de bits.
Versión | Estándar internacional | Fecha de publicación de la primera edición | Fecha de publicación de la última edición | MPEG-1 Audio Layer III | ISO/IEC 11172-3 (MPEG-1 Part 3) | 1993 |
---|---|---|---|
MPEG-2 Audio Layer III | ISO/IEC 13818-3 (MPEG-2 Part 3) | 1995 | 1998 |
MPEG-2.5 Audio Layer III | no estándar, propietario | 2000 | 2008 |
- La norma ISO/IEC 11172-3 (también conocida como MPEG-1 Audio) definía tres formatos: el MPEG-1 Audio Layer I, Layer II y Layer III. La norma ISO/IEC 13818-3 (también conocida como MPEG-2 Audio) definió una versión ampliada de MPEG-1 Audio: MPEG-2 Audio Layer I, Layer II y Layer III. El audio MPEG-2 (MPEG-2 Parte 3) no debe confundirse con MPEG-2 AAC (MPEG-2 Parte 7 – ISO/IEC 13818-7).
La eficiencia de compresión de los codificadores se define normalmente por la tasa de bits, ya que la relación de compresión depende de la profundidad de bits y de la tasa de muestreo de la señal de entrada. No obstante, las relaciones de compresión suelen publicarse. Pueden utilizar como referencia los parámetros del Compact Disc (CD) (44,1 kHz, 2 canales a 16 bits por canal o 2×16 bits), o a veces los parámetros del Digital Audio Tape (DAT) SP (48 kHz, 2×16 bits). Los ratios de compresión con esta última referencia son más altos, lo que demuestra el problema del uso del término ratio de compresión para los codificadores con pérdidas.
Karlheinz Brandenburg utilizó una grabación en CD de la canción «Tom’s Diner» de Suzanne Vega para evaluar y perfeccionar el algoritmo de compresión MP3. Se eligió esta canción por su naturaleza casi monofónica y su amplio contenido espectral, lo que facilita la percepción de las imperfecciones del formato de compresión durante las reproducciones. Algunos se refieren a Suzanne Vega como «la madre del MP3». Esta pista en particular tiene una propiedad interesante, ya que los dos canales son casi, pero no completamente, iguales, lo que lleva a un caso en el que la Depresión del Nivel de Enmascaramiento Binaural provoca el desenmascaramiento espacial de los artefactos de ruido, a menos que el codificador reconozca adecuadamente la situación y aplique correcciones similares a las detalladas en el modelo psicoacústico MPEG-2 AAC. Algunos extractos de audio más críticos (glockenspiel, triángulo, acordeón, etc.) se tomaron del disco compacto de referencia EBU V3/SQAM y han sido utilizados por ingenieros de sonido profesionales para evaluar la calidad subjetiva de los formatos MPEG Audio. LAME es el codificador de MP3 más avanzado. LAME incluye una codificación de tasa de bits variable VBR que utiliza un parámetro de calidad en lugar de un objetivo de tasa de bits. Las versiones posteriores (2008+) admiten un objetivo de calidad n.nnn que selecciona automáticamente las tasas de muestreo de MPEG-2 o MPEG-2.5 según convenga para las grabaciones de habla humana que sólo necesitan una resolución de ancho de banda de 5512 Hz.
PublicEdit
Una implementación de software de simulación de referencia, escrita en el lenguaje C y conocida posteriormente como ISO 11172-5, fue desarrollada (en 1991-1996) por los miembros del comité de audio MPEG de la ISO con el fin de producir archivos de audio MPEG compatibles con los bits (capa 1, capa 2, capa 3). Se aprobó como proyecto de informe técnico del comité ISO/IEC en marzo de 1994 y se imprimió como documento CD 11172-5 en abril de 1994. Se aprobó como proyecto de informe técnico (DTR/DIS) en noviembre de 1994, se finalizó en 1996 y se publicó como norma internacional ISO/IEC TR 11172-5:1998 en 1998. El software de referencia en lenguaje C se publicó posteriormente como norma ISO de libre acceso. Funcionando en tiempo no real en varios sistemas operativos, fue capaz de demostrar la primera decodificación por hardware en tiempo real (basada en DSP) de audio comprimido. Algunas otras implementaciones en tiempo real de los codificadores y decodificadores de MPEG Audio estaban disponibles para el propósito de la radiodifusión digital (radio DAB, televisión DVB) hacia los receptores de consumo y decodificadores.
El 7 de julio de 1994, la Sociedad Fraunhofer lanzó el primer codificador de MP3 de software, llamado l3enc. La extensión de nombre de archivo .mp3 fue elegida por el equipo de Fraunhofer el 14 de julio de 1995 (anteriormente, los archivos se denominaban .bit). Con el primer reproductor de MP3 por software en tiempo real, WinPlay3 (lanzado el 9 de septiembre de 1995), muchas personas pudieron codificar y reproducir archivos MP3 en sus PC. Debido a los discos duros relativamente pequeños de la época (≈500-1000 MB), la compresión con pérdidas era esencial para almacenar música de varios álbumes en un ordenador doméstico como grabaciones completas (a diferencia de la notación MIDI, o los archivos de seguimiento que combinaban la notación con grabaciones cortas de instrumentos que tocaban notas individuales). Como señala el experto en sonido Jonathan Sterne, «un hacker australiano adquirió l3enc utilizando una tarjeta de crédito robada. A continuación, el hacker realizó ingeniería inversa del software, escribió una nueva interfaz de usuario y lo redistribuyó gratuitamente, con el nombre de «gracias Fraunhofer»».
Ejemplo de implementación FraunhoferEditar
Un hacker llamado SoloH descubrió el código fuente de la implementación de referencia MPEG «dist10» poco después de su publicación en los servidores de la Universidad de Erlangen. Desarrolló una versión de mayor calidad y la difundió en Internet. Este código dio comienzo a la reproducción generalizada de CDs y a la distribución de música digital como MP3 a través de Internet.
Distribución por InternetEditar
En la segunda mitad de la década de 1990, los archivos MP3 comenzaron a difundirse por Internet, a menudo a través de redes clandestinas de canciones piratas. El primer experimento conocido de distribución por Internet fue organizado a principios de los años 90 por el Internet Underground Music Archive, más conocido por las siglas IUMA. Después de algunos experimentos utilizando archivos de audio sin comprimir, este archivo empezó a distribuir en la Internet nativa mundial de baja velocidad algunos archivos de audio MPEG comprimidos utilizando el formato MP2 (Layer II) y más tarde utilizó archivos MP3 cuando el estándar se completó. La popularidad de los MP3 comenzó a aumentar rápidamente con la llegada del reproductor de audio Winamp de Nullsoft, lanzado en 1997. En 1998, salió a la venta el primer reproductor de audio digital portátil de estado sólido MPMan, desarrollado por SaeHan Information Systems, con sede en Seúl (Corea del Sur), y posteriormente el Rio PMP300, a pesar de los esfuerzos de supresión legal por parte de la RIAA.
En noviembre de 1997, el sitio web mp3.com ofrecía gratuitamente miles de MP3 creados por artistas independientes. El pequeño tamaño de los archivos MP3 permitió el intercambio generalizado de archivos peer-to-peer de música copiada de CDs, lo que antes habría sido casi imposible. La primera gran red de intercambio de archivos entre pares, Napster, se lanzó en 1999. La facilidad para crear y compartir archivos MP3 dio lugar a la infracción generalizada de los derechos de autor. Las grandes compañías discográficas argumentaron que este intercambio gratuito de música reducía las ventas y lo llamaron «piratería musical». Reaccionaron interponiendo demandas contra Napster (que acabó cerrándose y vendiéndose) y contra los usuarios individuales que se dedicaban a compartir archivos.
El intercambio no autorizado de archivos MP3 continúa en las redes peer-to-peer de nueva generación. Algunos servicios autorizados, como Beatport, Bleep, Juno Records, eMusic, Zune Marketplace, Walmart.com, Rhapsody, la reencarnación de Napster aprobada por la industria discográfica, y Amazon.com venden música sin restricciones en el formato MP3.