Mise en contexte
L’algorithme de compression de données audio avec perte MP3 tire parti d’une limitation perceptive de l’audition humaine appelée masquage auditif. En 1894, le physicien américain Alfred M. Mayer a rapporté qu’un ton pouvait être rendu inaudible par un autre ton de plus basse fréquence. En 1959, Richard Ehmer a décrit un ensemble complet de courbes auditives concernant ce phénomène. Entre 1967 et 1974, Eberhard Zwicker a effectué des travaux dans les domaines de l’accord et du masquage des bandes de fréquences critiques, qui s’appuyaient à leur tour sur les recherches fondamentales menées dans ce domaine par Harvey Fletcher et ses collaborateurs aux Bell Labs.
Le codage perceptif a été utilisé pour la première fois pour la compression du codage de la parole avec le codage prédictif linéaire (LPC), qui trouve son origine dans les travaux de Fumitada Itakura (Université de Nagoya) et Shuzo Saito (Nippon Telegraph and Telephone) en 1966. En 1978, Bishnu S. Atal et Manfred R. Schroeder des Bell Labs ont proposé un codec vocal LPC, appelé codage prédictif adaptatif, qui utilisait un algorithme de codage psychoacoustique exploitant les propriétés de masquage de l’oreille humaine. Une optimisation supplémentaire par Schroeder et Atal avec J.L. Hall a été rapportée plus tard dans un article de 1979. La même année, un codec de masquage psychoacoustique a également été proposé par M. A. Krasner, qui a publié et produit du matériel pour la parole (non utilisable comme compression de bits musicaux), mais la publication de ses résultats dans un rapport technique relativement obscur du Lincoln Laboratory n’a pas immédiatement influencé le courant dominant du développement de codecs psychoacoustiques.
La transformée en cosinus discrète (DCT), un type de codage par transformation pour la compression avec perte, proposée par Nasir Ahmed en 1972, a été développée par Ahmed avec T. Natarajan et K. R. Rao en 1973 ; ils ont publié leurs résultats en 1974. Cela a conduit au développement de la transformée en cosinus discrète modifiée (MDCT), proposée par J. P. Princen, A. W. Johnson et A. B. Bradley en 1987, suite aux travaux antérieurs de Princen et Bradley en 1986. La MDCT est devenue par la suite un élément central de l’algorithme MP3.
Ernst Terhardt et al. ont construit un algorithme décrivant le masquage auditif avec une grande précision en 1982. Ce travail s’est ajouté à une variété de rapports d’auteurs remontant à Fletcher, et aux travaux qui ont initialement déterminé les ratios critiques et les largeurs de bande critiques.
En 1985, Atal et Schroeder ont présenté la prédiction linéaire excitée par code (CELP), un algorithme de codage perceptif de la parole basé sur le LPC avec masquage auditif qui a atteint un taux de compression des données significatif pour son époque. En 1988, le journal à comité de lecture de l’IEEE, Journal on Selected Areas in Communications, a présenté une grande variété d’algorithmes de compression audio (principalement perceptuels). L’édition « Voice Coding for Communications » publiée en février 1988 faisait état d’un large éventail de technologies de compression de bits audio établies et fonctionnelles, certaines d’entre elles utilisant le masquage auditif dans le cadre de leur conception fondamentale, et plusieurs montrant des implémentations matérielles en temps réel.
DéveloppementEdit
La genèse de la technologie MP3 est entièrement décrite dans un article du professeur Hans Musmann, qui a présidé le groupe ISO MPEG Audio pendant plusieurs années. En décembre 1988, le MPEG a demandé une norme de codage audio. En juin 1989, 14 algorithmes de codage audio ont été soumis. En raison de certaines similitudes entre ces propositions de codage, elles ont été regroupées en quatre groupes de développement. Le premier groupe était ASPEC, composé de Fraunhofer Gesellschaft, AT&T, France Telecom, Deutsche et Thomson-Brandt. Le deuxième groupe était MUSICAM, de Matsushita, CCETT, ITT et Philips. Le troisième groupe était ATAC, de Fujitsu, JVC, NEC et Sony. Et le quatrième groupe était SB-ADPCM, par NTT et BTRL.
Les prédécesseurs immédiats du MP3 étaient le « codage optimal dans le domaine fréquentiel » (OCF), et le codage par transformation perceptive (PXFM). Ces deux codecs, ainsi que les contributions de Thomson-Brandt en matière de commutation de blocs, ont été fusionnés dans un codec appelé ASPEC, qui a été soumis à MPEG, et qui a remporté le concours de qualité, mais qui a été rejeté par erreur car trop complexe à mettre en œuvre. La première implémentation pratique d’un codeur perceptuel audio (OCF) en matériel (le matériel de Krasner était trop encombrant et lent pour une utilisation pratique), était une implémentation d’un codeur par transformation psychoacoustique basé sur des puces DSP Motorola 56000.
Un autre prédécesseur du format et de la technologie MP3 se trouve dans le codec perceptuel MUSICAM basé sur un banc de filtres 32 sous-bandes à arithmétique entière, piloté par un modèle psychoacoustique. Il a été principalement conçu pour la Digital Audio Broadcasting (radio numérique) et la télévision numérique, et ses principes de base ont été divulgués à la communauté scientifique par le CCETT (France) et l’IRT (Allemagne) à Atlanta lors d’une conférence IEEE-ICASSP en 1991, après avoir travaillé sur MUSICAM avec Matsushita et Philips depuis 1989.
Ce codec incorporé dans un système de radiodiffusion utilisant la modulation COFDM a fait l’objet d’une démonstration sur les ondes et sur le terrain avec Radio Canada et CRC Canada lors du NAB show (Las Vegas) en 1991. La mise en oeuvre de la partie audio de ce système de radiodiffusion était basée sur un codeur à deux puces (une pour la transformation en sous-bande, une pour le modèle psychoacoustique conçu par l’équipe de G. Stoll (IRT Allemagne), plus tard connu sous le nom de modèle psychoacoustique I) et un décodeur en temps réel utilisant une puce DSP Motorola 56001 exécutant un logiciel d’arithmétique entière conçu par l’équipe de Y.F. Dehery (CCETT, France). La simplicité du décodeur correspondant ainsi que la haute qualité audio de ce codec utilisant pour la première fois une fréquence d’échantillonnage de 48 kHz, un format d’entrée de 20 bits/échantillon (la plus haute norme d’échantillonnage disponible en 1991, compatible avec la norme professionnelle AES/EBU pour les studios d’entrée numérique) ont été les principales raisons pour adopter plus tard les caractéristiques de MUSICAM comme caractéristiques de base pour un codec de compression musicale numérique avancé.
Pendant le développement du logiciel de codage MUSICAM, l’équipe de Stoll et Dehery a fait un usage approfondi d’un ensemble de matériel d’évaluation audio de haute qualité sélectionné par un groupe de professionnels de l’audio de l’Union européenne de radiodiffusion et utilisé ultérieurement comme référence pour l’évaluation des codecs de compression musicale. La technique de codage en sous-bandes s’est avérée efficace, non seulement pour le codage perceptif des matériaux sonores de haute qualité, mais surtout pour le codage des matériaux sonores percussifs critiques (tambours, triangle,…), en raison de l’effet de masquage temporel spécifique de la banque de filtres à sous-bandes MUSICAM (cet avantage étant une caractéristique spécifique des techniques de codage par transformation courte).
En tant que doctorant à l’université allemande d’Erlangen-Nuremberg, Karlheinz Brandenburg a commencé à travailler sur la compression de la musique numérique au début des années 1980, en se concentrant sur la façon dont les gens perçoivent la musique. Il a terminé son travail de doctorat en 1989. Le MP3 est directement issu de l’OCF et du PXFM, représentant le résultat de la collaboration de Brandenburg – travaillant comme chercheur postdoctoral à AT&T-Bell Labs avec James D. Johnston (« JJ ») d’AT&T-Bell Labs – avec le Fraunhofer Institute for Integrated Circuits, Erlangen (où il a travaillé avec Bernhard Grill et quatre autres chercheurs – « The Original Six »), avec des contributions relativement mineures de la branche MP2 des codeurs de sous-bandes psychoacoustiques. En 1990, M. Brandenburg est devenu professeur adjoint à Erlangen-Nuremberg. Pendant cette période, il a continué à travailler sur la compression musicale avec des scientifiques de l’Institut Heinrich Herz de la société Fraunhofer (en 1993, il a rejoint le personnel du Fraunhofer HHI). La chanson « Tom’s Diner » de Suzanne Vega est la première chanson utilisée par Karlheinz Brandenburg pour développer le MP3. Brandenburg a adopté la chanson à des fins de test, l’écoutant encore et encore en affinant à chaque fois le schéma, s’assurant qu’il ne nuisait pas à la subtilité de la voix de Vega.
NormalisationEdit
En 1991, deux propositions disponibles ont été évaluées pour une norme audio MPEG : MUSICAM (Masking pattern adapted Universal Subband Integrated Coding And Multiplexing) et ASPEC (Adaptive Spectral Perceptual Entropy Coding). La technique MUSICAM, proposée par Philips (Pays-Bas), le CCETT (France), l’Institute for Broadcast Technology (Allemagne) et Matsushita (Japon), a été choisie en raison de sa simplicité et de sa résistance aux erreurs, ainsi que de sa grande efficacité de calcul. Le format MUSICAM, basé sur le codage en sous-bandes, est devenu la base du format de compression MPEG Audio, incorporant, par exemple, sa structure de trame, son format d’en-tête, ses taux d’échantillonnage, etc.
Bien qu’une grande partie de la technologie et des idées de MUSICAM ait été incorporée dans la définition des couches I et II de MPEG Audio, la banque de filtres seule et la structure de données basée sur un cadrage de 1152 échantillons (format de fichier et flux orienté octet) de MUSICAM sont restées dans le format de la couche III (MP3), en tant que partie de la banque de filtres hybride inefficace sur le plan informatique. Sous la présidence du professeur Musmann de l’université Leibniz de Hanovre, la rédaction de la norme a été déléguée à Leon van de Kerkhof (Pays-Bas), Gerhard Stoll (Allemagne) et Yves-François Dehery (France), qui ont travaillé sur les couches I et II. L’ASPEC était la proposition conjointe de AT&T Bell Laboratories, Thomson Consumer Electronics, la société Fraunhofer et CNET. Elle offrait la plus grande efficacité de codage.
Un groupe de travail composé de van de Kerkhof, Stoll, Leonardo Chiariglione (CSELT VP pour les médias), Yves-François Dehery, Karlheinz Brandenburg (Allemagne) et James D. Johnston (États-Unis) ont repris les idées de l’ASPEC, intégré la banque de filtres de la couche II, ajouté certaines de leurs propres idées comme le codage stéréo conjoint de MUSICAM et créé le format MP3, conçu pour obtenir la même qualité à 128 kbit/s que MP2 à 192 kbit/s.
Les algorithmes des couches I, II et III du MPEG-1 Audio ont été approuvés en 1991 et finalisés en 1992 dans le cadre du MPEG-1, la première suite de normes du MPEG, qui a donné lieu à la norme internationale ISO/IEC 11172-3 (alias MPEG-1 Audio ou MPEG-1 Partie 3), publiée en 1993. Les fichiers ou flux de données conformes à cette norme doivent gérer des fréquences d’échantillonnage de 48k, 44100 et 32k et sont toujours pris en charge par les lecteurs et décodeurs MP3 actuels. Ainsi, la première génération de MP3 a défini 14 × 3 = 42 interprétations de structures de données de trames MP3 et de dispositions de taille.
Les travaux ultérieurs sur l’audio MPEG ont été finalisés en 1994 dans le cadre de la deuxième suite de normes MPEG, MPEG-2, plus officiellement connue sous le nom de norme internationale ISO/IEC 13818-3 (alias MPEG-2 Partie 3 ou MPEG-2 Audio rétrocompatible ou MPEG-2 Audio BC), initialement publiée en 1995. Le MPEG-2 Partie 3 (ISO/IEC 13818-3) a défini 42 débits binaires et taux d’échantillonnage supplémentaires pour les couches I, II et III du MPEG-1 Audio. Les nouveaux taux d’échantillonnage sont exactement la moitié de ceux définis à l’origine dans le MPEG-1 Audio. Cette réduction de la fréquence d’échantillonnage permet de diviser par deux la fidélité des fréquences disponibles tout en réduisant le débit binaire de 50 %. La partie 3 du MPEG-2 a également amélioré l’audio du MPEG-1 en permettant le codage de programmes audio avec plus de deux canaux, jusqu’au multicanal 5.1. Un MP3 codé avec MPEG-2 résulte en une reproduction de la moitié de la bande passante de MPEG-1 appropriée pour le piano et le chant.
Une troisième génération de flux de données (fichiers) de style « MP3 » a étendu les idées et la mise en œuvre de MPEG-2 mais a été nommée MPEG-2.5 audio, puisque MPEG-3 avait déjà une signification différente. Cette extension a été développée par Fraunhofer IIS, les détenteurs du brevet déposé du MP3, en réduisant le champ de synchronisation de trame dans l’en-tête MP3 de 12 à 11 bits. Comme lors de la transition du MPEG-1 au MPEG-2, le MPEG-2.5 ajoute des taux d’échantillonnage supplémentaires correspondant exactement à la moitié de ceux disponibles avec le MPEG-2. Il élargit donc le champ d’application du MP3 pour inclure la parole humaine et d’autres applications, tout en ne nécessitant que 25 % de la largeur de bande (reproduction de la fréquence) possible avec les taux d’échantillonnage du MPEG-1. Bien qu’il ne s’agisse pas d’une norme reconnue par l’ISO, le MPEG-2.5 est largement pris en charge par les lecteurs audio numériques bon marché chinois et de marque, ainsi que par les encodeurs (LAME), décodeurs (FFmpeg) et lecteurs (MPC) MP3 basés sur des logiciels informatiques, qui ajoutent 3 × 8 = 24 types de trames MP3 supplémentaires. Chaque génération de MP3 prend donc en charge 3 taux d’échantillonnage, soit exactement la moitié de ceux de la génération précédente, pour un total de 9 variétés de fichiers au format MP3. Le tableau de comparaison des fréquences d’échantillonnage entre MPEG-1, 2 et 2.5 est donné plus loin dans l’article. Le MPEG-2.5 est pris en charge par LAME (depuis 2000), Media Player Classic (MPC), iTunes et FFmpeg.
Le MPEG-2.5 n’a pas été développé par MPEG (voir ci-dessus) et n’a jamais été approuvé comme norme internationale. Le MPEG-2.5 est donc une extension non officielle ou propriétaire du format MP3. Il est néanmoins omniprésent et particulièrement avantageux pour les applications de parole humaine à faible débit binaire.
Version | Norme internationale | Date de publication de la première édition | Date de publication de la dernière édition |
---|---|---|---|
MPEG-1 Audio Layer III | ISO/IEC 11172-3 (MPEG-1 Partie 3) | 1993 | |
MPEG-2 Audio Layer III | ISO/IEC 13818-3 (MPEG-2 Partie 3) | 1995 | 1998 |
MPEG-2.5 Audio Layer III | non standard, propriétaire | 2000 | 2008 |
- La norme ISO/IEC 11172-3 (alias MPEG-1 Audio) a défini trois formats : la couche I, la couche II et la couche III du MPEG-1 Audio. La norme ISO/IEC 13818-3 (alias MPEG-2 Audio) définit une version étendue du MPEG-1 Audio : MPEG-2 Audio Layer I, Layer II et Layer III. Le MPEG-2 Audio (MPEG-2 partie 3) ne doit pas être confondu avec le MPEG-2 AAC (MPEG-2 partie 7 – ISO/CEI 13818-7).
L’efficacité de compression des codeurs est généralement définie par le débit binaire, car le taux de compression dépend de la profondeur binaire et du taux d’échantillonnage du signal d’entrée. Néanmoins, les taux de compression sont souvent publiés. Ils peuvent utiliser les paramètres du disque compact (CD) comme références (44,1 kHz, 2 canaux à 16 bits par canal ou 2×16 bits), ou parfois les paramètres de la bande audio numérique (DAT) SP (48 kHz, 2×16 bits). Les taux de compression avec cette dernière référence sont plus élevés, ce qui démontre le problème de l’utilisation du terme taux de compression pour les codeurs avec perte.
Karlheinz Brandenburg a utilisé un enregistrement CD de la chanson « Tom’s Diner » de Suzanne Vega pour évaluer et affiner l’algorithme de compression MP3. Cette chanson a été choisie en raison de sa nature presque monophonique et de son large contenu spectral, ce qui permet d’entendre plus facilement les imperfections du format de compression lors des lectures. Certains considèrent Suzanne Vega comme « la mère du MP3 ». Cette piste particulière a une propriété intéressante dans la mesure où les deux canaux sont presque, mais pas complètement, identiques, ce qui conduit à un cas où la dépression du niveau de masquage binaurale entraîne un démasquage spatial des artefacts sonores, à moins que l’encodeur ne reconnaisse correctement la situation et n’applique des corrections similaires à celles détaillées dans le modèle psychoacoustique MPEG-2 AAC. Certains extraits audio plus critiques (glockenspiel, triangle, accordéon, etc.) ont été extraits du disque compact de référence V3/SQAM de l’UER et ont été utilisés par des ingénieurs du son professionnels pour évaluer la qualité subjective des formats MPEG Audio. LAME est l’encodeur MP3 le plus avancé. LAME inclut un encodage à débit variable VBR qui utilise un paramètre de qualité plutôt qu’un objectif de débit. Les versions ultérieures 2008+) prennent en charge un objectif de qualité n.nnn qui sélectionne automatiquement les taux d’échantillonnage MPEG-2 ou MPEG-2.5 comme appropriés pour les enregistrements de la parole humaine qui n’ont besoin que d’une résolution de bande passante de 5512 Hz.
Voir PublicEdit
Une implémentation logicielle de simulation de référence, écrite en langage C et connue plus tard sous le nom de ISO 11172-5, a été développée (en 1991-1996) par les membres du comité ISO MPEG Audio afin de produire des fichiers MPEG Audio conformes au bit (couche 1, couche 2, couche 3). Il a été approuvé comme projet de comité du rapport technique ISO/IEC en mars 1994 et imprimé comme document CD 11172-5 en avril 1994. Il a été approuvé comme projet de rapport technique (DTR/DIS) en novembre 1994, finalisé en 1996 et publié comme norme internationale ISO/IEC TR 11172-5:1998 en 1998. Le logiciel de référence en langage C a été publié ultérieurement en tant que norme ISO librement disponible. Fonctionnant en temps non réel sur un certain nombre de systèmes d’exploitation, il a pu démontrer le premier décodage matériel en temps réel (basé sur un DSP) de l’audio compressé. Quelques autres implémentations en temps réel d’encodeurs et de décodeurs MPEG Audio étaient disponibles pour les besoins de la diffusion numérique (radio DAB, télévision DVB) vers les récepteurs grand public et les décodeurs.
Le 7 juillet 1994, la société Fraunhofer a publié le premier encodeur MP3 logiciel, appelé l3enc. L’extension de nom de fichier .mp3 a été choisie par l’équipe Fraunhofer le 14 juillet 1995 (auparavant, les fichiers étaient nommés .bit). Avec le premier lecteur MP3 logiciel en temps réel WinPlay3 (sorti le 9 septembre 1995), de nombreuses personnes ont pu encoder et lire des fichiers MP3 sur leur PC. En raison des disques durs relativement petits de l’époque (≈500-1000 Mo), la compression avec perte était essentielle pour stocker plusieurs albums de musique sur un ordinateur personnel sous forme d’enregistrements complets (par opposition à la notation MIDI, ou aux fichiers tracker qui combinaient la notation avec de courts enregistrements d’instruments jouant des notes uniques). Comme le note Jonathan Sterne, spécialiste du son, « un pirate australien a acquis l3enc en utilisant une carte de crédit volée. Le hacker a ensuite procédé à une rétro-ingénierie du logiciel, a écrit une nouvelle interface utilisateur et l’a redistribué gratuitement, en le nommant « merci Fraunhofer » ».
Implémentation d’exemple FraunhoferEdit
Un hacker nommé SoloH a découvert le code source de l’implémentation de référence MPEG « dist10 » peu après sa diffusion sur les serveurs de l’université d’Erlangen. Il a développé une version de meilleure qualité et l’a diffusée sur Internet. Ce code a amorcé la généralisation du rippage de CD et de la distribution de musique numérique sous forme de MP3 sur Internet.
Distribution sur InternetEdit
Dans la seconde moitié des années 1990, les fichiers MP3 ont commencé à se répandre sur Internet, souvent via des réseaux souterrains de chansons piratées. La première expérience connue de distribution sur Internet a été organisée au début des années 1990 par l’Internet Underground Music Archive, plus connu sous l’acronyme IUMA. Après quelques expériences utilisant des fichiers audio non compressés, cette archive a commencé à distribuer sur l’Internet natif mondial à faible débit des fichiers audio MPEG compressés utilisant le format MP2 (couche II) et, plus tard, des fichiers MP3 lorsque la norme a été complètement achevée. La popularité des MP3 a commencé à augmenter rapidement avec l’arrivée du lecteur audio Winamp de Nullsoft, sorti en 1997. En 1998, le premier lecteur audio numérique portable à semi-conducteurs MPMan, développé par SaeHan Information Systems dont le siège est à Séoul, en Corée du Sud, est sorti et le Rio PMP300 a été vendu ensuite en 1998, malgré les efforts de suppression légale de la RIAA.
En novembre 1997, le site web mp3.com proposait gratuitement des milliers de MP3 créés par des artistes indépendants. La petite taille des fichiers MP3 a permis de généraliser le partage de fichiers peer-to-peer de musique arrachée à partir de CD, ce qui aurait été presque impossible auparavant. Le premier grand réseau de partage de fichiers peer-to-peer, Napster, a été lancé en 1999. La facilité de création et de partage des MP3 a entraîné une violation généralisée des droits d’auteur. Les grandes maisons de disques ont fait valoir que ce partage gratuit de la musique réduisait les ventes et l’ont appelé « piratage de la musique ». Elles ont réagi en engageant des poursuites contre Napster (qui a finalement été fermé puis vendu) et contre les utilisateurs individuels qui se livraient au partage de fichiers.
Le partage non autorisé de fichiers MP3 se poursuit sur les réseaux peer-to-peer de nouvelle génération. Certains services autorisés, tels que Beatport, Bleep, Juno Records, eMusic, Zune Marketplace, Walmart.com, Rhapsody, la réincarnation de Napster approuvée par l’industrie du disque, et Amazon.com vendent de la musique au format MP3 sans restriction.
.