Achtergronden
Het MP3-compressiealgoritme voor verlieslatende audiogegevens maakt gebruik van een perceptuele beperking van het menselijk gehoor die auditieve maskering wordt genoemd. In 1894 meldde de Amerikaanse natuurkundige Alfred M. Mayer dat een toon onhoorbaar kon worden gemaakt door een andere toon met een lagere frequentie. In 1959 beschreef Richard Ehmer een volledige reeks auditieve curven met betrekking tot dit verschijnsel. Tussen 1967 en 1974 verrichtte Eberhard Zwicker werk op het gebied van afstemming en maskering van kritische frequentiebanden, dat op zijn beurt voortbouwde op het fundamentele onderzoek op dit gebied van Harvey Fletcher en zijn medewerkers bij Bell Labs.
Perceptuele codering werd voor het eerst gebruikt voor spraakcoderingscompressie met lineaire voorspellende codering (LPC), die zijn oorsprong vindt in het werk van Fumitada Itakura (Nagoya University) en Shuzo Saito (Nippon Telegraph and Telephone) in 1966. In 1978 stelden Bishnu S. Atal en Manfred R. Schroeder bij Bell Labs een LPC spraakcodec voor, adaptieve voorspellende codering genaamd, die gebruik maakte van een psychoakoestisch coderingsalgoritme dat de maskerende eigenschappen van het menselijk oor benutte. Verdere optimalisatie door Schröder en Atal met J.L. Hall werd later gerapporteerd in een artikel uit 1979. Datzelfde jaar werd ook een psychoakoestische maskerende codec voorgesteld door M. A. Krasner, die hardware voor spraak publiceerde en produceerde (niet bruikbaar als muziek bit-compressie), maar de publicatie van zijn resultaten in een relatief obscuur Lincoln Laboratory Technical Report had niet onmiddellijk invloed op de hoofdstroom van psychoakoestische codec-ontwikkeling.
De discrete cosinus transform (DCT), een type transform codering voor lossy compressie, voorgesteld door Nasir Ahmed in 1972, werd ontwikkeld door Ahmed met T. Natarajan en K. R. Rao in 1973; zij publiceerden hun resultaten in 1974. Dit leidde tot de ontwikkeling van de gemodificeerde discrete cosinus transform (MDCT), voorgesteld door J.P. Princen, A.W. Johnson en A.B. Bradley in 1987, na eerder werk van Princen en Bradley in 1986. De MDCT werd later een kernonderdeel van het MP3-algoritme.
Ernst Terhardt et al. construeerden in 1982 een algoritme dat auditieve maskering met grote nauwkeurigheid beschreef. Dit werk vormde een aanvulling op een reeks rapporten van auteurs die teruggingen tot Fletcher, en op het werk dat in eerste instantie kritieke verhoudingen en kritieke bandbreedtes vaststelde.
In 1985 presenteerden Atal en Schroeder code-excited linear prediction (CELP), een op LPC gebaseerd algoritme voor perceptuele spraakcodering met auditieve maskering dat voor die tijd een aanzienlijke gegevenscompressieratio bereikte. Het IEEE Journal on Selected Areas in Communications berichtte in 1988 over een grote verscheidenheid van (meestal perceptuele) audiocompressie-algoritmen. De in februari 1988 gepubliceerde uitgave “Voice Coding for Communications” berichtte over een breed scala van gevestigde, werkende audio bit compressietechnologieën, waarvan sommige auditieve maskering gebruiken als onderdeel van hun fundamentele ontwerp, en verschillende real time hardware implementaties laten zien.
DevelopmentEdit
De ontstaansgeschiedenis van de MP3-technologie wordt volledig beschreven in een document van Professor Hans Musmann, die enkele jaren voorzitter was van de ISO MPEG Audio groep. In december 1988 riep MPEG op tot een standaard voor audiocodering. In juni 1989 werden 14 audio-coderingsalgoritmen ingediend. Wegens bepaalde overeenkomsten tussen deze coderingsvoorstellen werden zij gegroepeerd in vier ontwikkelingsgroepen. De eerste groep was ASPEC, van Fraunhofer Gesellschaft, AT&T, France Telecom, Deutsche en Thomson-Brandt. De tweede groep was MUSICAM, van Matsushita, CCETT, ITT en Philips. De derde groep was ATAC, van Fujitsu, JVC, NEC en Sony. En de vierde groep was SB-ADPCM, van NTT en BTRL.
De onmiddellijke voorgangers van MP3 waren “Optimale codering in het frequentiedomein” (OCF), en Perceptual Transform Coding (PXFM). Deze twee codecs werden, samen met bijdragen van Thomson-Brandt op het gebied van block-switching, samengevoegd tot een codec genaamd ASPEC, die werd ingediend bij MPEG, en die de kwaliteitscompetitie won, maar die ten onrechte werd afgewezen omdat hij te complex was om te implementeren. De eerste praktische implementatie van een audio perceptuele codec (OCF) in hardware (Krasner’s hardware was te omslachtig en traag voor praktisch gebruik), was een implementatie van een psychoakoestische transform coder gebaseerd op Motorola 56000 DSP chips.
Een andere voorloper van het MP3 formaat en technologie is te vinden in de perceptuele codec MUSICAM gebaseerd op een integer aritmetics 32 sub-bands filterbank, aangestuurd door een psychoakoestisch model. Deze codec is in de eerste plaats ontworpen voor Digital Audio Broadcasting (digitale radio) en digitale TV, en de basisbeginselen ervan zijn aan de wetenschappelijke gemeenschap bekendgemaakt door CCETT (Frankrijk) en IRT (Duitsland) in Atlanta tijdens een IEEE-ICASSP-conferentie in 1991, nadat zij sinds 1989 met Matsushita en Philips aan MUSICAM hadden gewerkt.
Deze codec, ingebouwd in een omroepsysteem dat gebruik maakt van COFDM-modulatie, is in de ether en in het veld gedemonstreerd met Radio Canada en CRC Canada tijdens de NAB-show (Las Vegas) in 1991. De implementatie van het audiogedeelte van dit omroepsysteem was gebaseerd op een encoder met twee chips (een voor de subbandtransformatie, een voor het psychoakoestische model dat is ontworpen door het team van G. Stoll (IRT Duitsland), later bekend als psychoakoestisch model I) en een decoder in real time die gebruik maakte van een Motorola 56001 DSP-chip waarop een software voor integer-aritmetiek liep die was ontworpen door het team van Y.F. Dehery (CCETT, Frankrijk). De eenvoud van de bijbehorende decoder en de hoge audiokwaliteit van deze codec, die voor het eerst gebruik maakte van een bemonsteringsfrequentie van 48 kHz, een 20 bits/sample inputformaat (de hoogst beschikbare bemonsteringsstandaard in 1991, compatibel met de AES/EBU professionele digitale input studiostandaard), waren de belangrijkste redenen om later de kenmerken van MUSICAM over te nemen als de basiskenmerken voor een geavanceerde digitale muziekcompressiecodec.
Tijdens de ontwikkeling van de MUSICAM-coderingssoftware maakte het team van Stoll en Dehery grondig gebruik van een reeks hoogwaardige audio-beoordelingen die waren geselecteerd door een groep audio-professionals van de European Broadcasting Union en later werden gebruikt als referentie voor de beoordeling van muziekcompressie-codecs. De subband-coderingstechniek bleek efficiënt te zijn, niet alleen voor de perceptuele codering van het hoogwaardige geluidsmateriaal, maar vooral voor de codering van kritisch percussief geluidsmateriaal (drums, triangel,…), dankzij het specifieke temporele maskereffect van de MUSICAM sub-band filterbank (dit voordeel is een specifiek kenmerk van korte transformatie-coderingstechnieken).
Als doctoraalstudent aan de Duitse Universiteit van Erlangen-Nürnberg begon Karlheinz Brandenburg begin jaren tachtig te werken aan digitale muziekcompressie, waarbij hij zich richtte op de manier waarop mensen muziek waarnemen. Hij voltooide zijn doctoraal werk in 1989. MP3 stamt rechtstreeks af van OCF en PXFM en is het resultaat van de samenwerking van Brandenburg – die als postdoctoraal onderzoeker werkte bij AT&T-Bell Labs met James D. Johnston (“JJ”) van AT&T-Bell Labs – met het Fraunhofer Instituut voor Geïntegreerde Circuits, Erlangen (waar hij samenwerkte met Bernhard Grill en vier andere onderzoekers – “The Original Six”), met relatief kleine bijdragen van de MP2-tak van psychoakoestische sub-band codeerders. In 1990 werd Brandenburg assistent-professor in Erlangen-Nürnberg. Daar werkte hij verder aan muziekcompressie met wetenschappers van het Heinrich Herz-instituut van de Fraunhofer Society (in 1993 trad hij toe tot de staf van het Fraunhofer HHI). Het lied “Tom’s Diner” van Suzanne Vega was het eerste lied dat door Karlheinz Brandenburg werd gebruikt om de MP3 te ontwikkelen. Brandenburg nam het liedje over om het te testen, waarbij hij het steeds opnieuw beluisterde om het schema te verfijnen en ervoor te zorgen dat het de subtiliteit van Vega’s stem niet aantastte.
StandaardisatieEdit
In 1991 waren er twee beschikbare voorstellen die werden beoordeeld voor een MPEG-audiostandaard: MUSICAM (Masking pattern adapted Universal Subband Integrated Coding And Multiplexing) en ASPEC (Adaptive Spectral Perceptual Entropy Coding). De MUSICAM-techniek, voorgesteld door Philips (Nederland), CCETT (Frankrijk), het Institute for Broadcast Technology (Duitsland) en Matsushita (Japan), werd gekozen wegens haar eenvoud en foutbestendigheid, alsmede wegens haar hoge mate van computationele efficiëntie. Het MUSICAM formaat, gebaseerd op sub-band codering, werd de basis voor het MPEG Audio compressie formaat, waarin bijvoorbeeld de frame structuur, header formaat, sample rates, etc. werden opgenomen.
Terwijl veel van de MUSICAM technologie en ideeën werden opgenomen in de definitie van MPEG Audio Layer I en Layer II, bleven de filter bank alleen en de data structuur gebaseerd op 1152 samples framing (file formaat en byte georiënteerde stream) van MUSICAM in het Layer III (MP3) formaat, als onderdeel van de computationeel inefficiënte hybride filter bank. Onder voorzitterschap van professor Musmann van de Leibniz Universiteit Hannover werd de redactie van de standaard gedelegeerd aan Leon van de Kerkhof (Nederland), Gerhard Stoll (Duitsland), en Yves-François Dehery (Frankrijk), die werkten aan Layer I en Layer II. ASPEC was het gezamenlijke voorstel van AT&T Bell Laboratories, Thomson Consumer Electronics, Fraunhofer Society en CNET. Het bood de hoogste coderingsefficiëntie.
Een werkgroep bestaande uit van de Kerkhof, Stoll, Leonardo Chiariglione (CSELT VP voor Media), Yves-François Dehery, Karlheinz Brandenburg (Duitsland) en James D. Johnston (Verenigde Staten) namen ideeën over van ASPEC, integreerden de filterbank van Layer II, voegden enkele eigen ideeën toe zoals de gezamenlijke stereocodering van MUSICAM en creëerden het MP3-formaat, dat was ontworpen om bij 128 kbit/s dezelfde kwaliteit te bereiken als MP2 bij 192 kbit/s.
De algoritmen voor MPEG-1 Audio Layer I, II en III werden in 1991 goedgekeurd en in 1992 voltooid als onderdeel van MPEG-1, de eerste standaardsuite van MPEG, die resulteerde in de internationale norm ISO/IEC 11172-3 (ook bekend als MPEG-1 Audio of MPEG-1 Part 3), die in 1993 werd gepubliceerd. Bestanden of datastromen die aan deze norm voldoen, moeten bemonsteringsfrequenties van 48k, 44100 en 32k aankunnen en worden nog steeds ondersteund door de huidige MP3-spelers en -decoders. De eerste generatie MP3 definieerde dus 14 × 3 = 42 interpretaties van MP3 frame data structuren en size layouts.
Verder werk aan MPEG audio werd afgerond in 1994 als onderdeel van de tweede suite van MPEG standaarden, MPEG-2, meer formeel bekend als de internationale standaard ISO/IEC 13818-3 (ook bekend als MPEG-2 Part 3 of backwards compatible MPEG-2 Audio of MPEG-2 Audio BC), oorspronkelijk gepubliceerd in 1995. MPEG-2 Part 3 (ISO/IEC 13818-3) definieerde 42 extra bitsnelheden en bemonsteringsfrequenties voor MPEG-1 Audio Layer I, II en III. De nieuwe bemonsteringsfrequenties zijn precies de helft van die welke oorspronkelijk in MPEG-1 Audio zijn gedefinieerd. Deze verlaging van de bemonsteringsfrequentie dient om de beschikbare frequentiegetrouwheid te halveren en tegelijkertijd de bitrate met 50% te verlagen.MPEG-2 Deel 3 heeft ook de audio van MPEG-1 verbeterd door de codering van audioprogramma’s met meer dan twee kanalen mogelijk te maken, tot 5.1 multikanaals. Een MP3 gecodeerd met MPEG-2 resulteert in de helft van de bandbreedte weergave van MPEG-1 geschikt voor piano en zang.
Een derde generatie van “MP3” stijl data streams (bestanden) breidde de MPEG-2 ideeën en implementatie uit maar kreeg de naam MPEG-2.5 audio, aangezien MPEG-3 al een andere betekenis had. Deze uitbreiding werd ontwikkeld door Fraunhofer IIS, de geregistreerde patenthouders van MP3, door het frame sync-veld in de MP3-header terug te brengen van 12 naar 11 bits. Net als bij de overgang van MPEG-1 naar MPEG-2 voegt MPEG-2.5 extra bemonsteringsfrequenties toe die precies de helft bedragen van die welke met MPEG-2 beschikbaar zijn. Hierdoor wordt het toepassingsgebied van MP3 uitgebreid tot menselijke spraak en andere toepassingen, terwijl slechts 25% van de bandbreedte (frequentieweergave) nodig is die mogelijk is met MPEG-1 bemonsteringsfrequenties. Hoewel MPEG-2.5 geen door de ISO erkende norm is, wordt het op grote schaal ondersteund door zowel goedkope Chinese als merkgebonden digitale audiospelers, alsmede door op computersoftware gebaseerde MP3-encoders (LAME), -decoders (FFmpeg) en -spelers (MPC) die 3 × 8 = 24 extra MP3-frametypen toevoegen. Elke generatie MP3 ondersteunt dus 3 bemonsteringsfrequenties die precies de helft bedragen van die van de vorige generatie, zodat er in totaal 9 soorten MP3-bestanden zijn. De tabel met de vergelijking van de bemonsteringsfrequenties tussen MPEG-1, 2 en 2.5 wordt verderop in het artikel gegeven. MPEG-2.5 wordt ondersteund door LAME (sinds 2000), Media Player Classic (MPC), iTunes, en FFmpeg.
MPEG-2.5 is niet ontwikkeld door MPEG (zie boven) en is nooit goedgekeurd als internationale standaard. MPEG-2.5 is dus een niet-officiële of propriëtaire uitbreiding van het MP3-formaat. Het is niettemin alomtegenwoordig en vooral voordelig voor menselijke spraaktoepassingen met lage bitsnelheid.
Versie | Internationale standaard | Eerste uitgave, datum publieke release | Laatste uitgave, datum publieke release |
---|---|---|---|
ISO/IEC 11172-3 (MPEG-1 Part 3) | 1993 | ||
MPEG-2 Audio Layer III | ISO/IEC 13818-3 (MPEG-2 Part 3) | 1995 | 1998 |
niet-standaard, merkgebonden | 2000 | 2008 |
- De ISO-norm ISO/IEC 11172-3 (ook bekend als MPEG-1 Audio) definieerde drie formaten: de MPEG-1 Audio Layer I, Layer II en Layer III. De ISO-norm ISO/IEC 13818-3 (ook bekend als MPEG-2 Audio) definieerde uitgebreide versies van MPEG-1 Audio: MPEG-2 Audio Layer I, Layer II en Layer III. MPEG-2 Audio (MPEG-2 Deel 3) moet niet worden verward met MPEG-2 AAC (MPEG-2 Deel 7 – ISO/IEC 13818-7).
De compressie-efficiëntie van encoders wordt meestal gedefinieerd door de bitsnelheid, omdat de compressieverhouding afhangt van de bitdiepte en de bemonsteringsfrequentie van het ingangssignaal. Niettemin worden compressieverhoudingen vaak gepubliceerd. Zij kunnen de Compact Disc (CD) parameters als referentie gebruiken (44,1 kHz, 2 kanalen bij 16 bits per kanaal of 2×16 bits), of soms de Digital Audio Tape (DAT) SP parameters (48 kHz, 2×16 bits). De compressieverhoudingen bij deze laatste referentie zijn hoger, hetgeen het probleem aantoont met het gebruik van de term compressieverhouding voor lossy encoders.
Karlheinz Brandenburg gebruikte een CD-opname van Suzanne Vega’s liedje “Tom’s Diner” om het MP3-compressiealgoritme te beoordelen en te verfijnen. Dit nummer werd gekozen vanwege het bijna monofone karakter en de brede spectrale inhoud, waardoor onvolkomenheden in het compressieformaat tijdens het afspelen gemakkelijker te horen zijn. Sommigen verwijzen naar Suzanne Vega als “De moeder van MP3”. Deze specifieke track heeft de interessante eigenschap dat de twee kanalen bijna, maar niet volledig, gelijk zijn, wat leidt tot een geval waarin Binaural Masking Level Depression ruimtelijke ontmaskering van ruisartefacten veroorzaakt, tenzij de encoder de situatie goed herkent en correcties toepast die vergelijkbaar zijn met die welke in het MPEG-2 AAC psychoakoestisch model worden beschreven. Enkele meer kritische audiofragmenten (glockenspiel, triangel, accordeon, enz.) zijn afkomstig van de EBU V3/SQAM referentie compact disc en zijn door professionele geluidstechnici gebruikt om de subjectieve kwaliteit van de MPEG Audio formaten te beoordelen. LAME is de meest geavanceerde MP3-encoder. LAME bevat een VBR codering met variabele bitsnelheid die gebruik maakt van een kwaliteitsparameter in plaats van een bitsnelheidsdoelstelling. Latere versies (2008+) ondersteunen een n.nnn kwaliteitsdoelstelling die automatisch MPEG-2 of MPEG-2.5 sampling rates selecteert voor menselijke spraakopnamen die slechts een bandbreedte resolutie van 5512 Hz nodig hebben.
Going publicEdit
Een referentie simulatie software implementatie, geschreven in de C taal en later bekend als ISO 11172-5, werd ontwikkeld (in 1991-1996) door de leden van het ISO MPEG Audio comité om bit compliant MPEG Audio bestanden te produceren (Layer 1, Layer 2, Layer 3). Het werd in maart 1994 goedgekeurd als ontwerp van een technisch verslag van ISO/IEC en in april 1994 gedrukt als document CD 11172-5. Het werd in november 1994 goedgekeurd als ontwerp van een technisch rapport (DTR/DIS), in 1996 voltooid en in 1998 gepubliceerd als de internationale norm ISO/IEC TR 11172-5:1998. De referentiesoftware in de taal C werd later gepubliceerd als een vrij beschikbare ISO-norm. De software werkte in niet-real-time op een aantal besturingssystemen en kon de eerste real-time hardwaredecodering (gebaseerd op DSP) van gecomprimeerde audio demonstreren. Enkele andere real time implementaties van MPEG Audio encoders en decoders waren beschikbaar ten behoeve van digitale uitzendingen (radio DAB, televisie DVB) naar consumentenontvangers en set top boxes.
Op 7 juli 1994 bracht de Fraunhofer Society de eerste software MP3 encoder uit, l3enc genaamd. De bestandsnaamextensie .mp3 werd op 14 juli 1995 door het Fraunhofer-team gekozen (voorheen hadden de bestanden de naam .bit). Met de eerste real-time software MP3-speler WinPlay3 (uitgebracht op 9 september 1995) konden veel mensen MP3-bestanden coderen en afspelen op hun PC’s. Door de relatief kleine harde schijven van die tijd (≈500-1000 MB) was compressie met verlies essentieel om meerdere albums muziek op een thuiscomputer op te slaan als volledige opnamen (in tegenstelling tot MIDI-notatie of tracker-bestanden die notatie combineerden met korte opnamen van instrumenten die afzonderlijke noten speelden). Zoals geluidswetenschapper Jonathan Sterne opmerkt: “Een Australische hacker verwierf l3enc met behulp van een gestolen creditcard. De hacker reverse-engineerde vervolgens de software, schreef een nieuwe gebruikersinterface, en herverdeelde het gratis, onder de naam “dank u Fraunhofer””.
Fraunhofer voorbeeld implementatieEdit
Een hacker genaamd SoloH ontdekte de broncode van de “dist10” MPEG referentie-implementatie kort na de release op de servers van de Universiteit van Erlangen. Hij ontwikkelde een versie van hogere kwaliteit en verspreidde die op het internet. Deze code vormde het begin van het wijdverbreide CD-rippen en de distributie van digitale muziek als MP3 via het internet.
InternetdistributieEdit
In de tweede helft van de jaren negentig begonnen MP3-bestanden zich op het internet te verspreiden, vaak via ondergrondse netwerken van illegaal gekopieerde liedjes. Het eerste bekende experiment met internetdistributie werd begin jaren negentig georganiseerd door het Internet Underground Music Archive, beter bekend onder het acroniem IUMA. Na enkele experimenten met ongecomprimeerde audiobestanden begon dit archief op het inheemse wereldwijde lagesnelheidsinternet enkele gecomprimeerde MPEG-audiobestanden af te leveren met gebruikmaking van het MP2-formaat (Layer II) en later gebruikte het MP3-bestanden toen de standaard volledig was voltooid. De populariteit van MP3’s begon snel te stijgen met de komst van Nullsoft’s audiospeler Winamp, die in 1997 uitkwam. In 1998 werd de eerste draagbare solid state digitale audiospeler MPMan uitgebracht, ontwikkeld door SaeHan Information Systems met hoofdkantoor in Seoel, Zuid-Korea, en daarna werd de Rio PMP300 verkocht in 1998, ondanks juridische onderdrukkingspogingen van de RIAA.
In november 1997 bood de website mp3.com duizenden MP3’s, gemaakt door onafhankelijke artiesten, gratis aan. De kleine omvang van MP3-bestanden maakte het mogelijk op grote schaal peer-to-peer bestanden te delen van muziek die van CD’s was geript, wat voorheen vrijwel onmogelijk was geweest. Het eerste grote peer-to-peer netwerk voor het delen van bestanden, Napster, werd in 1999 gelanceerd. Het gemak waarmee MP3’s konden worden gemaakt en gedeeld, leidde tot wijdverbreide inbreuken op het auteursrecht. Grote platenmaatschappijen voerden aan dat dit gratis delen van muziek de verkoop verminderde, en noemden het “muziekpiraterij”. Ze reageerden met rechtszaken tegen Napster (dat uiteindelijk werd gesloten en later verkocht) en tegen individuele gebruikers die zich bezighielden met het delen van bestanden.
Het ongeoorloofd delen van MP3-bestanden gaat door op peer-to-peer netwerken van de volgende generatie. Sommige geautoriseerde diensten, zoals Beatport, Bleep, Juno Records, eMusic, Zune Marketplace, Walmart.com, Rhapsody, de door de platenindustrie goedgekeurde reïncarnatie van Napster, en Amazon.com verkopen onbeperkte muziek in MP3-formaat.