BackgroundEdit
O algoritmo de compressão de dados áudio perdidos MP3 tira partido de uma limitação perceptiva da audição humana chamada mascaramento auditivo. Em 1894, o físico americano Alfred M. Mayer relatou que um tom podia ser tornado inaudível por outro tom de frequência mais baixa. Em 1959, Richard Ehmer descreveu um conjunto completo de curvas auditivas relativas a este fenómeno. Entre 1967 e 1974, Eberhard Zwicker trabalhou nas áreas de afinação e mascaramento de bandas de frequência crítica, que por sua vez se baseou na pesquisa fundamental na área de Harvey Fletcher e os seus colaboradores nos Bell Labs.
A codificação perceptual foi utilizada pela primeira vez para a compressão da codificação da fala com codificação preditiva linear (LPC), que tem origem no trabalho de Fumitada Itakura (Universidade de Nagoya) e Shuzo Saito (Nippon Telegraph and Telephone) em 1966. Em 1978, Bishnu S. Atal e Manfred R. Schroeder da Bell Labs propuseram um codec de fala LPC, chamado codificação preditiva adaptativa, que utilizava um algoritmo de codificação psicoacústica explorando as propriedades de mascaramento do ouvido humano. Uma maior optimização por Schroeder e Atal com J.L. Hall foi mais tarde relatada num artigo de 1979. Nesse mesmo ano, um codec de mascaramento psicoacústico foi também proposto por M. A. Krasner, que publicou e produziu hardware para a fala (não utilizável como bit-compressão de música), mas a publicação dos seus resultados num relatório técnico relativamente obscuro do Laboratório Lincoln não influenciou imediatamente a corrente dominante do desenvolvimento do codec psicoacústico.
A transformação cosina discreta (DCT), um tipo de codificação transformadora para compressão com perdas, proposta por Nasir Ahmed em 1972, foi desenvolvida por Ahmed com T. Natarajan e K. R. Rao em 1973; eles publicaram os seus resultados em 1974. Isto levou ao desenvolvimento da transformação cosina discreta modificada (MDCT), proposta por J. P. Princen, A. W. Johnson e A. B. Bradley em 1987, na sequência de trabalhos anteriores de Princen e Bradley em 1986. O MDCT tornou-se mais tarde uma parte central do algoritmo MP3.
Ernst Terhardt et al. construíram um algoritmo descrevendo a máscara auditiva com alta precisão em 1982. Este trabalho foi adicionado a uma variedade de relatórios de autores que datam de Fletcher, e ao trabalho que inicialmente determinou rácios críticos e larguras de banda críticas.
Em 1985 Atal e Schroeder apresentaram a previsão linear excitada por código (CELP), um algoritmo de codificação de fala perceptual baseado em LPC com máscara auditiva que alcançou um rácio de compressão de dados significativo para o seu tempo. O IEEE’s refereed Journal on Selected Areas in Communications relatou em 1988 uma grande variedade de algoritmos de compressão de áudio (na sua maioria perceptuais). A edição “Codificação de Voz para Comunicações” publicada em Fevereiro de 1988 relatou uma vasta gama de tecnologias de compressão de bit áudio estabelecidas e em funcionamento, algumas delas utilizando a máscara auditiva como parte da sua concepção fundamental, e várias mostrando implementações de hardware em tempo real.
DevelopmentEdit
A génese da tecnologia MP3 é descrita na íntegra num artigo do Professor Hans Musmann, que presidiu ao grupo ISO MPEG Audio durante vários anos. Em Dezembro de 1988, MPEG apelou a uma norma de codificação áudio. Em Junho de 1989, 14 algoritmos de codificação de áudio foram submetidos. Devido a certas semelhanças entre estas propostas de codificação, estas foram agrupadas em quatro grupos de desenvolvimento. O primeiro grupo foi ASPEC, por Fraunhofer Gesellschaft, AT&T, France Telecom, Deutsche e Thomson-Brandt. O segundo grupo foi MUSICAM, por Matsushita, CCETT, ITT e Philips. O terceiro grupo foi ATAC, por Fujitsu, JVC, NEC e Sony. E o quarto grupo foi SB-ADPCM, por NTT e BTRL.
Os antecessores imediatos do MP3 foram “Optimum Coding in the Frequency Domain” (OCF), e Perceptual Transform Coding (PXFM). Estes dois codecs, juntamente com as contribuições da Thomson-Brandt para a troca de blocos, foram fundidos num codec chamado ASPEC, que foi submetido à MPEG, e que ganhou o concurso de qualidade, mas que foi erroneamente rejeitado por ser demasiado complexo para ser implementado. A primeira implementação prática de um codificador perceptual de áudio (OCF) em hardware (o hardware de Krasner era demasiado pesado e lento para uso prático), foi uma implementação de um codificador de transformação psicoacústica baseado em chips Motorola 56000 DSP.
Outro predecessor do formato e tecnologia MP3 encontra-se no codec perceptual MUSICAM baseado numa aritmética inteira de 32 sub-bancos de filtragem, conduzido por um modelo psicoacústico. Foi principalmente concebido para radiodifusão áudio digital (rádio digital) e televisão digital, e os seus princípios básicos foram divulgados à comunidade científica pelo CCETT (França) e IRT (Alemanha) em Atlanta durante uma conferência IEEE-ICASSP em 1991, depois de ter trabalhado no MUSICAM com Matsushita e Philips desde 1989.
Este codec incorporado num sistema de radiodifusão utilizando a modulação COFDM foi demonstrado no ar e no campo com a Rádio Canadá e CRC Canadá durante o programa NAB (Las Vegas) em 1991. A implementação da parte áudio deste sistema de radiodifusão foi baseada num codificador de dois chips (um para a transformação da sub-banda, outro para o modelo psicoacústico concebido pela equipa de G. Stoll (IRT Alemanha), mais tarde conhecido como modelo psicoacústico I) e um descodificador em tempo real utilizando um chip DSP Motorola 56001 que executa um software de aritmética inteira concebido pela equipa de Y.F. Dehery (CCETT, França). A simplicidade do descodificador correspondente juntamente com a elevada qualidade de áudio deste codec usando pela primeira vez uma frequência de amostragem de 48 kHz, um formato de entrada de 20 bits/amostra (o mais alto padrão de amostragem disponível em 1991, compatível com o padrão AES/EBU de estúdio de entrada digital profissional) foram as principais razões para mais tarde adoptar as características do MUSICAM como as características básicas para um codec avançado de compressão de música digital.
Durante o desenvolvimento do software de codificação MUSICAM, a equipa da Stoll and Dehery utilizou exaustivamente um conjunto de material de avaliação áudio de alta qualidade seleccionado por um grupo de profissionais de áudio da União Europeia de Radiodifusão e posteriormente utilizado como referência para a avaliação dos codecs de compressão de música. A técnica de codificação de sub-banda foi considerada eficiente, não só para a codificação perceptual dos materiais sonoros de alta qualidade, mas especialmente para a codificação de materiais sonoros percussivos críticos (tambores, triângulos,…), devido ao efeito específico de mascaramento temporal do banco de filtros da sub-banda MUSICAM (sendo esta vantagem uma característica específica das técnicas de codificação de curta transformação).
Como estudante de doutoramento na Universidade Alemã de Erlangen-Nuremberga, Karlheinz Brandenburg começou a trabalhar na compressão de música digital no início dos anos 80, concentrando-se na forma como as pessoas percebem a música. Concluiu o seu trabalho de doutoramento em 1989. O MP3 descende directamente de OCF e PXFM, representando o resultado da colaboração de Brandenburg – trabalhando como investigador pós-doutorando na AT&T-Bell Labs com James D. Johnston (“JJ”) da AT&T-Bell Labs – com o Fraunhofer Institute for Integrated Circuits, Erlangen (onde trabalhou com Bernhard Grill e quatro outros investigadores – “The Original Six”), com contribuições relativamente menores do ramo MP2 dos codificadores de sub-banda psicoacústica. Em 1990, Brandenburg tornou-se professor assistente em Erlangen-Nuremberga. Enquanto lá esteve, continuou a trabalhar na compressão musical com cientistas no Instituto Heinrich Herz da Sociedade Fraunhofer (em 1993 juntou-se ao pessoal do Fraunhofer HHI). A canção “Tom’s Diner” de Suzanne Vega foi a primeira canção utilizada por Karlheinz Brandenburg para desenvolver o MP3. Brandenburg adoptou a canção para fins de teste, ouvindo-a repetidamente e de cada vez que refinava o esquema, certificando-se de que não afectava negativamente a subtileza da voz de Vega.
StandardizationEdit
Em 1991, havia duas propostas disponíveis que foram avaliadas para uma norma de áudio MPEG: MUSICAM (padrão de máscara adaptado Codificação e Multiplexação Integrada de Subfaixa Universal) e ASPEC (Adaptive Spectral Perceptual Perceptual Codificação de Entropia Adaptativa). A técnica MUSICAM, proposta por Philips (Holanda), CCETT (França), Institute for Broadcast Technology (Alemanha), e Matsushita (Japão), foi escolhida devido à sua simplicidade e robustez de erro, bem como pelo seu elevado nível de eficiência computacional. O formato MUSICAM, baseado na codificação de sub-banda, tornou-se a base para o formato de compressão áudio MPEG, incorporando, por exemplo, a sua estrutura de quadros, formato de cabeçalho, taxas de amostragem, etc.
Embora grande parte da tecnologia e ideias MUSICAM tenham sido incorporadas na definição de MPEG Camada Áudio I e Camada II, o banco de filtros sozinho e a estrutura de dados baseada no enquadramento de 1152 amostras (formato de ficheiro e fluxo orientado por bytes) do MUSICAM permaneceu no formato de Camada III (MP3), como parte do banco de filtros híbrido computacionalmente ineficiente. Sob a presidência do Professor Musmann da Universidade Leibniz de Hannover, a edição do padrão foi delegada a Leon van de Kerkhof (Holanda), Gerhard Stoll (Alemanha), e Yves-François Dehery (França), que trabalharam na Camada I e na Camada II. ASPEC foi a proposta conjunta da AT&T Bell Laboratories, Thomson Consumer Electronics, Fraunhofer Society e CNET. Proporcionou a maior eficiência de codificação.
p>Um grupo de trabalho constituído por van de Kerkhof, Stoll, Leonardo Chiariglione (CSELT VP de Media), Yves-François Dehery, Karlheinz Brandenburg (Alemanha) e James D. Johnston (Estados Unidos da América) tirou ideias da ASPEC, integrou o banco de filtros do Layer II, acrescentou algumas das suas próprias ideias, tais como a codificação estéreo conjunta da MUSICAM e criou o formato MP3, que foi concebido para atingir a mesma qualidade a 128 kbit/s que o MP2 a 192 kbit/s.
Os algoritmos para MPEG-1 Camada Áudio I, II e III foram aprovados em 1991 e finalizados em 1992 como parte de MPEG-1, o primeiro conjunto padrão por MPEG, que resultou na norma internacional ISO/IEC 11172-3 (a.k.a. MPEG-1 Áudio ou MPEG-1 Parte 3), publicada em 1993. Os ficheiros ou fluxos de dados em conformidade com esta norma devem lidar com taxas de amostragem de 48k, 44100 e 32k e continuar a ser suportados por leitores e descodificadores MP3 actuais. Assim, a primeira geração de MP3 definiu 14 × 3 = 42 interpretações de estruturas de quadros de dados MP3 e layouts de tamanho.
Outros trabalhos sobre áudio MPEG foi finalizado em 1994 como parte do segundo conjunto de normas MPEG, MPEG-2, mais formalmente conhecido como norma internacional ISO/IEC 13818-3 (também conhecido como MPEG-2 Parte 3 ou MPEG-2 Audio ou MPEG-2 Audio BC), originalmente publicado em 1995. MPEG-2 Parte 3 (ISO/CEI 13818-3) definiu 42 taxas de bits adicionais e taxas de amostragem para MPEG-1 Camada de Áudio I, II e III. As novas taxas de amostragem são exactamente metade daquelas originalmente definidas em MPEG-1 Audio. Esta redução na taxa de amostragem serve para reduzir a fidelidade de frequência disponível para metade, ao mesmo tempo que reduz a taxa de bits em 50%.MPEG-2 Parte 3 também melhorou o áudio do MPEG-1 ao permitir a codificação de programas de áudio com mais de dois canais, até 5,1 multi-canais. Um MP3 codificado com MPEG-2 resulta em metade da reprodução de largura de banda do MPEG-1 apropriada para piano e canto.
Uma terceira geração de fluxos de dados (ficheiros) estilo “MP3” alargou as ideias e implementação do MPEG-2 mas foi nomeado áudio MPEG-2.5, uma vez que MPEG-3 já tinha um significado diferente. Esta extensão foi desenvolvida no Fraunhofer IIS, os detentores de patentes registadas do MP3, reduzindo o campo de sincronização de quadros no cabeçalho do MP3 de 12 para 11 bits. Tal como na transição de MPEG-1 para MPEG-2, MPEG-2.5 adiciona taxas de amostragem adicionais exactamente metade das disponíveis utilizando MPEG-2. Assim, alarga o âmbito do MP3 para incluir a fala humana e outras aplicações, mas requer apenas 25% da largura de banda (reprodução de frequência) possível, utilizando taxas de amostragem MPEG-1. Embora não seja uma norma ISO reconhecida, MPEG-2,5 é amplamente suportado tanto por leitores de áudio digitais chineses baratos e de marca, como por codificadores MP3 baseados em software de computador (LAME), descodificadores (FFmpeg) e leitores (MPC) adicionando 3 × 8 = 24 tipos de moldura MP3 adicionais. Cada geração de MP3 suporta assim 3 taxas de amostragem exactamente metade das da geração anterior para um total de 9 variedades de ficheiros de formato MP3. A tabela de comparação de taxas de amostragem entre MPEG-1, 2 e 2,5 é dada mais tarde no artigo. MPEG-2.5 é suportado por LAME (desde 2000), Media Player Classic (MPC), iTunes, e FFmpeg.
MPEG-2.5 não foi desenvolvido por MPEG (ver acima) e nunca foi aprovado como padrão internacional. MPEG-2.5 é assim uma extensão não-oficial ou proprietária para o formato MP3. No entanto, é omnipresente e especialmente vantajoso para aplicações de fala humana de baixa taxa de bits.
Version | Primeira edição data de lançamento público | ||
---|---|---|---|
MPEG-1 Camada de áudio III | ISO/IEC 11172-3 (MPEG-1 Parte 3) | 1993 | /td> |
MPEG-2 Camada de áudio III | ISO/IEC 13818-3 (MPEG-2 Parte 3) | 1995 | 1998 |
MPEG-2.5 Camada de Áudio III | nonstandard, proprietário | 2008 |
- A norma ISO ISO/IEC 11172-3 (a.k.a. MPEG-1 Audio) definiu três formatos: o MPEG-1 Camada de Áudio I, Camada II e Camada III. A norma ISO ISO/CEI 13818-3 (t.c.p. MPEG-2 Audio) definiu a versão alargada do MPEG-1 Audio: MPEG-2 Camada de Áudio I, Camada II e Camada III. MPEG-2 Áudio (MPEG-2 Parte 3) não deve ser confundido com MPEG-2 AAC (MPEG-2 Parte 7 – ISO/CEI 13818-7).
A eficiência de compressão dos codificadores é tipicamente definida pela taxa de bits, porque a taxa de compressão depende da profundidade do bit e da taxa de amostragem do sinal de entrada. No entanto, os rácios de compressão são frequentemente publicados. Podem utilizar os parâmetros do Disco Compacto (CD) como referências (44,1 kHz, 2 canais a 16 bits por canal ou 2×16 bits), ou por vezes os parâmetros da Fita Áudio Digital (DAT) SP (48 kHz, 2×16 bits). As taxas de compressão com esta última referência são mais elevadas, o que demonstra o problema com o uso do termo taxa de compressão para codificadores com perdas.
Karlheinz Brandenburg utilizou uma gravação em CD da canção de Suzanne Vega “Tom’s Diner” para avaliar e refinar o algoritmo de compressão MP3. Esta canção foi escolhida devido à sua natureza quase monofónica e ao seu amplo conteúdo espectral, facilitando a audição de imperfeições no formato de compressão durante as playbacks. Alguns referem-se a Suzanne Vega como “A mãe do MP3”. Esta faixa em particular tem uma propriedade interessante na medida em que os dois canais são quase, mas não completamente, o mesmo, levando a um caso em que a Depressão de Nível de Mascaramento Binaural causa desmascaramento espacial de artefactos sonoros, a menos que o codificador reconheça devidamente a situação e aplique correcções semelhantes às detalhadas no modelo psicoacústico MPEG-2 AAC. Alguns excertos áudio mais críticos (glockenspiel, triângulo, acordeão, etc.) foram retirados do disco compacto de referência EBU V3/SQAM e foram utilizados por engenheiros de som profissionais para avaliar a qualidade subjectiva dos formatos áudio MPEG. LAME é o mais avançado codificador de MP3. LAME inclui uma codificação de taxa de bits variável VBR que utiliza um parâmetro de qualidade em vez de um objectivo de taxa de bits. Versões posteriores 2008+) suportam um objectivo de qualidade n.nnn que selecciona automaticamente as taxas de amostragem MPEG-2 ou MPEG-2.5 como apropriado para gravações de voz humanas que necessitam apenas de uma resolução de largura de banda de 5512 Hz.
Going publicEdit
Uma implementação de software de simulação de referência, escrita na linguagem C e mais tarde conhecida como ISO 11172-5, foi desenvolvida (em 1991-1996) pelos membros do comité ISO MPEG Audio a fim de produzir ficheiros MPEG Audio em conformidade com os bit (Camada 1, Camada 2, Camada 3). Foi aprovado como um projecto de relatório técnico do comité ISO/IEC em Março de 1994 e impresso como documento CD 11172-5 em Abril de 1994. Foi aprovado como projecto de relatório técnico (DTR/DIS) em Novembro de 1994, finalizado em 1996 e publicado como norma internacional ISO/IEC TR 11172-5:1998 em 1998. O software de referência em língua C foi posteriormente publicado como uma norma ISO disponível gratuitamente. Trabalhando em tempo não real em vários sistemas operativos, foi capaz de demonstrar a primeira descodificação de hardware em tempo real (baseado em DSP) de áudio comprimido. Algumas outras implementações em tempo real de codificadores e descodificadores de áudio MPEG estavam disponíveis para efeitos de radiodifusão digital (rádio DAB, televisão DVB) para receptores de consumo e set top boxes.
Em 7 de Julho de 1994, a Fraunhofer Society lançou o primeiro codificador de software MP3, chamado l3enc. A extensão .mp3 foi escolhida pela equipa Fraunhofer a 14 de Julho de 1995 (anteriormente, os ficheiros tinham sido nomeados .bit). Com o primeiro software em tempo real WinPlay3 (lançado a 9 de Setembro de 1995), muitas pessoas puderam codificar e reproduzir ficheiros MP3 nos seus PCs. Devido aos discos rígidos relativamente pequenos da época (≈500-1000 MB), a compressão com perdas era essencial para armazenar múltiplos álbuns num computador doméstico como gravações completas (por oposição à notação MIDI, ou ficheiros tracker que combinavam notações com gravações curtas de instrumentos tocando notas únicas). Como notas do estudioso do som Jonathan Sterne, “Um hacker australiano adquiriu l3enc usando um cartão de crédito roubado. O hacker, então, fez a engenharia inversa do software, escreveu uma nova interface de utilizador, e redistribuiu-o gratuitamente, nomeando-o “obrigado Fraunhofer””.
Fraunhofer exemplo de implementaçãoEdit
Um hacker chamado SoloH descobriu o código fonte da implementação de referência MPEG “dist10” pouco depois do lançamento nos servidores da Universidade de Erlangen. Desenvolveu uma versão de maior qualidade e divulgou-a na Internet. Este código começou a difundir o ripping de CD e a distribuição de música digital como MP3 na Internet.
distribuição na InternetEdit
Na segunda metade dos anos 90, os ficheiros MP3 começaram a espalhar-se na Internet, frequentemente através de redes de canções piratas subterrâneas. A primeira experiência conhecida de distribuição na Internet foi organizada no início dos anos 90 pelo Internet Underground Music Archive, mais conhecido pela sigla IUMA. Após algumas experiências utilizando ficheiros áudio não comprimidos, este arquivo começou a entregar na Internet nativa mundial de baixa velocidade alguns ficheiros áudio MPEG comprimidos utilizando o formato MP2 (Layer II) e mais tarde utilizou ficheiros MP3 quando o padrão foi totalmente concluído. A popularidade dos MP3 começou a aumentar rapidamente com o advento do leitor de áudio Winamp da Nullsoft, lançado em 1997. Em 1998, foi lançado o primeiro leitor de áudio digital portátil de estado sólido MPMan, desenvolvido pela SaeHan Information Systems, com sede em Seul, Coreia do Sul, e o Rio PMP300 foi vendido posteriormente em 1998, apesar dos esforços de supressão legal da RIAA.
Em Novembro de 1997, o website mp3.com estava a oferecer milhares de MP3s criados por artistas independentes gratuitamente. O pequeno tamanho dos ficheiros MP3 permitia a partilha generalizada de ficheiros peer-to-peer de música arrancada de CDs, o que anteriormente teria sido quase impossível. A primeira grande rede de partilha de ficheiros peer-to-peer, Napster, foi lançada em 1999. A facilidade de criação e partilha de ficheiros MP3 resultou numa violação generalizada dos direitos de autor. As principais empresas discográficas argumentaram que esta partilha gratuita de música reduziu as vendas, e chamaram-lhe “pirataria musical”. Reagiram perseguindo processos judiciais contra a Napster (que acabou por ser encerrada e posteriormente vendida) e contra utilizadores individuais que se dedicavam à partilha de ficheiros.
A partilha não autorizada de ficheiros MP3 continua em redes peer-to-peer da próxima geração. Alguns serviços autorizados, tais como Beatport, Bleep, Juno Records, eMusic, Zune Marketplace, Walmart.com, Rhapsody, a indústria discográfica aprovou a reincarnação do Napster, e a Amazon.com vende música sem restrições no formato MP3.