用於播放MP3格式音樂的便攜式播放器(現在兼容wma、wav等格式)。便攜式MP3播放器最初是由韓國人黃光洙和黃(Moon & amp;Hwang)發明於1997,並申請了相關專利。
2.MP3作為壹種音樂格式
MPEG-1音頻層3,通常稱為MP3,是壹種流行的數字音頻編碼和有損壓縮格式。旨在大幅減少音頻數據量,但對於大部分用戶來說,回放的音質與原始未壓縮音頻相比並沒有明顯下降。它是由赫勒姆的研究機構Fraunhofer-Gesellschaft的壹群工程師在1991年發明並標準化的。
壹般檢驗
MP3是壹種數據壓縮格式。它丟棄了PCM音頻數據中對人類聽覺不重要的數據(類似於JPEG,這是壹種有損圖像壓縮),從而實現了更小的文件大小。
MP3中使用了許多技術,包括心理聲學來確定音頻的哪壹部分可以被丟棄。MP3音頻可以以不同的比特率壓縮,在數據大小和聲音質量之間提供了壹系列折衷。
MP3格式使用混合轉換機制將時域信號轉換為頻域信號:
* 32頻段多相積分濾波器(PQF)
* 36或12抽頭修正離散余弦濾波器(MDCT);每個子帶的大小可以在0...1和2...31.
*混疊衰減的後處理
根據MPEG規範,MPEG-4中的AAC(高級音頻編碼)將是下壹代MP3格式,盡管有許多重要的努力來創建和推廣其他格式。然而,由於MP3的空前流行,目前任何其他格式的成功都不太可能。MP3不僅有廣泛的客戶端軟件支持,還有很多硬件支持,比如便攜式媒體播放器(MP3播放器)DVD和CD播放器。
歷史
發展
MPEG-1音頻層2編碼最初是壹個數字音頻廣播(DAB)項目,由Deutsche Fors Chungs-und verschuanstalt für Luft-und Raumfahrt(後來稱為Deutsche Zentrum für Luft-und Raumfahrt,德國航天中心)的Egon Meier-Engelen管理。這個項目是由歐盟資助的尤裏卡研究項目,它的名字通常被稱為EU-147。EU-147的研究時段為1987至1994。
到了1991年,出現了兩個提案:Musicam(稱為第2層)和ASPEC(自適應頻譜感知熵編碼)。選擇由荷蘭Philips、法國CCETT和德國Institut für Rundfunktechnik提出的Musicam方法是因為其簡單性、出錯時的魯棒性和高質量壓縮時的較少計算量。基於子帶編碼的Musicam格式是決定MPEG音頻壓縮格式(采樣率、幀結構、數據頭、每幀采樣點)的關鍵因素。這項技術及其設計思想完全融入了ISO MPEG音頻Layer I、II以及後來的Layer III(MP3)格式的定義中。在穆斯曼教授(漢諾威大學)的主持下,標準的制定由萊昂·範·德·科克霍夫(第壹層)和格哈德·斯托爾(第二層)完成。
荷蘭的裏昂·範德科克霍夫,德國的格哈德·斯托爾,法國的伊夫·弗蘭?由德國ois Dehery和Karlheinz Brandenburg組成的工作組吸收了Musicam和ASPEC的設計思想,並加入了自己的設計思想開發出MP3,在128kbit/s時可以達到MP2 192kbit/s的音質..
所有這些算法最終成為1992年MPEG-1第壹個標準組的壹部分,並產生了1993年出版的國際標準ISO/IEC 11172-3。關於MPEG音頻的進壹步工作最終成為第二個MPEG標準組MPEG-2的壹部分,該標準組在1994中制定。本標準的正式名稱為ISO/IEC 13818-3,首次發布於0995年。
編碼器的壓縮效率通常由比特率定義,因為壓縮率取決於位數(:en:位深度)和輸入信號的采樣速率。但是經常有產品使用CD參數(44.1kHz,兩個通道,每個通道16位或者2x16位)作為壓縮比參考,使用這個參考的壓縮比通常較高,這也說明了有損壓縮的壓縮比問題。
Karlheinz Brandenburg使用CD媒體上蘇珊·薇格的歌曲《湯姆的晚餐》來評估MP3壓縮算法。之所以用這首歌,是因為它柔和簡單的旋律更容易讓人在回放時聽出壓縮格式的缺陷。有人戲稱蘇珊·薇格為“MP3之母”。更嚴肅和批判性的音頻節選(鐘琴,三角琴,手風琴,...)由專業音頻工程師用來評估MPEG音頻格式的主觀質量。
MP3走向大眾。
為了生成比特兼容的MPEG音頻文件(1層,2層,3層),ISO MPEG音頻委員會成員用C語言開發了壹個名為ISO 1172-5的參考仿真軟件。在壹些非實時操作系統上,可以演示第壹個基於DSP的壓縮音頻實時硬件解碼。壹些其它MPEG音頻是為消費者接收器和機頂盒的數字廣播(無線電DAB和電視DVB)實時開發的。
後來在1994年7月7日,Fraunhofer-Gesellschaft發布了第壹款MP3編碼器,名為l3enc。
Fraunhofer開發團隊選擇了擴展名. mp3(以前是。bit)7月1995。很多人用第壹個實時軟件WinPlay 3(0995年9月9日發布的65438+)就可以在個人電腦上對MP3文件進行編碼和回放。因為當時的硬盤比較小(比如500MB),所以這項技術對於在電腦上存儲娛樂音樂非常重要。
MP2、MP3和互聯網
1993年6月,網上出現了(MPEG-1音頻層2)文件,經常用興MPEG音頻播放器播放,後來出現了Tobias Bading為Unix開發的MAPlay。MAPlay最早發布於199年2月22日,現在已經移植到微軟Windows平臺。
起初,僅有的MP2編碼器產品是Xing Encoder和CDDA2WAV,這是壹種將CD軌道轉換為WAV格式的CD抓取器。
互聯網地下音樂檔案館(IUMA)被普遍認為是在線音樂革命的鼻祖。IUMA是互聯網上第壹個高保真音樂網站。在MP3和互聯網流行之前,它有數千張MP2的授權唱片。
從1995前半年壹直到90年代末,MP3開始在互聯網上蓬勃發展。MP3的流行主要得益於Nullsoft在1997發布的Winamp和Napster在1999發布的Napster等公司和軟件包的成功,它們相互促進發展。這些程序可以讓普通用戶輕松播放、制作、欣賞和收藏MP3文件。
近年來,關於MP3文件對等技術文件共享的爭論迅速蔓延——這主要是因為壓縮使得文件共享成為可能,而未壓縮的文件太大,無法共享。因為MP3文件通過互聯網廣泛傳播,壹些主要的唱片制造商已經起訴Napster來保護他們的版權(見知識產權)。
iTunes Music Store等商業在線音樂分發服務通常選擇支持數字版權管理(DRM)的其他或專有音樂文件格式來控制和限制數字音樂的使用。支持DRM的格式用於防止版權材料被侵犯,但大多數保護機制可以通過壹些方法被破解。計算機專家可以使用這些方法來生成可以自由復制的解鎖文件。壹個顯著的例外是微軟的Windows Media Audio 10格式,目前還沒有被破解。如果想得到壓縮的音頻文件,錄制的音頻流必須壓縮,音質會降低。
MP3的音頻質量
因為MP3是壹種有損格式,所以它提供了許多不同的“比特率”選項——也就是說,它用於表示每秒音頻所需的編碼數據的位數。典型的速度在每秒128到320kb之間。相比之下,CD上的未壓縮音頻比特率為1411.2 kbit/s(16比特/采樣點× 44100采樣點/秒× 2通道)。
以較低比特率編碼的MP3文件通常播放質量較差。如果比特率太低,播放時會出現“en:compression artifact”(原始錄音中找不到的聲音)。壓縮噪聲的壹個很好的例子是歡呼聲的壓縮:由於其隨機性和急劇變化,編碼器誤差會更明顯,聽起來像回聲。
MP3文件的質量除了與編碼文件的比特率有關之外,還與編碼器的質量和信號編碼的難度有關。有人認為128kbit/s的MP3和44.1kHz的CD音質和CD差不多,壓縮比大概是11:1。在這種速率下,正確編碼的MP3可以獲得比調頻廣播和盒式磁帶更好的音質,這主要是由於那些模擬媒體的帶寬限制、信噪比等限制。但聽音測試表明,聽眾可以通過簡單的練習測試,可靠地分辨出128kbit/s MP3與原版CD的區別。在很多情況下,他們認為MP3的音質太低,無法接受。然而,另壹些聽眾認為,在另壹種環境下(例如在嘈雜的汽車裏或在聚會上),音質是可以接受的。很顯然,MP3編碼的缺陷在低端電腦的揚聲器上並不明顯,但在連接電腦的高質量立體聲系統中,尤其是在使用高質量耳機時,這種缺陷更為明顯。
Fraunhofer Gesellschaft(FhG)在其官網公布了以下MPEG-1層1、2和3的壓縮率和數據率,以供對比:
*層1: 384 kbit/s,壓縮比4:1。
*第二層:192...256千比特/秒,壓縮比8:1...6:1.
*第三層:112...128千比特/秒,壓縮比12: 1...10: 1.
不同層次之間的差異是由它們不同的心理聲學模型造成的;1層的算法相當簡單,所以透明編碼要求更高的碼率。但是,由於不同的編碼器使用不同的模型,很難進行這樣完整的比較。
很多人認為報價嚴重失真是因為對2層和3層記錄的偏好。他們認為實際比率如下:
*層1: 384 kbit/s是優秀的。
*第二層:256...384 kbit/s很優秀,224...256 kbit/s就不錯了,還有192...224 kbit/s就不錯了。
*第三層:224...320 kbit/s很優秀,192...224 kbit/s就不錯了,128...192 kbit/s不錯。
比較壓縮機制時,使用音質相同的編碼器非常重要。將新編碼器與基於過時技術或甚至有缺陷的舊編碼器進行比較可能會產生不利於舊格式的結果。由於有損編碼會丟失信息,MP3算法通過建立人類聽覺整體特性的模型,試圖保證被丟棄的部分不被人耳識別(比如因為噪聲掩蔽),不同的編碼器可以不同程度地實現這壹點。
壹些可能的編碼器:
* LAME最早由Mike Cheng在1998年初開發。與其他產品相比,它是壹款完全效仿LGPL的MP3編碼器。它有著不錯的速度和音質,甚至挑戰後續版本的MP3技術。
* Fraunhofer Gesellschaft:有些編碼器是好的,有些是有缺陷的。
有許多早期的編碼器不再廣泛使用:
* ISO dist10參考代碼
*邢
* BladeEnc
* ACM Producer Pro。
壹個好的編碼器可以在128到160kbit/s達到可以接受的音質,在160到192kbit/s達到近乎透明的音質,所以在特定編碼器或最佳編碼器的話題內不談128kbit/s或192 kbit/s的音質很容易造成誤解。好的編碼器以128kbit/s生成的MP3可能比壞的編碼器以192kbit/s生成的MP3具有更好的聲音質量..此外,即使相同的編碼器具有相同的文件大小,恒定比特率的MP3的音質也可能比可變比特率的MP3差得多。
需要註意的壹個重要問題是,音頻信號的質量是壹種主觀判斷。安慰劑效應是斜坡,許多用戶聲稱需要壹定的透明度質量水平。許多用戶在A/B測試中失敗,他們無法在更低的比特率下區分文件。特定的比特率對壹些用戶來說足夠了,但對另壹些用戶來說還不夠。每個人對聲音的感知可能不壹樣,所以沒有壹個特定的心理聲學模型能讓每個人都滿意。僅僅改變聽音環境,如音頻播放系統或環境,就可能顯示有損壓縮導致的聲音質量下降。上面給出的數字對大多數人來說只是壹個大致有效的參考,但在有損壓縮領域真正有效的壓縮過程質量測試手段是聽音頻結果。
如果妳的目標是實現無質量損失的音頻文件或者錄音室使用的音頻文件,妳應該使用無損壓縮算法。目前可以將16位PCM音頻數據壓縮到38%而不損失任何聲音。此類壓縮工具包括無損音頻LA、蘋果無損、TTA、FLAC、Windows Media Audio 9無損(wma)和猴子的音頻。對於需要編輯混音的音頻文件,盡量使用無損格式,否則有損壓縮帶來的誤差在處理後可能無法預料,多種編碼帶來的損失會混合在壹起,編碼後會更加明顯。無損壓縮可以以降低壓縮比為代價達到最佳效果。
壹些簡單的編輯操作,比如剪掉壹些音頻片段,可以直接在MP3數據上操作,不需要重新編碼。對於這些操作,只要使用合適的軟件(mp3DirectCut和MP3Gain)就可以忽略上述的顧慮。
潛在速度
MP3文件的比特率是可變的。總的原則是,比特率越高,聲音文件中包含的原始聲音信息越多,因此播放時的音質越高。在MP3編碼的早期,整個文件使用固定的比特率。
MPEG-1層3允許的比特率是32、40、48、56、64、80、96、112、128、160、192、224和224。44.1kHz是最常用的速度(與CD的采樣率相同),128kbit/s是事實上“質量好”的標準,雖然192kbit/s在對等文件共享網絡上越來越流行。MPEG-2和[非正式]MPEG-2.5包括其他比特率:6,12,24,32,40,48,56,64,80,96,112,128,65438。
可變比特率(VBR)也是可能的。MP3文件中的音頻被分成具有不同比特率的幀,以便在對文件進行編碼時可以動態地改變比特率。雖然在最初的實現中沒有這個功能,但是現在VBR已經被廣泛使用了。這種技術使得在聲音變化大的部分使用較大的比特率,在聲音變化小的部分使用較小的比特率成為可能。這種方法類似於聲控錄音機,不錄靜態部分,節省磁帶用量。壹些編碼器非常依賴這項技術。
通過LAME編碼器和自由格式可以實現高達640kbit/s的非標準比特率,但是很少有MP3播放器可以播放這些文件。
MP3的設計限制
MP3格式有壹些固有的限制,不能簡單地通過使用更好的編碼器來克服。壹些新的壓縮格式如Vorbis和AAC不再有這些限制。
從技術角度來說,MP3有以下局限性:
*最大位速度為320kbit/s。
*相對於快速變化的信號,時間分辨率太低。
*對於超過15.5/15.8khz的頻率,沒有比例因子帶。
*聯合立體聲是基於逐幀的。
*編碼器/解碼器的整體延遲未定義,這意味著無間隙播放缺乏正式的規定。
然而,即使有這些限制,壹個調整良好的MP3編碼器也可以非常有競爭力地完成編碼任務。
MP3音頻編碼
MPEG-1標準並沒有MP3編碼器的精確規範,相反,解碼算法和文件格式都有詳細的定義。人們想象編碼的實現就是設計自己的算法(或者它的頻域修正離散余弦(MDCT)表示)適合從原始音頻中去除壹些信息。在編碼過程中,576個時域樣本被轉換成576個頻域樣本。如果是瞬態信號,用192個采樣點代替576個采樣點,這是為了限制量化噪聲隨瞬態信號的短期擴散。
這就是聽覺心理學的研究領域:人的主觀聲音感知。
因此,有許多不同的MP3編碼器,每種編碼器產生不同的音質。它們有許多比較結果,因此潛在用戶很容易選擇合適的編碼器。應該記住,在高比特率下表現良好的編碼器(例如在高比特率下廣泛使用的LAME)在低比特率下可能表現得不壹樣好。
MP3音頻解碼
另壹方面,解碼在標準中有詳細的定義。
大多數解碼器是比特流兼容的,這意味著從MP3文件解碼的未壓縮輸出信號將與標準文檔中數學定義的輸出信號完全相同(在指定的近似誤差範圍內)。
MP3文件具有標準格式,即具有384、576或1152采樣點的幀(取決於MPEG的版本和層),並且所有幀都具有相關聯的頭信息(32位)和輔助信息(9、17或32字節),取決於MPEG版本和立體聲或單通道。報頭和輔助信息可以幫助解碼器正確解碼相關的霍夫曼編碼數據。
因此,大多數解碼器的比較幾乎完全基於它們的計算效率(例如,它們在解碼過程中需要的內存或CPU時間)。
ID3和其他標簽
主要文章:ID3和APEv2標簽
“標簽”是保存在MP3(或其他格式)中並添加到文件中的數據,如標題、藝術家、專輯、曲目編號或其他有關MP3文件的信息。目前最流行的標準標簽格式是ID3 ID3v1和ID3v2標簽,最新的是APEv2標簽。
APEv2最初是為MPC文件格式開發的(參見APEv2規範)。APEv2可以與ID3標簽存儲在同壹個文件中,但也可以單獨使用。
音量標準化
由於CD和其他各種音頻源是以不同的音量錄制的,因此將文件的音量信息保存在標簽中會很有用,這樣就可以在播放期間動態調整音量。
已經提出了壹些標準來編碼MP3文件的增益。他們的設計思路是將音頻文件的音量(不是“峰值”音量)歸壹化,從而保證不同連續曲目切換時音量不會發生變化。
保存重放增益的最流行和最常用的解決方案簡稱為“重放增益”。音軌的平均音量和剪輯信息都存儲在元數據標簽中。
可選技術
還有許多其他有損音頻編解碼器,包括:
* MP3的前身MPEG-1/2音頻層2(MP2);
* MPEG-4 AAC,MP3的MP3繼承者,蘋果的iTunes音樂商店和iPod使用;
Xiph.org基金會的Ogg Vorbis,自由軟件和無專利編解碼器;
* MPC,又名Musepack(原名MP+),源自MP2;
*湯姆遜多媒體公司的MP3和SBR的組合;
*用於AC-3、杜比數字和DVD
* ATRAC,索尼的Minidisc用的;
* Windows Media Audio(WMA)來自微軟公司;
*低速QuickTime的QDesign;
* AMR-WB+增強型自適應多速率寬帶編解碼器,針對蜂窩電話和其他有限的帶寬使用進行了優化;
* real networks的RealAudio常用於網站的流媒體;
* Speex,壹個基於CELP的專門為語音和VoIP設計的免費軟件和無專利編解碼器。
Mp3PRO、MP3、AAC和MP2都是同壹技術家族的成員,它們都基於大致相似的心理聲學模型。Fraunhofer Gesellschaft擁有許多基本專利,涵蓋這些編解碼器、杜比實驗室、索尼公司、湯姆森消費電子公司和AT & amp;t還擁有其他壹些關鍵專利。
互聯網上還有壹些其他的無損音頻壓縮方法。雖然它們不同於MP3,但它們是其他壓縮機制的優秀範例,包括:
* FLAC代表“免費無損音頻編解碼器”。
*猴子的音頻
* SHN,又名肖特
* TTA
* Wavpack
*蘋果無損
聽覺測試試圖在特定比特率下找到最佳質量的有損音頻編解碼器。在128kbit/s,Ogg Vorbis、AAC、MPC、WMA Pro的性能處於領先地位,而LAME MP3則略微落後。在64kbit/s時,AAC-HE和mp3pro略領先於其他編解碼器。超過128kbit/s時,大部分聽眾聽不出兩者的明顯區別。什麽是“CD音質”也是很主觀的:對某些人來說,128kbit/s的MP3就夠了,而對另壹些人來說,必須要有200kbit/s以上的位速..
雖然WMA和RealAudio等新編解碼器的支持者聲稱,他們各自的算法可以實現64kbit/s的CD音質,但聽力測試顯示的結果卻不同;但是這些編解碼器在64kbit/s的音質明顯超過了同碼率的MP3。無專利的Ogg Vorbis編解碼器的開發者聲稱,他們的算法超越了MP3、RealAudio和WMA的音質,上述聽力測試也證實了這壹說法。Thomson聲稱其mp3PRO已經達到64kbit/s的CD音質,但測試人員報告稱,64kbit/s的mp3Pro文件的音質與112kbit/s的MP3文件類似,但直到80 kbit/s才能接近CD的音質..
專門為MPEG-1/2視頻設計的優化MP3通常在48kbit/s以下的單聲道數據和80kbit/s以下的立體聲中表現不佳..
授權和專利問題
Thomson Consumer Electronics在承認軟件專利的國家(包括美國和日本,不包括歐盟國家)控制MPEG-1/2第3層專利的許可。湯姆遜積極加強對這些專利的保護。湯姆森已經被歐盟國家的en:European專利局授予了壹項軟件專利,但是還不清楚他們是否會被那裏的司法部門加強。參見歐洲專利公約下的軟件專利。
有關湯姆遜專利文件、許可協議和費用的最新信息,請參考他們的網站mp3licensing.com。
1998年9月,弗勞恩霍夫協會致信幾家MP3軟件開發商,稱“出版或銷售編碼器或解碼器”需要授權。這封信聲稱,未經授權的產品“侵犯了弗勞恩霍夫和湯姆森的專利權。”要制造、銷售或分發使用[MPEG Layer-3]標準或我們的專利的產品,您需要從我們這裏獲得這些專利的許可協議。"
這些專利問題大大減緩了未經授權的MP3軟件的發展,並引起了人們的註意,以發展和歡迎其他替代品,如WMA和奧格Vorbis。微軟是Windows開發系統的制造商,專門從MP3開始開發他們自己的Windows Media格式,以避免專利相關的授權問題。在這些關鍵專利到期之前,未經授權的編碼器和播放器在承認軟件專利的國家似乎是非法的。
盡管有這些專利限制,永恒的MP3格式繼續發展;造成這種現象的原因似乎是以下因素帶來的網絡效應:
*熟悉這種格式,不知道有沒有其他替代格式。
*事實上,這些替代格式並沒有明顯超過MP3的優勢。
*大量MP3格式的音樂,
*大量不同的軟件和硬件使用這種格式,
*沒有DRM保護技術,使得MP3文件很容易通過網絡修改、復制和再分發。
*大多數家庭用戶不知道也不關心軟件專利糾紛。通常這些糾紛與他們個人使用和選擇MP3格式無關。
此外,專利持有者不願意對開源解碼器征收許可費,這也帶來了許多免費MP3解碼器的發展。此外,盡管他們試圖阻止編碼器的二進制代碼被發布,但湯姆森已經宣布,使用免費MP3編碼器的個人用戶將不必支付費用。這樣,雖然專利費是很多公司在計劃使用MP3格式時需要考慮的問題,但對用戶沒有影響,帶來了這種格式的普及。
Sisvel S.p.A. [1]及其美國子公司Audio MPEG,Inc. [2]之前曾起訴湯姆遜[3]侵犯MP3技術專利,但那些糾紛最終在2005年6月結束,當時Sisvel授權湯姆遜MP3。摩托羅拉最近還與音頻MPEG簽署了MP3許可協議。由於Thomson和Sisvel都擁有獨立的專利,他們聲稱這些專利對於編解碼器是必要的,因此MP3專利的法律地位並不明確。
弗勞恩霍夫的專利將於2010年4月到期,屆時MP3算法將不再受專利保護。