多媒體信息是未來人類獲取信息的最重要載體,因此它已成為當前世界技術發展和研究的熱點。作為多媒體信息中最受關註、數據量最大的成員,視頻信息現在正面臨著壹場意義不亞於模擬到數字的技術進步和創新:從傳統的矩形DCT變換編碼,到分別基於視頻內容、對象劃分和變換編碼的新編碼方法。
第壹,傳統的編碼方法
傳統的視頻編碼以視頻信號的數字量為編碼對象,與視頻信息的內容無關。無論是M-JPEG、MPEG-1還是MPEG-2,都是以DCT矩形變換塊為變換編碼單元,對DCT塊中圖像的亮度和色度進行采樣,提取像素。基於參考幀的內DCT編碼,使用幀間編碼和運動估計技術來預測DCT塊中圖像的像素特性。基於矩形DCT編碼的視頻編碼只考慮了信號數據處理的需要(如小比特率便於傳輸,高比特率保證質量),而沒有考慮視頻信息——圖像內容本身的意義和重要性,以及視頻信息使用者的主觀需求(如某些內容的提取功能)。再說這種賤?quot塊壓縮算法在低碼率下容易產生“塊效應”和“幀提取”,大大縮小了視頻信息的應用領域。
小波變換是壹種新的變換編碼方法。與DCT變換相比,它考慮到了視頻信號對不同應用環境(不同清晰度和比特率)的適應性,可以將基本圖像層與增強圖像層分開進行編碼和傳輸。用戶可以根據實際情況選擇是否打開增強圖層。但無論用戶選擇是還是否,傳輸的視頻信息都是壹樣的。
第二,基於內容對象的編碼
1、VO和VOP概念介紹
傳統的視頻編碼方法是將整個視頻信號作為壹個單壹的內容,不可分割,這與人類對視覺信息的判斷規律,即大腦對視神經引入的視覺信號的處理方式完全不同。這就決定了我們不可能完全從視頻信號中提取出壹個視頻信息,比如把壹個有logo和字幕的視頻還原成壹個沒有logo和字幕的視頻。解決問題的唯壹途徑是在編碼時區分不同的視頻信息載體——視頻對象(VO),並獨立傳輸,將圖像序列中的每壹幀視為由不同的VO和運動背景組成。VO可以是壹個人或事物,也可以是計算機生成的2D或3D圖形。VO具有音頻屬性,其屬性賦值是可能的。quot是或否。但音頻的具體內容數據與視頻編碼和傳輸無關。VO概念的引入更符合人腦對視覺信息的處理方式,使視頻信號的處理方式從數字化向智能化進步。它提高了視頻信號的交互性和靈活性,使更廣泛的視頻應用和更多的內容交互功能成為可能。
現代圖像編碼理論指出,人眼捕捉圖像信息的本質是“輪廓-紋理”,即人眼對VO的某些表面特征感興趣,如形狀、運動、紋理等。VO的表面往往是不規則的,千變萬化的,但從某個角度來看,它可以看作是N個具有規則形狀和壹定紋理的截面組合的連續運動,這些截面的組合稱為VOP(Video Object Profile,VOP)。VOP從某個視角描述了虛擬現實的表面特征。VOP編碼主要由兩部分組成:壹部分是形狀編碼,另壹部分是紋理和運動信息編碼。VOP紋理編碼、運動預測和補償原則上與MPEG-2基本壹致,而形狀編碼技術則首次應用於圖像編碼領域。
2.新編碼技術
合成VO的獨立編碼在過去,2D或3D動畫被視為視頻的壹部分,它壹直被視為視頻。事實上,根據合成VOs的合成機制和特點,大多數合成VOs都可以用多種關於圖文的通用表達式來描述。非復雜復合VO將被編碼為獨立於視頻的數據類型,並定義了其描述框架、通用數據流結構和靈活接口。復雜合成VO和自然VO的編碼方式將采用以下編碼方式。
考慮到與現有標準的兼容性,基於矩形窗口的VOP分割仍然采用目前已經應用的VO編碼技術中基於矩形窗口的內容分割方法,如MPEG4。編碼時,首先利用像素特征統計將每個VOP限定在壹個矩形窗口內,稱為VOP窗口。窗口選擇的原則是:長和寬都是16像素的整數倍(方便兼容現有標準和未來擴展),同時保證VOP窗口中非VOP宏塊的數量最少。目前標準中的視頻幀可以認為是沒有VOP的特例,在編碼過程中屏蔽掉形狀編碼模塊就足夠了。在VOP窗口中,VOP部分的形狀也是8×8像素的矩形。對於不同的VOPs,根據不同的應用和運動變化的特點,可以采用固定或可變的VOP幀率(即VOP刷新頻率)。
矩形窗口分割方法不能反映VOP的具體形狀信息。為了用矩形窗口分割法確定VOP的形狀信息,引入了形狀編碼技術。事實上,形狀編碼並不是壹項新技術。它在計算機圖形學和計算機視覺領域有著廣泛的應用。當前視頻編碼標準中的位圖技術實際上是形狀編碼的壹個簡單特例。位圖以矩陣的形式表示二進制(0或1)形狀信息,編碼效率高,計算復雜度低。VOP的形狀信息有兩種:邊緣信息和灰度信息。邊緣信息用0和1表示VOP的形狀,0表示非VOP地區,1表示VOP地區。對於具有壹定透明度的VOP地區,透明度可以用灰度信息來表示(範圍從0到255),其中0表示完全透明,255表示完全不透明。對於模糊邊緣部分,可以看作是周圍已知VOP區域的灰度值到零值的灰度信息的過渡區域,其形狀信息可以用插值法確定。
基於小波變換的VOP分割基於矩形窗口的VOP分割仍然存在“塊效應”問題,而基於小波變換的VOP分割可以很好地解決這個問題,並且由於這種分割方法本身包含了VOP的形狀信息,所以不需要對形狀信息進行判別和編碼。基於小波變換的VOP分割方法是目前視頻編碼最活躍的研究領域,各種算法不斷發表,但基本上可以分為兩類:
1.利用圖像灰度特征進行分割:不同的圖像有不同的灰度分布。利用小波變換,將圖像變換到小波域,生成各層和各子帶的圖像。小波變換後,大部分能量集中在低頻子帶圖像中,即大面積平均灰度區域信息主要體現在低頻子帶圖像中。根據信息論原理,通過確定多個灰度閾值,可以從低頻子帶圖像中分離出不同灰度級的VOP。同時,利用高頻子帶圖像和模糊數學模型確定每個VOP的邊緣信息。基於圖像灰度特征分割的小波變換是沿掃描方向的單向變換。
2.利用圖像紋理特征進行分割:紋理是局部特征重復的結果,反映了圖像的局部頻域信息。對於壹幅數字圖像,進行多方向小波變換是可行的,比如對壹幀進行垂直或對角小波變換。經過各種小波變換,可以得到不同方向的子帶圖像,每個子帶圖像包含不同紋理的局部光譜信息和紋理趨勢信息。對光譜特征相同的圖像部分進行聚類分析,根據紋理光譜和紋理趨勢確定聚類的紋理邊緣。根據信息論和運動估計的原理,對具有相關性的運動矢量的聚類再次分類到不同的對象(VOP)中,並以不同的灰度顯示。多級小波變換的結果最多可以線性映射成0 ~ 255灰度顯示。小波變換的方向越多,每個方向的夾角越小,圖像分割越準確,但計算量也迅速膨脹。根據局部紋理中心頻率的變化,自適應地選擇小波變換的級數和方向,有助於實現圖像分割精度和計算量之間的平衡。本文前面提到,人眼捕捉圖像信息的本質是什麽?quot輪廓-紋理”,因此基於多方向小波變換的圖像特征提取和紋理圖像分割方法符合人類視覺生理特點,是紋理圖像分析的壹個重要發展方向。
無論哪種方式,在獲得不同VOP的不同灰度表示後,通過類似於關鍵技術的多通道處理,可以獲得多個原始彩色VOP。目前實驗表明,基於小波變換的圖像分割在邊界上還是有點模糊,但總體效果還是比較令人滿意的,達到了分割紋理圖像的目的。
VOP運動信息編碼和運動補償當人眼觀看壹幅圖像時,它會自動跟蹤人們感興趣的VOP。也就是說,人們看到的不是時間軸上的信息,而是光流軸上的信息,VOP的軌跡。光軸是運動圖像上VOP上壹點的軌跡,在不同的幀中位於不同的空間位置。它的意義在於,VOP本身的所有變化都會被映射到光軸上的壹個點上。對光流軸信息進行獨立編碼會帶來很多好處:(1)編碼時,對於剛性VOP,由於它在運動過程中不會改變形狀和紋理,所以VOP只需要完成壹次采樣和編碼,之後它只需要發出幾個運動矢量來表示它的光流軸;對於非剛性VOP,只需要在變化時進行重采樣和編碼,使得不同的VOP采用不同的VOP幀率成為可能,將編碼後的數據速率降到最低。(2)VOP在運動中的各種變化都會在光軸上留下痕跡。在進行運動補償時,比如不同格式之間的轉換或者慢動作制作時,可以根據光軸映射信息,通過插值的方法得到時間軸上某壹點的VOP狀態,從而達到無損轉換的目的。(3)在時間軸上,簡單疊加壹個圖像序列的兩個信號,圖像的噪聲和運動部分就不會被增強;如果信號疊加在光軸上,運動圖像的降噪問題就簡單解決了。
VOP的運動估計是指分析兩幀或多幀中的VOP,確定光流軸,以判斷VOP在下壹幀中可能的位置。VOP的運動補償是指根據VOP光軸的方位和VOP本身在光軸上的變化所獲得的映射信息,修正VOP在時間軸上的運動矢量。運動預測和運動補償技術可以從圖像信息中去除時間冗余分量,並且VOP的運動信息編碼可以被視為從像素到具有任意形狀的VOP的擴展。
紋理編碼在已經實際應用的MPEG-4中,VOP的紋理編碼仍然采用基於8×8像素塊的DCT方法,有三種模式:幀內編碼模式(I-VOP)、幀間預測編碼模式(P-VOP)和幀間雙向預測編碼模式(B-VOP)。編碼時,對完全位於VOP的像素塊采用經典的DCT方法;對於完全在VOP之外的像素塊,不執行編碼;對於部分在VOP、部分在VOP之外的像素塊,先用圖像填充技術獲取VOP之外的像素值,再進行DCT編碼。
基於視覺特征的紋理編碼還處於理論研究階段,其目標是建立壹套常見紋理的局部特征符號,定義壹種多媒體語言來描述紋理的分布和趨勢。以人臉為例:人臉定義參數(FDP)描述了特定人臉紋理形狀模型與壹般人臉模型的區別。通過接收到的FDP,可以將通用人臉模型轉換成由其形狀和紋理確定的特定人臉。面部動畫參數(FAP)描述了特定面部表情和中性表情之間的變化關系。通過接收到的FAP,可以生成與聲音同步的各種面部表情和嘴唇運動。這樣的合成編碼不僅可以大大提高編碼效率(可以獲得1kbps的超低比特率),還可以為制作新面孔等物體提供方便。
分層編碼多媒體應用具有不同的信道帶寬、處理能力、顯示能力和用戶需求,要求在解碼端支持時域、空間和質量的可伸縮性,即分層編碼。分級編碼可以通過數據結構VOL(視頻對象層(VOL))來實現。每個分級編碼至少有兩層VOL,下層稱為基本層,上層稱為增強層。空間可伸縮性可以通過增強層增強基本層的空間分辨率來實現,因此必須在解碼增強層中的VOP之前解碼基本層中的相應VOP。同樣,對於時間可伸縮性,視頻序列中某個VO(尤其是運動VO)的幀率可以通過增強層來提高,使其比其他區域更平滑。
三、新的技術標準——MPEG 4
第壹次采用VO編碼技術的視頻編碼標準是MPEG-4。MPEG-4正式成為國際標準(標準號為ISO/IEC 14496)始於1999。在後續版本1999中,增加了可變形半透明視頻對象及其工具的高級功能,進壹步提高了編碼效率,並向後兼容第壹個版本。
1和MPEG-4標準的組成
1)DMIF(delivery多媒體集成框架):多媒體傳輸的總體框架協議。MPEG-4標準將眾多多媒體應用集成到壹個完整的框架中,旨在為多媒體通信和應用環境提供靈活的算法和工具,實現音視頻數據的有效編碼和更加靈活的訪問。它解決了許多領域多媒體應用的個性化交互操作問題。
2)解碼器:定義了MPEG-4系統的特殊解碼模式(SDM),需要特殊的緩沖區和實時模式。
3)音頻編碼:支持自然聲音和合成聲音,支持音頻的對象特征。
4)視頻編碼:支持自然和合成的視覺對象,包括2D、3D動畫和面部表情動畫。
5) BIFS(用於場景描述的二進制格式):關於壹組VO的時空結構的參數信息,主要描述特定背景下VO的相互關系和同步性,以及VO及其背景的知識產權保護。BIFS和VO對象特征信息的編碼和傳輸相對獨立。場景描述信息的編碼和獨立傳輸是實現用戶端編輯操作的關鍵:解碼後,場景合成前,用戶可以通過重置BIFS參數對VO進行各種編輯操作,如加、減、縮放、平移甚至壹些特效。
下表反映了MPEG系統的壹些技術指標。MPEG-4是壹種高速率的有損壓縮(比如壹個9 GB的DVD視頻被壓縮復制到壹個只有700MB空間的光盤上),其畫質永遠無法和MPEG-2相比。當MPEG-4和MPEG-2的比特率輸出相同時,其質量仍然略遜於MPEG-2。同時,MPEG-4對硬件要求更高。事實上,我們註意到MPEG-4在保證令人滿意的圖像質量的同時,更註重較低的數據速率和靈活的交互功能。
2.MPEG-4編碼器
MPEG-4編碼的簡化示意圖如圖1所示。
對於輸入的視頻序列,通過分析確定N個視覺對象為編碼對象,它們被標識為N個VOs (n = 1,2,3...).對每個VO進行編碼後,形成該VO的VOP數據流。VOP的編碼包括運動(使用運動預測方法)和形狀與紋理(使用變換編碼方法)的編碼。由於VOP具有任意形狀,這就要求編碼方案能夠處理形狀和透明度信息,這是與現有的只能處理矩形幀序列的視頻編碼標準的根本區別。在MPEG-4中,矩形幀被認為是VOP的壹種特殊情況。此時的編碼系統不需要處理形狀信息,退化為類似MPEG-1和MPEG-2的傳統編碼系統,同時也兼容現有標準。除了VO圖像背景的其余部分,仍然使用傳統的矩形DCT變換編碼;VO場景描述信息(VO本身的信息,如VO對象的知識產權,VO與VO之間的位置和邏輯關系等。)也要進行編碼,最後和VOP流、背景壹起送到MPEG-4幀合並器,生成MPEG-4流輸出。
需要指出的是,VO分割後,每個VO需要壹個VOP編碼通道,圖1中只畫了壹個。多個VOP幀發生器的輸出可以在MPEG-4幀組合器中靈活地多路復用或同步傳輸,以適應各種傳輸環境和要求。MPEG-4解碼是上述編碼過程的逆過程。可以看出,與背景無關的VO編碼可以實現接收端用戶對VO對象的選擇性操作。
3.MPEG-4視頻編碼的功能和特點
MPEG-4標準的制定有兩個目標:低比特率多媒體通信和多行業多媒體通信的融合。也就是說,MPEG-4遵循編碼工具的靈活框架,設計開放的編碼系統,針對不同的應用采用不同的編碼算法,以達到低比特率通信的目的。MPEG-4解碼器是可編程的,相應的解碼信息可以與內容本身壹起傳輸和下載。與現有的MPEG-1和MPEG-2視頻壓縮相比,MPEG-4視頻有壹些重要的改進:
1)基於內容的交互功能:MPEG-4提供了壹種全新的交互模式。根據制作者的具體自由度,可以實現對多媒體VO在時域上的隨機訪問(從不同來源獲取內容或向不同來源發送內容)、快速搜索、改變場景的視角、改變場景中物體的位置、大小和形狀,或者在有限的時間內替換甚至清除物體。
2)支持自然和合成信息的混合編碼(NHC): MPEG-4支持合成信息的編碼,可以參數化合成VO及其活動信息。對於頻繁出現的視覺對象,分別定義了它們的紋理形狀和動畫參數。
3)高效編碼:包括視頻VO數據的高效編碼和多個並發數據的有效同步編碼。
4)基於內容的可伸縮性:指分層編碼後基於內容的紋理、圖像、視頻的可伸縮性,以及視頻序列中時域、空間、質量的可伸縮性,表現為實時或非實時的時域、數據速率、重建圖像質量。
5)可變的最終輸出:不同的碼率意味著支持不同的功能集。最底層的功能集是VLBV(Very Low Bit Rate Video),為最低5-64kbits/s的視頻操作和應用提供算法和工具,支持低空間分辨率(352×288像素以下)和低幀率(15Hz以下)。VLBV的核心功能包括:矩形圖像序列的有效編碼,多媒體數據庫的搜索和隨機存取。MPEG-4的HBV(高比特率視頻,範圍從64千比特/秒到4兆比特/秒)也支持上述功能,但它也支持高空間和時間分辨率。它的輸入可以是ITU-R 601的標準信號,所以它的典型應用是數字電視廣播和交互式檢索。
與MPEG-1和MPEG-2相比,MPEG-4更適合交互式AV服務和遠程監控。MPEG-4是第壹個允許用戶操作的視頻編碼標準。MPEG-4的特性非常適合互聯網上的交互式視頻業務:可以適應各種應用終端的物理網絡環境,實現視音頻內容的交互操作,具有下載解碼能力(在壹定硬件的基礎上,可以下載解碼工具對不同編碼方式的內容進行解碼)。MPEG-4的設計目標還具有更廣泛的適應性和擴展性:互聯網多媒體應用、交互式視頻遊戲、實時可視通信、交互式存儲媒體應用、廣播電視、演播室技術和電視的後期制作、多媒體內容存儲和檢索、具有面部動畫技術的虛擬會議、移動通信條件下的多媒體應用、可視協同實驗室場景應用、遠程視頻監控、通過ATM網絡的遠程數據庫服務等等。
從矩形框到VOP,MPEG-4順應了現代圖像壓縮編碼的發展趨勢,即從基於DCT的傳統編碼向基於對象和內容的現代編碼轉變。從這個意義上說,MPEG-4視頻編碼技術在圖像編碼史上翻開了新的壹頁。
四。MPEG 4視頻產品
在2001 NAB展會上,很多公司都推出了自己的MPEG 4產品。Amnis公司推出了基於IP平臺的MPEG-4視頻流技術,並展示了可以回放MPEG-1、MPEG-2、MPEG-4的桌面軟件。Envivo展示了他們的MPEG2網絡或MPEG2節目數據廣播端到端解決方案。該方案是純軟件,支持視頻、音頻和合成2D動畫的MPEG-4編碼,並保護MPEG-4文件的版權。Optibase公司推出的MGW系列是壹款插件式多路流媒體服務器系列,可以插入不同的編碼模塊以滿足不同的需求,其中MGW 4000是壹款支持MPEG4(兼容MPEG1和MPEG2)的流媒體服務器。Optibase還推出了壹個支持多媒體和交互式MPEG4-4流的IP實時編碼和分發平臺。最後,Optibase演示了從MPEG 1到MPEG 4的實時轉碼技術。飛利浦提供從制作到播放的端到端在線MPEG-4解決方案,包括交互式內容編輯器(支持在線MPEG-4視頻流的搜索、編輯和剪輯)、實時軟件MPEG-4編碼器(甚至支持簡單視頻和AAC音頻的無線編碼)、通用多點分發IP平臺和解碼軟件(WebCine' player支持Win95、Win2000和nt操作系統;WinCE用於便攜式計算機;Trimedia是在線廣播機頂盒)。SUN還推出了他們的通用MPEG-4流媒體服務器。
微軟還在其當前的WIN98和WIN2000操作系統中增加了壹個名為Divx的MPEG-4播放器。它可以播放MPEG-4文件。AVI後綴。Divx可以附加在MPEG-4數據流上,可以設置滿足不同的使用需求。Divx視頻編碼技術由微軟MPEG-4V3修改而來,采用MPEG-4壓縮算法,打破了ASF的各種協議。但是,MPEG-4畢竟是壹種高速率的有損壓縮,畫質永遠比不上DVD的MPEG-2。即使在MPEG-4的碼率和DVD差不多的情況下,整體效果還是差得很遠(在雜亂的細節中略顯模糊)。因此,目前的MPEG4-4只能面向娛樂和欣賞市場。
市面上首款DIVX-MPEG4-4格式的DVD《活火與熔城》,片長98分鐘,512×288 16:9格式,幀率24幀/秒,64KB立體聲音頻。影片以720×480 16:9 30幀/秒的速度從MPEG2-2系統轉錄並刻錄在壹張CD上。
六、結尾
在本文的最後,作者還想說壹些與本文相關的解釋性的話。由於工程實現、商機和市場的原因,我們所取得的工程技術成果往往落後於科學家已經掌握並可以輕易獲得的實際前沿科技成果。MPEG-4標準是多重因素的結果,不考慮與現有產品的兼容性,它可以做得更好。
VOP編碼是視頻信號處理技術從數字化走向智能化的初步研究。此外,依托VOP技術,模式識別技術已經從符號識別進入到更新圖形識別領域。數據顯示,這種研究進壹步接近了人類大腦處理視覺信息的方式。人類將永不停息地揭示大自然的無限奧秘,也將更加深入地探索人類。