2011年10月27日 星期四

3D來襲 人類視覺極限大突破


近來在核心視訊處理技術方面的重大突破,將視訊技術推升到了得以媲美人類視覺系統性能的地位。過去幾十年來我們已目睹顯示器系統所能容納的影像畫素數量正與日劇增,標準解析(SD)視訊也快速地過渡到高解析(HD)視訊的新時代。

另一項值得注意的革新是畫素品質的明顯提升,其特點是視訊系統更加講究高動態範圍(HDR),以取代低動態範圍(LDR)的同級產品。

再者,對於影像的解讀還發展出一種可複製人腦感知能力的直覺途徑,因而帶來了更令人振奮的重大成就,同時,在此發展過程中,3D視訊系統的出現更使得2D系統黯然失色。

這些先進技術均朝著一個共同的目的發展──透過可模擬人類視覺感知各方面的視訊擷取技術,以確保現實與數位世界之間的界限消失。這些方面基本上都涉及了視訊擷取、顯示技術、資料壓縮以及視訊內容解讀等領域的視訊處理研究。

3D、HD與HDR視訊擷取

目前有兩種截然不同的技術適用於擷取數位視訊──電荷耦合元件(CCD)和互補金屬氧化半導體(CMOS)影像感測器,這兩種技術都先將光強度轉換成相應的電荷值,以便於稍後進行電子訊號處理。

這些技術實現了更高品質的HD視訊擷取,並影響了將近半世紀以來的後續發展。然而,以HDR視訊的觀點來看,這些技術在典型的人眼功能比較下,卻顯得相形見絀。因為,人類的眼睛本身擁有著高達10,000:1的動態範圍(可視範圍內最亮對最暗部份的比值)。

現有的數位錄影機只能擇一採用短時間曝光來補捉某個場景中的明亮部份,或者選擇以長時間曝光來捕捉較暗的部份。

實際上,使用具有一或兩個光分離器的多部錄影機,就可以避免掉這個缺點,因而在不同的曝光設定下同步捕捉到幾個視訊序列。

光分離器能夠同時擷取到一致的低動態範圍場景,其中的最佳部份再用於合成HDR視訊。從研究的角度來看,所面臨的挑戰是如何以單一錄影機來實現更高的動態範圍──儘管這種方式不可避免地會稍微降低品質,但並不至於明顯感受到差異。

此外,配備先進影像感測器的HDR錄影機預計在不久的將來即可達到這個目的。

3D擷取技術廣泛採用的立體技術是以雙視圖的設置來獲取立體圖像對。並排的錄影機之間必須分開設置──其間的距離即相當於人眼瞳孔間的距離。

利用觀看遠方物體沿著相同視線到達每隻眼睛,而近處物體則以不同的角度到達的概念,就能夠從立體影像對中取得真正的三維影像。

一種適用於替代立體技術的是多重視圖技術,它可透過使用相機陣列記錄幾個獨立的視訊串流,以擷取三維場景。此外,可捕捉場景光線的全光鏡相機(plenoptic camera)也可以用一個單鏡頭來擷取多個視圖。所擷取到的景可以多視圖的方式呈現,或儲存以用於進一步的處理。

3D、HD與HDR視訊壓縮

為3D、HD與HDR視訊傳輸進行訊號擷取時,所利用的並非傳輸系統的實際頻寬要求。例如,以每秒60格(60fps)的速度擷取未經壓縮的2百萬畫素2D視訊需要將近2Gbps的頻寬──這是目前在OpenNet最高可用頻寬的兩倍。

對於HDR視訊而言,每個畫素可由一個96位元浮點數字呈現;因此,以60fps擷取的未經壓縮2百萬畫素2D HDR視訊需要將近12Gbps的頻寬。所擷取的視訊數據因而必須有效地加以壓縮,才能確保實際的傳輸,如同在視訊編碼領域的研究一樣。

視訊壓縮主要取決於兩個直覺的概念。首先,連續的原始視訊訊框之間高度相似,意味著其間充斥著大量的冗餘資訊。其次,即使是在訊框本身也存在這種冗餘資訊,如同現實生活場景中存在的高度可能性──相鄰畫素之間具有類似的數值。

採用先進的編碼技術除去這些冗餘資訊,讓視訊規格得以大幅地降低傳輸與儲存所需的資料量。再者,儘管經過大量的壓縮,但先進的預測技術可在視訊解壓縮過程中用以保持較高的視訊傳真度。

過去幾十年來,有關如何提高2D視訊編碼壓縮效率的研究已經廣泛進行中。以性能衡量標準來看,用相同解析度傳輸相同視訊品質所需的頻寬數已經逐漸地減少了。

這主要來自於視訊編碼標準的進展,包括MPEG-1、MPEG-2、MPEG-4和H.264/AVC等規格持續提升,確保了不同設備之間的互通作業性。例如,MPEG-2以DVD的規格進行視訊編碼,能夠確保任何DVD可在任何符合標準的DVD播放器中順利播放以及觀看。

其中一種目前廣泛使用的先進視訊編碼標準是H.264/AVC。這一標準的開發包括來自新加坡資通訊研發中心(I2R)的技術貢獻,最後並於2003年正式獲得業界支援。

此後,這一標準迅速地獲得了全球認同,並廣泛地部署於眾多消費電子產品以及互動視訊中。儘管I2R取得這一重大成就,該組織仍持續在此重大貢獻的基礎上,致力於進一步發展商用化且更具影響力的業界解決方案。

為了因應消費者持續對於更高解析度視訊內容的需求,ISO/IEC與ITU-T等標準組織已經找到業界需要的全新視訊編碼標準,能夠進一步提高壓縮效率,以實現更高解析內容的傳輸與儲存。

視訊編碼聯合開發團隊(The Joint Collaborative Team-Video Coding;JCT–VC)的成立,在於協調‘高效率視訊編碼’(HEVC)標準的開發工作,以期實現一種可提供較H.264/AVC更低50%視訊編碼位元率需求的視訊編碼標準。初次會議已於2010年4月舉行,I2R的參與更強調了這一行動需要整體業界廣泛的支援與貢獻。

對於HDR視訊而言,透過提高輸入畫素精確度,即可實現壓縮。傳統上,視訊壓縮技術只需考慮每畫素8位元(8bpp)的輸入視訊,但HDR視訊需要至少10-14bpp。

因此,H.264/AVC標準已進行了修訂,以便使HDR視訊的輸入可達到14bpp。目前HEVC標準正草擬中,預計將可提供必要的性能以處理高達14bpp的HDR視訊。

然而,在3D領域中,壓縮技術的選擇取決於這些視訊影片再現的方式。其中的一種方法是集合多張2D視圖以再現3D視訊,如同立體視訊由左右視圖組成一般。

在此,一種明顯的壓縮方案採用稱為‘聯播’(simulcast)的方式獨立壓縮每張視圖。然而,在每張視圖之間可能存在大量的重疊,而其中所包含的冗餘資料量可再加以利用,以便進一步的壓縮。

3D、HD與HDR視訊顯示器

大多數現有的顯示設備已經能夠顯示HD視訊了,但在3D和HDR視訊方面,儘管3D電視機在市場上已經越來越普及了,但在技術上卻還未能達到像HD視訊一樣的進步。

以HDR技術而言,顯示設備與真實場景二者的動態範圍之間所具有的差距使得HDR視訊影片無法在現有顯示器上呈現出來。在壓縮HDR視訊的動態範圍時,並非採用試圖保留場景的‘感覺’,而是讓顯示設備設計成直接反映出HDR視訊。就像HDR擷取技術的情況一樣,在可預見的將來,可望同時看到HDR顯示器、印表機等各種輸出設備的出現。

然而,對於 3D視訊而言,特別值得注意的是這一類顯示器分別為左右眼睛帶來了投射式的立體影像。為此,3D顯示器可採用了兩種策略。首先,使用3D眼鏡分為每一個眼睛投射補償影像。


例如,立體3D使用被動式紅青色鏡片,而偏振3D則採用被動偏光鏡。其次,用戶不必配戴眼鏡,而是透過一種名為‘裸眼3D立體顯示’(auto-stereoscopy)的技術,讓顯示器自身負責為觀眾的眼睛投射適合的立體影像。

此外,雖然單視圖的顯示器一次只投射一個立體圖像對,多視圖顯示器利用頭部追蹤裝置,因應觀眾的頭部位置和視角來改變視圖。而在自動多視點(auto-multiscopic)顯示器的特殊情況下,顯示器可為多位觀眾投射某個場景的多張獨立視圖。

這些視圖是採用上述‘帶景深資訊的2D視圖’方式即時製作成的。此外,還有全像技術(holography)、立體顯示(volumetric display)和普菲立克效應(Pulfrich effect)等其它不同的顯示器技術。

雖然3D視訊為觀眾帶來了更逼真的視覺體驗,但這種效能的提升也有其代價,包括在觀看3D影片時可能對觀眾造成輕微的疲勞、甚至嚴重的頭痛等不適症狀。許多科學家和研究人員們目前正致力於解決這個問題,預期能夠消除或減輕這種不適的解決方案即將問世。

3D、HD與HDR視訊解讀

視訊內容搜尋技術的研究有助於觀眾找到他們所感興趣的視訊片段。一般而言,好的視訊搜索引擎主要由兩個主要的模組所組成──視訊內容分析(VCA)和查詢最佳化。

VCA是指能夠在視訊內容中自動辨識物件和事件的能力。一個關鍵的組成部份是概念檢測,這基本上是一種可在視訊不同部份中預測特定概念所在位置的分類任務。

在此,視訊截圖或關鍵訊框可自動地以語意概念加以注解,這其中包括對象、場景,以及為視訊內容索引和理解提供良好的調解功能。

雖然概念檢測的整體精確度仍有些不盡如人意,但在幾個概念的檢測上已取得了重大突破,包括臉部和重要的地標等。

值得注意的是,在建模一種有限的概念組合時,這些概念檢測是唯一有效的方法,正因為如此,未來補強的方向應可包括普遍概念檢測器的設計,以便能夠在缺乏先例的情況下仍能進行辨識。

另一項稱為‘查詢最佳化’的模組目的在於了解用戶在文件或多媒體查詢以外的搜尋目的。為了滿足用戶的目的與含義,在找到一個適當的含義以前,該模組將持續檢查多項查詢計劃。

以多種途徑查找合適查詢計劃的方式,使其無法提出一種絕佳的策略。事實上,還必須考慮到制訂最佳計劃以及執行計劃本身所需的時間等權衡折衷問題。

儘管在此日益複雜的領域中正面臨大量的挑戰,I2R已經採取一種先進的查詢最佳化方法,提供一系列包括可利用的表面和句法模式等功能,以便將搜尋查找映射於不同的視訊情境中。

過去幾十年來,可實現視訊擷取、顯示、壓縮與解讀的技術已經歷了重大的進展,而其於落實數位影像感知的終極目標也已經取得了明確的定義。

在這些技術完整之後,再加上不久的將來即將取得的突破性發展,預期我們開始用機器完美地再現所看到的一切事物且能同步理解語義的時代將不遠矣!

電子工程專輯 2011/10/14  Susanto Rahardja 新加坡科技研究局(A*STAR)副執行長。


相關連結
Creating video that mimics human visual perception ( EETimes)


沒有留言:

張貼留言