2009年10月1日 星期四

視線追蹤技術簡介

視線追蹤系統(eye gaze tracker)的目的是要偵測眼睛注視的方向,藉由追蹤眼睛視線,可以明確知道使用者感興趣的事物,因此視線追蹤一直是一個有趣以及重要的研究議題。視線追蹤系統的應用很廣,早期的系統是發展在一個實驗室或者是在一個受控制的環境之下使用,來避免外界的不確定的干擾所造成的不穩定性。隨著技術不斷的改良,視線追蹤系統的適用範圍以及場合越來越不受限,目前也有一些商品化的產品,不過價格依然相當昂貴。
一般來說,視線追蹤系統的應用有心理認知、行為研究、可行性研究(Usability)、市場調查、人因工程和人機互動介面等等。透過視線追蹤系統追蹤使用者的視線方向使用者可以更有效率的來操控電腦,這不僅提供了另一種溝通方式,也擴充了電腦的應用範圍。此外對於肢體障礙者(例如漸凍人或肌肉萎縮症患者) 視線追蹤系統也可以作為電腦輔具,為他們提供與外界溝通的另一種管道。

一般來說視線追蹤的技術大致可分為二維的方法與三度空間定位的方法兩種。二維的方法意指在視線追蹤的過程並不需要估測眼球在三度空間的位置,所以一般二維的方法需要使用者在使用視線追蹤時,頭部必須靜止不動。如需要更精準估測視線追蹤的結果時,使用者在還需要輔助裝備,如下巴支撐架或者使用者頭部需戴上其他的設備等。二維的技術大致有搜尋線圈法(Search coil)[1]、眼電圖法[ 2] (Electro -oculography,簡稱EOG)。此外利用攝影機近距離的擷取影像中瞳孔相對於眼睛位置的資訊,也可以用來推估眼睛視線的位置。例如異色邊界追蹤法( limbus tracking)、瞳孔追蹤法(pupil tracking)、瞳孔與角膜反射追蹤法[3],以及類神經網路[4]的技術等。

此次報導主要是介紹幾種利用電腦視覺(computer vision)技術來實現視線追蹤的方法。
首先要介紹的是「瞳孔中心/角膜亮點法」(Pupil-Center/Corneal-Reflection, 簡稱 PCCR)。其方法為利用紅外線 (IR) 在角膜上產生一個亮點(glint),其目的是產生一個替眼睛找出一個定位的參考點,角膜表面上的亮點位置不會隨著角膜的轉動而改變,但瞳孔會隨著視線的移動而改變。利用這樣的特性,我們可以其利用「亮點與瞳孔中心之間的向量」與「電腦螢幕座標做映對」。此外,使用 IR 光的另一個好處是因為眼睛看不到 IR 光的頻譜,所以不會對使用者造成干擾。如圖一所示, (a) 為在 IR 光拍攝到的眼睛影像 (b)將螢幕分成九個區域(水平垂直各切三塊),當頭部靜止不動時,由攝影機觀測眼球凝視螢幕上九個區域的情形(由左上至右下) [4]。由圖中可得知眼睛看螢幕的位置是與由瞳孔與亮點之間的相對關係來得知。此種關係可以簡單的用一維或二維的多項式來建構。故在使用設備之前,需要對每個人先進行校正,將亮點與瞳孔中心之間的向量與電腦螢幕座標的映對建構出來。在使用上由於亮點會隨著頭部的移動而改變,瞳孔凝視座標的角度也不同,使得之前校正的映對關係不成立。故使用者的頭部需要保持不動。一般要保持操作上精準性,還是需要頭部定位的裝置的輔助,例如下巴架。


圖一 a
圖一 b


相較於二維的追蹤技術,三度空間視線定位的方法需參考眼球在三度空間中位置,這個資訊可以修正由於頭部的晃動所造成的視線誤差。上述所提二維的估測法可以推廣至三度空間的定位法。即若能利用某些方式來得知眼球在三度空間的絕對位置,則可以放寬二維的方法中頭部需靜止不動的限制。一般來說,要從影像精確的分析視線的方位需要近距離的高解析度影像,但由於近距離的緣故,攝影機的視角就只能夠取得比較小的範圍,眼睛很容易的因為頭部的晃動而跑出攝影機的可見範圍外。所以要克服頭部晃動的問題又要同時近距離的取得高解析度的眼睛的影像,一般在作法上是使用廣角攝影機(wide-angle camera)來輔助取得眼睛所在的位置,並使用PTZ攝影機定位眼睛並取得更精細的影像。

Wang [6]提出一個使用單一廣角的攝影機並搭配一台PTZ攝影機來進行視線追蹤。他們方法分為兩個部份。一個部份為頭部位置與方位的估測;第二部份為視線的估測。首先他們利用廣角的攝影機以及臉部的幾個特徵點(內外眼角以及嘴角,如圖二(a)所示)來估測頭部的在空間上位置。並且利用E1E2、E3E4與M1M2平行的關係來求出消失點(見圖二(b)),並利用消失點的關係來得出E1E2、E3E4與M1M2的三維位置以及這些線段所構成平面的法向量作為臉部所朝的方位。


圖二


第二部份為視線估測,利用前一個步驟所找出臉部特徵點在空間中的座標位置,PTZ攝影機可以容易的定位近距離的眼睛影像。他們利用虹膜的邊緣(即limbus)為圓形的假設,並利用三度空間上的圓與投影後在至影像上的圓之間的投影關係,來估測空間中虹膜所構成圓的法向量,此法向量定義為眼睛的視線(見圖 三)。


圖三


但他們的方法需要先對每一個人校正出眼角與嘴角之點實際三度空間上的距離(即圖一中E1E2與M1M2)以及虹模的半徑(圖三中的r)。他們方法的困難處在於頭部的視線追蹤較容易受到臉部表情的影響,因為特徵點之間平行的關係可能會不成立。此外虹模的上緣及下緣容易被眼睛四周的皮膚所遮蔽,使得實際在影像上所估計出來的圓並不是這麼準確,連帶影響視線估測的精確度。
 
Beymer[7]是IBM所發展的一套使用一組立體視覺攝影機(stereo camera)以及在螢幕左右下方各放一台PTZ的攝影機來追蹤眼睛視線的行為,即一組wide-angle stereo與一組narrow FOV PTZ stereo(見圖四(a))。PTZ的攝影機下方裝設IR LED並使用兩組馬達來控制鏡子左右旋移(pan)以及上下旋移的動作(tilt) (見圖四(b))。此外由於臉部的特徵點大多是橫向的邊緣居多,他們的stereo camera是以垂直陳設的方式來增加stereo matching的穩定性。


圖四


有別於前面所提Wang的方法,IBM是使用一組wide angle stereo來偵測人臉,相較於一般的人臉偵測所使用的方法(如膚色資訊(skin color segmentation),位移偵測 (motion detection)等),他們使用stereo matching的方式利用物體深度(depth)資訊來搜尋人臉的位置,此外深度的資訊還可以提供頭部三維空間的資訊來輔助PTZ stereo來進行眼睛的定位。


圖五






Narrow FOV PTZ stereo的作用是用來提供更進距離眼睛影像。此外他們建構了一個可參數化的眼睛三維模型(parameterized 3-D model)(圖五)。視線追蹤的方式為其將調整眼睛三維模型的參數,將投影後的三維模型的影像與PTZ stereo所提供的影像進行比對,進而由比對後的三維模型參數中估計出眼睛視線的方位。此外他們比對所使用的特徵是利用瞳孔的邊緣與IR LED在角膜所反射出的小亮點(glint)。見圖五,紅點所構成的橢圓為瞳孔的邊緣,綠點則為左右兩個在PTZ旁的LED所反射的glint。


圖六


Shih[8]所發展的視線追蹤方法是一個使用了多台攝影機與多個IR-LED的光源的系統。他們的方法與上述方法相同的是,他們是先估測眼球的三維位置在估測眼睛視線的位置。與Wang的系統不同的是,他們捨棄了使用臉部的資訊來定位,而是使用光源在瞳孔反射後在攝影機成像後的資訊來估測出眼睛的空間位置。他們證明在他們的系統架構中,至少需要兩個攝影機以及兩個IR光源就可以定位出角膜的空間中三維位置。他們是利用LED光源經由角膜反射至攝影機成像的幾何關係來求得角膜的三度空間位置。見圖六,由LED1與眼睛在攝影機CAM1的成像可以估測出由角模中心(cornea center)、CAM1與LED1所構成的三度空間平面,而cornea center、CAM1與LED2所也可以構成另外一個平面。兩個平面相交可以求出CAM1與角模中心所構成的平面(紅線),而角模中心就落在這條直線上。如果以相同的方式再建構出一組由CAM1、LED1與LED2 的限制條件,兩條直線的交點可以求出角模三維的中心位置 (如圖七所示)。


圖七







下一步驟是求出眼睛的視線所指的方位。由於攝影機所成像的瞳孔是經由水晶體所反射的瞳孔位置。Shih證明眼睛視線的會在「攝影機與角模中心」(綠線)與「攝影機成像的瞳孔中心與三維空間中虛擬瞳孔」(藍線)兩條線段所構成的平面上(平面1),如圖八所示。另外一台攝影機也可以構成同樣的條件而得到另一個線段(平面2)。 兩個平面得交線即為視線所在的方位。


圖八


他們方法的限制是他們假設人眼的角膜為一球形的曲面,對於角膜曲率並不是完美的球形使用者來說所使用的精準度會受到影響。

目前技術發展的現況來說,視線追蹤技術已經發展到相當程度的成熟性。在量測的精確度上大約可以達到 1 度以內,但是要達到成為普及的程度還是有一些需要考量的因素。例如要能夠適應各種環境下的操作,如室內和戶外。是否不受限使用者眼鏡的干擾、頭部是否能自由晃動、以及頭部所能移動的範圍、使用前之校正程序的複雜度以及所需的時間、是否能夠即時輸出視線位置的資訊以滿足人機介面應用的需求等。在學界以及業界的努力下,相信在不久的將來視線追蹤技術會越益成熟,成為人們在操作各種設備下的一個不可或缺的一個輸入裝置。

撰稿/ 賴治權 台灣大學 電腦視覺監控產學研聯盟

2009/10 vol 29

Reference:
  1.  L. Bour, “DMI-search scleral coil, Dept. Neurology, Clinical Neurophysiol., Academic Medical Cent., AZUA, Amsterdam, The Netherlands, Tech. Rep. H2-214, 1997.
  2.  J. Gips, P. Olivieri, and J. Tecce, Direct control of the computer through electrodes placed around the eyes, in Proc. Fifth Int. Conf. Human-Computer Interaction. Orlando, FL: Elsevier, 1993, pp. 630–635.
  3.  T. E. Hutchinson, J. K. P. White,W. M. Martin, K. C. Reichert, and L. A. Frey, “Human-computer interaction using eye-gaze input,” IEEE Trans. Systems, Man, Cybernetics., vol. 19, pp. 1527–1534, Nov./Dec. 1989.
  4. S. Baluja and D. Pomerleau, “Non-intrusive gaze tracking using artificial neural networks,” Sch. Comput. Sci., Carnegie Mellon Univ., Pittsburgh, PA, USA, Tech. Rep. CMU-CS-94-102, 1994.
  5.  A. Duchowski, Eye Tracking Methodology - Theory and Practice 2nd.
  6.  J. Wang and E. Sung, 2002. Study on Eye Gaze Estimation, IEEE Trans. Systems, Man, Cybernetics, Vol.32, No.3, pp.332-350.
  7.  D. Beymer and M. Flickner, Eye Gaze Tracking Using an Active Stereo Head, Proc. CVPR,03
  8.  S. W. Shih and J. Liu, A novel approach to 3-d gaze tracking using stereo cameras,  IEEE Trans. Syst. Man and Cybern., part B, 2004, number 1, pp. 234–245.

沒有留言:

張貼留言