專利名稱:基于用戶面部表情與目光分布檢測的個性化網(wǎng)頁推薦方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)信息與檢索領(lǐng)域,尤其涉及一種基于用戶面部表情與目光分布 檢測的個性化網(wǎng)頁推薦方法。
背景技術(shù):
在當(dāng)前,個性化的網(wǎng)絡(luò)信息檢索已經(jīng)成為了最熱門的計(jì)算機(jī)研究方向之一。目前, 流行的網(wǎng)頁搜索引擎對不同用戶實(shí)現(xiàn)個性化的搜索結(jié)果主要是通過用戶點(diǎn)擊數(shù)據(jù)、歷史網(wǎng) 站、網(wǎng)絡(luò)地址等比較容易獲得但不易于發(fā)掘用戶個性化的特征。這些并不是最好的方法,最 好的搜索結(jié)果應(yīng)該是根據(jù)用戶的興趣來排名。在2008年ACM推薦系統(tǒng)會議中公布的一篇論 文“借助商用眼球跟蹤裝置的個性化在線文檔、圖像與視頻推薦”(“Personalized online document,image and video recommendation via commodity eye-tracking,,)提出了一 個方法,通過追蹤用戶在瀏覽網(wǎng)頁時(shí)的眼球焦點(diǎn),以推測當(dāng)前及將來可能吸引用戶的內(nèi)容。 其中的一個關(guān)鍵步驟是該算法引入了人類體表特征(眼球聚焦點(diǎn))所蘊(yùn)含的用戶個性化需 求信息。在本發(fā)明中,我們提出了一種新的個性化網(wǎng)頁推薦方法,不僅僅通過跟蹤眼球獲得 了用戶的當(dāng)前閱讀內(nèi)容,更進(jìn)一步考慮了用戶在閱讀不同內(nèi)容時(shí)的專注程度,并通過用戶 在閱讀時(shí)的面部表情來捕獲,可以更可靠地估計(jì)用戶對不同網(wǎng)頁內(nèi)容的不同感興趣程度。 以此,我們可以產(chǎn)生一個更準(zhǔn)確的個性化的網(wǎng)頁排名,更加逼近個人用戶的閱讀興趣,使得 最終的個性化網(wǎng)頁推薦結(jié)果更加接近用戶的期待搜索結(jié)果。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種基于用戶面部表情與目光分布檢 測的個性化網(wǎng)頁推薦方法?;谟脩裘娌勘砬榕c目光分布檢測的個性化網(wǎng)頁推薦方法包括以下步驟1)偵測用戶在閱讀網(wǎng)頁時(shí)其目光在屏幕上的關(guān)注點(diǎn);2)偵測用戶在閱讀網(wǎng)頁時(shí)的面部表情,并估算其每一時(shí)刻的閱讀專注度;3)根據(jù)用戶閱讀過的網(wǎng)頁,估算用戶對每個實(shí)詞的閱讀興趣;4)對用戶尚未閱讀的網(wǎng)頁,預(yù)測該用戶對該網(wǎng)頁的閱讀興趣;5)利用用戶閱讀興趣,結(jié)合傳統(tǒng)搜索技術(shù)生成個性化的網(wǎng)頁推薦結(jié)果。所述的偵測用戶在閱讀網(wǎng)頁時(shí)其目光在屏幕上的關(guān)注點(diǎn)步驟(a)在用戶閱讀網(wǎng)頁文檔時(shí),每隔0. 5秒,通過眼球跟蹤裝置或攝像頭,追蹤該用 戶每一時(shí)刻其目光在屏幕上的關(guān)注點(diǎn)位置(x,y);所述的偵測用戶在閱讀網(wǎng)頁時(shí)的面部表情,并估算其每一時(shí)刻的閱讀專注度步驟 為(b)在用戶閱讀網(wǎng)頁文檔時(shí),每隔0. 5秒,利用人臉表情識別裝置,獲得該用戶每 一時(shí)刻的面部表情概率向量F F = [f1 f2, f3, f4,f5, f6];
其中至f6均為取值0到1之間的實(shí)數(shù),分別代表該用戶面部表情為快樂、吃驚、 生氣、厭惡、害怕、悲哀的概率;(c)計(jì)算該用戶在時(shí)刻t時(shí)的閱讀專注度r(t) 所述的根據(jù)用戶閱讀過的網(wǎng)頁,估算用戶對每個實(shí)詞的閱讀興趣步驟(d)對網(wǎng)頁中的每個實(shí)詞Wi,設(shè)其在時(shí)刻t時(shí)在屏幕上的位置為(Xi,yi),則該實(shí)詞 在時(shí)刻t時(shí)的用戶閱讀興趣I(Wi,t)為 其中(X,y)為在步驟(a)中所獲得的該用戶在時(shí)刻t時(shí)的目光關(guān)注點(diǎn)位置;r (t) 為步驟(b)_步驟(c)所獲得的該用戶在時(shí)刻t時(shí)的閱讀專注度;W和H分別是該網(wǎng)頁中每 個實(shí)詞在屏幕上的平均寬度和平均高度;(e)設(shè)用戶在閱讀網(wǎng)頁的過程中,步驟(a)與步驟(b)分別獲得了 m個眼神關(guān)注點(diǎn) 與閱讀專注度樣本;設(shè)用戶對每個實(shí)詞w的閱讀興趣為I⑷,計(jì)算I⑷為 其中,I (w, tj)為通過步驟(d)所獲得的用戶在時(shí)刻、時(shí)對實(shí)詞w的閱讀興趣;所述的對用戶尚未閱讀的網(wǎng)頁,預(yù)測該用戶對該網(wǎng)頁的閱讀興趣步驟為(f)對出現(xiàn)在用戶閱讀過網(wǎng)頁中的每個實(shí)詞Wi,計(jì)算其詞及逆文檔頻(TFXIDF) 系數(shù)TI (Wi)為 其中,M表示用戶已經(jīng)閱讀過的網(wǎng)頁個數(shù);q(Wi)表示實(shí)詞Wi在M個網(wǎng)頁中的出現(xiàn) 次數(shù);W(Wi)表示在M個網(wǎng)頁中含有實(shí)詞Wi的網(wǎng)頁個數(shù);Z為系數(shù),其值為 其中,N表示在M個網(wǎng)頁中不同實(shí)詞的個數(shù);q(Wj)表示在N個實(shí)詞中的第j個實(shí) 詞Wj的出現(xiàn)次數(shù);(g)對一個用戶尚未閱讀的網(wǎng)頁D,設(shè)D中共有η個不同的實(shí)詞W1 (D),w2(D),..., Wn(D);計(jì)算其中每個實(shí)詞在D中的詞頻(TF)系數(shù)TF(Wi(D))為 其中,q(Wi(D))為網(wǎng)頁D中的第i個實(shí)詞Wi(D)在網(wǎng)頁D中的出現(xiàn)次數(shù);Zd為系 數(shù),其值為 其中,q (Wj (D))表示在網(wǎng)頁D中的第j個實(shí)詞Wj (D)的出現(xiàn)次數(shù);(h)預(yù)測用戶對于網(wǎng)頁D中的第i個實(shí)詞Wi (D)的閱讀興趣RI (Wi (D))為 其中S (Wj,Wi (D))為取值在0至1之間的實(shí)數(shù),表示W(wǎng)j與Wi⑶在詞網(wǎng)(WordNet) 中的詞義相似度;若%或wjD)不是英文,則將其翻譯為英文再在詞網(wǎng)(WordNet)中獲得其 詞義相似度;(i)預(yù)測用戶對于網(wǎng)頁D的閱讀興趣RI⑶為 所述的利用用戶閱讀興趣,結(jié)合傳統(tǒng)搜索技術(shù)生成個性化的網(wǎng)頁推薦結(jié)果步驟為(j)當(dāng)用戶提交一個查詢請求時(shí),服務(wù)端首先將查詢重定向至傳統(tǒng)搜索引擎如谷 歌(Google),并獲得返回的前50 100個網(wǎng)頁,對于返回的每個網(wǎng)頁,使用步驟(f) ⑴ 中的方法預(yù)測該用戶對該網(wǎng)頁的閱讀興趣;(k)設(shè)RI (Di)表示傳統(tǒng)搜索引擎返回結(jié)果中的第i個網(wǎng)頁Di的用戶閱讀興趣,計(jì) 算用戶對該網(wǎng)頁的綜合興趣OI (Di) 其中,exp()表示指數(shù)函數(shù);參數(shù)ζ用來控制用戶閱讀興趣的重要程度,其值通常 設(shè)為eXp(-M/100) ;k為一個用戶可控參數(shù),用來控制用戶閱讀興趣隨排名下降的坡度,其 預(yù)設(shè)值為0. 2 ;(1)對返回的50 100個網(wǎng)頁,按照用戶對它們的綜合興趣,從大到小重新排序, 作為個性化網(wǎng)頁推薦結(jié)果。本發(fā)明有效地利用了用戶在瀏覽網(wǎng)頁時(shí)的面部表情和目光分布,將用戶的閱讀專 注度結(jié)合在網(wǎng)頁搜索與排序過程中,使得最終的個性化網(wǎng)頁推薦結(jié)果更加接近用戶的期待 的搜索結(jié)果,從而使得網(wǎng)頁搜索引擎能為用戶提供更好的個性化服務(wù)。
圖1是基于用戶面部表情與目光分布檢測的個性化網(wǎng)頁推薦方法的流程圖;圖2是用戶使用傳統(tǒng)搜索引擎谷歌(Google)對關(guān)鍵詞ABC進(jìn)行查詢的界面結(jié)果 截圖;圖3是用戶使用本發(fā)明實(shí)施例系統(tǒng)對關(guān)鍵詞ABC進(jìn)行查詢的界面結(jié)果截圖;圖4是20個用戶對15個不同關(guān)鍵詞做網(wǎng)頁搜索的實(shí)驗(yàn)數(shù)據(jù)箱圖(box-plot diagram);該圖的詳細(xì)數(shù)據(jù)列在表1中。
具體實(shí)施例方式基于用戶面部表情與目光分布檢測的個性化網(wǎng)頁推薦方法包括以下步驟
1)偵測用戶在閱讀網(wǎng)頁時(shí)其目光在屏幕上的關(guān)注點(diǎn);2)偵測用戶在閱讀網(wǎng)頁時(shí)的面部表情,并估算其每一時(shí)刻的閱讀專注度;3)根據(jù)用戶閱讀過的網(wǎng)頁,估算用戶對每個實(shí)詞的閱讀興趣;4)對用戶尚未閱讀的網(wǎng)頁,預(yù)測該用戶對該網(wǎng)頁的閱讀興趣;5)利用用戶閱讀興趣,結(jié)合傳統(tǒng)搜索技術(shù)生成個性化的網(wǎng)頁推薦結(jié)果。所述的偵測用戶在閱讀網(wǎng)頁時(shí)其目光在屏幕上的關(guān)注點(diǎn)步驟為(a)在用戶閱讀網(wǎng)頁文檔時(shí),每隔0. 5秒,通過眼球跟蹤裝置或攝像頭,追蹤該用 戶每一時(shí)刻其目光在屏幕上的關(guān)注點(diǎn)位置(x,y);所述的偵測用戶在閱讀網(wǎng)頁時(shí)的面部表情,并估算其每一時(shí)刻的閱讀專注度步驟 為(b)在用戶閱讀網(wǎng)頁文檔時(shí),每隔0. 5秒,利用人臉表情識別裝置,獲得該用戶每 一時(shí)刻的面部表情概率向量F : 其中至f6均為取值0到1之間的實(shí)數(shù),分別代表該用戶面部表情為快樂、吃驚、 生氣、厭惡、害怕、悲哀的概率;(c)計(jì)算該用戶在時(shí)刻t時(shí)的閱讀專注度r (t) 所述的根據(jù)用戶閱讀過的網(wǎng)頁,估算用戶對每個實(shí)詞的閱讀興趣步驟為(d)對網(wǎng)頁中的每個實(shí)詞Wi,設(shè)其在時(shí)刻t時(shí)在屏幕上的位置為(Xi,yi),則該實(shí)詞 在時(shí)刻t時(shí)的用戶閱讀興趣I(Wi,t)為 其中(χ,y)為在步驟(a)中所獲得的該用戶在時(shí)刻t時(shí)的目光關(guān)注點(diǎn)位置;r (t) 為步驟(b)_步驟(c)所獲得的該用戶在時(shí)刻t時(shí)的閱讀專注度;W和H分別是該網(wǎng)頁中每 個實(shí)詞在屏幕上的平均寬度和平均高度;(e)設(shè)用戶在閱讀網(wǎng)頁的過程中,步驟(a)與步驟(b)分別獲得了 m個眼神關(guān)注點(diǎn) 與閱讀專注度樣本;設(shè)用戶對每個實(shí)詞w的閱讀興趣為I⑷,計(jì)算I⑷為 其中,I (w, tj)為通過步驟(d)所獲得的用戶在時(shí)刻、時(shí)對實(shí)詞w的閱讀興趣;所述的對用戶尚未閱讀的網(wǎng)頁,預(yù)測該用戶對該網(wǎng)頁的閱讀興趣步驟為(f)對出現(xiàn)在用戶閱讀過網(wǎng)頁中的每個實(shí)詞Wi,計(jì)算其詞及逆文檔頻(TFXIDF) 系數(shù)TI (Wi)為TI(Wi) = ^il + Inq(wt))ln( 1 + ^ ).
z ,其中,M表示用戶已經(jīng)閱讀過的網(wǎng)頁個數(shù);q(Wi)表示實(shí)詞Wi在M個網(wǎng)頁中的出現(xiàn) 次數(shù);W(Wi)表示在M個網(wǎng)頁中含有實(shí)詞Wi的網(wǎng)頁個數(shù);Z為系數(shù),其值為
8 其中,N表示在M個網(wǎng)頁中不同實(shí)詞的個數(shù);q(Wj)表示在N個實(shí)詞中的第j個實(shí) 詞Wj的出現(xiàn)次數(shù);(g)對一個用戶尚未閱讀的網(wǎng)頁D,設(shè)D中共有η個不同的實(shí)詞W1 (D),W2⑶,..., Wn(D);計(jì)算其中每個實(shí)詞在D中的詞頻(TF)系數(shù)TF(Wi(D))為 其中,q(Wi(D))為網(wǎng)頁D中的第i個實(shí)詞Wi(D)在網(wǎng)頁D中的出現(xiàn)次數(shù);Zd為系 數(shù),其值為 其中,q (Wj (D))表示在網(wǎng)頁D中的第j個實(shí)詞Wj (D)的出現(xiàn)次數(shù);(h)預(yù)測用戶對于網(wǎng)頁D中的第i個實(shí)詞Wi (D)的閱讀興趣RI (Wi (D))為 其中S (Wj,Wi (D))為取值在0至1之間的實(shí)數(shù),表示W(wǎng)j與Wi⑶在詞網(wǎng)(WordNet) 中的詞義相似度;若%或wjD)不是英文,則將其翻譯為英文再在詞網(wǎng)(WordNet)中獲得其 詞義相似度;(i)預(yù)測用戶對于網(wǎng)頁D的閱讀興趣RI⑶為 所述的利用用戶閱讀興趣,結(jié)合傳統(tǒng)搜索技術(shù)生成個性化的網(wǎng)頁推薦結(jié)果步驟 為(j)當(dāng)用戶提交一個查詢請求時(shí),服務(wù)端首先將查詢重定向至傳統(tǒng)搜索引擎如谷 歌(Google),并獲得返回的前50 100個網(wǎng)頁,對于返回的每個網(wǎng)頁,使用步驟(f) ⑴ 中的方法預(yù)測該用戶對該網(wǎng)頁的閱讀興趣;(k)設(shè)RI (Di)表示傳統(tǒng)搜索引擎返回結(jié)果中的第i個網(wǎng)頁Di的用戶閱讀興趣,計(jì) 算用戶對該網(wǎng)頁的綜合興趣OI (Di) 其中,eXp()表示指數(shù)函數(shù);參數(shù)ζ用來控制用戶閱讀興趣的重要程度,其值通常 設(shè)為eXp(-M/100) ;k為一個用戶可控參數(shù),用來控制用戶閱讀興趣隨排名下降的坡度,其 預(yù)設(shè)值為0. 2 ;(1)對返回的50 100個網(wǎng)頁,按照用戶對它們的綜合興趣,從大到小重新排序, 作為個性化網(wǎng)頁推薦結(jié)果。
實(shí)施例如圖1所示,該個性化網(wǎng)頁推薦系統(tǒng)包括眼球跟蹤裝置10、表情獲取裝置20、樣 本手機(jī)模塊30、網(wǎng)頁預(yù)處理模塊40、文本分析模塊50、用戶數(shù)據(jù)庫60、查詢界面70、傳統(tǒng)引 擎模塊80、閱讀興趣預(yù)測模塊90、排序模塊100。眼球跟蹤裝置10,利用先進(jìn)的眼球運(yùn)動捕捉儀器,分析當(dāng)前用戶目光所在的屏幕 位置;在本實(shí)施例中眼球跟蹤裝置采用普通攝像頭(Logitech Quickcam Notebook Pro)搭 配開源目艮球足艮蹤系統(tǒng)Enable Viacam (http://eviacam. sourceforRe. net)組裝而成。表情獲取裝置20,在用戶閱讀網(wǎng)頁文檔時(shí),利用人臉表情識別裝置,獲得該用戶每 一時(shí)刻的面部表情概率向量F :F = [f1 f2, f3, f4, f5, f6];其中&至4均為取值0到1之間的實(shí)數(shù),分別代表該用戶面部表情為快樂、 吃驚、生氣、厭惡、害怕、悲哀的概率;在本實(shí)施例中人臉表情識別裝置采用普通攝像 頭(Logitech Quickcam Notebook Pro)搭配人臉表情識別系統(tǒng) eMotion (http //www. visual-recoRnition. nl)組裝而成。樣本收集模塊30,根據(jù)從眼球跟蹤裝置10與表情獲取裝置20獲得的面部表情與 目光分布數(shù)據(jù),計(jì)算用戶對每個實(shí)詞的閱讀興趣,連同用戶閱讀過的網(wǎng)頁文本一并存入對 應(yīng)用戶的數(shù)據(jù)庫中;具體步驟如下計(jì)算該用戶在時(shí)刻t時(shí)的閱讀專注度r (t) 對網(wǎng)頁中的每個實(shí)詞Wi,設(shè)其在時(shí)刻t時(shí)在屏幕上的位置為(Xi,yi),則該實(shí)詞在 時(shí)刻t時(shí)的用戶閱讀興趣I (Wi,t)為 其中(X,y)為在眼球跟蹤裝置10中所獲得的該用戶在時(shí)刻t時(shí)的目光關(guān)注點(diǎn)位 置;W和H分別是該網(wǎng)頁中每個實(shí)詞在屏幕上的平均寬度和平均高度;設(shè)用戶在閱讀網(wǎng)頁的過程中,分別獲得了 m個眼神關(guān)注點(diǎn)與閱讀專注度樣本;設(shè) 用戶對每個實(shí)詞w的閱讀興趣為I (w),計(jì)算I (w)為 用戶數(shù)據(jù)庫40,存儲用戶對各個實(shí)詞的閱讀興趣,以及其閱讀過的網(wǎng)頁文本;在 本實(shí)施例中用MYSQL數(shù)據(jù)庫存儲。查詢界面50,提供一個用戶使用本發(fā)明所述網(wǎng)頁推薦系統(tǒng)的web入口,提供網(wǎng)頁 搜索服務(wù);在本實(shí)施例中,此查詢界面用jsp實(shí)現(xiàn)。傳統(tǒng)引擎模塊60,當(dāng)用戶提交一個查詢請求時(shí),系統(tǒng)會對傳統(tǒng)搜索引擎的搜 索結(jié)果頁面進(jìn)行解析并獲取其返回結(jié)果中的前50 100個網(wǎng)頁;本實(shí)施例采用了谷歌 (Google)作為傳統(tǒng)搜索引擎以供調(diào)用。文檔預(yù)處理模塊70,直接從網(wǎng)站下載下來的網(wǎng)頁包含很多無用信息,比如HTML標(biāo)簽,廣告欄,導(dǎo)航欄等;此模塊用于去除網(wǎng)頁中的無用信息,保留用戶將關(guān)注的主體文檔; 本實(shí)施例實(shí)現(xiàn)去除HTML標(biāo)簽的功能。文本分析模塊80,對出現(xiàn)在用戶閱讀過網(wǎng)頁中的每個實(shí)詞wi,計(jì)算其詞及逆文檔 頻(TFXIDF)系數(shù) TI (wi)為
其中,M表示用戶已經(jīng)閱讀過的網(wǎng)頁個數(shù);q(Wi)表示實(shí)詞Wi在M個網(wǎng)頁中的出現(xiàn) 次數(shù);W(Wi)表示在M個網(wǎng)頁中含有實(shí)詞Wi的網(wǎng)頁個數(shù);Z為系數(shù),其值為 其中,N表示在M個網(wǎng)頁中不同實(shí)詞的個數(shù);q(Wj)表示在N個實(shí)詞中的第j個實(shí) 詞Wj的出現(xiàn)次數(shù);對一個用戶尚未閱讀的網(wǎng)頁D,設(shè)D中共有η個不同的實(shí)詞W1(D), W2(D), ...,Wn(D);計(jì)算其中每個實(shí)詞在D中的詞頻(TF)系數(shù)TF(Wi(D)) 為 其中,q(Wi(D))為網(wǎng)頁D中的第i個實(shí)詞Wi(D)在網(wǎng)頁D中的出現(xiàn)次數(shù);Zd為系 數(shù),其值為 其中,q (Wj (D))表示在網(wǎng)頁D中的第j個實(shí)詞Wj (D)的出現(xiàn)次數(shù)。閱讀興趣預(yù)測模塊90,具體步驟如下預(yù)測用戶對于網(wǎng)頁D中的第i個實(shí)詞wjD)的閱讀興趣RI (Wi (D))為 其中S (Wj,Wi (D))為取值在0至1之間的實(shí)數(shù),表示W(wǎng)j與Wi (D)在詞網(wǎng)(WordNet) 中的詞義相似度;若%或wjD)不是英文,則將其翻譯為英文再在詞網(wǎng)(WordNet)中獲得其 詞義相似度;預(yù)測用戶對于網(wǎng)頁D的閱讀興趣RI (D)為 設(shè)RI (Di)表示傳統(tǒng)引擎模塊60返回結(jié)果中的第i個網(wǎng)頁Di的用戶閱讀興趣,計(jì) 算用戶對該網(wǎng)頁的綜合興趣OI (Di) 其中,eXp()表示指數(shù)函數(shù);參數(shù)ζ用來控制用戶閱讀興趣的重要程度,其值通常 設(shè)為eXp(-M/100) ;k為一個用戶可控參數(shù),用來控制用戶閱讀興趣隨排名下降的坡度,其 預(yù)設(shè)值為0.2。排序模塊100,排序模塊將結(jié)果按照所有網(wǎng)頁的用戶綜合興趣進(jìn)行倒序排列,并將 結(jié)果返回給用戶。表1的實(shí)驗(yàn)結(jié)果清晰的顯示出本方法的優(yōu)越性;表1是20個用戶對15個不同關(guān)鍵詞做網(wǎng)頁搜索的實(shí)驗(yàn)數(shù)據(jù);每一行表示每組實(shí) 驗(yàn)中用5種不同方法所得搜索結(jié)果與用戶理想搜索結(jié)果之間的搜索錯誤度(Search Error Score,簡寫為 SES);錯誤度(SES)用以衡量兩個排名之間的差異,與用戶理想排名的錯誤度越小則該 排名越接近用戶的理想排名;設(shè)η個網(wǎng)頁分別被排成A和B的兩個排名;設(shè)在A排名中的第 i個網(wǎng)頁在B排名中的名次為bi,則A與B之間的錯誤度(SES)為
Σ =ι^· ,
其中,系數(shù)wi的取值為
2.5(1 </< 5) 2.0(6 </< 10) 1.5(11 </<15); 1.0(16 </< w)5種方法包括3個流行搜索引擎谷歌(Google)、雅虎(Yahoo)、必應(yīng)(Bing),與 發(fā)表在2008年由美國計(jì)算機(jī)協(xié)會舉辦的推薦系統(tǒng)會議(ACMRecommender Systems)上的 一篇論文《基于商用眼球跟蹤裝置的個性化在線文檔、圖像與視頻推薦》(“Personalized online document,image and video recommendation via commodity eye-tracking”)中 所述的方法(簡寫為AT08),以及本發(fā)明所述方法;這些數(shù)據(jù)也以圖形化的形式顯示在圖4 中;表1
12 上述表格表明,本發(fā)明有效地將用戶的喜好結(jié)合在搜索過程中,使得最終的排名 結(jié)果更加接近用戶期待的理想排名,從而使得網(wǎng)頁搜索引擎為用戶提供更好的個性化服 務(wù)。 以上所述僅為本發(fā)明的基于面部表情與目光分布檢測的個性化網(wǎng)頁推薦方法的 較佳實(shí)施例,并非用以限定本發(fā)明的實(shí)質(zhì)技術(shù)內(nèi)容的范圍。本發(fā)明的基于面部表情與目光 分布檢測的個性化網(wǎng)頁推薦方法,其實(shí)質(zhì)技術(shù)內(nèi)容是廣泛的定義于權(quán)利要求書中,任何他 人所完成的技術(shù)實(shí)體或方法,若是與權(quán)利要求書中所定義者完全相同,或是同一等效的變 更,均將被視為涵蓋于此專利保護(hù)范圍之內(nèi)。
權(quán)利要求
一種基于用戶面部表情與目光分布檢測的個性化網(wǎng)頁推薦方法,其特征在于包括以下步驟1)偵測用戶在閱讀網(wǎng)頁時(shí)其目光在屏幕上的關(guān)注點(diǎn);2)偵測用戶在閱讀網(wǎng)頁時(shí)的面部表情,并估算其每一時(shí)刻的閱讀專注度;3)根據(jù)用戶閱讀過的網(wǎng)頁,估算用戶對每個實(shí)詞的閱讀興趣;4)對用戶尚未閱讀的網(wǎng)頁,預(yù)測該用戶對該網(wǎng)頁的閱讀興趣;5)利用用戶閱讀興趣,結(jié)合傳統(tǒng)搜索技術(shù)生成個性化的網(wǎng)頁推薦結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種基于用戶面部表情與目光分布檢測的個性化網(wǎng)頁推薦 方法,其特征在于所述的偵測用戶在閱讀網(wǎng)頁時(shí)其目光在屏幕上的關(guān)注點(diǎn)步驟為(a)在用戶閱讀網(wǎng)頁文檔時(shí),每隔0.5秒,通過眼球跟蹤裝置或攝像頭,追蹤該用戶每 一時(shí)刻其目光在屏幕上的關(guān)注點(diǎn)位置(x,y);
3.根據(jù)權(quán)利要求1所述的一種基于用戶面部表情與目光分布檢測的個性化網(wǎng)頁推薦 方法,其特征在于所述的偵測用戶在閱讀網(wǎng)頁時(shí)的面部表情,并估算其每一時(shí)刻的閱讀專 注度步驟為(b)在用戶閱讀網(wǎng)頁文檔時(shí),每隔0.5秒,利用人臉表情識別裝置,獲得該用戶每一時(shí) 刻的面部表情概率向量F: 其中fi至f6均為取值0到1之間的實(shí)數(shù),分別代表該用戶面部表情為快樂、吃驚、生 氣、厭惡、害怕、悲哀的概率;(c)計(jì)算該用戶在時(shí)刻t時(shí)的閱讀專注度r(t)
4.根據(jù)權(quán)利要求1所述的一種基于用戶面部表情與目光分布檢測的個性化網(wǎng)頁推 薦方法,其特征在于所述的根據(jù)用戶閱讀過的網(wǎng)頁,估算用戶對每個實(shí)詞的閱讀興趣步驟 為(d)對網(wǎng)頁中的每個實(shí)詞Wi,設(shè)其在時(shí)刻t時(shí)在屏幕上的位置為(Xi,yi),則該實(shí)詞在時(shí) 刻t時(shí)的用戶閱讀興趣I (Wi,t)為 其中(x,y)為在步驟(a)中所獲得的該用戶在時(shí)刻t時(shí)的目光關(guān)注點(diǎn)位置;r(t)為步 驟(b)_步驟(c)所獲得的該用戶在時(shí)刻t時(shí)的閱讀專注度;W和H分別是該網(wǎng)頁中每個實(shí) 詞在屏幕上的平均寬度和平均高度;(e)設(shè)用戶在閱讀網(wǎng)頁的過程中,步驟(a)與步驟(b)分別獲得了m個眼神關(guān)注點(diǎn)與閱 讀專注度樣本;設(shè)用戶對每個實(shí)詞w的閱讀興趣為I (w),計(jì)算I (w)為 其中,I (W, tj)為通過步驟(d)所獲得的用戶在時(shí)刻、時(shí)對實(shí)詞w的閱讀興趣;
5.根據(jù)權(quán)利要求1所述的一種基于用戶面部表情與目光分布檢測的個性化網(wǎng)頁推薦方法,其特征在于所述的對用戶尚未閱讀的網(wǎng)頁,預(yù)測該用戶對該網(wǎng)頁的閱讀興趣步驟 為(f)對出現(xiàn)在用戶閱讀過網(wǎng)頁中的每個實(shí)詞Wi,計(jì)算其詞及逆文檔頻(TFXIDF)系數(shù) TI (Wi)為 其中,M表示用戶已經(jīng)閱讀過的網(wǎng)頁個數(shù);q(Wi)表示實(shí)詞Wi在M個網(wǎng)頁中的出現(xiàn)次數(shù); Q0(Wi)表示在M個網(wǎng)頁中含有實(shí)詞Wi的網(wǎng)頁個數(shù);Z為系數(shù),其值為 其中,N表示在M個網(wǎng)頁中不同實(shí)詞的個數(shù);q (Wj)表示在N個實(shí)詞中的第j個實(shí)詞Wj 的出現(xiàn)次數(shù);(g)對一個用戶尚未閱讀的網(wǎng)頁D,設(shè)D中共有η個不同的實(shí)詞Wl(D),w2(D),..., Wn(D);計(jì)算其中每個實(shí)詞在D中的詞頻(TF)系數(shù)TF(Wi(D))為 其中,q(Wi(D))為網(wǎng)頁D中的第i個實(shí)詞Wi (D)在網(wǎng)頁D中的出現(xiàn)次數(shù);Zd為系數(shù),其 值為 其中,q(Wj(D))表示在網(wǎng)頁D中的第j個實(shí)詞wdD)的出現(xiàn)次數(shù);(h)預(yù)測用戶對于網(wǎng)頁D中的第i個實(shí)詞Wi(D)的閱讀興趣RI (Wi (D))為 其中S (Wj,Wi(D))為取值在0至1之間的實(shí)數(shù),表示W(wǎng)j與Wi (D)在詞網(wǎng)(WordNet)中 的詞義相似度;若%或wjD)不是英文,則將其翻譯為英文再在詞網(wǎng)(WordNet)中獲得其詞 義相似度;(i)預(yù)測用戶對于網(wǎng)頁D的閱讀興趣RI(D)為
6.根據(jù)權(quán)利要求1所述的一種基于用戶面部表情與目光分布檢測的個性化網(wǎng)頁推薦 方法,其特征在于所述的利用用戶閱讀興趣,結(jié)合傳統(tǒng)搜索技術(shù)生成個性化的網(wǎng)頁推薦結(jié) 果步驟為(j)當(dāng)用戶提交一個查詢請求時(shí),服務(wù)端首先將查詢重定向至傳統(tǒng)搜索引擎如谷歌 (Google),并獲得返回的前50 100個網(wǎng)頁,對于返回的每個網(wǎng)頁,使用步驟(f) (i)中的方法預(yù)測該用戶對該網(wǎng)頁的閱讀興趣;(k)設(shè)RI (Di)表示傳統(tǒng)搜索引擎返回結(jié)果中的第i個網(wǎng)頁Di的用戶閱讀興趣,計(jì)算用 戶對該網(wǎng)頁的綜合興趣OI (Di) 其中,eXp()表示指數(shù)函數(shù);參數(shù)Z用來控制用戶閱讀興趣的重要程度,其值通常設(shè)為 exp(-M/100) ;k為一個用戶可控參數(shù),用來控制用戶閱讀興趣隨排名下降的坡度,其預(yù)設(shè) 值為0. 2 ;(1)對返回的50 100個網(wǎng)頁,按照用戶對它們的綜合興趣,從大到小重新排序,作為 個性化網(wǎng)頁推薦結(jié)果。
全文摘要
本發(fā)明公開了一種基于用戶面部表情與目光分布檢測的個性化網(wǎng)頁推薦方法。包括以下步驟1)偵測用戶在閱讀網(wǎng)頁時(shí)其目光在屏幕上的關(guān)注點(diǎn);2)偵測用戶在閱讀網(wǎng)頁時(shí)的面部表情,并估算其每一時(shí)刻的閱讀專注度;3)根據(jù)用戶閱讀過的網(wǎng)頁,估算用戶對每個實(shí)詞的閱讀興趣;4)對用戶尚未閱讀的網(wǎng)頁,預(yù)測該用戶對該網(wǎng)頁的閱讀興趣;5)利用用戶閱讀興趣,結(jié)合傳統(tǒng)搜索技術(shù)生成個性化的網(wǎng)頁推薦結(jié)果。本發(fā)明有效地利用了用戶在瀏覽網(wǎng)頁時(shí)的面部表情和目光分布,將用戶的閱讀專注度結(jié)合在網(wǎng)頁搜索與排序過程中,使得最終的個性化網(wǎng)頁推薦結(jié)果更加接近用戶的期待結(jié)果。
文檔編號G06F17/30GK101916264SQ20101024225
公開日2010年12月15日 申請日期2010年7月30日 優(yōu)先權(quán)日2010年7月30日
發(fā)明者劉智滿, 徐頌華, 江浩 申請人:浙江大學(xué)