本發(fā)明屬于文本信息檢索領域,具體是一種融合關聯模式和用戶反饋的印尼漢跨語言檢索方法及系統(tǒng),適用于采用印尼語查詢檢索中文文檔的跨語言文本信息檢索等領域。
背景技術:
跨語言信息檢索指的是以一種語言的查詢檢索其他語言的信息資源的技術。印尼漢跨語言信息檢索方法是用印尼語查詢檢索中文文檔的跨語言檢索問題,其中,表達查詢的印尼語言稱為源語言,所檢索的文檔的中文語言稱為目標語言。隨著中國和東盟國家交流越來越密切,面向東盟國家語言的跨語言信息檢索方法研究顯得迫切和重要。
世界各地學者從不同的角度和方向對跨語言信息檢索方法及系統(tǒng)進行了深入探討和研究,取得了豐富的成果,然而,當前跨語言信息檢索研究所存在的問題還沒有完全解決,該領域亟待解決和關注度比較高的問題之一是跨語言信息檢索過程中存在的嚴重查詢主題漂移問題,面臨著比單語言檢索更為嚴重的詞不匹配問題,這些問題常常導致跨語言檢索性能低下,不如單語言檢索性能。針對上述問題,近年來,基于查詢擴展的跨語言信息檢索研究得到了更多的關注和討論,其研究主要集中在基于相關反饋的(Parton K,Gao J.Combining Signals for Cross-Lingual Relevance Feedback[C].Proceedings of8thAsia Information Retrieval Societies Conference(AIRS 2012),Tianjin,China.Springer-Verlag Berlin Heidelberg2012,LNCS 7675,Information Retrieval Technology.2012:356-365.Lee C J,Croft W B.Cross-Language Pseudo-Relevance Feedback Techniques for Informal Text[C].Proceedings of 36th European Conference on IR Research(ECIR 2014),Amsterdam,The Netherlands.Advances in Information Retrieval.Springer International Publishing,2014:260-272.)、潛在語義的(閉劍婷,蘇一丹.基于潛在語義分析的跨語言查詢擴展方法[J].計算機工程,2009,35(10):49-53.寧健,林鴻飛.基于改進潛在語義分析的跨語言檢索[J].中文信息學報,2010,24(3):105-111.)、語言模型的和主題模型的(Ganguly Debasis and Leveling Johannes and Jones Gareth J.F.Cross-lingual topical relevance models[C].In:24th International Conference on Computational Linguistics(COLING 2012),2012.;Wang Xuwen,Zhang Qiang,Wang Xiaojie,et al.LDA based pseudo relevance feedback for cross language information retrieval[C].IEEE International Conference on Cloud Computing and Intelligence Systems(CCIS2012).Hangzhou:IEEE,2012:1993-1998.;Xuwen Wang,Qiang Zhang,Xiaojie Wang,et al.Cross-lingual Pseudo Relevance Feedback Based on Weak Relevant Topic Alignment.Proceedings ofthe 29th Pacific Asia Conference on Language,Information and Computation,PACLIC 29,Shanghai,China,2015:529-534.)等跨語言信息檢索研究,其語言對象主要是以英語為主,大多都是研究英語和其他語言的跨語言檢索問題。
當前,中國南寧市作為中國-東盟博覽會永久舉辦地以來,中國與東盟國家的政治、經濟、文化等往來更加頻繁和密切,面向東盟國家語言的跨語言信息檢索和跨語言信息服務研究顯得更加迫切,其重要性日益凸顯。
技術實現要素:
本發(fā)明的目的在于針對現有技術中的上述問題,將完全加權關聯規(guī)則挖掘技術和用戶相關反饋結合應用于印尼漢跨語言信息檢索,提供一種融合關聯模式和用戶反饋的印尼漢跨語言檢索方法及系統(tǒng),能提高和改善印尼中跨語言信息檢索性能,對長查詢的印尼中跨語言檢索效果更好。
為實現上述發(fā)明目的,本發(fā)明采用了如下技術方案:
一種融合關聯模式和用戶反饋的印尼漢跨語言檢索方法,包括如下步驟:
(1)將印尼語用戶查詢通過機器翻譯模塊翻譯為中文查詢式,并提交到搜索引擎在互聯網中初步檢索,得到初檢結果文檔集;
(2)提取跨語言初檢結果文檔集前列r篇中文文檔提交給用戶;
(3)用戶對跨語言初檢結果文檔集的中文文檔進行判斷得到用戶反饋相關文檔集,文檔集中的文檔總篇數設為n;
(4)預處理用戶反饋相關文檔集,即進行中文分詞、去除停用詞、計算特征詞權值和提取特征詞的預處理操作,構建初檢相關文檔數據庫;
(5)掃描初檢相關文檔數據庫,挖掘完全加權特征詞1_候選項集C1,計算C1權值w(C1),統(tǒng)計C1以外的項目的最大權值maxCwi(!C1)和C1的支持計數nc1,ms為最小支持度閾值,計算KIWT(1,2)的值,KIWT(1,2)的計算公式是:KIWT(1,2)=n×1×ms-nC1×maxCwi(!C1);
(6)計算C1的支持度FTISup(C1),如果FTISup(C1)≧ms,則從1_候選項集C1挖掘1_頻繁項集L1,并加到完全加權特征詞頻繁項集集合L,FTISup(C1)的計算公式是:
(7)挖掘k_項集,其中所述的k≧2,包括步驟(7.1)至(7.7):
(7.1)比較候選(k-1)_項集Ck-1權值和KIWT(k-1,k)值,剪除其W(Ck-1)<KIWT(k-1,k)的候選項集Ck-1;
(7.2)將余下的進行候選(k-1)項集Ck-1進行Aproiri連接,得到Ck;
(7.3)當k=2時,剪除不含查詢項的候選2_項集;
(7.4)掃描初檢相關文檔數據庫,統(tǒng)計Ck以外的項目的最大權值maxCwi(!Ck)和Ck的支持計數nck,計算Ck權值w(Ck)和KIWT(k-1,k)的值,KIWT(k-1,k)的計算公式是:KIWT(k-1,k)=n×k×ms-nck×maxCwi(!Ck);
(7.5)剪除nck為0的候選項集Ck;
(7.6)對余下的候選k_項集Ck,計算Ck支持度FTISup(Ck),如果FTISup(Ck)≧ms,則從候選k_項集Ck中挖掘k_頻繁項集Lk,并加到完全加權特征詞頻繁項集集合L,FTISup(Ck)的計算公式是:
(7.7)若k大于候選項集長度閾值或者候選k_項集為空集,則挖掘結束,否則,繼續(xù)循環(huán)步驟(7.1)至(7.6);
(8)從完全加權特征詞頻繁項集集合L中挖掘含有查詢詞項的特征詞完全加權關聯規(guī)則,構建完全加權關聯規(guī)則庫;
(9)從完全加權關聯規(guī)則庫中提取與原查詢相關的跨語言擴展詞,構建擴展詞庫;
(10)將原查詢和擴展詞組合提交到搜索引擎再次檢索得到最終檢索結果中文文檔;
(11)將最終檢索結果中文文檔提交機器翻譯模塊翻譯為印尼語文檔,最后將最終檢索結果中文文檔和最終檢索結果印尼語文檔返回給用戶。
上述步驟(4)中所述的特征詞權值的計算采用tf-idf方法,其計算公式是:其中,tfm,n表示特征詞tm在文檔dn中的出現次數,dfm表示含有特征詞tm的文檔數量,N表示文檔集合中總的文檔數量。
上述步驟(8)的方法包括步驟(8.1)至(8.4):
(8.1)從完全加權特征詞頻繁項集集合L中提取某一完全加權i_頻繁項集tlLi,找出tlLi的所有真子集;
(8.2)從tlLi的真子集集合中任意取出兩個真子集tlI1和tlI2,當并且tlI1∪tlI2=Li,若FTARConf(tlI1→tlI2)≧mc,則挖掘出完全加權特征詞強關聯規(guī)則tlI1→tlI2;若FTARConf(tlI2→tlI1)≧mc,則挖掘出完全加權特征詞強關聯規(guī)則tlI2→tlI1;所述的mc為最小置信度閾值,tlI1和tlI2為完全加權特征詞頻繁項集,是tlLi的真子集項集,FTARConf(tlI1→tlI2)為完全加權特征詞關聯規(guī)則tlI1→tlI2的置信度,其計算公式是:
其中,FTISup(Li)為完全加權頻繁項集Li的支持度,FTISup(tlI1)為完全加權頻繁項集tlI1的支持度;
(8.3)循環(huán)進行步驟(8.2),直到完全加權i_頻繁項集tlLi的真子集集合中每個真子集都被取出一次,而且僅能取出一次,則轉入步驟(8.4);
(8.4)循環(huán)進行步驟(8.1)至步驟(8.3),當完全加權特征詞頻繁項集集合L中的項集都被取出一次,而且僅能取出一次,則挖掘結束。
一種適用于上述融合關聯模式和用戶反饋的印尼漢跨語言檢索方法的檢索系統(tǒng),包括以下4個模塊和3個數據庫:
機器翻譯模塊:該模塊使用必應機器翻譯接口,用于將印尼語用戶查詢翻譯為中文查詢,以及將最終檢索結果中文文檔翻譯為印尼語文檔提交給用戶;
搜索引擎模塊:該模塊為搜索引擎,用于對譯后的中文查詢式在互聯網上進行檢索,得到跨語言初檢結果文檔集;
完全加權關聯模式挖掘和用戶相關反饋模塊:用于將前列r篇跨語言初檢結果文檔集提交給用戶,由用戶對這些文檔進行相關性判斷并確定初檢相關文檔數據庫,然后采用完全加權關聯規(guī)則挖掘技術對初檢相關文檔數據庫挖掘與查詢相關的擴展詞,實現跨語言查詢擴展,擴展詞和原查詢組合再次檢索得到最終檢索結果中文文檔;
最終結果顯示模塊:用于將最終檢索結果中文文檔提交到機器翻譯模塊翻譯為印尼語文檔,并將最終檢索結果中文文檔和最終檢索結果印尼語文檔返回用戶;
初檢相關文檔數據庫;
完全加權關聯規(guī)則庫;
擴展詞庫。
上述完全加權關聯模式挖掘和用戶相關反饋模塊包括以下5個模塊:
用戶點擊行為相關反饋提取模塊:用于捕捉用戶瀏覽初檢結果文檔集時所產生的文檔下載行為,提取用戶下載的初檢文檔構建用戶反饋相關文檔集;
文檔預處理模塊:用于將用戶反饋相關文檔集進行中文分詞、去除停用詞、計算特征詞權值和提取特征詞的預處理,構建初檢相關文檔數據庫;
完全加權關聯規(guī)則挖掘模塊:用于對初檢相關文檔數據庫進行完全加權關聯規(guī)則挖掘,挖掘含有原查詢詞項的完全加權特征詞項頻繁項集和關聯規(guī)則模式,構建完全加權關聯規(guī)則庫;
跨語言查詢擴展詞生成模塊:用于從完全加權關聯規(guī)則庫中提取與原查詢相關的擴展詞,構建擴展詞庫;
跨語言查詢擴展實現模塊:用于從擴展詞庫中提取中文擴展詞,將擴展詞和原查詢組合成新查詢,再次提交給搜索引擎在互聯網中檢索,得到最終檢索結果中文文檔。
相比于現有技術,本發(fā)明的優(yōu)勢在于:
(1)本發(fā)明將完全加權關聯規(guī)則挖掘技術和用戶相關反饋結合應用于印尼漢跨語言信息檢索,提出用戶點擊下載行為與完全加權關聯模式挖掘融合的印尼中跨語言信息檢索方法及系統(tǒng)。與單語言中文文本檢索基準MB、印尼中跨語言檢索基準CLB和傳統(tǒng)的基于偽相關反饋的跨語言信息檢索方法CLR_PRF比較,本發(fā)明方法的檢索性能獲得了很大的改善和提高,實驗結果表明,本發(fā)明獲得很好的檢索結果,其各項指標值都高于基準CLB和CLR_PRF算法的值,查詢主題description類型的檢索效果也比title類型的好,其檢索結果的MAP值提高幅度最大。
(2)實驗結果表明,本發(fā)明提出的融合完全加權關聯模式挖掘和用戶相關反饋的印尼漢跨語言信息檢索方法及系統(tǒng)是有效的,能改善和提高跨語言信息檢索性能。其主要原因分析如下:在跨語言信息檢索中,查詢翻譯結果對跨語言檢索結果影響較大,常常導致跨語言初檢結果質量不如單語言的初檢結果,即出現查詢主題漂移問題。而將用戶點擊行為與完全加權關聯模式挖掘融合應用到印尼中跨語言信息檢索模型,可以獲得與原查詢最相關的反饋信息,通過完全加權關聯規(guī)則挖掘得到與原查詢相關的擴展詞實現跨語言查詢擴展,避免了跨語言檢索中存在的嚴重主題漂移問題,提高了印尼中跨語言檢索性能。
附圖說明
圖1為本發(fā)明融合關聯模式和用戶反饋的印尼漢跨語言檢索方法的框圖。
圖2為本發(fā)明融合關聯模式和用戶反饋的印尼漢跨語言檢索系統(tǒng)整體流程圖。
圖3為本發(fā)明融合關聯模式和用戶反饋的印尼漢跨語言檢索系統(tǒng)結構框圖。
圖4為本發(fā)明所述的完全加權關聯模式挖掘和用戶相關反饋模塊結構框圖。
具體實施方式
以下結合實施例及其附圖對本發(fā)明技術方案作進一步非限制性的詳細說明。
一、為了更好地說明本發(fā)明的技術方案,下面將本發(fā)明涉及的相關概念介紹如下:
假設用戶查詢經過跨語言初次檢索和用戶相關反饋后得到的目標語言(Target Language,TL)初檢相關文檔集為TLdoc={tld1,tld2,…,tldn},tldi(1≦i≦n)表示目標語言文檔集TLdoc中的第i篇文檔,tldj={t1,t2,…,tm,…,tp},tm(m=1,2,…,p)稱為目標語言特征詞項目(Feature-term Item,FTI),簡稱為特征項,一般是由字、詞或詞組構成,tldi中對應的特征項權值集合Wi={wi1,wi2,…,wim,…,wip},wim為第i篇文檔tldi中第m個特征項tm的對應的權值,令tlI={t1,t2,…,tk}表示TLdoc中全體特征項集合,則tlI的子集Y稱為TLdoc中的特征詞項集(Feature-term Itemsets),即項集Y。
對于項集(tlI1,tlI2),且根據完全加權關聯模式挖掘理論知識(黃名選,嚴小衛(wèi),張師超.基于矩陣加權關聯規(guī)則挖掘的偽相關反饋查詢擴展.軟件學報,Vol.20,No.7,July 2009,pp.1854-1865),給出如下一些基本概念。
定義1特征詞項集I(I=(tlI1,tlI2))的完全加權支持度(Feature-term Itemsets Support,FTISup)計算公式如(1)式所示。
其中,是項集I在TLdocD中各篇文檔的權值總和,k為項集I的項目長度(即項目個數),n是初檢相關文檔集TLdoc的文檔總數。
定義2詞間關聯規(guī)則tlI1→tlI2的完全加權置信度(Feature-termAssociation Rule Confidence,FTARConf)如(2)式所示。
其中,FTIsup(tlI1,tlI2)為項集(tlI1,tlI2)的完全加權支持度。
定義3假設最小支持度閾值為ms,最小置信度閾值為mc,若滿足:FTISup(tlI1,tlI2)≧ms,FTARConf(tlI1→tlI2)≧mc,則稱特征詞項集(tlI1,tlI2)為頻繁項集,詞間關聯規(guī)則(tlI1→tlI2)為強關聯規(guī)則。
定義4包含q_項集的特征詞k_項集權值閾值(k-Item Weighted Threshold,KIWT)(q<k)是指對包含q_項集的后續(xù)項集的權值預測。
設tlT是完全加權q-項集,且q<k,在(tlI-tlT)項集中,記前(k-q)個權值最大的項目相應的權值為w1,w2,…wk-q,q-項集tlT在TLdoc中的支持計數為SC(tlT),根據文獻(黃名選,嚴小衛(wèi),張師超.基于矩陣加權關聯規(guī)則挖掘的偽相關反饋查詢擴展.軟件學報,Vol.20,No.7,July 2009,pp.1854-1865)的k-權值閾值理論知識,給出了包含q_項集的特征詞k_項集權值閾值的計算公式如式(3)所示。
二、如圖1所示,本實施例的融合關聯模式和用戶反饋的印尼漢跨語言檢索方法包括以下步驟:
(1)將印尼語用戶查詢通過機器翻譯模塊翻譯為中文查詢式,并提交到搜索引擎在互聯網中初步檢索,得到初檢結果文檔集;機器翻譯模塊采用必應機器翻譯接口,即Microsoft TranslatorAPI;搜索引擎模塊可以是現有的百度或谷歌等搜索引擎;
(2)提取跨語言初檢結果文檔集前r篇中文文檔提交給用戶;
(3)用戶對跨語言初檢結果文檔集的中文文檔進行判斷得到用戶反饋相關文檔集,文檔集中的文檔總篇數設為n;
(4)預處理用戶反饋相關文檔集,即進行中文分詞、去除停用詞、計算特征詞權值和提取特征詞的預處理操作,構建初檢相關文檔數據庫;
特征詞權值的計算采用tf-idf方法,其計算公式是:
其中,tfm,n表示特征詞tm在文檔dn中的出現次數,dfm表示含有特征詞tm的文檔數量,N表示文檔集合中總的文檔數量;
(5)掃描初檢相關文檔數據庫,挖掘完全加權特征詞1_候選項集C1,計算C1權值w(C1),統(tǒng)計C1以外的項目的最大權值maxCwi(!C1)和C1的支持計數nc1,ms為最小支持度閾值,計算KIWT(1,2)的值,KIWT(1,2)的計算公式是:KIWT(1,2)=n×1×ms-nc1×maxCwi(!C1);
(6)計算C1的支持度FTISup(C1),如果FTISup(C1)≧ms,則從1_候選項集C1挖掘1_頻繁項集L1,并加到完全加權特征詞頻繁項集集合L,FTISup(C1)的計算公式是:
(7)挖掘k_項集,其中k≧2,包括步驟(7.1)至(7.7):
(7.1)比較候選(k-1)_項集Ck-1權值和KIWT(k-1,k)值,剪除其W(Ck-1)<KIWT(k-1,k)的候選項集Ck-1;
(7.2)將余下的進行候選(k-1)項集Ck-1進行Aproiri連接,得到Ck;
(7.3)當k=2時,剪除不含查詢項的候選2_項集;
(7.4)掃描初檢相關文檔數據庫,統(tǒng)計Ck以外的項目的最大權值maxCwi(!Ck)和Ck的支持計數nck,計算Ck權值w(Ck)和KIWT(k-1,k)的值,KIWT(k-1,k)的計算公式是:KIWT(k-1,k)=n×k×ms-nck×maxCwi(!Ck);
(7.5)剪除nck為0的候選項集Ck;
(7.6)對余下的候選k_項集Ck,計算Ck支持度FTISup(Ck),如果FTISup(Ck)≧ms,則從候選k_項集Ck中挖掘k_頻繁項集Lk,并加到完全加權特征詞頻繁項集集合L,FTISup(Ck)的計算公式是:
(7.7)若k大于候選項集長度閾值或者候選k_項集為空集,則挖掘結束,否則,繼續(xù)循環(huán)步驟(7.1)至(7.6);
(8)從完全加權特征詞頻繁項集集合L中挖掘含有查詢詞項的特征詞完全加權關聯規(guī)則,構建完全加權關聯規(guī)則庫;方法包括步驟(8.1)至(8.4):
(8.1)從完全加權特征詞頻繁項集集合L中提取某一完全加權i_頻繁項集tlLi,找出tlLi的所有真子集;
(8.2)從tlLi的真子集集合中任意取出兩個真子集tlI1和tlI2,當并且tlI1∪tlI2=Li,若FTARConf(tlI1→tlI2)≧mc,則挖掘出完全加權特征詞強關聯規(guī)則tlI1→tlI2;若FTARConf(tlI2→tlI1)≧mc,則挖掘出完全加權特征詞強關聯規(guī)則tlI2→tlI1;所述的mc為最小置信度閾值,tlI1和tlI2為完全加權特征詞頻繁項集,是tlLi的真子集項集,FTARConf(tlI1→tlI2)為完全加權特征詞關聯規(guī)則tlI1→tlI2的置信度,其計算公式是:
其中,FTISup(Li)為完全加權頻繁項集Li的支持度,FTISup(tlI1)為完全加權頻繁項集tlI1的支持度;
(8.3)循環(huán)進行步驟(8.2),直到完全加權i_頻繁項集tlLi的真子集集合中每個真子集都被取出一次,而且僅能取出一次,則轉入步驟(8.4);
(8.4)循環(huán)進行步驟(8.1)至步驟(8.3),當完全加權特征詞頻繁項集集合L中的項集都被取出一次,而且僅能取出一次,則挖掘結束;
(9)從完全加權關聯規(guī)則庫中提取與原查詢相關的跨語言擴展詞,構建擴展詞庫;
(10)將原查詢和擴展詞組合提交到搜索引擎再次檢索得到最終檢索結果中文文檔;
(11)將最終檢索結果中文文檔提交機器翻譯模塊翻譯為印尼語文檔,最后將最終檢索結果中文文檔和最終檢索結果印尼語文檔返回給用戶。
三、如圖2至4所示,適用于本實施例融合關聯模式和用戶反饋的印尼漢跨語言檢索方法的檢索系統(tǒng),包括以下4個模塊和3個數據庫:
機器翻譯模塊:該模塊使用必應機器翻譯接口,即Microsoft TranslatorAPI,用于將印尼語用戶查詢翻譯為中文查詢,以及將最終檢索結果中文文檔翻譯為印尼語文檔提交給用戶;
搜索引擎模塊:該模塊為搜索引擎,用于對譯后的中文查詢式在互聯網上進行檢索,得到跨語言初檢結果文檔集;
完全加權關聯模式挖掘和用戶相關反饋模塊:用于將前列r篇跨語言初檢結果文檔集提交給用戶,由用戶對這些文檔進行相關性判斷并確定初檢相關文檔數據庫,然后采用完全加權關聯規(guī)則挖掘技術對初檢相關文檔數據庫挖掘與查詢相關的擴展詞,實現跨語言查詢擴展,擴展詞和原查詢組合再次檢索得到最終檢索結果中文文檔;
最終結果顯示模塊:用于將最終檢索結果中文文檔提交到機器翻譯模塊翻譯為印尼語文檔,并將最終檢索結果中文文檔和最終檢索結果印尼語文檔返回用戶;
初檢相關文檔數據庫;
完全加權關聯規(guī)則庫;
擴展詞庫。
其中,所述完全加權關聯模式挖掘和用戶相關反饋模塊包括以下5個模塊:
用戶點擊行為相關反饋提取模塊:用于捕捉用戶瀏覽初檢結果文檔集時所產生的文檔下載行為,提取用戶下載的初檢文檔構建用戶反饋相關文檔集;
文檔預處理模塊:用于將用戶反饋相關文檔集進行中文分詞、去除停用詞、計算特征詞權值和提取特征詞的預處理,構建初檢相關文檔數據庫;
完全加權關聯規(guī)則挖掘模塊:用于對初檢相關文檔數據庫進行完全加權關聯規(guī)則挖掘,挖掘含有原查詢詞項的完全加權特征詞項頻繁項集和關聯規(guī)則模式,構建完全加權關聯規(guī)則庫;
跨語言查詢擴展詞生成模塊:用于從完全加權關聯規(guī)則庫中提取與原查詢相關的擴展詞,構建擴展詞庫;
跨語言查詢擴展實現模塊:用于從擴展詞庫中提取中文擴展詞,將擴展詞和原查詢組合成新查詢,再次提交給搜索引擎在互聯網中檢索,得到最終檢索結果中文文檔。
四、結合本發(fā)明的技術方案,下面通過實驗對本發(fā)明的有益效果做進一步說明:
由于搜索引擎的研究范圍廣以及要考慮的因素比較多,本發(fā)明改為在基于向量空間模型的印尼中跨語言檢索系統(tǒng)中進行,因此,本實驗是個模擬實驗。編寫了本發(fā)明方法及系統(tǒng)的源程序進行本發(fā)明的實驗。采用日本情報信息研究所主辦的多國語言處理國際評測會議上的跨語言信息檢索標準數據測試集NTCIR-5CLIR的中文語料作為本實驗語料。
NTCIR-5CLIR有查詢集、文檔測試集以及結果集,其中,查詢集有50個查詢主題,分有TITLE、DESC、NARR和CONC等4種類型,本文實驗選擇TITLE和DESC類型,TITLE類型查詢主題以名詞和名詞性短語簡要描述,屬于短查詢,DESC類型的是以句子形式簡要描述查詢主題,屬于長查詢。其結果集有Rigid和Relax等2種評價標準,Rigid標準是指其答案都是與原查詢高度相關或相關的,Relax標準的是指高度相關、相關或部分相關的。
為了進行本文印尼中跨語言信息檢索模型的實驗,邀請翻譯機構專業(yè)翻譯人士將NTCIR-5CLIR中文版50個查詢主題人工翻譯為印尼語查詢。
本文實驗中,采用中國科學院計算技術研究所研制編寫的漢語詞法分析系統(tǒng)ICTCLAS對中文實驗語料和譯后中文查詢進行預處理。特征詞權值計算采用傳統(tǒng)的tf-idf方法,譯后查詢項權重(wi,q)計算公式(來自文獻G.Salton,C.Buckley.Term-weighting approaches in automatic text retrieval[J].Information Processing&Management,1988,24(5):513-523.)如式(4)所示。
其中,tfi,q為查詢項在查詢文本信息中出現的初始頻率,N為初檢相關文檔總數,dfi為包含第i個查詢項的初檢相關文檔數。
本實驗中,中文擴展詞的權值設置方法是:將矩陣加權關聯規(guī)則的置信度作為擴展詞的權值,當多個關聯規(guī)則含有重復相同的查詢項時,取其置信度最高者作為該擴展詞權值。
實驗評測比較基準是:
(1)單語言檢索基準(Monolingual Baseline,MB):用中文查詢直接檢索中文文檔得到的檢索結果。
(2)跨語言檢索基準(Cross-language Baseline,CLB):指沒經任何相關反饋的首次跨語言檢索結果,即印尼查詢經機器翻譯系統(tǒng)翻譯后檢索中文文檔得到的檢索結果。
(3)傳統(tǒng)的基于偽相關反饋的跨語言檢索方法CLR_PRF(Jianfeng Gao,JianyunNie,Jian Zhang,et al,TREC-9CLIR Experiments atMSRCN[C].In:Proc.ofthe 9th Text Retrieval Evaluation Conference,2001:343-353.;吳丹,何大慶,王惠臨.基于偽相關的跨語言查詢擴展[J].情報學報,2010,29(2):232-239.)。本實驗中,提取跨語言前列初檢文檔20篇構建初檢相關文檔集,提取前列權值(降序排列)的20個特征詞為擴展詞。
本發(fā)明方法實驗參數:提取跨語言初檢文檔前列100篇文檔提交給用戶,用戶進行相關性判斷后確定初檢文檔集,本文實驗中,初檢前列100篇中含有已知結果集中的相關文檔視為用戶相關反饋信息,并提取出來構建用戶初檢相關文檔集,最后,用完全加權關聯規(guī)則挖掘技術對初檢相關文檔集挖掘擴展詞實現查詢擴展。
編寫了源程序,將本發(fā)明方法與基準方法MB、CLB和CLR_PRF在NTCIR-5CLIR測試集上進行印尼漢跨語言文本檢索,比較和分析其跨語言檢索性能。
(1)基準實驗結果
運行實驗源程序,提交NTCIR-5CLIR的50個查詢主題的title部分和description部分進行中文單語言檢索、印尼漢跨語言檢索和傳統(tǒng)的基于偽相關反饋的印尼漢跨語言檢索,即運行基準算法MB、CLB和CLR_PRF,得到3種基準方法檢索實驗結果如表1所示。
表1:
表1實驗結果表明,印尼漢跨語言檢索基準CLB和傳統(tǒng)的CLR_PRF方法檢索結果的各個評價指標值只達到單語言檢索基準MB的30%至60%左右,長查詢description類型的檢索效果比短查詢title類型的檢索效果好。對于CLR_PRF算法,其檢索評價指標中,除了MAP外,其余的指標值比基準CLB的有所提高,提高幅度為5%至30%左右,而MAP值普遍下降,最大幅度達%46。這些結果說明,跨語言檢索受查詢翻譯因素的影響,檢索性能普遍低下,還達不到其相應的單語言檢索性能。
(2)本發(fā)明方法與基準算法的檢索性能比較
采用NTCIR-5CLIR的50個查詢主題的title類型和description類型,對支持度變化和置信度變化時兩種情況進行檢索性能實驗,與印尼漢跨語言檢索基準CLB和傳統(tǒng)的CLR_PRF方法,以及單語言檢索基準MB進行檢索性能比較。實驗具體參數:支持度閾值變化時檢索性能比較如表2所示,置信度閾值變化時檢索結果的MAP、P@5和P@15值如表3所示。
表2:
表3:
從表2的實驗結果可知,當完全加權支持度閾值變化時,本發(fā)明方法檢索結果的各項指標值都高于印尼漢跨語言檢索基準CLB和傳統(tǒng)的偽相關跨語言檢索方法CLR_PRF的值,均達到單語言檢索基準MB的60%至102%。與基準CLB比較,其提高的幅度最大為91.55%(即Rigid類型的P@5值),最低的是36.06%類型、Relax評測的P@15值)。與CLR_PRF方法相比,其提高的幅度最大可達244.97%(即description查詢類型、Rigid評測的MAP值),最低的是32.89%,特別地,其description查詢類型、Rigid評測的MAP值已經達到并超過單語言檢索基準MB的2%。另外,查詢主題description類型的檢索效果比title類型的好,其檢索結果的MAP值提高幅度最大。
表3實驗結果表明,當置信度閾值變化時,本發(fā)明獲得很好的檢索結果,其各項指標值都高于基準CLB和CLR_PRF算法的值,均達到單語言檢索基準MB的58.07%至101.2%,查詢主題description類型的檢索效果也比title類型的好,其檢索結果的MAP值提高幅度最大。
綜上所述,本發(fā)明具有較好的推廣應用價值。