1.一種融合關(guān)聯(lián)模式和用戶反饋的印尼漢跨語言檢索方法,其特征在于,包括如下步驟:
(1)將印尼語用戶查詢通過機(jī)器翻譯模塊翻譯為中文查詢式,并提交到搜索引擎在互聯(lián)網(wǎng)中初步檢索,得到初檢結(jié)果文檔集;
(2)提取跨語言初檢結(jié)果文檔集前列r篇中文文檔提交給用戶;
(3)用戶對跨語言初檢結(jié)果文檔集的中文文檔進(jìn)行判斷得到用戶反饋相關(guān)文檔集,文檔集中的文檔總篇數(shù)設(shè)為n;
(4)預(yù)處理用戶反饋相關(guān)文檔集,即進(jìn)行中文分詞、去除停用詞、計(jì)算特征詞權(quán)值和提取特征詞的預(yù)處理操作,構(gòu)建初檢相關(guān)文檔數(shù)據(jù)庫;
(5)掃描初檢相關(guān)文檔數(shù)據(jù)庫,挖掘完全加權(quán)特征詞1_候選項(xiàng)集C1,計(jì)算C1權(quán)值w(C1),統(tǒng)計(jì)C1以外的項(xiàng)目的最大權(quán)值maxCwi(!C1)和C1的支持計(jì)數(shù)nc1,ms為最小支持度閾值,計(jì)算KIWT(1,2)的值,KIWT(1,2)的計(jì)算公式是:KIWT(1,2)=n×1×ms-nC1×maxCwi(!C1);
(6)計(jì)算C1的支持度FTISup(C1),如果FTISup(C1)≧ms,則從1_候選項(xiàng)集C1挖掘1_頻繁項(xiàng)集L1,并加到完全加權(quán)特征詞頻繁項(xiàng)集集合L,F(xiàn)TISup(C1)的計(jì)算公式是:
(7)挖掘k_項(xiàng)集,其中所述的k≧2,包括步驟(7.1)至(7.7):
(7.1)比較候選(k-1)_項(xiàng)集Ck-1權(quán)值和KIWT(k-1,k)值,剪除其W(Ck-1)<KIWT(k-1,k)的候選項(xiàng)集Ck-1;
(7.2)將余下的進(jìn)行候選(k-1)項(xiàng)集Ck-1進(jìn)行Aproiri連接,得到Ck;
(7.3)當(dāng)k=2時(shí),剪除不含查詢項(xiàng)的候選2_項(xiàng)集;
(7.4)掃描初檢相關(guān)文檔數(shù)據(jù)庫,統(tǒng)計(jì)Ck以外的項(xiàng)目的最大權(quán)值maxCwi(!Ck)和Ck的支持計(jì)數(shù)nck,計(jì)算Ck權(quán)值w(Ck)和KIWT(k-1,k)的值,KIWT(k-1,k)的計(jì)算公式是:KIWT(k-1,k)=n×k×ms-nck×maxCwi(!Ck);
(7.5)剪除nck為0的候選項(xiàng)集Ck;
(7.6)對余下的候選k_項(xiàng)集Ck,計(jì)算Ck支持度FTISup(Ck),如果FTISup(Ck)≧ms,則從候選k_項(xiàng)集Ck中挖掘k_頻繁項(xiàng)集Lk,并加到完全加權(quán)特征詞頻繁項(xiàng)集集合L,F(xiàn)TISup(Ck)的計(jì)算公式是:
(7.7)若k大于候選項(xiàng)集長度閾值或者候選k_項(xiàng)集為空集,則挖掘結(jié)束,否則,繼續(xù)循環(huán)步驟(7.1)至(7.6);
(8)從完全加權(quán)特征詞頻繁項(xiàng)集集合L中挖掘含有查詢詞項(xiàng)的特征詞完全加權(quán)關(guān)聯(lián)規(guī)則,構(gòu)建完全加權(quán)關(guān)聯(lián)規(guī)則庫;
(9)從完全加權(quán)關(guān)聯(lián)規(guī)則庫中提取與原查詢相關(guān)的跨語言擴(kuò)展詞,構(gòu)建擴(kuò)展詞庫;
(10)將原查詢和擴(kuò)展詞組合提交到搜索引擎再次檢索得到最終檢索結(jié)果中文文檔;
(11)將最終檢索結(jié)果中文文檔提交機(jī)器翻譯模塊翻譯為印尼語文檔,最后將最終檢索結(jié)果中文文檔和最終檢索結(jié)果印尼語文檔返回給用戶。
2.根據(jù)權(quán)利要求1所述的融合關(guān)聯(lián)模式和用戶反饋的印尼漢跨語言檢索方法,其特征在于,步驟(4)中所述的特征詞權(quán)值的計(jì)算采用tf-idf方法,其計(jì)算公式是:其中,tfm,n表示特征詞tm在文檔dn中的出現(xiàn)次數(shù),dfm表示含有特征詞tm的文檔數(shù)量,N表示文檔集合中總的文檔數(shù)量。
3.根據(jù)權(quán)利要求1所述的融合關(guān)聯(lián)模式和用戶反饋的印尼漢跨語言檢索方法,其特征在于,步驟(8)的方法包括步驟(8.1)至(8.4):
(8.1)從完全加權(quán)特征詞頻繁項(xiàng)集集合L中提取某一完全加權(quán)i_頻繁項(xiàng)集tlLi,找出tlLi的所有真子集;
(8.2)從tlLi的真子集集合中任意取出兩個(gè)真子集tlI1和tlI2,當(dāng)并且tlI1∪tlI2=Li,若FTARConf(tlI1→tlI2)≧mc,則挖掘出完全加權(quán)特征詞強(qiáng)關(guān)聯(lián)規(guī)則tlI1→tlI2;若FTARConf(tlI2→tlI1)≧mc,則挖掘出完全加權(quán)特征詞強(qiáng)關(guān)聯(lián)規(guī)則tlI2→tlI1;所述的mc為最小置信度閾值,tlI1和tlI2為完全加權(quán)特征詞頻繁項(xiàng)集,是tlLi的真子集項(xiàng)集,F(xiàn)TARConf(tlI1→tlI2)為完全加權(quán)特征詞關(guān)聯(lián)規(guī)則tlI1→tlI2的置信度,其計(jì)算公式是:
其中,F(xiàn)TISup(Li)為完全加權(quán)頻繁項(xiàng)集Li的支持度,F(xiàn)TISup(tlI1)為完全加權(quán)頻繁項(xiàng)集tlI1的支持度;
(8.3)循環(huán)進(jìn)行步驟(8.2),直到完全加權(quán)i_頻繁項(xiàng)集tlLi的真子集集合中每個(gè)真子集都被取出一次,而且僅能取出一次,則轉(zhuǎn)入步驟(8.4);
(8.4)循環(huán)進(jìn)行步驟(8.1)至步驟(8.3),當(dāng)完全加權(quán)特征詞頻繁項(xiàng)集集合L中的項(xiàng)集都被取出一次,而且僅能取出一次,則挖掘結(jié)束。
4.一種適用于權(quán)利要求1所述融合關(guān)聯(lián)模式和用戶反饋的印尼漢跨語言檢索方法的檢索系統(tǒng),其特征在于:包括以下4個(gè)模塊和3個(gè)數(shù)據(jù)庫:
機(jī)器翻譯模塊:該模塊使用必應(yīng)機(jī)器翻譯接口,用于將印尼語用戶查詢翻譯為中文查詢,以及將最終檢索結(jié)果中文文檔翻譯為印尼語文檔提交給用戶;
搜索引擎模塊:該模塊為搜索引擎,用于對譯后的中文查詢式在互聯(lián)網(wǎng)上進(jìn)行檢索,得到跨語言初檢結(jié)果文檔集;
完全加權(quán)關(guān)聯(lián)模式挖掘和用戶相關(guān)反饋模塊:用于將前列r篇跨語言初檢結(jié)果文檔集提交給用戶,由用戶對這些文檔進(jìn)行相關(guān)性判斷并確定初檢相關(guān)文檔數(shù)據(jù)庫,然后采用完全加權(quán)關(guān)聯(lián)規(guī)則挖掘技術(shù)對初檢相關(guān)文檔數(shù)據(jù)庫挖掘與查詢相關(guān)的擴(kuò)展詞,實(shí)現(xiàn)跨語言查詢擴(kuò)展,擴(kuò)展詞和原查詢組合再次檢索得到最終檢索結(jié)果中文文檔;
最終結(jié)果顯示模塊:用于將最終檢索結(jié)果中文文檔提交到機(jī)器翻譯模塊翻譯為印尼語文檔,并將最終檢索結(jié)果中文文檔和最終檢索結(jié)果印尼語文檔返回用戶;
初檢相關(guān)文檔數(shù)據(jù)庫;
完全加權(quán)關(guān)聯(lián)規(guī)則庫;
擴(kuò)展詞庫。
5.根據(jù)權(quán)利要求4所述的檢索系統(tǒng),其特征在于,所述完全加權(quán)關(guān)聯(lián)模式挖掘和用戶相關(guān)反饋模塊包括以下5個(gè)模塊:
用戶點(diǎn)擊行為相關(guān)反饋提取模塊:用于捕捉用戶瀏覽初檢結(jié)果文檔集時(shí)所產(chǎn)生的文檔下載行為,提取用戶下載的初檢文檔構(gòu)建用戶反饋相關(guān)文檔集;
文檔預(yù)處理模塊:用于將用戶反饋相關(guān)文檔集進(jìn)行中文分詞、去除停用詞、計(jì)算特征詞權(quán)值和提取特征詞的預(yù)處理,構(gòu)建初檢相關(guān)文檔數(shù)據(jù)庫;
完全加權(quán)關(guān)聯(lián)規(guī)則挖掘模塊:用于對初檢相關(guān)文檔數(shù)據(jù)庫進(jìn)行完全加權(quán)關(guān)聯(lián)規(guī)則挖掘,挖掘含有原查詢詞項(xiàng)的完全加權(quán)特征詞項(xiàng)頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則模式,構(gòu)建完全加權(quán)關(guān)聯(lián)規(guī)則庫;
跨語言查詢擴(kuò)展詞生成模塊:用于從完全加權(quán)關(guān)聯(lián)規(guī)則庫中提取與原查詢相關(guān)的擴(kuò)展詞,構(gòu)建擴(kuò)展詞庫;
跨語言查詢擴(kuò)展實(shí)現(xiàn)模塊:用于從擴(kuò)展詞庫中提取中文擴(kuò)展詞,將擴(kuò)展詞和原查詢組合成新查詢,再次提交給搜索引擎在互聯(lián)網(wǎng)中檢索,得到最終檢索結(jié)果中文文檔。