一種跨語言推薦方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種跨語言推薦方法和系統(tǒng),包括:基于用戶檢索會話日志構(gòu)建及更新的雙語檢索詞向量模型,挖掘雙語檢索詞間的關(guān)聯(lián)性;基于中英雙語平行語料庫構(gòu)建及更新的雙語概念向量模型,建立并更新概念詞向量模型,挖掘相關(guān)的雙語概念;檢索串預(yù)處理模塊,解析用戶輸入檢索串,過濾噪聲字符;基于雙語檢索詞向量模型和雙語概念詞向量模型構(gòu)建的推薦詞計算模塊,查找計算相似推薦詞;長尾檢索詞處理模塊,對不常見的低頻檢索詞,經(jīng)過檢索詞改寫和同義詞查找處理;結(jié)果輸出模塊,將經(jīng)過后處理的推薦詞呈現(xiàn)給用戶。該發(fā)明無需在線人工翻譯,提高了用戶的檢索效率,通過長尾檢索詞的相關(guān)檢索詞推薦方法,提高了推薦覆蓋率,擴大了相關(guān)檢索詞的支持范圍,通過動態(tài)更新推薦模型的機制,使模型能及時反映檢索系統(tǒng)用戶關(guān)注的最新研究熱點和研究趨勢。
【專利說明】
一種跨語言推薦方法和系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及信息檢索和推薦系統(tǒng)的技術(shù)領(lǐng)域,尤其涉及一種跨語言推薦方法和系 統(tǒng)。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)的發(fā)展為無國界知識共享提供了基礎(chǔ)條件,隨著文獻(xiàn)信息的日益增長,用 戶對中外文文獻(xiàn)的檢索需求日漸豐富。海量學(xué)術(shù)資源的有效篩選離不開合理的檢索策略。 用戶在檢索中文文獻(xiàn)時,通常也迫切希望了解相應(yīng)研究方向的國外研究動態(tài);由于申報國 家課題項目等需要,在檢索外文文獻(xiàn)時,對相關(guān)的國內(nèi)動態(tài)也有所需求。由于語言的表達(dá)本 身具有多樣性,對于中國人來說,檢索外文文獻(xiàn)資源的主要問題在于用戶往往不知道應(yīng)該 如何用專業(yè)英文術(shù)語表達(dá)自己的需求,而在表達(dá)的時候由于語言水平的局限性,也會帶來 部分錯誤。這也增加了用戶使用英文進(jìn)行檢索的難度。此外,如何以合適的中文檢索詞找到 相應(yīng)同一方向的中文文獻(xiàn),開拓研究思路,也是用戶在檢索外文文獻(xiàn)時的一大問題。因此, 如何對用戶進(jìn)行智能引導(dǎo),推薦雙語相關(guān)檢索詞,幫助用戶表達(dá)檢索需求,找到所需資源, 擴展知識發(fā)現(xiàn)的范圍,了解專業(yè)領(lǐng)域國內(nèi)外同行的研究趨勢,是學(xué)術(shù)文獻(xiàn)搜索系統(tǒng)的重要 一環(huán),目前的相關(guān)檢索詞推薦系統(tǒng)存在的問題包括:(1)往往只考慮同語言層面上的推薦;
[2] 用戶檢索詞呈現(xiàn)長尾分布,缺乏合理的策略處理長尾查詢詞;(3)建立模型時沒有考慮 動態(tài)更新問題,由于文獻(xiàn)資源的特殊性,用戶檢索詞的時效性很強,靜態(tài)的模型難以反映用 戶關(guān)注的最新研究熱點和可能的最新研究趨勢。
【發(fā)明內(nèi)容】
[0003] 為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種跨語言推薦方法和系統(tǒng),包括雙 語檢索詞向量模型模塊,基于用戶檢索會話日志,建立并更新檢索詞向量模型,挖掘用戶 檢索會話中雙語query的關(guān)聯(lián)性;雙語概念詞向量模型模塊,基于中英雙語文獻(xiàn)平行語料 庫,建立并更新概念詞向量模型,挖掘相關(guān)的雙語概念;檢索串預(yù)處理模塊,是對用戶輸入 的檢索串進(jìn)行解析,并過濾其中夾雜的噪聲字符;推薦詞計算模塊,基于雙語檢索詞向量模 型和雙語概念詞向量模型,查找相似性最高的檢索詞推薦給用戶;長尾檢索詞處理模塊,針 對不常見的低頻檢索詞,通過檢索詞改寫和同義詞查找方法,提高相關(guān)檢索詞的推薦覆蓋 率;推薦詞后處理模塊,通過鄰近詞拼接、相似詞過濾等技術(shù)手段來提高、改善用戶體驗;結(jié) 果輸出模塊,將經(jīng)過后處理的推薦詞呈現(xiàn)給用戶。具體步驟如下:
[0004] 步驟一:雙語檢索詞向量模型模塊,主要基于用戶檢索會話日志,用戶的檢索會話 中,往往蘊含了雙語query,例如,用戶在用中文檢索后,可能還會在同一會話中,再次檢索 相關(guān)的英文檢索詞,例如,用戶在同一檢索會話中,既檢索了 "機器學(xué)習(xí)",又檢索了 "machine learning"和"machine learning algorithms",所以,通過對同一會話中的雙語 query序列建模,可以有效地將雙語query間的關(guān)聯(lián)性挖掘出來。
[0005] 模型的構(gòu)建主要分三步:首先,從用戶檢索日志中,提取并預(yù)處理含有雙語檢索詞 的會話數(shù)據(jù),然后,將雙語檢索詞組織成待用的模型訓(xùn)練數(shù)據(jù),最后,基于word embedding 模型訓(xùn)練得到雙語檢索詞向量。具體如下:⑴會話提取、預(yù)處理,首先,根據(jù)時間間隔切分 檢索會話,將時間間隔設(shè)為15分鐘,其次,從會話數(shù)據(jù)中提取檢索屬性和行為等必要的文本 數(shù)據(jù),包括用戶檢索詞等,最后,過濾不合法query,如HTML字符,標(biāo)點符號等,保留需要的含 有雙語檢索詞的會話數(shù)據(jù);(2)生成訓(xùn)練數(shù)據(jù),根據(jù)采用的詞向量模型需求,將預(yù)處理后會 話中的雙語檢索詞序列,組織成待用的文本訓(xùn)練數(shù)據(jù)集,每個會話對應(yīng)訓(xùn)練數(shù)據(jù)集中的一 個樣本;(3)訓(xùn)練雙語檢索詞向量模型,根據(jù)預(yù)設(shè)的無監(jiān)督word embedding模型及參數(shù),在 文本訓(xùn)練數(shù)據(jù)集上,訓(xùn)練雙語檢索詞向量模型;
[0006] 模型的更新主要分三步,首先,從新生成的用戶檢索日志中,提取并預(yù)處理含有雙 語檢索詞的會話數(shù)據(jù),然后,將雙語檢索詞組織成待用的模型訓(xùn)練數(shù)據(jù),最后,加載原有雙 語檢索詞向量模型,采用動態(tài)增量更新方式對雙語檢索詞向量進(jìn)行更新。具體如下:(1)更 新會話數(shù)據(jù),基于新生成或搜集得到的用戶日志數(shù)據(jù),提取并預(yù)處理會話數(shù)據(jù);(2)更新訓(xùn) 練數(shù)據(jù),根據(jù)新的會話數(shù)據(jù),更新原有訓(xùn)練數(shù)據(jù)集;(3)動態(tài)增量更新雙語檢索詞向量模型, 基于原模型詞匯表及雙語檢索詞向量,采用動態(tài)增量更新方式,更新雙語檢索詞向量模型 及詞匯表;
[0007] 步驟二:雙語概念詞向量模型模塊,主要基于中英雙語文獻(xiàn)平行語料庫,建立概念 詞向量模型,挖掘相關(guān)的雙語概念,更新模型。模型的構(gòu)建主要分兩步:首先,從中英雙語文 獻(xiàn)平行語料庫中,提取平行語料數(shù)據(jù),組織成待用的模型訓(xùn)練數(shù)據(jù),然后,基于雙語word embedding模型訓(xùn)練得到雙語概念詞向量。具體如下:(1)構(gòu)建雙語訓(xùn)練數(shù)據(jù),首先,從中英 雙語文獻(xiàn)平行語料庫中,提取平行語料數(shù)據(jù),平行語料主要包括雙語關(guān)鍵詞,然后,按模型 需求組織成待用的模型訓(xùn)練數(shù)據(jù)集,一篇文獻(xiàn)的關(guān)鍵詞序列構(gòu)成了訓(xùn)練數(shù)據(jù)集中的一個樣 本;(2)訓(xùn)練雙語概念詞向量模型,根據(jù)預(yù)設(shè)的模型及參數(shù),在文本訓(xùn)練數(shù)據(jù)集上,訓(xùn)練雙語 概念詞向量模型。模型的更新主要分兩步:首先,更新中英雙語文獻(xiàn)平行語料數(shù)據(jù),然后,加 載原有雙語概念詞向量模型,采用動態(tài)增量更新方式對雙語概念詞詞向量進(jìn)行更新。具體 如下:(1)更新雙語訓(xùn)練數(shù)據(jù),首先,獲取新中英雙語文獻(xiàn)平行語料數(shù)據(jù),然后,從中提取平 行語料數(shù)據(jù),最后,按模型需求,組織并更新待用的模型訓(xùn)練數(shù)據(jù)集;(2)動態(tài)增量更新雙語 概念詞向量模型,基于原模型詞匯表及雙語概念詞向量,采用動態(tài)增量更新方式,更新雙語 概念詞向量模型及詞匯表;
[0008] 步驟三:檢索串預(yù)處理模塊,檢索串預(yù)處理主要用于解析用戶輸入檢索串,過濾噪 聲字符;
[0009] 步驟四:推薦詞計算模塊,基于雙語檢索詞向量模型和雙語概念詞向量模型,首 先,對現(xiàn)有詞向量模型進(jìn)行單位化處理,然后,根據(jù)預(yù)設(shè)的向量夾角余弦相似度計算公式, 在兩個模型中,分別計算檢索詞和可能的推薦詞之間的相似度,最后,按預(yù)設(shè)的權(quán)重合并, 排序輸出相似性最高的前K個推薦詞,K為預(yù)先指定的數(shù)目,本實施例中,K取20。具體如下: 首先,模型預(yù)處理,單位化兩模型詞向量,預(yù)處理主要包括檢查并單位化兩模型的詞向量, 其次,計算檢索詞與模型詞向量的相似度,采用基于余弦度量法及預(yù)設(shè)權(quán)重的方法,具體公 式如余弦度量法(cosine measure),
-,其中:_表示向量5的長度(模), 加權(quán)相似度(weighted similarity),sim(x,y)=a ? simi(x,y) + (l_a) ? sim2(x,y),其中, sinu(x,y)為各模型對應(yīng)的相似度,sim(x,y)為計算得到的最終相似度,a為預(yù)設(shè)的權(quán)重(默 認(rèn)0.5),最后,排序輸出最相似的前K個推薦詞,K為預(yù)先指定的數(shù)目,本發(fā)明中取20;
[0010] 步驟五:長尾檢索詞處理模塊,長尾檢索詞處理主要包括檢索詞改寫和同義詞查 找。檢索詞改寫,基于編輯距離策略,同義詞查找策略包括縮略語還原擴展、基于同義詞典 查找和拼音翻譯,同義詞查找,具體方法包括:縮略語還原,基于同義詞典查找,拼音翻譯。 具體如下:第一,基于編輯距離算法,對檢索詞進(jìn)行改寫后,重新查找,首先基于預(yù)設(shè)的策略 或算法,對檢索詞進(jìn)行改寫,本發(fā)明中采用基于編輯距離的方法,然后返回步驟四中的計算 檢索詞與模型詞向量的相似度,重新查找相應(yīng)的相似性最高的檢索詞作為推薦結(jié)果;第二, 基于縮略語還原、同義詞典及拼音翻譯方法,查找同義詞,縮略語還原,通過查找縮略語詞 典,將還原后的全稱作為推薦結(jié)果,本發(fā)明中,縮略語詞典的詞條數(shù)據(jù)格式為〈英文縮略 語,英文全稱,中文釋義〉,如檢索詞為NER,縮略語詞典中該縮略語對應(yīng)的英文全稱是"Name Entity Recognition",中文釋義為"命名實體識別",則將 "Name Entity Recognition" 和 "命名實體識別"作為推薦結(jié)果返回給用戶,基于同義詞典查找,通過查找預(yù)設(shè)的同義詞典, 或其他資源(如:WordNet),將得到的同義詞作為推薦結(jié)果,拼音翻譯,對檢索詞進(jìn)行拼音識 另IJ,如果識別出檢索詞為拼音,通過拼音-漢字詞典、隱馬爾科夫模型等方法,將拼音翻譯為 漢字,作為推薦結(jié)果;
[0011] 步驟六:推薦詞后處理模塊,推薦詞的后處理旨在改善、提高用戶體驗,主要包括 鄰近詞拼接、相似詞過濾等。
[0012] 步驟七:結(jié)果輸出模塊,將推薦詞反饋給用戶。
[0013] 優(yōu)選的,在步驟一和步驟二中,采用的動態(tài)增量更新詞向量模型的具體步驟如下: 1、加載原模型詞匯表;2、遍歷新增訓(xùn)練數(shù)據(jù),更新詞匯表;3、加載原詞向量模型,并隨機初 始化新增單詞對應(yīng)的向量;4、遍歷新增訓(xùn)練數(shù)據(jù),利用負(fù)采樣方法及隨機梯度下降算法,迭 代更新詞向量;5、達(dá)到預(yù)設(shè)的迭代次數(shù)后,輸出更新后的詞向量模型及詞匯表。
[0014] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明通過提出了一種有效的跨語言推 薦建模方法,無需在線人工翻譯,提高了用戶的檢索效率;通過提出了一種長尾檢索詞的相 關(guān)檢索詞推薦方法,提高了推薦覆蓋率,擴大了相關(guān)檢索詞的支持范圍;通過提出了一種動 態(tài)更新推薦模型的機制,使模型能及時反映檢索系統(tǒng)用戶關(guān)注的最新研究熱點和研究趨 勢。
【附圖說明】
[0015]圖1為本發(fā)明的系統(tǒng)構(gòu)成圖;
[0016] 圖2為本發(fā)明的雙語檢索詞向量模型建立和更新示意圖;
[0017] 圖3為本發(fā)明的無監(jiān)督詞向量模型示意圖;
[0018] 圖4為本發(fā)明的雙語概念詞向量模型建立和更新示意圖;
[0019] 圖5為本發(fā)明的動態(tài)增量更新詞向量模型的流程示意圖;
[0020] 圖6為本發(fā)明的推薦詞計算示意圖;
[0021 ]圖7為本發(fā)明的長尾檢索詞處理示意圖。
[0022]圖中:S1雙語檢索詞向量模型模塊、S2雙語概念詞向量模型模塊、S3檢索串預(yù)處理 模塊、S4推薦詞計算模塊、S5長尾檢索詞處理模塊、S6推薦詞后處理模塊、S7結(jié)果輸出模塊。
【具體實施方式】
[0023]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;?本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護(hù)的范圍。
[0024] 請參閱圖1-7實施例。
[0025] -種跨語言推薦方法和系統(tǒng),包括雙語檢索詞向量模型模塊,基于用戶檢索會話 日志,建立并更新檢索詞向量模型,挖掘用戶檢索會話中雙語query的關(guān)聯(lián)性;雙語概念詞 向量模型模塊,基于中英雙語文獻(xiàn)平行語料庫,建立并更新概念詞向量模型,挖掘相關(guān)的雙 語概念;檢索串預(yù)處理模塊,是對用戶輸入的檢索串進(jìn)行解析,并過濾其中夾雜的噪聲字 符;推薦詞計算模塊,基于雙語檢索詞向量模型和雙語概念詞向量模型,查找相似性最高的 檢索詞推薦給用戶;長尾檢索詞處理模塊,針對不常見的低頻檢索詞,通過檢索詞改寫和同 義詞查找方法,提高相關(guān)檢索詞的推薦覆蓋率;推薦詞后處理模塊,通過鄰近詞拼接、相似 詞過濾等技術(shù)手段來提高、改善用戶體驗;結(jié)果輸出模塊,將經(jīng)過后處理的推薦詞呈現(xiàn)給用 戶。具體步驟如下:
[0026] 步驟一:雙語檢索詞向量模型模塊,主要基于用戶檢索會話日志,用戶的檢索會話 中,往往蘊含了雙語query,例如,用戶在用中文檢索后,可能還會在同一會話中,再次檢索 相關(guān)的英文檢索詞,例如,用戶在同一檢索會話中,既檢索了 "機器學(xué)習(xí)",又檢索了 "machine learning"和"machine learning algorithms",所以,通過對同一會話中的雙語 query序列建模,可以有效地將雙語query間的關(guān)聯(lián)性挖掘出來。
[0027]模型的構(gòu)建主要分三步:首先,從用戶檢索日志中,提取并預(yù)處理含有雙語檢索詞 的會話數(shù)據(jù),然后,將雙語檢索詞組織成待用的模型訓(xùn)練數(shù)據(jù),最后,基于word embedding 模型訓(xùn)練得到雙語檢索詞向量。具體如下:⑴會話提取、預(yù)處理,首先,根據(jù)時間間隔切分 檢索會話,將時間間隔設(shè)為15分鐘,其次,從會話數(shù)據(jù)中提取檢索屬性和行為等必要的文本 數(shù)據(jù),包括用戶檢索詞等,最后,過濾不合法query,如HTML字符,標(biāo)點符號等,保留需要的含 有雙語檢索詞的會話數(shù)據(jù);(2)生成訓(xùn)練數(shù)據(jù),根據(jù)采用的詞向量模型需求,將預(yù)處理后會 話中的雙語檢索詞序列,組織成待用的文本訓(xùn)練數(shù)據(jù)集,每個會話對應(yīng)訓(xùn)練數(shù)據(jù)集中的一 個樣本;(3)訓(xùn)練雙語檢索詞向量模型,根據(jù)預(yù)設(shè)的無監(jiān)督word embedding模型及參數(shù),在 文本訓(xùn)練數(shù)據(jù)集上,訓(xùn)練雙語檢索詞向量模型。本實施例中,采用的詞向量模型為skip-gram模型或CB0W模型。Skip-gram模型和CB0W模型都是已知的模型,算法具體可以參見: Mikolov,Tomas,et al."Distributed representations of words and phrases and their
[0028] compositionality."Advances in Neural Information Processing Systems ? 2013,在此不再說明。
[0029]模型的更新主要分三步:首先,從新生成的用戶檢索日志中,提取并預(yù)處理含有雙 語檢索詞的會話數(shù)據(jù),然后,將雙語檢索詞組織成待用的模型訓(xùn)練數(shù)據(jù),最后,加載原有雙 語檢索詞向量模型,采用動態(tài)增量更新方式對雙語檢索詞向量進(jìn)行更新。具體如下:(1)更 新會話數(shù)據(jù),基于新生成或搜集得到的用戶日志數(shù)據(jù),提取并預(yù)處理會話數(shù)據(jù)"2)更新訓(xùn) 練數(shù)據(jù),根據(jù)新的會話數(shù)據(jù),更新原有訓(xùn)練數(shù)據(jù)集;(3)動態(tài)增量更新雙語檢索詞向量模型, 基于原模型詞匯表及雙語檢索詞向量,采用動態(tài)增量更新方式,更新雙語檢索詞向量模型 及詞匯表;
[0030] 步驟二:雙語概念詞向量模型模塊,主要基于中英雙語文獻(xiàn)平行語料庫,建立概念 詞向量模型,挖掘相關(guān)的雙語概念,更新模型。模型的構(gòu)建主要分兩步:首先,從中英雙語文 獻(xiàn)平行語料庫中,提取平行語料數(shù)據(jù),組織成待用的模型訓(xùn)練數(shù)據(jù),然后,基于雙語word embedding模型訓(xùn)練得到雙語概念詞向量。具體如下:(1)構(gòu)建雙語訓(xùn)練數(shù)據(jù),首先,從中英 雙語文獻(xiàn)平行語料庫中,提取平行語料數(shù)據(jù),平行語料主要包括雙語關(guān)鍵詞,然后,按模型 需求組織成待用的模型訓(xùn)練數(shù)據(jù)集,一篇文獻(xiàn)的關(guān)鍵詞序列構(gòu)成了訓(xùn)練數(shù)據(jù)集中的一個樣 本;(2)訓(xùn)練雙語概念詞向量模型,根據(jù)預(yù)設(shè)的BILB0WA模型及參數(shù),在文本訓(xùn)練數(shù)據(jù)集上, 訓(xùn)練雙語概念詞向量模型;本實施例中,采用的雙語詞向量模型為BILB0WA模型,該模型為 已知模型,具體算法參見Gouws S,Bengio Y,Corrado G.BilB0WA:Fast Bilingual Distributed Representations without Word Alignments[J],在此不再說明。模型的更 新主要分兩步:首先,更新中英雙語文獻(xiàn)平行語料數(shù)據(jù),然后,加載原有雙語概念詞向量模 型,采用動態(tài)增量更新方式對雙語概念詞詞向量進(jìn)行更新。具體如下:(1)更新雙語訓(xùn)練數(shù) 據(jù),首先,獲取新中英雙語文獻(xiàn)平行語料數(shù)據(jù),然后,從中提取平行語料數(shù)據(jù),最后,按模型 需求,組織并更新待用的模型訓(xùn)練數(shù)據(jù)集;(2)動態(tài)增量更新雙語概念詞向量模型,基于原 模型詞匯表及雙語概念詞向量,采用動態(tài)增量更新方式,更新雙語概念詞向量模型及詞匯 表。
[0031] 在步驟一和步驟二中,采用的動態(tài)增量更新詞向量模型的具體步驟如下:1、加載 原模型詞匯表;2、遍歷新增訓(xùn)練數(shù)據(jù),更新詞匯表;3、加載原詞向量模型,并隨機初始化新 增單詞對應(yīng)的向量;4、遍歷新增訓(xùn)練數(shù)據(jù),利用負(fù)采樣方法及隨機梯度下降算法,迭代更新 詞向量;5、達(dá)到預(yù)設(shè)的迭代次數(shù)后,輸出更新后的詞向量模型及詞匯表;
[0032]步驟三:檢索串預(yù)處理模塊,檢索串預(yù)處理主要用于解析用戶輸入檢索串,過濾噪 聲字符;
[0033]步驟四:推薦詞計算模塊,基于雙語檢索詞向量模型和雙語概念詞向量模型,首 先,對現(xiàn)有詞向量模型進(jìn)行單位化處理,然后,根據(jù)預(yù)設(shè)的向量夾角余弦相似度計算公式, 在兩個模型中,分別計算檢索詞和可能的推薦詞之間的相似度,最后,按預(yù)設(shè)的權(quán)重合并, 排序輸出相似性最高的前K個推薦詞,K為預(yù)先指定的數(shù)目,本實施例中,K取20。具體如下: 首先,模型預(yù)處理,單位化兩模型詞向量,預(yù)處理主要包括檢查并單位化兩模型的詞向量, 其次,計算檢索詞與模型詞向量的相似度,采用基于余弦度量法及預(yù)設(shè)權(quán)重的方法,具體公 式如下:余弦度量法(cosine measure),
,其中:_表示向量無的長度 (模),加權(quán)相似度(weighted similarity),sim(x,y)=a ? simi(x,y) + (l_a) ? sim2(x,y), 其中,simi(x,y)為各模型對應(yīng)的相似度,sim(x,y)為計算得到的最終相似度,a為預(yù)設(shè)的權(quán) 重(默認(rèn)0.5),最后,排序輸出最相似的前K個推薦詞,K為預(yù)先指定的數(shù)目,本實施例中取 20;
[0034] 步驟五:長尾檢索詞處理模塊,長尾檢索詞處理主要包括檢索詞改寫和同義詞查 找,檢索詞改寫,基于編輯距離策略,同義詞查找策略包括縮略語還原擴展、基于同義詞典 查找和拼音翻譯,同義詞查找,具體方法包括:縮略語還原,基于同義詞典查找,拼音翻譯。 具體如下:第一,基于編輯距離算法,對檢索詞進(jìn)行改寫后,重新查找,首先基于預(yù)設(shè)的策略 或算法,對檢索詞進(jìn)行改寫,本發(fā)明中采用基于編輯距離的方法,然后返回步驟四中的計算 檢索詞與模型詞向量的相似度,重新查找相應(yīng)的相似性最高的檢索詞作為推薦結(jié)果;第二, 基于縮略語還原、同義詞典及拼音翻譯方法,查找同義詞,縮略語還原,通過查找縮略語詞 典,將還原后的全稱作為推薦結(jié)果,本實施例中,縮略語詞典的詞條數(shù)據(jù)格式為〈英文縮略 語,英文全稱,中文釋義〉,如檢索詞為NER,縮略語詞典中該縮略語對應(yīng)的英文全稱是"Name Entity Recognition",中文釋義為"命名實體識別",則將 "Name Entity Recognition" 和 "命名實體識別"作為推薦結(jié)果返回給用戶,基于同義詞典查找,通過查找預(yù)設(shè)的同義詞典, 或其他資源(如:WordNet),將得到的同義詞作為推薦結(jié)果,拼音翻譯,對檢索詞進(jìn)行拼音識 另IJ,如果識別出檢索詞為拼音,通過拼音-漢字詞典、隱馬爾科夫模型等方法,將拼音翻譯為 漢字,作為推薦結(jié)果;
[0035]步驟六:推薦詞后處理模塊,推薦詞的后處理旨在改善、提高用戶體驗,主要包括 鄰近詞拼接、相似詞過濾等。本實施例中,如推薦詞和檢索詞的編輯距離〈4,則將其作為相 似詞過濾。如推薦詞長度〈3,說明其信息量較小,則將其和檢索詞拼接重組后作為新推薦 詞。例如,檢索詞為"機器學(xué)習(xí)",推薦詞為"算法",則將"機器學(xué)習(xí)算法"作為新推薦詞返回 給用戶;
[0036] 步驟七:結(jié)果輸出模塊,將推薦詞反饋給用戶。
[0037] 本發(fā)明通過提出了一種有效的跨語言推薦建模方法,無需在線人工翻譯,提高了 用戶的檢索效率;通過提出了一種長尾檢索詞的相關(guān)檢索詞推薦方法,提高了推薦覆蓋率, 擴大了相關(guān)檢索詞的支持范圍;通過提出了一種動態(tài)更新推薦模型的機制,使模型能及時 反映檢索系統(tǒng)用戶關(guān)注的最新研究熱點和研究趨勢。
[0038]對于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實施例的細(xì)節(jié),而且在 不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實現(xiàn)本發(fā)明。因此,無論 從哪一點來看,均應(yīng)將實施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán) 利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有 變化囊括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。
【主權(quán)項】
1. 一種跨語言推薦方法和系統(tǒng),其特征在于:包括雙語檢索詞向量模型模塊,基于用戶 檢索會話日志,建立并更新檢索詞向量模型,挖掘用戶檢索會話中雙語query的關(guān)聯(lián)性;雙 語概念詞向量模型模塊,基于中英雙語文獻(xiàn)平行語料庫,建立并更新概念詞向量模型,挖掘 相關(guān)的雙語概念;檢索串預(yù)處理模塊,是對用戶輸入的檢索串進(jìn)行解析,并過濾其中夾雜的 噪聲字符;推薦詞計算模塊,基于雙語檢索詞向量模型和雙語概念詞向量模型,查找相似性 最高的檢索詞推薦給用戶;長尾檢索詞處理模塊,針對不常見的低頻檢索詞,通過檢索詞改 寫和同義詞查找方法,提高相關(guān)檢索詞的推薦覆蓋率;推薦詞后處理模塊,通過鄰近詞拼 接、相似詞過濾等技術(shù)手段來提高、改善用戶體驗;結(jié)果輸出模塊,將經(jīng)過后處理的推薦詞 呈現(xiàn)給用戶。具體步驟如下: 步驟一:雙語檢索詞向量模型模塊,主要基于用戶檢索會話日志,用戶的檢索會話中, 往往蘊含了雙語query,例如,用戶在用中文檢索后,可能還會在同一會話中,再次檢索相關(guān) 的英文檢索詞,例如,用戶在同一檢索會話中,既檢索了 "機器學(xué)習(xí)",又檢索了 "machine learning"和"machine learnin galgorithms",所以,通過對同一會話中的雙語query序列 建模,可以有效地將雙語query間的關(guān)聯(lián)性挖掘出來。模型的構(gòu)建主要分三步:首先,從用戶 檢索日志中,提取并預(yù)處理含有雙語檢索詞的會話數(shù)據(jù),然后,將雙語檢索詞組織成待用的 模型訓(xùn)練數(shù)據(jù),最后,基于word embedding模型訓(xùn)練得到雙語檢索詞向量。模型的更新主要 分三步:首先,從新生成的用戶檢索日志中,提取并預(yù)處理含有雙語檢索詞的會話數(shù)據(jù),然 后,將雙語檢索詞組織成待用的模型訓(xùn)練數(shù)據(jù),最后,加載原有雙語檢索詞向量模型,采用 動態(tài)增量更新方式對雙語檢索詞向量進(jìn)行更新。具體如下: 模型構(gòu)建步驟:第一步,會話提取、預(yù)處理,首先,根據(jù)時間間隔切分檢索會話,將時間 間隔設(shè)為15分鐘,其次,從會話數(shù)據(jù)中提取檢索屬性和行為等必要的文本數(shù)據(jù),包括用戶 檢索詞等,最后,過濾不合法query,如HTML字符,標(biāo)點符號等,保留需要的含有雙語檢索詞 的會話數(shù)據(jù);第二步,生成訓(xùn)練數(shù)據(jù),根據(jù)采用的詞向量模型需求,將預(yù)處理后會話中的雙 語檢索詞序列,組織成待用的文本訓(xùn)練數(shù)據(jù)集,每個會話對應(yīng)訓(xùn)練數(shù)據(jù)集中的一個樣本;第 三步,訓(xùn)練雙語檢索詞向量模型,根據(jù)預(yù)設(shè)的無監(jiān)督word embedding模型及參數(shù),在文本訓(xùn) 練數(shù)據(jù)集上,訓(xùn)練雙語檢索詞向量模型。模型更新步驟:第一步,更新會話數(shù)據(jù),基于新生成 或搜集得到的用戶日志數(shù)據(jù),提取并預(yù)處理會話數(shù)據(jù);第二步,更新訓(xùn)練數(shù)據(jù),根據(jù)新的會 話數(shù)據(jù),更新原有訓(xùn)練數(shù)據(jù)集;第三步,動態(tài)增量更新雙語檢索詞向量模型,基于原模型詞 匯表及雙語檢索詞向量,采用動態(tài)增量更新方式,更新雙語檢索詞向量模型及詞匯表; 步驟二:雙語概念詞向量模型模塊,主要基于中英雙語文獻(xiàn)平行語料庫,建立概念詞向 量模型,挖掘相關(guān)的雙語概念,更新模型。模型的構(gòu)建主要分兩步:首先,從中英雙語文獻(xiàn)平 行語料庫中,提取平行語料數(shù)據(jù),組織成待用的模型訓(xùn)練數(shù)據(jù),然后,基于雙語word embedding模型訓(xùn)練得到雙語概念詞向量。具體如下:(1)構(gòu)建雙語訓(xùn)練數(shù)據(jù),首先,從中英 雙語文獻(xiàn)平行語料庫中,提取平行語料數(shù)據(jù),平行語料主要包括雙語關(guān)鍵詞,然后,按模型 需求組織成待用的模型訓(xùn)練數(shù)據(jù)集,一篇文獻(xiàn)的關(guān)鍵詞序列構(gòu)成了訓(xùn)練數(shù)據(jù)集中的一個樣 本;(2)訓(xùn)練雙語概念詞向量模型,根據(jù)預(yù)設(shè)的詞向量模型及參數(shù),在文本訓(xùn)練數(shù)據(jù)集上,訓(xùn) 練雙語概念詞向量模型。模型的更新主要分兩步:首先,更新中英雙語文獻(xiàn)平行語料數(shù)據(jù), 然后,加載原有雙語概念詞向量模型,采用動態(tài)增量更新方式對雙語概念詞詞向量進(jìn)行更 新。具體如下:(1)更新雙語訓(xùn)練數(shù)據(jù),首先,獲取新中英雙語文獻(xiàn)平行語料數(shù)據(jù),然后,從中 提取平行語料數(shù)據(jù),最后,按模型需求,組織并更新待用的模型訓(xùn)練數(shù)據(jù)集;(2)動態(tài)增量更 新雙語概念詞向量模型,基于原模型詞匯表及雙語概念詞向量,采用動態(tài)增量更新方式, 更新雙語概念詞向量模型及詞匯表; 步驟三:檢索串預(yù)處理模塊,檢索串預(yù)處理主要用于解析用戶輸入檢索串,過濾噪聲字 符; 步驟四:推薦詞計算模塊,基于雙語檢索詞向量模型和雙語概念詞向量模型,首先,對 現(xiàn)有詞向量模型進(jìn)行單位化處理;然后,根據(jù)預(yù)設(shè)的向量夾角余弦相似度計算公式,在兩個 模型中,分別計算檢索詞和可能的推薦詞之間的相似度;最后,按預(yù)設(shè)的權(quán)重合并,排序輸 出相似性最高的前K個推薦詞,K為預(yù)先指定的數(shù)目,本實施例中,K取20。具體如下:首先,模 型預(yù)處理,單位化兩模型詞向量,預(yù)處理主要包括檢查并單位化兩模型的詞向量,其次,計 算檢索詞與模型詞向量的相似度,采用基于余弦度量法及預(yù)設(shè)權(quán)重的方法,具體公式如下: 余弦度量法(cosine measure),.,其中:|ij表示向量i的長度(模),加權(quán) 相似度(weighted similarity),sim(x,y) =a ? simi(x,y) + (l_a) ? sim2(x,y),其中,sinu (x,y)為各模型對應(yīng)的相似度,sim(X,y)為計算得到的最終相似度,a為預(yù)設(shè)的權(quán)重(默認(rèn) 0.5),最后,排序輸出最相似的前K個推薦詞,K為預(yù)先指定的數(shù)目,本發(fā)明中取20; 步驟五:長尾檢索詞處理模塊,長尾檢索詞處理主要包括檢索詞改寫和同義詞查找,檢 索詞改寫,基于編輯距離策略,同義詞查找策略包括縮略語還原擴展、基于同義詞典查找和 拼音翻譯,同義詞查找,具體方法包括:縮略語還原,基于同義詞典查找,拼音翻譯。,具體如 下:,第一,基于編輯距離算法,對檢索詞進(jìn)行改寫后,重新查找,首先基于預(yù)設(shè)的策略或算 法,對檢索詞進(jìn)行改寫,本發(fā)明中采用基于編輯距離的方法,然后返回步驟四中的計算檢索 詞與模型詞向量的相似度,重新查找相應(yīng)的相似性最高的檢索詞作為推薦結(jié)果;第二,基于 縮略語還原、同義詞典及拼音翻譯方法,查找同義詞,縮略語還原,通過查找縮略語詞典, 將還原后的全稱作為推薦結(jié)果,本發(fā)明中,縮略語詞典的詞條數(shù)據(jù)格式為〈英文縮略語,英 文全稱,中文釋義〉,如檢索詞為NER,縮略語詞典中該縮略語對應(yīng)的英文全稱是"Name Entity Recognition",中文釋義為"命名實體識別",則將 "Name Entity Recognition" 和 "命名實體識別"作為推薦結(jié)果返回給用戶,基于同義詞典查找,通過查找預(yù)設(shè)的同義詞典, 或其他資源(如:WordNet),將得到的同義詞作為推薦結(jié)果,拼音翻譯,對檢索詞進(jìn)行拼音識 另IJ,如果識別出檢索詞為拼音,通過拼音-漢字詞典、隱馬爾科夫模型等方法,將拼音翻譯為 漢字,作為推薦結(jié)果; 步驟六:推薦詞后處理模塊,推薦詞的后處理旨在改善、提高用戶體驗,主要包括鄰近 詞拼接和相似詞過濾等。 步驟七:結(jié)果輸出模塊,將推薦詞反饋給用戶。2.根據(jù)權(quán)利要求1所述的一種跨語言推薦方法和系統(tǒng),其特征在于:在步驟一和步驟二 中,采用的動態(tài)增量更新詞向量模型的具體步驟如下:1、加載原模型詞匯表;2、遍歷新增訓(xùn) 練數(shù)據(jù),更新詞匯表;3、加載原詞向量模型,并隨機初始化新增單詞對應(yīng)的向量;4、遍歷新 增訓(xùn)練數(shù)據(jù),利用負(fù)采樣方法及隨機梯度下降算法,迭代更新詞向量;5、達(dá)到預(yù)設(shè)的迭代次 數(shù)后,輸出更新后的詞向量模型及詞匯表。
【文檔編號】G06F17/30GK106055623SQ201610363346
【公開日】2016年10月26日
【申請日】2016年5月26日
【發(fā)明人】符文君, 陳勇, 魏圣磊, 王鵬, 王云飛, 張振海
【申請人】《中國學(xué)術(shù)期刊(光盤版)》電子雜志社有限公司