專利名稱:文本信息檢索裝置以及文本信息檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種文本信息檢索裝置以及文本信息檢索方法。
背景技術(shù):
近年來,文本信息檢索技術(shù)逐漸用于數(shù)字電視以及DVD/HDD播放機(jī)等數(shù)字家電中。例如,以演員或歌手的名字檢索電視節(jié)目的功能,是通過以演員或歌手的名字作為關(guān)鍵詞在EPG(電子節(jié)目指南)的文本信息中進(jìn)行檢索的技術(shù)來實(shí)現(xiàn)的。而另一方面,還提出了聯(lián)想檢索技術(shù),該技術(shù)是提取文本信息的特征,通過計(jì)算該特征的類似度來進(jìn)行類似文本信息的檢索。使用該技術(shù),就可以從用戶過去看過的節(jié)目的EPG文本信息中提取出特征信息,通過使用該特征信息而檢索與該特征類似的EPG文本信息,從而能夠檢索出反應(yīng)用戶興趣的節(jié)目。
在已有的檢索技術(shù)中,日本特開平11-53394提出的檢索技術(shù)是,在從基準(zhǔn)文本(文本信息)中提取的基準(zhǔn)文本向量上,結(jié)合用戶過去使用的文本中的重要語句、其出現(xiàn)頻度、處理次數(shù)等表示用戶興趣的向量,制作與基準(zhǔn)文本相對(duì)應(yīng)的興趣文本向量,將從檢索對(duì)象文本生成的文本向量與基準(zhǔn)文本向量的類似度高的文本,作為反映用戶興趣的文本而檢索出來。日本特開平11-53394的文本處理方法是以類似于基準(zhǔn)文本的文本,在其中檢索與用戶興趣相近的文本。
發(fā)明內(nèi)容
但是,本發(fā)明人發(fā)現(xiàn),在現(xiàn)有背景技術(shù)中,由于是根據(jù)用戶興趣的向量成分即關(guān)鍵詞的重要度不同來進(jìn)行檢索,因此當(dāng)用戶具有廣泛的興趣時(shí),不同興趣領(lǐng)域的用戶興趣的向量成分即關(guān)鍵詞將混在一起。例如,從喜歡與體育和經(jīng)濟(jì)相關(guān)的新聞的用戶在過去觀看過的新聞中,提取關(guān)鍵語句以及其出現(xiàn)頻度的話,與體育相關(guān)的關(guān)鍵詞和與經(jīng)濟(jì)相關(guān)的關(guān)鍵詞將混在一起,不能很好地生成表現(xiàn)用戶興趣的向量,當(dāng)然也不能檢索出反映用戶興趣的文本。
因此,本發(fā)明就是為了解決上述問題而完成的,其目的在于提供一種文本信息檢索裝置以及文本信息檢索方法,其能夠進(jìn)行正確地反映用戶多方面的興趣的文本檢索。
在本發(fā)明中,將過去處理過的文本中的重要語句自動(dòng)地按照不同領(lǐng)域進(jìn)行分類,僅僅使用特定領(lǐng)域中包含的重要語句計(jì)算反映用戶興趣的文本的類似度。
具體而言,本發(fā)明涉及一種文本信息檢索裝置,其特征在于,具備文章分詞部,從文本信息切分出詞語;第一特征提取部,使用從資源文本信息中被文章分詞部切分出的詞語,提取出資源文本的第一特征參數(shù);第二特征提取部,使用從用戶興趣文本信息中被文章分詞部切分出的詞語,提取出表現(xiàn)用戶興趣的第二特征參數(shù);文本分類部,用第二特征參數(shù)和分類參數(shù)對(duì)用戶興趣文本進(jìn)行分類;用戶模板制作部,基于文本分類部中的分類,將第二特征參數(shù)分為兩組或兩組以上的分類,制作反映用戶興趣的用戶模板;文本信息聯(lián)想檢索部,按照每個(gè)分類計(jì)算出第一特征參數(shù)與在用戶模板中的第二特征參數(shù)之間的相似度,并基于該計(jì)算出的相似度檢索文本信息,給出檢索結(jié)果。
在本發(fā)明的文本信息檢索裝置中,由于按照用戶興趣的不同領(lǐng)域來分類存儲(chǔ)與用戶興趣相關(guān)的關(guān)鍵詞,從而能夠體現(xiàn)用戶多興趣的特點(diǎn)以生成更好的用戶模板。并且在進(jìn)行檢索的時(shí)候,能夠?qū)⒌谝惶卣鲄?shù)和第二特征參數(shù)的相似度計(jì)算限制在某一個(gè)類別內(nèi)部,由于減少了不同類別的特征詞之間的相互干擾,因此能夠提高匹配的精度,從而更好地檢索出反映用戶興趣的文本。
另外,本發(fā)明的文本信息檢索裝置,優(yōu)選還具備分類訓(xùn)練部,它使用文本分類訓(xùn)練集,利用文章分詞部從該文本分類訓(xùn)練集中切分出的詞語,并基于該詞語訓(xùn)練用來分類文本信息的分類參數(shù)。
上述本發(fā)明的文本信息檢索裝置中還優(yōu)選為,第二特征選擇部對(duì)被文章分詞部切分出的詞語wi,按照下式(1)計(jì)算該詞語的權(quán)重Weight(wi),并將該權(quán)重大于預(yù)定閾值threshold的詞語wi及其權(quán)重Weight(wi)作為第二特征參數(shù), 其中,TF(wi)是詞語wi在當(dāng)前文本中出現(xiàn)的頻率,ECE(wi)是詞語wi的期望交叉熵,P(wi)是詞語wi出現(xiàn)的概率,P(vj)是文本類別vj出現(xiàn)的概率,P(vj\wi)是出現(xiàn)詞語wi的條件下出現(xiàn)類別vj的概率。
這種本發(fā)明的文本信息檢索裝置,由于還具備分類訓(xùn)練部,可以通過用文本分類訓(xùn)練文本集來訓(xùn)練用來分類文本信息的分類參數(shù),從而能夠使用該參數(shù)對(duì)用戶興趣文本進(jìn)行更好地分類,進(jìn)而使得用戶不同領(lǐng)域的廣泛的興趣能夠更好地體現(xiàn)在用戶模板中。這樣,在文本信息聯(lián)想檢索部中根據(jù)用戶模板中的用戶興趣特征檢索文本時(shí),便能更好地檢索出反映用戶興趣的結(jié)果。
進(jìn)一步,本發(fā)明的文本信息檢索裝置中,文本分類部優(yōu)選采用樸素貝葉斯分類算法,按照下式(2)計(jì)算文本屬于某個(gè)類別的概率P(vj\d),并根據(jù)取的最大概率P(vj\d)的j來判斷文本屬于類別vj 其中,P(vj\d)表示文檔d出現(xiàn)的條件下,類別vj出現(xiàn)的條件概率,(w1,w2,…,wn)是文檔d的向量表示,P(vj)是文檔類別vj出現(xiàn)的概率,P(wi\vj)是出現(xiàn)類別vj的條件下出現(xiàn)詞語wi的概率。
這種本發(fā)明的文本信息檢索裝置,由于還具備文本分類部,使用了簡單、快速、易于維護(hù)且具有較高分類精度的樸素貝葉斯分類器對(duì)用戶興趣文本進(jìn)行分類,使得用戶興趣特征能夠分類地存放在用戶模板中,因此,文本信息聯(lián)想檢索部可以將用戶興趣特征和資源文本特征的匹配限制在某一領(lǐng)域內(nèi)部,從而減少類別之間的相互干擾,提高檢索精度,檢索出更加符合用戶實(shí)際興趣需求的文本。
進(jìn)一步,本發(fā)明的文本信息檢索裝置中,優(yōu)選還具備語義相似網(wǎng)制作部,制作用來記錄從語義相似網(wǎng)訓(xùn)練文本集被文章分詞部切分出的詞語之間的共現(xiàn)頻率、平均距離、相似度、上下位關(guān)系的語義相似網(wǎng);特征向量擴(kuò)展部,從語義相似網(wǎng)中選擇與第二特征參數(shù)中的特征詞相似度高的詞語,以該被選擇的詞語為基礎(chǔ),對(duì)用戶模板的第二特征參數(shù)進(jìn)行擴(kuò)展,用戶模板制作部基于文本分類部的分類,將被擴(kuò)張的第二特征參數(shù)分為兩組或兩組以上的分類,制作反映用戶興趣的用戶模板。
文本信息檢索裝置通過語義相似網(wǎng),可以對(duì)用戶感興趣文本的特征向量進(jìn)行聯(lián)想擴(kuò)展,將部分與用戶興趣特征詞非常相似或密切相關(guān)的詞語提取出來,并將其作為擴(kuò)展特征加入到擴(kuò)展特征向量中。據(jù)此,可以將文本信息聯(lián)想檢索部中基于關(guān)鍵詞的精確檢索提高到基于用戶興趣知識(shí)的模糊檢索層面上來,從而克服關(guān)鍵詞的精確匹配所帶來的查不準(zhǔn)和查不全問題,真正檢索出符合用戶興趣需求的文本。
在本發(fā)明的使用語義相似網(wǎng)對(duì)特征向量進(jìn)行擴(kuò)展的文本信息檢索裝置中,特征向量擴(kuò)展部優(yōu)選按照以下公式(3)計(jì)算在語義相似網(wǎng)中所含的詞語ws的權(quán)重RealWeight(ws),當(dāng)該ws的權(quán)重RealWeight(ws)大于規(guī)定的權(quán)重閾值時(shí),從語義相似網(wǎng)中選擇該詞語ws, RealWeight(ws)=RealWeight(wo)×Sim(wo,ws)(3) 其中,wo和RealWeight(wo)是在第二特征提取部中提取出的詞語wo以及由公式(2)計(jì)算得到的詞語wo的特征權(quán)重,Sim(wo,ws)是詞語wo和詞語ws的相似度,該相似度由以下公式(4)計(jì)算得到, Sim(wo,ws)=α×Simlexical(wo,ws)+β×Simstatistic(wo,ws) (4) 其中,Simlexical(wo,ws)由以下公式算出, 其中,depth是詞語wo和詞語ws在語義樹中的路徑距離,maxDepth為語義樹的最大深度,δ為調(diào)整參數(shù), Simstastic(wo,ws)由以下公式算出, 其中,co_freqwows為詞語wo和詞語ws在設(shè)定范圍內(nèi)的同現(xiàn)頻率,
為詞語wo和詞語ws的平均共現(xiàn)距離,α為調(diào)整參數(shù)。
其中,Entropy(ws)由以下公式算出, 這里,P(vi\ws)為語義相似網(wǎng)訓(xùn)練文本集中特征ws出現(xiàn)的條件下,出現(xiàn)類別vi條件概率。
本發(fā)明的文本信息檢索裝置,由于還具備語義相似網(wǎng)訓(xùn)練部,該語義相似網(wǎng)訓(xùn)練部通過對(duì)語義相似網(wǎng)訓(xùn)練文本集進(jìn)行學(xué)習(xí),提取里面所蘊(yùn)含的詞語之間的包含關(guān)系、相關(guān)關(guān)系和相似關(guān)系并記錄保存。在進(jìn)行用戶興趣特征擴(kuò)展時(shí),利用語義相似網(wǎng)綜合考慮詞語之間的詞義相似性和相關(guān)性的語義相似關(guān)系對(duì)用戶興趣特征進(jìn)行擴(kuò)展,從而克服用戶興趣的關(guān)鍵詞表達(dá)本身固有的同義性和語義分歧性,以及表示時(shí)沒有考慮到詞序或語境等問題,進(jìn)而使得基于擴(kuò)展后的用戶模板表示產(chǎn)生的檢索結(jié)果更加符合用戶的興趣需求。
并且,本發(fā)明還提供一種文本信息檢索方法,其特征在于,具備文章分詞步驟,從文本信息切分出詞語;第一特征提取步驟,使用從資源文本信息中被文章分詞步驟切分出的詞語,提取出資源文本的第一特征參數(shù);第二特征提取步驟,使用從用戶興趣文本信息中被文章分詞步驟切分出的詞語,提取出表現(xiàn)用戶興趣的第二特征參數(shù);文本分類步驟,用第二特征參數(shù)和分類參數(shù)對(duì)用戶興趣文本進(jìn)行分類;用戶模板制作步驟,基于文本分類步驟中的分類,將第二特征參數(shù)分為兩組或兩組以上的分類,制作反映用戶興趣的用戶模板;文本信息聯(lián)想檢索步驟,按照每個(gè)分類,計(jì)算出第一特征參數(shù)與在用戶模板中的第二特征參數(shù)之間的相似度,并基于該計(jì)算出的相似度檢索文本信息,并給出檢索結(jié)果。
在本發(fā)明的文本信息檢索方法中,由于按照用戶興趣的不同領(lǐng)域來分類存儲(chǔ)與用戶興趣相關(guān)的關(guān)鍵詞,從而能夠體現(xiàn)用戶多興趣的特點(diǎn)以生成更好的用戶模板。并且在進(jìn)行檢索的時(shí)候,能夠?qū)⒌谝惶卣鲄?shù)和第二特征參數(shù)的相似度計(jì)算限制在某一個(gè)類別內(nèi)部,由于減少了不同類別的特征詞之間的相互干擾,因此能夠提高匹配的精度,從而更好地檢索出反映用戶興趣的文本。
另外,本發(fā)明的文本信息檢索方法,優(yōu)選還具備分類訓(xùn)練步驟,其使用文本分類訓(xùn)練集,利用文章分詞步驟從該文本分類訓(xùn)練集中切分出詞語,并基于該詞語訓(xùn)練用來分類文本信息的分類參數(shù)。
上述本發(fā)明的文本信息檢索方法中還優(yōu)選為,在第二特征選擇步驟中,對(duì)在詞語切分步驟中切分出的詞語wi,按照下式(1)計(jì)算該詞語的權(quán)重Weight(wi),并將該權(quán)重大于預(yù)定閾值threshold的詞語wi及其權(quán)重Weight(wi)作為第二特征參數(shù), 其中,TF(wi)是詞語wi在當(dāng)前文本中出現(xiàn)的頻率,ECE(wi)是詞語wi的期望交叉熵,P(wi)是詞語wi出現(xiàn)的概率,P(vj)是文本類別vj出現(xiàn)的概率,P(vj\wi)是出現(xiàn)詞語wi的條件下出現(xiàn)類別vj的概率。
這種本發(fā)明的文本信息檢索方法,由于還具備分類訓(xùn)練步驟,可以通過用文本分類訓(xùn)練文本集來訓(xùn)練用來分類文本信息的分類參數(shù),從而能夠使用該參數(shù)對(duì)用戶興趣文本進(jìn)行更好地分類,進(jìn)而使得用戶不同領(lǐng)域的廣泛的興趣能夠更好地體現(xiàn)在用戶模板中。這樣,在文本信息聯(lián)想檢索步驟中根據(jù)用戶模板中的用戶興趣特征檢索文本時(shí),便能更好地檢索出反映用戶興趣的結(jié)果。
進(jìn)一步,本發(fā)明的文本信息檢索方法,在文本分類步驟中,采用樸素貝葉斯分類算法,按照下式(2)計(jì)算文本屬于某個(gè)類別的概率P(vj\d),并根據(jù)取的最大概率P(vj\d)的j來判斷文本屬于類別vj 其中,P(vj\d)表示文檔d出現(xiàn)的條件下,類別vj出現(xiàn)的條件概率,(w1,w2,…,wn)是文檔d的向量表示,P(vj)是文檔類別vj在文本分類訓(xùn)練集中出現(xiàn)的概率,P(wi\vj)是出現(xiàn)類別vj的條件下出現(xiàn)詞語wi的概率。
這種本發(fā)明的文本信息檢索方法,由于還具備文本分類步驟,使用了簡單、快速、易于維護(hù)且具有較高分類精度的樸素貝葉斯分類器對(duì)用戶興趣文本進(jìn)行分類,使得用戶興趣特征能夠分類地存放在用戶模板中,因此在文本信息聯(lián)想檢索步驟中可以將用戶興趣特征和資源文本特征的匹配限制在某一領(lǐng)域內(nèi)部,從而減少類別之間的相互干擾,提高檢索精度,檢索出更加符合用戶實(shí)際興趣需求的文本。
進(jìn)一步,本發(fā)明的文本信息檢索方法中,優(yōu)選還具備語義相似網(wǎng)制作步驟,制作用來記錄在文章分詞步驟中從用戶興趣文本切分出的詞語之間的共現(xiàn)頻率、平均距離、相似度、上下位關(guān)系的語義相似網(wǎng);特征向量擴(kuò)展步驟,從語義相似網(wǎng)中選擇與第二特征參數(shù)相似度高的詞語,以該被選擇的詞語為基礎(chǔ),對(duì)用戶模板的第二特征參數(shù)進(jìn)行擴(kuò)展,在用戶模板制作步驟中,基于文本分類步驟中的分類,將被擴(kuò)張的第二特征參數(shù)分為兩組或兩組以上的分類,制作反映用戶興趣的用戶模板。
文本信息檢索方法通過語義相似網(wǎng),可以對(duì)用戶感興趣文本的特征向量進(jìn)行聯(lián)想擴(kuò)展,將部分與用戶興趣特征詞非常相似或密切相關(guān)的詞語提取出來,并將其作為擴(kuò)展特征加入到擴(kuò)展特征向量中。據(jù)此,可以在文本信息聯(lián)想檢索步驟中將基于關(guān)鍵詞的精確檢索提高到基于用戶興趣知識(shí)的模糊檢索層面上來,從而克服關(guān)鍵詞的精確匹配所帶來的查不準(zhǔn)和查不全的問題,檢索出真正符合用戶興趣需求的文本。
本發(fā)明文本信息檢索方法,在上述特征向量擴(kuò)展步驟中,優(yōu)選按照以下公式(3)計(jì)算在語義相似網(wǎng)中所含的詞語ws的權(quán)重RealWeight(ws),當(dāng)該ws的權(quán)重RealWeight(ws)大于規(guī)定的權(quán)重閾值時(shí),從語義相似網(wǎng)中選擇該詞語ws, RealWeight(ws)=RealWeight(wo)×Sim(wo,ws) (3) 其中,wo和RealWeight(wo)是在第二特征提取步驟中提取出的詞語wo以及由公式(2)計(jì)算得到的詞語wo的特征權(quán)重,Sim(wo,ws)是詞語wo和詞語ws的相似度,該相似度由以下公式(4)計(jì)算得到, Sim(wo,ws)=α×Simlexical(wo,ws)+β×Simstatistic(wo,ws) (4) 其中,Simlexical(wo,ws)由以下公式算出, 其中,depth是詞語wo和詞語ws在語義樹中的路徑距離,maxDepth為語義樹的最大深度,δ為調(diào)整參數(shù), Simstatist(wo,ws)由以下公式算出, 其中,co_freqwows為詞語wo和詞語ws在設(shè)定范圍內(nèi)的同現(xiàn)頻率,
為詞語wo和詞語ws的平均共現(xiàn)距離,α為調(diào)整參數(shù)。
其中,Entropy(ws)由以下公式算出, 這里,P(vi\ws)為語義相似網(wǎng)訓(xùn)練文本集中特征ws出現(xiàn)的條件下,出現(xiàn)類別vi條件概率。
本發(fā)明的文本信息檢索方法,由于具備語義相似網(wǎng)訓(xùn)練步驟,該步驟中通過對(duì)大規(guī)模的語料庫進(jìn)行學(xué)習(xí),提取里面所蘊(yùn)含的詞語之間的包含關(guān)系、相關(guān)關(guān)系和相似關(guān)系并記錄保存。在進(jìn)行用戶興趣特征擴(kuò)展時(shí),利用語義相似網(wǎng)中綜合考慮詞語之間的詞義相似性和相關(guān)性的語義相似關(guān)系對(duì)用戶興趣特征進(jìn)行擴(kuò)展,從而克服用戶興趣的關(guān)鍵詞表達(dá)本身固有的同義性和語義分歧性,以及表示時(shí)沒有考慮到詞序或語境等問題,進(jìn)而使得基于擴(kuò)展后的用戶模板表示產(chǎn)生的檢索結(jié)果更加符合用戶的興趣需求。
綜上,本發(fā)明的文本信息檢索裝置以及文本信息檢索方法,能夠良好地反應(yīng)用戶在不同領(lǐng)域的廣泛的興趣,能夠檢索出良好地反映用戶興趣的檢索結(jié)果。
圖1是文本信息檢索裝置的一例實(shí)施方式的結(jié)構(gòu)示意圖。
圖2中,(a)是提取第一特征參數(shù)的流程示意圖,(b)是提取第二特征參數(shù)的流程示意圖。
圖3是表示文本分類部工作的流程示意圖。
圖4是圖1所示文本信息檢索裝置的用戶模板制作部工作的流程示意圖。
圖5是圖1所示文本檢索裝置中制作的用戶模板的結(jié)構(gòu)示意圖。
圖6是圖1所示文本信息檢索裝置所實(shí)施的文本信息檢索方法的 實(shí)施步驟。
圖7是文本信息檢索裝置的另一實(shí)施方式的結(jié)構(gòu)示意圖。
圖8是語義相似網(wǎng)的結(jié)構(gòu)的示意圖。
圖9是表示語義相似網(wǎng)的具體訓(xùn)練過程的流程圖。
圖10是特征向量擴(kuò)展部工作的流程圖。
圖11是圖7所示文本信息檢索裝置的用戶模板制作部工作的流程示意圖。
圖12是圖7所示文本檢索裝置中制作的用戶模板的結(jié)構(gòu)示意圖。
圖13是圖7所示文本信息檢索裝置所實(shí)施的文本信息檢索方法的 實(shí)施步驟。
圖14是本發(fā)明文本信息檢索裝置的又一例實(shí)施方式的結(jié)構(gòu)示意圖。
圖15是圖14所示文本信息檢索裝置的文本分類器訓(xùn)練部工作的流程圖; 圖16是圖14所示文本信息檢索裝置所實(shí)施的文本信息檢索方法的實(shí)施步驟。
圖17是本發(fā)明文本信息檢索裝置的再一例實(shí)施方式的結(jié)構(gòu)示意圖。
圖18是圖17所示本發(fā)明文本信息檢索裝置所實(shí)施的文本信息檢索方法的實(shí)施步驟。
具體實(shí)施例方式 下面參照附圖對(duì)本發(fā)明優(yōu)選的具體實(shí)施方式
進(jìn)行說明。
實(shí)施例一 圖1是本發(fā)明的文本信息檢索裝置的一例實(shí)施方式的結(jié)構(gòu)示意圖。如圖1所示,文本信息檢索裝置100包括文章分詞部104、第一特征選擇部204、資源文本保存部206、第二特征選擇部106、文本分類部108、用戶模板制作部112、文本信息聯(lián)想檢索部300。
文本信息檢索裝置100實(shí)施文本信息檢索方法,更具體地來說,文章分詞部104進(jìn)行文章分詞步驟;第一特征選擇部204進(jìn)行第一特征選擇步驟;第二特征選擇部106進(jìn)行第二特征選擇步驟;文本分類部108進(jìn)行文本分類步驟;用戶模板制作部112進(jìn)行用戶模板制作步驟;文本信息聯(lián)想檢索部300進(jìn)行文本信息聯(lián)想檢索步驟。
文章分詞部104從文本信息,例如從資源文本集202或興趣文本集102切分出詞語,輸出文本被分詞后得到的詞語序列,并將其傳輸給第一特征選擇部204或第二特征選擇部106。
第一特征選擇部204使用從資源文本集202中被文章分詞部104切分而得到的詞語集,提取出資源文本的第一特征參數(shù),將其存儲(chǔ)在資源文本保存部206中,供文本信息聯(lián)想檢索部300使用。
第二特征選擇部106使用從用戶興趣文本集102中被文章分詞部104切分而得到的詞語集,提取出第二特征參數(shù),將其傳輸給文本分類部108。
文本分類部108按照分類參數(shù)保存部110中保存的參數(shù)(也就是按照規(guī)定的類別),對(duì)第二特征參數(shù)進(jìn)行分類,并將第二特征信息、類別信息、類別與特征關(guān)系的信息傳輸給用戶模板制作部112。
用戶模板制作部112中,使用得到的第二特征信息、類別信息、類別與特征關(guān)系的信息來制作用戶模板,并將用戶模板存儲(chǔ)在用戶模板保存部114中,供文本信息聯(lián)想檢索部300使用。
在文本信息聯(lián)想檢索部300中,按照每個(gè)分類,計(jì)算第一特征參數(shù)和用戶模板中的第二特征參數(shù)的相似度,并依據(jù)相似度大小給出搜索結(jié)果。
資源文本集202是資源文本的集合,定義檢索的范圍。
興趣文本集102是用戶興趣文本的集合,是用戶感興趣的所有文本信息的集合。
圖2是表示提取第一特征參數(shù)以及第二特征參數(shù)的流程示意圖。其中,圖(a)是提取第一特征參數(shù)的流程示意圖,圖(b)是提取第二特征參數(shù)的流程示意圖。圖(a)與圖(b)的區(qū)別僅僅在于,兩個(gè)流程使用的文本集不相同。下面,以圖(b)為例,對(duì)提取第二特征參數(shù)的流程進(jìn)行說明。
首先,對(duì)每一篇用戶感興趣的文本進(jìn)行分詞處理,得到詞語序列,然后使用TF*ECE評(píng)估函數(shù),對(duì)所有詞語進(jìn)行評(píng)分,具體按照如下公式(1)來計(jì)算每個(gè)詞語的權(quán)重 其中,“TF(wi)”是詞語“wi”在文本中出現(xiàn)的頻率(TFTermFrequency),“ECE(wi)”是詞語“wi”的期望交叉熵(ECEExpected CrossEntropy),“P(wi)”是詞語“wi”出現(xiàn)的概率,“P(vj)”是文本類別“vj”出現(xiàn)的概率,“P(vj\wi)”是出現(xiàn)詞語“wi”的條件下出現(xiàn)類別“vj”的概率。
然后,根據(jù)分?jǐn)?shù)確定一個(gè)閾值“threshold”,并挑選出評(píng)估分值高于閾值的詞語,將其作為特征詞添加到文本的特征向量中。
第一特征選擇部204按照上述流程從資源文本集202中提取出資源文本的第一特征參數(shù),將其存儲(chǔ)在資源文本保存部206中,供文本信息聯(lián)想檢索部300使用。
第二特征選擇部106按照上述流程從興趣文本集102中提取出興趣文本的第二特征參數(shù),將其傳輸給文本分類部108。
圖3是表示本實(shí)施方式中文本分類部108工作的流程示意圖。圖3是按照樸素貝葉斯文本分類算法進(jìn)行分類處理的處理流程,具體如下。
首先,對(duì)于經(jīng)過第二特征選擇部106得到的文本特征向量按照如下公式(2)計(jì)算該文本屬于每個(gè)類別的概率P(vj\d) 其中,“P(vj\d)”表示文檔“d”出現(xiàn)的條件下,類別“vj”出現(xiàn)的條件概率,“(w1,w2,…,wn)”是文檔“d”的向量表示,P(vj)”是文檔類別“vj”出現(xiàn)的概率,“P(wi\Vj)”是出現(xiàn)類別“Vj”的條件下出現(xiàn)詞語“wi”的概率。根據(jù)取的最大概率“P(vi/d)”的“j’’來判定文本屬于類別“vj”。VNB表示使用樸素貝葉斯(NB
Bayes、)文本分類方法的到文本類別,max表示最大條件概率的P(vj\d)。根據(jù)最大概率“P(vj\d)”的“j”來判定文本屬于類別“Vj”。
分類處理方法,除了上述樸素貝葉斯文本分類算法之外,還可以采用其它的文本分類算法如Rocchio算法、K-近鄰算法(KNNK-Nearest Neighbor)、支持向量機(jī)(SVMSupport Vector Machine)、決策樹分類(Decision Tree)、神經(jīng)網(wǎng)絡(luò)(NNetNeural network)等。
在對(duì)第二特征信息進(jìn)行分類之后,分類文本分類部108將第二特征信息、類別信息、類別與特征關(guān)系的信息傳輸給用戶模板制作部112。
圖4是本實(shí)施方式的用戶模板制作部工作的流程示意圖。
每經(jīng)過一次用戶興趣學(xué)習(xí)后,都會(huì)根據(jù)文本的類別信息,按照下述公式(12)和(13)來計(jì)算特征項(xiàng)的實(shí)際權(quán)重和最近更新時(shí)間,并寫入用戶模板的相應(yīng)興趣類別中 lastUpdateTime′=T (13) 其中,“realWeight′(wj)”和“l(fā)astUpdateTime′”是“realWeight(wf)”和“l(fā)astUpdateTime”的更新值,初始時(shí)“realWeight(wi)”值為“O”,“l(fā)astUpdateTime”對(duì)應(yīng)于用戶模板中的興趣節(jié)點(diǎn) (keywordi,realWeight(wi),weight(wi),lastUpdateTimei) 創(chuàng)建或修改的系統(tǒng)時(shí)間,“T”是當(dāng)前系統(tǒng)時(shí)間,“Weight(wi)”是特征詞在特征選擇時(shí)得到的權(quán)重,“δ”是一個(gè)調(diào)整系數(shù)。
上式(12)的意思是,如果用戶模板中該向量所屬的興趣類別中已存在具有相同關(guān)鍵詞的興趣節(jié)點(diǎn),則只需修改原有節(jié)點(diǎn)的實(shí)際權(quán)重項(xiàng)和時(shí)間項(xiàng)即可;反之,若沒有則直接創(chuàng)建一個(gè)新的興趣節(jié)點(diǎn)。
實(shí)際權(quán)重的修改按照上述的公式(12),即將原有的實(shí)際權(quán)重“realWeight(wi)”按照原來的時(shí)間項(xiàng)“l(fā)astUpdateTime”與當(dāng)前系統(tǒng)時(shí)間“T”之間差距的大小來降低一定的比例,然后與“Weight(wi)”相加來得到新的權(quán)重“realWeight′(wi)”。調(diào)整系數(shù)“δ”的值越小,特征項(xiàng)權(quán)重隨時(shí)間降低的速度也就越快。也就是說,更能實(shí)時(shí)地反應(yīng)用戶興趣的變化。時(shí)間項(xiàng)修改為當(dāng)前系統(tǒng)時(shí)間即可,如上式(13)所示。
待所有節(jié)點(diǎn)加入完畢后,判斷用戶模板中該興趣類別的特征詞數(shù)量是否超過了預(yù)定容量“C”,若超過了就要根據(jù)實(shí)際權(quán)重大小淘汰掉超過預(yù)定容量的特征項(xiàng)。最后,按照各個(gè)特征節(jié)點(diǎn)的實(shí)際權(quán)重重新計(jì)算其歸一化權(quán)重,并寫入用戶模板。
圖5是在本發(fā)明的文本檢索裝置中制作的用戶模板的結(jié)構(gòu)示意圖。
圖5中,“Category 1”表示用戶的第1個(gè)興趣類別,“Category 2”則表示用戶的第2個(gè)興趣類別,......,“Category n”表示用戶的第n個(gè)興趣類別。
其中的“(name,weight,number)”是描述用戶興趣類別特征的記錄結(jié)構(gòu),“name”是興趣類別的名稱,“weight”是類別權(quán)重,它是屬于該類的興趣樣本數(shù)占所有的興趣樣本數(shù)的百分比,“number”是屬于該類別的興趣樣本的數(shù)量。舉例而言,例如,興趣類別的名稱“name”可以是體育、財(cái)經(jīng)、教育、醫(yī)療、家庭等等。
“Feature 11”表示用戶的第1個(gè)興趣類別的第1個(gè)特征,“Feature12”表示用戶的第1個(gè)興趣類別的第2個(gè)興趣特征,......,“Feature 1m”表示用戶的第1個(gè)興趣類別的第m個(gè)興趣特征,......,“Feature nm”表示用戶的第n個(gè)興趣類別的第m個(gè)特征。
“(keyword,realWeight,weight,lastUpdateTime)”是描述用戶興趣每個(gè)類別下面的特征項(xiàng)的記錄結(jié)構(gòu),其中“keyword”是特征詞;“realWeight”是特征詞的實(shí)際權(quán)重,它反映了特征詞與用戶興趣的相關(guān)程度;“weight”是特征詞的余弦歸一化權(quán)重,它是該特征詞的實(shí)際權(quán)重與所有特征詞實(shí)際權(quán)重的平方和的平方根的比值;“l(fā)astUpdateTime”是特征詞權(quán)重信息最近一次更新的時(shí)間。
用戶在使用如圖1所示的文本信息檢索裝置100時(shí),在文本信息聯(lián)想檢索部300中,按照每個(gè)分類,計(jì)算第一特征參數(shù)和用戶模板中的第二特征參數(shù)的相似度,并依據(jù)相似度大小給出搜索結(jié)果。
圖6是圖1所示文本信息檢索裝置所實(shí)施的文本信息檢索方法實(shí)施步驟 資源文本經(jīng)過文章分詞步驟以后,得到詞語序列,然后通過第一特征選擇得到重要特征,作為第一特征參數(shù)保存起來; 用戶感興趣的文本經(jīng)過文章分詞以后得到詞語序列,再通過第二特征選擇提取重要特征作為第二特征參數(shù),然后利用預(yù)先確定的文本分類參數(shù)對(duì)第二特征參數(shù)所代表的文本進(jìn)行分類,然后按照文本分類步驟所判定的類別,將第二特征參數(shù)存儲(chǔ)至用戶模板中; 文本信息聯(lián)想檢索步驟計(jì)算第一特征參數(shù)和第二特征參數(shù)的相似度,并依據(jù)相似度大小給出搜索結(jié)果。
實(shí)施例二 圖7是本發(fā)明的文本信息檢索裝置的另一實(shí)施方式的結(jié)構(gòu)示意圖。
相比于圖1所示的實(shí)施方式,圖7所示的文本信息檢索裝置多了語義相似網(wǎng)(SSN)制作部118和使用語義相似網(wǎng)對(duì)用戶興趣的第二特征參數(shù)進(jìn)行擴(kuò)展的特征向量擴(kuò)展部122。
語義相似網(wǎng)(SSN)制作部118進(jìn)行語義相似網(wǎng)制作步驟,特征向量擴(kuò)展部122中進(jìn)行特征向量擴(kuò)展步驟。
具體而言,圖7所示的文本信息檢索裝置100包括文章分詞部104、第一特征選擇部204、資源文本保存部206、第二特征選擇部106、文本分類部108、語義相似網(wǎng)制作部118、特征向量擴(kuò)展部122、用戶模板制作部112。
文章分詞部104從文本信息,例如從資源文本集202、或興趣文本集102、或語義相似網(wǎng)訓(xùn)練文本集116切分出詞語,輸出文本被分詞后得到的詞語序列,并將其傳輸給第一特征選擇部204、或第二特征選擇部106、或語義相似網(wǎng)制作部118。
第一特征選擇部204使用從資源文本集202中被文章分詞部104切分而得到的詞語集,提取出資源文本的第一特征參數(shù),將其存儲(chǔ)在資源文本保存部206中,供文本信息聯(lián)想檢索部300使用。
第二特征選擇部106使用從用戶興趣文本集102中被文章分詞部104切分而得到的詞語集,提取出第二特征參數(shù),將其傳輸給文本分類部108。
文本分類部108按照分類參數(shù)保存部110中保存的參數(shù)(也就是按照規(guī)定的類別),對(duì)第二特征參數(shù)進(jìn)行分類,并將第二特征信息、類別信息、類別與特征關(guān)系的信息傳輸給用戶模板制作部112以及特征向量擴(kuò)展部126。
語義相似網(wǎng)制作部118,使用大規(guī)模語料庫即語義相似網(wǎng)訓(xùn)練文本集116進(jìn)行訓(xùn)練,提取其中所包含概念之間的包含、相關(guān)、相似關(guān)系構(gòu)成語義相似網(wǎng),并將其保存在語義相似網(wǎng)保存部120中,供特征向量擴(kuò)展部122使用。
在特征向量擴(kuò)展部122中,使用第二特征信息、類別信息、類別與特征關(guān)系的信息,利用語義相似網(wǎng)對(duì)第二特征參數(shù)進(jìn)行擴(kuò)展,聯(lián)想出同義詞和相關(guān)詞,并將它們傳輸給用戶模板制作部112。
用戶模板制作部112中,按照每個(gè)分類,將被擴(kuò)展的第二特征參數(shù)分為兩組或兩組以上的分類,也就是說,將第二特征信息、類別信息、類別與特征關(guān)系的信息、以及上述同義詞和相關(guān)詞,分為兩組或兩組以上的分類,由此來制作反映用戶興趣的用戶模板,并將用戶模板存儲(chǔ)在用戶模板保存部114中,供文本信息聯(lián)想檢索部300使用。
在文本信息聯(lián)想檢索部300中,按照每個(gè)分類,計(jì)算第一特征參數(shù)和用戶模板中的第二特征參數(shù)的相似度,并依據(jù)相似度大小給出搜索結(jié)果。
資源文本集202是資源文本的集合,定義檢索的范圍。
興趣文本集102是用戶興趣文本的集合,是用戶感興趣的所有文本信息的集合。
語義相似網(wǎng)訓(xùn)練文本集116是對(duì)語義相似網(wǎng)進(jìn)行訓(xùn)練的文本集,僅僅在對(duì)語義相似網(wǎng)進(jìn)行訓(xùn)練時(shí)使用。
在實(shí)施例二中,與實(shí)施例一同樣地提取第一特征參數(shù)/或第二特征參數(shù)。
并且,在實(shí)施例二中,文本分類部108工作的流程與實(shí)施例一的完全相同。其分類處理方法,除了上述樸素貝葉斯文本分類算法之外,還可以采用其它的文本分類算法如Rocchio算法、K-近鄰算法(KNNK-Nearest Neighbor)、支持向量機(jī)(SVMSupport Vector Machine)、決策樹分類(Decision Tree)、神經(jīng)網(wǎng)絡(luò)(NNetNeural network)等。
圖8是表示本發(fā)明的語義相似網(wǎng)的結(jié)構(gòu)的示意圖。它是語義相似網(wǎng)制作部118通過對(duì)大規(guī)模的語料庫進(jìn)行學(xué)習(xí),提取其中所蘊(yùn)含的包含關(guān)系、相關(guān)關(guān)系和相似關(guān)系來構(gòu)建的語義相似網(wǎng)絡(luò)(SSNSemanticSimilarNetwork)。SSN由包含關(guān)系網(wǎng)(Containing Relation)、相關(guān)關(guān)系網(wǎng)(Correlative Relaion)和相似關(guān)系網(wǎng)(Similar Relation)組成。
語義相似網(wǎng)定義為SSN=(W,R),其中,“W”表示詞匯空間,W=(w1,w2,...,wn),向量wi=(key,weight),“key”是詞語,“weight”是詞語出現(xiàn)的頻數(shù)“R”表示關(guān)系空間,R=(r1,r2,...,rm),向量ri=(father_node,son_list,relate_list,co_frequency,distance,similar_list,similarity),“father_node”是詞語的父節(jié)點(diǎn),“son_list”是詞語的子節(jié)點(diǎn)列表,“relate_list”是詞語的相關(guān)節(jié)點(diǎn)列表,“co_frequency”是詞語與相關(guān)節(jié)點(diǎn)的共現(xiàn)頻率,“distance”是詞語與相關(guān)節(jié)點(diǎn)共現(xiàn)的平均距離,“similar_list”是詞語的相似節(jié)點(diǎn)列表,“similarity”詞語與相似節(jié)點(diǎn)的相似度。
詞語的父節(jié)點(diǎn)和子節(jié)點(diǎn)序列在圖8中體現(xiàn)在包含關(guān)系中,包含關(guān)系實(shí)質(zhì)上是一種縱向的父子關(guān)系,它記錄概念的父節(jié)點(diǎn)和子節(jié)點(diǎn)序列,用樹形結(jié)構(gòu)來表示。如“體育運(yùn)動(dòng)”是“球類運(yùn)動(dòng)”父節(jié)點(diǎn),“籃球”和“足球”是“球類運(yùn)動(dòng)”的子節(jié)點(diǎn)。
詞語的相關(guān)節(jié)點(diǎn)和相似節(jié)點(diǎn)在圖8中體現(xiàn)在相關(guān)關(guān)系和相似關(guān)系中,相關(guān)關(guān)系記錄概念的相關(guān)節(jié)點(diǎn)序列及其屬性,包括共現(xiàn)頻率和平均距離,相似關(guān)系記錄概念的相似節(jié)點(diǎn)序列及其相似度信息。
圖9是表示語義相似網(wǎng)的具體訓(xùn)練過程的流程圖。下面參照?qǐng)D9對(duì)語義相似網(wǎng)的訓(xùn)練過程進(jìn)行說明。
首先,對(duì)SSN的所有訓(xùn)練文本進(jìn)行分詞處理,得到詞語序列。然后按照公式(8)計(jì)算詞語之間的詞義相似度,即 其中,“depth”表示兩個(gè)概念在語義樹中的路徑距離,“maxDepth”表示語義樹中兩個(gè)概念之間路徑長度的最大值,“δ”是一個(gè)調(diào)整系數(shù)。
接著,統(tǒng)計(jì)訓(xùn)練集中共現(xiàn)詞語的共現(xiàn)頻率和共現(xiàn)平均距離,以提取詞語之間的相關(guān)關(guān)系。按照公式(9)計(jì)算統(tǒng)計(jì)相似度(相關(guān)度),即 其中,“co_freqwows”是指詞語“wo”和相關(guān)詞“ws”的共現(xiàn)頻率,
是詞語“wo”和相關(guān)詞“ws”的平均共現(xiàn)距離,“α”為可調(diào)參數(shù),“Entropy(ws)”是相關(guān)詞“ws”的信息熵,其計(jì)算方法如下式(10)所示 其中,P(vi\ws)為語義相似網(wǎng)訓(xùn)練文本集中特征ws出現(xiàn)的條件下,出現(xiàn)類別vi條件概率。
最后,綜合詞語之間的同義關(guān)系和相關(guān)關(guān)系,按照如下公式(4)計(jì)算詞語之間的語義相似度,即 Sim(Wo,ws)=α×Simlexical(wo,ws)+β×Simstatistic(wo,ws)(4) 其中,“Sim(wo,ws)”表示詞語wo和ws的語義相似度,Simlexical(wo,ws)表示概念wo和ws的詞義相似度,simstatist(wo,ws)表示詞語wo和ws的相關(guān)度,“α”和“β”是比例系數(shù),滿足如下關(guān)系 α,β∈(0,1)且α+β=11。
圖10是本發(fā)明中特征向量SSN擴(kuò)展部工作流程圖。
首先,對(duì)于特征向量中的每一個(gè)特征節(jié)點(diǎn),到語義相似網(wǎng)SSN中去查找該節(jié)點(diǎn)的相似節(jié)點(diǎn)。
然后,按照公式(3)計(jì)算從特征選擇部得出的特征向量中的源節(jié)點(diǎn)在語義相似網(wǎng)SSN中相似節(jié)點(diǎn)的實(shí)際權(quán)重RealWeight(ws) RealWeight(ws)=RealWeight(wo)×Sim(wo,ws)(3) 其中,“RealWeight(wo)”從特征選擇部得出的特征向量中源節(jié)點(diǎn)“wo”的實(shí)際權(quán)重,“RealWeight(ws)”是源節(jié)點(diǎn)“wo”的相似節(jié)點(diǎn)“ws”的實(shí)際權(quán)重,“Sim(wo,ws)”是特征節(jié)點(diǎn)“wo”與其相似節(jié)點(diǎn)“ws”的語義相似度。
然后,將實(shí)際權(quán)重滿足下式(11)的相似節(jié)點(diǎn)作為該特征節(jié)點(diǎn)的擴(kuò)展節(jié)點(diǎn)提取出來,加入用戶興趣的擴(kuò)展特征向量中。
realWeight(ws)≥α×threshold(11) 其中,“threshold”表示該特征向量在文本特征選擇時(shí)設(shè)定的閾值,α∈(0,1)是一個(gè)可調(diào)的系數(shù)。
圖11是本實(shí)施方式的用戶模板制作部工作的流程示意圖。
每經(jīng)過一次用戶興趣學(xué)習(xí)后,都會(huì)根據(jù)文本的類別信息,按照下述公式(12)和(13)來計(jì)算特征項(xiàng)的實(shí)際權(quán)重和最近更新時(shí)間,并寫入用戶模板的相應(yīng)興趣類別中 lastUpdateTime′=T (13) 其中,“realWeight′(wi)”和“l(fā)astUpdateTime′”是“realWeight(wi)”和“l(fā)astUpdateTime”的更新值,初始時(shí)“realWeight(wi)”值為“0”,“l(fā)astUpdateTime”對(duì)應(yīng)于用戶模板中的興趣節(jié)點(diǎn) (keywordi,realWeight(wi),weight(wi),flgSSNExpandi,lastUpdateTimei) 創(chuàng)建或修改的系統(tǒng)時(shí)間,“T”是當(dāng)前系統(tǒng)時(shí)間,“Weight(wi)”是特征詞在特征選擇時(shí)得到的權(quán)重,“δ”是一個(gè)調(diào)整系數(shù)。
上式(12)的意思是,如果用戶模板中該向量所屬的興趣類別中已存在具有相同關(guān)鍵詞的興趣節(jié)點(diǎn),則只需修改原有節(jié)點(diǎn)的實(shí)際權(quán)重項(xiàng)和時(shí)間項(xiàng)即可;反之,若沒有則直接創(chuàng)建一個(gè)新的興趣節(jié)點(diǎn)。
實(shí)際權(quán)重的修改按照上述的公式(12),即將原有的實(shí)際權(quán)重“realWeight(wi)”按照原來的時(shí)間項(xiàng)“l(fā)astUpdateTime”與當(dāng)前系統(tǒng)時(shí)間“T”之間差距的大小來降低一定的比例,然后與“Weight(wi)”相加來得到新的權(quán)重“realWeight′(wi)”。調(diào)整系數(shù)“δ”的值越小,特征項(xiàng)權(quán)重隨時(shí)間降低的速度也就越快。也就是說,更能實(shí)時(shí)地反應(yīng)用戶興趣的變化。時(shí)間項(xiàng)修改為當(dāng)前系統(tǒng)時(shí)間即可,如上式(13)所示。
此外,對(duì)于特征向量中的節(jié)點(diǎn)其“flgSSNExpand”為“1”,擴(kuò)展特征向量中的節(jié)點(diǎn)其“flgSSNExpand”為“0”。待所有節(jié)點(diǎn)加入完畢后,判斷用戶模板中該興趣類別的特征詞數(shù)量是否超過了預(yù)定容量C,若超過了就要根據(jù)實(shí)際權(quán)重大小淘汰掉超過預(yù)定容量的特征項(xiàng)。最后,按照各個(gè)特征節(jié)點(diǎn)的實(shí)際權(quán)重重新計(jì)算其歸一化權(quán)重,并寫入用戶模板。
圖12是本發(fā)明的用戶模板的結(jié)構(gòu)示意圖。如圖12所示,在用戶模板中,按照不同分類分別存儲(chǔ)反應(yīng)用戶興趣的特征項(xiàng)。
圖12中,“Category 1”表示用戶的第1個(gè)興趣類別,“Category 2”則表示用戶的第2個(gè)興趣類別,......,“Category n”表示用戶的第n個(gè)興趣類別。
其中的“(name,weight,number)”是描述用戶興趣類別特征的記錄結(jié)構(gòu),“name”是興趣類別的名稱,“weight”是類別權(quán)重,它是屬于該類的興趣樣本數(shù)占所有的興趣樣本數(shù)的百分比,“number”是屬于該類別的興趣樣本的數(shù)量。舉例而言,例如,興趣類別的名稱“name”可以是體育、財(cái)經(jīng)、教育、醫(yī)療、家庭等等。
“Feature 11”表示用戶的第1個(gè)興趣類別的第1個(gè)特征,“Feature12”表示用戶的第1個(gè)興趣類別的第2個(gè)興趣特征,......,“Feature lm”表示用戶的第1個(gè)興趣類別的第m個(gè)興趣特征,......,“Feature nm”表示用戶的第n個(gè)興趣類別的第m個(gè)特征。
“(keyword,realWeight,weight,flgSSNExpand,lastUpdateTime)”是描述用戶興趣每個(gè)類別下面的特征項(xiàng)的記錄結(jié)構(gòu),其中“keyword”是特征詞;“realWeight”是特征詞的實(shí)際權(quán)重,它反映了特征詞與用戶興趣的相關(guān)程度;“weight”是特征詞的余弦歸一化權(quán)重,它是該特征詞的實(shí)際權(quán)重與所有特征詞實(shí)際權(quán)重的平方和的平方根的比值;“flgSSNExpand”是標(biāo)志項(xiàng),如果該特征項(xiàng)是從用戶感興趣的樣本集中直接提取出來的,該標(biāo)志項(xiàng)為1,如果該特征項(xiàng)是利用語義相似網(wǎng)擴(kuò)展得到的,則該標(biāo)志項(xiàng)為0;“l(fā)astUpdateTime”是特征詞權(quán)重信息最近一次更新的時(shí)間。
用戶在使用如圖7所示的文本信息檢索裝置100時(shí),在文本信息聯(lián)想檢索部300中,按照每個(gè)分類,計(jì)算第一特征參數(shù)和用戶模板中的第二特征參數(shù)的相似度,并依據(jù)相似度大小給出搜索結(jié)果。
圖13是圖7所示文本信息檢索裝置所實(shí)施的文本信息檢索方法實(shí)施步驟 資源文本經(jīng)過文章分詞步驟以后,得到詞語序列,然后通過第一特征選擇得到重要特征,作為第一特征參數(shù)保存起來; SSN訓(xùn)練文本集經(jīng)過文章分詞得到詞語序列,然后利用SSN訓(xùn)練算法得到語義相似網(wǎng)絡(luò),并保存起來; 用戶感興趣的文本經(jīng)過文章分詞以后得到詞語序列,再通過第二特征選擇提取重要特征作為第二特征參數(shù),然后利用文本分類訓(xùn)練所得的文本分類器對(duì)第二特征參數(shù)所代表的文本進(jìn)行分類,接著利用語義相似網(wǎng)SSN對(duì)文本的特征向量進(jìn)行擴(kuò)展,即聯(lián)想出特征的同義詞和相關(guān)詞,然后按照文本分類步驟所判定的類別,將第二特征參數(shù)及其語義相似網(wǎng)SSN聯(lián)想詞語一起存儲(chǔ)至用戶模板中; 文本信息聯(lián)想檢索步驟計(jì)算第一特征參數(shù)和第二特征參數(shù)的相似度,并依據(jù)相似度大小給出搜索結(jié)果。
以下用一個(gè)實(shí)例來具體說明本發(fā)明的構(gòu)建用戶模板(user pfofile)的流程。
在該實(shí)例中,用戶興趣的訓(xùn)練文本采用以下的一段文章 “在舉世矚目的世界杯足球大賽前夕,球王貝利對(duì)新華社記者發(fā)表談話認(rèn)為,南斯拉夫、巴西、聯(lián)邦德國和意大利隊(duì)有可能進(jìn)入本屆大賽的前四名。貝利是今天下午在里約熱內(nèi)盧州特雷索波利斯市高爾夫球俱樂部接受記者采訪時(shí)發(fā)表上述看法的。他指出,今年的世界杯大賽形勢比前幾屆更加明朗。一些著名世界球星大都在歐洲俱樂部隊(duì)效力,因此,相互之間的技術(shù)戰(zhàn)術(shù)都比較了解。貝利認(rèn)為,在本屆世界杯大賽中,進(jìn)入前四名的隊(duì)中,除巴西隊(duì)外,還有南斯拉夫隊(duì)、西德隊(duì)和意大利隊(duì)。他說,南斯拉夫隊(duì)素質(zhì)好,有能力奪冠;東道主意大利隊(duì)占有天時(shí)地利人和的優(yōu)勢,為其奪冠創(chuàng)造了有利條件。當(dāng)然,也不排除會(huì)爆冷門。” 文章分詞部104利用詞語切分工具,把一篇文檔的內(nèi)容切成一個(gè)個(gè)獨(dú)立的詞語,其中主要抽出名詞。輸出結(jié)果如下 “世界杯”、“足球”、“大賽”、“球王”、“貝利”“新華社”“記者”、“談話”、“南斯拉夫”、“巴西”、“聯(lián)邦德國”、“意大利隊(duì)”、“大賽”、“貝利”、“今天”、“下午”、“里約熱內(nèi)盧”、“州特雷索”、“波利斯市”、“高爾夫球”、“俱樂部”、“記者”、“看法”、“世界杯”、“大賽”、“形勢”、“世界”、“球星”、“歐洲”、“俱樂部”、“效力”、“技術(shù)”、“戰(zhàn)術(shù)”、“貝利”、“世界”、“大賽”、“巴西隊(duì)”、“南斯拉夫隊(duì)”、“西德”、“意大利隊(duì)”、“南斯拉夫隊(duì)”、“素質(zhì)”、“能力”、“東道主”、“意大利隊(duì)”、“條件”。
第二特征選擇部106根據(jù)文章分詞部的輸出,采用TF*ECE特征選擇方法,提取出相對(duì)重要的詞語作為特征詞,提取出來的特征詞及其TFECE權(quán)重如下 文本分類部108根據(jù)特征選擇部提取出來的特征詞向量,通過貝葉斯(Bayes)文本分類算法的計(jì)算公式計(jì)算該文章屬于各個(gè)類別的概率,結(jié)果如下 log(P(v1\d))=-16.833285042177 log(P(v2\d))=-16.996304886255 log(P(v3\d))=-18.262425109666 log(P(v4\d))=-17.817327047682 log(P(v5\d))=-16.762599626653 log(P(v6\d))=-17.032302701802 log(P(v7\d))=-15.394893924487 由于P(vj\d)正比于log(P(vj\d)),因此log(P(v7\d))最大則P(v7\d)也最大,從而該文章屬于v7類。由于從v1到v7的七個(gè)類別分別是經(jīng)濟(jì)、娛樂、國際、IT、政治、社會(huì)、體育,因此該文章屬于體育類。
特征向量SSN擴(kuò)展部122對(duì)特征選擇部得到的特征向量進(jìn)行擴(kuò)展,即對(duì)于特征向量中的每一個(gè)節(jié)點(diǎn),到語義相似網(wǎng)SSN中去尋找其相似節(jié)點(diǎn),并提取出一部分符合條件的相思結(jié)點(diǎn)作為該節(jié)點(diǎn)的擴(kuò)展節(jié)電加入擴(kuò)展特征向量中。下面是對(duì)上述得到的特征向量進(jìn)行擴(kuò)展得到的擴(kuò)展特征向量 最后通過用戶模板制作部112將上述的特征選擇部106得到的特征向量和特征向量SSN擴(kuò)展部122得到的擴(kuò)展特征向量,根據(jù)文本分類部108得到的興趣類別信息保存在用戶模板保存部114中。即將兩個(gè)特征向量保存在用戶模板的sports興趣類別中,并調(diào)整興趣類別的權(quán)重和計(jì)算特征詞的歸一化權(quán)重。得到的用戶興趣記錄信息如下 這樣便完成了對(duì)一篇用戶感興趣的文本的學(xué)習(xí)和建模,即根據(jù)這一篇用戶感興趣的文本構(gòu)建好了用戶的興趣特征信息,并保存在用戶模板的相應(yīng)興趣類別中。
實(shí)施例三 圖14本發(fā)明的文本信息檢索裝置的再一例實(shí)施方式的結(jié)構(gòu)示意圖。
實(shí)施例三的文本信息檢索裝置與實(shí)施例一的文本信息檢索裝置的區(qū)別僅僅在于,實(shí)施例三的文本信息檢索裝置還具備文本分類器訓(xùn)練部126。
文本分類器訓(xùn)練部126進(jìn)行文本分類器訓(xùn)練部步驟。
在分類參數(shù)部110中存儲(chǔ)的分類參數(shù),可以是預(yù)先設(shè)定的參數(shù)。也可以由分類訓(xùn)練部通過訓(xùn)練而確定。
如圖14所示,文本分類器訓(xùn)練部126通過對(duì)分類訓(xùn)練文本集124(大量有類別標(biāo)注信息的文本)進(jìn)行學(xué)習(xí),以得到文本分類時(shí)所需要的經(jīng)驗(yàn)概率信息,包括文本分類計(jì)算及特征選擇時(shí)所需的先驗(yàn)概率P(vj)后驗(yàn)概率P(wi\vj)和每個(gè)詞語出現(xiàn)的概率P(wi)。
下面參照?qǐng)D15說明對(duì)文本分類器進(jìn)行訓(xùn)練的流程。
如圖15所示,根據(jù)文本分類訓(xùn)練集中所有文本的類別標(biāo)注信息,按類別逐個(gè)讀入訓(xùn)練文本,統(tǒng)計(jì)屬于該類別的文本數(shù)量docsj、該類別中每個(gè)詞語出現(xiàn)的頻率freq(wij)和該類別中所有詞語出現(xiàn)的總頻率freqj;然后將各個(gè)類別的文本數(shù)量docsj作和計(jì)算出分類訓(xùn)練集的總文本數(shù)量docs,并按照下式(5)計(jì)算每個(gè)類別出現(xiàn)的概率P(vj)(即先驗(yàn)概率) 其中,docsj訓(xùn)練集中屬于類別vj的文本數(shù)量。接著統(tǒng)計(jì)計(jì)算訓(xùn)練集中所有不同詞語的總數(shù)量n,并按照下式(6)計(jì)算出現(xiàn)類別vj的條件下出現(xiàn)詞語wi的條件概率P(wi\vj)(即后驗(yàn)概率) 其中,freq(wij)是詞語wi在屬于類別vj的所有文本中出現(xiàn)的頻率之和,freqj是類別vj中所有詞語出現(xiàn)的頻率之和。然后按照下式(7),計(jì)算分類訓(xùn)練集中詞語wi的出現(xiàn)概率P(wi) 最后將前面計(jì)算所得的所有經(jīng)驗(yàn)概率,包括先驗(yàn)概率P(vj)后驗(yàn)概率P(wi\vj)和每個(gè)詞語出現(xiàn)的概率P(wi)一起保存在分類參數(shù)保存部110中。
在進(jìn)行特征選擇和文本分類時(shí)便依據(jù)分類參數(shù)保存部110中保存的經(jīng)驗(yàn)參數(shù)進(jìn)行計(jì)算。
本實(shí)施方式中文本分類部工作的流程示意圖也可以參照?qǐng)D2來表示。圖2是按照樸素貝葉斯文本分類算法進(jìn)行分類處理的處理流程,具體如下。
首先,對(duì)于經(jīng)過第二特征選擇部106得到的文本特征向量按照如下公式(2)計(jì)算該文本屬于每個(gè)類別的概率P(vj\d) 其中,“P(vj\d)”表示文檔“d”出現(xiàn)的條件下,類別“vj”出現(xiàn)的條件概率,“(w1,w2,…,wn)”是文檔“d”的向量表示,“P(vj)”是文檔類別“vj”在文本分類訓(xùn)練集中出現(xiàn)的概率,“P(wi\vj)”是出現(xiàn)類別“vj”的條件下出現(xiàn)詞語“wi”的概率。根據(jù)取的最大概率“P(vj\d)”的“j”來判定文本屬于類別“vj”。
圖16是圖14所示本發(fā)明實(shí)施例三的文本信息檢索裝置所實(shí)施的文本信息檢索方法實(shí)施步驟 資源文本經(jīng)過文章分詞步驟以后,得到詞語序列,然后通過第一特征選擇得到重要特征,作為第一特征參數(shù)保存起來; 文本分類訓(xùn)練文本集經(jīng)由文章分詞后得到單詞序列,再經(jīng)由文本分類器訓(xùn)練步驟得到文本分類所需的經(jīng)驗(yàn)參數(shù)并保存; 用戶感興趣的文本經(jīng)過文章分詞以后得到詞語序列,再通過第二特征選擇提取重要特征作為第二特征參數(shù),然后利用文本分類訓(xùn)練所得的文本分類器對(duì)第二特征參數(shù)所代表的文本進(jìn)行分類,然后按照文本分類步驟所判定的類別,將第二特征參數(shù)存儲(chǔ)至用戶模板中; 文本信息聯(lián)想檢索步驟計(jì)算第一特征參數(shù)和第二特征參數(shù)的相似度,并依據(jù)相似度大小給出搜索結(jié)果。
實(shí)施例三的文本信息文本信息檢索裝置所對(duì)應(yīng)的文本信息檢索方法實(shí)施步驟,與實(shí)施例一的文本信息文本信息檢索裝置所對(duì)應(yīng)的文本信息檢索方法實(shí)施步驟,基本相同,實(shí)施例三中多了文本分類訓(xùn)練步驟。
實(shí)施例四 圖17是本發(fā)明的文本信息檢索裝置的再一例實(shí)施方式的結(jié)構(gòu)示意圖。
實(shí)施例四的文本信息檢索裝置與實(shí)施例二的文本信息檢索裝置的區(qū)別僅僅在于,實(shí)施例四的文本信息檢索裝置還具備文本分類器訓(xùn)練部126。
文本分類器訓(xùn)練部126進(jìn)行文本分類器訓(xùn)練部步驟。
在分類參數(shù)部110中存儲(chǔ)的分類參數(shù),可以是預(yù)先設(shè)定的參數(shù)。也可以由分類訓(xùn)練部通過訓(xùn)練而確定。
如圖17所示,文本分類器訓(xùn)練部126通過對(duì)分類訓(xùn)練文本集124(大量有類別標(biāo)注信息的文本)進(jìn)行學(xué)習(xí),以得到文本分類時(shí)所需要的經(jīng)驗(yàn)概率信息,包括文本分類計(jì)算及特征選擇時(shí)所需的先驗(yàn)概率P(vj)、后驗(yàn)概率P(wi\vj)和每個(gè)詞語出現(xiàn)的概率P(wi)。
在實(shí)施例四中,文本分類器訓(xùn)練步驟與實(shí)施例三的相同。
在實(shí)施例四中,文本分類步驟與實(shí)施例三的相同。
圖18是圖17所示本發(fā)明實(shí)施例四的文本信息檢索裝置所對(duì)應(yīng)的文本信息檢索方法實(shí)施步驟 資源文本經(jīng)過文章分詞步驟以后,得到詞語序列,然后通過第一特征選擇得到重要特征,作為第一特征參數(shù)保存起來; 文本分類訓(xùn)練文本集經(jīng)由文章分詞后得到單詞序列,再經(jīng)由文本分類器訓(xùn)練步驟得到文本分類所需的經(jīng)驗(yàn)參數(shù)并保存; SSN訓(xùn)練文本集經(jīng)過文章分詞得到詞語序列,然后利用SSN訓(xùn)練算法得到語義相似網(wǎng)絡(luò),并保存起來; 用戶感興趣的文本經(jīng)過文章分詞以后得到詞語序列,再通過第二特征選擇提取重要特征作為第二特征參數(shù),然后利用文本分類訓(xùn)練所得的文本分類器對(duì)第二特征參數(shù)所代表的文本進(jìn)行分類,接著利用語義相似網(wǎng)SSN對(duì)文本的特征向量進(jìn)行擴(kuò)展,即聯(lián)想出特征的同義詞和相關(guān)詞,然后按照文本分類步驟所判定的類別,將第二特征參數(shù)及其SSN聯(lián)想詞語一起存儲(chǔ)至用戶模板中; 文本信息聯(lián)想檢索步驟計(jì)算第一特征參數(shù)和第二特征參數(shù)的相似度,并依據(jù)相似度大小給出搜索結(jié)果。
實(shí)施例四的文本信息文本信息檢索裝置所對(duì)應(yīng)的文本信息檢索方法實(shí)施步驟,與實(shí)施例二的文本信息文本信息檢索裝置所對(duì)應(yīng)的文本信息檢索方法實(shí)施步驟,基本相同,實(shí)施例三中多了文本分類訓(xùn)練步驟。
本發(fā)明的文本信息檢索裝置以及文本信息檢索方法,可以用于數(shù)字電視以及HDD/HDD播放機(jī)等數(shù)字家電的智能檢索中。
權(quán)利要求
1.一種文本信息檢索裝置,其特征在于,
具備
文章分詞部,從文本信息切分出詞語;
第一特征提取部,使用從資源文本信息中被所述文章分詞部切分出的詞語,提取出資源文本的第一特征參數(shù);
第二特征提取部,使用從用戶興趣文本信息中被所述文章分詞部切分出的詞語,提取出表現(xiàn)用戶興趣的第二特征參數(shù);
文本分類部,用第二特征參數(shù)和分類參數(shù)對(duì)用戶興趣文本進(jìn)行分類;
用戶模板制作部,基于所述文本分類部中的分類,將所述第二特征參數(shù)分為兩組或兩組以上的分類,制作反映用戶興趣的用戶模板;
文本信息聯(lián)想檢索部,按照每個(gè)分類計(jì)算出所述第一特征參數(shù)與在所述用戶模板中的所述第二特征參數(shù)之間的相似度,并基于該計(jì)算出的相似度的大小來檢索文本信息,給出檢索結(jié)果。
2.如權(quán)利要求1所述的文本信息檢索裝置,其特征在于,
還具備分類訓(xùn)練部,使用文本分類訓(xùn)練集,利用所述文章分詞部從該文本分類訓(xùn)練集中切分出的詞語,并基于該詞語訓(xùn)練用來分類文本信息的分類參數(shù)。
3.如權(quán)利要求1或2所述的文本信息檢索裝置,其特征在于,
所述第二特征選擇部對(duì)被所述文章分詞部切分出的詞語wi,按照下式(1)計(jì)算該詞語的權(quán)重Weight(wi),并將權(quán)重大于預(yù)定閾值threshold的詞語wi及其權(quán)重Weight(wi)作為第二特征參數(shù),
其中,TF(wi)是詞語wi在當(dāng)前文本中出現(xiàn)的頻率,ECE(wi)是詞語wi的期望交叉熵,P(wi)是詞語wi出現(xiàn)的概率,P(vj)是文本類別vj出現(xiàn)的概率,P(vj\wi)是出現(xiàn)詞語wi的條件下出現(xiàn)類別vj的概率。
4.如權(quán)利要求1或2所述的文本信息檢索裝置,其特征在于,
所述文本分類部采用樸素貝葉斯分類算法,按照下式(2)計(jì)算文本屬于某個(gè)類別的概率P(vj\d),并根據(jù)取的最大概率P(vj\d)的j來判斷文本屬于類別vj
其中,P(vj\d)表示文檔d出現(xiàn)的條件下,類別vj出現(xiàn)的條件概率,(w1,w2,…,wn)是文檔d的向量表示,P(vj)是文檔類別vj出現(xiàn)的概率,P(wi\vj)是出現(xiàn)類別vj的條件下出現(xiàn)詞語wi的概率。
5.如權(quán)利要求1或2所述的文本信息檢索裝置,其特征在于,
還具備
語義相似網(wǎng)制作部,制作用來記錄從語義相似網(wǎng)訓(xùn)練文本集被文章分詞部切分出的詞語之間的共現(xiàn)頻率、平均距離、相似度、上下位關(guān)系的語義相似網(wǎng);
特征向量擴(kuò)展部,從所述語義相似網(wǎng)中選擇與所述第二特征參數(shù)中的特征詞相似度高的詞語,以該被選擇的詞語為基礎(chǔ),對(duì)用戶模板的第二特征參數(shù)進(jìn)行擴(kuò)展,
所述用戶模板制作部基于文本分類部的分類,將所述被擴(kuò)張的第二特征參數(shù)分為兩組或兩組以上的分類,制作反映用戶興趣的用戶模板。
6.如權(quán)利要求5所述的文本信息檢索裝置,其特征在于,
所述特征向量擴(kuò)展部按照以下公式(3)計(jì)算在語義相似網(wǎng)中所含的詞語ws的權(quán)重RealWeight(ws),當(dāng)該ws的權(quán)重RealWeight(ws)大于規(guī)定的權(quán)重閾值時(shí),從語義相似網(wǎng)中選擇該詞語ws,
RealWeight(ws)=RealWeight(wo)×Sim(wo,ws) (3)
其中,wo和RealWeight(wo)是在所述第二特征提取部中提取出的詞語wo以及由所述公式(2)計(jì)算得到的詞語wo的特征權(quán)重,Sim(wo,ws)是詞語wo和詞語ws的相似度,該相似度由以下公式(4)計(jì)算得到,
Sim(wo,ws)=α×Simlexical(wo,ws)+β×Simstatistic(wo,ws) (4)
其中,Simlexical(wo,ws)由以下公式算出,
其中,depth是詞語wo和詞語ws在語義樹中的路徑距離,maxDepth為語義樹的最大深度,δ為調(diào)整參數(shù),
Simstatistic(wo,ws)由以下公式算出,
其中,co_freqwows為詞語wo和詞語ws在設(shè)定范圍內(nèi)的同現(xiàn)頻率,
為詞語wo和詞語ws的平均共現(xiàn)距離,α為調(diào)整參數(shù)。
其中,Entropy(ws)由以下公式算出,
這里,P(vi\ws)為語義相似網(wǎng)訓(xùn)練文本集中詞語ws出現(xiàn)的條件下,出現(xiàn)類別vi條件概率。
7.一種文本信息檢索方法,其特征在于,
具備
文章分詞步驟,從文本信息切分出詞語;
第一特征提取步驟,使用從資源文本信息中被所述文章分詞步驟切分出的詞語,提取出資源文本的第一特征參數(shù);
第二特征提取步驟,使用從用戶興趣文本信息中被所述文章分詞步驟切分出的詞語,提取出表現(xiàn)用戶興趣的第二特征參數(shù);
文本分類步驟,用第二特征參數(shù)和分類參數(shù)對(duì)用戶興趣文本進(jìn)行分類;
用戶模板制作步驟,基于所述文本分類步驟中的分類,將所述第二特征參數(shù)分為兩組或兩組以上的分類,制作反映用戶興趣的用戶模板;
文本信息聯(lián)想檢索步驟,按照每個(gè)分類,計(jì)算出所述第一特征參數(shù)與在所述用戶模板中的所述第二特征參數(shù)之間的相似度,并基于該計(jì)算出的相似度檢索文本信息,并給出檢索結(jié)果。
8.如權(quán)利要求7所述的文本信息檢索方法,其特征在于,
還具備分類訓(xùn)練步驟,使用文本分類訓(xùn)練集,利用所述文章分詞步驟從該文本分類訓(xùn)練集中切分出詞語,并基于該詞語訓(xùn)練用來分類文本信息的分類參數(shù)。
9.如權(quán)利要求7或8所述的文本信息檢索方法,其特征在于,
在所述第二特征選擇步驟中,對(duì)在所述詞語切分步驟中切分出的詞語wi,按照下式(1)計(jì)算該詞語的權(quán)重Weight(wi),并將權(quán)重大于預(yù)定閾值threshold的詞語wi及其權(quán)重Weight(wi)作為第二特征參數(shù),
其中,TF(wi)是詞語wi在當(dāng)前文本中出現(xiàn)的頻率,ECE(wi)是詞語wi的期望交叉熵,P(wi)是詞語wi出現(xiàn)的概率,P(vj)是文本類別vj出現(xiàn)的概率,P(vj\wi)是出現(xiàn)詞語wi的條件下出現(xiàn)類別vj的概率。
10.如權(quán)利要求7或8所述的文本信息檢索方法,其特征在于,
在所述文本分類步驟中,采用樸素貝葉斯分類算法,按照下式(2)計(jì)算文本屬于某個(gè)類別的概率P(vj\d),并根據(jù)取的最大概率P(vj\d)的j來判斷文本屬于類別vj
其中,P(vj\d)表示文檔d出現(xiàn)的條件下,類別vj出現(xiàn)的條件概率,(w1,w2,…,wn)是文檔d的向量表示,P(vj)是文檔類別vj在文本分類訓(xùn)練集中出現(xiàn)的概率,P(wj\vj)是出現(xiàn)類別vj的條件下出現(xiàn)詞語wi的概率。
11.如權(quán)利要求7或8所述的文本信息檢索方法,其特征在于,
還具備
語義相似網(wǎng)制作步驟,制作用來記錄在文章分詞步驟中從語義相似網(wǎng)訓(xùn)練文本集切分出的詞語之間的共現(xiàn)頻率、平均距離、相似度、上下位關(guān)系的語義相似網(wǎng);
特征向量擴(kuò)展步驟,從所述語義相似網(wǎng)中選擇與所述第二特征參數(shù)中的特征詞相似度高的詞語,以該被選擇的詞語為基礎(chǔ),對(duì)用戶模板的第二特征參數(shù)進(jìn)行擴(kuò)展,
在所述用戶模板制作步驟中,基于文本分類步驟中的分類,將所述被擴(kuò)張的第二特征參數(shù)分為兩組或兩組以上的分類,制作反映用戶興趣的用戶模板。
12.如權(quán)利要求11所述的文本信息檢索方法,其特征在于,
在所述特征向量擴(kuò)展步驟中,按照以下公式(3)計(jì)算在語義相似網(wǎng)中所含的詞語ws的權(quán)重RealWeight(ws),當(dāng)該ws的權(quán)重RealWeight(ws)大于規(guī)定的權(quán)重閾值時(shí),從語義相似網(wǎng)中選擇該詞語ws,
RealWeight(ws)=RealWeight(wo)×Sim(wo,ws) (3)
其中,wo和RealWeight(wo)是在所述第二特征提取步驟中提取出的詞語wo以及由所述公式(2)計(jì)算得到的詞語wo的特征權(quán)重,Sim(wo,ws)是詞語wo和詞語ws的相似度,該相似度由以下公式(4)計(jì)算得到,
Sim(wo,ws)=α×Simlexical(wo,ws)+β×Simstatistic(wo,ws) (4)
其中,Simlexical(wo,ws)由以下公式算出,
其中,depth是詞語wo和詞語ws在語義樹中的路徑距離,maxDepth為語義樹的最大深度,δ為調(diào)整參數(shù),
Simstatistic(wo,ws)由以下公式算出,
其中,co_freqwows為詞語wo和詞語ws在設(shè)定范圍內(nèi)的同現(xiàn)頻率,
為詞語wo和詞語ws的平均共現(xiàn)距離,α為調(diào)整參數(shù)。
其中,Entropy(ws)由以下公式算出,
這里,P(vi\ws)為語義相似網(wǎng)訓(xùn)練文本集中特征ws出現(xiàn)的條件下,出現(xiàn)類別vi條件概率。
全文摘要
本發(fā)明涉及一種文本信息檢索裝置以及文本信息檢索方法,其能夠良好地反應(yīng)用戶在不同領(lǐng)域的廣泛的興趣,能夠檢索出良好地反映用戶興趣的檢索結(jié)果。本發(fā)明的文本信息檢索裝置具備文章分詞部、第一特征提取部、第二特征提取部、文本分類部、用戶模板制作部、文本信息聯(lián)想檢索部。本發(fā)明的文本信息檢索方法具備文章分詞步驟、第一特征提取步驟、第二特征提取步驟、文本分類步驟、用戶模板制作步驟、文本信息聯(lián)想檢索步驟。
文檔編號(hào)G06F17/30GK101122909SQ200610115469
公開日2008年2月13日 申請(qǐng)日期2006年8月10日 優(yōu)先權(quán)日2006年8月10日
發(fā)明者黑田昌芳, 桑原禎司, 伊藤榮朗, 虞立群, 陳奕秋, 汪更生, 林霜梅 申請(qǐng)人:株式會(huì)社日立制作所, 上海交通大學(xué)