專利名稱:基于內(nèi)容與關(guān)鍵詞相關(guān)度給其添加附加信息的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及給關(guān)鍵詞添加附加信息,尤其涉及根據(jù)語義相關(guān)給文檔 中的關(guān)鍵詞提供附加信息。
背景技術(shù):
隨著因特網(wǎng)被大量應(yīng)用,出現(xiàn)了大量的很有價值的網(wǎng)頁信息,網(wǎng)頁 的提供方希望當(dāng)用戶瀏覽網(wǎng)頁時可以提供與文檔中的關(guān)鍵詞相關(guān)的附加 信息。現(xiàn)有技術(shù)中主要有兩種給關(guān)鍵詞添加附加信息的方法。 一種是借 助人工,由編輯通過對文檔和附加信息的瀏覽來確定,其存在的問題是 效率很低,以及大量使用人工而帶來的高成本。另一種是現(xiàn)有附加信息 的權(quán)利人購買關(guān)鍵詞,當(dāng)某個詞在文檔中被作為關(guān)鍵詞顯示時,擁有該 關(guān)鍵詞的權(quán)利人可以將相關(guān)的附加信息添加到該關(guān)鍵詞,其存在的問題 是只能給有限的關(guān)鍵詞添加附加信息,沒有被購買的詞則無法被添加關(guān)鍵詞。
本申請正是需要能夠解決這兩個問題,在不需要人工干預(yù)的情況 下,根據(jù)關(guān)鍵詞與權(quán)利人所擁有的詞條的相關(guān)性,而不是根據(jù)是否與權(quán) 利人所擁有的詞條匹配,來自動給關(guān)鍵詞添加最相關(guān)的附加信息。
從而,帶來的有益效果是由系統(tǒng)自動實現(xiàn)提高了效率,并且無需直 接匹配也可以給關(guān)鍵詞添加相關(guān)的附加信息,大大擴展了關(guān)鍵詞的附加 信息的范圍,使得更多的關(guān)鍵詞上具有了附加信息。
發(fā)明內(nèi)容
本發(fā)明的一個目的是提供 一種基于描述內(nèi)容與關(guān)鍵詞的相關(guān)度給 關(guān)鍵詞添加附加信息的方法,其中包括根據(jù)詞條向量表來計算附加信 息表中每個條目的描述內(nèi)容的文檔向量;計算待處理的關(guān)鍵詞的向量與 附加信息表中每個條目的描述內(nèi)容的文檔向量的相關(guān)度;將相關(guān)度最高 的附加信息表中的條目確定為待處理關(guān)鍵詞的附加信息;當(dāng)該關(guān)鍵詞被 操作時,則所述附加信息的渲染內(nèi)容被渲染。
本發(fā)明更進一步的目的是 一種計算機程序產(chǎn)品,存儲在計算機可 讀的介質(zhì)上,該計算機程序產(chǎn)品具體地包括可讀的程序方法,從而觸發(fā) 計算機執(zhí)行上述的方法。
本發(fā)明更進一步的目的是 一種計算機程序,由計算機執(zhí)行而實現(xiàn) 上述方法。
本發(fā)明還有一個目的是提供 一種基于描述內(nèi)容與關(guān)鍵詞的相關(guān)度
給關(guān)鍵詞添加附加信息的系統(tǒng),其中包括文檔向量計算裝置,用于根
據(jù)詞條向量表來計算附加信息表中每個條目的描述內(nèi)容的文檔向量;向
量比較裝置,用于計算待處理的關(guān)鍵詞的向量與附加信息表中每個條目
的描述內(nèi)容的文檔向量的相關(guān)度;附加信息確定裝置,用于將相關(guān)度最 高的附加信息表中的條目確定為待處理關(guān)鍵詞的附加信息;附加信息渲 染裝置,用于當(dāng)該關(guān)鍵詞被操作時,則所述附加信息的渲染內(nèi)容被渲染。
附圖描述
上述內(nèi)容和其它方面的內(nèi)容,以及本發(fā)明特定優(yōu)選實施例的特征和 優(yōu)勢將通過結(jié)合相應(yīng)附圖的詳細(xì)說明更加清楚。其中
圖1是關(guān)于詞條的表現(xiàn)方法和組合方式; 圖2是詞條-文檔(term-document)矩陣; 圖3是高維(r維)詞條空間投影到低維(k維)詞條空間的公式;
圖4是詞條向量表;
圖5是描述了詞條和文檔在二維空間上的投影關(guān)系; 圖6如何獲得查詢請求的向量; 圖7是根據(jù)本發(fā)明實施例的附加信息表10; 圖8是根據(jù)本發(fā)明第一個實施例的流程圖20; 圖9是根據(jù)本發(fā)明的一個具體實例; 圖10是根據(jù)本發(fā)明第二個實施例的流程圖40; 圖11是實現(xiàn)本發(fā)明實施例的框圖50。 所有附圖中,同一附圖標(biāo)記理解為同一單元、特征和結(jié)構(gòu)。
優(yōu)選實施例描述
說明書中定義的內(nèi)容如具體的結(jié)構(gòu)和單元,是用于輔助全面理解本 發(fā)明的優(yōu)選實施例的。因此,根據(jù)本領(lǐng)域的普通技術(shù)對本申請描述的實 施例進行的各種改變和修改都被認(rèn)為沒有脫離本發(fā)明的精神范圍。同 時,為了清楚和簡要,省略了對公知的功能和結(jié)構(gòu)的說明。
在現(xiàn)有技術(shù)中有大量關(guān)于基于語義搜索的技術(shù),本領(lǐng)域技術(shù)人員可 以利用這些技術(shù)很容易的構(gòu)建詞條向量,以及文檔向量。其中有代表性 的是潛在語義索引模型等技術(shù)。下面介紹潛在語義索引的原理,但不代 表本發(fā)明一定要構(gòu)建在潛在語義索引之上,本發(fā)明可以應(yīng)用在所有的基 于語義的搜索技術(shù)上。
潛在語義索引的原理
為了能夠更加容易的解釋LSI原理,下面通過一個具體例子來描述。 設(shè)文檔由17本書的標(biāo)題組成。
圖1中,有下劃線的詞表示詞條。當(dāng)然,對于本領(lǐng)域技術(shù)人員,存 在很多其他選擇詞條的規(guī)則,可以增加或減少詞條的數(shù)量,也可以改變 詞條的組合方式等。
圖2是16x17詞條-文檔(term-document)矩陣,被稱作A。行代表詞 條(term),列代表文檔(document)。矩陣的值代表該詞條在該文檔中出現(xiàn) 的次數(shù)。
奇異值分解把詞條-文檔矩陣A分解為三個矩陣的乘積形式,即
<formula>formula see original document page 5</formula>公式1
其中,S是奇異值的對角矩陣。
圖3是潛在語義索引方法通過降維,將高維(r維)詞條空間投影到低 維(k維)詞條空間。
為方便圖示表示,在本例中選擇k為2,即表示將原詞條空間降維 到二維詞條空間上。矩陣U的前兩列表示了詞條在二維空間中的向量。 獲得的向量組即詞條向量表如附圖中圖4所示。
利用這些基本的詞條向量,可以根據(jù) v-qTUk》、 公式2 來合成新的向量。例如文檔向量Bp用戶輸入的査詢請求,都可通過分 析所引用的詞條按公式2相合成。本領(lǐng)域技術(shù)人員很容易明了,在合成 向量時可以考慮詞條向量的權(quán)重。
圖5描述了詞條和文檔在二維空間上的投影關(guān)系。詞條向量之間的 夾角越小或夾角的余弦值越大,代表詞條和和該文檔的相關(guān)性越大。例 如,以詞條"oscillation"為例,在所有詞條中"delay"與其夾角最小, 即"delay"與其最相關(guān)。
當(dāng)用戶輸入一個查詢請求時,如"application theory",系統(tǒng)通過分 析該請求中包含的關(guān)鍵詞"applications "theory",將該兩關(guān)鍵詞相關(guān) 的詞條向量按公式2合成如圖6,從而獲得査詢請求的向量。
通過計算文檔向量與該查詢請求向量的夾角的余弦值,其值越大, 表示該文檔與査詢請求越相關(guān)。
詞條與文檔的相關(guān)度是計算詞條向量與文檔向量之間的夾角的余弦 值,其值越大,表示該文檔與査詢請求越相關(guān)。例如,"nonlinear"這個 詞條與B9的文檔向量間的夾角的余弦值最大,所以與"nonlinear"最 相關(guān)的文檔是B9。
本領(lǐng)域技術(shù)人員已知的實際應(yīng)用中,通過上述原理,對現(xiàn)有的足夠 數(shù)量的文獻(xiàn)進行上述處理,即可獲得全面的詞條向量表。計算文檔向量
的方法是抽取文檔中的詞條,比對詞條向量表獲得相關(guān)詞條的向量,將
這些向量合成為文檔向量如公式2。為了簡化的目的,本申請不再詳細(xì) 描述如何獲得詞條向量表,因為本領(lǐng)域技術(shù)人員可以根據(jù)現(xiàn)有技術(shù)能夠 很容易地獲得詞條向量表。本發(fā)明是在現(xiàn)有的詞條向量表的基礎(chǔ)上描述 的。
相關(guān)的參考文獻(xiàn)如下
1. M.W.Beny.S.T.Dumaiis&GW.O'Brien. Using Linear Algebra Intelligent Information Retrieval. Computer Science Department CS-9^-270 1994-12。
2. 居斌.潛在語義標(biāo)引在中文信息檢索中的研究與實現(xiàn).計算機工程 2007-03。
3. 陳越郭力.隱含語義檢索及其應(yīng)用.信息檢索技術(shù)2001年第6期。
4. Michael W. Berry ,Paul G Young. Using latent semantic indexing for multilanguage information retrieval. Volume 29, Number 6 / 1995年12月
圖7是根據(jù)本發(fā)明實施例的附加信息表10。該表的每一個條目包括
以下字段描述內(nèi)容、權(quán)利人、渲染內(nèi)容和優(yōu)先權(quán)。描述內(nèi)容是權(quán)利人 自己定義的描述,例如可以是對權(quán)利人的描述,或?qū)︿秩緝?nèi)容的描述, 或?qū)ζ涮峁┑漠a(chǎn)品或服務(wù)的描述。而渲染內(nèi)容是權(quán)利人希望當(dāng)某個關(guān)鍵 詞被用戶操作時,作為附加信息呈現(xiàn)給用戶的內(nèi)容。渲染內(nèi)容可以是文
字、圖片、音頻、視頻或FLASH動畫中的一種或它們的組合。并且渲 染內(nèi)容上可以具有超鏈接。同一個權(quán)利人可以購買不同的描述內(nèi)容,同 一個權(quán)利人也可以有不同的渲染內(nèi)容。例如索意互動公司購買"你的本 本網(wǎng)筆記本及外設(shè)專業(yè)銷售商"作為描述內(nèi)容,并將有關(guān)PC的內(nèi)容作 為渲染內(nèi)容;微軟公司購買"Office :它是微軟公司的辦公軟件套件" 作為描述內(nèi)容,并將有關(guān)軟件的內(nèi)容作為渲染內(nèi)容。而優(yōu)先權(quán)表示權(quán)利 人獲得該描述內(nèi)容所付出的代價。
根據(jù)詞條向量表來計算附加信息表中每個條目的描述內(nèi)容的文檔向 量;計算待處理的關(guān)鍵詞的向量與附加信息表中每個條目的描述內(nèi)容的 文檔向量的相關(guān)度;將相關(guān)度最高的附加信息表中的條目確定為待處理 關(guān)鍵詞的附加信息;
圖8是根據(jù)本發(fā)明第一個實施例的流程圖20。開始于步驟21,查 詢詞條向量表獲得待處理的關(guān)鍵詞的向量和根據(jù)詞條向量表來計算附加 信息表中每個條目的描述內(nèi)容的文檔向量,詞條向量表是如前面所述的 通過現(xiàn)有的基于語義的搜索技術(shù)而獲得的。步驟22,計算待處理的關(guān)鍵 詞的向量與附加信息表中每個條目的描述內(nèi)容的文檔向量的相關(guān)度。詞 條與描述內(nèi)容的文檔向量之間的相關(guān)度指的是詞條向量與描述內(nèi)容的文
檔向量的夾角或余弦值,夾角越小越相關(guān)或者余弦值越大越相關(guān),反之
亦然。在步驟23,將相關(guān)度最高的附加信息表中的條目確定為待處理關(guān) 鍵詞的附加信息。因為語義最相關(guān)的附加信息是用戶最期望看到,也是 權(quán)利人最希望推送給用戶的。在步驟24,當(dāng)該關(guān)鍵詞被操作時,則所述 附加信息的渲染內(nèi)容被渲染。渲染指的是對需要呈現(xiàn)的內(nèi)容進行處理并 將其呈現(xiàn)給用戶。例如渲染內(nèi)容是音頻,則調(diào)用相關(guān)音頻處理程序來運 行該音頻文件來呈現(xiàn)給用戶。而操作的方式例如是點擊關(guān)鍵詞或?qū)⒅更c 設(shè)備移動到關(guān)鍵詞上。
圖9是根據(jù)本發(fā)明的一個具體實例。某個文檔中具有一個關(guān)鍵詞是
"筆記本",但是在附加信息表中,沒有權(quán)利人購買這個詞。如果是現(xiàn) 有的系統(tǒng)則將無法將其與附加信息對應(yīng)起來。而根據(jù)本發(fā)明的實施例, 由于"筆記本"的詞條向量與"PC"的詞條向量最相關(guān),所以系統(tǒng)會將
"PC"所對應(yīng)的渲染內(nèi)容,即索意互動公司的廣告進行相關(guān)。當(dāng)用戶操 作該關(guān)鍵詞"筆記本"時,例如將鼠標(biāo)放置到該關(guān)鍵詞的上方,就可以 看到索意互動公司的廣告了。
圖10是根據(jù)本發(fā)明第二個實施例的流程圖40。開始于步驟41,查 詢詞條向量表獲得待處理的關(guān)鍵詞的向量和根據(jù)詞條向量表來計算附加 信息表中每個條目的描述內(nèi)容的文檔向量,詞條向量表是如前面所述的 通過現(xiàn)有的基于語義的搜索技術(shù)而獲得的。步驟42,計算待處理的關(guān)鍵 詞的向量與附加信息表中每個條目的描述內(nèi)容的文檔向量的相關(guān)度。詞 條之間的相關(guān)度指的是詞條向量的夾角或余弦值,夾角越小越相關(guān)或者 余弦值越大越相關(guān),反之亦然。在步驟43,判斷最高相關(guān)度是否超過預(yù) 先設(shè)置的門限,如果超過了則將相關(guān)度最高的附加信息表中的條目確定 為待處理關(guān)鍵詞的附加信息,否則不給該關(guān)鍵詞添加附加信息。因為語 義最相關(guān)的附加信息是用戶最期望看到,也是權(quán)利人最希望推送給用戶 的。但如果相關(guān)度過低則與用戶所期望的內(nèi)容不相符合了。在步驟44, 如果該關(guān)鍵詞具有附加信息,當(dāng)該關(guān)鍵詞被操作時,則所述附加信息的 渲染內(nèi)容被渲染。渲染指的是對需要呈現(xiàn)的內(nèi)容進行處理并將其呈現(xiàn)給 用戶。例如渲染內(nèi)容是音頻,則調(diào)用相關(guān)音頻處理程序來運行該音頻文 件來呈現(xiàn)給用戶。而操作的方式例如是點擊關(guān)鍵詞或?qū)⒅更c設(shè)備移動到 關(guān)鍵詞上。
圖11是實現(xiàn)本發(fā)明實施例的框圖50。包括文檔向量計算裝置51, 向量比較裝置52,附加信息確定裝置53,附加信息渲染裝置54,詞條 向量表55和附加信息表56。
文檔向量計算裝置51,根據(jù)詞條向量表來計算附加信息表中每個條 目的描述內(nèi)容的文檔向量。并將獲得向量發(fā)送給向量比較裝置52。向量 比較裝置52,用于計算待處理的關(guān)鍵詞的向量與附加信息表中的描述內(nèi) 容的文檔向量的相關(guān)度。并將獲得相關(guān)度發(fā)送給附加信息確定裝置53。 附加信息確定裝置53,用于將相關(guān)度最高的附加信息表中的條目確定為 待處理關(guān)鍵詞的附加信息。附加信息渲染裝置54,用于當(dāng)該關(guān)鍵詞被操 作時,貝U所述附加信息的渲染內(nèi)容被渲染。
渲染內(nèi)容包括文字、圖片、音頻、視頻或FALSH動畫中的一種 或多種。而且渲染內(nèi)容可以具有超鏈接。附加信息確定裝置可以包括如 果最高相關(guān)度低于門限,則該待處理關(guān)鍵詞不添加附加信息。
盡管本發(fā)明通過一些特定的優(yōu)選實施例加以表述,但是本領(lǐng)域的技 術(shù)人員都應(yīng)知道,可能的形式上的各種變化和具體化都沒有脫離本發(fā)明 的精神以及權(quán)利要求及其等價內(nèi)容所定義的范圍。
權(quán)利要求
1. 一種基于描述內(nèi)容與關(guān)鍵詞的相關(guān)度給關(guān)鍵詞添加附加信息的方法,其中包括步驟A根據(jù)詞條向量表來計算附加信息表中每個條目的描述內(nèi)容的文檔向量;步驟B計算待處理的關(guān)鍵詞的向量與附加信息表中每個條目的描述內(nèi)容的文檔向量的相關(guān)度;步驟C將相關(guān)度最高的附加信息表中的條目確定為待處理關(guān)鍵詞的附加信息;步驟D當(dāng)該關(guān)鍵詞被操作時,則所述附加信息的渲染內(nèi)容被渲染。
2. 權(quán)利要求l一中的方法,其中渲染內(nèi)容包括文字、圖片、音頻、視頻 或FALSH動畫中的一種或多種。
3. 權(quán)利要求1-2中任意一個方法,其中渲染內(nèi)容具有超鏈接。
4. 權(quán)利要求1-3中任意一個方法,歩驟C包括如果最高相關(guān)度低于門限, 則該待處理關(guān)鍵詞不添加附加信息。
5. —種基于描述內(nèi)容與關(guān)鍵詞的相關(guān)度給關(guān)鍵詞添加附加信息的系統(tǒng), 其中包括文檔向量計算裝置,用于根據(jù)詞條向量表來計算附加信息表中每個條目 的描述內(nèi)容的文檔向量;向量比較裝置,用于計算待處理的關(guān)鍵詞的向量與附加信息表中每個條 目的描述內(nèi)容的文檔向量的相關(guān)度;附加信息確定裝置,用于將相關(guān)度最高的附加信息表中的條目確定為待 處理關(guān)鍵詞的附加信息;附加信息渲染裝置,用于當(dāng)該關(guān)鍵詞被操作時,則所述附加信息的渲染 內(nèi)容被渲染。
6. 權(quán)利要求5一中的系統(tǒng),其中渲染內(nèi)容包括文字、圖片、音頻、視頻 或FALSH動畫中的一種或多種。
7. 權(quán)利要求5-6中任意一個系統(tǒng),其中渲染內(nèi)容具有超鏈接。
8. 權(quán)利要求5-7中任意一個系統(tǒng),附加信息確定裝置包括如果最高相關(guān) 度低于門限,則該待處理關(guān)鍵詞不添加附加信息。
9. 一種計算機程序產(chǎn)品,存儲在計算機可讀的介質(zhì)上,該計算機程序產(chǎn) 品具體地包括可讀的程序方法,從而觸發(fā)計算機執(zhí)行根據(jù)權(quán)利要求1到 4任意之一的方法。
10. —種計算機程序,由計算機執(zhí)行而實現(xiàn)根據(jù)權(quán)利要求1到4任意之一 的方法。
全文摘要
一種基于描述內(nèi)容與關(guān)鍵詞的相關(guān)度給關(guān)鍵詞添加附加信息的方法,其中包括根據(jù)詞條向量表來計算附加信息表中每個條目的描述內(nèi)容的文檔向量;計算待處理的關(guān)鍵詞的向量與附加信息表中每個條目的描述內(nèi)容的文檔向量的相關(guān)度;將相關(guān)度最高的附加信息表中的條目確定為待處理關(guān)鍵詞的附加信息;當(dāng)該關(guān)鍵詞被操作時,則所述附加信息的渲染內(nèi)容被渲染。
文檔編號G06F17/30GK101388021SQ200810113828
公開日2009年3月18日 申請日期2008年5月30日 優(yōu)先權(quán)日2008年5月30日
發(fā)明者鋼 裘 申請人:索意互動(北京)信息技術(shù)有限公司