亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

給關(guān)鍵詞添加附加信息的方法和系統(tǒng)的制作方法

文檔序號:6464186閱讀:132來源:國知局
專利名稱:給關(guān)鍵詞添加附加信息的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及給關(guān)鍵詞添加附加信息,尤其涉及根據(jù)語義相關(guān)給文檔中的關(guān)鍵詞提供附加信息。
背景技術(shù)
隨著因特網(wǎng)被大量應(yīng)用,出現(xiàn)了大量的很有價值的網(wǎng)頁信息,網(wǎng)頁的提供方希望當(dāng)用戶瀏覽網(wǎng)頁時可以提供與文檔中的關(guān)鍵詞相關(guān)的附加信息?,F(xiàn)有技術(shù)中主要有兩種給關(guān)鍵詞添加附加信息的方法。 一種是借助人工,由編輯通過對文檔和附加信息的瀏覽來確定,其存在的問題是效率很低,以及大量使用人工而帶來的高成本。另一種是現(xiàn)有附加信息的權(quán)利人購買關(guān)鍵詞,當(dāng)某個詞在文檔中被作為關(guān)鍵詞顯示時,擁有該關(guān)鍵詞的權(quán)利人可以將相關(guān)的附加信息添加到該關(guān)鍵詞,其存在的問題是只能給有限的關(guān)鍵詞添加附加信息,沒有被購買的詞則無法被添加關(guān)
^^詞o
i申請正是需要能夠解決這兩個問題,在不需要人工干預(yù)的情況下,根據(jù)關(guān)鍵詞與權(quán)利人所擁有的詞條的相關(guān)性,而不是根據(jù)是否與權(quán)利人所擁有的詞條匹配,來自動給關(guān)鍵詞添加最相關(guān)的附加信息。
從而,帶來的有益效果是由系統(tǒng)自動實(shí)現(xiàn)提高了效率,并且無需直接匹配也可以給關(guān)鍵詞添加相關(guān)的附加信息,大大擴(kuò)展了關(guān)鍵詞的附加信息的范圍,使得更多的關(guān)鍵詞上具有了附加信息。

發(fā)明內(nèi)容
本發(fā)明的一個目的是提供 一種給關(guān)鍵詞添加附加信息的方法,其中包括查詢詞條向量表獲得待處理的關(guān)鍵詞的向量和附加信息表中的專屬詞條的向量;計算待處理的關(guān)鍵詞的向量與附加信息表中的專屬詞條的向量的相關(guān)度;將相關(guān)度最高的附加信息表中的條目確定為待處理關(guān)鍵詞的附加信息;當(dāng)該關(guān)鍵詞被操作時,則所述附加信息的渲染內(nèi)容被渲染。
本發(fā)明更進(jìn)一步的目的是 一種計算機(jī)程序產(chǎn)品,存儲在計算機(jī)可讀的介質(zhì)上,該計算機(jī)程序產(chǎn)品具體地包括可讀的程序方法,從而觸發(fā)計算機(jī)執(zhí)行上述的方法。
本發(fā)明更進(jìn)一步的目的是 一種計算機(jī)程序,由計算機(jī)執(zhí)行而實(shí)現(xiàn)上述方法。
本發(fā)明還有一個目的是提供 一種給關(guān)鍵詞添加附加信息的系統(tǒng),其中包括詞條向量獲取裝置,用于査詢詞條向量表獲得待處理的關(guān)鍵
詞的向量和附加信息表中的專屬詞條的向量;詞條向量比較裝置,用于
計算待處理的關(guān)鍵詞的向量與附加信息表中的專屬詞條的向量的相關(guān)度*,附加信息確定裝置,用于將相關(guān)度最高的附加信息表中的條目確定
為待處理關(guān)鍵詞的附加信息;附加信息渲染裝置,用于當(dāng)該關(guān)鍵詞被操作時,則所述附加信息的渲染內(nèi)容被渲染。
附圖描述
上述內(nèi)容和其它方面的內(nèi)容,以及本發(fā)明特定優(yōu)選實(shí)施例的特征和優(yōu)勢將通過結(jié)合相應(yīng)附圖的詳細(xì)說明更加清楚。其中

圖1是關(guān)于詞條的表現(xiàn)方法和組合方式;圖2是詞條-文檔(term-document)矩陣;圖3是高維(r維)詞條空間投影到低維(k維)詞條空間的公式;圖4是詞條向量表;
圖5是描述了詞條和文檔在二維空間上的投影關(guān)系;圖6如何獲得査詢請求的向量;圖7是根據(jù)本發(fā)明實(shí)施例的附加信息表10;圖8是根據(jù)本發(fā)明第一個實(shí)施例的流程圖20;圖9是根據(jù)本發(fā)明的一個具體實(shí)例;圖10是根據(jù)本發(fā)明第二個實(shí)施例的流程圖40;圖11是實(shí)現(xiàn)本發(fā)明實(shí)施例的框圖50。所有附圖中,同一附圖標(biāo)記理解為同一單元、特征和結(jié)構(gòu)。
優(yōu)選實(shí)施例描述
說明書中定義的內(nèi)容如具體的結(jié)構(gòu)和單元,是用于輔助全面理解本發(fā)明的優(yōu)選實(shí)施例的。因此,根據(jù)本領(lǐng)域的普通技術(shù)對本申請描述的實(shí)施例進(jìn)行的各種改變和修改都被認(rèn)為沒有脫離本發(fā)明的精神范圍。同時,為了清楚和簡要,省略了對公知的功能和結(jié)構(gòu)的說明。
在現(xiàn)有技術(shù)中有大量關(guān)于基于語義搜索的技術(shù),本領(lǐng)域技術(shù)人員可以利用這些技術(shù)很容易的構(gòu)建詞條向量,以及文檔向量。其中有代表性的是潛在語義索引模型等技術(shù)。下面介紹潛在語義索引的原理,但不代表本發(fā)明一定要構(gòu)建在潛在語義索引之上,本發(fā)明可以應(yīng)用在所有的基于語義的搜索技術(shù)上。
潛在語義索引的原理
為了能夠更加容易的解釋LSI原理,下面通過一個具體例子來描述。設(shè)文檔由17本書的標(biāo)題組成。圖1中,有下劃線的詞表示詞條。當(dāng)然,對于本領(lǐng)域技術(shù)人員,存在很多其他選擇詞條的規(guī)則,可以增加或減少詞條的數(shù)量,也可以改變詞條的組合方式等。
圖2是16x17詞條-文檔(term-document)矩陣,被稱作A。行代表詞條(term),列代表文檔(documeiit)。矩陣的值代表該詞條在該文檔中出現(xiàn)的次數(shù)。
奇異值分解把詞條-文檔矩陣A分解為三個矩陣的乘積形式,即
a=ui:vt 公式1
其中,i:是奇異值的對角矩陣。
圖3是潛在語義索引方法通過降維,將高維(r維)詞條空間投影到低維(k維)詞條空間。
為方便圖示表示,在本例中選擇k為2,即表示將原詞條空間降維到二維詞條空間上。矩陣u的前兩列表示了詞條在二維空間中的向量。獲得的向量組即詞條向量表為如附圖中圖4所示。
利用這些基本的詞條向量,可以根據(jù)v = qTUkr'k 公式3來合成新的向量。例如文檔向量B。用戶輸入的査詢請求,都可通過分析所引用的詞條按公式3相合成。本領(lǐng)域技術(shù)人員很容易明了,在合成向量時可以考慮詞條向量的權(quán)重。
圖5描述了詞條和文檔在二維空間上的投影關(guān)系。詞條向量之間的夾角越小或夾角的余弦值越大,代表詞條和和該文檔的相關(guān)性越大。例如,以詞條"oscillation"為例,在所有詞條中"delay"與其夾角最小,即"delay"與其最相關(guān)。
當(dāng)用戶輸入一個查詢請求時,如"application theory",系統(tǒng)通過分析該請求中包含的關(guān)鍵詞"applications "theory",將該兩關(guān)鍵詞相關(guān)的詞條向量按公式3合成如附圖中圖6所示,從而獲得査詢請求的向量。
通過計算文檔向量與該査詢請求向量的夾角的余弦值,其值越大,表示該文檔與査詢請求越相關(guān)。
詞條與文檔的相關(guān)度是計算詞條向量與文檔向量之間的夾角的余弦值,其值越大,表示該文檔與査詢請求越相關(guān)。例如,"nonlinear"這個詞條與B9的文檔向量間的夾角的余弦值最大,所以與"nonlinear"最相關(guān)的文檔是B9。
本領(lǐng)域技術(shù)人員己知的實(shí)際應(yīng)用中,通過上述原理,對現(xiàn)有的足夠數(shù)量的文獻(xiàn)進(jìn)行上述處理,即可獲得全面的詞條向量表。計算文檔向量的方法是抽取文檔中的詞條,比對詞條向量表獲得相關(guān)詞條的向量,將
這些向量合成為文檔向量如公式3。為了簡化的目的,本申請不再詳細(xì)描述如何獲得詞條向量表,因?yàn)楸绢I(lǐng)域技術(shù)人員可以根據(jù)現(xiàn)有技術(shù)能夠很容易地獲得詞條向量表。本發(fā)明是在現(xiàn)有的詞條向量表的基礎(chǔ)上描述的。
相關(guān)的參考文獻(xiàn)如下
1. M.1W.Berry.S.T.Dumaiis&G.)^.0,Brien. Using Linear AlgebraIntelligent Information Retrieval. Computer Science Department CS-94-2701994-12。
2. 居斌.潛在語義標(biāo)引在中文信息檢索中的研究與實(shí)現(xiàn).計算機(jī)工程2007-03。
3. 陳越郭力.隱含語義檢索及其應(yīng)用.信息檢索技術(shù)2001年第6期。
4. Michael W. Berry ,Paul G Young. Using latent semantic indexing formultilanguage information retrieval. Volume 29, Number 6 / 1995年12月
圖7是根據(jù)本發(fā)明實(shí)施例的附加信息表10。該表的每一個條目包括
以下字段專屬詞條、權(quán)利人、渲染內(nèi)容和優(yōu)先權(quán)。專屬詞條即權(quán)利人購買的關(guān)鍵詞。而渲染內(nèi)容是權(quán)利人希望當(dāng)該專屬詞條被用戶操作時,作為附加信息呈現(xiàn)給用戶的內(nèi)容。渲染內(nèi)容可以是文字、圖片、音頻、
視頻或FLASH動畫中的一種或它們的組合。并且渲染內(nèi)容上可以具有超鏈接。同一個權(quán)利人可以購買不同的專屬詞條,同一個權(quán)利人也可以有不同的渲染內(nèi)容。例如索意互動公司購買"PC"作為專屬詞條,并將有關(guān)PC的內(nèi)容作為渲染內(nèi)容;微軟公司購買"軟件"作為專屬詞條,并將有關(guān)軟件的內(nèi)容作為渲染內(nèi)容。而優(yōu)先權(quán)表示權(quán)利人獲得該專屬詞條所付出的代價。如果有其他權(quán)利人愿意為該專屬詞條付出更大的代價則該專屬詞條即屬于其他權(quán)利人。
圖8是根據(jù)本發(fā)明第一個實(shí)施例的流程圖20。開始于步驟21,査詢詞條向量表獲得待處理的關(guān)鍵詞的向量和附加信息表中的專屬詞條的向量,詞條向量表是如前面所述的通過現(xiàn)有的基于語義的搜索技術(shù)而獲得的。步驟22,計算待處理的關(guān)鍵詞的向量與附加信息表中的專屬詞條的向量的相關(guān)度。詞條之間的相關(guān)度指的是詞條向量的夾角或余弦值,夾角越小越相關(guān)或者余弦值越大越相關(guān),反之亦然。在步驟23,將相關(guān)度最高的附加信息表中的條目確定為待處理關(guān)鍵詞的附加信息。因?yàn)檎Z義最相關(guān)的附加信息是用戶最期望看到,也是權(quán)利人最希望推送給用戶的。在步驟24,當(dāng)該關(guān)鍵詞被操作時,則所述附加信息的渲染內(nèi)容被渲染。渲染指的是對需要呈現(xiàn)的內(nèi)容進(jìn)行處理并將其呈現(xiàn)給用戶。例如渲染內(nèi)容是音頻,則調(diào)用相關(guān)音頻處理程序來運(yùn)行該音頻文件來呈現(xiàn)給用戶。而操作的方式例如是點(diǎn)擊關(guān)鍵詞或?qū)⒅更c(diǎn)設(shè)備移動到關(guān)鍵詞上。
圖9是根據(jù)本發(fā)明的一個具體實(shí)例。某個文檔中具有一個關(guān)鍵詞是"筆記本",但是在附加信息表中,沒有權(quán)利人購買這個詞。如果是現(xiàn)有的系統(tǒng)則將無法將其與附加信息對應(yīng)起來。而根據(jù)本發(fā)明的實(shí)施例,由于"筆記本"的詞條向量與"PC"的詞條向量最相關(guān),所以系統(tǒng)會將"PC"所對應(yīng)的渲染內(nèi)容,即索意互動公司的廣告進(jìn)行相關(guān)。當(dāng)用戶操作該關(guān)鍵詞"筆記本"時,例如將鼠標(biāo)放置到該關(guān)鍵詞的上方,就可以看到索意互動公司的廣告了。
圖10是根據(jù)本發(fā)明第二個實(shí)施例的流程圖40。開始于步驟41,査詢詞條向量表獲得待處理的關(guān)鍵詞的向量和附加信息表中的專屬詞條的向量,詞條向量表是如前面所述的通過現(xiàn)有的基于語義的搜索技術(shù)而獲得的。步驟42,計算待處理的關(guān)鍵詞的向量與附加信息表中的專屬詞條的向量的相關(guān)度。詞條之間的相關(guān)度指的是詞條向量的夾角或余弦值,夾角越小越相關(guān)或者余弦值越大越相關(guān),反之亦然。在步驟43,判斷最高相關(guān)度是否超過預(yù)先設(shè)置的門限,如果超過了則將相關(guān)度最高的附加信息表中的條目確定為待處理關(guān)鍵詞的附加信息,否則不給該關(guān)鍵詞添加附加信息。因?yàn)檎Z義最相關(guān)的附加信息是用戶最期望看到,也是權(quán)利人最希望推送給用戶的。但如果相關(guān)度過低則與用戶所期望的內(nèi)容不相符合了。在步驟44,如果該關(guān)鍵詞具有附加信息,當(dāng)該關(guān)鍵詞被操作時,則所述附加信息的渲染內(nèi)容被渲染。渲染指的是對需要呈現(xiàn)的內(nèi)容進(jìn)行處理并將其呈現(xiàn)給用戶。例如渲染內(nèi)容是音頻,則調(diào)用相關(guān)音頻處理程序來運(yùn)行該音頻文件來呈現(xiàn)給用戶。而操作的方式例如是點(diǎn)擊關(guān)鍵詞或?qū)⒅更c(diǎn)設(shè)備移動到關(guān)鍵詞上。
圖11是實(shí)現(xiàn)本發(fā)明實(shí)施例的框圖50。包括詞條向量獲取裝置51,詞條向量比較裝置52,附加信息確定裝置53,附加信息渲染裝置54,詞條向量表55和附加信息表56。
詞條向量獲取裝置51,根據(jù)查詢詞條向量表55獲得待處理的關(guān)鍵詞的向量和附加信息表中的專屬詞條的向量。并將獲得向量發(fā)送給詞條向量比較裝置52。詞條向量比較裝置52,用于計算待處理的關(guān)鍵詞的向量與附加信息表中的專屬詞條的向量的相關(guān)度。并將獲得相關(guān)度發(fā)送給附加信息確定裝置53。附加信息確定裝置53,用于將相關(guān)度最高的附加信息表中的條目確定為待處理關(guān)鍵詞的附加信息。附加信息渲染裝置54,用于當(dāng)該關(guān)鍵詞被操作時,則所述附加信息的渲染內(nèi)容被渲染。
渲染內(nèi)容包括文字、圖片、音頻、視頻或FALSH動畫中的一種或多種。而且渲染內(nèi)容可以具有超鏈接。附加信息確定裝置可以包括如果最高相關(guān)度低于門限,則該待處理關(guān)鍵詞不添加附加信息。盡管本發(fā)明通過一些特定的優(yōu)選實(shí)施例加以表述,但是本領(lǐng)域的技 術(shù)人員都應(yīng)知道,可能的形式上的各種變化和具體化都沒有脫離本發(fā)明 的精神以及權(quán)利要求及其等價內(nèi)容所定義的范圍。
權(quán)利要求
1.一種給關(guān)鍵詞添加附加信息的方法,其中包括步驟A查詢詞條向量表獲得待處理的關(guān)鍵詞的向量和附加信息表中的專屬詞條的向量;步驟B計算待處理的關(guān)鍵詞的向量與附加信息表中的專屬詞條的向量的相關(guān)度;步驟C將相關(guān)度最高的附加信息表中的條目確定為待處理關(guān)鍵詞的附加信息;步驟D當(dāng)該關(guān)鍵詞被操作時,則所述附加信息的渲染內(nèi)容被渲染。
2. 權(quán)利要求l一中的方法,其中渲染內(nèi)容包括文字、圖片、音頻、視頻 或FALSH動畫中的一種或多種。
3. 權(quán)利要求1-2中任意一個方法,其中渲染內(nèi)容具有超鏈接。
4. 權(quán)利要求1-3中任意一個方法,步驟C包括如果最高相關(guān)度低于門限, 則該待處理關(guān)鍵詞不添加附加信息。
5. —種給關(guān)鍵詞添加附加信息的系統(tǒng),其中包括詞條向量獲取裝置,用于查詢詞條向量表獲得待處理的關(guān)鍵詞的向量和 附加信息表中的專屬詞條的向量;詞條向量比較裝置,用于計算待處理的關(guān)鍵詞的向量與附加信息表中的 專屬詞條的向量的相關(guān)度;附加信息確定裝置,用于將相關(guān)度最高的附加信息表中的條目確定為待 處理關(guān)鍵詞的附加信息;附加信息渲染裝置,用于當(dāng)該關(guān)鍵詞被操作時,則所述附加信息的渲染 內(nèi)容被渲染。
6. 權(quán)利要求5一中的系統(tǒng),其中渲染內(nèi)容包括文字、圖片、音頻、視頻一l:- r ▲ t rt t t 二"Jt 7Fi^ r+t /tAi__工i"l"t _ j、:現(xiàn)r/\L。n厶力,t 。、J 一竹現(xiàn)夕々t °
7. 權(quán)利要求5-6中任意一個系統(tǒng),其中渲染內(nèi)容具有超鏈接。
8. 權(quán)利要求5-7中任意一個系統(tǒng),附加信息確定裝置包括如果最高相關(guān) 度低于門限,則該待處理關(guān)鍵詞不添加附加信息。
9. 一種計算機(jī)程序產(chǎn)品,存儲在計算機(jī)可讀的介質(zhì)上,該計算機(jī)程序產(chǎn) 品具體地包括可讀的程序方法,從而觸發(fā)計算機(jī)執(zhí)行根據(jù)權(quán)利要求1到 4任意之一的方法。
10. —種計算機(jī)程序,由計算機(jī)執(zhí)行而實(shí)現(xiàn)根據(jù)權(quán)利要求1到4任意之一 的方法。
全文摘要
一種給關(guān)鍵詞添加附加信息的方法,其中包括查詢詞條向量表獲得待處理的關(guān)鍵詞的向量和附加信息表中的專屬詞條的向量;計算待處理的關(guān)鍵詞的向量與附加信息表中的專屬詞條的向量的相關(guān)度;將相關(guān)度最高的附加信息表中的條目確定為待處理關(guān)鍵詞的附加信息;當(dāng)該關(guān)鍵詞被操作時,則所述附加信息的渲染內(nèi)容被渲染。
文檔編號G06F17/30GK101593194SQ20081011316
公開日2009年12月2日 申請日期2008年5月28日 優(yōu)先權(quán)日2008年5月28日
發(fā)明者鋼 裘 申請人:索意互動(北京)信息技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1