專利名稱:利用知識(shí)條目關(guān)聯(lián)信息理解知識(shí)條目含義的方法與系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及知識(shí)條目(knowledge item)。具體而言,本發(fā)明涉及利用與知識(shí)條目相關(guān)聯(lián)的信息理解知識(shí)條目含義的方法與系統(tǒng)。
背景技術(shù):
兩個(gè)知識(shí)條目有時(shí)可以通過手動(dòng)或自動(dòng)化技術(shù)彼此關(guān)聯(lián)。知識(shí)條目是可以通過符號(hào)表示的任何有形或無形事物,可以是,例如關(guān)鍵字、節(jié)點(diǎn)(node)、種類、人物、概念、產(chǎn)品、短語、文檔、和其他知識(shí)單元。知識(shí)條目可采用任意形式,如單字、術(shù)語、短語、文檔、或一些其它的結(jié)構(gòu)或非結(jié)構(gòu)信息。文檔包括,例如,HTML、XML、XHTML等各種格式的網(wǎng)頁;可移植文檔格式(PDF)文件;和文字處理器及應(yīng)用程序文檔文件。例如,諸如來自文檔內(nèi)容的知識(shí)條目可與諸如關(guān)鍵字或廣告的其它知識(shí)條目匹配。同樣,諸如文檔的知識(shí)條目可與包含相關(guān)內(nèi)容的另一個(gè)文檔相關(guān)聯(lián),這樣這兩個(gè)文檔可以看作是相關(guān)的。
應(yīng)用知識(shí)條目的一個(gè)實(shí)例是應(yīng)用在因特網(wǎng)廣告中。因特網(wǎng)廣告可采用多種形式。例如,網(wǎng)站的發(fā)行人可以允許在其網(wǎng)頁上發(fā)布廣告以收費(fèi)。當(dāng)發(fā)行人希望在網(wǎng)頁上向用戶顯示廣告時(shí),服務(wù)商能夠向發(fā)行人提供在網(wǎng)頁上顯示的廣告。服務(wù)商可以依據(jù)諸如關(guān)于用戶的人口統(tǒng)計(jì)信息、網(wǎng)頁類別(例如,體育或是娛樂)、或網(wǎng)頁內(nèi)容的多種因素來選擇廣告。服務(wù)商也可以使網(wǎng)頁內(nèi)容與諸如來自關(guān)鍵字列表的關(guān)鍵字的知識(shí)條目相匹配。之后可以在網(wǎng)頁上顯示與匹配的關(guān)鍵字相關(guān)聯(lián)的廣告。用戶可以操作鼠標(biāo)或另外的輸入設(shè)備并“點(diǎn)擊”廣告,以觀看提供待售商品或服務(wù)的廣告客戶網(wǎng)站上的網(wǎng)頁。
在互聯(lián)網(wǎng)廣告的另一實(shí)例中,在發(fā)行人網(wǎng)頁上在相關(guān)鏈接或類似部分(section)中顯示實(shí)際的匹配關(guān)鍵字。與上述實(shí)例類似,網(wǎng)頁的內(nèi)容與一個(gè)或多個(gè)關(guān)鍵字相匹配,之后該關(guān)鍵字被顯示在例如相關(guān)鏈接部分中。當(dāng)用戶點(diǎn)擊特定的關(guān)鍵字時(shí),可以將用戶引導(dǎo)至可能包括廣告和常規(guī)搜索結(jié)果的混合的搜索結(jié)果頁面。廣告客戶競(jìng)價(jià)(bid)鍵字,以使他們的廣告出現(xiàn)在這樣的該關(guān)鍵字搜索結(jié)果頁面上。用戶可以操作鼠標(biāo)或另外的輸入設(shè)備并“點(diǎn)擊”廣告,以觀看提供待售商品和服務(wù)的廣告客戶網(wǎng)站上的網(wǎng)頁。
廣告客戶希望網(wǎng)頁的內(nèi)容與廣告密切相關(guān),因?yàn)槿绻搹V告與用戶在網(wǎng)頁上所閱讀的內(nèi)容高度相關(guān),則閱讀該網(wǎng)頁的用戶更有可能點(diǎn)擊該廣告并購買所提供的商品或服務(wù)。網(wǎng)頁的發(fā)行人也希望廣告的內(nèi)容與網(wǎng)頁的內(nèi)容相匹配,因?yàn)槿绻脩酎c(diǎn)擊了廣告,發(fā)行人通常會(huì)獲得報(bào)酬;而就敏感內(nèi)容而言,不匹配是廣告客戶或是發(fā)行人都不希望的。
已有多種方法用于匹配關(guān)鍵字與內(nèi)容。其中大多數(shù)方法都涉及文本匹配,例如,使關(guān)鍵字與內(nèi)容中包含的詞語匹配。文本匹配存在一個(gè)問題詞語可與多個(gè)概念相關(guān),這就可能導(dǎo)致內(nèi)容與關(guān)鍵字不匹配。
例如,“蘋果”一詞可與至少兩個(gè)概念相關(guān)。蘋果可指水果或者指同名的計(jì)算機(jī)公司。例如,網(wǎng)頁可能包含關(guān)于蘋果電腦公司(Apple Computer)的新聞,該網(wǎng)頁使用頻率最高的關(guān)鍵字,這里就是“蘋果”,就有可能被選擇用于代表該網(wǎng)頁。在該例中,人們需要展示與蘋果電腦公司相關(guān)的廣告,而不是水果蘋果。但是,如果關(guān)于關(guān)鍵字“蘋果”的最高價(jià)競(jìng)價(jià)人是水果蘋果的銷售商,并且如果關(guān)鍵字“蘋果”被匹配至該網(wǎng)頁,那么水果蘋果的廣告就會(huì)顯示在涉及蘋果電腦公司的網(wǎng)頁上。這不是人們所希望的,因?yàn)樵撽P(guān)于電腦公司的網(wǎng)頁的讀者不太可能對(duì)購買水果蘋果感興趣。
諸如關(guān)鍵字的知識(shí)條目與內(nèi)容不匹配,可導(dǎo)致顯示與內(nèi)容不相關(guān)的廣告的后果。因此,需要理解知識(shí)條目的含義。
發(fā)明內(nèi)容
本發(fā)明的實(shí)施例包括利用相關(guān)信息理解知識(shí)條目含義的系統(tǒng)與方法。本發(fā)明的實(shí)施例的一個(gè)方面包括接收知識(shí)條目以及接收與該知識(shí)條目相關(guān)聯(lián)的相關(guān)信息。該相關(guān)信息可包括各種信息,例如相關(guān)文檔和相關(guān)數(shù)據(jù)。本發(fā)明的實(shí)施例的另一個(gè)方面包括基于相關(guān)信息確定至少一個(gè)相關(guān)含義,并至少部分地基于該相關(guān)信息的相關(guān)含義來確定該知識(shí)條目的含義。在該系統(tǒng)和方法中可應(yīng)用各種利用該相關(guān)含義的算法。本發(fā)明的其它方面旨在提供具有與前述方面相關(guān)的特征的計(jì)算機(jī)系統(tǒng)和計(jì)算機(jī)可讀介質(zhì)。
參照附圖閱讀下面的具體實(shí)施方式
能更好地理解本發(fā)明的這些和其它特征、方面與優(yōu)點(diǎn),其中圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的系統(tǒng)的框圖;圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的方法的框圖;以及圖3示出了圖2所示方法的子程序的流程圖。
具體實(shí)施例方式
本發(fā)明包括利用知識(shí)條目本身以及與知識(shí)條目相關(guān)聯(lián)的信息來理解知識(shí)條目的含義的方法與系統(tǒng)。下面將詳細(xì)參照文中和附圖中所示的本發(fā)明的典型實(shí)施例。在所有附圖中和以下說明中使用相同的標(biāo)號(hào)表示相同或類似的部分。
可以根據(jù)本發(fā)明構(gòu)建各種系統(tǒng)。圖1是示出了典型系統(tǒng)的示意圖,本發(fā)明的典型實(shí)施例可以在其中操作。本發(fā)明還可以操作其它系統(tǒng),以及在其它系統(tǒng)中實(shí)現(xiàn)。
圖1中示出的系統(tǒng)100包括多個(gè)客戶機(jī)裝置102a-n,服務(wù)器裝置104、140和網(wǎng)絡(luò)106。示出的網(wǎng)絡(luò)106包括互聯(lián)網(wǎng)。在其他的實(shí)施例中,可以使用其他的網(wǎng)絡(luò),例如內(nèi)聯(lián)網(wǎng)。而且,根據(jù)本發(fā)明的方法可在單個(gè)計(jì)算機(jī)上運(yùn)行。示出的客戶機(jī)裝置102a-n每個(gè)均包括計(jì)算機(jī)可讀介質(zhì),例如在示出的實(shí)施例中被耦合到處理器110的隨機(jī)存取存儲(chǔ)器(RAM)108。處理器110執(zhí)行存儲(chǔ)在存儲(chǔ)器108中的計(jì)算機(jī)可執(zhí)行的程序指令集。這種處理器可包括微處理器、ASIC、和狀態(tài)機(jī)。這種處理器包括介質(zhì)(例如計(jì)算機(jī)可讀介質(zhì)),或可以其與進(jìn)行通信,當(dāng)指令被計(jì)算機(jī)執(zhí)行時(shí),該介質(zhì)存儲(chǔ)指令使處理器執(zhí)行本文所描述的步驟。計(jì)算機(jī)可讀介質(zhì)的實(shí)施例包括,但是不限于此,電子的、光的、磁的、或其他存儲(chǔ)器或能夠?qū)⒂?jì)算機(jī)可讀指令提供給處理器(例如與觸摸敏感的輸入裝置聯(lián)系的處理器)的傳輸裝置。其他合適的介質(zhì)包括,但是不限于此,軟盤、CD-ROM、磁盤、存儲(chǔ)器片、ROM、RAM、ASIC、配置好的處理器(configuredprocessor)、所有光介質(zhì)、所有磁帶、或其他磁介質(zhì)、或計(jì)算機(jī)處理器能從其讀取指令的任何其他的介質(zhì)。并且,各種其他形式的計(jì)算機(jī)可讀介質(zhì)可傳輸或運(yùn)送指令到計(jì)算機(jī),包括路由器、專用或公共網(wǎng)絡(luò)、或其他傳輸裝置或通道,既有有線的又有無線的。這些指令可包括由任何計(jì)算機(jī)編程語言(例如,包括,C、C++、C#、VisualBasic、Java、和JavaScript)編寫的代碼。
客戶機(jī)裝置102a-n也可以包括多種外部或內(nèi)部裝置,例如鼠標(biāo)、CD-ROM、鍵盤、顯示器、或其他輸入或輸出裝置??蛻魴C(jī)裝置102a-n的實(shí)例是個(gè)人計(jì)算機(jī)、數(shù)字助理、個(gè)人數(shù)字助理、便攜式電話、移動(dòng)電話、智能電話、尋呼機(jī)、數(shù)字化板、便攜式計(jì)算機(jī)、基于處理器的裝置、和類似類型的系統(tǒng)和裝置。一般而言,客戶機(jī)裝置102a-n可以是任何類型的連接到網(wǎng)絡(luò)106的基于處理器的平臺(tái),并且其和一個(gè)或多個(gè)應(yīng)用程序交互。示出的客戶機(jī)裝置102a-n包括執(zhí)行瀏覽器應(yīng)用程序(例如,Microsoft Corporation的6.0版本的Internet ExplorerTM,Netscape Communications Corporation的7.1版本的Netscape NavigatorTM,以及Apple Computer的1.0版本的SafariTM)的個(gè)人計(jì)算機(jī)。通過客戶機(jī)裝置102a-n,用戶112a-n能夠通過網(wǎng)絡(luò)106彼此通信,以及與耦合到網(wǎng)絡(luò)106的其他系統(tǒng)和裝置通信。
如圖1所示,服務(wù)器裝置104、140也耦合到網(wǎng)絡(luò)106。所示服務(wù)器裝置104包括執(zhí)行知識(shí)條目引擎應(yīng)用程序的服務(wù)器。所示服務(wù)器裝置140包括執(zhí)行內(nèi)容引擎應(yīng)用程序的服務(wù)器。與客戶裝置102a-n類似,所示服務(wù)器裝置104、140每個(gè)包括耦合到計(jì)算機(jī)可讀存儲(chǔ)器118、144的處理器116、142。圖示的服務(wù)器裝置104、140是單機(jī)系統(tǒng),但是還可以實(shí)現(xiàn)為計(jì)算機(jī)處理器網(wǎng)絡(luò)。服務(wù)器裝置104、140的實(shí)例是服務(wù)器、大型計(jì)算機(jī)、網(wǎng)絡(luò)計(jì)算機(jī)、基于處理器的裝置、以及相似類型的系統(tǒng)與裝置。客戶機(jī)處理器110和服務(wù)器處理器116、142可以是各種公知計(jì)算機(jī)處理器中的任意類型,例如Santa Clara,California的Intel公司和Schaumbug,Illinois的Motorola公司出品的處理器。
服務(wù)器裝置104的存儲(chǔ)器118包括知識(shí)條目處理器應(yīng)用程序,也稱作知識(shí)條目處理器124。知識(shí)條目處理器124確定知識(shí)條目的含義。含義可以是上下文(context)的表示,可以是例如加權(quán)概念的向量或詞群或詞串(cluster)。可從與網(wǎng)絡(luò)106連接的其它裝置例如服務(wù)器裝置140接收知識(shí)條目。
知識(shí)條目處理器124還可將諸如關(guān)鍵字的知識(shí)條目與位于連接到網(wǎng)絡(luò)106的另一個(gè)裝置上的諸如網(wǎng)頁的文件(article)匹配。文件包括文檔,例如,各種格式的網(wǎng)頁,例如HTML、XML、XHTML、可移植文檔格式(PDF)文件,以及文字處理器、數(shù)據(jù)庫、和應(yīng)用程序文檔文件、或網(wǎng)絡(luò)(例如互聯(lián)網(wǎng))、個(gè)人電腦、或其他計(jì)算或存儲(chǔ)裝置上可提供的音頻、視頻、或任意類型的任意其他信息。此處描述的實(shí)施例通常與文檔有關(guān),但是實(shí)施例可以在任意類型的文件上操作。知識(shí)條目是能夠通過符號(hào)表示的任何有形的和無形的東西,可以是,例如,關(guān)鍵字、節(jié)點(diǎn)、種類、人、概念、產(chǎn)品、短語、文檔、和其他知識(shí)單元。知識(shí)條目可采取任何形式,例如,單字、術(shù)語、短語、文檔、或一些其他結(jié)構(gòu)化的和非結(jié)構(gòu)化的信息。在此描述的實(shí)施例通常與關(guān)鍵字有關(guān),但是實(shí)施例可以在任何類型的知識(shí)條目上操作。
服務(wù)器裝置140的存儲(chǔ)器144包含內(nèi)容引擎應(yīng)用程序,也稱作內(nèi)容引擎146。在一個(gè)實(shí)施例中,內(nèi)容引擎146從知識(shí)條目引擎124接收匹配的關(guān)鍵字,并使諸如廣告的文檔與之相關(guān)聯(lián)。然后,將廣告發(fā)送至請(qǐng)求人的網(wǎng)站,放入例如網(wǎng)頁的框架中。在一個(gè)實(shí)施例中,內(nèi)容引擎146接收請(qǐng)求并返還內(nèi)容,例如廣告,而匹配則由另一個(gè)裝置執(zhí)行。
所示知識(shí)條目引擎124包括信息定位器(information locator)134、信息處理器136、知識(shí)條目處理器135、和含義處理器137。在所示實(shí)施例中,每個(gè)處理器都包括駐留在存儲(chǔ)器118中的計(jì)算機(jī)代碼。知識(shí)條目處理器135接收關(guān)鍵字并識(shí)別關(guān)于該關(guān)鍵字的已知信息。已知信息可包括,例如,與由分析關(guān)鍵字得到的一個(gè)或多個(gè)術(shù)語相關(guān)聯(lián)的一個(gè)或多個(gè)概念。概念可用一串或一組與其相關(guān)聯(lián)的字或術(shù)語來定義,這些字或術(shù)語可以是,例如同義詞。例如,術(shù)語“蘋果”可有兩個(gè)與其相關(guān)聯(lián)的概念——水果和電腦公司,因此,每個(gè)概念可具有一串或一組相關(guān)的字或術(shù)語。概念還可用各種其它信息來定義,例如與相關(guān)概念的關(guān)系,與相關(guān)概念的關(guān)系的強(qiáng)度、詞類、一般用法、用法頻度、概念寬度、和其他關(guān)于概念在語言中的用法的統(tǒng)計(jì)。
信息定位器134識(shí)別并檢索與關(guān)鍵字相關(guān)聯(lián)的相關(guān)信息。在所示實(shí)施例中,該相關(guān)信息可包括相關(guān)文檔和另外的相關(guān)數(shù)據(jù)。相關(guān)文檔可包括廣告和目的網(wǎng)站的文本,該文本來自競(jìng)價(jià)了該關(guān)鍵字的廣告客戶。另外的相關(guān)數(shù)據(jù)可包括由該廣告客戶購買的其它關(guān)鍵字,來自搜索引擎的對(duì)關(guān)鍵字的搜索結(jié)果,關(guān)于廣告客戶的每點(diǎn)擊付費(fèi)(cost per click)的數(shù)據(jù),以及與廣告成功率相關(guān)的數(shù)據(jù)。這些信息中有些可從例如服務(wù)器裝置140獲得。信息處理器136處理由信息定位器134查找到的相關(guān)信息,以確定該查找到的相關(guān)信息的至少一個(gè)相關(guān)含義。然后,將該相關(guān)含義與關(guān)于該關(guān)鍵字的已知信息傳遞至含義處理器137。含義處理器137利用關(guān)于該關(guān)鍵字的已知信息和相關(guān)含義確定關(guān)鍵字含義。注意,信息定位器134、知識(shí)條目處理器135、信息處理器136、和含義處理器137的其它功能與特征在下文做進(jìn)一步說明。
服務(wù)器裝置104還提供對(duì)其它存儲(chǔ)部件的訪問,例如知識(shí)條目存儲(chǔ)部件,在所示實(shí)例中,是知識(shí)條目數(shù)據(jù)庫120。知識(shí)條目數(shù)據(jù)庫可用于存儲(chǔ)知識(shí)條目,例如關(guān)鍵字,及其關(guān)聯(lián)含義。服務(wù)器裝置140還提供對(duì)其它存儲(chǔ)部件的訪問,例如內(nèi)容存儲(chǔ)部件,在所示實(shí)例中,是內(nèi)容數(shù)據(jù)庫148。內(nèi)容數(shù)據(jù)庫可用于存儲(chǔ)與知識(shí)條目相關(guān)的信息,例如文檔和其它與知識(shí)條目有關(guān)的數(shù)據(jù)。數(shù)據(jù)存儲(chǔ)部件可包括任何一種存儲(chǔ)數(shù)據(jù)的方法或多種方法的組合,包括但不限于陣列(array),哈希表,表、和對(duì)(pair)。服務(wù)器裝置104還可訪問其它相似類型的數(shù)據(jù)存儲(chǔ)裝置。
應(yīng)當(dāng)注意,本發(fā)明可包括具有與圖1所示系統(tǒng)不同結(jié)構(gòu)的系統(tǒng)。例如,在根據(jù)本發(fā)明的一些系統(tǒng)中,信息定位器134可以不是知識(shí)條目引擎124的一部分,并可脫機(jī)執(zhí)行其操作。圖1所示系統(tǒng)100僅是例示性的,用來解釋圖2到圖3所示的典型方法。
可以執(zhí)行多種根據(jù)本發(fā)明的方法。根據(jù)本發(fā)明的一種典型方法包括接收知識(shí)條目;接收與該知識(shí)條目相關(guān)聯(lián)的相關(guān)信息;基于該相關(guān)信息確定至少一個(gè)相關(guān)含義;以及至少部分地基于該相關(guān)信息的相關(guān)含義確定該知識(shí)條目的知識(shí)條目含義。相關(guān)信息可以用任何方式與知識(shí)條目相關(guān)聯(lián),并被確定以任何方式相關(guān)聯(lián)。相關(guān)信息可包括相關(guān)文件與相關(guān)數(shù)據(jù)。相關(guān)文件的一些實(shí)例包括來自競(jìng)價(jià)了知識(shí)條目的廣告客戶的廣告和有關(guān)于該廣告的網(wǎng)頁。知識(shí)條目可以是例如關(guān)鍵字。相關(guān)數(shù)據(jù)的實(shí)例包括與該廣告相關(guān)聯(lián)的每點(diǎn)擊付費(fèi)的數(shù)據(jù)和成功率數(shù)據(jù)。在一個(gè)實(shí)施例中,知識(shí)條目含義可包括概念或相關(guān)詞串的加權(quán)向量。
在一個(gè)實(shí)施例中,知識(shí)條目在其被接收后被處理,以確定任何已知的相關(guān)概念。概念可以由一串或一組字或術(shù)語來定義。概念還可用各種其它信息定義,例如,與相關(guān)概念的關(guān)系、與相關(guān)概念的關(guān)系的強(qiáng)度、詞類、一般用法、用法頻度、概念寬度、和其他關(guān)于概念在語言中的用法的統(tǒng)計(jì)。在一個(gè)實(shí)施例中,確定知識(shí)條目含義包括確定哪一個(gè)相關(guān)概念代表該知識(shí)條目含義。
在一個(gè)實(shí)施例中,知識(shí)條目包括多個(gè)概念,以及相關(guān)含義包括多個(gè)概念,而確定知識(shí)條目含義包括建立每個(gè)知識(shí)條目概念的該知識(shí)條目可能被部分分解成該知識(shí)條目概念的概率;確定每個(gè)知識(shí)條目概念與每個(gè)相關(guān)含義概念之間的關(guān)系強(qiáng)度,以及基于該強(qiáng)度調(diào)節(jié)每個(gè)知識(shí)條目概念的概率。在一個(gè)實(shí)施例中,知識(shí)條目具有多個(gè)概念,并確定了多個(gè)相關(guān)含義,而每個(gè)相關(guān)含義具有多個(gè)概念。知識(shí)條目含義的確定涉及建立每個(gè)知識(shí)條目概念的該知識(shí)條目被部分分解成該知識(shí)條目概念的概率,并建立每個(gè)相關(guān)含義概念的該知識(shí)條目部分被分解成該相關(guān)含義概念的概率。
圖2到圖3詳細(xì)示出了根據(jù)本發(fā)明的典型方法200。因?yàn)橛卸喾N執(zhí)行根據(jù)本發(fā)明的方法的方式,這里以實(shí)例的方式提供了該典型方法。圖2中示出的方法200可以由各種不同的系統(tǒng)執(zhí)行,或者實(shí)現(xiàn)。下面通過實(shí)例描述由圖1所示的系統(tǒng)100執(zhí)行的方法200,并在解釋圖2到圖3的實(shí)例方法時(shí)引用系統(tǒng)100的各部件。所示方法200利用關(guān)鍵字的相關(guān)信息使關(guān)鍵字的含義得到理解。
圖2到圖3所示的每個(gè)框代表在典型方法200中執(zhí)行的一個(gè)或多個(gè)步驟。參照?qǐng)D2,典型方法200在框202開始???02之后是框204,在這里知識(shí)條目引擎124接收關(guān)鍵字。關(guān)鍵字可以例如,通過網(wǎng)絡(luò)106從外部數(shù)據(jù)庫,例如內(nèi)容數(shù)據(jù)庫148接收,或可以從其他來源接收。
接著,在框206,由知識(shí)條目處理器135處理關(guān)鍵字,以確定關(guān)于關(guān)鍵字的已知信息。例如,關(guān)鍵字可有一個(gè)或多個(gè)與其關(guān)聯(lián)的概念。每個(gè)概念可有一串或一組關(guān)聯(lián)的詞。概念也可由各種其它信息定義,例如,與相關(guān)概念的關(guān)系、與相關(guān)概念的關(guān)系的強(qiáng)度、詞類、一般用法、用法頻度、概念寬度、和其他關(guān)于概念在語言中的用法的統(tǒng)計(jì)。
例如,術(shù)語“蘋果”可以有兩個(gè)可能的關(guān)聯(lián)概念。第一個(gè)水果蘋果的概念可通過與諸如水果、食物、餡餅、和吃的相關(guān)字詞或概念的關(guān)系來限定。第二個(gè)電腦公司蘋果的概念可通過與諸如計(jì)算機(jī)、PC機(jī)、和技術(shù)的相關(guān)字詞或概念的關(guān)系來限定。關(guān)鍵字可以是短語,在這種情形下,短語可由知識(shí)條目處理器135分解成例如各個(gè)單獨(dú)的術(shù)語。在該例中,知識(shí)條目處理器135還可確定與各術(shù)語相關(guān)聯(lián)的概念。在一些實(shí)施例中,關(guān)鍵字沒有任何信息與其相關(guān)聯(lián)。
在框206之后是框208,在該框中,與關(guān)鍵字相關(guān)聯(lián)的相關(guān)信息被信息定位器134識(shí)別,并被信息處理器136接收。相關(guān)信息可包括文檔例如,廣告和目的網(wǎng)站的文本(其來自競(jìng)價(jià)了關(guān)鍵字的廣告客戶)、對(duì)關(guān)鍵字本身的網(wǎng)頁搜索結(jié)果、以及相關(guān)數(shù)據(jù),例如,由廣告客戶競(jìng)價(jià)的其它關(guān)鍵字、與該關(guān)鍵字相關(guān)聯(lián)的廣告客戶支付的每點(diǎn)擊付費(fèi)、用戶在點(diǎn)擊與廣告客戶網(wǎng)站相關(guān)聯(lián)的廣告之后購買物品的次數(shù)等。這種相關(guān)信息可有從各種來源中找到,例如,服務(wù)器裝置140、廣告客戶網(wǎng)站、和搜索引擎等。
在框208之后是框210,在該框中,信息處理器136從相關(guān)信息中確定至少一個(gè)相關(guān)含義。例如,可確定每個(gè)單個(gè)相關(guān)文檔的含義,或可確定所有文檔的總含義。例如,如果文檔包括與關(guān)鍵字關(guān)聯(lián)的五個(gè)廣告的文本,則可以確定每個(gè)廣告的相關(guān)含義,或者結(jié)合所有五個(gè)廣告的含義以提供總相關(guān)含義。在一個(gè)實(shí)施例中,文檔被處理以確定文檔中所包含的加權(quán)概念的向量。加權(quán)概念的向量可代表文檔的含義。例如,如果廣告與蘋果電腦銷售有關(guān),則該廣告的含義可以是百分之五十電腦、百分之三十蘋果電腦公司、和百分之二十銷售。相關(guān)數(shù)據(jù)可用于,例如,調(diào)整各個(gè)文檔的含義的權(quán)重或總相關(guān)含義的權(quán)重??蛇x地,文檔的含義可以是相關(guān)詞串。
在框210之后是框212,在該框中,含義處理器137基于相關(guān)含義或含義確定關(guān)鍵字的含義。含義處理器137接收來自于信息處理器136的相關(guān)含義或含義,和來自于知識(shí)條目處理器135的經(jīng)過處理的關(guān)鍵字。例如,在框212,含義處理器將從知識(shí)條目處理器接收關(guān)鍵字蘋果及其相關(guān)的兩個(gè)概念,并將從信息處理器136接收蘋果電腦公司的廣告的相關(guān)含義。有多種方法可以用來基于從信息處理器136接收的相關(guān)含義或含義來確定關(guān)鍵字含義。例如,相關(guān)含義可用作線索,以確定與關(guān)鍵字相關(guān)聯(lián)的最佳概念,以提供關(guān)鍵字的含義。在相關(guān)含義是,例如,百分之五十電腦、百分之三十蘋果電腦公司、和百分之二十銷售時(shí),相關(guān)含義的加權(quán)概念與關(guān)鍵字的概念之間的關(guān)系可用于指示關(guān)鍵字蘋果應(yīng)當(dāng)與電腦公司這個(gè)概念相關(guān)聯(lián)。可選地,相關(guān)含義或含義與相關(guān)數(shù)據(jù)可用于提出關(guān)鍵字的新含義。
多個(gè)相關(guān)信息中的任意一個(gè)或多個(gè)可用于確定關(guān)鍵字的含義。可用于確定關(guān)鍵字的含義的相關(guān)信息的實(shí)例包括但不限于以下信息中的一個(gè)或多個(gè)●與當(dāng)前競(jìng)價(jià)了該知識(shí)條目的廣告客戶相關(guān)聯(lián)的廣告文本。
●廣告的目的網(wǎng)頁或網(wǎng)頁。
●過去競(jìng)價(jià)了該關(guān)鍵字的廣告客戶的廣告文本。
●當(dāng)前競(jìng)價(jià)了該關(guān)鍵字的廣告客戶所競(jìng)價(jià)的其它關(guān)鍵字。
●來自搜索引擎的對(duì)該關(guān)鍵字的搜索結(jié)果。
●在查看該廣告后,從與該關(guān)鍵字關(guān)聯(lián)的廣告客戶的網(wǎng)站購買了物品的人數(shù)。
還可包括多種其它相關(guān)信息,這些信息僅僅作為例子給出。而且,該相關(guān)信息可根據(jù)一些信息給予不同的權(quán)重。例如,當(dāng)前廣告客戶的廣告文本的權(quán)重可超過與該關(guān)鍵字相關(guān)聯(lián)的前廣告客戶的廣告文本。此外,對(duì)于與具有最高每點(diǎn)擊付費(fèi)的廣告客戶相關(guān)聯(lián)的條目,可根據(jù)每點(diǎn)擊付費(fèi)而加權(quán)更多。
圖3示出了一個(gè)用于實(shí)施圖2所示方法200的子程序212的實(shí)例。子程序212利用相關(guān)含義或相關(guān)含義來確定關(guān)鍵字的含義。下文說明子程序212的實(shí)例。
該子程序開始于框300。在框300,建立了每個(gè)字集與關(guān)鍵字相關(guān)聯(lián)的概率。例如,在一個(gè)實(shí)施例中,每個(gè)關(guān)鍵字可以包括一個(gè)或多個(gè)術(shù)語,并且每個(gè)術(shù)語可具有與其相關(guān)聯(lián)的一個(gè)或多個(gè)概念。就本例而言,關(guān)鍵字包括單個(gè)術(shù)語,該術(shù)語具有至少兩個(gè)相關(guān)概念。在框300,與該關(guān)鍵字相關(guān)聯(lián)的每個(gè)概念都被給定一個(gè)關(guān)鍵字被分解成該概念的先驗(yàn)概率。該先驗(yàn)概率可基于相互聯(lián)系的概念的網(wǎng)絡(luò)中包含的信息和/或先前所收集的每個(gè)術(shù)語被分解成該概念的頻率數(shù)據(jù)。
在框300之后是框302,在該框中,在關(guān)鍵字概念與相關(guān)含義或含義概念之間確定關(guān)系強(qiáng)度。例如,在一個(gè)實(shí)施例中,相關(guān)含義可包括加權(quán)概念集。為每個(gè)關(guān)鍵字概念與每個(gè)相關(guān)含義概念之間的關(guān)系確定強(qiáng)度。每個(gè)相關(guān)含義概念的權(quán)重可用于調(diào)整相關(guān)含義概念與關(guān)鍵字概念之間的關(guān)系的強(qiáng)度。該強(qiáng)度可反映這些概念之間共存的概率,或這兩個(gè)概念之間親密程度的大小,其可由本體論數(shù)據(jù)(ontological data)得到。
在框302之后是框304,在該框中,將在框302中計(jì)算得到的強(qiáng)度用來調(diào)整關(guān)鍵字被分解成其每個(gè)相關(guān)概念的概率。例如,將所確定的每個(gè)關(guān)鍵字概念與每個(gè)相關(guān)含義概念之間的強(qiáng)度用來調(diào)整被考慮到的每個(gè)關(guān)鍵字概念的概率。在一個(gè)實(shí)施例中,在調(diào)整了關(guān)鍵字概念的概率后,概率被歸一化(normalized to one)。在框302和304中發(fā)生的步驟可多次重復(fù),以增加關(guān)系強(qiáng)度對(duì)概率的影響。
在一個(gè)實(shí)施例中,關(guān)鍵字可包括多個(gè)概念,而多個(gè)相關(guān)含義可各自包括多個(gè)概念。在該實(shí)施例中,通過建立每個(gè)關(guān)鍵字的該關(guān)鍵字可能被部分分解成該關(guān)鍵字概念的概率和每個(gè)相關(guān)含義概念的該關(guān)鍵字可能被部分分解成該相關(guān)含義概念的概率,就可以確定關(guān)鍵字含義。這些概率可通過上面參照?qǐng)D3所述的方式來確定。
現(xiàn)在回到圖2,框212之后是框214,在該框中,關(guān)鍵字含義與關(guān)鍵字相關(guān)聯(lián)并被存儲(chǔ)。關(guān)鍵字及其關(guān)聯(lián)含義可一起被存儲(chǔ)在例如在知識(shí)條目數(shù)據(jù)庫120中,或分開存儲(chǔ)在不同數(shù)據(jù)庫中。
盡管上述說明包含諸多細(xì)節(jié),但這些細(xì)節(jié)不應(yīng)被解釋為對(duì)本發(fā)明范圍的限制,而應(yīng)當(dāng)僅僅被理解為對(duì)所公開實(shí)施例給出的范例。本領(lǐng)域技術(shù)人員將會(huì)預(yù)見在本發(fā)明范圍之內(nèi)還有多種其它可能的變體。
權(quán)利要求
1.一種方法,包括以下步驟接收知識(shí)條目;接收與所述知識(shí)條目相關(guān)聯(lián)的相關(guān)信息;基于所述相關(guān)信息確定至少一個(gè)相關(guān)含義;以及至少部分地基于所述相關(guān)含義確定所述知識(shí)條目的知識(shí)條目含義。
2.根據(jù)權(quán)利要求1所述的方法,其中所述知識(shí)條目是關(guān)鍵字。
3.根據(jù)權(quán)利要求1所述的方法,其中所述相關(guān)信息包括相關(guān)文件。
4.根據(jù)權(quán)利要求3所述的方法,其中所述文件包括來自廣告客戶的廣告,所述廣告客戶競(jìng)價(jià)了所述知識(shí)條目。
5.根據(jù)權(quán)利要求4所述的方法,其中所述文件還包括與所述廣告相關(guān)聯(lián)的網(wǎng)頁。
6.根據(jù)權(quán)利要求5所述的方法,其中所述相關(guān)信息還包括相關(guān)數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的方法,其中所述相關(guān)數(shù)據(jù)包括與所述廣告相關(guān)聯(lián)的每點(diǎn)擊付費(fèi)的數(shù)據(jù)。
8.根據(jù)權(quán)利要求1所述的方法,其中接收所述知識(shí)條目還包括處理所述知識(shí)條目,以確定任何已知的關(guān)聯(lián)概念。
9.根據(jù)權(quán)利要求1所述的方法,其中所述知識(shí)條目包括多個(gè)關(guān)聯(lián)概念,以及確定所述知識(shí)條目含義包括確定哪一個(gè)所述關(guān)聯(lián)概念代表所述知識(shí)條目含義。
10.根據(jù)權(quán)利要求1所述的方法,其中所述知識(shí)條目包括多個(gè)概念,以及所述相關(guān)含義包括多個(gè)概念,以及確定所述知識(shí)條目含義包括以下步驟建立每個(gè)知識(shí)條目的所述知識(shí)條目可能被分解成所述知識(shí)條目概念的概率;確定每個(gè)知識(shí)條目概念與每個(gè)相關(guān)含義概念之間的關(guān)系的強(qiáng)度;以及基于所述強(qiáng)度調(diào)整每個(gè)知識(shí)條目概念的概率。
11.根據(jù)權(quán)利要求1所述的方法,其中所述知識(shí)條目含義包括多個(gè)概念的加權(quán)向量。
12.根據(jù)權(quán)利要求1所述的方法,其中所述知識(shí)條目含義包括相關(guān)詞串。
13.根據(jù)權(quán)利要求1所述的方法,其中所述知識(shí)條目包括多個(gè)概念,多個(gè)相關(guān)含義被確定,每個(gè)相關(guān)含義包括多個(gè)概念,以及確定所述知識(shí)條目含義包括以下步驟建立每個(gè)知識(shí)條目概念的所述知識(shí)條目可能被部分分解成所述知識(shí)條目概念的概率;以及建立每個(gè)相關(guān)含義概念的所述知識(shí)條目可能被部分分解成所述相關(guān)含義概念的概率。
14.一種包括程序代碼的計(jì)算機(jī)可讀介質(zhì),包括用于接收知識(shí)條目的程序代碼;用于接收與所述知識(shí)條目相關(guān)聯(lián)的相關(guān)信息的程序代碼;用于基于所述相關(guān)信息確定至少一個(gè)相關(guān)含義的程序代碼;以及用于至少部分地基于所述相關(guān)含義確定所述知識(shí)條目的知識(shí)條目含義的程序代碼。
15.根據(jù)權(quán)利要求14所述的計(jì)算機(jī)可讀介質(zhì),其中所述知識(shí)條目是關(guān)鍵字。
16.根據(jù)權(quán)利要求14所述的計(jì)算機(jī)可讀介質(zhì),其中所述相關(guān)信息包括相關(guān)文件。
17.根據(jù)權(quán)利要求16所述的計(jì)算機(jī)可讀介質(zhì),其中所述文件包括來自廣告客戶的廣告,所述廣告客戶競(jìng)價(jià)了所述知識(shí)條目。
18.根據(jù)權(quán)利要求17所述的計(jì)算機(jī)可讀介質(zhì),其中所述文件還包括與所述廣告相關(guān)聯(lián)的網(wǎng)頁。
19.根據(jù)權(quán)利要求18所述的計(jì)算機(jī)可讀介質(zhì),其中所述相關(guān)信息還包括相關(guān)數(shù)據(jù)。
20.根據(jù)權(quán)利要求19所述的計(jì)算機(jī)可讀介質(zhì),其中所述相關(guān)數(shù)據(jù)包括與所述廣告相關(guān)聯(lián)的每點(diǎn)擊付費(fèi)的數(shù)據(jù)。
21.根據(jù)權(quán)利要求14所述的計(jì)算機(jī)可讀介質(zhì),其中用于接收所述知識(shí)條目的程序代碼還包括用于處理所述知識(shí)條目,以確定任何已知的關(guān)聯(lián)概念的程序代碼。
22.根據(jù)權(quán)利要求14所述的計(jì)算機(jī)可讀介質(zhì),其中所述知識(shí)條目包括多個(gè)關(guān)聯(lián)概念,以及用于確定所述知識(shí)條目含義的程序代碼包括用于確定哪一個(gè)所述關(guān)聯(lián)概念代表所述知識(shí)條目含義的程序代碼。
23.根據(jù)權(quán)利要求14所述的計(jì)算機(jī)可讀介質(zhì),其中所述知識(shí)條目包括多個(gè)概念,以及所述相關(guān)含義包括多個(gè)概念,以及確定所述知識(shí)條目含義包括用于建立每個(gè)知識(shí)條目的所述知識(shí)條目可能被分解成所述知識(shí)條目概念的概率的程序代碼;用于確定每個(gè)知識(shí)條目概念與每個(gè)相關(guān)含義概念之間的關(guān)系的強(qiáng)度的程序代碼;以及用于基于所述強(qiáng)度調(diào)整每個(gè)知識(shí)條目概念的概率的程序代碼。
24.根據(jù)權(quán)利要求14所述的計(jì)算機(jī)可讀介質(zhì),其中所述知識(shí)條目含義包括多個(gè)概念的加權(quán)向量。
25.根據(jù)權(quán)利要求14所述的計(jì)算機(jī)可讀介質(zhì),其中所述知識(shí)條目含義包括相關(guān)詞串。
26.根據(jù)權(quán)利要求14所述的計(jì)算機(jī)可讀介質(zhì),其中所述知識(shí)條目包括多個(gè)概念,多個(gè)相關(guān)含義被確定,每個(gè)相關(guān)含義包括多個(gè)概念,以及確定所述知識(shí)條目含義包括用于建立每個(gè)知識(shí)條目概念的所述知識(shí)條目可能被部分分解成所述知識(shí)條目概念的概率的程序代碼;以及用于建立每個(gè)相關(guān)含義概念的所述知識(shí)條目可能被部分分解成所述相關(guān)含義概念的概率的程序代碼。
全文摘要
本發(fā)明公開了利用相關(guān)信息確定知識(shí)條目含義的系統(tǒng)與方法。在一個(gè)方面中,接收知識(shí)條目;接收與該知識(shí)條目相關(guān)聯(lián)的相關(guān)信息;基于相關(guān)信息確定至少一個(gè)相關(guān)含義;以及至少部分地基于相關(guān)含義確定知識(shí)條目的知識(shí)條目含義。還公開了可用于實(shí)現(xiàn)該系統(tǒng)與方法的多個(gè)算法和各種相關(guān)信息。
文檔編號(hào)G06Q10/00GK1829989SQ200480021909
公開日2006年9月6日 申請(qǐng)日期2004年7月23日 優(yōu)先權(quán)日2003年7月30日
發(fā)明者吉拉德·伊斯雷爾·埃勒巴茲, 阿達(dá)姆·J·韋斯曼 申請(qǐng)人:Google公司