專利名稱:用于確定文檔的含義以使文檔與內(nèi)容匹配的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及文檔。更具體地,本發(fā)明涉及用于確定文檔 的含義以4吏文檔(document)與內(nèi)容(content)相匹配的系纟克禾口方法。
背景技術(shù):
例3口,文檔(例3o網(wǎng)頁(yè))可以與互聯(lián)網(wǎng)上的其它內(nèi)容相匹配。 文檔包4舌,例如,i者如HTML、 XML、 XHTML的各種格式的網(wǎng)頁(yè); 可移植文檔才各式(PDF)文件;以及文字處理器和應(yīng)用程序文檔文件。
使文檔與內(nèi)容相匹配的一個(gè)實(shí)例是在互聯(lián)網(wǎng)廣告中。例如,網(wǎng) 站的發(fā)行人可以允許在其網(wǎng)頁(yè)上發(fā)布廣告以收費(fèi)。當(dāng)發(fā)4亍人希望在 網(wǎng)頁(yè)上向用戶顯示廣告時(shí),服務(wù)商能夠向發(fā)行人沖是供在網(wǎng)頁(yè)上顯示 的廣告。月l務(wù)商可以依據(jù)諸如關(guān)于用戶的人口統(tǒng)計(jì)信息、網(wǎng)頁(yè)類別 (例如,體育或是娛樂(lè))、或網(wǎng)頁(yè)內(nèi)容的多種因素來(lái)選擇廣告。月良 務(wù)商也可以使網(wǎng)頁(yè)內(nèi)容與諸如來(lái)自關(guān)鍵字列表的關(guān)鍵字的知識(shí)條 目(knowledge item)相匹配。之后可以在網(wǎng)頁(yè)上顯示與匹配的關(guān)4建字相關(guān)聯(lián)的廣告。用戶可以操作鼠標(biāo)或另外的輸入設(shè)備并"點(diǎn)擊,,廣
告,以^L看^是供^寺售商品或月良務(wù)的廣告商網(wǎng)站上的網(wǎng)頁(yè)。
在互聯(lián)網(wǎng)廣告的另 一 實(shí)例中,在發(fā)行人網(wǎng)頁(yè)上在相關(guān)鏈接或類 似部分(section)中顯示實(shí)際的匹配關(guān)鍵字。與上述實(shí)例類似,網(wǎng) 頁(yè)的內(nèi)容與一個(gè)或多個(gè)關(guān)4建字相匹配,之后該關(guān)4建字凈皮顯示在例如 相關(guān)鏈接部分中。當(dāng)用戶點(diǎn)擊特定的關(guān)鍵字時(shí),可以將用戶引導(dǎo)至 可能包括廣告和常規(guī)搜索結(jié)果的混合的搜索結(jié)果頁(yè)面。廣告商投標(biāo) 關(guān)鍵字,以使他們的廣告出現(xiàn)在這樣的該關(guān)鍵字搜索結(jié)果頁(yè)面上。 用戶可以才喿作鼠標(biāo)或另外的輸入設(shè)備并"點(diǎn)擊"廣告,以觀看才是供 ;降售商品和月良務(wù)的廣告商網(wǎng)站上的網(wǎng)頁(yè)。
廣告商希望網(wǎng)頁(yè)的內(nèi)容與廣告密切相關(guān),因?yàn)槿绻搹V告與用 戶在網(wǎng)頁(yè)上所閱讀的內(nèi)容高度相關(guān),則閱讀該網(wǎng)頁(yè)的用戶更有可能 點(diǎn)擊該廣告并購(gòu)買(mǎi)所提供的商品或服務(wù)。網(wǎng)頁(yè)的發(fā)行人也希望廣告 的內(nèi)容與網(wǎng)頁(yè)的內(nèi)容相匹配,因?yàn)槿绻脩酎c(diǎn)擊了廣告,發(fā)行人通 常會(huì)獲得才艮酬;而就每文感內(nèi)容而言,不匹配是廣告商或是發(fā)行人都 不希望的。
文檔(例如網(wǎng)頁(yè))可以包括多個(gè)區(qū),諸如,就網(wǎng)頁(yè)而言的框架 (frame)。 一些區(qū)可以與文檔的主要內(nèi)容不相關(guān)。因此,不相關(guān)區(qū)
的內(nèi)容可能用不相關(guān)的主題淡化整個(gè)文檔的內(nèi)容。因此,為了使文 檔與內(nèi)容相匹配,在確定源文檔的含義時(shí),需要分片斤最相關(guān)區(qū)的源
文檔。
發(fā)明內(nèi)容
本發(fā)明的實(shí)施例包括確定文檔的含義以使文檔與內(nèi)容相匹配 的系統(tǒng)和方法。本發(fā)明實(shí)施例的一個(gè)方面包括訪問(wèn)源文章(source article,源物、源文件);識(shí)別源文章中的多個(gè)區(qū);確定與每個(gè)區(qū)相
7關(guān)耳關(guān)的至少一個(gè)局部和X念(local concept);分析每個(gè)區(qū)的局部相無(wú)念, 以識(shí)別任何不相關(guān)區(qū);刪除與不相關(guān)區(qū)相關(guān)聯(lián)的局部概念,以確定 相關(guān)概念;分析相關(guān)概念,以確定源文章的源含義;以及使源含義 和與來(lái)自一組條目的條目相關(guān)耳關(guān)的條目含義相匹配。該條目可以本 身是內(nèi)容,或可以與內(nèi)容相關(guān)聯(lián)。在一個(gè)實(shí)施例中,本發(fā)明進(jìn)一步 包括在源文章上顯示匹配的條目。在另一實(shí)施例中,本發(fā)明進(jìn)一步 包括在源文章上顯示與該條目相關(guān)聯(lián)的內(nèi)容。本發(fā)明的其它方面是 指具有與前述的方面相關(guān)的特征的計(jì)算才幾系統(tǒng)和計(jì)算才幾可讀介質(zhì)。
參照附圖閱讀以下具體實(shí)施方式
,可以更好地理解本發(fā)明的這 些和其它特4正、方面、以及伊0點(diǎn),附圖中
圖l示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的系統(tǒng)的框圖2示出了才艮據(jù)本發(fā)明的一個(gè)實(shí)施例的方法的流程圖;以及
圖3示出了圖2所示的方法的子程序的流程圖。
具體實(shí)施例方式
本發(fā)明包括用于確定文檔的含義以-使文檔與內(nèi)容相匹配的方 法和系統(tǒng)。下面將詳細(xì)參照文中和附圖中所示的本發(fā)明的典型實(shí)施 例。將在所有附圖和以下i兌明中4吏用相同的附圖標(biāo)號(hào)表示相同或類 似的部分。
可以根據(jù)本發(fā)明構(gòu)建各種系統(tǒng)。圖l是示出了本發(fā)明的典型實(shí) 施例可以在其中操作的典型系統(tǒng)的示意圖。本發(fā)明還可以操作其它
系統(tǒng)并在其它系統(tǒng)中實(shí)^L。圖1中示出的系統(tǒng)100包括多客戶機(jī)裝置102a-n,服務(wù)器裝置 104、 140和網(wǎng)絡(luò)106。示出的網(wǎng)絡(luò)106包括互耳關(guān)網(wǎng)。在其他的實(shí)施 例中,可以使用其他的網(wǎng)絡(luò),例如內(nèi)聯(lián)網(wǎng)。而且,根據(jù)本發(fā)明的方 法可在單個(gè)計(jì)算機(jī)上運(yùn)行。示出的客戶機(jī)裝置102a-n每個(gè)均包括計(jì) 算機(jī)可讀介質(zhì),例如在示出的實(shí)施例中被耦合到處理器110的隨機(jī) 存儲(chǔ)器(RAM) 108。處理器IIO執(zhí)行存儲(chǔ)在存儲(chǔ)器108中的計(jì)算 機(jī)可執(zhí)行的程序指令集。這種處理器可包括樣i處理器、ASIC、和狀 態(tài)機(jī)。這種處理器包括或可以與介質(zhì)(例如計(jì)算機(jī)可讀介質(zhì))進(jìn)行 通信,該介質(zhì)存儲(chǔ)指令,當(dāng)指令被計(jì)算機(jī)執(zhí)行時(shí),使處理器執(zhí)行本 文所描述的步驟。計(jì)算機(jī)可讀介質(zhì)的實(shí)施例包括,但是不限于此, 電子的、光的、磁的、或其他存儲(chǔ)器或能夠?qū)⒂?jì)算機(jī)可讀指令提供 給處理器(例如與觸摸敏感的輸入裝置聯(lián)系的處理器)的傳輸裝置。 其他合適的介質(zhì)包括,但是不限于此,軟盤(pán),CD-ROM,》茲盤(pán),存 儲(chǔ)器片,ROM, RAM, ASIC,配置的處理器(configured processor ), 所有光介質(zhì),所有^茲帶、或其他^茲介質(zhì),或計(jì)算一幾處理器能從其讀 耳又指令的任何其他的介質(zhì)。并且,各種其他形式的計(jì)算才幾可讀介質(zhì) 可傳輸或運(yùn)送指令到計(jì)算機(jī),包括路由器,專用或公共網(wǎng)絡(luò),或其 他傳輸裝置或通道,既有有線的又有無(wú)線的。這些指令可包括由任 《可計(jì)算才幾編考呈i吾言(例如,包4舌C、 C++、 C#、 Visual Basic、 Java、 和JavaScript)編寫(xiě)的4氣碼。
客戶才幾裝置102a-n也可以包括許多外部或內(nèi)部裝置,例如鼠 標(biāo)、CD-ROM、鍵盤(pán)、顯示器、或其他輸入或輸出裝置。客戶機(jī)裝 置102a-n的實(shí)例是個(gè)人計(jì)算機(jī)、數(shù)字助理、個(gè)人數(shù)字助理、便攜式 電話、移動(dòng)電話、智能電話、尋呼機(jī)、數(shù)字化板、便攜式計(jì)算機(jī)、 基于處理器的裝置、和類似類型的系統(tǒng)和裝置。 一般而言,客戶機(jī) 裝置102a-n可以是任何類型的連接到網(wǎng)絡(luò)106的基于處理器的平 臺(tái),并且其和一個(gè)或多個(gè)應(yīng)用程序交互。示出的客戶機(jī)裝置102a-n 包括執(zhí)行瀏覽器應(yīng)用程序(例如,微軟公司6.0版本的InternetExplorerTM,網(wǎng)景通ifU^司的7.1版本的Netscape NavigatorTM,以及 蘋(píng)果公司1.0版本的Safari )的個(gè)人計(jì)算機(jī)。通過(guò)客戶機(jī)裝置 102a-n,用戶112a-n能夠通過(guò)網(wǎng)絡(luò)106 ;f皮此通信以及與耦合到網(wǎng)絡(luò) 106的其j也系統(tǒng)和裝置ii/f言。
如圖l所示,月良務(wù)器裝置104、 140也^皮耦合到網(wǎng)絡(luò)106。示出 的文檔服務(wù)器裝置104包括執(zhí)行文檔引擎應(yīng)用程序的服務(wù)器。示出 的內(nèi)容服務(wù)器裝置140包括執(zhí)行內(nèi)容引擎應(yīng)用程序的服務(wù)器。系統(tǒng) 100也可以包括多個(gè)其他的月良務(wù)器裝置。類似于客戶才幾裝置102a-n, 每個(gè)示出的服務(wù)器裝置104、 140包括耦合到計(jì)算機(jī)可讀存儲(chǔ)器118、 144的處理器116、 142。每個(gè)月良務(wù)器裝置104、 140 ^皮描述為單一 的計(jì)算機(jī)系統(tǒng),但是其可以被實(shí)現(xiàn)為計(jì)算機(jī)處理器的網(wǎng)絡(luò)。服務(wù)器 裝置104、 140的實(shí)例是服務(wù)器、大型計(jì)算機(jī)、網(wǎng)絡(luò)計(jì)算機(jī)、基于 處理器的裝置、和類似類型的系統(tǒng)和裝置??蛻魴C(jī)處理器110和服 務(wù)器處理器116、 142可以是許多公知的計(jì)算4幾處理器中的任意一 種,侈'H口來(lái)自Santa Clara, California的Intel公司禾口 Schaumbug, Illinois的Motorola 7>司的處J里器。
文檔服務(wù)器裝置104的存儲(chǔ)器118包含文檔引擎應(yīng)用程序,也 即通常所-說(shuō)的文檔引擎124。文檔引擎124確定源文章的含義,并 將源文章和條目匹配,例如,另一個(gè)文章或知識(shí)條目。條目可以是 內(nèi)容本身或可以和內(nèi)容相關(guān)Jf關(guān)??梢?人連4妄到網(wǎng)絡(luò)106的其他的裝 置才企索源文章。文章(article,文件、物)包括文檔,例如,各種 格式的網(wǎng)頁(yè),例如HTML、 XML、 XHTML、可移才直文檔才各式(PDF ) 文件,以及文字處理器、數(shù)據(jù)庫(kù)、和應(yīng)用程序文檔文件、或網(wǎng)絡(luò)(例 如互聯(lián)網(wǎng))、個(gè)人電腦、或其他計(jì)算或存儲(chǔ)裝置上可提供的音頻、 -現(xiàn)頻、或任意類型的任意其他信息。此處描述的實(shí)施例通常與文檔 有關(guān),但是實(shí)施例可以在任意類型的文章上操作。知識(shí)條目是能夠 通過(guò)符號(hào)表示的任^可物理的和非物理的東西,可以是,例如,關(guān)鍵: 字、節(jié)點(diǎn)、目錄、人、纟既念、產(chǎn)品、短i吾、文檔、和其他知識(shí)單位。知識(shí)條目可采取任何形式,例如,單字、術(shù)語(yǔ)、短語(yǔ)、文檔、或一 些其他結(jié)構(gòu)化的和非結(jié)構(gòu)化的信息。在此描述的實(shí)施例通常與關(guān)4建 字有關(guān),^旦是實(shí)施例可以在任何類型的知識(shí)條目上才喿作。
示出的文檔引擎124包;^舌預(yù)處理器134、含義處理器136、和 匹配處理器137。在示出的實(shí)施例中,每個(gè)均包括駐留在存儲(chǔ)器118 中的計(jì)算機(jī)代碼。文檔引擎124接收放置于源文檔上的內(nèi)容的請(qǐng)求。 此請(qǐng)求可以從連接到網(wǎng)絡(luò)106的裝置接收。內(nèi)容可包括文檔,例如 網(wǎng)頁(yè)和廣告,以及知識(shí)條目,例如關(guān)鍵字。預(yù)處理器134接收源文 檔并分析源文檔,以確定文檔中包含的概念和文檔中的區(qū)。概念可 以用和其相關(guān)的簇,或字集或術(shù)語(yǔ)來(lái)定義,例如,其中字或術(shù)語(yǔ)可
以是同義詞。概念也可以用各種其他信息來(lái)定義,例如,相關(guān)概念 的關(guān)系、相關(guān)概念的關(guān)系強(qiáng)度、詞類、 一般用法、使用頻率、概念 寬度、和其他關(guān)于相無(wú)念在語(yǔ)言中的用法的統(tǒng)計(jì)。含義處理器136分 析積克念和區(qū),以消除與源文檔的主4既念無(wú)關(guān)的區(qū)。然后含義處理器 136從剩下的區(qū)中確定源文檔的源含義。匹配處理器137將源文檔 的源含義和來(lái)自一組條目的條目的含義相匹配。
內(nèi)容服務(wù)器裝置140的存儲(chǔ)器144包括內(nèi)容引擎應(yīng)用程序,即 所說(shuō)的內(nèi)容引擎146。在示出的實(shí)施例中,內(nèi)容引擎包括駐留于存 儲(chǔ)器144中的計(jì)算機(jī)代碼。內(nèi)容引擎146接收來(lái)自文檔服務(wù)器裝置 104的匹配條目,并將該條目或與該條目相關(guān)的內(nèi)容放置在源文檔 中。在一個(gè)實(shí)施例中,內(nèi)容引擎146接收來(lái)自匹配引擎137的匹配 關(guān)鍵字,并使文檔(例如廣告)和其相關(guān)聯(lián)。然后將廣告發(fā)送到請(qǐng) 求者的網(wǎng)站,并i文置在源文檔(例如網(wǎng)頁(yè)上的4匡架)中。
文檔服務(wù)器裝置104也提供對(duì)在此實(shí)例中示出的含義數(shù)據(jù)庫(kù) 120中的其他存儲(chǔ)元件(例如含義存儲(chǔ)元件)的訪問(wèn)。含義數(shù)據(jù)庫(kù) 可用于存儲(chǔ)與源文檔相關(guān)的含義。內(nèi)容服務(wù)器裝置140也提供對(duì)在 實(shí)施例中示出的內(nèi)容數(shù)據(jù)庫(kù)148中的其他存儲(chǔ)元件(例如內(nèi)容存儲(chǔ)元件)的訪問(wèn)。內(nèi)容數(shù)據(jù)庫(kù)可用于存儲(chǔ)條目以及與條目相關(guān)的內(nèi)容, 例如關(guān)4建字和相關(guān)的廣告。^t據(jù)存儲(chǔ)元件可包括任何一種存儲(chǔ)數(shù)據(jù) 的方法或多種方法的組合,包括但不限于陣列,哈希表,列表以及
對(duì)(pair)。其他的類似類型的數(shù)據(jù)存儲(chǔ)裝置可被服務(wù)器裝置104和 140訪問(wèn)。
應(yīng)該指出,本發(fā)明可包括具有與圖1中示出的結(jié)構(gòu)不同的結(jié)構(gòu) 的系統(tǒng)。例如,在才艮據(jù)本發(fā)明的一些系統(tǒng)中,預(yù)處理器134和含義 處理器136可以不是文檔引擎124的一部分,并可以脫4/l4丸4亍它們 的操作。在一個(gè)實(shí)施例中,當(dāng)文檔引擎爬行文檔(例如網(wǎng)頁(yè))時(shí), 文檔的含義4皮周期性地確定。在另一個(gè)實(shí)施例中,當(dāng)4妄收到對(duì);故置 在文檔中的內(nèi)容的請(qǐng)求時(shí),文檔的含義被確定。圖l中示出的系統(tǒng) IOO只是典型的,并用于解釋在圖2-3中示出的典型方法。
在圖1示出的典型實(shí)施例中,用戶112a能訪問(wèn)連接到網(wǎng)絡(luò)106 的裝置上的文檔,例如網(wǎng)站上的網(wǎng)頁(yè)。例如,用戶112a可在新聞 網(wǎng)站上訪問(wèn)包含關(guān)于在Washington飛蠅釣(fly fishing )鮭魚(yú)的故事 的網(wǎng)頁(yè)。在此實(shí)例中,網(wǎng)頁(yè)包含四個(gè)區(qū)標(biāo)題部分,包含故事的標(biāo) 題、作者、和故事的一句話概要;主要故事部分,包含故事的正文 和圖片;涉及賣(mài)汽車的橫幅廣告;以及鏈接部分,包含到該網(wǎng)站上 其他網(wǎng)頁(yè)(例如國(guó)家新聞、天氣、和體育)的鏈4妄。新聞網(wǎng)站的所 有者可能想要出售源網(wǎng)頁(yè)上的廣告空間,乂人而經(jīng)由網(wǎng)纟各106向文檔 服務(wù)器104發(fā)送^f吏一個(gè)條目(例如廣告)顯示在網(wǎng)頁(yè)上的請(qǐng)求。
為了將源網(wǎng)頁(yè)和條目相匹配,首先確定源網(wǎng)頁(yè)的含義。文檔引 擎124i^問(wèn)源網(wǎng)頁(yè),并可以4妄收該網(wǎng)頁(yè)。網(wǎng)頁(yè)的源含義可能先前已 經(jīng)-敗確定了 ,并且可被存儲(chǔ)在含義數(shù)據(jù)庫(kù)120中。如果源含義先前 已經(jīng)-故確定了,那么文檔引擎124沖企索源含義。如果網(wǎng)頁(yè)的源含義還沒(méi)有凈皮確定,則予貞處理器134首先識(shí)別網(wǎng) 頁(yè)中包含的概念和網(wǎng)頁(yè)中包含的區(qū)。例如,預(yù)處理器可以確定網(wǎng)頁(yè) 具有四個(gè)區(qū),對(duì)應(yīng)于標(biāo)題區(qū)、故事區(qū)、 一黃幅廣告區(qū)、和《連^接區(qū),并 且網(wǎng)頁(yè)包含關(guān)于鮭魚(yú)、飛蟲(chóng)€釣、Washington,汽車、新聞、天氣、 和體育的概念。這些區(qū)不必對(duì)應(yīng)于網(wǎng)頁(yè)上的框架。含義引擎然后確 定每個(gè)區(qū)的局部扭克念,并4非列所有局部扭無(wú)念??蓱?yīng)用多種加4又系教: 排列這些概念,例如,區(qū)的重要性、概念的重要性、概念的頻率、 出現(xiàn)該概念的區(qū)的數(shù)量、以及概念的寬度。
含義引擎136然后識(shí)別與大部分相克念無(wú)關(guān)的區(qū),并刪除和它們 相關(guān)的局部概念。在此實(shí)例中,橫幅區(qū)和鏈接區(qū)不包含和故事特別 地相關(guān)的概念,從而,涉及這些區(qū)的概念被刪除。然后含義引擎基 于余下的概念確定源。含義可以是加權(quán)的概念的向量。例如,含義 可以是鮭魚(yú)(40% ),飛蟲(chóng)€釣(40% ),以及Washington (20% )。
通過(guò)匹配處理器137可以將該含義匹配到條目。條目可包括, 文檔,例如網(wǎng)頁(yè)和廣告,以及知識(shí)條目,例如關(guān)4定字,并且能夠,人 內(nèi)容服務(wù)器裝置140接收到。條目可以存儲(chǔ)在內(nèi)容數(shù)據(jù)庫(kù)148中。 例如,如果條目是關(guān)鍵字,例如,飛蠅釣、背包、CD、和旅行,則 匹配引擎將源含義和與關(guān)鍵字相關(guān)的含義進(jìn)行比較,以確定匹配。 可以l吏用偏離因子(biasing factor ),例如和每個(gè)關(guān)4建字相關(guān)的每次 點(diǎn)擊數(shù)據(jù)的成本。例如,如果關(guān)鍵字飛蠅釣的含義是一個(gè)比關(guān)鍵字 旅行的含義更接近的匹配,但是當(dāng)前已經(jīng)購(gòu)買(mǎi)了關(guān)鍵字旅行的廣告 商具有較高的每次點(diǎn)擊率成本,含義引擎可以將源含義和關(guān)^t字旅 行匹配。內(nèi)容過(guò)濾器也能用于過(guò)濾出成人內(nèi)容或敏感內(nèi)容。
匹配的關(guān)4建字可以由內(nèi)容月良務(wù)器裝置14(U妻收。內(nèi)容引擎146
將廣告和匹配的關(guān)4建字關(guān)耳關(guān),并將廣告顯示在源網(wǎng)頁(yè)上。例如,如 果旅行這個(gè)關(guān)鍵字被匹配了 ,則內(nèi)容引擎將在包含關(guān)于在 Washington飛蠅釣鮭魚(yú)故事的源網(wǎng)頁(yè)上顯示和關(guān)鍵字旅行相關(guān)的廣
13告。如果用戶112a將其輸入裝置指向廣告并點(diǎn)擊它,則用戶可被 引導(dǎo)到與該廣告相關(guān)的網(wǎng)頁(yè)。
才艮據(jù)本發(fā)明可以#1行各種方法。才艮據(jù)本發(fā)明 一個(gè)典型方法包括 it問(wèn)源文章;在源文章中識(shí)別多個(gè)區(qū);確定和每個(gè)區(qū)相關(guān)的至少一 個(gè)局部概念;分析每個(gè)區(qū)的局部概念以識(shí)別任何無(wú)關(guān)區(qū);刪除和任 何無(wú)關(guān)區(qū)相關(guān)的局部概念以確定相關(guān)概念;分析相關(guān)概念以確定用 于該源文章的源含義;以及將源含義和條目含義匹配,該條目含義 與來(lái)自一組條目的條目相關(guān)??梢允褂闷x因子以將源含義和條目 含義匹配。源含義可以是加權(quán)的概念的向量。
在一些實(shí)施例中,該方法還包括在源文章上顯示匹配的條目。 在這些實(shí)施例中,源文章可以是網(wǎng)頁(yè),并且匹配的條目可以是關(guān)鍵 字。可選地,源文章可以是網(wǎng)頁(yè),并且匹配的條目可以是廣告。
在一些實(shí)施例中,該方法還包括在源文章上顯示和匹配條目相 關(guān)的內(nèi)容。在這些實(shí)施例中,源文章可以是網(wǎng)頁(yè),匹配的條目可以 是關(guān)鍵字,并且相關(guān)的內(nèi)容可以是廣告。此外,源文章可以是第一 網(wǎng)頁(yè),匹配的條目可以是第二網(wǎng)頁(yè),以及相關(guān)的內(nèi)容可以是廣告。 可選地,源文章可以是第一網(wǎng)頁(yè),匹配的條目可以是第二網(wǎng)頁(yè),以 及相關(guān)的內(nèi)容可以是到第二網(wǎng)頁(yè)的鏈接。
在一些實(shí)施例中,確定至少一個(gè)局部扭無(wú)念涉及為每個(gè)區(qū)中的每 個(gè)局部概念確定分?jǐn)?shù)。在每個(gè)區(qū)中具有最高分?jǐn)?shù)的局部概念是最相 關(guān)的局部扭X念。此外,識(shí)別無(wú)關(guān)區(qū)涉及首先確定每個(gè)局部扭X念的》f 正分?jǐn)?shù)。接下來(lái),基于修正分?jǐn)?shù),確定包含所有局部概念的經(jīng)排列 的全局列表。刪除合并修正分?jǐn)?shù)對(duì)全局列表的貢獻(xiàn)小于 總分?jǐn)?shù)的預(yù) 定量的局部概念,以產(chǎn)生結(jié)果列表。然后,確定在結(jié)果列表中具有 最不相關(guān)局部概念的無(wú)關(guān)區(qū)。然后從結(jié)果列表中刪除和無(wú)關(guān)區(qū)相關(guān)的局部概念,以生成相關(guān)概念的列表。而且,通過(guò)歸一化用于相關(guān) 概念的修正分?jǐn)?shù)來(lái)確定源含義。
才艮據(jù)本發(fā)明另一個(gè)典型方法,包括訪問(wèn)源文章;在源文章中識(shí) 別至少第一內(nèi)容區(qū)和第二內(nèi)容區(qū);確定與第一內(nèi)容區(qū)相關(guān)的至少第 一局部概念,以及確定與第二內(nèi)容區(qū)相關(guān)的至少第二局部概念;至 少部分地基于第一局部概念,將第一內(nèi)容區(qū)和來(lái)自一組條目的第一 條目匹配;以及至少部分地基于第二局部概念,將第二內(nèi)容區(qū)和來(lái) 自一《且條目的第二條目匹配。
圖2到圖3詳細(xì)地示出了根據(jù)本發(fā)明的典型方法200。因?yàn)橛?多種執(zhí)行根據(jù)本發(fā)明的方法的方式,這里以實(shí)例的方式提供了典型 方法。圖2中示出的方法200可以由各種不同的系統(tǒng)執(zhí)行,或者實(shí) 現(xiàn)。下面通過(guò)實(shí)例描述由圖1所示的系統(tǒng)100執(zhí)行的方法200,并 在解釋圖2到圖3的實(shí)例方法時(shí)參考系統(tǒng)100的各元件。示出的方 法200提供了源文檔含義的確定,以將源文檔和條目匹配。
圖2和圖3中所示的每個(gè)塊表示在典型方法200中才丸4亍的一個(gè) 或多個(gè)步一驟。參照?qǐng)D2,在塊202中,實(shí)例方法200開(kāi)始。塊202 之后是塊204,在該塊中文檔被訪問(wèn)。例如文檔可以被在網(wǎng)絡(luò)1〇6 或其^也源上的裝置訪問(wèn)和4妄收。
塊204之后是塊206,在該塊中確定源文檔的含義。在示出的 實(shí)施例中,通過(guò)將文檔分區(qū),刪除無(wú)用的區(qū),和分析文檔剩余區(qū)中 包含的概念,來(lái)確定源文檔的含義。例如,在示出的實(shí)施例中,預(yù) 處理器134最初確定源文檔中包含的概念,并且確定文檔中的區(qū)。 含義處理器136排列概念,并除去與大部分概念無(wú)關(guān)的區(qū)以及相關(guān) 的概念。從剩余的概念中,含義處理器136確定文檔的源含義。圖3示出了用于4丸行圖2中所示的方法200的子程序206。子 程序206提供了接收的源文檔的含義。子程序的一個(gè)實(shí)例如下。
子禾呈序在塊300處開(kāi)始。在塊300處,源文檔^皮預(yù)處理以確定 文檔中包含的概念。這可以通過(guò)自然語(yǔ)言和文本處理以將文檔解釋 成文字,然后將文字和概念對(duì)應(yīng)(align)來(lái)實(shí)現(xiàn)。在一個(gè)實(shí)施例中, 例如,首先通過(guò)自然i吾言和文本處理確定^f應(yīng)于文字的標(biāo)H然后 將這些標(biāo)記和互連含義的語(yǔ)義網(wǎng)絡(luò)中包含的標(biāo)記匹配。乂人匹配的標(biāo) 記,然后從語(yǔ)義網(wǎng)絡(luò)中確定術(shù)語(yǔ)。然后用于確定的術(shù)語(yǔ)的概念被指 定,并給出與術(shù)語(yǔ)相關(guān)的可能性。
塊300之后是塊302,在該塊中識(shí)別文檔的區(qū)。例如,基于特 定的搜索法(heuristics),包括4各式化信息,可以確定文檔的區(qū)。例 如,對(duì)于一個(gè)源文檔,其是一個(gè)包括HTML標(biāo)簽的網(wǎng)頁(yè),這些標(biāo)簽 可用于幫助識(shí)別區(qū)。例如,在〈title、…々title〉標(biāo)簽內(nèi)的文本能夠一皮 標(biāo)記為標(biāo)題區(qū)的文本。在其中超過(guò)70 %的文本是在標(biāo)簽〈a、.. .</a〉 內(nèi)的,殳落內(nèi)的文本可標(biāo)記為在鏈接區(qū)。文本的結(jié)構(gòu)也能夠用于幫助 識(shí)別區(qū)。例如,短,殳落中的文本或表中的欄,沒(méi)有句子結(jié)構(gòu),例如, 沒(méi)有動(dòng)詞、才及少的字、或沒(méi)有標(biāo)點(diǎn)結(jié)束句子,可標(biāo)i己為處于列表區(qū) 中。具有動(dòng)詞和才示點(diǎn)的長(zhǎng)句子中的文本,可才示i己為部分文本區(qū)。當(dāng) 區(qū)類型改變時(shí),可/人標(biāo)i己有新類型的文本開(kāi)始創(chuàng)建新區(qū)。在一個(gè)實(shí) 施例中,如果文本區(qū)獲得超過(guò)20%的文檔,則可將其分成較小塊。
塊302之后是塊304,在該框中確定每個(gè)區(qū)的最相關(guān)概念。在 示出的實(shí)施例中,含義處理器136處理為每個(gè)區(qū)識(shí)別的概念,以為 每個(gè)區(qū)提出較小的一組局部概念。概念間的關(guān)系,區(qū)內(nèi)概念出現(xiàn)的 頻率、和;f既念的寬度能夠用于局部概念的確定。
在一個(gè)實(shí)施例中,對(duì)于每個(gè)區(qū),將每個(gè)概念放在列表中。通過(guò) 使用多種因子為每個(gè)概念確定分?jǐn)?shù),來(lái)將概念排列在列表中。例如,如果第一概念具有與其他概念的4艮強(qiáng)的:i關(guān)系,這可以用于^是高第一 概念及其相關(guān)的概念的分?jǐn)?shù)。通過(guò)第 一概念出現(xiàn)的頻率和第 一概念 的焦點(diǎn)(或?qū)挾?調(diào)節(jié)這種效果,以減小非常普遍的概念和含義較 廣的概念。可濾除頻率在一定閾值之上的概念。概念的可察覺(jué)重要 性也可以影響概念的分?jǐn)?shù)。例如通過(guò)引起包含概念的字是否被用粗 體標(biāo)記,可以在處理過(guò)程中較早地確定概念的重要性。在將每個(gè)區(qū) 的沖既念排列后,除去最不相關(guān)的纟既念。這可以通過(guò)選4奪一組最高級(jí) 別的概念或除去級(jí)別分?jǐn)?shù)低于 一 定分?jǐn)?shù)的概念來(lái)實(shí)現(xiàn)。
塊304之后是塊306,在該塊中,合并和分析每個(gè)區(qū)的所有局 部和無(wú)念。在示出的實(shí)施例中,含義處理器136^妄4欠每個(gè)區(qū)的所有局 部概念,并且,通過(guò)例如每個(gè)局部概念的分?jǐn)?shù)創(chuàng)建所有局部概念的 經(jīng)排列的全局列表。偏離因子(例如每個(gè)區(qū)的重要性)可用于確定 分?jǐn)?shù)。每個(gè)區(qū)的重要性可以通過(guò)區(qū)的類型和區(qū)的大小來(lái)確定。例如, 標(biāo)題區(qū)可被認(rèn)為比鏈接區(qū)更重要,且出現(xiàn)在標(biāo)題區(qū)的概念比出現(xiàn)在 鏈接區(qū)的概念能夠被給予更多的加權(quán)。可以對(duì)出現(xiàn)在多于一個(gè)區(qū)的 概念給予額外的加權(quán)。例如,概念的副本可合并,并且它們的分?jǐn)?shù) 可加在一起。該全局列表然后纟皮分類,例如,可刪除貢獻(xiàn)少于總分 數(shù)的20 %的末位(trailing )概念,以生成局部概念的結(jié)果全局列表。
塊306之后是塊308,在該框中,其刪除主要概念與無(wú)關(guān)概念 無(wú)關(guān)的區(qū)。在示出的實(shí)施例中,含義處理器136確定無(wú)關(guān)區(qū)、包含 與大部分概念無(wú)關(guān)的概念的區(qū),并將它們刪除。應(yīng)該理解"相關(guān)的" 和"無(wú)關(guān)的"不需要用絕對(duì)的標(biāo)準(zhǔn)確定。"相關(guān)的"是相對(duì)較高的關(guān) 系度和/或預(yù)定的關(guān)系度的指示。"無(wú)關(guān)的"是相對(duì)較低的關(guān)系度和/ 或預(yù)定的關(guān)系度的指示。通過(guò)刪除無(wú)關(guān)區(qū),相關(guān)的無(wú)關(guān)相克念4皮刪除。 例如,如果源文檔是由各種框架做成的網(wǎng)頁(yè), 一些框架涉及廣告或 到網(wǎng)站上其他網(wǎng)頁(yè)的鏈接,從而,將與網(wǎng)頁(yè)的主要含義無(wú)關(guān)。在一個(gè)實(shí)施例中,例如,塊306中確定的結(jié)果全局列表可以是 文檔含義的近似值,并且可以用于去除與文檔含義不相關(guān)的區(qū)。對(duì) 于每個(gè)區(qū),含義處理器136能確定用于該區(qū)的最有^表性的局部扭克 念是否沒(méi)有存在于結(jié)果全局列表中。如果用于區(qū)的最有代表性的局 部才既念不在結(jié)果全局列表中,則該區(qū)可標(biāo)記為不相關(guān)。例如,用于 區(qū)的最有代表性的局部概念可以是如塊304中所確定的該區(qū)的具有 最高分?jǐn)?shù)的概念。
:夾308之后是塊310,在該塊中,確定源文檔的含義。在示出 的實(shí)施例中,含義處理器136重新計(jì)算沒(méi)有刪除的區(qū)的局部概念的 代表性,以創(chuàng)建概念的相關(guān)列表。在相關(guān)列表中的局部概念可以被 精選出固定數(shù)量的概念以提供含義列表,然后歸一化以提供源含 義。例如,可以只使用相關(guān)區(qū)中包含的概念來(lái)創(chuàng)建含義列表,并且 從新的列表中除去除了 25個(gè)最高得分以外的所有概念。最高得分 概念的分?jǐn)?shù)可以被歸一化以提供源含義。在此實(shí)例中,源含義可以 是相關(guān)扭A念的加權(quán)向量。
再來(lái)參照?qǐng)D2,塊206之后是塊208,在該塊中接收一組條目。 例如,可以通過(guò)匹配處理器137從內(nèi)容服務(wù)器裝置140接收條目。 條目可以包括知識(shí)條目,例如,關(guān)鍵字,和文檔,例如,廣告和網(wǎng) 頁(yè)。接收的每個(gè)條目可以具有一個(gè)和其相關(guān)的含義。對(duì)于關(guān)鍵字含 義,例如,可以通過(guò)使用和關(guān)鍵字相關(guān)的信息來(lái)確定,如在相關(guān)的 美國(guó)專利申請(qǐng)序列號(hào)為10/690,328 (律師巻號(hào)No. 53051/288072 ), 標(biāo)題為 "Methods and Systems for Understanding a Meaning of a Knowledge Item Using Information Associated with the Knowledge Item,,中所描述的,其被結(jié)合于此以供參考。可以以與如圖3所描述 的方式相同的方式確定文檔的含義。
塊208之后是塊210,在該塊中將源文檔和條目匹配。在匹配 過(guò)程中可以^使用偏離因子。例如,在一個(gè)實(shí)施例中,將源含義和與來(lái)自 一組關(guān)4建字的關(guān)4建字相關(guān)聯(lián)的關(guān)4建字含義匹配。匹配引擎將源 含義和關(guān)鍵字含義相比較,并使用偏離因子,例如和這些關(guān)鍵字相 關(guān)的每次點(diǎn)擊數(shù)據(jù)成本,以確定匹配。然后可將匹配的關(guān)鍵字發(fā)送
到內(nèi)容服務(wù)器裝置140。內(nèi)容引擎146可將匹配的關(guān)鍵字與其相關(guān) 的廣告匹配,并在源文檔上顯示廣告??蛇x地,內(nèi)容引擎能在源文 檔上顯示關(guān)鍵字本身。在另一個(gè)實(shí)施例中,將廣告的含義和源含義 匹配。在該實(shí)施例中,內(nèi)容引擎146可導(dǎo)致匹配的廣告顯示在源文 檔上。在另一個(gè)實(shí)施例中,將網(wǎng)頁(yè)的含義和源含義匹配。在該實(shí)施 例中,內(nèi)容引擎146能引起和網(wǎng)頁(yè)相關(guān)的廣告的顯示。塊210之后 是塊212,在該塊中,該方法結(jié)束。
在一個(gè)實(shí)施例中,在源文檔祐 沐問(wèn)后,預(yù)處理器134分沖斤源文 檔,以確定源文檔的內(nèi)容區(qū)。內(nèi)容區(qū)可以是包含大量文本的區(qū),例 如,文本區(qū)或鏈d婁區(qū),或可以是相對(duì)重要的區(qū),例如,標(biāo)題區(qū)???以通過(guò)^f吏用如上所述的4臾索法確定這些區(qū)。如上所述,預(yù)處理器134 也能識(shí)別位于每個(gè)內(nèi)容區(qū)的概念。含義處理器136可以使用這些概 念,以確定每個(gè)內(nèi)容區(qū)的含義。匹配處理器137能夠?qū)⒚總€(gè)內(nèi)容區(qū) 的含義和關(guān)鍵字匹配。內(nèi)容引擎146能將匹配的關(guān)鍵字和其相關(guān)的 廣告匹配,并在源文檔上顯示廣告。可選地,內(nèi)容引擎能在源文檔 上顯示關(guān)鍵字本身。在另一個(gè)實(shí)施例中,將廣告的含義和區(qū)含義匹 配。在該實(shí)施例中,內(nèi)容引擎146可導(dǎo)致匹配的廣告顯示在源文檔 上。在另一個(gè)實(shí)施例中,將網(wǎng)頁(yè)的含義和區(qū)的含義匹配。在該實(shí)施 例中,內(nèi)容引擎146能引起和網(wǎng)頁(yè)相關(guān)的廣告的顯示。在一個(gè)實(shí)施
例中,廣告或關(guān)^:字^皮顯示在和其匹配的內(nèi)容區(qū)中。
以上所述<又為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā) 明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。 凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn) 等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
19
權(quán)利要求
1. 一種系統(tǒng),包括客戶設(shè)備;以及一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī),被編程用于與所述客戶設(shè)備相互作用并執(zhí)行下列操作接收包含條目的源文檔;將所述源文檔中的所述條目分配給概念集合中的概念;確定所述源文檔的最典型的全局概念的集合;基于所述源文檔的格式化來(lái)識(shí)別所述源文檔的區(qū);確定表示在每個(gè)所述區(qū)中的典型的局部概念;將表示在所述每個(gè)區(qū)中的所述典型的局部概念與所述源文檔的所述最典型的全局概念相比較,以識(shí)別第一區(qū),在所述第一區(qū)中,所述典型的局部概念不在所述最典型的全局概念中;以及確定所述源文檔的源含義,其中,從所述的確定中去除所述第一區(qū)的典型的局部概念。
2. 根據(jù)權(quán)利要求1所述的系統(tǒng),其中,確定所述最典型的全局概 念包括創(chuàng)建所述概念的全局列表,所述源文檔中的條目已經(jīng)被 分配至所述概念的全局列表中。
3 才艮據(jù);〖又利要求2所述的系統(tǒng),其中,確定所述源文檔的源含義 包括挑選所述概念的全局列表;以及將保留在所述概念的全局列表上的概念規(guī)格化,以提供 源含義。
4. 根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述源含義包括相關(guān)概念 的力o沖又向量。
5. 根據(jù)權(quán)利要求1所述的系統(tǒng),其中,確定所述源文檔的最典型 的全局概念包括對(duì)不同區(qū)的概念進(jìn)行不同地評(píng)分。
6. 根據(jù)權(quán)利要求5所述的系統(tǒng),其中,為不同區(qū)的概念進(jìn)行不同 地評(píng)分包括對(duì)在文檔標(biāo)題區(qū)中表示的第二概念給以更高權(quán)重。
7. 根據(jù)權(quán)利要求5所述的系統(tǒng),其中,為不同區(qū)的概念進(jìn)4亍不同 地評(píng)分包括對(duì)出現(xiàn)在多于一個(gè)區(qū)中的第二概念給以更高權(quán)重。
8. 根據(jù)權(quán)利要求5所述的系統(tǒng),其中,為不同區(qū)的概念進(jìn)行不同 地評(píng)分包括根據(jù)表示有所述概念的區(qū)的大小來(lái)對(duì)第二概念進(jìn) 行力口權(quán)。
9. 根據(jù)權(quán)利要求1所述的系統(tǒng),其中,識(shí)別所述源文檔的區(qū)包括 才艮據(jù)所述源文檔的標(biāo)記語(yǔ)言標(biāo)簽來(lái)識(shí)別所述區(qū)。
10. 根據(jù)權(quán)利要求1所述的系統(tǒng),其中,識(shí)別所述源文檔的區(qū)包括 才艮據(jù)所述區(qū)中的文本中標(biāo)點(diǎn)的個(gè)凄t來(lái)識(shí)別所述區(qū)。
11. 根據(jù)權(quán)利要求1所述的系統(tǒng),其中,識(shí)別所述源文檔的區(qū)包括 才艮據(jù)所述區(qū)中的文本中動(dòng)詞的出現(xiàn)來(lái)識(shí)別所述區(qū)。
12. 根據(jù)權(quán)利要求1所述的系統(tǒng),其中,識(shí)別所述源文檔的區(qū)包括 當(dāng)文本占用了所述源文檔的一定百分比時(shí)將所述文本分割成 較小的部分。
13. —種系纟充,包4舌客戶i殳備;以及一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī),被編程用于與所述客戶設(shè)備 相互作用并執(zhí)行下列操作4妄4欠網(wǎng)頁(yè);識(shí)別在所述網(wǎng)頁(yè)中以及包含在所述網(wǎng)頁(yè)中的區(qū)域中 表示的局部相無(wú)念;將所述局部概念進(jìn)行排序;識(shí)別第一區(qū),所述第一區(qū)表示與所述概念的大多數(shù) 不相關(guān)的局部相無(wú)念;以及/人所述網(wǎng)頁(yè)的源含義的確定中去除所述第 一 區(qū)和在 所述第一區(qū)中表示的概念。
14. 根據(jù)權(quán)利要求13所述的系統(tǒng),其中,識(shí)別所述第一區(qū)包括識(shí) 別所述網(wǎng)頁(yè)的4醫(yī)架區(qū)。
15. 根據(jù)權(quán)利要求13所述的系統(tǒng),其中,識(shí)別所述第一區(qū)包括根 據(jù)所述第 一 區(qū)中的文本中標(biāo)點(diǎn)的個(gè)凄t來(lái)識(shí)別所述第 一 區(qū)。
16. 根據(jù)權(quán)利要求13所述的系統(tǒng),其中,識(shí)別所述第一區(qū)包括根 據(jù)所述第一區(qū)中的文本中動(dòng)詞的出現(xiàn)來(lái)識(shí)別所述第一 區(qū)。
17. 根據(jù)權(quán)利要求13所述的系統(tǒng),其中,識(shí)別所述第一區(qū)包括當(dāng) 文本占用了所述網(wǎng)頁(yè)的一定百分比時(shí)將所述文本分割成4交小 的部分。
18. 根據(jù)權(quán)利要求13所述的系統(tǒng),其中,將所述局部概念進(jìn)行排 序包括根據(jù)表示有第二局部概念的區(qū)的重要性來(lái)對(duì)所述第二 局部概念進(jìn)行加權(quán)。
19. 根據(jù)權(quán)利要求13所述的系統(tǒng),其中,將所述局部概念進(jìn)行排 序包括根據(jù)表示有第二局部概念的多個(gè)區(qū)來(lái)對(duì)所述第二局部 概念進(jìn)行加權(quán)。
20. 根據(jù)權(quán)利要求13所述的系統(tǒng),其中,將所述局部概念進(jìn)行排 序包括才艮據(jù)所述第二局部一既念的寬度來(lái)對(duì)所述第二局部扭無(wú)念 進(jìn)行力口權(quán)。
21. 根據(jù)權(quán)利要求13所述的系統(tǒng),其中,所述操作進(jìn)一步包括將 所述網(wǎng)頁(yè)的源含義與關(guān)4建字相匹配。
22. 根據(jù)權(quán)利要求13所述的系統(tǒng),其中,所述操作進(jìn)一步包括將 所述網(wǎng)頁(yè)的源含義與廣告對(duì)目匹配。
全文摘要
本發(fā)明描述了用于確定文檔的含義,以使文檔與內(nèi)容相匹配的系統(tǒng)和方法。在一個(gè)方面中,訪問(wèn)源文章;識(shí)別源文章中的多個(gè)區(qū);確定至少一個(gè)與每個(gè)區(qū)相關(guān)聯(lián)的局部概念;分析每個(gè)區(qū)的局部概念以識(shí)別任何不相關(guān)區(qū);刪除與任何不相關(guān)區(qū)相關(guān)聯(lián)的局部概念,以確定相關(guān)概念;分析相關(guān)概念以確定源文章的源含義;以及使源含義和與來(lái)自一組條目的條目相關(guān)聯(lián)的條目含義相匹配。
文檔編號(hào)G06Q10/00GK101482881SQ20091000629
公開(kāi)日2009年7月15日 申請(qǐng)日期2004年7月23日 優(yōu)先權(quán)日2003年7月30日
發(fā)明者吉拉德·伊斯雷爾·埃勒巴茲, 阿達(dá)姆·J·韋斯曼 申請(qǐng)人:Google公司