專利名稱:局部項目提取的制作方法
局部項目提取技術(shù)領(lǐng)域這里所述的實(shí)施例總體上涉及信息檢索,并且更具體地涉及與地 址相關(guān)的企業(yè)信息的識別。
背景技術(shù):
萬維網(wǎng)("web")包括大量信息。然而,定位信息的期望部分是 有難度的。該問題是多方面的,因為網(wǎng)絡(luò)上的信息量和對網(wǎng)絡(luò)搜索沒 有經(jīng)驗的新用戶數(shù)量都在快速增加。搜索引擎試圖返回指向用戶感興趣網(wǎng)頁的超鏈接。 一般而言,搜 索系統(tǒng)對用戶興趣的確定基于用戶輸入的搜索詞語(稱為搜索查詢)。 搜索系統(tǒng)的目標(biāo)是根據(jù)搜索查詢將高質(zhì)量的相關(guān)結(jié)果(例如,網(wǎng)頁) 的鏈接提供給用戶。通常,搜索系統(tǒng)通過把搜索查詢中的詞語與預(yù)存 儲網(wǎng)頁語料庫相匹配而實(shí)現(xiàn)上述目的。包含用戶搜索詞語的網(wǎng)頁被"命 中"并作為鏈接返回給用戶。局部搜索系統(tǒng)試圖返回特定地理區(qū)域內(nèi)的相關(guān)網(wǎng)頁和/或企業(yè)登記 信息。當(dāng)在網(wǎng)頁上提及企業(yè)時,現(xiàn)有的局部搜索系統(tǒng)會匹配該企業(yè)與 黃頁數(shù)據(jù)以識別對應(yīng)的企業(yè)登記信息。然而,當(dāng)不存在黃頁數(shù)據(jù)或黃 頁數(shù)據(jù)對企業(yè)不準(zhǔn)確時,上面的技術(shù)不能實(shí)施。發(fā)明內(nèi)容根據(jù)一方面, 一種方法包括識別包括地址的文檔、定位文檔內(nèi)的 企業(yè)信息、并向該企業(yè)信息指定置信度得分,其中置信度得分與該企 業(yè)信息與該地址相關(guān)的概率有關(guān)。該方法也包括根據(jù)指定的置信度得 分確定是否把企業(yè)信息和地址相關(guān)聯(lián)。
根據(jù)另一方面, 一種方法包括識別包括地址的文檔、識別文檔中 地址前面的詞語集、并確定每個詞語是與地址相關(guān)的名號的一部分的 概率。該方法也包括根據(jù)具有高概率是與地址相關(guān)的名號的一部分的一個或多個詞語而識別候選名號、向候選名號指定置信度得分、并根 據(jù)指定的置信度得分確定是否把候選名號和地址相關(guān)聯(lián)。根據(jù)另一方法, 一種方法包括識別包括地址的文檔、識別文檔中 的候選電話號碼集合、確定在候選電話號碼集合中的每個候選電話號 碼與地址相關(guān)的概率、并根據(jù)確定的概率確定是否把候選電話號碼之 一和地址相關(guān)聯(lián)。根據(jù)另一方面,一種方法包括識別包括地標(biāo)(landmark)的網(wǎng)頁、識 別網(wǎng)頁中的屬性、并向?qū)傩灾付ㄖ眯哦鹊梅?,其中置信度得分涉及?性與地標(biāo)相關(guān)的概率。該方法也包括根據(jù)指定的置信度得分而確定是 否把屬性和地標(biāo)相關(guān)聯(lián)。
結(jié)合在說明書中并構(gòu)成本說明書一部分的相應(yīng)附圖用于解釋本發(fā) 明的實(shí)施例,并結(jié)合說明書解釋本發(fā)明。在圖中 圖1是包括地址的示例文檔的示意圖;圖2是其中實(shí)施符合本發(fā)明原理的系統(tǒng)和方法的網(wǎng)絡(luò)的示例性示意圖;圖3是根據(jù)符合本發(fā)明原理的實(shí)施例的圖2的客戶端或服務(wù)器的 示例性示意圖;圖4是根據(jù)符合本發(fā)明原理的實(shí)施例的訓(xùn)練系統(tǒng)的示例性示意圖;圖5是根據(jù)符合本發(fā)明原理的實(shí)施例用于訓(xùn)練統(tǒng)計模型的示例性 處理的流程圖;圖6是根據(jù)符合本發(fā)明原理的實(shí)施例的局部項提取器的示例性示
意圖;圖7是根據(jù)符合本發(fā)明原理的實(shí)施例的用于識別與地址相關(guān)聯(lián)的 企業(yè)名(名號)的示例性處理的流程圖;圖8是根據(jù)符合本發(fā)明原理的實(shí)施例的用于識別與地址相關(guān)聯(lián)的 電話號碼的示例性處理的流程圖;以及圖9-15是解釋根據(jù)符合本發(fā)明原理的實(shí)施例的對示例性文檔執(zhí)行 的示例性處理的示意圖。
具體實(shí)施方式
本發(fā)明的以下詳細(xì)說明參考相應(yīng)附圖。在不同描述中的相同附圖 標(biāo)記是指相同或相似的組件。同樣,以下詳細(xì)說明并不限制本發(fā)明。概況局部搜索涉及識別與特定地理區(qū)域相關(guān)的企業(yè)登記信息。萬維網(wǎng) 包括數(shù)十億的文檔,其中許多提及企業(yè)。識別盡可能與許多不同企業(yè) 相關(guān)的企業(yè)信息對于局部搜索系統(tǒng)是有利的。經(jīng)常,黃頁數(shù)據(jù)與企業(yè) 相關(guān)聯(lián)。然而,有時在沒有黃頁數(shù)據(jù)或黃頁數(shù)據(jù)可能不準(zhǔn)確的情況下 在文檔中提及企業(yè)。符合本發(fā)明原理的系統(tǒng)和方法識別與網(wǎng)頁文檔中提及的地址相關(guān) 的企業(yè)信息。在一個實(shí)施例中,企業(yè)信息包括與地址相關(guān)的企業(yè)名。 在另一個實(shí)施例中,企業(yè)信息包括與地址相關(guān)的電話號碼。在另一實(shí) 施例中,企業(yè)信息包括另外類型的信息,諸如企業(yè)營業(yè)時間或到與地 址相關(guān)的企業(yè)的網(wǎng)站或地圖的鏈接。圖1是包括地址的示例文檔的示意圖。如圖所示,該文檔與位于 賓夕法尼亞州oakmont的餐館Veltri's比薩餅店的評論相關(guān)聯(lián)??梢苑?析文檔,確定該文檔包括郵政地址(即,123 Allegheny Avenue, Oakmont, PA)。假設(shè)Veltri's不具有任何相關(guān)的黃頁數(shù)據(jù)或具有可能不正確的黃 頁數(shù)據(jù)。
使用這里所述的技術(shù),文檔進(jìn)一步經(jīng)過分析用于確定與地址相關(guān) 的企業(yè)信息。企業(yè)信息克包括與地址相關(guān)的企業(yè)名稱(這里也稱為名號(title))和/或電話號碼。企業(yè)信息用于產(chǎn)生或校正與地址相關(guān)的企業(yè)登記信息。如這里使用的,詞語"文檔"用于廣義的解釋為包含任何機(jī)器可 讀和機(jī)器可存儲的工作產(chǎn)品。文檔包括例如電子郵件、網(wǎng)頁、企業(yè)登 記信息、文件、文件的組合、具有到其他文件內(nèi)嵌鏈接的一個或多個 文件、新聞組帖子、博客、網(wǎng)絡(luò)廣告等。在因特網(wǎng)的范圍,常見文檔 是網(wǎng)頁。網(wǎng)頁經(jīng)常包括文本信息并包括嵌入式信息(諸如元信息、圖像、超鏈接等)和/或內(nèi)嵌指令(諸如Javascript等)。如這里使用的, 詞語"鏈接"用于廣義的解釋為包括不同文檔之間和相同文檔的不同 部分之間的任何引用。示例性網(wǎng)絡(luò)配置圖2是其中實(shí)施符合本發(fā)明原理的系統(tǒng)和方法的網(wǎng)絡(luò)的示例性示 意圖。網(wǎng)絡(luò)200包括借助于網(wǎng)絡(luò)250連接到多個服務(wù)器220-240的客戶 端210。為了簡化,兩個客戶端210和三個服務(wù)器220-240被示例為連 接到網(wǎng)絡(luò)250。實(shí)際上,能有更多或更少的客戶端和服務(wù)器。同樣,在 某些示例中,客戶端能執(zhí)行服務(wù)器的功能以及服務(wù)器能執(zhí)行客戶端的功能??蛻舳?10包括客戶端實(shí)體。實(shí)體被定義為設(shè)備,諸如無線電話、 個人計算機(jī)、個人數(shù)字助理(PDA)、膝上型電腦、或另一類型的計 算或通信設(shè)備、在這些設(shè)備之一上運(yùn)行的線程或進(jìn)程和/或由這些設(shè)備 之一執(zhí)行的對象。服務(wù)器220-240包括服務(wù)器實(shí)體,所述服務(wù)器實(shí)體根 據(jù)符合發(fā)明原理的形式收集、處理、搜索和/或維護(hù)文檔。在符合本發(fā)明原理的實(shí)施例中,服務(wù)器220包括由客戶端210使 用的搜索引擎225。服務(wù)器220能爬取文檔語料庫(例如,網(wǎng)頁文檔)、 索引文檔并在文檔庫中存儲與文檔有關(guān)的信息。服務(wù)器230和240存 儲或維護(hù)由服務(wù)器220爬取或分析的文檔。雖然服務(wù)器220-240被表示為單獨(dú)的實(shí)體, 一個或多個服務(wù)器 220-240可能執(zhí)行另一個或多個服務(wù)器220-240的一個或多個功能。例 如,可把兩個或多個服務(wù)器220-240實(shí)現(xiàn)成單個服務(wù)器。單獨(dú)一個服務(wù) 器220-240可能被實(shí)施為兩個或多個單獨(dú)(并可能是分布的)設(shè)備。網(wǎng)絡(luò)250包括局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、電話網(wǎng)、諸如 公共交換電話網(wǎng)(PSTN)、內(nèi)聯(lián)網(wǎng)、因特網(wǎng)、存儲設(shè)備或網(wǎng)絡(luò)組合。 客戶端210和服務(wù)器220-240可借助于有線、無線和/或光連接而連接 到網(wǎng)絡(luò)250。示例性客戶端/服務(wù)器結(jié)構(gòu)圖3是根據(jù)與本發(fā)明原理一致的實(shí)施例的對應(yīng)一個或多個客戶端 210和/或服務(wù)器220-240的客戶端或服務(wù)器實(shí)體(下文稱為"客戶端/ 服務(wù)器實(shí)體")的示例性示意圖??蛻舳?服務(wù)器實(shí)體包括總線310、 處理器320、主存330、只讀存儲器(ROM) 340、存儲設(shè)備350、輸 入設(shè)備360、輸出設(shè)備370、以及通信接口 380??偩€310包括允許在 客戶端/服務(wù)器實(shí)體間通信的路徑。處理器320包括常規(guī)處理器、微處理器或解釋并執(zhí)行指令的處理 邏輯。主存330包括隨機(jī)訪問存儲器(RAM)或存儲信息及指令用于 由處理器320執(zhí)行的另一類型的動態(tài)存儲設(shè)備。ROM 340包括常規(guī) ROM設(shè)備或存儲靜態(tài)信息和指令用于由處理器320使用的另一類型的 靜態(tài)存儲設(shè)備。存儲設(shè)備350包括磁的和/或光的記錄介質(zhì)及其對應(yīng)驅(qū) 動器。輸入設(shè)備360包括允許操作員向客戶端/服務(wù)器實(shí)體輸入信息的常
規(guī)機(jī)制,諸如鍵盤、鼠標(biāo)、輸入筆、語音識別和/或生物識別機(jī)制等。 輸出設(shè)備370包括向操作員輸出信息的常規(guī)機(jī)制,包括顯示器、打印機(jī)、揚(yáng)聲器等。通信接口 380包括能使客戶端/服務(wù)器實(shí)體與其他設(shè)備 和/或系統(tǒng)通信的如收發(fā)器等的裝置。例如,通信接口 380包括借助于 諸如網(wǎng)絡(luò)250的網(wǎng)絡(luò)與另一設(shè)備或系統(tǒng)通信的裝置。符合本發(fā)明原理的客戶端/服務(wù)器能執(zhí)行特定操作,這在下文將詳 細(xì)描述??蛻舳?服務(wù)器實(shí)體能響應(yīng)處理器320執(zhí)行這些操作,所述處 理器執(zhí)行在諸如存儲器330的計算機(jī)可讀介質(zhì)中包含的軟件指令。計 算機(jī)可讀介質(zhì)可被定義為物理的或邏輯的存儲設(shè)備和/或載波。借助通信接口 380從另一計算機(jī)可讀介質(zhì)(諸如數(shù)據(jù)存儲設(shè)備 350)或另一設(shè)備向存儲器330讀入軟件指令。存儲器330中包含的軟 件指令能使得處理器320執(zhí)行下面描述的指令?;蛘?,硬線電路可以 用于取代或結(jié)合軟件指令以執(zhí)行符合本發(fā)明原理的處理。因此,符合 本發(fā)明原理的實(shí)施例并不限制于硬件電路和軟件的任何特定組合。示例性訓(xùn)練系統(tǒng)圖4是根據(jù)符合本發(fā)明原理的實(shí)施例的訓(xùn)練系統(tǒng)的示例性示意 圖。在一個實(shí)施例中,訓(xùn)練系統(tǒng)400可以通過軟件和/或硬件在服務(wù)器 220 (圖2)、另一設(shè)備、或者獨(dú)立于或包括服務(wù)器220的設(shè)備組內(nèi)實(shí) 施。如圖4所示,訓(xùn)練系統(tǒng)400包括根據(jù)訓(xùn)練集產(chǎn)生統(tǒng)計模型420的 訓(xùn)練器410。在一個實(shí)施例中,能識別包括有地址的文檔集,對所述地 址存在黃頁數(shù)據(jù)。 一般,訓(xùn)練器410識別通常與文檔集中有黃頁存在 的企業(yè)信息相關(guān)聯(lián)的特征,以產(chǎn)生統(tǒng)計模型420。統(tǒng)計模型420用于預(yù) 測企業(yè)信息在文檔中的位置,所述文檔包括沒有黃頁或可能黃頁數(shù)據(jù) 不正確的地址。
圖5是根據(jù)符合本發(fā)明原理的實(shí)施例用于訓(xùn)練統(tǒng)計模型420的示例性處理的流程圖。處理開始于分析文檔語料庫以識別包括存在黃頁數(shù)據(jù)的地址的文檔(框510)。例如,克分析文檔語料庫中的文檔來確 定文檔是否包括地址。任何已知地址識別技術(shù)都能用于識別文檔中的 地址。當(dāng)文檔被識別包括地址時,對照黃頁數(shù)據(jù)分析該地址以確定該黃 頁數(shù)據(jù)是否包括匹配該地址的企業(yè)登記信息??梢詮狞S頁的企業(yè)登記信息中識別諸如企業(yè)名("名號")禾n/或電話號碼的企業(yè)信息。然后在文檔內(nèi)識別這種企業(yè)信息(框520)。例如,可分析文檔的文本以確 定任何文本是否匹配該企業(yè)信息。當(dāng)沒有文本匹配企業(yè)信息時,從訓(xùn)練集中刪除該文檔。當(dāng)文檔的 文本匹配企業(yè)信息時,在文檔內(nèi)標(biāo)記地址和企業(yè)信息(框530)并在訓(xùn) 練集中包括該文檔。任何已知標(biāo)記技術(shù)用于標(biāo)記文檔中的地址和企業(yè) 信息。在一個實(shí)施例中,在訓(xùn)練集僅包括那些企業(yè)信息出現(xiàn)在地址周 圍的文檔(例如,在預(yù)定詞語數(shù)范圍內(nèi),諸如該地址左面和/或右面的 20或60個詞語)。在另一實(shí)施例中,可以在訓(xùn)練集中包括企業(yè)信息出 現(xiàn)在文檔內(nèi)任何位置的文檔?!┙⒂?xùn)練集(其可包括數(shù)百萬文檔),可以根據(jù)訓(xùn)練集產(chǎn)生 統(tǒng)計模型(框540)。例如,當(dāng)文檔包括地址時,可分析訓(xùn)練集中的文 檔以收集關(guān)于如何識別文檔內(nèi)企業(yè)信息的特征。所述特征可與下述內(nèi) 容相關(guān)聯(lián)候選詞語離參考點(diǎn)(例如,文檔內(nèi)的地址)的距離、候選 詞語的特點(diǎn)、與候選詞語相關(guān)的邊界信息和/或與候選詞語相關(guān)的標(biāo)點(diǎn) 信息。用于確定名號的特定特征可能同用于確定電話號碼的那些特征 不同。用于確定其他類型的企業(yè)信息的特征也是不同的。涉及候選名號詞語特點(diǎn)的特征例子包括該詞語是什么詞、它是否是數(shù)字、它是否是大寫、加粗、傾斜、下劃線或居中,它是否是錨
定文本的一部分,以及它按字符的長度。涉及候選名號詞語的邊界信息的特征示例根據(jù)邊界標(biāo)記的出現(xiàn)(例如,HTML標(biāo)簽)并且可包括在候選名號詞語與前面或后面詞語之間是否存在有段落、換行、或列 表項標(biāo)記以及是否存在有涉及表格或列表的開始或結(jié)束的標(biāo)記。涉及 候選名號詞語的標(biāo)點(diǎn)信息的特征示例包括在候選名號詞語與前面或后 面詞語之間是否有逗號、句點(diǎn)、感嘆號、問號、冒號、分號、破折號、 單或雙引號、括號或空格。其他一些特征對本領(lǐng)域技術(shù)人員是顯而易 見的。涉及候選電話號碼詞語特點(diǎn)的特征示例包括該詞語是什么,它 按字符的長度是什么,以及如果電話號碼包括區(qū)域代碼該區(qū)域代碼是 否適合該地址所位于的地理區(qū)域。涉及候選電話號碼詞語的邊界信息的特征示例可基于邊界標(biāo)記(例如,HTML標(biāo)簽)的出現(xiàn)并包括是否 有段落、換行或列表項標(biāo)記以及在候選電話號碼詞語和地址之間是否 有涉及表格或列表的開始或結(jié)束的標(biāo)記。與候選電話號碼詞語相關(guān)的 某些其他特征包括常用電話號碼詞語(例如,call、 calling、 telephone、 telephoning、 phone、 phoning、 tel、 tele、 (T),等等)是否出現(xiàn)在候選 電話號碼詞語之前預(yù)定數(shù)量的詞語中,常用傳真號碼詞語(例如,fax、 faxing、(F)等等)是否出現(xiàn)在候選電話號碼詞語之前預(yù)定數(shù)量的詞語中, 在候選電話號碼詞語和地址之間是否有另一電話號碼。其他特征對本 領(lǐng)域技術(shù)人員是明顯的。根據(jù)與文檔中詞語相關(guān)的特征,可使用統(tǒng)計模型來預(yù)測該詞語是否是與文檔中地址相關(guān)的企業(yè)信息的一部分。換句話說,統(tǒng)計模型從 訓(xùn)練集中識別多個不同線索,并使用這些線索以確定名號在文檔何處 開始和結(jié)束和/或哪個電話號碼可能對應(yīng)該文檔中的地址。示例性局部項提取器圖6是根據(jù)符合本發(fā)明原理的實(shí)施例的局部項提取器600的示例 性示意圖。在一個實(shí)施例中,局部項提取器600由服務(wù)器220 (圖2)、
另一設(shè)備、或者獨(dú)立于或包括服務(wù)器220的設(shè)備組內(nèi)的軟件和/或硬件 實(shí)施。如圖6所示,局部項提取器600包括分類器610,用于根據(jù)統(tǒng)計 模型420分析帶有地址的文檔以確定與地址相關(guān)的企業(yè)信息。由分類 器610分析的文檔包括具有沒有對應(yīng)黃頁數(shù)據(jù)的地址的文檔和/或具有 可能不準(zhǔn)確黃頁數(shù)據(jù)的地址的文檔。由分類器610執(zhí)行的功能根據(jù)企 業(yè)信息是對應(yīng)于企業(yè)名(名號)信息還是對應(yīng)于電話號碼信息而不同。 當(dāng)企業(yè)信息還包括除企業(yè)名或電話號碼信息之外的其他信息時能執(zhí)行 其他功能。圖7是根據(jù)符合本發(fā)明原理的實(shí)施例的用于識別與地址相關(guān)聯(lián)的 企業(yè)名(名號)的示例性處理的流程圖。處理開始于識別包含地址的 文檔(框710)。任何已知地址識別技術(shù)都可以用于識別文檔中的地址。分析鄰近該地址的詞語并確定每個詞語是名號一部分的概率(框 720和730)。在一個實(shí)施例中,分析開始于該文檔中該地址前面直接 相鄰的詞語。換句話說,名號的搜索始于該地址,并在該文檔的文本 中向后查看。這樣做的理論基礎(chǔ)是當(dāng)名號出現(xiàn)在與地址相關(guān)的文檔中 時,它幾乎總是出現(xiàn)在文檔中的地址之前。當(dāng)分析候選詞語時,可以根據(jù)統(tǒng)計模型確定候選詞語是名號一部 分的概率,該概率給出了關(guān)于在前詞語和候選詞語周圍的給定詞語窗口 (例如,向左和向右尋找預(yù)定數(shù)量的詞語)的預(yù)測。該概率的確定 基于候選詞語和窗口中其他詞語的特征。與候選詞語相關(guān)的特征包括, 例如候選詞語和地址之間的距離、候選詞語的特點(diǎn)、候選詞語與在前 或在后詞語之間的邊界信息、和/或候選詞語與在前或在后詞語之間的 標(biāo)點(diǎn)信息。設(shè)t(i)(其值是0或1)是從地址開始往前第i個詞語是(=1)或
不是(=0)名號中的詞語的預(yù)測。設(shè)X(i)是第i個詞語、S(i)是X(i)的屬性(例如,距離和特點(diǎn))、h(i)是x(i)與在后(或在前)詞語之間的邊 界信息、以及q(i)是x(i)與在后(或在前)詞語之間的標(biāo)點(diǎn)信息。則在這種上下文的約束下,X(i)是名號一部分的概率可以表示為F(i)=Prob[t(i)給定x(i+2)x(i+l)x(i)x(i-l)x(i-2), s(i+2)s(i+l)s(i)s(i-l)s(i-2), h(i+l)h(i)h(i-l)h(i-2), q(i+輔q(i-l)q(i-2),t(i國1)〗其中x(i+2)x(i+l)x(i)x(i-l)x(i-2)是指x(i)周圍的詞語窗口 (盡管詞 語窗口被示為x(i)左邊2個和右邊2個詞語,在符合本發(fā)明原理的其他 實(shí)施例中,窗口可以更大或更小)。s(i+2)s(i+l)s(i)s(i-l)s(i-2)指窗口中 詞語的屬性,h(i+1 )h(i)h(i-1 )h(i-2)指窗口中詞語之間的邊界信息, q(i+l)q(i)q(i-l)q(i-2)指窗口中詞語之間的標(biāo)點(diǎn)信息,以及t(i-l)指關(guān)于 在x(i)前面的詞語(即,x(i-l))的預(yù)測。設(shè)X=x(n)x(n-l)...x(2)x(l),其中n指所考慮的文本串的大小(例 如,20個詞),S=s(n)s(n-l),..s(2)s(l) , H=h(n-l)...h(2)h(l), Q-q(n-l)…q(2)q(l)以及T^(n)t(n-l)…t(2)t(l)。然后根據(jù)Prob(T給定X、 S、 H、 Q)確定整個串的概率。根據(jù)條件概率的定義和類Markov假設(shè) (即,僅受局部范圍影響),串的概率可以表示為Prob(T給定X、 S、 H、 Q)=kF(n)F(n-l)...F(2)F(l) 其中k是用于該范圍的常數(shù),并且其中等式左側(cè)F(i)中的t(i)和t(i-l) 匹配等式的左側(cè)T中的對應(yīng)項。然后選擇T,使得在T中所有的1都是相鄰的約束下最大化Prob(T 給定X、 S、 H、 Q)。為此,對所有2n個T執(zhí)行窮盡搜索并對每個T 估算Prob(T給定X、 S、 H、 Q)。為了恰好獲得最佳名號,可使用公 知的單源最短路徑算法。為了獲得j個最佳名號,使用公知的j最佳算 法。
對所識別的每個候選名號可賦給置信度得分(框740)。置信度得分與名號所關(guān)聯(lián)的概率有關(guān)(例如,Prob(T給定X、 S、 H、 Q))。 可選的,從候選名號集合內(nèi)確定用于該地址的最佳名號(框750)。在 一個實(shí)施例中,用于該地址的最佳名號被識別為具有最高置信度得分 的候選名號。在另一實(shí)施例中,當(dāng)?shù)刂烦霈F(xiàn)在一組文檔中時,用于該 地址的最佳名號被識別為在整個該組文檔中具有最高置信度得分的候 選名號或出現(xiàn)在該組文檔中大多數(shù)文檔中的具有最高置信度得分的候 選名號。然后,把該名號與該地址相關(guān)聯(lián),以形成或補(bǔ)充企業(yè)登記信息。 在存儲器中把地址和它相關(guān)的名號一起存儲。圖8是根據(jù)符合本發(fā)明原理的實(shí)施例的用于識別與地址相關(guān)聯(lián)的 電話號碼的示例性處理的流程圖。處理開始于識別包含地址的文檔(框 810)。任何已知地址識別技術(shù)都用于識別文檔中的地址。識別文檔中的候選電話號碼集(框820)。在一個實(shí)施例中,文 檔中的所有電話號碼都被識別為候選電話號碼。在另一實(shí)施例中,識 別該地址的特定距離內(nèi)的電話號碼。任何已知模型匹配技術(shù)都用于識 別候選電話號碼集。根據(jù)統(tǒng)計模型,確定在給定關(guān)于在前候選電話號碼的預(yù)測并給定 該候選電話號碼周圍的詞語窗口 (例如,向左和右查看預(yù)定數(shù)量的詞 語)的條件下每個候選電話號碼與該地址相關(guān)聯(lián)的概率(框830)。概 率確定可進(jìn)一步根據(jù)與該候選電話號碼相關(guān)的特征。特征包括(如上 所解釋的),候選電話號碼與該地址的距離、候選電話號碼的特點(diǎn)、候選電話號碼和該地址之間的邊界信息和/或候選電話號碼和該地址之 間的標(biāo)點(diǎn)信息。按類似于上述參考名號的方式確定概率,其中在這里 的情況下,x(i)是指候選電話號碼。
根據(jù)它們的確定概率將置信度得分指定給候選電話號碼(框840)。
可選的,可以確定用于該地址的最佳電話號碼(框850)。在一個實(shí)施 例中,地址的最佳電話號碼被識別為具有最高置信度得分的候選電話 號碼。在另一實(shí)施例中,當(dāng)該地址出現(xiàn)在一組文檔中時,該地址的最 佳電話號碼被識別為在整個該組文檔中具有最高置信度得分的候選電 話號碼或出現(xiàn)在該組文檔中大多數(shù)文檔中的具有最高置信度得分的候 選電話號碼。
然后,該電話號碼與該地址相關(guān)聯(lián)以形成或補(bǔ)充企業(yè)登記信息。 在存儲器中把地址和其相關(guān)的電話號碼存儲在一起。
示例圖9-15是解釋根據(jù)符合本發(fā)明原理的實(shí)施例對示例性文檔所執(zhí)行 的示例性處理的示意圖。如圖9所示,該文檔是與位于華盛頓特區(qū)的 Morton餐館的概況相關(guān)的網(wǎng)頁??墒褂萌魏喂牡刂纷R別技術(shù)來分 析網(wǎng)頁以確定該網(wǎng)頁包括郵政地址。如圖10所示,地址對應(yīng)于123 Connecticut Avenue, Washington, DC 20200。假設(shè)Morton不具有任何相 關(guān)聯(lián)的黃頁數(shù)據(jù)或可能具有不準(zhǔn)確的黃頁數(shù)據(jù)。
當(dāng)試圖識別與該地址相關(guān)的企業(yè)名(名號)時,搜索開始于緊接 著該地址前面的詞語并向后搜索。在這種情況下,如圖11所示,搜索 從詞語"at"開始。確定在給定該候選詞語周圍的詞語窗口、窗口中與 詞語相關(guān)的特征、以及與之前詞語相關(guān)的預(yù)測的條件下該候選詞語"at" 是名號一部分的概率。該概率可以表示為F(at)=Prob[t(at)給定"visited Morton's at 123 Connecticut,"s(visited)s(Morton,s)s(at)s(123)s(Connecticut), h(Morton,s)h(at)h(123)h(Connecticut), q(Morton,s)q(at)q(123)q(Connecticut), O]"其中,例如s(at)指詞語"at"的屬性,h(at)指詞語"at"和后面的 詞語"Morton's"之間的邊界信息,q(at)指詞語"at"和后面的詞語 "Morton's"之間的標(biāo)點(diǎn)信息,以及"0"指關(guān)于在前詞語的預(yù)測,在 這種情況下,對應(yīng)該地址的一部分。盡管該簡單示例采用對候選詞語 左和右的兩個詞語的窗口,實(shí)踐中窗口可更大或更小。與候選詞語"at"相關(guān)的屬性包括詞語"at"與該地址的距離。在 該情況下,詞語"at"緊鄰地址前面。屬性也包括詞語"at"的特點(diǎn)。 在這種情況下,該詞語是"at";它不是數(shù)字;它沒被大寫、粗體、斜 體、下劃線或居中;它不是錨定文本的一部分;以及在長度上它有兩 個字符。對于邊界信息,假設(shè)詞語"at"的左面(或右面)沒有邊界標(biāo) 記。同樣,詞語"at"的左面(或右面)沒有標(biāo)點(diǎn)。假設(shè)該概率確定的 結(jié)果是預(yù)測詞語"at"不是名號的一部分(例如,t(at)-O)。如圖12所示,搜索繼續(xù)至詞語"Morton's"。確定在給出候選詞 語周圍的詞語窗口、與窗口中詞語相關(guān)的特征以及與之前詞語相關(guān)的 預(yù)測的條件下該候選詞語"Morton's"是名號一部分的概率。該概率可以表示為 P(Morton,s)=Prob[t(Morton,s)給定 "recently visited Morton's at 123," s(recently)s(visited)s(Morton,s)s(at)s(123), h(visited)h(Morton, s)h(at)h( 123), q(visked)q(Morton,s)q(at)q(123), 0]與詞語"Morton's"相關(guān)的屬性包括詞語"Morton's"與該地址的 距離。在這種情況下,詞語"Morton's"距該地址相隔一個詞語。屬性
也包括詞語"Morton's"的特點(diǎn)。在這種情況下,該詞語是"Morton's"; 它不是數(shù)字;它的第一個字符被大寫;它不是大寫、粗體、斜體、下 劃線或居中;它不是錨定文本的一部分;以及在長度上它有8個字符。 對于邊界信息,假設(shè)詞語"Morton's"的左面(或右面)沒有邊界標(biāo)記。 同樣,詞語"Morton's"的左面(或右面)沒有標(biāo)點(diǎn)。假設(shè)該概率判定 所產(chǎn)生的預(yù)測是詞語"Morton's "是名號的 一 部分(例如, t(Morton,s)=l)。如圖13所示,搜索繼續(xù)至詞語"visited"。確定在給出候選詞語 周圍的詞語窗口、與窗口中詞語相關(guān)的特征以及與之前詞語相關(guān)的預(yù) 測的條件下該候選詞語"visited"是名號一部分的概率。該概率可以表示為P(visited)=Prob[t(visited)給定"I recently visited Morton's at",s(I)s(recently)s(visited)s(Morton,s)s(at):h(recently)h(visited)h(Morton,s)h(at),q(recently)q(visited)q(Morton,s)q(at),l]與詞語"visited"相關(guān)的屬性包括詞語"visited"與該地址的距離。 在這種情況下,詞語"visited"離地址相隔兩個詞語。屬性也包括詞語 "visited"的特點(diǎn)。在這種情況下,詞語是"visited";它不是數(shù)字; 它不是大寫、粗體、斜體、下劃線或居中;它不是錨定文本的一部分;以及在長度上它有七個字符。對于邊界信息,假設(shè)詞語"visited"的左 面(或右面)沒有邊界標(biāo)記。同樣,詞語"visited"的左面(或右面) 沒有標(biāo)點(diǎn)。假設(shè)該概率判定的結(jié)果是詞語"visited"不是名號的一部分 (例如,t(visited)=0)。一旦對每個候選詞語是否是名號一部分進(jìn)行預(yù)測(對于網(wǎng)頁中的 某些詞語集或網(wǎng)頁中的所有詞語),則考慮詞語串的滑動以識別使得
詞語串包括名號的概率最大的串。假設(shè)該處理識別詞語"Morton's"為該地址的候選名號。如上所述,對該候選名號指定置信度得分。 當(dāng)試圖識別與地址相關(guān)的電話號碼時,通過使用公知的模式匹配技術(shù)識別網(wǎng)頁中的所有電話號碼來開始搜索,如圖14所示。在這種情 況下,識別兩個候選電話號碼202-987-6543以及202-987-6542。確定在給出候選電話號碼周圍的詞語窗口、與候選電話號碼相關(guān) 的特征以及與之前電話號碼相關(guān)的預(yù)測的條件下的每個候選電話號碼 是該地址的電話號碼的概率。與候選電話號碼相關(guān)的特征包括該電話 號碼離該地址的距離。在這種情況下,這兩個候選電話號碼離地址大 約150詞語。特征也包括在電話號碼和地址之間是否有任何邊界信息。 在這種情況下,在候選電話號碼和地址之間存在兩個段落邊界。相關(guān)于電話號碼的某些其他特征包括常用電話號碼詞語(例如, call、 calling 、 telephone 、 telephoning、 phone 、 phoning 、 tel、 tele、 (T)、 T等)是否出現(xiàn)在電話號碼之前的預(yù)定數(shù)量的詞語中,常用傳真號碼詞 語(例如,fax、 faxing、 (F)、 F等等)是否出現(xiàn)在電話號碼之前的預(yù)定 量數(shù)的詞語中,在該詞語和該地址之間是否有另一個電話號碼。在這 種情況下,概率判定會導(dǎo)致這樣的預(yù)測202-987-6543電話號碼比 202-987-6542電話號碼候選更有可能是該地址的電話號碼。根據(jù)候選電話號碼與地址相關(guān)聯(lián)的概率對候選電話號碼指定置信 度得分。如圖15所示,使用具有最高置信度得分的名號和/或電話號碼信 息來形成或補(bǔ)充與地址相關(guān)的企業(yè)登記信息。企業(yè)登記信息包括到與 企業(yè)相關(guān)文檔的鏈接、企業(yè)的地址信息、企業(yè)的電話號碼、提及企業(yè) 的文檔的片斷和/或一個或多個到涉及企業(yè)的文檔的鏈接。
結(jié)論給出文檔中的某些地標(biāo)(例如,郵政地址),符合本發(fā)明原理的 系統(tǒng)和方法試圖尋找該文檔中的該地標(biāo)的屬性(例如企業(yè)信息,如企 業(yè)名、電話號碼、營業(yè)時間或到網(wǎng)站或地圖的鏈接等)。雖然上面的 描述集中于在文檔中尋找與地址相關(guān)的企業(yè)信息,但也可不是這種情 況。在其他實(shí)施例中,上面的處理可以應(yīng)用于其他地標(biāo)和屬性,如尋 找與產(chǎn)品(地標(biāo))相關(guān)的價格(屬性)或產(chǎn)品識別號(屬性)。文檔 中出現(xiàn)的其他類型的地標(biāo)和屬性對本領(lǐng)域技術(shù)人員是容易理解的。上述本發(fā)明的優(yōu)選實(shí)施例提供了圖示和說明,但是窮舉,也不是 將本發(fā)明限制于所公開的精確形式。根據(jù)上面的所述的啟示,修改和 改變是可能的,并能從本發(fā)明的實(shí)施中獲得。例如,雖然參考圖5、 7和8描述了動作序列,在符合本發(fā)明原理 的其他實(shí)施例中可以修改動作的順序。而且,可以并行執(zhí)行非依賴的 各動作。同樣,己經(jīng)說明,候選詞語是與地址相關(guān)的企業(yè)信息一部分的概 率居于諸如該詞語周圍的詞語窗口、關(guān)于之前詞語的預(yù)測以及與窗口 中一個或多個詞語相關(guān)的屬性、邊界信息和標(biāo)點(diǎn)的特征。在另一實(shí)施 例中,更多、更少或不同的特征可以用于預(yù)測候選詞語是否是與地址 相關(guān)的企業(yè)信息的一部分。對本領(lǐng)域技術(shù)人員,很顯然,上述本發(fā)明的各方面可以在圖中所 示的實(shí)施例中按不同形式的軟件、固件和硬件來實(shí)施。用于實(shí)施符合 本發(fā)明原理的各方面的實(shí)際軟件代碼或?qū)S每刂朴布⒉幌拗票景l(fā) 明。因此,描述各方面的操作和行為而不引用特定軟件代碼,本領(lǐng)域 技術(shù)人員可理解,能設(shè)計軟件和控制硬件以實(shí)施根據(jù)這里說明的各方面o
本申請中所用的組件、操作或指令不應(yīng)當(dāng)理解為對本發(fā)明是關(guān)鍵 的或必要的,除非如此明確說明。同樣,如這里所用,不帶數(shù)量限定 的項是指包括一個項或多個項。當(dāng)僅僅表示一個項時,使用詞語"一 個"或類似語言。而且,短語"根據(jù)(基于)"用于表示"至少部分 的根據(jù)(基于)",除非明確說明了其他含義。
權(quán)利要求
1.一種方法,包括識別包含地址的文檔;在所述文檔中定位企業(yè)信息;對所述企業(yè)信息指定置信度得分,該置信度得分與所述企業(yè)信息同所述地址相關(guān)聯(lián)的概率有關(guān);根據(jù)所述指定的置信度得分確定是否把所述企業(yè)信息與所述地址相關(guān)聯(lián)。
2.根據(jù)權(quán)利要求l的方法,其中企業(yè)信息對應(yīng)于名號;以及其中在所述文檔中定位企業(yè)信息包括分析在所述文檔中該地址前面的多個詞語,確定每個所述詞語是與所述地址相關(guān)的名號的一部分的概率,以及根據(jù)具有高概率作為與該地址相關(guān)的名號的一部分的一個或多個 詞語來識別候選名號。
3.根據(jù)權(quán)利要求2的方法,其中所述多個詞語包括該文檔中該地 址前面直接相鄰的第一詞語和在該文檔中該第一詞語前面的一個或多 個第二詞語。
4.根據(jù)權(quán)利要求2的方法,其中確定每個所述詞語包含在名號中 的概率包括預(yù)測詞語之一是否是該名號的一部分,以及根據(jù)有關(guān)該詞語之一的預(yù)測來預(yù)測另外一個詞語是否是該名號的 一部分。
5.根據(jù)權(quán)利要求2的方法,其中所述詞語之一包含在名號中的所 述概率基于該詞語周圍的詞語窗口。
6. 根據(jù)權(quán)利要求2的方法,其中所述詞語之一包含在名號中的所 述概率基于與另一個詞語相關(guān)聯(lián)的概率。
7. 根據(jù)權(quán)利要求2的方法,其中所述詞語之一包含在名號中的概率基于與該詞語相關(guān)的特征集。
8. 根據(jù)權(quán)利要求7的方法,其中所述特征集包括下述至少之一-該詞語與該地址的距離、該詞語的特點(diǎn)、該詞語與前面或后面詞語之 間的邊界信息或該詞語與前面或后面詞語之間的標(biāo)點(diǎn)信息。
9. 根據(jù)權(quán)利要求2的方法,其中所述詞語之一包含在名號中的概 率通過統(tǒng)計模型來確定,該統(tǒng)計模型通過分析與具有已知地址和相關(guān) 聯(lián)名號的多個文檔相關(guān)聯(lián)的特征而產(chǎn)生。
10. 根據(jù)權(quán)利要求1的方法,其中所述企業(yè)信息對應(yīng)于名號;以及其中在文檔中定位企業(yè)信息包括 分析所述文檔中所述地址前面的多個詞語,確定每個所述詞語是與該地址相關(guān)的名號的一部分的概率,以及 根據(jù)具有高概率作為與該地址相關(guān)聯(lián)的名號的一部分的一個或多 個詞語組來識別多個候選名號。
11. 根據(jù)權(quán)利要求l的方法,其中所述企業(yè)信息對應(yīng)于電話號碼;以及其中在文檔中定位企業(yè)信息包括 識別該文檔中的候選電話號碼集,以及確定該候選電話號碼集中的每個候選電話號碼與該地址相關(guān)聯(lián)的 概率。
12. 根據(jù)權(quán)利要求ll的方法,其中候選電話號碼之一與該地址相 關(guān)聯(lián)的概率基于與該候選電話號碼相關(guān)的特征集。
13. 根據(jù)權(quán)利要求12的方法,其中所述特征集包括下述至少之一 該候選電話號碼與該地址之間的距離、該候選電話號碼和該地址之間 的邊界信息,常用電話號碼詞語是否出現(xiàn)在該候選電話號碼之前,常 用傳真號碼詞語是否出現(xiàn)在該候選電話號碼之前,或該候選電話號碼和該地址之間是否存在另一個候選電話號碼。
14. 根據(jù)權(quán)利要求12的方法,其中候選電話號碼之一與該地址相關(guān)聯(lián)的概率根據(jù)統(tǒng)計模型來確定,該統(tǒng)計模型通過分析與具有已知地 址和相關(guān)電話號碼的多個文檔相關(guān)聯(lián)的特征而產(chǎn)生。
15. 根據(jù)權(quán)利要求1的方法,其中企業(yè)信息與該地址相關(guān)聯(lián)的概 率是根據(jù)統(tǒng)計模型確定的,該統(tǒng)計模型通過分析與具有已知地址和相 關(guān)企業(yè)信息的多個文檔相關(guān)聯(lián)的特征而產(chǎn)生。
16. 根據(jù)權(quán)利要求1的方法,其中企業(yè)信息至少包括名號、電話 號碼、營業(yè)時間、或到與該地址相關(guān)的網(wǎng)站或地圖的鏈接之一。
17. 根據(jù)權(quán)利要求1的方法,其中確定是否把所述企業(yè)信息與所述地址相關(guān)聯(lián)包括分析該文檔中的詞語串;以及在各串中確定一個串,使該串中的詞語包含所述企業(yè)信息的概率 最大。
18. 根據(jù)權(quán)利要求l的方法,進(jìn)一步包括當(dāng)所述企業(yè)信息與所述地址相關(guān)聯(lián),根據(jù)所述企業(yè)信息和所述地 址產(chǎn)生或補(bǔ)充企業(yè)登記信息。
19. 一種系統(tǒng),包括 識別包括地址的文檔的裝置;在所述文檔中定位一個或多個企業(yè)信息候選的裝置; 向所述一個或多個企業(yè)信息候選指定置信度得分的裝置,與一個企業(yè)信息候選相關(guān)聯(lián)的所述置信度得分與所述企業(yè)信息候選同所述地址相關(guān)聯(lián)的概率有關(guān);根據(jù)所述指定的置信度得分確定是否把所述一個或多個企業(yè)信息候選之一和所述地址相關(guān)聯(lián)的裝置。
20. —種系統(tǒng),包括 存儲統(tǒng)計模型的存儲器;以及 連接到所述存儲器的處理器,用于 識別包括地址的文檔; 識別該文檔中的企業(yè)信息;根據(jù)所述統(tǒng)計模型預(yù)測所述企業(yè)信息是否與所述地址相關(guān)聯(lián); 根據(jù)所述預(yù)測確定是否把所述企業(yè)信息和所述地址相關(guān)聯(lián)。
21. 根據(jù)權(quán)利要求20的系統(tǒng),其中所述企業(yè)信息對應(yīng)于名號;以及其中當(dāng)識別該文檔中的企業(yè)信息時,配置所述處理器用于分析該文檔中該地址前面的多個詞語,根據(jù)所述統(tǒng)計模型確定每個所述詞語是與該地址相關(guān)的名號的一 部分的概率,以及根據(jù)具有高概率作為與該地址相關(guān)聯(lián)的名號的一部分的一個或多 個詞語來識別候選名號。
22. 根據(jù)權(quán)利要求21的系統(tǒng),其中所述多個詞語包括該文檔中該地址前面直接相鄰的第一詞語和在該文檔中該第一詞語前面的一個或 多個第二詞語。
23. 根據(jù)權(quán)利要求21的系統(tǒng),其中當(dāng)確定每個所述詞語包含在名號中的概率時,配置所述處理器用于預(yù)測所述詞語之一是否是名號的一部分,以及根據(jù)關(guān)于所述詞語之一的預(yù)測來預(yù)測另外一個詞語是否是該名號 的一部分。
24. 根據(jù)權(quán)利要求21的系統(tǒng),其中所述詞語之一包含在名號中的 概率基于該詞語周圍的詞語窗口。
25. 根據(jù)權(quán)利要求21的系統(tǒng),其中所述詞語之一包含在名號中的 概率基于與另一個詞語相關(guān)聯(lián)的概率。
26. 根據(jù)權(quán)利要求21的系統(tǒng),其中所述詞語之一包含在名號中的 概率基于與該詞語相關(guān)的特征集。
27. 根據(jù)權(quán)利要求26的系統(tǒng),其中所述特征集包括下述至少之一 該詞語與該地址的距離、詞語的特點(diǎn)、該詞語與前面或后面詞語之間的邊界信息或該詞語與前面或后面詞語之間的標(biāo)點(diǎn)信息。
28. 根據(jù)權(quán)利要求20的系統(tǒng),其中所述統(tǒng)計模型通過分析與具有 已知地址和相關(guān)名號的多個文檔相關(guān)聯(lián)的特征而產(chǎn)生。
29. 根據(jù)權(quán)利要求20的系統(tǒng),其中所述企業(yè)信息對應(yīng)于名號;以及其中當(dāng)識別該文檔中的企業(yè)信息,配置所述處理器用于-分析該文檔中該地址前面的多個詞語,確定每個所述詞語是與該地址相關(guān)聯(lián)的名號的一部分的概率,以及根據(jù)具有高概率作為與該地址相關(guān)聯(lián)的名號的一部分的一個或多 個詞語組來識別多個候選名號。
30. 根據(jù)權(quán)利要求20的系統(tǒng),其中所述企業(yè)信息對應(yīng)于電話號碼;以及其中當(dāng)在該文檔中識別企業(yè)信息,配置所述處理器用于 識別該文檔中候選電話號碼集,以及根據(jù)所述統(tǒng)計模型確定所述候選電話號碼集中的每個候選電話號 碼與該地址相關(guān)聯(lián)的概率。
31. 根據(jù)權(quán)利要求30的系統(tǒng),其中候選電話號碼之一與該地址相 關(guān)聯(lián)的概率是基于與該候選電話號碼相關(guān)的特征集。
32. 根據(jù)權(quán)利要求31的系統(tǒng),其中所述特征集包括下述至少之一該候選電話號碼與該地址之間的距離,該候選電話號碼和該地址之間 的邊界信息,常用電話號碼詞語是否出現(xiàn)在該候選電話號碼之前,常 用傳真號碼詞語是否出現(xiàn)在該候選電話號碼之前,或該候選電話號碼和該地址之間是否存在另一個候選電話號碼。
33. 根據(jù)權(quán)利要求31的系統(tǒng),其中所述統(tǒng)計模型通過分析與具有 已知地址和相關(guān)電話號碼的多個文檔相關(guān)的特征而產(chǎn)生。
34. 根據(jù)權(quán)利要求20的系統(tǒng),其中所述統(tǒng)計模型通過分析與具有 已知地址和相關(guān)企業(yè)信息的多個文檔相關(guān)的特征而產(chǎn)生。
35. 根據(jù)權(quán)利要求20的系統(tǒng),其中企業(yè)信息至少包括名號、電話 號碼、營業(yè)時間、或到與該地址相關(guān)的網(wǎng)站或地圖的鏈接之一。
36. 根據(jù)權(quán)利要求20的系統(tǒng),其中當(dāng)確定是否把所述企業(yè)信息和 所述地址相關(guān)聯(lián)時,配置所述處理器用于分析該文檔中的詞語串;以及在各串中確定一個串,使該串的詞語包含所述企業(yè)信息的概率最 大。
37. 根據(jù)權(quán)利要求20的系統(tǒng),其中進(jìn)一步配置所述處理器,使得當(dāng)所述企業(yè)信息與所述地址相關(guān)聯(lián)時根據(jù)所述企業(yè)信息和所述地址產(chǎn) 生或補(bǔ)充企業(yè)登記信息。。
38. —種方法,包括識別包括地址的文檔;識別在該文檔中該地址前面的多個詞語;確定每個所述詞語是與該地址相關(guān)聯(lián)的名號的一部分的概率; 根據(jù)具有高概率作為與該地址相關(guān)聯(lián)的名號的一部分的一個或多個詞語來識別候選名號;向所述候選名號指定置信度得分;根據(jù)所指定的置信度得分確定是否把所述候選名號與所述地址相 關(guān)聯(lián)。
39. —種方法,包括 識別包括地址的文檔; 識別該文檔中的候選電話號碼集;確定所述候選電話號碼集中的每個候選電話號碼與該地址相關(guān)的 概率;根據(jù)所確定的概率來確定是否把所述候選電話號碼之一與所述地 址相關(guān)聯(lián)。
40. —種方法,包括 識別包括地標(biāo)的網(wǎng)頁; 識別該網(wǎng)頁中的屬性;向所述屬性指定置信度得分,所述置信度得分與所述屬性同所述 地標(biāo)相關(guān)聯(lián)的概率有關(guān);以及根據(jù)所指定的置信度得分,確定是否把所述屬性與所述地標(biāo)相關(guān) 聯(lián)。
41. 根據(jù)權(quán)利要求40的方法,其中所述地標(biāo)對應(yīng)于郵政地址,并 且所述屬性對應(yīng)于有關(guān)名號、電話號碼、營業(yè)時間、或到與該郵政地 址相關(guān)的網(wǎng)站或地圖的鏈接之一的信息。
42. 根據(jù)權(quán)利要求40的方法,其中所述地標(biāo)對應(yīng)于產(chǎn)品并且所述屬性對應(yīng)于價格或產(chǎn)品識別號。
全文摘要
用于識別包含地址的文檔并在文檔中定位企業(yè)信息的系統(tǒng)。該系統(tǒng)向所述企業(yè)信息指定置信度得分,其中置信度得分與該企業(yè)信息同該地址相關(guān)聯(lián)的概率有關(guān)。該系統(tǒng)根據(jù)指定的置信度得分確定是否把該企業(yè)信息與該地址相關(guān)聯(lián)。
文檔編號G06F17/30GK101128819SQ200580048639
公開日2008年2月20日 申請日期2005年12月30日 優(yōu)先權(quán)日2004年12月30日
發(fā)明者邁克爾·丹尼斯·賴?yán)?申請人:谷歌公司