專利名稱:實(shí)體名稱匹配的制作方法
實(shí)體名稱匹配
背景技術(shù):
諸如商業(yè)企業(yè)清單(例如黃頁)、基于搜索引擎的目錄等在線目錄允許在線用戶搜尋和標(biāo)識(shí)期望的實(shí)體(例如要光顧的本地企業(yè))。另外,受雇專家、客戶或者其他各方可以提交在線評(píng)論,其中評(píng)論者可以提及實(shí)體并且描述他們對(duì)實(shí)體的體驗(yàn)或者意見(例如飯店或者產(chǎn)品評(píng)論)。此外,博客者、記者或者其它編輯人士可以提交關(guān)于實(shí)體的在線信息、報(bào)道等,其中提到實(shí)體的名稱。然而實(shí)體名稱(比如企業(yè))經(jīng)??赡茉趦蓚€(gè)或者更多目錄、博客、 評(píng)論或者報(bào)道之間無統(tǒng)一標(biāo)識(shí)。例如當(dāng)目錄可以將圖書館標(biāo)識(shí)為D印ot Street Library Branch in Medina(D印ot街圖書館中部分館)時(shí),在線博客可以僅將它稱為Medina Branch Library (圖書館中部分館)。另外可能有相似但是混淆名稱的不同類型的另一實(shí)體(比如 Library Street Depot (圖書館街D印ot)(例如酒吧))。
發(fā)明內(nèi)容
提供這一發(fā)明內(nèi)容以簡化形式介紹下文在具體實(shí)施方式
中進(jìn)一步描述的所選概念。這一發(fā)明內(nèi)容并非目的在于標(biāo)識(shí)所要求主題的關(guān)鍵因素或者基本特征、也并非目的在于用來限制要求主題的范圍。匹配實(shí)體名稱(比如在目錄中或者來自多個(gè)目錄/位置的企業(yè)名稱)對(duì)于涉及到實(shí)體名稱的記錄鏈接系統(tǒng)而言可能頗為重要。實(shí)體名稱匹配可能是未對(duì)僅基于字符或者基于標(biāo)記的方式有良好響應(yīng)的困難問題。當(dāng)前或者現(xiàn)有技術(shù)嘗試通過在經(jīng)歷匹配的兩個(gè)(或者更多)名稱之間匹配字符或者標(biāo)記來匹配名稱。也就是說,例如將串匹配算法通常應(yīng)用于兩個(gè)名稱(比如“Matt,s Restaurant (Matt 的飯店),,禾口“Matt,s Bar and Grill (Matts M 吧和烤肉店)”)以確定它們是否可能是相同實(shí)體。另外,當(dāng)前或者現(xiàn)有技術(shù)嘗試使用完全基于知識(shí)的方式來匹配實(shí)體名稱。這一技術(shù)通常由于各類文字中的企業(yè)名稱表述的大量自然變化而未良好地起作用。也就是說,例如相對(duì)于包括多個(gè)企業(yè)名稱和關(guān)聯(lián)的企業(yè)類型的數(shù)據(jù)庫來匹配實(shí)體的名稱。然而僅使用這一方式可能需要巨型數(shù)據(jù)庫,并且由于名稱使用方式的變化而可能未提供充分的結(jié)果。因而公開一種或者多種使用小型知識(shí)庫從實(shí)體名稱表述(例如在目錄、博客、評(píng)論等中)中提取可以表明實(shí)體類型(例如企業(yè)類型、比如服務(wù)、零售、食品等)的實(shí)體類別信號(hào)的技術(shù)和/或系統(tǒng)。另外可以對(duì)實(shí)體名稱的其余部分(例如非類別信號(hào)的部分)使用基于串或者標(biāo)記的匹配方式。利用這一方式,可以匹配廣泛多種類型的實(shí)體名稱表述、從例如在線目錄清單數(shù)據(jù)庫中的正規(guī)表述到例如博客或者評(píng)論文字中的隨意企業(yè)表述。在用于匹配實(shí)體名稱的一個(gè)實(shí)施例中,在第一實(shí)體名稱(比如目錄中的企業(yè)名稱) 與第二實(shí)體名稱(比如來自在線評(píng)論的另一企業(yè)名稱)之間執(zhí)行匹配分析。該匹配分析可以包括比較已經(jīng)修改到第一實(shí)體名稱中的第一實(shí)體類別描述符與已經(jīng)修改到第二實(shí)體名稱中的第二實(shí)體類別描述符。為了實(shí)現(xiàn)前述和有關(guān)目的,下文描述和附圖闡述某些示例方面和實(shí)現(xiàn)。這些僅僅是其中可以采用一個(gè)或者多個(gè)方面的各種方式中的僅少數(shù)方式的指示。本公開內(nèi)容的其它方面、優(yōu)點(diǎn)和新穎特征將根據(jù)在與附圖結(jié)合考慮時(shí)的下文具體實(shí)施方式
而變得清楚。
圖1是用于匹配實(shí)體名稱的示例方法的流程圖。圖2是圖示了這里描述的一種或者多種方法的一個(gè)或者多個(gè)部分的一個(gè)實(shí)施例的流程圖。圖3是這里描述的一種或者多種技術(shù)的一個(gè)實(shí)施例的流程圖。圖4圖示了其中可以利用一種或者多種技術(shù)和/或系統(tǒng)的一個(gè)或者多個(gè)示例實(shí)施例。圖5圖示了其中可以利用一種或者多種技術(shù)和/或系統(tǒng)的一個(gè)或者多個(gè)示例實(shí)施例。圖6是用于匹配實(shí)體名稱的示例系統(tǒng)的部件圖。圖7圖示了這里描述的一種或者多種系統(tǒng)的一個(gè)示例實(shí)施例的部件圖。圖8是示例計(jì)算機(jī)可讀介質(zhì)的圖示,該計(jì)算機(jī)可讀介質(zhì)包括被配置成具體實(shí)施這里闡述的一種或者多種規(guī)定的處理器可執(zhí)行指令。圖9圖示了其中可以實(shí)現(xiàn)這里闡述的一種或者多種規(guī)定的示例計(jì)算環(huán)境。 具體實(shí)施例現(xiàn)在參照其中相似標(biāo)號(hào)用來通篇指代相似單元的附圖來描述所要求的主題。在下文描述中,出于說明的目的而闡述諸多具體細(xì)節(jié)以便提供對(duì)要求主題的透徹理解。然而可以清楚的是,可實(shí)現(xiàn)所要求的主題而無需這些具體細(xì)節(jié)。在其它實(shí)例中,以框圖形式示出了結(jié)構(gòu)和設(shè)備以便有助于描述所要求的主題。通常,當(dāng)在線(例如在因特網(wǎng)上)搜尋特定實(shí)體時(shí),用戶可以發(fā)現(xiàn)用于相同實(shí)體的多個(gè)條目,其中相應(yīng)條目包括實(shí)體名稱的不同變化。例如,用戶可能希望通過在線搜尋用戶評(píng)論來發(fā)現(xiàn)信譽(yù)好的汽車機(jī)修工。在這一例子中,使用第一評(píng)論站點(diǎn),用戶可以發(fā)現(xiàn) "Richardson's Quick Tire, Lube and Auto Serviceaichardson 的快速輪胎、潤滑劑和汽車服務(wù))”具有良好等級(jí)。然而在搜尋這一實(shí)體時(shí),用戶僅在在線目錄中發(fā)現(xiàn)“Richardson’ s ServiceCRichardson的服務(wù))”。不經(jīng)過進(jìn)一步調(diào)查,用戶可能并不知道這些是否為相同實(shí)體,并且(例如通過在線目錄、博客或者評(píng)論站點(diǎn))自動(dòng)地嘗試統(tǒng)一這兩個(gè)實(shí)體名稱可能造成不恰當(dāng)?shù)暮喜?。設(shè)想出一種方法,該方法提供了標(biāo)識(shí)用于相同實(shí)體(比如企業(yè))的多個(gè)名稱(例如, 如在一個(gè)或者多個(gè)目錄中的清單),因而多個(gè)名稱可以例如鏈接在一起或者合并成單個(gè)名稱。圖1是用于匹配實(shí)體名稱的示例方法100的流程圖。示例方法100始于102并且涉及到在104標(biāo)識(shí)用于第一實(shí)體名稱的至少部分的第一實(shí)體類別描述符和用于第二實(shí)體名稱的至少部分的第二實(shí)體類別描述符。類別描述符可以包括描述實(shí)體類型的類別名稱,其中實(shí)體類型包括針對(duì)實(shí)體的分類。作為示例,企業(yè)類型的類別描述符“飯店”可以代表如下分類,該分類包括餐廳、烤肉店、 咖啡館、熟食店、三明治店和更多分類。另外,類別描述符“酒吧”可以代表如下分類,該分類包括酒吧、酒吧和烤肉店、酒館、休閑室、旅館、客棧和更多分類。
此外,在一個(gè)實(shí)施例中,類別描述符可以包括子類別描述符,其中子類別描述符包括一個(gè)或者多個(gè)實(shí)體的類別,該類別也可以被分類。例如“飯店.酒吧”可以是“飯店”的子類別,而“零售.衣物”可以是“零售”的子類別。在一個(gè)實(shí)施例中,類別描述符與之相關(guān)聯(lián)的類別可以分級(jí)樹布置。例如當(dāng)根部包括“企業(yè)實(shí)體”時(shí),相應(yīng)分支可以包括作為企業(yè)實(shí)體類型的各種類別,諸如服務(wù)、制造、零售等。在一個(gè)實(shí)施例中,標(biāo)識(shí)用于實(shí)體名稱的類別描述符可以包括查看實(shí)體名稱中的一個(gè)或者多個(gè)串(例如,單詞)并且標(biāo)識(shí)匹配該串的類別。例如在實(shí)體名稱“Madoff Retirement Funds (Madoff 退休基金)”中,單詞“ Funds (基金)”或者甚至 “Retirement Funds (退休基金)”可以包括與金融規(guī)劃服務(wù)有關(guān)的實(shí)體類型。因此,在這一例子中,可以針對(duì)實(shí)體名稱“Madoff Retirement Funds (Madoff退休基金)”標(biāo)識(shí)類別描述符“服務(wù).金融規(guī)劃”。在一個(gè)實(shí)施例中,知識(shí)庫(例如數(shù)據(jù)庫)可以用來有助于標(biāo)識(shí)類別描述符。例如可以相對(duì)于知識(shí)庫比較串“Retirement Funds (退休基金)”以確定它與類別“服務(wù)-金融規(guī)劃”相關(guān)聯(lián)。作為又一例子,知識(shí)庫可以包括多個(gè)類別(例如在分級(jí)樹中關(guān)聯(lián)),其中相應(yīng)類別包括用于可以與類別匹配的特定實(shí)體名稱的串列表。在示例方法100中的106處,在第一實(shí)體名稱與第二實(shí)體名稱之間執(zhí)行匹配分析。 這里比較已經(jīng)修改到第一實(shí)體名稱的第一實(shí)體類別描述符與已經(jīng)修改到第二實(shí)體名稱的第二實(shí)體類別描述符。在一個(gè)實(shí)施例中,類別描述符可以修改到實(shí)體名稱中,從而當(dāng)執(zhí)行匹配分析時(shí)在名稱中包括它。在一個(gè)實(shí)施例中,用來標(biāo)識(shí)類別描述符的串可以替換為實(shí)體名稱中的類別描述符。例如“Madoff Retirement Funds (Madoff退休基金)”可以修改到“Madoff〈服務(wù).金融規(guī)劃 >”。在這一實(shí)施例中,可以比較第一修改的實(shí)體名稱與第二修改的實(shí)體名稱以確定在兩個(gè)名稱之間是否有潛在匹配。例如“Madoff〈服務(wù).金融規(guī)劃〉”可以是與“MadoffX 服務(wù).金融規(guī)劃〉”的匹配,而“Madoff〈服務(wù).拖車〉”不可能匹配“Madoff〈服務(wù).金融規(guī)劃> ”。在已經(jīng)執(zhí)行匹配分析之后,示例方法100結(jié)束于108。圖2是圖示了這里描述的一種或者多種方法的一個(gè)或者多個(gè)部分的一個(gè)實(shí)施例 200的流程圖,其中修改實(shí)體名稱?,F(xiàn)在將參照?qǐng)D4,該圖是這里描述的一種或者多種技術(shù)的一個(gè)示例實(shí)施例400的圖示。在202將第一實(shí)體名稱分解成潛在類別信號(hào);并且在 204將第二實(shí)體名稱分解成潛在類別信號(hào)。作為例子,實(shí)體名稱“Minky Pete' s Bar and GrilKStinky Pete酒吧和烤肉店)”可以分解成多個(gè)潛在類別信號(hào)、比如Jtinky ;Pete's ; Stinky Pete's ;Bar (酒吧);Grill (烤肉店);以及Bar and Grill (酒吧和烤肉店);以及其它類別信號(hào)。在示例實(shí)施例200中的206處,可以比如通過查看知識(shí)庫是否包括類別信號(hào)來相對(duì)于知識(shí)庫來比較相應(yīng)類別信號(hào)。如果在208處未在知識(shí)庫中發(fā)現(xiàn)潛在類別信號(hào),則在210 處確定潛在類別信號(hào)不是類別信號(hào)。例如不可能在包括企業(yè)實(shí)體類別(例如服務(wù)、制造、零售等)的知識(shí)庫中發(fā)現(xiàn)“Stinky”、“Pete ‘S”和“Minky Pete's”。因此,在這一例子中, 確定這些潛在類別信號(hào)不是類別信號(hào)。作為選擇,如果在208處,在知識(shí)庫中發(fā)現(xiàn)針對(duì)關(guān)聯(lián)實(shí)體類型(例如企業(yè)名稱)的潛在類別信號(hào),則在212可以將類別信號(hào)替換為來自知識(shí)庫的對(duì)應(yīng)類別描述符。例如,如在圖4的示例實(shí)施例400中所示,第一實(shí)體名稱402包括‘、tinky Pete's Bar and Grill (Stinky Pete酒吧和烤肉店)”。在第一實(shí)體名稱402的第一分解418A中,可以確定第一潛在類別信號(hào)406 "Stinky Pete ‘S ”不包括類別信號(hào)(即不匹配企業(yè)實(shí)體類別)。在這一分解418A中,第二潛在匹配信號(hào)408 "Bar and Grill (酒吧和烤肉店)”匹配與知識(shí)庫中的類別描述符“飯店.酒吧”相對(duì)應(yīng)的類別信號(hào)。另外,在這一例子400中,在第一實(shí)體名稱402的第一分解418A中,類別信號(hào)“Bar and Grill (酒吧和卡肉店)”408可以替換為類別描述符“飯店.酒吧”。因此,第一分解 418A可以包括“Stinky Pete,s”〈飯店.酒吧X空〉,其中“空”410這一項(xiàng)可以標(biāo)識(shí)第一實(shí)體402在替換的類別信號(hào)408之后發(fā)現(xiàn)的部分。在這一例子中,分解的實(shí)體名稱418A包括串“Minky Pete' S”和類別描述符〈飯店.酒吧〉。回到圖2,在212處,在一個(gè)實(shí)施例中,可以為實(shí)體名稱(例如圖4的402)重復(fù)示例方法200,從而生成一個(gè)或者多個(gè)修改的第一實(shí)體名稱250并且生成一個(gè)或者多個(gè)修改的第二實(shí)體名稱252。例如,如在圖4的例子400中所示,在第一實(shí)體名稱402的第二分解 418B中,類別信號(hào)“Bar(酒吧)”408可以替換為類別描述符〈飯店.酒吧〉。在這一例子中,潛在類別信號(hào)“Bar (酒吧)”可以匹配與知識(shí)庫中的“類別描述符 < 飯店.酒吧 >”關(guān)聯(lián)的類別信號(hào)“酒吧”。另外,在例子400中,在第一實(shí)體名稱402的第三分解418C中,類別信號(hào)“烤肉店”408可以替換為類別描述符 < 飯店 > ;并且也可以如在第一實(shí)體名稱402的第四分解 418D中所示替換為類別描述符 < 飯店.酒吧>。第二實(shí)體名稱404包括“Stnky Pete休息室”(例如組合了企業(yè)實(shí)體類型的錯(cuò)誤拼寫和常見變化)。作為例子,可以在博客或者在線用戶評(píng)論中包括第二實(shí)體名稱204,其中作者使用實(shí)際企業(yè)實(shí)體名稱(例如Stinky Pete酒吧和烤肉店)的變化。在一個(gè)實(shí)施例中,用于相同實(shí)體(比如企業(yè))的多個(gè)名稱的標(biāo)識(shí)可以用來將名稱鏈接在一起或者將它們合并成單個(gè)名稱。例如用戶可以使用具有映射能力的在線搜索引擎來搜尋本地餐館并且發(fā)現(xiàn) "Stinky Pete酒吧和烤肉店”(例如第一實(shí)體名稱402)。另外,在這一示例中,用戶可能希望發(fā)現(xiàn)討論^inky Pete的評(píng)論或者博客條目以便決定它是否滿足用戶的需要。評(píng)論者可以將實(shí)體列為“Stnky Pete休息室”(例如第二實(shí)體名稱)。在這一實(shí)施例中,可以為了匹配而比較這兩個(gè)實(shí)體名稱以確定它們是否用于相同實(shí)體。在示例400中,在第二實(shí)體名稱404的第一分解420A中,發(fā)現(xiàn)“Mnky Pete" 412 不是類別信號(hào),并且確定“休息室” 414包括與知識(shí)庫中的 < 飯店.酒吧 > 類別描述符關(guān)聯(lián)的類別信號(hào)。在這一示例400中,對(duì)于第二實(shí)體名稱404,類別信號(hào)“休息室”414可以替換為類別描述符 < 飯店.酒吧 >。另外,向在修改的類別描述符414之后添加〈空〉項(xiàng)416。在一個(gè)實(shí)施例中,如在第一實(shí)體名稱402的第五分解418E和第二實(shí)體名稱404的第二分解420B中所示,分別針對(duì)第一實(shí)體名稱402和第二實(shí)體名稱404修改 < 無類別 > 類別描述符408、414。在這一實(shí)施例中,可以向包括 < 無類別 > 類別描述符的一組其余類別對(duì)添加實(shí)體名稱(例如402、404)。〈無類別〉類別可以用于以隨意方式使用實(shí)體名稱的情況。例如評(píng)論者、博客張貼者或者甚至目錄創(chuàng)建者可以將企業(yè)“Minky Pete酒吧和烤肉店”稱為“Minky Pete”,就如同客戶和用戶可以將‘Starbucks咖啡”稱為‘Starbucks”一樣。在這一示例中,隨意稱謂可以僅包括企業(yè)的特定名稱(例如Minky Pete或者 Marbuck)而不包括將特定名稱與用于實(shí)體的企業(yè)類型(例如酒吧和烤肉店或者咖啡)相鏈接的類別信號(hào)。在這一實(shí)施例中,如下文將更詳細(xì)描述的那樣,〈無類別〉類別描述符可以用作一類“通配符”,例如其中 < 無類別 > 可以在匹配實(shí)體名稱時(shí)與多個(gè)其它類別描述符相匹配。圖3是圖示了這里描述的一種或者多種技術(shù)的一個(gè)實(shí)施例300的流程圖。一個(gè)或者多個(gè)修改的第一實(shí)體名稱250可以用于實(shí)體名稱匹配;并且一個(gè)或者多個(gè)第二實(shí)體名稱250可以用于實(shí)體名稱匹配。例如,如在圖4中所示,修改的第一實(shí)體名稱可以包括 "Stinky Pete”〈飯店.酒吧 X 空〉;“Stinky Pete”〈飯店.酒吧〉“和烤肉店”;“ Stinky Pete酒吧和”〈飯店X空〉;"Stinky Pete酒吧和”〈飯店·酒吧X空 > ;以及“Stinky Pete酒吧和烤肉店”〈無類別X空〉。另外,修改的第二實(shí)體名稱可以包括‘、tnky Pete”< 飯店·酒吧 >< 空 > ;以及“Stnky Pete休息室”〈無類別X空〉。在302,針對(duì)相應(yīng)的第一實(shí)體名稱,可以在304將修改的第一實(shí)體名稱與第二實(shí)體名稱進(jìn)行比較。也就是說,例如可以將“Stinky Pete”〈飯店.酒吧X空〉與“Stnky Pete”〈飯店·酒吧X空 > 和“Stnky Pete休息室”〈無類別X空> 二者進(jìn)行比較。在一個(gè)實(shí)施例中,當(dāng)比較實(shí)體名稱時(shí),在第一與第二實(shí)體名稱之間比較相應(yīng)類別描述符。例如將修改的第一實(shí)體名稱“Minky Pete”<飯店.酒吧X空〉中的〈飯店.酒吧 > 與修改的第二實(shí)體名稱“Stnky Pete” <飯店.酒吧X空〉中的〈飯店.酒吧 > 進(jìn)行比較。在這一示例中,相應(yīng)類別描述符提供明顯的匹配。在一個(gè)實(shí)施例中,將修改到第一實(shí)體名稱的第一實(shí)體類別描述符與修改到第二實(shí)體名稱的第二實(shí)體類別描述符進(jìn)行比較可以包括確定在類別樹中在第一實(shí)體類別描述符與第二實(shí)體類別描述符之間的距離。例如類別知識(shí)庫可以是分級(jí)的,其中類別酒店.酒吧包括類別酒店的子類別。在這個(gè)示例中,數(shù)據(jù)結(jié)構(gòu)樹可以用來代表在知識(shí)庫中的相應(yīng)類別之間的分級(jí)關(guān)系,其中相應(yīng)類別(節(jié)點(diǎn))具有至少一個(gè)父類別(父節(jié)點(diǎn))和零個(gè)或者更多子類別(子代)。在一個(gè)實(shí)施例中,期望的閾值(例如加權(quán)樹度量)可以用來確定第一和第二實(shí)體類別描述符的“接近度”。也就是說,例如如果在第一實(shí)體名稱類別與第二實(shí)體名稱類別之間的關(guān)系落在閾值(例如跳躍數(shù)目、相同父代、子類別-類別關(guān)系等)內(nèi),則可以指示匹配。然而如果未滿足閾值,則未指示類別匹配。將理解類別匹配并不限于這里描述的實(shí)施例,并且設(shè)想本領(lǐng)域技術(shù)人員可以設(shè)計(jì)替代比較技術(shù)。例如,類別知識(shí)庫可以具有替代結(jié)構(gòu),其中一個(gè)或者多個(gè)不同度量可以用來確定“接近度”。在一個(gè)實(shí)施例中,將修改到第一實(shí)體名稱的第一實(shí)體類別描述符與修改到第二實(shí)體名稱的第二實(shí)體類別描述符進(jìn)行比較可以包括確定是否可以在第一實(shí)體類別描述符的第一實(shí)體類別和第二實(shí)體類別描述符的第二實(shí)體類別中均包括實(shí)體類型(例如由類別信號(hào)確定)。例如,如在圖5的示例實(shí)施例500中所示,在第一實(shí)體名稱502 "Starbucks咖啡” 中,在第一分解518A中的類別信號(hào)508 “咖啡”可以與在知識(shí)庫中的類別“飯店.咖啡”相關(guān)聯(lián)。然而,在第二實(shí)體名稱504 “Marbucks拖車”中,在第一分解520A中的類別信號(hào) 514 “拖車”可以與在知識(shí)庫中的類別“服務(wù).拖車”相關(guān)聯(lián)。在這個(gè)實(shí)施例中,例如由于不能在知識(shí)庫中的相同類別(或者子類別)中發(fā)現(xiàn)所比較的相應(yīng)類別信號(hào),則可以確定它們?yōu)椴黄ヅ?例如未滿足閾值)?;氐綀D3,在306處,如果類別描述符不匹配,則例如可以在308放棄修改的第一實(shí)體名稱與修改的第二實(shí)體名稱的比較,并且可以在304執(zhí)行下一比較。如上文描述的那樣, 參照?qǐng)D5,修改的第一實(shí)體名稱(如在第一分解518A中所示)包括類別描述符508<飯店.咖啡 >,而修改的第二實(shí)體名稱(如在第一分解520A中所示)包括類別描述符514<服務(wù).拖車 >。作為示例,由于這兩個(gè)類別描述符不包括匹配,則可以放棄在這個(gè)修改的第一實(shí)體名稱與這個(gè)修改的第二實(shí)體名稱之間的比較(例如不執(zhí)行進(jìn)一步的比較)。如果在306處類別描述符確實(shí)匹配,則在310處,針對(duì)相應(yīng)匹配的類別描述符對(duì), 在第一實(shí)體名稱與第二實(shí)體名稱之間的匹配分析可以包括在312處比較第一實(shí)體名稱的 (非類別)串元素與第二實(shí)體名稱的(非類別)串元素。也就是說,例如在確認(rèn)了用于修改的第一實(shí)體名稱和修改的第二實(shí)體名稱的類別描述符之間的匹配之后,可以執(zhí)行附加比較 (多個(gè))。在一個(gè)實(shí)施例中,將第一實(shí)體名稱的串元素與第二實(shí)體名稱的串元素進(jìn)行比較可以包括比較如下串元素,這些串元素不是已經(jīng)修改到中實(shí)體名稱中的類別描述符。例如,參照?qǐng)D4,修改的第一實(shí)體名稱“Stinky Pete”〈飯店.酒吧X空〉包括第一非類別描述符 Φ "Stinky Pete,,。另外,修改的第二實(shí)體名稱"Stnky Pete,,〈飯店.酒吧X空〉包括第一非類別描述符串‘、tnky Pete”。在這個(gè)實(shí)施例中,例如可以比較這些串元素‘Stinky Pete”和"Stnky Pete”以確定匹配。在一個(gè)實(shí)施例中,比較串元素可以包括確定在第一實(shí)體名稱的串元素和第二實(shí)體名稱的串元素中的相應(yīng)字符之間的原始字符距離。另外,在這個(gè)實(shí)施例中,如果原始字符距離滿足期望的閾值,則可以指示在第一實(shí)體名稱的串元素與第二實(shí)體名稱的串元素之間的匹配。例如在第一分解418A和第二分解418B中發(fā)現(xiàn)的串“Minky Pete”在與第一分解 420A中發(fā)現(xiàn)的串“Mnky Pete”進(jìn)行比較時(shí)可能滿足原始字符距離期望閾值。另外,作為示例,在來自第三分解418C、第四分解418D和第五分解418E的其余修改的第一實(shí)體名稱中發(fā)現(xiàn)的串在與第一分解420A中發(fā)現(xiàn)的串“Mnky Pete”進(jìn)行比較時(shí)可能不滿足原始字符距離期望閾值。回到圖3,在314處,如果確定用于第一和第二實(shí)體名稱的非類別串匹配(例如滿足字符距離的期望閾值),則在316處確定第一和第二實(shí)體名稱為匹配,并且可以例如在目錄中將它們鏈接或者合并在一起。然而如果確定用于第一和第二實(shí)體名稱的非類別串不匹配,則在308放棄比較,并且例如如果存在則執(zhí)行下一比較。在一個(gè)方面中,可以為修改的第一實(shí)體名稱和修改的第二實(shí)體名稱的類別描述符之間的匹配提供“通配符”〈無類別 > 類別描述符。也就是說,例如,參照?qǐng)D4和圖5,用于第一實(shí)體名稱402的第五分解418E的“通配符”< 無類別>408可以匹配用于第二實(shí)體名稱 404的第一分解420A的類別描述符 < 飯店.酒吧 > 和第二分解的420B的 < 無類別>414。 另外,在示例500中,用于第一實(shí)體名稱502的第二分解518B的“通配符”< 無類別>508可以匹配用于第二實(shí)體名稱504的第一分解520A的類別描述符 < 服務(wù).拖車 > 和第二分解 520B的〈無類別>514。即使可以在兩個(gè)修改的實(shí)體名稱之間針對(duì)類別描述符指示匹配(例如在圖3的306為“是”),則仍然在第一與第二修改的實(shí)體名稱之間比較相應(yīng)非類別串(例如在圖3 的312處)。如果非類別串未包括匹配(例如未滿足期望閾值),則放棄比較(例如在圖3的 308)。例如,如在示例500中所示,可以將用于第一實(shí)體名稱502的第二分解518B的非類別串506與用于第二實(shí)體名稱504的第一分解520A的非類別串512進(jìn)行比較,并且原始字符得分可能不滿足期望閾值(例如未匹配)。在一個(gè)方面中,當(dāng)使用“通配符”〈無類別〉類別描述符時(shí),可能有即使用于實(shí)體類型的類別可能不正常提供匹配而非類別串仍然在第一與第二實(shí)體名稱之間提供匹配這樣的非預(yù)計(jì)情況。例如,如在圖5B的示例實(shí)施例550中所示,可以將第一實(shí)體名稱 552 ‘Starbucks”與第二實(shí)體名稱554 ‘Starbucks拖車”進(jìn)行比較。在這一示例550中, 用于第一實(shí)體名稱552的第一分解568A包括非類別串556 “Marbuck”和通配符 < 無類別 >類別描述符陽8。另外,用于第二實(shí)體名稱554的第一分解570A包括非類別串562“Marbucks”和< 服務(wù).拖車〉類別描述符564。由于“通配符”558可以提供與〈服務(wù).拖車〉類別描述符564 的類別匹配,所以比較相應(yīng)非類別串。這里,用于第一實(shí)體名稱的非類別串“Marbucks”556 匹配用于第二實(shí)體名稱的非類別串‘、tarbUCks”562,第一和第二實(shí)體名稱可以視為匹配并且可以例如被合并。然而如果第一實(shí)體名稱鏈接到公知咖啡屋,則它可能不應(yīng)與連接到拖車服務(wù)的第二實(shí)體名稱相鏈接或者合并。在這一方面中,在一個(gè)實(shí)施例中,可以通過向?qū)嶓w名稱添加實(shí)體類別描述符來將實(shí)體類別描述符修改到實(shí)體名稱,其中實(shí)體類別描述符對(duì)應(yīng)于知識(shí)庫中的實(shí)體名稱。例如,如在圖5B的550中所示,針對(duì)公知或者確立的實(shí)體名稱(例如,商標(biāo)名稱),知識(shí)庫可以用來標(biāo)識(shí)用于實(shí)體的實(shí)體類別描述符。在陽0的第二分解568B中,針對(duì)第一實(shí)體名稱 "Starbucks"552識(shí)別類別信號(hào)558 “咖啡”,并且可以向?qū)嶓w名稱添加知識(shí)庫中的對(duì)應(yīng)類別描述符558。以這一方式,在這一示例中,第二分解568B的類別描述符可能不匹配第一分解 570A的類別描述符564 ;并且第二分解568B的非類別串556可能不匹配用于第二實(shí)體名稱 504的第二分解570B的非類別串562。因此,在這一示例中,通過向?qū)嶓w名稱添加類別描述符(其中僅使用沒有類別信號(hào)的常用名稱),可以減輕實(shí)體的非預(yù)計(jì)合并或者鏈接。也就是說,作為說明性示例,每當(dāng)識(shí)別(例如在可識(shí)別和/或商標(biāo)名稱的知識(shí)庫中匹配)公知公認(rèn)的實(shí)體名稱(比如用于咖啡的Marbucks或者用于消聲器服務(wù)的Midas)時(shí), 可以向?qū)嶓w名稱添加對(duì)應(yīng)類別描述符、由此減輕將公知名稱與來自不同類別的相似實(shí)體混淆的可能性。因此在這個(gè)說明性示例中,例如“Atarbucks”可以自動(dòng)變成“ Marbucks ”. < 飯店.咖啡〉和/或“Midas”可以自動(dòng)變成“Midas”.〈服務(wù).汽車·消聲器〉。此外,在這一方面中,當(dāng)使用“通配符” < 無類別 > 類別描述符時(shí),可能有即使用于實(shí)體類型的類別可能不正常提供匹配而非類別串仍然提供在第一與第二實(shí)體名稱之間的匹配這樣的其它非預(yù)計(jì)情況。例如當(dāng)利用 < 無類別 > “通配符”時(shí),潛在實(shí)體名稱“洛杉磯警察局”可以包括與“洛杉磯”的匹配。在這個(gè)示例中,“洛杉磯”.〈警察局〉可以匹配“洛杉磯”. < 無類別 >,這可能不是所希望的。因此,在一個(gè)實(shí)施例中,可以防止一些類別與 < 無類別 > 類別描述符匹配。例如可以防止市政服務(wù)(比如 < 警察局 >)匹配 < 無類別 > 類別描述符。當(dāng)然,這并不限于市政服務(wù),因?yàn)樵摷夹g(shù)也可適用于其它方式。
可以設(shè)想一種提供標(biāo)識(shí)用于相同實(shí)體的多個(gè)名稱的系統(tǒng),因而多個(gè)名稱可以例如鏈接在一起或者合并到單個(gè)名稱。圖6是用于匹配實(shí)體名稱的示例系統(tǒng)600的部件圖。存儲(chǔ)器部件602存儲(chǔ)包括實(shí)體類別描述符650和相關(guān)聯(lián)類別信號(hào)652的知識(shí)庫。也就是說, 例如可以查詢存儲(chǔ)器部件602中的知識(shí)庫以標(biāo)識(shí)與已知類別信號(hào)652關(guān)聯(lián)的未知類別描述符654。作為例子,知識(shí)庫可以包括數(shù)據(jù)庫、比如二維SQL數(shù)據(jù)庫或者多維數(shù)據(jù)庫。名稱修改部件604可與存儲(chǔ)器部件602操作耦合以利用來自知識(shí)庫的實(shí)體類別描述符6M來修改實(shí)體名稱656以產(chǎn)生修改的實(shí)體名稱658。類別匹配部件606可與名稱修改部件604操作耦合以通過將第一修改的實(shí)體名稱658中的第一實(shí)體類別描述符與第二修改的實(shí)體名稱658中的第二實(shí)體類別描述符進(jìn)行比較來確定第一實(shí)體名稱是否匹配第二實(shí)體名稱。在一個(gè)實(shí)施例中,類別匹配部件606可以標(biāo)識(shí)匹配實(shí)體名稱660,以便例如提供將兩個(gè)名稱合并或者鏈接到相同實(shí)體。圖7是圖示了這里描述的一個(gè)或者多個(gè)系統(tǒng)的一個(gè)示例實(shí)施例700的部件圖。串匹配部件714可以通過比較第一實(shí)體名稱的串元素與第二實(shí)體名稱的串元素來確定第一實(shí)體名稱是否匹配第二實(shí)體名稱。在一個(gè)實(shí)施例中,如果類別匹配部件606標(biāo)識(shí)來自修改的實(shí)體名稱760的匹配762并且標(biāo)識(shí)匹配的實(shí)體名稱764,則串匹配部件714執(zhí)行串匹配。名稱修改部件604可以包括將實(shí)體名稱758分解成一個(gè)或者多個(gè)潛在類別信號(hào) 754的分解部件710。另外,名稱修改部件604可以包括信號(hào)比較部件712,該部件相對(duì)于存儲(chǔ)器部件602中的、包括已知類別信號(hào)754的知識(shí)庫來比較相應(yīng)類別信號(hào)754以標(biāo)識(shí)用于類別信號(hào)754的對(duì)應(yīng)類別描述符756。知識(shí)庫可以包括多個(gè)實(shí)體類別描述符750,其中相應(yīng)實(shí)體類別描述符750對(duì)應(yīng)于一個(gè)或者多個(gè)類別信號(hào)752。也就是說,例如,知識(shí)庫可以包括數(shù)據(jù)庫類型,其中類別描述符 750與一個(gè)或者多個(gè)類別信號(hào)752相鏈接/關(guān)聯(lián)。在一個(gè)實(shí)施例中,類別信號(hào)乃4、752可以包括已知與對(duì)應(yīng)實(shí)體類別描述符750、 756相關(guān)聯(lián)的企業(yè)名稱。也就是說,例如企業(yè)名稱可以公知為與特定品牌或者企業(yè)類型(例如注冊(cè)商標(biāo)的實(shí)體)相關(guān)聯(lián)。在這個(gè)實(shí)施例中,類別信號(hào)可以包括企業(yè)名稱(例如 MarbuCkS、Midas、Cabela),以便與名稱相關(guān)聯(lián)的已知企業(yè)類型(例如咖啡、消聲器、旅行用品商)可以例如是與知識(shí)庫中的名稱相鏈接/關(guān)聯(lián)的類別描述符。以這一方式,在這個(gè)示例中,當(dāng)相對(duì)于知識(shí)庫中的類別信號(hào)752比較企業(yè)名稱時(shí),諸如通過名稱修改部件604可以標(biāo)識(shí)相關(guān)聯(lián)的類別描述符750。另一實(shí)施例涉及包括被配置為實(shí)現(xiàn)這里給出的一種或多種技術(shù)的處理器可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì)。圖8中說明了可按這些方式設(shè)計(jì)的示例計(jì)算機(jī)可讀介質(zhì),其中實(shí)現(xiàn)800包括計(jì)算機(jī)可讀介質(zhì)808 (例如,⑶-R、DVD-R或硬盤驅(qū)動(dòng)器的盤片),其上編碼了計(jì)算機(jī)可讀數(shù)據(jù)806。計(jì)算機(jī)可讀數(shù)據(jù)806又包括被配置為根據(jù)這里闡述的一項(xiàng)或多項(xiàng)原則進(jìn)行操作的計(jì)算機(jī)指令集804。例如,在一個(gè)這樣的實(shí)施例802中,處理器可執(zhí)行的計(jì)算機(jī)指令804可被配置為執(zhí)行方法,諸如圖1的示例方法100。例如,在另一個(gè)這樣的實(shí)施例中, 處理器可執(zhí)行指令812可被配置為實(shí)現(xiàn)諸如圖6的示例系統(tǒng)600之類的系統(tǒng)。本領(lǐng)域普通技術(shù)人員可設(shè)計(jì)出被配置為根據(jù)這里給出的技術(shù)進(jìn)行操作的許多這樣的計(jì)算機(jī)可讀介質(zhì)。雖然利用了特定于結(jié)構(gòu)特征和/或方法動(dòng)作的語言描述了主題,但應(yīng)理解,所附權(quán)利要求中限定的主題不必限于上述特定特征或動(dòng)作。相反,公開了上述具體特征和動(dòng)作來作為實(shí)現(xiàn)權(quán)利要求的示例形式。如本申請(qǐng)中所使用的,術(shù)語“部件”、“模塊”、“系統(tǒng)”、“接口”等通常意圖表示計(jì)算機(jī)相關(guān)的實(shí)體,如硬件、硬件和軟件的組合、軟件或者執(zhí)行中的軟件。例如,部件可以是但不限于處理器上運(yùn)行的進(jìn)程、處理器、對(duì)象、可執(zhí)行文件、執(zhí)行線程、程序和/或計(jì)算機(jī)。通過示例的方式,控制器上運(yùn)行的應(yīng)用和控制器均可以是部件。一個(gè)或多個(gè)部件可駐留在執(zhí)行的進(jìn)程和/或線程中,并且部件可位于一個(gè)計(jì)算機(jī)上和/或分布在兩個(gè)或更多個(gè)計(jì)算機(jī)之間。另外,可使用標(biāo)準(zhǔn)編程和/或工程技術(shù)來將所要求保護(hù)的主題實(shí)現(xiàn)為方法、裝置, 或制品,來生產(chǎn)軟件、固件、硬件或它們的任何組合以控制計(jì)算機(jī)實(shí)現(xiàn)所公開的主題。這里所使用的術(shù)語“制品”意圖包括可從任何計(jì)算機(jī)可讀設(shè)備、載體或介質(zhì)存取的計(jì)算機(jī)程序。 當(dāng)然,本領(lǐng)域技術(shù)人員將意識(shí)到可對(duì)該配置進(jìn)行許多修改而不脫離所要求保護(hù)主題的范圍或精神。圖9和以下討論提供了實(shí)現(xiàn)這里闡述的一個(gè)或多個(gè)規(guī)定的實(shí)施例的適合計(jì)算環(huán)境的簡要概述。圖9的操作環(huán)境僅是適合的操作環(huán)境的一個(gè)例子,而不意圖暗示對(duì)于操作環(huán)境的使用或功能范圍的任何限制。示例計(jì)算設(shè)備包括但不限于個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持或膝上型設(shè)備、移動(dòng)設(shè)備(諸如移動(dòng)電話、個(gè)人數(shù)字助理(PDA),媒體播放器等),多處理器系統(tǒng)、消費(fèi)者電子產(chǎn)品、迷你計(jì)算機(jī)、大型計(jì)算機(jī),包括任何上述系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等。盡管未要求,以由一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行的“計(jì)算機(jī)可讀指令”的一般語境描述了實(shí)施例。計(jì)算機(jī)可讀指令可經(jīng)由計(jì)算機(jī)可讀介質(zhì)(以下討論)分發(fā)。計(jì)算機(jī)可讀指令可被實(shí)現(xiàn)為程序模塊,諸如函數(shù)、對(duì)象、應(yīng)用程序接口(API)、數(shù)據(jù)結(jié)構(gòu)等,其執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定的抽象數(shù)據(jù)類型。典型地,計(jì)算機(jī)可讀指令的功能性可根據(jù)需要在各種環(huán)境中組合或分布。圖9說明了系統(tǒng)910的例子,其包括被配置為實(shí)現(xiàn)這里提供的一個(gè)或多個(gè)實(shí)施例的計(jì)算設(shè)備912。在一個(gè)配置中,計(jì)算設(shè)備912包括至少一個(gè)處理單元916和存儲(chǔ)器918。 根據(jù)計(jì)算設(shè)備的具體配置和類型,存儲(chǔ)器918可為易失性(例如,如RAM),非易失性(例如, 如ROM、閃速存儲(chǔ)器等)或兩者的一些組合。圖9中用虛線914說明此配置。在另一個(gè)實(shí)施例中,設(shè)備912可包括附加特征和/或功能。例如,設(shè)備912也可包括附加存儲(chǔ)設(shè)備(例如,可移除和/或不可移除),該存儲(chǔ)設(shè)備包括但不限于磁存儲(chǔ)設(shè)備、光學(xué)存儲(chǔ)設(shè)備等。在圖9中由存儲(chǔ)設(shè)備920說明了這樣的附加存儲(chǔ)設(shè)備。在一個(gè)實(shí)施例中, 用來實(shí)現(xiàn)這里提供的一個(gè)或多個(gè)實(shí)施例的計(jì)算機(jī)可讀指令可在存儲(chǔ)設(shè)備920中。存儲(chǔ)設(shè)備 920也可存儲(chǔ)用來實(shí)現(xiàn)操作系統(tǒng)、應(yīng)用程序等的其他計(jì)算機(jī)可讀指令。例如,計(jì)算機(jī)可讀指令可被加載到存儲(chǔ)器918中以由處理單元916執(zhí)行。這里使用的術(shù)語“計(jì)算機(jī)可讀介質(zhì)”包括計(jì)算機(jī)存儲(chǔ)介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括以用于存儲(chǔ)諸如計(jì)算機(jī)可讀指令或其他數(shù)據(jù)之類的信息的任何方法或技術(shù)實(shí)現(xiàn)的易失性和非易失性、可移除和不可移除介質(zhì)。存儲(chǔ)器918和存儲(chǔ)設(shè)備920是計(jì)算機(jī)存儲(chǔ)介質(zhì)的示例。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于RAM、R0M、EEPR0M、閃速存儲(chǔ)器或其他存儲(chǔ)技術(shù)、CD-ROM、 數(shù)字多用盤(DVD)或其他光學(xué)存儲(chǔ)設(shè)備、磁卡帶、磁帶、磁盤存儲(chǔ)設(shè)備或其他磁存儲(chǔ)設(shè)備,或可用作存儲(chǔ)需要的信息并且可通過設(shè)備912訪問的任何其他介質(zhì)。任何這樣的計(jì)算機(jī)存儲(chǔ)介質(zhì)可以是設(shè)備912的一部分。設(shè)備912還可包括允許設(shè)備912與其他設(shè)備進(jìn)行通信的通信連接(多個(gè))926。通信連接(多個(gè))擬6可包括但不限于調(diào)制解調(diào)器、網(wǎng)絡(luò)接口卡(NIC)、集成網(wǎng)絡(luò)接口、射頻發(fā)射機(jī)/接收機(jī)、紅外端口、USB連接或用于將計(jì)算設(shè)備912連接至其他計(jì)算設(shè)備的其他接口。 通信連接(多個(gè))926可包括有線連接或無線連接。通信連接(多個(gè))926可發(fā)射和/或接收通信介質(zhì)。術(shù)語“計(jì)算機(jī)可讀介質(zhì)”可包括通信介質(zhì)。典型地,通信介質(zhì)包括“調(diào)制數(shù)據(jù)信號(hào)” (諸如載波或其他傳輸機(jī)制)中的計(jì)算機(jī)可讀指令或其他數(shù)據(jù),并包括任何信息遞送介質(zhì)。 術(shù)語“調(diào)制數(shù)據(jù)信號(hào)”可包括以在該信號(hào)中編碼信息這樣的方式設(shè)置或改變其一個(gè)或多個(gè)特性的信號(hào)。設(shè)備912可包括諸如鍵盤、鼠標(biāo)、筆、語音輸入設(shè)備、觸摸輸入設(shè)備、紅外相機(jī)、視頻輸入設(shè)備和/或任何其他輸入設(shè)備的輸入設(shè)備(多個(gè))924。設(shè)備912也可包括諸如一個(gè)或多個(gè)顯示器、揚(yáng)聲器、打印機(jī)和/或任何其他輸出設(shè)備的輸出設(shè)備(多個(gè))922。輸入設(shè)備 (多個(gè))924和輸出設(shè)備(多個(gè))922可經(jīng)由有線連接、無線連接或其任何組合與設(shè)備912連接。在一個(gè)實(shí)施例中,來自另一計(jì)算設(shè)備的輸入設(shè)備或輸出設(shè)備可被用作計(jì)算設(shè)備912的輸入設(shè)備(多個(gè))924或輸出設(shè)備(多個(gè))922。計(jì)算設(shè)備912中的部件可通過諸如總線之類的各種互連進(jìn)行連接。這些互連可包括外設(shè)部件互連(PCI ),如PCI高速、通用串行總線(USB)、火線(IEEE 1394)、光學(xué)總線結(jié)構(gòu)等。在另一個(gè)實(shí)施例中,計(jì)算設(shè)備912的部件可通過網(wǎng)絡(luò)互連。例如,存儲(chǔ)器918可包括位于通過網(wǎng)絡(luò)互連的不同物理位置上的多個(gè)物理存儲(chǔ)器單元。本領(lǐng)域技術(shù)人員將意識(shí)到,用來存儲(chǔ)計(jì)算機(jī)可讀指令的存儲(chǔ)設(shè)備可在網(wǎng)絡(luò)上分發(fā)。例如,可經(jīng)由網(wǎng)絡(luò)擬8訪問的計(jì)算設(shè)備930可存儲(chǔ)計(jì)算機(jī)可讀指令以實(shí)現(xiàn)這里提供的一個(gè)或多個(gè)實(shí)施例。計(jì)算設(shè)備912可訪問計(jì)算設(shè)備930,并下載計(jì)算機(jī)可讀指令的一部分或全部用以執(zhí)行??商鎿Q地,計(jì)算設(shè)備912可根據(jù)需要下載計(jì)算機(jī)可讀指令的片段,或者一些指令可在計(jì)算設(shè)備912處執(zhí)行且一些在計(jì)算設(shè)備930處執(zhí)行。這里提供了實(shí)施例的各種操作。在一個(gè)實(shí)施例中,所述操作中的一個(gè)或多個(gè)可構(gòu)成在一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)上存儲(chǔ)的計(jì)算機(jī)可讀指令,如果該計(jì)算機(jī)可讀指令由計(jì)算設(shè)備執(zhí)行,則將使得計(jì)算設(shè)備執(zhí)行所述操作。操作中的一些或全部被描述的次序不應(yīng)被理解為暗示這些操作必須依賴于該順序。本領(lǐng)域技術(shù)人員在獲取了本說明的益處后將意識(shí)到其他順序。另外,將理解,并不是所有的操作都必須在這里提供的每個(gè)實(shí)施例中存在。此外,詞語“示例”在這里用來表示充當(dāng)例子、實(shí)例或說明。這里描述為“示例”的任何方面或設(shè)計(jì)不必被理解為優(yōu)于其他方面或設(shè)計(jì)。相反,詞語示例的使用意圖給出抽象形式的概念。如在本申請(qǐng)中所使用的,術(shù)語“或”意圖表示包括性的“或”而非排他性的“或”。 也就是說,除非特別指出或從上下文清楚理解,“X采用A或B”意圖表示任何自然的包括性枚舉。即,如果X采用A ;X采用B ;或X采用A和B兩者,則在任何前述實(shí)例下均滿足“X采用A或B”。此外,本申請(qǐng)和所附權(quán)利要求中所使用的不定冠詞“一”或“一個(gè)”可通常被理解為“一個(gè)或多個(gè)”,除非特別指出或從上下文清楚理解為針對(duì)單數(shù)形式。而且,盡管已經(jīng)參照一個(gè)或多個(gè)實(shí)現(xiàn)方式示出和描述了本公開,但是基于對(duì)本說明書和附圖的閱讀和理解,本領(lǐng)域技術(shù)人員將得到等同的替代或修改。本公開包括所有這樣的修改和替代,且僅僅受限于以下權(quán)利要求的范圍。尤其對(duì)于由上述部件(例如,單元、資源等)執(zhí)行的各種功能,用來表述這樣的部件的術(shù)語意圖對(duì)應(yīng)于(除非另外指出)執(zhí)行所述部件的特定功能的任何部件(例如,是功能等同的),即使在結(jié)構(gòu)上不等同于執(zhí)行這里說明的本公開示例實(shí)現(xiàn)方式的功能的所公開的結(jié)構(gòu)。此外,盡管可參考幾個(gè)實(shí)現(xiàn)方式中的僅僅一個(gè)公開了本公開的具體特征,但是這樣的特征可與其他實(shí)現(xiàn)方式的一個(gè)或多個(gè)其他特征進(jìn)行組合,這可能是期望的并且對(duì)于任何給定的或具體的應(yīng)用而言是有利的。另外,在具體實(shí)施方式
或權(quán)利要求中使用術(shù)語“包括”、“具有”、“有”、“帶有”或其變形的情況下,這樣的術(shù)語意圖為類似于術(shù)語“包含”的方式的包括性。
權(quán)利要求
1.一種用于匹配實(shí)體名稱的基于計(jì)算機(jī)的方法(100),包括在第一實(shí)體名稱與第二實(shí)體名稱之間執(zhí)行匹配分析包括將修改到所述第一實(shí)體名稱的第一實(shí)體類別描述符與修改到所述第二實(shí)體名稱的第二實(shí)體類別描述符進(jìn)行比較 (106)。
2.根據(jù)權(quán)利要求1所述的方法,包括以下中的一個(gè)或者多個(gè)將所述第一實(shí)體類別描述符修改到所述第一實(shí)體名稱中;以及將所述第二實(shí)體類別描述符修改到所述第二實(shí)體名稱中。
3.根據(jù)權(quán)利要求1所述的方法,包括針對(duì)相應(yīng)實(shí)體名稱,將所述實(shí)體名稱分解成一個(gè)或者多個(gè)潛在類別信號(hào);以及相對(duì)于已知類別信號(hào)的知識(shí)庫來比較相應(yīng)類別信號(hào)以標(biāo)識(shí)用于所述類別信號(hào)的對(duì)應(yīng)類別描述符。
4.根據(jù)權(quán)利要求3所述的方法,包括以下中的一個(gè)或者多個(gè)將所述第一實(shí)體類別描述符修改到所述第一實(shí)體名稱中包括將所述第一實(shí)體名稱中的所述類別信號(hào)替換為所標(biāo)識(shí)的對(duì)應(yīng)類別描述符;以及將所述第二實(shí)體類別描述符修改到所述第二實(shí)體名稱中包括將所述第二實(shí)體名稱中的所述類別信號(hào)替換為所標(biāo)識(shí)的對(duì)應(yīng)類別描述符。
5.根據(jù)權(quán)利要求3所述的方法,所述實(shí)體名稱包括企業(yè)實(shí)體名稱;所述類別描述符包括企業(yè)類型類別;以及所述類別信號(hào)包括描述所述企業(yè)類型類別中的企業(yè)的串。
6.根據(jù)權(quán)利要求1所述的方法,將修改到所述第一實(shí)體名稱的第一實(shí)體類別描述符與修改到所述第二實(shí)體名稱的第二實(shí)體類別描述符進(jìn)行比較包括確定在類別樹中在所述第一實(shí)體類別描述符與所述第二實(shí)體類別描述符之間的距離。
7.根據(jù)權(quán)利要求1所述的方法,將修改到所述第一實(shí)體名稱的第一實(shí)體類別描述符與修改到所述第二實(shí)體名稱的第二實(shí)體類別描述符進(jìn)行比較包括確定實(shí)體類型是否可以均包括在所述第一實(shí)體類別描述符的第一實(shí)體類別和所述第二實(shí)體類別描述符的第二實(shí)體類別中。
8.根據(jù)權(quán)利要求1所述的方法,在第一實(shí)體名稱與第二實(shí)體名稱之間執(zhí)行匹配分析包括將所述第一實(shí)體名稱的串元素與所述第二實(shí)體名稱的串元素進(jìn)行比較。
9.根據(jù)權(quán)利要求8所述的方法,包括如果在修改到所述第一實(shí)體名稱的所述第一實(shí)體類別描述符與修改到所述第二實(shí)體名稱的所述第二實(shí)體類別描述符之間標(biāo)識(shí)到匹配,則比較串元素。
10.根據(jù)權(quán)利要求1所述的方法,包括通過添加無類別描述符來修改所述第一和第二實(shí)體名稱中的一個(gè)或者多個(gè),其中所述無類別描述符包括通配符。
11.根據(jù)權(quán)利要求1所述的方法,包括通過向所述實(shí)體名稱添加所述實(shí)體類別描述符來將所述實(shí)體類別描述符修改到所述實(shí)體名稱中,其中所述實(shí)體類別描述符對(duì)應(yīng)于知識(shí)庫中的所述實(shí)體名稱。
12.一種用于匹配實(shí)體名稱的系統(tǒng)(600),包括存儲(chǔ)器部件(602),配置成存儲(chǔ)包括實(shí)體類別描述符和相關(guān)聯(lián)的類別信號(hào)的知識(shí)庫;名稱修改部件(604),可與所述存儲(chǔ)器部件操作耦合并且配置成用來自所述知識(shí)庫的實(shí)體類別描述符來修改實(shí)體名稱;以及類別匹配部件(606),可與所述名稱修改部件操作耦合并且配置成通過將第一修改的實(shí)體名稱中的第一實(shí)體類別描述符與第二修改的實(shí)體名稱中的第二實(shí)體類別描述符進(jìn)行比較來確定第一實(shí)體名稱是否匹配第二實(shí)體名稱。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),包括串匹配部件,配置成如果所述類別匹配部件標(biāo)識(shí)匹配,則通過比較所述第一實(shí)體名稱的串元素與所述第二實(shí)體名稱的串元素來確定所述第一實(shí)體名稱是否匹配所述第二實(shí)體名稱。
14.根據(jù)權(quán)利要求12所述的系統(tǒng),所述知識(shí)庫包括多個(gè)實(shí)體類別描述符,其中相應(yīng)的實(shí)體類別描述符對(duì)應(yīng)于一個(gè)或者多個(gè)類別信號(hào)。
15.根據(jù)權(quán)利要求12所述的系統(tǒng),所述名稱修改部件包括分解部件,配置成將所述實(shí)體名稱分解成一個(gè)或者多個(gè)潛在類別信號(hào);以及信號(hào)比較部件,配置成相對(duì)于包括已知類別信號(hào)的所述知識(shí)庫來比較相應(yīng)類別信號(hào)以標(biāo)識(shí)用于所述類別信號(hào)的對(duì)應(yīng)類別描述符。
全文摘要
公開了一種或者多種用于匹配實(shí)體名稱的技術(shù)和/或系統(tǒng)。在第一實(shí)體名稱(例如企業(yè)實(shí)體名稱)與第二實(shí)體名稱之間執(zhí)行匹配分析。匹配分析包括將已經(jīng)修改到所述第一實(shí)體名稱中的第一實(shí)體類別描述符與已經(jīng)修改到第二實(shí)體名稱中的第二實(shí)體類別描述符進(jìn)行比較。如果在類別描述符中標(biāo)識(shí)匹配,則第一和第二實(shí)體名稱可以包括相同實(shí)體。
文檔編號(hào)G06F17/30GK102385625SQ20111032909
公開日2012年3月21日 申請(qǐng)日期2011年10月26日 優(yōu)先權(quán)日2010年10月26日
發(fā)明者約翰斯頓 C. 申請(qǐng)人:微軟公司