專利名稱:針對(duì)自動(dòng)化本體生成領(lǐng)域語料庫和字典的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及詞典編撰分析領(lǐng)域,且更具而言涉及針對(duì)自動(dòng)化本體生成領(lǐng)域 語料庫(domain corpus)禾口字典。
背景技術(shù):
領(lǐng)域語料庫可以是某一領(lǐng)域的文檔的集合。文檔可以是術(shù)語的集合。字典可以包 括該領(lǐng)域中感興趣的術(shù)語。感興趣的術(shù)語和領(lǐng)域語料庫可用于識(shí)別相關(guān)術(shù)語。
發(fā)明內(nèi)容
依照本發(fā)明,可以減小或消除與用于生成字典和共現(xiàn)上下文的在先技術(shù)相關(guān)的缺 點(diǎn)和問題。根據(jù)一個(gè)實(shí)施方式,生成領(lǐng)域語料庫包括訪問知識(shí)庫。知識(shí)庫包括一組文章。各 篇文章對(duì)應(yīng)于特定主題且包括鏈接到與其他主題相對(duì)應(yīng)的其他文章的一個(gè)或更多個(gè)術(shù)語。 從用于領(lǐng)域語料庫的知識(shí)庫中選擇第一組第一文章。識(shí)別與第一組第一文章相關(guān)的第二組 第二文章。從用于領(lǐng)域語料庫的知識(shí)庫中選擇第二組第二文章。使得領(lǐng)域語料庫為可訪問 的。本發(fā)明的某些實(shí)施方式可以提供一個(gè)或更多個(gè)技術(shù)優(yōu)點(diǎn)。一個(gè)技術(shù)優(yōu)點(diǎn)可以是, 實(shí)施方式可以適用于諸如英語或其他語言的任意適當(dāng)語言。另一技術(shù)優(yōu)點(diǎn)可以是,實(shí)施方 式產(chǎn)生字典和共現(xiàn)上下文。另一技術(shù)優(yōu)點(diǎn)可以是,可以從諸如在線文章數(shù)據(jù)庫的知識(shí)庫來 生成語料庫。本發(fā)明的某些實(shí)施方式可以不包括上述技術(shù)優(yōu)點(diǎn),可以包括一些或全部上述技術(shù) 優(yōu)點(diǎn)。根據(jù)此處包括的附圖、說明和權(quán)利要求,一個(gè)或更多個(gè)技術(shù)優(yōu)點(diǎn)對(duì)于本領(lǐng)域技術(shù)人員 而言可以是顯而易見的。
為了更完整地理解本發(fā)明及其特征和優(yōu)點(diǎn),現(xiàn)在結(jié)合附圖進(jìn)行以下說明,在附圖 中圖1示出確定術(shù)語和/或文檔深度的系統(tǒng)10的一個(gè)實(shí)施方式;圖2示出可與圖1的系統(tǒng)一起使用的語料庫模塊的一個(gè)實(shí)施方式;圖3示出可與圖1的系統(tǒng)一起使用的親和度模塊的一個(gè)實(shí)施方式;圖4示出可與圖1的系統(tǒng)一起使用的用于識(shí)別術(shù)語并確定共現(xiàn)的方法的示例;圖5示出了可與圖1的系統(tǒng)一起使用的用于選擇文檔的方法的示例。
具體實(shí)施例方式通過參照附圖中的圖1至圖5,可以更好地理解本發(fā)明的實(shí)施方式及其優(yōu)點(diǎn),對(duì)于 各圖中的相似部分和相應(yīng)部分使用相同的標(biāo)號(hào)。
在某些實(shí)施方式中,可以創(chuàng)建領(lǐng)域本體且隨后對(duì)領(lǐng)域本體進(jìn)行查詢。在某些示例 中,處理可以包括如下步驟1.收集給定領(lǐng)域中的t檔。領(lǐng)域語料庫(或“領(lǐng)域”)是文檔的集合。文檔是術(shù) 語的集合。文檔的示例包括一段文本(例如,《新約圣經(jīng)》)、書、文章以及一組獨(dú)立地和/或 共同地描述圖像內(nèi)容的由用戶輸入的標(biāo)簽。2.識(shí)別領(lǐng)域中感興趣的術(shù)語(字典術(shù)語)。術(shù)語可以是詞(例如“樹”)、短語(例 如,“圖形算法”)、命名實(shí)體(例如“紐約”)等。術(shù)語可以未必一字不差地出現(xiàn)在一個(gè)文檔 或多個(gè)文檔中。作為第一示例,術(shù)語能夠具有很多形式,例如“kidney stones(腎石頭)” 和“kidney calculi (腎結(jié)石)”表示相同的概念,外行所知的“kidney st0nes(腎石頭)” 和醫(yī)務(wù)人員所知的“kidney calculi (腎結(jié)石)”。出于創(chuàng)建本體的目的,可以將某個(gè)術(shù)語的 多個(gè)形式處理為映射到相同術(shù)語(或概念)。作為第二示例,詞干形式是一個(gè)術(shù)語的各種屈 折變型(inflected variant)中不變的部分。本體中的術(shù)語可以通過其詞干形式引用。例 如,術(shù)語“ trees”的詞干為術(shù)語“ tree”,因而,術(shù)語可能是“ tree”而非“ trees”。用于識(shí)別字典術(shù)語的方法的示例包括使用針對(duì)專業(yè)領(lǐng)域的人為創(chuàng)造的字典(例 如用于醫(yī)學(xué)領(lǐng)域的醫(yī)學(xué)術(shù)語字典)或基于語料庫中的文本字符串集自動(dòng)產(chǎn)生的術(shù)語列表 (例如,通過對(duì)語料庫文檔中的字符串進(jìn)行編索引且然后將字符串按照頻率進(jìn)行排序并且 選擇頻率高于閾值的字符串而產(chǎn)生的列表或通過使用類似統(tǒng)計(jì)方法而產(chǎn)生的列表)。3. X仔鄉(xiāng)雜,i十就輪會(huì)合棘■卜.T種_現(xiàn)通。共現(xiàn)上下文的示例 是文檔,即,如果在同一文檔中兩個(gè)術(shù)語各自出現(xiàn)至少一次,則這兩個(gè)術(shù)語共現(xiàn)。共現(xiàn)上下 文的另一示例是段落,即,如果在同一段落中兩個(gè)術(shù)語各自出現(xiàn)至少一次,則這兩個(gè)術(shù)語共 現(xiàn)。4.使用字典術(shù)語作為節(jié)點(diǎn)并目.使用親和度(affinity)作為邊的權(quán)重來創(chuàng)建有向 加權(quán)圖。該圖包括領(lǐng)域本體。此處概念性地使用術(shù)語“有向加權(quán)圖”,因?yàn)榭梢砸愿鞣N數(shù)據(jù) 結(jié)構(gòu)(例如矩陣、二元判決圖)來實(shí)現(xiàn)對(duì)相同信息的實(shí)際表達(dá)??梢允褂糜H和度的任意適當(dāng)?shù)亩x。示例包括a.在某些情形中,術(shù)語A和B之間的基本親和度(Basic Affinity)定義為包含術(shù) 語A和B 二者的共現(xiàn)上下文數(shù)與包含術(shù)語A、B其中之一的共現(xiàn)上下文數(shù)之比A(A, B) = |AB|/|A or Bb.在其他情形中,基本親和度定義為包含術(shù)語A和B 二者的共現(xiàn)上下文數(shù)與包含 術(shù)語A的共現(xiàn)上下文數(shù)或包含術(shù)語B的共現(xiàn)上下文數(shù)中的最大值之比A (A, B) = | AB | /max (| A |,| B |)c.術(shù)語A、B之間有向親和度(Directional Affinity (DAff))定義為,在某一共 現(xiàn)上下文(例如,在同一文檔)中已觀察到術(shù)語A時(shí)觀察到術(shù)語B的條件概率DAff (A, B) = AB | / | A也就是說,DAff (A,B)可以是包含術(shù)語A和B 二者的共現(xiàn)上下文數(shù)與包含術(shù)語A 的共現(xiàn)上下文數(shù)之比。一般而言,DAff (A,B)不同于DAff (B,A)。d.術(shù)語A和B之間的差分有向親和度(Differential DirectionalAffinity(DiffDAff))定義為術(shù)語A和B之間的有向親和度減去考慮了語料庫 中術(shù)語B的普通度(common-ness)的因子。語料庫中術(shù)語B的普通度一般是術(shù)語B對(duì)于語料庫中所有其他術(shù)語的所有基本親和度或有向親和度值的統(tǒng)計(jì)值。語料庫中術(shù)語B的普通 度的一個(gè)示例是術(shù)語B的平均親和度,得出差分有向親和度的如下定義DiffDaff (A, B) = DA (A, B) _AA (B)術(shù)語B的平均親和度(AA)或平均有向親和度定義為AA(B) = AVERAGE_xDAff (x, B)也就是說,AA⑶可以是所有共現(xiàn)上下文中所有其他術(shù)語與術(shù)語B的有向親和度 的平均值。5.杳詢圖(本體)。給出一個(gè)或更多個(gè)字典術(shù)語作為輸入,該圖可用于輸出與輸 入術(shù)語相關(guān)的一個(gè)或更多個(gè)字典術(shù)語。在一個(gè)示例中,給出術(shù)語作為輸入,輸出是與輸入術(shù) 語的最高差分有向親和度最高的術(shù)語的排序列表。在這種情形下,就本體所處的領(lǐng)域而言, 輸出術(shù)語與輸入術(shù)語更加密切關(guān)聯(lián)。圖1示出了可以為自動(dòng)化本體產(chǎn)生領(lǐng)域語料庫和/或字典且/或確定共現(xiàn)上下文 的系統(tǒng)10的一個(gè)實(shí)施方式。在某些實(shí)施方式中,產(chǎn)生字典并確定共現(xiàn)上下文的方法包括訪 問包含文章的領(lǐng)域語料庫的步驟。每篇文章對(duì)應(yīng)于特定主題且包含鏈接到與一個(gè)或更多個(gè) 其他主題相對(duì)應(yīng)的一個(gè)或更多其他文章的一個(gè)或更多個(gè)術(shù)語。將各個(gè)主題指定為術(shù)語以生 成字典。針對(duì)領(lǐng)域語料庫定義共現(xiàn)上下文。認(rèn)為在共現(xiàn)上下文中出現(xiàn)的至少兩個(gè)術(shù)語是共 現(xiàn)的。根據(jù)共現(xiàn)上下文來計(jì)算術(shù)語之間的共現(xiàn)。在某些實(shí)施方式中,產(chǎn)生領(lǐng)域語料庫的方法包含訪問知識(shí)庫的步驟。知識(shí)庫包含 一組文章。每篇文章對(duì)應(yīng)于特定主題,并且包含鏈接到與其他主題相對(duì)應(yīng)的其他文章的一 個(gè)或更多個(gè)術(shù)語。從用于領(lǐng)域語料庫的知識(shí)庫中選出第一組第一文章。識(shí)別與第一組第一 文章相關(guān)的第二組第二文章。從所述用于領(lǐng)域語料庫的知識(shí)庫中選出第二組第二文章。使 得領(lǐng)域語料庫是可訪問的。在所示實(shí)施方式中,系統(tǒng)10包括客戶端20、服務(wù)器22和存儲(chǔ)器24??蛻舳?0允 許用戶與服務(wù)器22通信以針對(duì)自動(dòng)化本體生成領(lǐng)域語料庫和/或字典并且/或者確定共 現(xiàn)上下文??蛻舳?0可以向服務(wù)器22發(fā)送用戶輸入,可以向用戶提供(例如,顯示或打 印)服務(wù)器輸出。服務(wù)器22管理用于產(chǎn)生語言本體的應(yīng)用。存儲(chǔ)器24存儲(chǔ)服務(wù)器22使 用的數(shù)據(jù)。在所示實(shí)施方式中,存儲(chǔ)器24存儲(chǔ)語料庫50和記錄54。語料庫50可以包含文章 的集合且可以與特定的論題、團(tuán)體、組織或其他實(shí)體相關(guān)聯(lián)。文章(或“頁”或“文檔”)可 以表示術(shù)語的集合。文章的示例包括文檔中的一頁或更多頁、一個(gè)或更多個(gè)文檔、一本或更 多本書、一個(gè)或更多個(gè)網(wǎng)頁、信件(例如,電子郵件或即時(shí)消息)和/或其他術(shù)語集合???以通過文章識(shí)別器來識(shí)別文章。文章可以電子地存儲(chǔ)在一個(gè)或更多個(gè)有形計(jì)算機(jī)可讀介質(zhì) 中。文章可以與任意適當(dāng)?shù)膬?nèi)容相關(guān)聯(lián),例如可以與文本(諸如字符、詞和/或數(shù)字)、圖像 (諸如圖形、照片或視頻)、音頻(諸如錄音或計(jì)算機(jī)生成的聲音)和/或軟件程序相關(guān)聯(lián)。 也可以針對(duì)知識(shí)庫52來描述文章。記錄54描述語料庫50。在本實(shí)施方式中,記錄54包括本體66。本體66代表語 言術(shù)語以及術(shù)語之間的關(guān)系。在一個(gè)實(shí)施方式中,本體66代表術(shù)語之間的親和度。在某些 實(shí)施方式中,本體66包括親和度矩陣。作為示例,親和度矩陣可以記錄術(shù)語的基本親和度 或兩兩親和度。作為另一示例,親和度矩陣可以記錄有向親和度。在該示例中,親和度矩陣可以包括按行表示的A術(shù)語和按列表示的B術(shù)語。矩陣中的行記錄了給定A術(shù)語時(shí)B術(shù)語 的親和度,而矩陣的列記錄了給定B術(shù)語時(shí)A術(shù)語的親和度。作為另一示例,親和度矩陣可 以記錄平均親和度。在某些實(shí)施方式中,本體66包括親和度圖。作為示例,親和度圖包括節(jié)點(diǎn)、邊和鏈 接。節(jié)點(diǎn)代表術(shù)語。節(jié)點(diǎn)與節(jié)點(diǎn)之間的有向邊的權(quán)重代表節(jié)點(diǎn)所表示的術(shù)語之間的親和 度。例如,權(quán)重越大代表親和度越大。節(jié)點(diǎn)之間的鏈接指示節(jié)點(diǎn)所表示的術(shù)語之間的親和 度高于親和度閾值。親和度閾值可以具有任意適當(dāng)?shù)闹担?,大于或等?. 25,0. 5,0. 75 或 0. 95。知識(shí)庫52代表可以從中選出語料庫50的數(shù)據(jù)庫中的信息。在某些實(shí)施方式中, 知識(shí)庫52可以包含文章的集合。每篇文章可以對(duì)應(yīng)于特定主題。在某些實(shí)施方式中,文章 可以描述主題,例如,對(duì)應(yīng)于主題X的百科全書文章可以描述主題X。在某些實(shí)施方式中,可 以通過術(shù)語來識(shí)別文章,該術(shù)語可以是主題。在某些實(shí)施方式中,文章引用其他文章。例如,文章可以包括內(nèi)容,而該內(nèi)容可以 包括鏈接術(shù)語??梢赃x擇鏈接術(shù)語以訪問對(duì)應(yīng)于該鏈接術(shù)語的其他文章,或者鏈接術(shù)語可 以具有到對(duì)應(yīng)于該鏈接術(shù)語的其他文章的“鏈接”。例如,對(duì)應(yīng)于主題X的文章可以使用鏈 接術(shù)語來描述主題X??蛇x擇鏈接術(shù)語以訪問對(duì)應(yīng)于主題Y的其他文章。有向鏈接可以是 從對(duì)應(yīng)于主題X的文章到對(duì)應(yīng)于主題Y的另一文章、但未必從對(duì)應(yīng)于主題Y的文章到對(duì)應(yīng) 于主題X的文章的鏈接。在某些實(shí)施方式中,知識(shí)庫52可以是在線文章數(shù)據(jù)庫。在線文章數(shù)據(jù)庫包含可 以通過計(jì)算機(jī)經(jīng)由例如因特網(wǎng)的任何適當(dāng)?shù)木W(wǎng)絡(luò)訪問的計(jì)算機(jī)化的文章。知識(shí)庫52的 示例包括在線百科全書(例如,Wikipedia(維基百科))、超文本百科全書(例如,online Britarmica (不列顛百科全書在線版)、Encarta (微軟的數(shù)字電子百科全書)等)、超文本 字典(例如,維基詞典)以及專業(yè)領(lǐng)域知識(shí)庫(例如,維基新聞)。在某些示例中,知識(shí)庫52和/或領(lǐng)域語料庫50可以包含描述主題的維基百科文 章。例如,維基百科文章可以描述諸如Madonna(演員)之類的主題。作為另一示例,維基 百科文章可以描述諸如0羥基酸之類的主題。0羥基酸文章可以包括具有鏈接術(shù)語的內(nèi) 容,該鏈接術(shù)語諸如是3羥基酸、有機(jī)化合物、羧酸、官能團(tuán)、羥基、a羥基酸、水楊酸、痤 瘡、羥基丁酸、羥基丁酸甲酯、肉堿和3-羥基丙酸。在這些實(shí)施方式中,維基百科術(shù)語可以具有與之相關(guān)聯(lián)的很多別名術(shù)語。例如,針 對(duì)“Virgin Mary”和“Saint Mary”的維基百科文章重定向到維基百科文章Mary (Jesus的 母親)。因?yàn)閯e名術(shù)語指向相同的文章,所以它們不需要進(jìn)行區(qū)分。在這些實(shí)施方式中,術(shù) 語別名的存在對(duì)于共現(xiàn)計(jì)算沒有影響,即,術(shù)語A和術(shù)語B之間的親和度與術(shù)語A和術(shù)語B 的任意別名之間的親和度相同。在所示實(shí)施方式中,服務(wù)器22包括語料庫模塊29和親和度模塊30。參照?qǐng)D2更 詳細(xì)地描述語料庫模塊29。參照?qǐng)D3更詳細(xì)地描述親和度模塊30。圖2示出了可以與圖1的系統(tǒng)10 —起使用的語料庫模塊29的一個(gè)實(shí)施方式。語 料庫模塊29可用于產(chǎn)生語料庫50。在所示實(shí)施方式中,語料庫模塊29包括文檔選擇器30、 術(shù)語識(shí)別器31和共現(xiàn)計(jì)算器32。在某些實(shí)施方式中,文檔選擇器30以任意適當(dāng)?shù)姆绞竭x 擇用于語料庫50的文檔。將參照?qǐng)D5更詳細(xì)地描述選擇文檔的方法的示例。在某些實(shí)施方式中,術(shù)語識(shí)別器31以任意適當(dāng)?shù)姆绞阶R(shí)別用于字典的術(shù)語。參照?qǐng)D4更詳細(xì)地描述識(shí) 別術(shù)語的方法的示例。在某些實(shí)施方式中,共現(xiàn)計(jì)算器32以任意適當(dāng)?shù)姆绞酱_定共現(xiàn)。將 參照?qǐng)D4予以更詳細(xì)地描述確定共現(xiàn)的方法的示例。在某些實(shí)施方式中,可以針對(duì)與提取出了領(lǐng)域字典的語料庫50不同的第二語料 庫應(yīng)用領(lǐng)域字典。第二語料庫可以具有不同的共現(xiàn)上下文。可以把領(lǐng)域術(shù)語映射到第二語 料庫中的術(shù)語,以計(jì)算親和度并生成領(lǐng)域本體。圖3示出了可以與圖1的系統(tǒng)10 —起使用的親和度模塊30的一個(gè)實(shí)施方式。親 和度模塊30可以計(jì)算術(shù)語對(duì)的親和度,將該親和度記錄在親和度矩陣中并且/或者報(bào)告親 和度矩陣。親和度模塊30還可以生成親和度圖。在所示實(shí)施方式中,親和度模塊30包括親和度計(jì)算器34、本體生成器38和詞推 薦器48。親和度計(jì)算器34計(jì)算術(shù)語Wi或者包含第一術(shù)語和第二術(shù)語的術(shù)語對(duì)的任 意類型的親和度。親和度的示例包含基本親和度、有向親和度、平均親和度、差分親和度和 /或其他親和度。在一個(gè)實(shí)施方式中,詞推薦器48接收種子術(shù)語且識(shí)別與種子術(shù)語的親和度高于 閾值親和度的術(shù)語。閾值親和度可以是任意適當(dāng)?shù)闹?,諸如大于或等于0. 25,0. 5,0. 75或 0. 95??梢灶A(yù)擬定閾值親和度或由用戶指定閾值親和度??梢愿鶕?jù)包括術(shù)語^和/或的頁的量(例如,數(shù)目)來計(jì)算基本親和度。合取 頁(conjunction page)量代表包含術(shù)語巧和術(shù)語二者的頁量,且析取頁(disjunction page)量代表包括術(shù)語^或術(shù)語的頁量?;居H和度可以通過合取頁量除以析取頁量 給出。在一個(gè)示例中,合取頁的數(shù)目表示包含術(shù)語和術(shù)語 的頁的數(shù)目,析取頁的數(shù)目 表示包含術(shù)語&或術(shù)語%的頁的數(shù)目?;居H和度可以通過合取頁的數(shù)目除以析取頁的 數(shù)目給出Affinity (Wi, Wj) = P (ffi&ffj) /P (ffi+ffj)在某些實(shí)施方式中,親和度組包含彼此具有高親和度的術(shù)語對(duì),且可用于獲取關(guān) 于頁面內(nèi)容術(shù)語^和《2之間的關(guān)系??梢詫⒏哂H和度指定為大于親和度組閾值的親和度。 閾值可以設(shè)置為任意適當(dāng)?shù)闹?,諸如大于或等于0. 50,0. 60,0. 75,0. 90或0. 95。一個(gè)術(shù)語 可以屬于多于一個(gè)的親和度組。有向親和度可用于測量術(shù)語Wi相對(duì)于術(shù)語%的重要性。親和度計(jì)算器34根據(jù)包 括術(shù)語&和 的頁的量(例如,數(shù)目)計(jì)算給定術(shù)語 時(shí)術(shù)語&的有向親和度。給定術(shù) 語Wj時(shí)術(shù)語的有向親和度可以通過合取頁量除以術(shù)語Wj頁量給出。例如,術(shù)語Wj的頁 的數(shù)目表示包括術(shù)語的頁的數(shù)目。給定術(shù)語^時(shí)術(shù)語Wj的有向親和度可以通過合取頁 的數(shù)目除以術(shù)語&的頁的數(shù)目給出DAffinity (Wi, Wj) = P (ffi&ffj) /P (ff^DAffinity (Wi,w」)與DAffinity (w」,w)不同。術(shù)語R和w」之間的有向親和度 DAffinity (w^wj)越高,就表示在頁包括術(shù)語&時(shí)該頁包括術(shù)語%的概率越高。在一個(gè)示 例中,頁[1 2 3 4 5 6]包括術(shù)語&,且頁[4 2]包括術(shù)語%。包括術(shù)語%的頁也包括術(shù) 語^,所以,從術(shù)語\的角度看,術(shù)語^的重要度高。包括術(shù)語^的頁中僅有三分之一的 頁也包括術(shù)語%,所以從術(shù)語的角度看,術(shù)語%的重要度低。在某些實(shí)施方式中,可以計(jì)算術(shù)語Wi針對(duì)多個(gè)其他術(shù)語%的平均親和度。在一個(gè)實(shí)施方式中,平均親和度可以是術(shù)語Wi和每個(gè)其他術(shù)語%之間的親和度的平均值。術(shù)語Wi 的N個(gè)術(shù)語的平均親和度可以由下式給出AveAff(Wi)=去Σ二p(w'Iw))在某些實(shí)施方式中,術(shù)語的平均親和度可以表示術(shù)語的深度。具有較低平均親和 度的術(shù)語可以被認(rèn)為是較深的術(shù)語,具有較高平均親和度的術(shù)語可以被認(rèn)為是較淺的術(shù) 語。較深的術(shù)語傾向于更加技術(shù)、專業(yè)和精確。具有較高百分比的較深術(shù)語的頁可以被認(rèn) 為是較深頁,且具有較低百分比的較深術(shù)語的頁可以被認(rèn)為是較淺頁。在一個(gè)實(shí)施方式中, 用戶可以指定要檢索的術(shù)語和/或頁的深度。某頁的多個(gè)較深術(shù)語可以形成一簇或更多簇高度關(guān)聯(lián)的術(shù)語。簇可以代表共同的 思想或主題。頁的主題的數(shù)目可以表示頁的專指性。具有較少主題的頁可以被認(rèn)為更專業(yè), 具有較多主題的頁被認(rèn)為較不專業(yè)。術(shù)語Wi針對(duì)術(shù)語Wj的差分親和度是術(shù)語Wi和Wj之間的有向親和度減去術(shù)語Wj 對(duì)于所有其他術(shù)語的平均親和度。差分親和度可以表示為DiffAff (wi Wj) = DAffinity (Wi, Wj) -AveAff (Wj)差分親和度消除了由于術(shù)語Wj在頁中出現(xiàn)的總體趨勢導(dǎo)致的偏差。在具體環(huán)境 中,差分親和度可以提供在頁包括術(shù)語%時(shí)該頁包括術(shù)語^的概率的更精確表示。差分親和度可以用于各種用途。在一個(gè)示例中,人名之間的差分親和度可用于研 究社會(huì)網(wǎng)絡(luò)。在另一示例中,語言元素之間的差分親和度可用于研究自然語言處理。在另 一示例中,產(chǎn)品之間的差分親和度可用于研究市場營銷。親和度計(jì)算器34可以使用任意適當(dāng)技術(shù)來搜索倒排索引列表,以計(jì)算親和度。例 如,為了識(shí)別包括術(shù)語Wi和Wj 二者的頁,親和度計(jì)算器34可以針對(duì)相同的元素,即相同的 頁面標(biāo)識(shí)符,搜索術(shù)語Wi的列表Wi和術(shù)語 的列表W」。在特定實(shí)施方式中,本體生成器38生成語言的本體66,諸如親和度矩陣或親和度 圖??梢杂芍T如基本親和度、有向親和度、平均親和度、差分親和度和/或其他親和度的任 意適當(dāng)?shù)挠H和度來生成本體。可以根據(jù)以任意適當(dāng)方式從語言選出的術(shù)語來生成本體66。 例如,可以選擇來自語言的共同使用部分的術(shù)語或與一個(gè)或更多個(gè)特定主題范圍相關(guān)的術(shù)語。在所示實(shí)施方式中,本體生成器38包括親和度矩陣生成器42和親和度圖生成器 46。親和度矩陣生成器42生成記錄了術(shù)語之間的親和度的親和度矩陣。親和度圖生成器 46生成表示術(shù)語之間的親和度的親和度圖。在親和度圖中,節(jié)點(diǎn)代表術(shù)語,節(jié)點(diǎn)之間的有向 邊的權(quán)重代表節(jié)點(diǎn)所表示的術(shù)語之間的親和度。親和度圖可以具有任意適當(dāng)?shù)木S數(shù)。圖4示出了可以與圖1的系統(tǒng)10 —起使用的識(shí)別術(shù)語并確定共現(xiàn)的方法的示例。 該方法在步驟250開始,在步驟250訪問領(lǐng)域語料庫。參照?qǐng)D5來描述用于選擇語料庫50 的方法的示例。在某些實(shí)施方式中,領(lǐng)域語料庫50包括一組文章。每篇文章對(duì)應(yīng)于特定主 題。每篇文章包括鏈接到對(duì)應(yīng)于其他主題的其他文章的一個(gè)或更多個(gè)術(shù)語。在某些示例 中,領(lǐng)域語料庫50可以包括描述主題的維基百科文章。例如,維基百科文章可以描述諸如 Madonna (麥當(dāng)娜)(演員)的主題。在步驟254,將每個(gè)文章主題指定為字典術(shù)語,以產(chǎn)生字典。例如,指定維基百科文章主題Madonna (麥當(dāng)娜)(演員)作為字典術(shù)語。在步驟258定義共現(xiàn)上下文。共現(xiàn)上下文是用來確定術(shù)語是否共現(xiàn)的文本的量如果多個(gè)術(shù)語在同一共現(xiàn)上下文中出現(xiàn),則它們共現(xiàn)。在某些實(shí)施方式中,可以將共現(xiàn)上下 文定義為文章,使得如果第一術(shù)語和第二術(shù)語處于同一文章中,則第一術(shù)語和第二術(shù)語是 共現(xiàn)的。在某些實(shí)施方式中,可以將共現(xiàn)上下文定義為文章的子集,使得如果第一術(shù)語和第 二術(shù)語處于文章的同一子集中,則第一術(shù)語和第二術(shù)語是共現(xiàn)的。文章子集的示例包括一 個(gè)或更多個(gè)章節(jié)或子章節(jié)。在某些實(shí)施方式中,可以根據(jù)共現(xiàn)上下文的最小術(shù)語數(shù)目和共現(xiàn)上下文的最大術(shù) 語數(shù)目來定義文章的共現(xiàn)上下文。在這些實(shí)施方式中,如果文章不分章節(jié),則共現(xiàn)上下文是 文章。如果文章具有章節(jié)、并且如果章節(jié)的術(shù)語數(shù)目大于最小術(shù)語數(shù)目,則該章節(jié)是共現(xiàn)上 下文。否則,該章節(jié)與后續(xù)或前一章節(jié)合并成單個(gè)共現(xiàn)上下文,并且再次應(yīng)用閾值測試。如 果章節(jié)中的術(shù)語數(shù)目大于最大術(shù)語數(shù)目,則根據(jù)術(shù)語的最小數(shù)目來測試子章節(jié)。最小術(shù)語 數(shù)目可以處于小于5、5至10、或10至20的范圍,最大術(shù)語數(shù)目可以處于25至30、30至40、 或大于40的范圍。文章標(biāo)題可以包括在共現(xiàn)上下文中,可以計(jì)數(shù)為或者可以不計(jì)數(shù)為最小 和最大值。在步驟262,根據(jù)共現(xiàn)上下文來確定共現(xiàn)。出現(xiàn)在共現(xiàn)上下文中的術(shù)語是共現(xiàn)的。 在步驟266,根據(jù)共現(xiàn)來確定術(shù)語之間的相關(guān)度。在某些實(shí)施方式中,可以根據(jù)共現(xiàn)來計(jì)算 術(shù)語之間的親和度(例如有向親和度)。在某些實(shí)施方式中,可以根據(jù)親和度來構(gòu)建親和 度圖(例如有向加權(quán)親和度圖)并對(duì)其進(jìn)行查詢。在某些實(shí)施方式中,可以接收輸入術(shù)語。 可以根據(jù)親和度圖來確定與輸入術(shù)語相關(guān)聯(lián)的領(lǐng)域語料庫的一個(gè)或更多個(gè)術(shù)語。圖5示出可以與圖1的系統(tǒng)10 —起使用的選擇文檔的方法的示例。該方法在步 驟206開始,在步驟206訪問知識(shí)庫52。知識(shí)庫52包含一組文章。每篇文章對(duì)應(yīng)于特定主 題,并且包括鏈接到對(duì)應(yīng)于其他主題的其他文章的一個(gè)或更多個(gè)術(shù)語。在某些實(shí)施方式中, 知識(shí)庫52包含包含文章Ai的在線文章數(shù)據(jù)庫,例如維基百科。在步驟210,對(duì)領(lǐng)域語料庫50進(jìn)行初始化。在某些實(shí)施方式中,可以將領(lǐng)域語料 庫50初始化為空。在步驟214,從用于領(lǐng)域語料庫50的知識(shí)庫52中選出第一組第一文章。 可以以任意適當(dāng)?shù)姆绞竭x擇第一組,例如如下方式中的一種或更多種。在某些實(shí)施方式中, 可以從用戶接收對(duì)于一篇或更多篇文章的選擇。可以將所選擇的文章指定為第一組的一篇 或更多篇第一文章。在某些實(shí)施方式中,可以將知識(shí)庫52的某類別(例如,維基百科類別 或內(nèi)容入口)的一篇或更多篇文章指定為第一組的一篇或更多篇第一文章。作為示例,如 果領(lǐng)域?yàn)椤澳茉础保瑒t對(duì)于第一組可以選擇來自“能源”類別的文章。作為另一示例,如果領(lǐng) 域?yàn)椤白詣?dòng)化技術(shù)”,則對(duì)于第一組可以選擇來自“自動(dòng)化技術(shù)”內(nèi)容入口(contentportal) 的文章。在步驟218,第一組可能具有或不具有足夠的大小。根據(jù)語料庫50的應(yīng)用,大 小可以是足夠的,并且可以是任意適當(dāng)?shù)臄?shù)目,例如小于1000、1000至10,000、10,000至 50,000、或大于50,000的范圍內(nèi)的數(shù)目。如果第一組為足夠大小,則該方法進(jìn)行到步驟 238。如果第一組大小不足,則方法進(jìn)行到步驟222。步驟222至234描述了識(shí)別與第一組第一文章相關(guān)的第二組第二文章并從用于領(lǐng) 域語料庫的知識(shí)庫中選擇第二組第二文章的方法的示例。在步驟222選擇文章。
在步驟226,識(shí)別與所選擇的文章相關(guān)的文章。可以以任意適當(dāng)?shù)姆绞阶R(shí)別相關(guān)文章,例如,使用如下方法中的一種或更多種。在某些實(shí)施方式中,可以生成第一文章的親和 度圖。該親和度圖包含一個(gè)或更多個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)代表對(duì)應(yīng)于文章的術(shù)語。根節(jié)點(diǎn)代表 對(duì)應(yīng)于根文章(例如,針對(duì)其產(chǎn)生親和度圖的文章)的術(shù)語。子節(jié)點(diǎn)代表在根文章中出現(xiàn) 的鏈接術(shù)語,該鏈接術(shù)語鏈接到子文章。孫節(jié)點(diǎn)代表在子文章中出現(xiàn)的鏈接術(shù)語,該鏈接術(shù) 語鏈接到孫文章??梢愿鶕?jù)親和度圖來識(shí)別與各第一文章相關(guān)的一篇或更多篇文章??梢?將相關(guān)文章放置在第二組中。例如,圖可以包括Ai的子節(jié)點(diǎn)和孫節(jié)點(diǎn)以及節(jié)點(diǎn)之間的有向鏈接。節(jié)點(diǎn)A的 子節(jié)點(diǎn)代表在A的文章中出現(xiàn)的鏈接術(shù)語B,節(jié)點(diǎn)A的孫節(jié)點(diǎn)代表在B的文章中出現(xiàn)的 鏈接術(shù)語C。如果下列條件中的一個(gè)或更多個(gè)成立,則Ai的子節(jié)點(diǎn)和孫節(jié)點(diǎn)可以添加到 Related(Ai)——與Ai相關(guān)的節(jié)點(diǎn)組Ai的兒子具有到Ai的有向鏈接;Ai的兒子具有大于預(yù)定數(shù)目的到Ai的其他兒子或者到Ai的所有兒子的預(yù)定百分 比的有向鏈接;Ai的孫子具有到Ai的鏈接;以及/或者Ai的孫子具有大于預(yù)定數(shù)目的到Ai的其他兒子或者到Ai的所有兒子中的預(yù)定百 分比的有向鏈接。所述預(yù)定數(shù)目和所述預(yù)定百分比可以具有任何適當(dāng)?shù)闹?。例如,所述預(yù)定數(shù)目可 以具有小于3、3至5、5至10、或者10至25的范圍內(nèi)的值。所述預(yù)定百分比可以具有小于 5%、5%至10%、10%至25%、或25%至50%的范圍內(nèi)的值。在某些實(shí)施方式中,可以產(chǎn)生第一文章的親和度圖??梢砸匀魏芜m當(dāng)方式對(duì)該親 和度圖進(jìn)行加權(quán)。可以根據(jù)加權(quán)的親和度圖來識(shí)別與各個(gè)第一文章相關(guān)的一篇或更多篇文 章??梢詫⑾嚓P(guān)文章放置在第二組中??梢砸匀魏芜m當(dāng)方式對(duì)鏈接分配權(quán)重。例如,可以如上所述地計(jì)算親和度圖???以對(duì)與根節(jié)點(diǎn)較為接近的鏈接分配較高的權(quán)重。例如,根和子節(jié)點(diǎn)之間的權(quán)重可以高于子 節(jié)點(diǎn)和孫節(jié)點(diǎn)之間的權(quán)重。例如,可以分配如下權(quán)重,其中W1 > W2 > W3 :根-、子界丄子->根-.W1子->子潭2根->孫潭2子->孫潭2孫->子#3孫_>孫W3權(quán)重可以具有任何適當(dāng)?shù)闹?,如W1 = 1,W2 = 0. 5,W3 = 0. 25??梢砸匀魏芜m當(dāng)方式針對(duì)圖中的每個(gè)節(jié)點(diǎn)計(jì)算該值。例如,可以根據(jù)應(yīng)用于與節(jié) 點(diǎn)相連接的一個(gè)或更多個(gè)或所有進(jìn)入和/或離開鏈接的數(shù)學(xué)函數(shù)(如求和函數(shù))來計(jì)算該 值??梢砸匀魏芜m當(dāng)方式選擇相關(guān)聯(lián)節(jié)點(diǎn)??梢赃x擇值大于預(yù)定值的節(jié)點(diǎn)、和/或預(yù)定百 分比的具有最大值的節(jié)點(diǎn)。所述預(yù)定值和所述預(yù)定百分比可以具有任何適當(dāng)?shù)闹?。例如?給定上述權(quán)重,所述預(yù)定值可以具有1至3、3至5、5至10、或大于10的范圍內(nèi)的值。所述預(yù)定百分比可以具有3%至10%、10%至25%、或大于50%的范圍內(nèi)的值。作為另一示例,可以如這里所述地計(jì)算親和度圖??梢愿鶕?jù)與某節(jié)點(diǎn)表示的術(shù)語 對(duì)應(yīng)的文章的流行度來對(duì)到該節(jié)點(diǎn)的鏈接進(jìn)行加權(quán)??梢愿鶕?jù)文章被用戶訪問的次數(shù)來測 量文章的流行度。次數(shù)越高表示文章越流行??梢杂晌恼碌腜ageRank(頁等級(jí))或HITS 來給出文章被訪問的次數(shù)??梢砸匀魏芜m當(dāng)?shù)姆绞?例如這里描述的方式),來計(jì)算圖中的每個(gè)節(jié)點(diǎn)的值???以以任何適當(dāng)?shù)姆绞?例如這里描述的方式)來選擇相關(guān)的節(jié)點(diǎn)。預(yù)定值和預(yù)定百分比可 以具有任何適當(dāng)?shù)闹?。例如,給定上述權(quán)重,預(yù)定值可以具有0. 25x至0. 5x、0. 5x至lx、或 大于Ix的范圍內(nèi)的值,其中χ代表平均節(jié)點(diǎn)值。預(yù)定百分比可以具有3%至10%、10%至 25%、或大于50%的范圍內(nèi)的值。作為另一示例,可以如這里所述地計(jì)算親和度圖??梢愿鶕?jù)Taggr技術(shù)選擇相 關(guān)的文章。在Yannis Labrou等人于2009年2月10日提交的名為“Determining Words Related to a Given Set of Words” 的美國專利申請(qǐng) No. 12/368689 中描述了 Taggr 技術(shù) 的示例,此處通過引用將其并入。在某些實(shí)施方式中,Taggr技術(shù)涉及針對(duì)每篇第一文章從知識(shí)庫52選擇一篇或更 多篇臨時(shí)文章,根據(jù)親和度圖,所述臨時(shí)文章對(duì)于每篇第一文章的親和度(如差分親和度) 較高??梢葬槍?duì)每篇臨時(shí)文章計(jì)算平均親和度。平均親和度代表從每篇臨時(shí)文章到第一組 的每篇第一文章的親和度的平均值。在某些示例中,節(jié)點(diǎn)的平均親和度可以是節(jié)點(diǎn)的進(jìn)入 鏈接中的至少兩個(gè)或所有權(quán)重的平均值。可以刪除如下的一篇或更多篇文章其各自的平 均差分親和度都不滿足預(yù)定閾值。可以將剩余的臨時(shí)文章放置到第二組中。在示例中,使用如下參數(shù)kl 術(shù)語可能暗示的候選術(shù)語的數(shù)目的上限;k2 平均差分親和度閾值;k3 每次迭代的結(jié)果的數(shù)目的上限;k4 迭代次數(shù)的上限;以及k5 返回結(jié)果的數(shù)目的上限。參數(shù)的示例范圍如下對(duì)于kl為[5,20],對(duì)于1^2為[-0. 1,0. 1],對(duì)于k3為[5, 20],對(duì)于 k4 為[1,3],對(duì)于1^5為[5,20]。在該示例中,可以接收初始術(shù)語組。可以對(duì)要從組S獲取的候選術(shù)語組Q進(jìn)行初 始化。最初,組Q可以與組S相等。至多,針對(duì)組Q的每個(gè)術(shù)語,收集差分親和度最高的kl 個(gè)術(shù)語,將這kl個(gè)術(shù)語與其差分親和度一起放置在臨時(shí)組R中。也就是說,組Q的每個(gè)術(shù) 語最多產(chǎn)生與該組的起源術(shù)語的差分親和度最高的kl個(gè)術(shù)語。如果從組Q的多個(gè)術(shù)語獲 得相同術(shù)語,則該術(shù)語的差分親和度是各個(gè)差分親和度之和。對(duì)于組R的每個(gè)術(shù)語,計(jì)算從該術(shù)語到組S的每個(gè)術(shù)語的差分親和度的平均值,即 該術(shù)語的“平均差分親和度”。從組R刪除平均差分親和度低于平均差分親和度閾值k2的 術(shù)語。將組R中具有最高差分親和度的k3個(gè)術(shù)語添加到組Q。該步驟可以重復(fù)k4次。在k4次迭代之后,對(duì)組Q的術(shù)語進(jìn)行排序。例如,可以基于術(shù)語的平均親和度、或 其對(duì)于組Q的其他術(shù)語的差分親和度的平均值,對(duì)術(shù)語進(jìn)行排序,使得具有較高平均親和 度或較高平均差分親和度的術(shù)語位于列表的頂端。將組Q的頂端k5個(gè)術(shù)語相關(guān)聯(lián)。
在步驟230,將相關(guān)的文章添加到語料庫50??赡苡性诓襟E234尚未被選擇的第 一組下一篇第一文章。如果存在下一篇文章,則該方法返回到步驟222以選擇該文章。如 果不存在下一篇文章,則該方法前進(jìn)到步驟238。在步驟238,使得領(lǐng)域語料庫50可用??梢砸匀魏芜m當(dāng)方式使得領(lǐng)域語料庫50可 用。例如,可以使得語料庫50可由用戶訪問,從而用戶可以使用并搜索語料庫50。然后該 方法結(jié)束。
在某些實(shí)施方式中,可以將所選擇文章的全部或僅僅一部分添加到領(lǐng)域語料庫 50。例如,文章可以包括諸如“歷史”“怎么干...”或“經(jīng)濟(jì)”等特定類型的章節(jié)??梢蕴?加特定類型的章節(jié),以創(chuàng)建諸如“怎么干.· · ”領(lǐng)域的特定領(lǐng)域的語料庫50。在某些情形中,領(lǐng)域語料庫50可能包括具有多余術(shù)語的多余文章。如果領(lǐng)域語料 庫50的大多數(shù)文章屬于所希望的領(lǐng)域,則多余術(shù)語的親和度低于與領(lǐng)域更加相關(guān)的術(shù)語 的親和度。在某些實(shí)施方式中,可以使用領(lǐng)域?qū)S米值浜头河?未必是領(lǐng)域?qū)S?語料庫來 計(jì)算有向加權(quán)圖。在這些實(shí)施方式中,字典是領(lǐng)域語料庫50的術(shù)語集,但是基于領(lǐng)域內(nèi)和 領(lǐng)域外的文章的共現(xiàn)上下文來計(jì)算術(shù)語的親和度。在這些實(shí)施方式中,領(lǐng)域語料庫50可以 是知識(shí)庫52 (從其提取領(lǐng)域語料庫50)的適當(dāng)子集或者可以與知識(shí)庫52有很大重合。在不偏離本發(fā)明范圍的情況下,可以對(duì)這里公開的系統(tǒng)和裝置進(jìn)行修改、添加、或 者省略。系統(tǒng)和裝置的部件可以集成或分離。而且,系統(tǒng)和裝置的操作可以由更多、更少、 或者其他的部件來執(zhí)行。例如,語料庫模塊29和親和度模塊30的操作可以由一個(gè)部件來 執(zhí)行,或者,語料庫模塊29的操作可以由多于一個(gè)的部件來執(zhí)行。另外,系統(tǒng)和裝置的操作 可以使用包括軟件、硬件、和/或其他邏輯的任何適當(dāng)邏輯來執(zhí)行。如在本文獻(xiàn)中所使用, “每個(gè)”指代一組中的每個(gè)元件或者一組中的子集的每個(gè)元件。在不偏離本發(fā)明范圍的情況下,可以對(duì)這里公開的方法進(jìn)行修改、添加、或者省 略。方法可以包括更多、更少、或者其他的步驟。另外,可以任何適當(dāng)順序執(zhí)行步驟。系統(tǒng)和裝置的部件可以包括接口、邏輯部、存儲(chǔ)器、和/或其他適當(dāng)元件。接口接 收輸入,發(fā)送輸出,對(duì)輸入和/或輸出進(jìn)行處理,并且/或者執(zhí)行其他適當(dāng)操作。接口可以 包括硬件和/或軟件。邏輯部執(zhí)行部件的操作,例如執(zhí)行指令以根據(jù)輸入產(chǎn)生輸出。邏輯部可以包括硬 件、軟件、和/或其他邏輯。邏輯部可以編碼在一個(gè)或更多個(gè)有形介質(zhì)中并且當(dāng)由計(jì)算機(jī)執(zhí) 行時(shí)可以執(zhí)行操作。特定的邏輯部,例如處理器,可以管理部件的操作。處理器的示例包 括一個(gè)或更多個(gè)計(jì)算機(jī)、一個(gè)或更多個(gè)微處理器、一個(gè)或更多個(gè)應(yīng)用程序、和/或其他邏輯 部。在特定實(shí)施方式中,實(shí)施方式的操作可以由一個(gè)或更多個(gè)計(jì)算機(jī)可讀介質(zhì)來執(zhí) 行,所述計(jì)算機(jī)可讀介質(zhì)編碼有計(jì)算機(jī)程序、軟件、計(jì)算機(jī)可執(zhí)行指令、和/或能夠由計(jì)算 機(jī)執(zhí)行的指令。在特定實(shí)施方式中,實(shí)施方式的操作可以由一個(gè)或更多個(gè)計(jì)算機(jī)可讀介質(zhì) 來執(zhí)行,所述計(jì)算機(jī)可讀介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序、用計(jì)算機(jī)程序?qū)崿F(xiàn)、并且/或者編碼有計(jì) 算機(jī)程序,并且/或者具有存儲(chǔ)的和/或編碼的計(jì)算機(jī)程序。存儲(chǔ)器存儲(chǔ)信息。存儲(chǔ)器可以包括一個(gè)或更多個(gè)有形、計(jì)算機(jī)可讀、和/或計(jì)算機(jī) 可執(zhí)行的存儲(chǔ)介質(zhì)。存儲(chǔ)器的示例包括計(jì)算機(jī)存儲(chǔ)器(例如隨機(jī)存取存儲(chǔ)器(RAM)或只讀存儲(chǔ)器(ROM))、大容量存儲(chǔ)介質(zhì)(例如硬盤)、可移除存儲(chǔ)介質(zhì)(例如光盤(CD)或數(shù)字視 頻盤(DVD))、數(shù)據(jù)庫和/或網(wǎng)絡(luò)存儲(chǔ)器(例如服務(wù)器)、和/或其他計(jì)算機(jī)可讀介質(zhì)。盡管根據(jù)特定實(shí)施方式描述了本公開,但是對(duì)于本領(lǐng)域技術(shù)人員來說,對(duì)實(shí)施方 式的變更和置換將是明顯的。因此,實(shí)施方式的以上描述不約束本公開。在不偏離如所附 權(quán)利要求書所限定的本公開的精神和范圍的情況下,其他變化、替換和變更是可能的。相關(guān)申請(qǐng)
本申請(qǐng)要求Yannis Labrou等人于2009年2月26日提交的序列號(hào)為 No. 61/155,595、發(fā)明名稱為 “GENERATING A DOMAIN CORPUS AND ADICTIONARY FOR AN AUTOMATED ONTOLOGY”代理人卷號(hào)為073338. 0676的美國臨時(shí)申請(qǐng)的優(yōu)先權(quán),通過引用將該 臨時(shí)申請(qǐng)并入本文。
權(quán)利要求
一種方法,該方法包含以下步驟訪問知識(shí)庫,該知識(shí)庫包含一組文章,各篇文章對(duì)應(yīng)于特定主題,各篇文章包括鏈接到與其他主題相對(duì)應(yīng)的其他文章的一個(gè)或更多個(gè)術(shù)語;從用于領(lǐng)域語料庫的知識(shí)庫選擇第一組第一文章;識(shí)別與所述第一組第一文章相關(guān)的第二組第二文章;從用于所述領(lǐng)域語料庫的所述知識(shí)庫選擇所述第二組第二文章;以及使得所述領(lǐng)域語料庫為可訪問的。
2.根據(jù)權(quán)利要求1所述的方法,其中,識(shí)別所述第二組第二文章的步驟還包括對(duì)所述 第一組執(zhí)行以下操作產(chǎn)生包括第一節(jié)點(diǎn)和第二節(jié)點(diǎn)的親和度圖,如果存在從所述第二節(jié)點(diǎn)到所述第一節(jié)點(diǎn) 的閾值親和度,則所述第一節(jié)點(diǎn)包括所述第二節(jié)點(diǎn)的子節(jié)點(diǎn)。
3.根據(jù)權(quán)利要求1所述的方法,其中,識(shí)別所述第二組第二文章的步驟還包括對(duì)所述 第一組執(zhí)行以下操作生成所述第一組的親和度圖;根據(jù)所述親和度圖,識(shí)別與第一文章相關(guān)的一篇或更多篇文章;以及 將相關(guān)的文章放置在所述第二組中。
4.根據(jù)權(quán)利要求1所述的方法,其中,識(shí)別所述第二組第二文章的步驟還包括對(duì)所述 第一組執(zhí)行以下操作生成所述第一組的親和度圖; 對(duì)所述親和度圖進(jìn)行閾值處理;根據(jù)所述親和度圖,識(shí)別與第一文章相關(guān)的一篇或更多篇文章;以及 將相關(guān)的文章放置在所述第二組中。
5.根據(jù)權(quán)利要求1所述的方法,其中,識(shí)別所述第二組第二文章的步驟還包括以下步驟針對(duì)各第一文章,根據(jù)親和度圖,從所述知識(shí)庫選擇一篇或更多篇臨時(shí)文章,該臨時(shí)文 章與該第一文章具有較高親和度;針對(duì)各臨時(shí)文章,計(jì)算平均親和度,該平均親和度代表了從該臨時(shí)文章到所述第一組 的每一篇第一文章的親和度的平均值;去除一篇或更多篇臨時(shí)文章,被去除的一篇或更多篇臨時(shí)文章中的每一篇的平均親和 度不滿足預(yù)定閾值;以及將剩余的臨時(shí)文章放置到所述第二組中。
6.根據(jù)權(quán)利要求1所述的方法,所述方法還包括以下步驟 從用戶接收對(duì)一篇或更多篇文章的選擇;以及將所選擇的文章指定為所述第一組的一篇或更多篇第一文章。
7.根據(jù)權(quán)利要求1所述的方法,所述方法還包括以下步驟將所述知識(shí)庫的某一類別的一篇或更多篇文章指定為所述第一組的一篇或更多篇第一文章。
8.根據(jù)權(quán)利要求1所述的方法,其中,所述知識(shí)庫包括在線文章數(shù)據(jù)庫。
9.一種有形計(jì)算機(jī)可讀介質(zhì),該有形計(jì)算機(jī)可讀介質(zhì)包括當(dāng)被處理器執(zhí)行時(shí)能夠進(jìn)行以下操作的代碼訪問知識(shí)庫,該知識(shí)庫包括一組文章,各篇文章對(duì)應(yīng)于特定主題,各篇文章包括鏈接到 與其他主題相對(duì)應(yīng)的其他文章的一個(gè)或更多個(gè)術(shù)語;從用于領(lǐng)域語料庫的所述知識(shí)庫選擇第一組第一文章; 識(shí)別與所述第一組第一文章相關(guān)的第二組第二文章; 從用于所述領(lǐng)域語料庫的所述知識(shí)庫選擇所述第二組第二文章;以及 使得所述領(lǐng)域語料庫為可訪問的。
10.根據(jù)權(quán)利要求9所述的計(jì)算機(jī)可讀介質(zhì),其中,所述代碼能夠通過對(duì)所述第一組執(zhí) 行以下操作進(jìn)行識(shí)別所述第二組第二文章的操作生成包括第一節(jié)點(diǎn)和第二節(jié)點(diǎn)的親和度圖,如果存在從所述第二節(jié)點(diǎn)到所述第一節(jié)點(diǎn) 的閾值親和度,則所述第一節(jié)點(diǎn)包括所述第二節(jié)點(diǎn)的子節(jié)點(diǎn)。
11.根據(jù)權(quán)利要求9所述的計(jì)算機(jī)可讀介質(zhì),其中,所述代碼能夠通過對(duì)所述第一組執(zhí) 行以下操作進(jìn)行識(shí)別所述第二組第二文章的操作生成所述第一組的親和度圖;根據(jù)所述親和度圖,識(shí)別與第一文章相關(guān)的一篇或更多篇文章;以及 將相關(guān)的文章放置在所述第二組中。
12.根據(jù)權(quán)利要求9所述的計(jì)算機(jī)可讀介質(zhì),其中,所述代碼能夠通過對(duì)所述第一組執(zhí) 行以下操作進(jìn)行識(shí)別所述第二組第二文章的操作生成所述第一組的親和度圖; 對(duì)所述親和度圖進(jìn)行閾值處理;根據(jù)所述親和度圖,識(shí)別與第一文章相關(guān)的一篇或更多篇文章;以及 將相關(guān)的文章放置在所述第二組中。
13.根據(jù)權(quán)利要求9所述的計(jì)算機(jī)可讀介質(zhì),其中,所述代碼能夠如下地進(jìn)行識(shí)別所述 第二組第二文章的操作針對(duì)各第一文章,根據(jù)親和度圖從所述知識(shí)庫選擇一篇或更多篇臨時(shí)文章,該一篇或 更多篇臨時(shí)文章與該第一文章具有較高親和度;針對(duì)各臨時(shí)文章,計(jì)算平均親和度,該平均親和度代表了從該臨時(shí)文章到所述第一組 的每一篇第一文章的親和度的平均值;去除一篇或更多篇臨時(shí)文章,被去除的一篇或更多篇臨時(shí)文章中的每一篇的平均親和 度不滿足預(yù)定閾值;以及將剩余的臨時(shí)文章放置到所述第二組中。
14.根據(jù)權(quán)利要求9所述的計(jì)算機(jī)可讀介質(zhì),其中,所述代碼能夠進(jìn)行以下操作 從用戶接收對(duì)一篇或更多篇文章的選擇;以及將所選擇的文章指定為所述第一組的一篇或更多篇第一文章。
15.根據(jù)權(quán)利要求9所述的計(jì)算機(jī)可讀介質(zhì),其中,所述代碼能夠進(jìn)行以下操作 將所述知識(shí)庫的某一類別的一篇或更多篇文章指定為所述第一組的一篇或更多篇第一文章。
16.根據(jù)權(quán)利要求9所述的計(jì)算機(jī)可讀介質(zhì),其中,所述知識(shí)庫包括在線文章數(shù)據(jù)庫。
17.一種系統(tǒng),該系統(tǒng)包括接口,能夠進(jìn)行訪問知識(shí)庫的操作,該知識(shí)庫包括一組文章,各篇文章對(duì)應(yīng)于特定主 題,各篇文章包括鏈接到與其他主題相對(duì)應(yīng)的其他文章的一個(gè)或更多個(gè)術(shù)語; 一個(gè)或更多個(gè)處理器,所述一個(gè)或更多個(gè)處理器能夠進(jìn)行以下操作 從用于領(lǐng)域語料庫的所述知識(shí)庫選擇第一組第一文章; 識(shí)別與所述第一組第一文章相關(guān)的第二組第二文章; 從用于所述領(lǐng)域語料庫的所述知識(shí)庫選擇所述第二組第二文章;以及 使得所述領(lǐng)域語料庫為可訪問的。
18.根據(jù)權(quán)利要求17所述的系統(tǒng),其中,所述一個(gè)或更多個(gè)處理器能夠通過對(duì)所述第 一組執(zhí)行以下操作進(jìn)行識(shí)別所述第二組第二文章的操作生成包括第一節(jié)點(diǎn)和第二節(jié)點(diǎn)的親和度圖,如果存在從所述第二節(jié)點(diǎn)到所述第一節(jié)點(diǎn) 的閾值親和度,則所述第一節(jié)點(diǎn)包括所述第二節(jié)點(diǎn)的子節(jié)點(diǎn)。
19.根據(jù)權(quán)利要求17所述的系統(tǒng),其中,所述一個(gè)或更多個(gè)處理器能夠通過對(duì)所述第 一組執(zhí)行以下操作進(jìn)行識(shí)別所述第二組第二文章的操作生成所述第一組的親和度圖;根據(jù)所述親和度圖,識(shí)別與第一文章相關(guān)的一篇或更多篇文章;以及 將相關(guān)的文章放置在所述第二組中。
20.根據(jù)權(quán)利要求17所述的系統(tǒng),其中,所述一個(gè)或更多個(gè)處理器能夠通過以下操作 進(jìn)行識(shí)別所述第二組第二文章的操作針對(duì)各第一文章,根據(jù)親和度圖從所述知識(shí)庫選擇一篇或更多篇臨時(shí)文章,該一篇或 更多篇臨時(shí)文章與該第一文章具有較高親和度;針對(duì)各臨時(shí)文章,計(jì)算平均親和度,該平均親和度代表了從該臨時(shí)文章到所述第一組 的每一篇第一文章的親和度的平均值;去除一篇或更多篇臨時(shí)文章,被去除的一篇或更多篇臨時(shí)文章中的每一篇的平均親和 度不滿足預(yù)定閾值;以及將剩余的臨時(shí)文章放置到所述第二組中。
全文摘要
本發(fā)明涉及針對(duì)自動(dòng)化本體生成領(lǐng)域語料庫和字典。根據(jù)一個(gè)實(shí)施方式,生成領(lǐng)域語料庫包括訪問知識(shí)庫。該知識(shí)庫包含一組文章。各篇文章對(duì)應(yīng)于特定主題且包括鏈接到與其他主題相對(duì)應(yīng)的其他文章的一個(gè)或更多個(gè)術(shù)語。從用于領(lǐng)域語料庫的知識(shí)庫中選出第一組第一文章。識(shí)別與第一組第一文章相關(guān)的第二組第二文章。從用于領(lǐng)域語料庫的知識(shí)庫中選出第二組第二文章。使得領(lǐng)域語料庫為可訪問的。
文檔編號(hào)G06F17/30GK101819583SQ201010126160
公開日2010年9月1日 申請(qǐng)日期2010年2月26日 優(yōu)先權(quán)日2009年2月26日
發(fā)明者斯特吉奧斯·斯特吉奧, 雅尼斯·拉布羅 申請(qǐng)人:富士通株式會(huì)社