亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

信息處理裝置、信息處理方法和程序的制作方法

文檔序號:6366615閱讀:135來源:國知局
專利名稱:信息處理裝置、信息處理方法和程序的制作方法
技術領域
本公開涉及信息處理裝置、信息處理方法和程序,更具體地,涉及這樣的信息處理裝置、信息處理方法和程序其能夠執(zhí)行用于構(gòu)建和擴展用來描述關聯(lián)性(relevance)的數(shù)據(jù)庫(關聯(lián)性數(shù)據(jù)庫)的處理。
背景技術
由于近年來大量文檔數(shù)據(jù)被數(shù)字化,許多文檔數(shù)據(jù)能夠通過文檔積累數(shù)據(jù)庫、因特網(wǎng)等等來進行瀏覽。為了從大量文檔數(shù)據(jù)中高效地獲得需要的信息,提出了各種創(chuàng)建和使用文檔分析數(shù)據(jù)的處理。例如,提出了用于構(gòu)建和使用用來描述實體,如文檔中出現(xiàn)的兩個詞,之間關聯(lián)性的數(shù)據(jù)庫的處理。用于描述諸如兩個詞的實體之間的關聯(lián)性的數(shù)據(jù)庫被稱為關聯(lián)性數(shù)據(jù)庫。關聯(lián)性數(shù)據(jù)庫能被用于不同的應用。將對構(gòu)建和使用關聯(lián)性數(shù)據(jù)庫的處理進行概括性地描述。例如,在關聯(lián)性數(shù)據(jù)庫中登記(register) 了下列信息(a) [Taro, Tokyo (東京)],作為諸如兩個詞的實體;以及(b) (BIRTHPLACE (出生地)),作為指示實體之間關聯(lián)性的標簽(關聯(lián)性標簽)。將兩個詞(實體)和關聯(lián)性標簽相互對應地進行登記。通過這種方式,在關聯(lián)性數(shù)據(jù)庫中相互對應地登記了下列數(shù)據(jù)(a)多個實體(詞);以及(b)指示實體之間的關聯(lián)性的標簽(關聯(lián)性標簽)。利用具有登記的信息的關聯(lián)性數(shù)據(jù)庫,能夠執(zhí)行高效的文檔分析。例如,從將要分析的文檔中檢測出包括在數(shù)據(jù)庫中登記的兩個詞[Taro,Tokyo]的句子(短語)。從而能夠確定,被確定為包括登記的實體的句子是對“BIRTHPLACE”的描述性文本。通過使用一個實體[Taro]和關聯(lián)性標簽“BIRTHPLACE”作為關鍵字檢索關聯(lián)性數(shù)據(jù)庫,能夠提取出[Taro]的出生地[Tokyo]。、
通過使用關聯(lián)性數(shù)據(jù)庫,可以高速執(zhí)行各種文檔分析。然而,在構(gòu)建關聯(lián)性數(shù)據(jù)庫的處理中,必需從將要處理的文檔提取關聯(lián)詞,并確定指示關聯(lián)性的標簽。通過人力來執(zhí)行這樣的處理成本很高。在關聯(lián)性數(shù)據(jù)庫中已經(jīng)構(gòu)建了許多文檔,但是在因特網(wǎng)等等上每天都有大量新的文檔被公開。然而,很難及時地擴展關聯(lián)性數(shù)據(jù)庫,使其相應于日益増加的信息。例如,根據(jù)現(xiàn)有技術,下列技術可以作為公開了構(gòu)建關聯(lián)性數(shù)據(jù)庫的處理的技術的示例。
在計算語言學會(ACL)出版的ACL第47屆年會聯(lián)合會議和AFNLP第4屆自然語言處理聯(lián)合會議(ACL' 09)的論文集第1003-1011頁,收錄了由Mike Mintz、Steven Bills、Rion Snow和Daniel Jurafsky于2009年發(fā)表的文章〈〈Distant supervision for relationextraction without labeled data(無需標簽數(shù)據(jù)的關系提取遠程監(jiān)控)》,其中公開了ー種使用現(xiàn)有關聯(lián)性數(shù)據(jù)庫將教師信息賦予文檔并擴展關聯(lián)性數(shù)據(jù)庫的方法。在計算語言學會(ACL)出版的ACL第47屆年會聯(lián)合會議和AFNLP第4屆自然語言處理國際聯(lián)合會議(ACL' 09)的論文集第 1003-1011 頁所收錄的 Mike Mintz、Steven Bills、Rion Snow 和Daniel Jurafsky于2009年發(fā)表的又-早〈〈Distant supervision for relation extractionwithout labeled data》中,描述了使用作為對應數(shù)據(jù)的、在關聯(lián)性數(shù)據(jù)庫中登記的實體對和關聯(lián)性標簽,例如實體對[Taro,Tokyo]和關聯(lián)性標簽(BIRTHPLACE)的處理。使用關聯(lián)性數(shù)據(jù)庫中登記的數(shù)據(jù),將關聯(lián)性標簽(此處為BIRTHPLACE)作為教師標簽,賦予(grant)從文檔中提取的描述(例如,“ Taro born in Tokyo (Taro出生于東京)”)。公開了使用關聯(lián)性數(shù)據(jù)庫中登記的信息解決分類問題并擴展關聯(lián)性數(shù)據(jù)庫的處理。然而,當執(zhí)行此方法時,可能出現(xiàn)這樣的問題賦予了錯誤的教師標簽。例如,關聯(lián)性數(shù)據(jù)庫中登記的實體對[Taro,Tokyo]和關聯(lián)性標簽(BIRTHPLACE)可能被賦予下列短·語(A) Taro lived in Tokyo (Taro 住在東京),和(B) Taro died in Tokyo (Taro 逝世于東京)。具體地說,可能出現(xiàn)這樣的錯誤在句子,即,不是描述出生地的短語(A)和(B)(短語)中設置了被賦予短語“Taro born in Tokyo”的實體對[Taro, Tokyo]和關聯(lián)性標簽(BIRTHPLACE)。從而,從現(xiàn)有關聯(lián)性數(shù)據(jù)庫提供的信息不是完整的教師信息。這是因為,即使當實體對通常指示多種關聯(lián)性時,也會使用所述實體對作為關鍵字,將關聯(lián)性標簽賦予文檔中的句子。在計算機語言學會出版的ACL第47屆年會聯(lián)合會議和AFNLP第4屆自然語言處理國際聯(lián)合會議(ACL' 09)的論文集中收錄的Mike Mintz、Steven Bills、Rion Snow和Daniel Jurafsky于2009年發(fā)表的又-早〈〈Distant supervision for relation extractionwithout labeled data》所公開的方法中,關聯(lián)性標簽被錯誤地包括在教師數(shù)據(jù)中,從而使整體性能惡化。

發(fā)明內(nèi)容
期望提供ー種信息處理裝置、信息處理方法和程序,其能夠通過減少在賦予關聯(lián)性標簽時的錯誤來構(gòu)建和擴展高精度的關聯(lián)性數(shù)據(jù)錄。本公開涉及用于基于現(xiàn)有關聯(lián)性數(shù)據(jù)庫,使用能夠從網(wǎng)站等等獲得的文檔,擴展關聯(lián)數(shù)據(jù)庫的方法。根據(jù)本公開的實施例,提供ー種信息處理裝置,包括文檔分析単元,其從文檔數(shù)據(jù)提取短語,該短語包括向其賦予關聯(lián)性標簽的實體對;以及標簽賦予単元,其賦予指示所述實體對之間的關聯(lián)性的關聯(lián)性標簽。所述標簽賦予單元通過分析現(xiàn)有關聯(lián)性數(shù)據(jù)庫的登記信息和文檔數(shù)據(jù)來獲得在包括所述實體對的短語中包括的詞匯語法模式,并從所述文檔數(shù)據(jù)獲得所述詞匯語法模式在該文檔數(shù)據(jù)中出現(xiàn)的出現(xiàn)次數(shù),其中,該現(xiàn)有關聯(lián)性數(shù)據(jù)庫具有有關實體對和關聯(lián)性標簽的登記信息,并且所述文檔數(shù)據(jù)中存在包括在關聯(lián)性數(shù)據(jù)庫中登記的所述實體對的至少ー個短語;計數(shù)在所述文檔數(shù)據(jù)中同時與每對詞匯語法模式兩者出現(xiàn)的實體對的數(shù)量;以及設置從概率密度分布創(chuàng)建的概率模型,該概率密度分布包括所計數(shù)的實體對的數(shù)量、指示賦予關聯(lián)性標簽的正當性的參數(shù)Z、以及指示正確賦予關聯(lián)性標簽的概率的參數(shù)a,計算在概率模型中使似然最大的參數(shù)Z和a,評價為從所述文檔數(shù)據(jù)中提取的實體對賦予關聯(lián)性標簽的正當性,并基于評價結(jié)果賦予關聯(lián)性標簽。在根據(jù)本公開的實施例的信息處理裝置中,所述標簽賦予單元可以通過分析現(xiàn)有關聯(lián)性數(shù)據(jù)庫的登記信息和文檔數(shù)據(jù)來獲得在包括實體對的短語中包括的詞匯語法模式,其中,該現(xiàn)有關聯(lián)性數(shù)據(jù)庫具有關于實體對和關聯(lián)性標簽的登記信息,并且該文檔數(shù)據(jù)中存在包括在關聯(lián)性數(shù)據(jù)庫中登記的實體對的至少ー個短語;可以獲得屬于具有在具有詞匯語法模式A的短語中出現(xiàn)的實體對的集合的實體對的數(shù)量NI、屬于具有在具有不同于詞匯語法模式A的詞匯語法模式B的短語中出現(xiàn)的實體對的集合的實體對的數(shù)量N3,以及屬于在具有詞匯語法模式A的短語中出現(xiàn)的實體對的集合與在具有詞匯語法模式B的短語中出現(xiàn)的實體對的集合之間的重疊部分的集合的實體對的重疊數(shù)量N2,然后,可以創(chuàng)建重疊比率矩陣M,該矩陣M具有關于三個實體對數(shù)量的比率信息作為元素;并且可以使用利用重疊比率矩陣M的概率模型評價為從文檔數(shù)據(jù)中提取的實體對賦予關聯(lián)性標簽的正當性,并可以基于評價結(jié)果賦予關聯(lián)性標簽。在根據(jù)本公開的實施例的信息處理裝置中,所述重疊比率矩陣M可以是具有數(shù)量N3與N2之間的比率N2/N3和數(shù)量NI與N2之間的比率N2/N1作為元素的矩陣。
在根據(jù)本公開的實施例的信息處理裝置中,所述標簽賦予單元可以根據(jù)參數(shù)Z的值向從文檔數(shù)據(jù)中提取的實體對賦予關聯(lián)性標簽,其中所述參數(shù)Z的值是作為通過利用概率模型逐次改變和收斂參數(shù)Z和a的值所獲得的結(jié)果而獲得的。在根據(jù)本公開的實施例的信息處理裝置中,所述參數(shù)Z可以是取決于關聯(lián)性標簽被正確地設置還是錯誤地設置而具有值I或O的參數(shù)。在根據(jù)本公開的實施例的信息處理裝置中,所述文檔分析単元可以獲得諸如在所提取的短語中包括的實體對和作為詞匯語法模式的詞串的數(shù)據(jù),并將所述數(shù)據(jù)存儲在三項數(shù)據(jù)庫中,其中,所述所提取的短語包括向其賦予關聯(lián)性標簽的實體對,并且所述詞串被包括于在該短語的語法樹中聯(lián)結(jié)所述實體對的最短路徑中。在根據(jù)本公開的實施例的信息處理裝置中,所述標簽賦予單元可以被配置成,從三項數(shù)據(jù)庫存儲的數(shù)據(jù)中選擇對其賦予關聯(lián)性標簽的詞匯語法模式,并且可以從將被處理 的詞匯語法模式中排除與在三項數(shù)據(jù)庫中存儲的ー個詞匯語法模式相對應的實體對的數(shù)量小于規(guī)定值的詞匯語法模式以及與在現(xiàn)有關聯(lián)性數(shù)據(jù)庫中登記的實體對的集合中不包括的實體對相對應的詞匯語法模式。在根據(jù)本公開的實施例的信息處理裝置中,所述標簽賦予單元可以執(zhí)行作為估計參數(shù)Z和a的處理的最大似然估計的估計算法。該估計算法(i)隨機地初始化參數(shù)Z和a,并且(ii)交替地重復更新如下參數(shù)直至收斂(不存在參數(shù)Z的變化,在最速上升法之后參數(shù)a的變化等于或小于O. 001)。此外,所述估計算法(ii-i)在參數(shù)Z固定之后通過最速上升法估計參數(shù)a,并且(ii-ii)在固定參數(shù)a之后,關于c隨機地排序參數(shù)Z,并在固定另ー個參數(shù)Zc的同時順序地重置每個參數(shù)Zc的值,以使似然最大,并且重復所述排序和重置,直到參數(shù)Z不發(fā)生變化。根據(jù)本公開的另ー實施例,提供一種在信息處理裝置中執(zhí)行的信息處理方法。該信息處理方法包括從文檔數(shù)據(jù)中提取短語,所述短語包括向其賦予關聯(lián)性標簽的實體對;以及賦予指示所述實體對之間的關聯(lián)性的關聯(lián)性標簽。賦予關聯(lián)性標簽包括通過分析現(xiàn)有關聯(lián)性數(shù)據(jù)庫的登記信息和所述文檔數(shù)據(jù)來獲得在包括所述實體對的短語中包括的詞匯語法模式,并從所述文檔數(shù)據(jù)獲得所述詞匯語法模式在該文檔數(shù)據(jù)中出現(xiàn)的出現(xiàn)次數(shù),其中,該現(xiàn)有關聯(lián)性數(shù)據(jù)庫具有關于實體對和關聯(lián)性標簽的登記信息,并且所述文檔數(shù)據(jù)中存在包括在關聯(lián)性數(shù)據(jù)庫中登記的所述實體對的至少ー個短語;對于詞匯語法模式對,計數(shù)在所述文檔數(shù)據(jù)中同時與每對詞匯語法模式的兩方出現(xiàn)的實體對的數(shù)量;以及設置從概率密度分布創(chuàng)建的概率模型,該概率密度分布包括所計數(shù)的實體對的數(shù)量、指示賦予關聯(lián)性標簽的正當性的參數(shù)Z、以及指示正確賦予關聯(lián)性標簽的概率的參數(shù)a,計算在概率模型中使似然最大的參數(shù)Z和a,評價為從所述文檔數(shù)據(jù)中提取的實體對賦予關聯(lián)性標簽的正當性,并基于評價結(jié)果賦予關聯(lián)性標簽。
根據(jù)本公開的再ー實施例,提供一種使得信息處理裝置執(zhí)行信息處理的程序,包括從文檔數(shù)據(jù)中提取短語,所述短語包括向其賦予關聯(lián)性標簽的實體對;以及賦予指示所述實體對之間的關聯(lián)性的關聯(lián)性標簽。賦予關聯(lián)性標簽包括通過分析現(xiàn)有關聯(lián)性數(shù)據(jù)庫的登記信息和所述文檔數(shù)據(jù)來獲得在包括所述實體對的短語中包括的詞匯語法模式,并從所述文檔數(shù)據(jù)獲得所述詞匯語法模式在該文檔數(shù)據(jù)中出現(xiàn)的出現(xiàn)次數(shù),其中,該現(xiàn)有關聯(lián)性數(shù)據(jù)庫具有關于實體對和關聯(lián)性標簽的登記信息,并且所述文檔數(shù)據(jù)中存在包括在關聯(lián)性數(shù)據(jù)庫中登記的所述實體對的至少ー個短語;對于ー對詞匯語法模式,計數(shù)在所述文檔數(shù)據(jù)中與每對詞匯語法模式兩者同時出現(xiàn)的實體對的數(shù)量;以及設置從概率密度分布創(chuàng)建的概率模型,該概率密度分布包括所計數(shù)的實體對的數(shù)量、指示賦予關聯(lián)性標簽的正當性的參數(shù)Z、以及指示正確賦予關聯(lián)性標簽的概率的參數(shù)a,計算在概率模型中使似然最大的參數(shù)Z和a,評價為從所述文檔數(shù)據(jù)中提取的實體對賦予關聯(lián)性標簽的正當性,并基于評價結(jié)果賦予關聯(lián)性標簽。根據(jù)本公開的實施例的程序是可以以計算機可讀格式提供的、通過存儲介質(zhì)或通信介質(zhì)提供給例如能夠執(zhí)行各種程序代碼的圖像處理裝置或計算機系統(tǒng)的程序。通過以計算機可讀格式提供程序,在信息處理裝置或計算機系統(tǒng)上實現(xiàn)根據(jù)所述程序執(zhí)行的處理。從下述參照本公開的實施例和附圖的詳細描述,本公開的其他特征和優(yōu)點將變得清楚。說明書中的系統(tǒng)具有多個裝置的邏輯集合配置,并且不局限于具有配置的裝置包括在同一機殼內(nèi)的配置。根據(jù)本公開的實施例,可以以高精確度構(gòu)建或擴展關聯(lián)性數(shù)據(jù)庫。特別是,從文檔數(shù)據(jù)中提取出包括向其賦予關聯(lián)性標簽的實體對的短語。賦予關聯(lián)性標簽,該關聯(lián)性標簽表示所提取的短語中包括的實體對之間的關聯(lián)性。標簽賦予單元通過分析現(xiàn)有關聯(lián)性數(shù)據(jù)庫的登記信息獲得在包括實體對的短語中所包括的詞匯語法模式出現(xiàn)的出現(xiàn)次數(shù),創(chuàng)建在每個詞匯語法模式中的實體對的重疊比率矩陣M,設置包括矩陣M、指示關聯(lián)性標簽的正當性的參數(shù)Z、以及指示正確賦予關聯(lián)性標簽的概率的參數(shù)a的概率模型,計算具有最大似然的參數(shù)Z和a,并基于參數(shù)Z的值賦予關聯(lián)性標簽。通過執(zhí)行所述處理,可以以高精確度提取和擴展關聯(lián)性數(shù)據(jù)庫。


圖IA和圖IB是圖示在根據(jù)本公開的信息處理裝置執(zhí)行的處理中的輸入和輸出的示圖;圖2A和圖2B是圖示在根據(jù)本公開的信息處理裝置執(zhí)行的處理中的、提取三數(shù)據(jù)項的處理的示圖;圖3是圖示在根據(jù)本公開的信息處理裝置執(zhí)行的處理中的、在詞匯語法模式與關聯(lián)性標簽之間的對應性(correspondence)的示圖;圖4是圖示在根據(jù)本公開的信息處理裝置執(zhí)行的處理中的、關聯(lián)性數(shù)據(jù)庫的配置的例子的不圖;圖5是圖示在根據(jù)本公開的信息處理裝置執(zhí)行的處理中的、可以從教師數(shù)據(jù)庫中 獲得的信息的例子的示圖;圖6是圖示在根據(jù)本公開的信息處理裝置執(zhí)行的處理中的、關聯(lián)性標簽設置中的錯誤的機制的示圖;圖7是圖示在根據(jù)本公開的信息處理裝置執(zhí)行的處理中的、包含錯誤的標簽賦予模型的示圖;圖8是圖示在根據(jù)本公開的信息處理裝置執(zhí)行的處理中的、潛在變量(potentialvariable)的不圖;圖9是圖示在根據(jù)本公開的信息處理裝置執(zhí)行的處理中的、實體對的重疊比率矩陣M的描述的示圖;圖10是圖示根據(jù)本公開的信息處理裝置的配置的例子的示圖;圖11是根據(jù)本公開的信息處理裝置執(zhí)行的處理的流程圖;圖12是從文檔組提取短語的處理的流程圖;圖13A和圖13B是圖示提取的三數(shù)據(jù)項的例子的示圖;圖14是選擇短語的處理的流程圖;圖15是圖示與特定詞匯語法模式相對應的實體對的集合S(p)的例子的示圖;以及圖16是圖示賦予標簽的處理的流程圖。
具體實施例方式下文中,將參照附圖描述根據(jù)本公開的實施例的信息處理裝置、信息處理方法和程序。將按以下順序進行描述。I、根據(jù)本公開的信息處理裝置執(zhí)行的處理的概述2、處理裝置和處理序列的配置3、處理的細節(jié)3-1、從文檔中提取短語的處理(步驟SlOl和S102)的細節(jié)3-2、從提取的三數(shù)據(jù)項中選擇關聯(lián)性標簽設置目標的處理(步驟S103到S105)的細節(jié)
3-3、賦予關聯(lián)性標簽的處理的細節(jié)(步驟S106和S107)3-3-1、使用概率模型I的處理的例子3-3-2、使用概率模型2的處理的例子4、增加實體對的處理5、根據(jù)本公開的配置的綜述I、根據(jù)本公開的信息處理裝置執(zhí)行的處理的概述首先,將描述根據(jù)本公開的實施例的信息處理裝置的處理的概述。根據(jù)本公開的實施例的信息處理裝置執(zhí)行從文檔中提取彼此具有關聯(lián)性的實體對(實體被設置為專有名詞等)并指定實體對的處理?!な褂迷诶绗F(xiàn)有數(shù)據(jù)庫中已經(jīng)登記的關聯(lián)性標簽,執(zhí)行指定從文檔中提取的實體對之間的關聯(lián)性的處理,即,在新的實體對中設置關聯(lián)性標簽的處理。根據(jù)本公開的實施例的信息處理裝置通過使用已構(gòu)建的關聯(lián)性數(shù)據(jù)庫(DB)、并且使用關聯(lián)性數(shù)據(jù)庫(DB)的登記信息,來為從新文檔中提取的實體對設置關聯(lián)性標簽,其中所述的已構(gòu)建的關聯(lián)性數(shù)據(jù)庫(DB)即被構(gòu)建為實體對與關聯(lián)性標簽之間的對應信息的集合的現(xiàn)有關聯(lián)性數(shù)據(jù)庫(DB)。也就是說,信息處理裝置執(zhí)行擴展現(xiàn)有關聯(lián)性數(shù)據(jù)庫(DB)的處理。現(xiàn)在將描述根據(jù)本公開的實施例的信息處理裝置執(zhí)行的處理的概述。首先,從將要處理的文檔中提取包括實體對的短語(句子)。以及提取詞匯語法模式(基于語法樹和詞的字符串模式),所述詞匯語法模式指示所提取的實體對的關聯(lián)性。對于每個詞匯語法模式,在文檔中對包括該詞匯語法模式的短語所包括的實體對的數(shù)量進行計數(shù)。該實體對的數(shù)量被稱為計數(shù)I。下文中,認為允許有零個或更多的關聯(lián)性標簽對應于詞匯語法模式。當詞匯語法模式被確定時,假定同時出現(xiàn)的實體對相互之間具有關聯(lián)性。當向?qū)嶓w對賦予關聯(lián)性標簽時,賦予與同時出現(xiàn)的詞匯語法模式相對應的關聯(lián)性標簽。使用關于現(xiàn)有關聯(lián)性DB的登記信息(在實體對與關聯(lián)性數(shù)據(jù)庫之間的對應信息)向下列詞匯語法模式賦予關聯(lián)性標簽(這個“對應”不同于上面描述的關聯(lián)性標簽的對應)。對于與詞匯語法模式同時出現(xiàn)的每個實體對,確定是否存在與來自現(xiàn)有關聯(lián)性DB的該實體對相對應的關聯(lián)性標簽。當確認存在關聯(lián)性標簽時,將該關聯(lián)性標簽賦予為與詞匯語法模式同時出現(xiàn)的實體對的關聯(lián)性標簽。對所有詞匯語法模式執(zhí)行這個處理。這個處理被稱為標簽賦予序列I。對于詞匯語法模式和關聯(lián)性標簽的各對,計數(shù)將關聯(lián)性標簽賦予詞匯語法模式的次數(shù)。該次數(shù)被稱為計數(shù)2。在根據(jù)本公開的實施例的信息處理裝置中,將計數(shù)I和計數(shù)2用作允許關聯(lián)性標簽對應于詞匯語法模式的線索(key)?;旧希谠~匯語法模式和關聯(lián)性標簽的對中,預期具有較大(計數(shù)2)パ計數(shù)I)的值的詞匯語法模式與關聯(lián)性標簽相對應。然而,當在標簽賦予序列I中將關聯(lián)性標簽賦予詞匯語法模式時,可能將本來沒有指示這種關聯(lián)性的關聯(lián)性標簽賦予詞匯語法模式。這是因為,由于實體對通常具有多種關聯(lián)性,因此即使關聯(lián)性DB中的實體對與文檔中的實體對相同時,關聯(lián)性DB中的關聯(lián)性標簽也不一定指示文檔中描述的實體對之間的關聯(lián)性。具體地說,例如,當實體對是兩個專有名詞Taro和Tokyo時,有可能賦予指示不同種類關聯(lián)性的關聯(lián)性標簽,如BIRTHPLACE、PLACE OF LIVING (居住地)和PLACE OFDEATH(逝世地),作為指示所述兩個專有名詞之間關聯(lián)性的關聯(lián)性標簽。這樣,即使是相同的實體對,通常也具有多種關聯(lián)性。因此,即使當關聯(lián)性DB中的實體對與文檔中的實體對相同時,關聯(lián)性DB中的關聯(lián)性標簽也可能不一定指示文檔中描述的實體對之間的關聯(lián)性。例如,假定現(xiàn)有關聯(lián)性數(shù)據(jù)庫具有僅僅關于BIRTHPLACE是用于實體對Taro和Tokyo的關聯(lián)性標簽的登記信息,而新近將要處理的文檔中的短語是“Tom lives in Tokyo.(湯姆住在東京。)”在這種情況下,用干與該短語相對應的詞匯語法模式的正確關聯(lián)性標簽是PLACEOF LIVING。然而,當不加變化地應用現(xiàn)有關聯(lián)性數(shù)據(jù)庫中的登記信息吋,BIRTHPLACE被設置為關聯(lián)性標簽。從而,存在可能設置錯誤的關聯(lián)性標簽的憂慮。在根據(jù)本公開的實施例的信息處理裝置中,對于詞匯語法模式的所有實體對,對共同出現(xiàn)的實體對的數(shù)量進行計數(shù)。這個數(shù)量被稱為計數(shù)3。計數(shù)3可被用于估計錯誤的關聯(lián)性標簽被賦予詞匯語法模式的概率。在根據(jù)本公開的實施例的信息處理裝置中,使用例如如下所述的參數(shù)和計數(shù)3,對于在標簽賦予序列I中賦予關聯(lián)性標簽的概率(被賦予的關聯(lián)性標簽用計數(shù)I和計數(shù)2來表示)進行建摸。參數(shù)Zc是ニ值參數(shù),其可以被分配給詞匯語法模式c和關聯(lián)性標簽的每個對。這里,考慮ー個關聯(lián)性標簽。參數(shù)Zc = I代表詞匯語法模式c表示關聯(lián)性標簽的關聯(lián)性。參數(shù)Zc = O代表詞匯語法模式c不表示關聯(lián)性標簽的關聯(lián)性。該參數(shù)的估計結(jié)果用作詞匯語法模式與關聯(lián)性標簽之間的對應關系。參數(shù)a是在O到I范圍內(nèi)的實值參數(shù),其可被分配給每個關聯(lián)性標簽。此參數(shù)a代表具有關聯(lián)性標簽的關聯(lián)性的實體對存在于關聯(lián)性DB中的概率。例如,通過利用最大似然估計來估計每個參數(shù),可以允許關聯(lián)性標簽與詞匯語法模式相對應。圖IA示出了作為輸入數(shù)據(jù)的文檔的例子,該輸入數(shù)據(jù)是將被根據(jù)本公開實施例的信息處理裝置處理的數(shù)據(jù);圖IB示出了通過該信息處理裝置的處理而獲得的關聯(lián)性數(shù)據(jù)庫的組成數(shù)據(jù)的例子。輸入文檔是數(shù)字化的文檔,如在因特網(wǎng)上公開的文檔。例如,從該文檔中選擇諸如專有名詞的兩個詞作為實體對。此外,確定指示所選擇的實體對之間的關聯(lián)性的關聯(lián)性標簽。例如,從圖IA示出的文檔中包括的短語“Tom Jackson was born in Indiana (湯姆·杰克遜出生于印第安納州)”選擇的實體對是“Tom Jackson(湯姆·杰克遜)”和“Indiana (印第安那州)”。在本實施例中,提取專有名詞作為實體對。
例如,將指示出生地的“ BIRTHPLACE ”設置為關聯(lián)性標簽,用于指示“ Tom Jackson ”和“Indiana”之間的關聯(lián)性,從而執(zhí)行設置正確的關聯(lián)性標簽的處理。根據(jù)本公開的實施例的信息處理裝置執(zhí)行提取實體對并為提取的實體對設置正確的關聯(lián)性標簽的處理、以及在關聯(lián)性數(shù)據(jù)庫中増加和更新條目的處理。機械地執(zhí)行選擇專有名詞作為實體對的處理相對容易,但是向選擇的實體對賦予正確的關聯(lián)性標簽則比較困難。根據(jù)本公開的實施例的信息處理裝置分析來自將要優(yōu)先處理的文檔的包括作為實體對的專有名詞的短語的語法,并根據(jù)語法樹路徑(syntax tree pass)的連接形式提取三數(shù)據(jù)項。將參照圖2A和圖2B描述這個處理。 圖2A示出了對文檔進行語法分析處理的例子。通過對下列短語的語法分析來創(chuàng)建圖2A中示出的語法樹路徑短語Tomwas born in Kyoto on January 15,1981.(湯姆于 1981 年 I 月 15 日出生于京都。)首先,從語法樹路徑提取兩個專有名詞Tom和Kyoto(京都)作為兩個實體。接下來,選擇聯(lián)結(jié)兩個實體的最短路徑,并提取沿所選擇路徑的詞或詞串作為“詞匯語法模式”。獲得三條數(shù)據(jù),即包括兩個實體的“實體對”和“詞匯語法模式”,以作為三數(shù)據(jù)項。在圖2A示出的例子中,提取了實體對“Tom”和“Kyoto”以及詞匯語法模式“bornin(出生干)”。通過這種方式,根據(jù)本公開的實施例的信息處理裝置從將要優(yōu)先處理的整個文檔提取所有的實體對和詞匯語法模式的三數(shù)據(jù)項,并將所提取的三數(shù)據(jù)項存儲在數(shù)據(jù)庫(三項數(shù)據(jù)庫)中。接下來,對三項數(shù)據(jù)庫中存儲的三數(shù)據(jù)項中包括的實體對執(zhí)行設置正確的關聯(lián)性標簽的處理。例如,基于詞匯語法模式,可以確定在實體對中是否設置了正確的關聯(lián)性標簽。在圖2A和圖2B示出的例子中,提取了詞匯語法模式“born in”。然而,在許多情況下,在將要處理的文檔中,存在從中提取出詞匯語法模式“born in”的多個短語。例如,如圖2B中所示,從具有一個相同的詞匯語法模式“ born in”的短語中選擇了其他的實體對。將參照圖3描述關聯(lián)性標簽與通過語法樹上聯(lián)結(jié)實體對的路徑的詞串形成的詞匯語法模式之間的對應關系。圖3是圖示作為關聯(lián)性標簽與從文檔中提取的詞匯語法模式之間的對應關系的、通過I和O表不的正確關系的不圖。示出下列詞作為詞匯語法模式born in (出生于),band from,died in(逝世干),以及moved to (搬到
示出下列詞作為關聯(lián)性標簽BIRTHPLACE (出生地),PLACE OF DEATH(死亡地),以及ORIGIN (出身)。在用于詞匯語法模式的正確關聯(lián)性標簽的對應部分示出[I]。在用于詞匯語法模式的錯誤的關聯(lián)性標簽的對應部分示出[O]。也就是說,例如,用于詞匯語法模式“born in”的正確關聯(lián)性標簽是被設置為[I]的 “BIRTHPLACE” 或“ORIGIN”。
此外,用于詞匯語法模式“died in”的正確關聯(lián)性標簽是設置為[I]的“PLACE OFDEATH”。通過這種方式,能夠根據(jù)詞匯語法模式確定關聯(lián)性標簽的正當性。然而,當在沒有人為判決的情況下通過自動處理算法執(zhí)行設置關聯(lián)性標簽的處理時,在一些情況下可能在實體對中設置錯誤的關聯(lián)性標簽。根據(jù)本公開的實施例的信息處理裝置這行這樣的處理通過使用作為教師信息的、基于給定文檔已經(jīng)構(gòu)建的關聯(lián)性數(shù)據(jù)庫的登記信息,在從新近將要處理的文檔中提取的實體對中設置關聯(lián)性標簽。此處設置的關聯(lián)性標簽是作為現(xiàn)有數(shù)據(jù)庫的登記信息設置的關聯(lián)性標簽。圖4中示出了現(xiàn)有關聯(lián)性數(shù)據(jù)庫的登記信息的例子。如圖4中所示,在關聯(lián)性數(shù)據(jù)庫中登記了實體對(實體I和實體2)與關聯(lián)性標簽之間的對應數(shù)據(jù),所述關聯(lián)性標簽指示了實體對之間的關聯(lián)性。根據(jù)本公開的實施例的信息處理裝置執(zhí)行這樣的處理通過使用現(xiàn)有關聯(lián)性數(shù)據(jù)庫的登記信息作為教師信息,向從新輸入的文檔提取的實體對設置正確的關聯(lián)性標簽。圖5是圖示當將現(xiàn)有數(shù)據(jù)庫用作教師數(shù)據(jù)庫時獲得的信息(即觀測數(shù)據(jù)D)的示圖。圖5示出了在包括一些詞匯語法模式[(born in), (band from),...]的短語的實體對中設置的關聯(lián)性標簽[(BIRTHPLACE),(PLACE OF DEATH),…]的比率。圖5的表中示出的值(322/1342)等表示標簽的賦予數(shù)量/詞匯語法模式出現(xiàn)的出現(xiàn)次數(shù)。例如,在文檔中詞匯語法模式“born in”出現(xiàn)的次數(shù)是1342。賦予關聯(lián)性標簽“BIRTHPLACE”的數(shù)量是322。根據(jù)本公開的實施例的信息處理裝置的標簽賦予單元通過分析關于現(xiàn)有關聯(lián)性數(shù)據(jù)庫的登記信息和文檔數(shù)據(jù),——該現(xiàn)有關聯(lián)性數(shù)據(jù)庫具有有關實體對和關聯(lián)性標簽的登記信息,而該文檔數(shù)據(jù)中存在包括關聯(lián)性數(shù)據(jù)庫中登記的實體對的至少ー個短語——由此獲得在包括實體對的短語中包括的詞匯語法模式的出現(xiàn)次數(shù)。具體地說,標簽賦予單元獲得下述每個數(shù)據(jù)。標簽賦予單元獲得屬于ー集合的實體對的數(shù)量NI,該集合具有在具有詞匯語法模式A的短語中出現(xiàn)的實體對。屬于ー集合的實體對的數(shù)量N3,該集合具有在具有詞匯語法模式B的短語中出現(xiàn)的實體對,該詞匯語法模式B不同于詞匯語法模式A ;以及屬于在具有詞匯語法模式A的短語中出現(xiàn)的實體對的集合與在具有詞匯語法模式B的短語中出現(xiàn)的實體對的集合之間的重疊部分的集合的實體對的重疊數(shù)量N2。此外,標簽賦予單元創(chuàng)建重疊比率矩陣M,該矩陣M具有關于三個實體對數(shù)量的比率信息作為元素。稍后將描述這個處理。將關聯(lián)性標簽“PLACE OF DEATH”賦予詞匯語法模式“ born in”的處理是賦予錯誤的關聯(lián)性標簽的處理。將參照圖6描述設置關聯(lián)性標簽時的錯誤出現(xiàn)機制。圖6示出了從包括兩個不同的詞匯語法模式的短語中提取的實體對的集合(集合A和集合B),所述兩個不同的詞匯語法模式為
born in ;和moved to。正確的關聯(lián)性標簽“ORIGIN”被賦予包括詞匯語法模式(born in)的短語的實體對的集合A的部分。另ー方面,錯誤的關聯(lián)性標簽“ORIGIN”還被賦予包括詞匯語法模式“ moved to”的短語的實體對的集合B的部分。集合A和B的交集是文檔數(shù)據(jù)中同時與詞匯語法模式“born in”和“movedto”出現(xiàn)的實體對的集合。當執(zhí)行將關聯(lián)性標簽“ORIGIN”賦予實體對的處理、而該實體對是用于詞匯語法模式“moved to”的實體對時,錯誤的關聯(lián)性標簽被設置。根據(jù)本公開的實施例的信息處理裝置考慮由于該機制導致的關聯(lián)性標簽設置錯誤而實現(xiàn)了正確的標簽設置。圖7是圖示在根據(jù)本公開的實施例的信息處理裝置中使用的關聯(lián)性標簽賦予模型的例子的示圖。與圖6中相似,圖7示出了從包括兩個不同的詞匯語法模式“born in”和“movedto”的短語中提取的實體對的集合(集合A和集合B)。假定NI是從包括詞匯語法模式“born in”的短語中提取的實體對的集合(集合
A)的分量(component)數(shù)量,而N3是從包括詞匯語法模式“movedto”的短語中提取的實體對的集合(集合B)的分量數(shù)量。此外,假定N2是從重疊部分,即短語當中出現(xiàn)了詞匯語法模式“born in”和“moved to”的短語中提取的實體對的集合的分量數(shù)量。假定a是將關聯(lián)性標簽“ORIGIN”賦予屬于集合A的實體對的概率。在這種情況下,可以估計將關聯(lián)性標簽“ORIGIN”錯誤地賦予詞匯語法模式“ movedto” 的概率是 aX (N2/N3)。接下來,將參照圖8描述在根據(jù)本公開的實施例的信息處理裝置中使用的潛在變量Zc0如上所述,可以允許在實體對中設置的關聯(lián)性標簽對應于短語中包括的詞匯語法模式,其中實體對來自于所述短語。然而,很難自動地確定詞匯語法模式與關聯(lián)性標簽之間的對應關系是否正確。
在根據(jù)本公開的實施例的處理中,定義并使用用作確定處理處理的指標(index)的潛在變量Zc (這里將使用一個關聯(lián)性標簽)。Zc是在其中設置O或I的變量,并且Zc根據(jù)每個值而表示下列含義Zc = I :賦予包括詞匯語法模式c的短語的實體對的標簽是正確的;以及Zc = O :賦予包括詞匯語法模式c的短語的實體對的標簽是不正確的。圖8的(b)部分示出了具有公共部分的兩個詞匯語法模式Cl和c2之間的三種關系的例子。(bl)部分對應于參照圖7描述的例子,示出了當將正確的關聯(lián)性標簽賦予詞匯語法模式Cl的概率為a時,將錯誤的關聯(lián)性標簽賦予不同的詞匯語法模式c2的概率是a X (N2/N3)。(b2)和(b3)部分示出了在兩個不同的詞匯語法模式中不存在“相互作用”的例子。(b2)部分示出了在兩個不同的詞匯語法模式中設置了正確的關聯(lián)性標簽的例子(Zcl = I且Zc2 = I)。向兩個詞匯語法模式都賦予正確的關聯(lián)性標簽的概率是a。(b3)部分示出了在兩個不同的詞匯語法模式中設置了錯誤的關聯(lián)性標簽的例子(Zcl = O 且 Zc2 = O)。根據(jù)本公開的實施例的信息處理裝置使用潛在變量來執(zhí)行ー處理,該潛在變量指示賦予包括這樣的詞匯語法模式的短語的實體對的關聯(lián)性標簽是正確還是錯誤。稍后將描述該處理的細節(jié)。根據(jù)本公開的實施例的信息處理裝置設置預定概率模型,以估計在給定詞匯語法模式中設置的關聯(lián)性標簽是正確還是錯誤。在使用概率模型執(zhí)行的處理中,使用了矩陣M,該矩陣M是使用與多個詞匯語法模式相對應的實體對的集合的數(shù)目創(chuàng)建的。將參照圖9描述矩陣M。形成矩陣M的矩陣分量(mc' c)是使用與參照圖6到圖8描述的相同的、被包括在多個不同詞匯語法模式的實體對的集合中的分量的數(shù)量NI到N3計算的。也就是說,假定NI是從包括詞匯語法模式(C')的短語中提取的實體對的集合(集合A)的分量數(shù)量,N3是從包括詞匯語法模式(C)的短語中提取的實體對的集合(集合
B)的分量數(shù)量,而N2是重疊的實體對的集合的分量數(shù)量。形成矩陣M的矩陣分量(mc' c)對應于從第c個詞匯語法模式的角度來看,第ど個詞匯語法模式與第c個詞匯語法模式之間的公共部分的比率。同樣地,形成矩陣M的矩陣分量(mcc')對應于從第c'個詞匯語法模式的角度來看,第c個詞匯語法模式與第ど個詞匯語法模式之間的公共部分的比率。當mcc = O 時,關系式“me' c = N2/N3” 和關系式“mcc' =N2/N1”成立。通過這種方式,根據(jù)本公開的實施例的信息處理裝置設置預定概率模型,以估計在給定詞匯語法模式中設置的關聯(lián)性標簽是正確還是錯誤。、
在使用概率模型執(zhí)行的處理中,如參照圖9描述的,使用矩陣M來執(zhí)行該處理,其中矩陣M是由使用與多個詞匯語法模式相對應的實體對的集合的數(shù)量計算的矩陣分量形成的。
2、處理裝置和處理序列的配置接下來,將描述根據(jù)本公開的實施例的信息處理裝置的配置和處理序列。圖10是圖示根據(jù)本公開的實施例的信息處理裝置的主要単元的配置的示圖。圖11是圖示由圖10中示出的信息處理裝置執(zhí)行的總體處理的流程圖。如圖10中所示,信息處理裝置100包括文檔分析單元101、三項數(shù)據(jù)庫(DB) 102、標簽賦予單元103和關聯(lián)性數(shù)據(jù)庫(DB) 104。除了圖10中示出的配置之外,信息處理裝置100還包括存儲器和控制單元,該存儲器記錄執(zhí)行下述處理的程序,而該控制単元包括CPU,該CPU用于程序執(zhí)行功能。在如下所述的實施例中,例如,在將被擴展的現(xiàn)有關聯(lián)性數(shù)據(jù)庫(DB) 104中已經(jīng)登記了關聯(lián)性標簽“BIRTHPLACE”(人物和地點與出生地相關聯(lián))以及與該關聯(lián)性標簽相對應的實體對的集合?!せ谒鲂畔ⅲ畔⑻幚硌b置100執(zhí)行高精確度地向從新文檔提取的實體對設置正確的關聯(lián)性標簽的處理。將要處理的文檔的語言是英語。在如下所述的實施例中,在實體對中設置的關聯(lián)性標簽是ー個。然而,即使在存在其他關聯(lián)性標簽吋,也可以執(zhí)行相同的處理。將按照圖11的流程圖來描述信息處理裝置100執(zhí)行的處理。信息處理裝置100根據(jù)圖11的流程圖執(zhí)行以下處理。在步驟S101,從文檔組中提取包括實體對的短語。在步驟S102,從所述短語中提取詞匯語法模式和實體對,并將其登記到三項DB中。在步驟S103,從三項數(shù)據(jù)庫(DB)中讀取三數(shù)據(jù)項。在步驟S104,從關聯(lián)性數(shù)據(jù)庫(DB)中讀取標簽數(shù)據(jù)。在步驟S105,選擇詞匯語法模式。在步驟S106,根據(jù)預定的標簽賦予算法將關聯(lián)性標簽賦予實體。在步驟S107,將實體對和關聯(lián)性標簽登記到關聯(lián)性數(shù)據(jù)庫(DB)中。下文中,將詳細描述圖11的流程圖中每個步驟的處理。3、處理的細節(jié)3-1、從文檔中提取短語的處理(步驟SlOl和S102)的細節(jié)首先,將描述從文檔中提取短語的處理。此處理對應于圖11示出的流程圖中的步驟SlOl和S102的處理。在步驟S101,從文檔組中提取包括實體對的短語。在步驟S102,從所述短語中提取詞匯語法模式和實體對,并將其存儲到三項數(shù)據(jù)庫(DB)中。步驟SlOl和S102的處理,即,從文檔組中提取包括實體對的短語的處理由圖10中示出的信息處理裝置100的文檔分析単元101執(zhí)行。圖12示出了在步驟SlOl和S102中從文檔組中提取短語的處理的詳細流程圖。圖12示出了根據(jù)圖12的流程圖從文檔組中提取短語的處理。在提取短語的處理中,在存在現(xiàn)有關聯(lián)性數(shù)據(jù)庫的假設之下,基于新文檔數(shù)據(jù)執(zhí)行擴展現(xiàn)有關聯(lián)性數(shù)據(jù)庫的處理。在步驟S201,讀取新文檔。在步驟S202,從讀取的文檔中指定句子。在步驟S203,執(zhí)行從指定的句子中提取專有名詞的處理,以指定來自文檔的專有名詞。在本實施例中,將專有名詞設置為將被登記到關聯(lián)性數(shù)據(jù)庫中的實體,即與關聯(lián)性標簽對應登記的實體。在步驟S204,提取其中出現(xiàn)兩個或更多專有名詞的句子。
在步驟S205,通過執(zhí)行依賴結(jié)構(gòu)語法分析來創(chuàng)建語法樹。接下來,在步驟S206,指定滿足所有下列條件的實體對(即,專有名詞對)條件I :在聯(lián)結(jié)兩個實體(專有名詞)的語法樹路徑中不存在用于界定(delimit)句子的依賴關系(關系代詞);條件2 :在語法樹中兩個實體(專有名詞)之間的依賴路徑的長度是3或更?。灰约皸l件3 :在文檔的表述中,在兩個實體(專有名詞)之間的詞的數(shù)量是10或更小。通過將沿所提取的實體對之間的語法樹路徑的詞從先頭實體(headentity)按順序排列而獲得的模式被稱為詞匯語法模式。在步驟S207,在短語中包括的實體對和詞匯語法模式被登記到三項DB102中。三項指的是兩個實體(即“實體對”)與沿聯(lián)結(jié)兩個實體的語法樹路徑的詞(即“詞匯語法模式”)的數(shù)據(jù)組合。在三項DB 102中登記的數(shù)據(jù)可以包括實體對的類型(位置、人物,等等)。在三項DB 102中存儲“實體對”和“詞匯語法模式”的處理對應于圖11的流程圖中的步驟S102的處理。 當在另ー個短語中出現(xiàn)相同的實體對和相同的詞匯語法模式吋,所述相同的實體對和相同的詞匯語法模式被當作另外的三項來處理,并且在三項DB102中將其個別地登記為另外的三數(shù)據(jù)項。圖13A和圖13B示出了通過上述處理提取的包括實體對的短語(三數(shù)據(jù)項)。圖13A示出了將被處理的句子的一部分。圖13B示出了從圖4示出的文檔中提取的、被登記到三項DB 102中的三數(shù)據(jù)項,即,“實體對”和“詞匯語法模式”的例子。如圖13A中所示,在將要處理的文檔中包括文檔“…The Jackson botherssigned a new contract with BBS Recoras in June 1975,. . . Tom Jackson born inIndiana,...(...杰克遜兄弟在1975年6月與BBS Records簽訂了新的合約,...湯姆 杰克遜出生于印第安納州,...”。從圖13A示出的文檔中提取圖13B示出的“實體對”和“詞匯語法模式”(即,三數(shù)據(jù)項)。(bl) Jackson brothers (杰克遜兄弟),signed contract with(與··.簽訂合約),BBS Records ;以及(b2)Tom Jackson(湯姆·杰克遜),born in(出生于),Indiana(印第安納州)。
在這個例子中,提取了專有名詞作為實體,并且提取了語法樹上沿聯(lián)結(jié)所述實體的路徑的詞的組合作為詞匯語法模式。在所提取的短語(bl)中,實體對是“The Jackson bothers (杰克遜兄弟)”和“ BBSRecords”,并且詞匯語法模式(在語法樹上沿路徑聯(lián)結(jié)的詞)是“signed contract with”。在提取的短語(b2)中,實體對是“Tom Jackson”和“Indiana”,并且詞匯語法模式(語法樹上沿路徑聯(lián)結(jié)的詞)是“born in”。當短語被確定用于提取三數(shù)據(jù)項吋,同時出現(xiàn)的實體對具有相同的關聯(lián)性。下文中,將描述允許關聯(lián)性標簽(BIRTHPLACE)對應于在三項數(shù)據(jù)庫102中登記的三數(shù)據(jù)項的處理,以作為一個處理的例子。
3-2、從提取的三數(shù)據(jù)項中選擇關聯(lián)性標簽設置目標的處理(步驟S103到S105)的細節(jié)接下來,將描述從在三項數(shù)據(jù)庫中登記的數(shù)據(jù)中選擇在其中設置關聯(lián)性標簽的目標數(shù)據(jù)的處理。下文中,從中提取出登記到三項數(shù)據(jù)庫中的數(shù)據(jù)(即,三數(shù)據(jù)項實體對和詞匯語法模式)的句子將被描述為“短語”,并且將描述在短語中設置關聯(lián)性標簽的處理。該處理對應于將關聯(lián)性標簽賦予從短語中提取的、并且被登記在三項數(shù)據(jù)庫中的實體對的處理。該處理對應于圖11的流程圖中的步驟S103到S105。在步驟S103,從三項數(shù)據(jù)庫(DB)中讀出登記的三數(shù)據(jù)項(實體對和詞匯語法模式)。在步驟S104,從關聯(lián)性數(shù)據(jù)庫(DB)中讀出現(xiàn)有的標簽數(shù)據(jù)(關聯(lián)性標簽)。在步驟S105,選擇為其設置關聯(lián)性標簽的詞匯語法模式。所述處理由圖10示出的標簽賦予單元103執(zhí)行。步驟S103到S105的一系列處理包括這樣的處理排除包括的詞匯語法模式與關聯(lián)性數(shù)據(jù)庫104的登記信息具有較少關系的三數(shù)據(jù)項,以及包括的詞匯語法模式由于在文檔中出現(xiàn)的頻率很小而被確定為無用的三數(shù)據(jù)項。將參照圖14的流程圖詳細描述圖11的流程圖中的步驟S103到S105的處理。在步驟S301,標簽賦予單元103獲得在三項DB 102中登記的所有三數(shù)據(jù)項。接下來,在步驟S302,對于在三項DB 102中登記的每個出現(xiàn)的詞匯語法模式,組織與該詞匯語法模式同時出現(xiàn)的實體對的集合S(p)。與給定的詞匯語法模式P相對應的實體對的集合被稱為集合S (P)。圖15中示出了實體對的集合S (P)的特定例子。圖15示出了這樣的例子其中,集合S(p)具有實體對“Taro,Tokyo”, Tom,Indiana”、“Hanako, Chiba”等等,以作為包括與詞匯語法模式相對應的詞串“born in”的三數(shù)據(jù)項中的實體對。接下來,在步驟S303,從三項數(shù)據(jù)庫102中去除這樣的詞匯語法模式P :該詞匯語法模式P的實體對集合S(P)的分量數(shù)量為10或更少。這個處理對應于排除由于在文檔中出現(xiàn)頻率很小而被確定為無用的詞匯語法模式的處理。
接下來,在步驟S304,從關聯(lián)性數(shù)據(jù)庫104中讀出所有實體對。接下來,在步驟S305,當集合S (p)不包括存在于關聯(lián)性數(shù)據(jù)庫104中的實體對吋,從三項數(shù)據(jù)庫102中去除相應的詞匯語法模式P。這個處理對應于去除與關于關聯(lián)性數(shù)據(jù)庫104的登記信息具有較少關系的詞匯語法模式的處理。3-3、賦予關聯(lián)性標簽的處理(步驟S106和S107)的細節(jié)接下來,將描述賦予關聯(lián)性標簽的處理和在數(shù)據(jù)庫中登記數(shù)據(jù)的處理。該處理對應于圖11的流程圖中的步驟S106和S107的處理。 也就是說,在步驟S106,根據(jù)預定的標簽賦予算法將關聯(lián)性標簽賦予實體。在步驟S107,將實體對和關聯(lián)性標簽登記到關聯(lián)性數(shù)據(jù)庫(DB)中。所述處理由圖10中示出的標簽賦予單元103執(zhí)行。將關聯(lián)性標簽“BIRTHPLACE”選擇性地賦予在步驟S105被選擇作為將被處理的詞匯語法模式的詞匯語法模式。具體地說,檢查在關聯(lián)性數(shù)據(jù)庫中是否存在(登記了)與在步驟S105中選擇的詞匯語法模式P相對應的實體對集合S (P)的各個分量的實體對。當存在該實體對時,將關聯(lián)性標簽“BIRTHPLACE”賦予詞匯語法模式p。對所有詞匯語法模式執(zhí)行這個處理。將參照圖16的流程圖描述圖11的流程圖中的步驟S106的詳細處理序列。如上所述,形成了與詞匯語法模式P相對應的實體對的集合S(p)。此外,假定C是在步驟S105被選擇作為將被處理的詞匯語法模式的詞匯語法模式的總數(shù)量。假定c = 1,2,. . .,C是詞匯語法模式的索引。此時,假定Ne是與詞匯語法模式P相對應的實體對的集合S (P)的分量的數(shù)量(實體對的總數(shù)量),并且nc是在第c個詞匯語法模式中被賦予了關聯(lián)性標簽的實體對的數(shù)量。在圖11的流程圖的步驟S106中執(zhí)行的標簽賦予算法是使用以參數(shù)Ne和nc表示的概率模型來執(zhí)行的。在這個處理中,使用下列參數(shù)。參數(shù)Z ( = Zc)參數(shù)Zc是能被分配給每ー對第c個詞匯語法模式和關聯(lián)性標簽的ニ值參數(shù)?!皡?shù)Zc = I”表示第c個詞匯語法模式是向其設置了特定關聯(lián)性標簽的詞匯語法模式,在本實施例中,該特定關聯(lián)性標簽是BIRTHPLACE?!皡?shù)Zc = O”表示第c個詞匯語法模式不是向其設置了特定關聯(lián)性標簽的詞匯語法模式,在本實施例中,該特定關聯(lián)性標簽是BIRTHPLACE。該參數(shù)的估計結(jié)果是詞匯語法模式與關聯(lián)性標簽“BIRTHPLACE”之間的對應關系。參數(shù)a 參數(shù)a是在O到I范圍內(nèi)的實值參數(shù),其可被分配給每個關聯(lián)性標簽。該參數(shù)指示具有特定關聯(lián)性標簽(在本實施例中為BIRTHPLACE)的關聯(lián)性的實體對在關聯(lián)性數(shù)據(jù)庫104中登記的概率。參數(shù)s 參數(shù)s是等于或大于O的實值參數(shù),能被分配給文檔。
該參數(shù)指示因?qū)嶓w對的多義性之外的原因?qū)е聦㈥P聯(lián)性標簽“BIRTHPLACE”錯誤地賦予詞匯語法模式的概率。 使用這些參數(shù)Zc、a和s。在根據(jù)本實施例的處理中,對于與詞匯語法模式相對應的所有實體對,計數(shù)并使用共同出現(xiàn)的實體對的數(shù)量。對于所有不同的詞匯語法模式PデP ',還計數(shù)與詞匯語法模式P和詞匯語法模式Pi相對應的實體對集合之間的重疊數(shù)量S(P) ns(p')的分量數(shù)量。與上述詞匯語法模式P相對應的實體對集合S (P)的分量數(shù)量Ne (實體對的總數(shù)量)被設置為對重疊數(shù)量計數(shù)的值。
這個數(shù)量被用于估計將錯誤的關聯(lián)性標簽賦予詞匯語法模式的概率。在定義概率模型時,可以通過最大似然估計等來獲得所述參數(shù)。如上所述,分配給每ー對詞匯語法模式和關聯(lián)性標簽的ニ值參數(shù)Zc表示在詞匯語法模式與特定關聯(lián)性標簽(在本實施例中為BIRTHPLACE)之間的對應關系。下文中,作為標簽賦予處理的例子,將順序描述使用兩個概率模型執(zhí)行的處理的例子。3-3-1、使用概率模型I的處理的例子首先,將描述使用概率模型I的標簽賦予處理的例子。作為基本處理,根據(jù)下面的表達式I設置概率密度分布,并且根據(jù)表達式I估計參數(shù)a和Z。 p[D, Z\a,Mfs)=Yl い(I — a)K^ f ^ (I - bc 卜
t-l......表示式I其中,
_4] bc = a^%gn(n)F(Tc,n) + s......表示式2D = {Nc, nj , c = I, . . . , C上面的表達式⑴是代表根據(jù)a、M和s的值、D和Z出現(xiàn)的概率的表達式。根據(jù)(表達式I中示出的)概率密度分布估計參數(shù)a和Z。在該表達式中,如上所述,參數(shù)a是滿足關系O < I的參數(shù),并且參數(shù)a是在O到I的范圍內(nèi)的可以分配給每個關聯(lián)性標簽的實值參數(shù)。該參數(shù)表示具有特定關聯(lián)性標簽(在本例中為BIRTHPLACE)的關聯(lián)性的實體對被登記在關聯(lián)性數(shù)據(jù)庫104中的概率。Z = {zj ,C= I, . . . , C該參數(shù)是具有值I或O的潛在變量。值I表示特定關聯(lián)性標簽(在本實施例中為BIRTHPLACE)被正確地賦予詞匯語法模式,而值O表示特定關聯(lián)性標簽(在本實施例中為BIRTHPLACE)被錯誤地賦予詞匯語法模式。在上面的表達式I中,c是集合S中包括的詞匯語法模式的索弓丨,并且c = 1,
ムj···,しO
將被處理的詞匯語法模式的總數(shù)量是C。也就是說,在步驟S105中選擇的將被處理的詞匯語法模式的總數(shù)量是C。此外,如上所述,Ne是與第c個詞匯語法模式相對應的實體對集合S(p)的分量數(shù)量(實體對的總數(shù)量),并且nc是在第c個詞匯語法模式中被賦予了該關聯(lián)性標簽的實體對的數(shù)量。在表達式I中,be表示當詞匯語法模式并不指示特定關聯(lián)性標簽(在本實施例中為BIRTHPLACE)的關聯(lián)性時,將該關聯(lián)性標簽賦予實體對的概率(錯誤概率)??紤]了多個實體對的集合的公共部分。在本實施例中,上面的表達式2用作錯誤概率be的計算表達式。應用于錯誤概率be的計算表達式(表達式2)的參數(shù)如下。
Tc = {mc, C|ZC' = 1}F (Τ。,η)=(當從Τ。的分量創(chuàng)建η項時所有組合的和)
_ [+如果η為奇數(shù) Sgn(n) = i_如知為偶數(shù)I T I表示集合T的分量數(shù)量。按照下列順序執(zhí)行使用根據(jù)表達式I的概率模型執(zhí)行的標簽賦予處理。首先,根據(jù)上面的表達式I定義在估計參數(shù)a和Z的處理中應用的矩陣M。該處理是圖16的流程圖中的步驟S401的處理。根據(jù)本公開的實施例的信息處理裝置的標簽賦予單元103分析現(xiàn)有關聯(lián)性數(shù)據(jù)庫的登記信息和將為該關聯(lián)性數(shù)據(jù)庫生成的現(xiàn)有文檔數(shù)據(jù),其中,該現(xiàn)有關聯(lián)性數(shù)據(jù)庫具有有關實體對和關聯(lián)性標簽的登記信息,由此該標簽賦予單元103獲得在包括實體對的短語中包括的多個詞匯語法模式出現(xiàn)的出現(xiàn)次數(shù)。具體地說,獲得下列數(shù)據(jù)。標簽賦予單元103獲得屬于ー集合的實體對的數(shù)量NI,該集合具有在具有詞匯語法模式A的短語中出現(xiàn)的實體對;屬于ー集合的實體對的數(shù)量N3,該集合具有在具有詞匯語法模式B的短語中出現(xiàn)的實體對,該詞匯語法模式B不同于詞匯語法模式A ;以及屬于在具有詞匯語法模式A的短語中出現(xiàn)的實體對的集合與在具有詞匯語法模式B的短語中出現(xiàn)的實體對的集合之間的、重疊部分的集合的實體對的重疊數(shù)量N2。此外,標簽賦予單元103創(chuàng)建重疊比率矩陣M,該矩陣M具有關于三個實體對數(shù)量的比率信息作為元素。矩陣M是c乘c矩陣,并且由下列表達式定義。M = (mc, c),c=l,...,C, c' = I, . . . , C是C乘C矩陣,
Nc^ Ncc'mcし,ニ-,mcc’ ニ-
NcNc'在該表達式中,Ne'是第c’個S(p)的分量數(shù)量。Ne是第c個S(p)的分量數(shù)量,并且Ne' C = NCC'是在第c個S(p)與第ど個S(p)之間的公共部分的分量數(shù)量。
這里,mc' c是從第c個S(p)的角度來看,在第c'個S(p)與第c個S(p)之間的公共部分的比率。該分量用于估計當特定關聯(lián)性標簽(在本實施例中為BIRTHPLACE)被正確地賦予第c'個詞匯語法模式、并且BIRTHPLACE被錯誤地賦予第c個詞匯語法模式吋,將BIRTHPLACE錯誤地賦予第c個S (p)的分量的概率。在圖16的流程圖中的步驟S401中,創(chuàng)建矩陣M。接下來,在步驟S402,基于上述表達式I估計參數(shù)Z和a。例如,通過最大似然估計方法執(zhí)行估計處理。此外,除了作為估計方法的最大似然估計方法之外,還可以通過例如后驗概率最大化方法或貝葉斯方法來執(zhí)行估計處理。最大似然估計的估計算法的例子如下。 也就是說,估計算法⑴隨機地初始化參數(shù)Z和a ;(ii)交替地重復更新下列參數(shù)直至收斂(不存在參數(shù)Z的變化,在最速上升法(steepest ascending method)之后參數(shù)a的變化等于或小于O. 001);(ii-i)在參數(shù)Z固定之后通過最速上升法估計參數(shù)a ;以及(ii-ii),在固定參數(shù)a之后關于c隨機地排序參數(shù)Z,并且在固定另ー個參數(shù)Zc的同時順序地重置每個參數(shù)Zc的值,從而使似然最大,并且重復排序和重置直到參數(shù)Z不發(fā)生變化。在步驟S402,根據(jù)最大似然估計、后驗概率最大化方法或貝葉斯方法估計參數(shù)Z和a。最后,在步驟S403,基于在步驟S402中獲得的作為估計結(jié)果的參數(shù)Z的值,在所選擇的詞匯語法模式中設置關聯(lián)性標簽。也就是說,將關聯(lián)性標簽(在本實施例中為BIRTHPLACE)賦予被確定為“Zc = I”的詞匯語法模式。然而,上述表達式2中示出的錯誤概率be的計算表達式具有計算量過大的問題。因此,為了減少計算成本,可以根據(jù)下列計算表達式近似地計算錯誤概率be。
權利要求
1.ー種信息處理裝置,包括 文檔分析単元,其從文檔數(shù)據(jù)提取包括向其賦予關聯(lián)性標簽的實體對的短語;以及 標簽賦予單元,其賦予指示所述實體對之間的關聯(lián)性的關聯(lián)性標簽, 其中,所述標簽賦予單元 通過分析具有關于實體對和關聯(lián)性標簽的登記信息的現(xiàn)有關聯(lián)性數(shù)據(jù)庫中的登記信息和其中存在至少ー個包括在關聯(lián)性數(shù)據(jù)庫中登記的實體對的短語的文檔數(shù)據(jù),來獲得在包括實體對的短語中包括的詞匯語法模式,并從所述文檔數(shù)據(jù)獲得所述詞匯語法模式在該文檔數(shù)據(jù)中出現(xiàn)的出現(xiàn)次數(shù) 對于詞匯語法模式對,計數(shù)在所述文檔數(shù)據(jù)中與每對詞匯語法模式的兩方同時出現(xiàn)的實體對的數(shù)量,以及 設置從概率密度分布創(chuàng)建的概率模型,該概率密度分布包括所計數(shù)的實體對的數(shù)量、指示賦予關聯(lián)性標簽的正當性的參數(shù)Z、以及指示正確賦予關聯(lián)性標簽的概率的參數(shù)a,計算在概率模型中使似然最大的參數(shù)Z和a,評價為從所述文檔數(shù)據(jù)中提取的實體對賦予關聯(lián)性標簽的正當性,并基于評價結(jié)果賦予關聯(lián)性標簽。
2.如權利要求I所述的信息處理裝置,其中,所述標簽賦予單元 通過分析具有關于實體對和關聯(lián)性標簽的登記信息的現(xiàn)有關聯(lián)性數(shù)據(jù)庫中的登記信息和其中存在至少ー個包括在關聯(lián)性數(shù)據(jù)庫中登記的實體對的短語的文檔數(shù)據(jù),來獲得在包括實體對的短語中包括的詞匯語法模式, 獲得屬于具有在具有詞匯語法模式A的短語中出現(xiàn)的實體對的集合的實體對的數(shù)量NI、屬于具有在具有不同于詞匯語法模式A的詞匯語法模式B的短語中出現(xiàn)的實體對的集合的實體對的數(shù)量N3、以及屬于在具有詞匯語法模式A的短語中出現(xiàn)的實體對的集合與在具有詞匯語法模式B的短語中出現(xiàn)的實體對的集合之間的重疊部分的集合的實體對的重疊數(shù)量N2,然后,創(chuàng)建重疊比率矩陣M,該矩陣M具有關于三個實體對數(shù)量的比率信息作為元素,并且 使用利用重疊比率矩陣M的概率模型,來評價為從文檔數(shù)據(jù)中提取的實體對賦予關聯(lián)性標簽的正當性,并基于評價結(jié)果賦予關聯(lián)性標簽。
3.如權利要求2所述的信息處理裝置,其中,所述重疊比率矩陣M是具有數(shù)量N3與N2之間的比率N2/N3和數(shù)量NI與N2之間的比率N2/N1作為元素的矩陣。
4.如權利要求I所述的信息處理裝置,其中,所述標簽賦予單元根據(jù)參數(shù)Z的值向從文檔數(shù)據(jù)中提取的實體對賦予關聯(lián)性標簽,其中所述參數(shù)Z的值是作為通過利用概率模型逐次改變和收斂參數(shù)Z和a的值所獲得的結(jié)果而獲得的。
5.如權利要求I所述的信息處理裝置,其中,所述參數(shù)Z是取決于關聯(lián)性標簽被正確地設置還是錯誤地設置而具有值I或O的參數(shù)。
6.如權利要求I所述的信息處理裝置,其中,所述文檔分析單元獲得在所提取的短語中包括的實體對和作為詞匯語法模式的詞串的數(shù)據(jù),并將所述數(shù)據(jù)存儲在三項數(shù)據(jù)庫中,其中,所述所提取的短語包括向其賦予關聯(lián)性標簽的實體對,并且所述詞串被包括于在該短語的語法樹中聯(lián)結(jié)所述實體對的最短路徑中。
7.如權利要求I所述的信息處理裝置,其中,所述標簽賦予單元被配置成,從三項數(shù)據(jù)庫存儲的數(shù)據(jù)中選擇對其賦予關聯(lián)性標簽的詞匯語法模式,并且從將被處理的詞匯語法模式中排除與在三項數(shù)據(jù)庫中存儲的ー個詞匯語法模式相對應的實體對的數(shù)量小于規(guī)定值的詞匯語法模式以及與在現(xiàn)有關聯(lián)性數(shù)據(jù)庫中登記的實體對的集合中不包括的實體對相對應的詞匯語法模式。
8.如權利要求I所述的信息處理裝置,其中,所述標簽賦予單元執(zhí)行作為估計參數(shù)Z和a的處理的最大似然估計的估計算法,該估計算法 (i)隨機地初始化參數(shù)Z和a,并且 ( )交替地重復更新如下參數(shù)直至收斂,收斂是指不存在參數(shù)Z的變化,在最速上升法之后參數(shù)a的變化等于或小于O. 001, 并且所述估計算法 (ii-i)在參數(shù)Z固定之后通過最速上升法估計參數(shù)a,并且 ( - )在固定參數(shù)a之后,關于c隨機地排序參數(shù)Z,并在固定另ー個參數(shù)Zc的同時順序地重置每個參數(shù)Zc的值,以使似然最大,并且重復所述排序和重置,直到參數(shù)Z不發(fā)生變化。
9.一種在信息處理裝置中執(zhí)行的信息處理方法,包括 從文檔數(shù)據(jù)中提取短語,所述短語包括向其賦予關聯(lián)性標簽的實體對;以及 賦予指示所述實體對之間的關聯(lián)性的關聯(lián)性標簽, 其中,賦予關聯(lián)性標簽包括 通過分析具有關于實體對和關聯(lián)性標簽的登記信息的現(xiàn)有關聯(lián)性數(shù)據(jù)庫的登記信息和其中存在至少ー個包括在關聯(lián)性數(shù)據(jù)庫中登記的實體對的短語的文檔數(shù)據(jù),來獲得在包括實體對的短語中包括的詞匯語法模式,并從所述文檔數(shù)據(jù)獲得所述詞匯語法模式在該文檔數(shù)據(jù)中出現(xiàn)的出現(xiàn)次數(shù), 對于詞匯語法模式對,計數(shù)在所述文檔數(shù)據(jù)中與每對詞匯語法模式的兩方同時出現(xiàn)的實體對的數(shù)量,以及 設置從概率密度分布創(chuàng)建的概率模型,該概率密度分布包括所計數(shù)的實體對的數(shù)量、指示賦予關聯(lián)性標簽的正當性的參數(shù)Z、以及指示正確賦予關聯(lián)性標簽的概率的參數(shù)a,計算在概率模型中使似然最大的參數(shù)Z和a,評價為從所述文檔數(shù)據(jù)中提取的實體對賦予關聯(lián)性標簽的正當性,并基于評價結(jié)果賦予關聯(lián)性標簽。
10.一種使得信息處理裝置執(zhí)行信息處理的程序,包括 從文檔數(shù)據(jù)中提取短語,所述短語包括向其賦予關聯(lián)性標簽的實體對;以及 賦予指示所述實體對之間的關聯(lián)性的關聯(lián)性標簽, 其中,賦予關聯(lián)性標簽包括 通過分析具有關于實體對和關聯(lián)性標簽的登記信息的現(xiàn)有關聯(lián)性數(shù)據(jù)庫的登記信息和其中存在至少ー個包括在關聯(lián)性數(shù)據(jù)庫中登記的實體對的短語的文檔數(shù)據(jù),來獲得在包括所述實體對的短語中包括的詞匯語法模式,并從所述文檔數(shù)據(jù)獲得所述詞匯語法模式在該文檔數(shù)據(jù)中出現(xiàn)的出現(xiàn)次數(shù), 對于詞匯語法模式對,計數(shù)在所述文檔數(shù)據(jù)中與每對詞匯語法模式的兩方同時出現(xiàn)的實體對的數(shù)量,以及 設置從概率密度分布創(chuàng)建的概率模型,該概率密度分布包括所計數(shù)的實體對的數(shù)量、指示賦予關聯(lián)性標簽的正當性的參數(shù)Z、以及指示正確賦予關聯(lián)性標簽的概率的參數(shù)a,計算在概率模型中使似然最大的參數(shù)Z和a,評價為從所述文檔數(shù)據(jù)中提取的實體對賦予關 聯(lián)性標簽的正當性,并基于評價結(jié)果賦予關聯(lián)性標簽。
全文摘要
一種信息處理裝置包括文檔分析單元,從文檔數(shù)據(jù)中提取短語,該短語包括被賦予關聯(lián)性標簽的實體對;以及標簽賦予單元,賦予指示實體對之間的關聯(lián)性的關聯(lián)性標簽。標簽賦予單元獲得在包括實體對的短語中包括的詞匯語法模式,并從文檔數(shù)據(jù)獲得詞匯語法模式在該文檔數(shù)據(jù)中出現(xiàn)的出現(xiàn)次數(shù);計數(shù)實體對的數(shù)量;設置從概率密度分布創(chuàng)建的概率模型,該概率密度分布包括所計數(shù)的實體對的數(shù)量、、指示賦予關聯(lián)性標簽的正當性的參數(shù)Z、以及指示正確賦予關聯(lián)性標簽的概率的參數(shù)a;計算在概率模型中使似然最大的參數(shù)Z和a;評價賦予關聯(lián)性標簽的正當性;以及基于評價結(jié)果賦予關聯(lián)性標簽。
文檔編號G06F17/30GK102722518SQ20121007424
公開日2012年10月10日 申請日期2012年3月20日 優(yōu)先權日2011年3月24日
發(fā)明者高松慎吾 申請人:索尼公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1