專利名稱:對自然語言內(nèi)容中的信息含量進(jìn)行定量估算的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本申請涉及信息管理,尤其涉及自然語言內(nèi)容中的信息識(shí)別和量化,以及這些內(nèi) 容的分類,排序,搜索,和提取的技術(shù)。
背景技術(shù):
在信息時(shí)代,越來越多的個(gè)體和組織面臨信息超載的問題。精確和有效的信息處 理方法,包括收集,存儲(chǔ),組織,搜索和提取信息的方法,是在這個(gè)信息時(shí)代成功的關(guān)鍵。大量的信息包含在自然語言內(nèi)容中,比如文本文件中。為了有效地組織并確定自 然語言內(nèi)容中的信息的相關(guān)性,已有多種理論和實(shí)踐嘗試。然而,現(xiàn)有技術(shù),包括各種搜索 引擎和文件分類系統(tǒng),在識(shí)別內(nèi)容中的信息焦點(diǎn)時(shí)經(jīng)常不精確,因此經(jīng)常不能有效地滿足 其用戶的信息需求。對于根據(jù)語言內(nèi)容的含義和它們含有的信息量而對大量的自然語言內(nèi) 容進(jìn)行搜索、排序、和分類的精確、有效且自動(dòng)化的技術(shù)仍存在需求。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)中存在的問題,提供一種對自然語言內(nèi)容中的信 息含量進(jìn)行定量估算的系統(tǒng)和方法。本申請是發(fā)明人于2009年1月7日提出的題為“ System and Methods for QuantitativeAssessment of Information in Natural Language Contents,,的美國臨 時(shí)專利申請US 61/143, 140的繼續(xù)專利申請,并要求該臨時(shí)專利申請的優(yōu)先權(quán);本申請 也是發(fā)明人于2009年10月4日提出的題為“System and Methods for Quantitative Assessment of Information in NaturalLanguage Contents,,的美國正式專利申請 US 12/573,134的中文對應(yīng)申請,在此均以引用的方式將其公開內(nèi)容并入。一方面,本發(fā)明涉及對自然語言內(nèi)容中的信息進(jìn)行定量估算的方法。該方法包括 通過計(jì)算機(jī)處理系統(tǒng)獲取客體名稱,通過計(jì)算機(jī)處理系統(tǒng)獲取含有自然語言文本的文件, 通過計(jì)算機(jī)處理系統(tǒng)識(shí)別文件中的句子,通過計(jì)算機(jī)處理系統(tǒng)確定句子中的主語和謂語, 從計(jì)算機(jī)存儲(chǔ)系統(tǒng)提取和客體名稱相關(guān)的特定客體數(shù)據(jù)集,其中特定客體數(shù)據(jù)集包括多個(gè) 屬性名稱和關(guān)聯(lián)強(qiáng)度值,每一屬性名稱和關(guān)聯(lián)強(qiáng)度值相關(guān)聯(lián),識(shí)別所述多個(gè)屬性名稱中和 所述主語匹配的第一屬性名稱,將和第一屬性名稱相關(guān)聯(lián)的第一關(guān)聯(lián)強(qiáng)度值賦予所述主 語,識(shí)別所述多個(gè)屬性名稱中和所述謂語匹配的第二屬性名稱,將和第二屬性名稱相關(guān)聯(lián) 的第二關(guān)聯(lián)強(qiáng)度值賦予所述謂語,以及通過計(jì)算機(jī)處理系統(tǒng)將所述第一關(guān)聯(lián)強(qiáng)度值和第二 關(guān)聯(lián)強(qiáng)度值相乘以產(chǎn)生句子信息量指數(shù),作為句子中含有的關(guān)于客體或客體名稱的信息量 的定量度量。另一方面,本發(fā)明涉及根據(jù)搜索語句而尋找與之相關(guān)的自然語言文件的方法。該 方法包括通過計(jì)算機(jī)處理系統(tǒng)獲取和客體名稱有關(guān)的搜索詢問語句,通過計(jì)算機(jī)處理系統(tǒng) 獲取多個(gè)文件,每一文件含有自然語言文本,從計(jì)算機(jī)存儲(chǔ)系統(tǒng)提取和客體名稱相關(guān)的特 定客體數(shù)據(jù)集,其中特定客體數(shù)據(jù)集包括多個(gè)屬性名稱和關(guān)聯(lián)強(qiáng)度值,每一屬性名稱和關(guān)聯(lián)強(qiáng)度值相關(guān)聯(lián),計(jì)算所述多個(gè)文件中的每一個(gè)的文件信息量指數(shù),其中所述文件信息量指數(shù)是文件中含有的關(guān)于客體或客體名稱的信息量的定量度量,以及通過各個(gè)文件信息量 指數(shù)對所述多個(gè)文件進(jìn)行排序以產(chǎn)生和搜索語句相應(yīng)的搜索結(jié)果。計(jì)算文件信息量指數(shù)的 步驟可包括通過計(jì)算機(jī)處理系統(tǒng)識(shí)別文件中的句子,通過計(jì)算機(jī)處理系統(tǒng)確定句子中的 主語和謂語,在所述特定客體數(shù)據(jù)集的多個(gè)屬性名稱中識(shí)別和所述主語匹配的第一屬性名 稱,將和第一屬性名稱相關(guān)聯(lián)的第一關(guān)聯(lián)強(qiáng)度值賦予所述主語,在所述特定客體數(shù)據(jù)集的 多個(gè)屬性名稱中識(shí)別和所述謂語匹配的第二屬性名稱,將和第二屬性名稱相關(guān)聯(lián)的第二關(guān) 聯(lián)強(qiáng)度值賦予所述謂語,將所述第一關(guān)聯(lián)強(qiáng)度值和第二關(guān)聯(lián)強(qiáng)度值相乘以產(chǎn)生句子信息量 指數(shù),以及使用所述句子信息量指數(shù)計(jì)算文件信息量指數(shù)。另一方面,本發(fā)明涉及對自然語言文本文件進(jìn)行分類的方法。該方法可包括通過 計(jì)算機(jī)處理系統(tǒng)獲取用于分類文件的客體名稱或類別名稱,通過計(jì)算機(jī)處理系統(tǒng)獲取多個(gè) 文件,每一文件含有自然語言文本,從計(jì)算機(jī)存儲(chǔ)系統(tǒng)提取和客體名稱相關(guān)的特定客體數(shù) 據(jù)集,其中特定客體數(shù)據(jù)集包括多個(gè)屬性名稱和關(guān)聯(lián)強(qiáng)度值,每一屬性名稱和關(guān)聯(lián)強(qiáng)度值 相關(guān)聯(lián),計(jì)算所述多個(gè)文件中的每一個(gè)的文件信息量指數(shù),其中所述文件信息量指數(shù)是文 件中含有的關(guān)于客體或客體名稱的信息量的定量度量,使用各個(gè)文件信息量指數(shù)從所述多 個(gè)文件中選擇和客體名稱有關(guān)的一個(gè)或多個(gè)文件,以及將所述一個(gè)或多個(gè)文件賦予和所述 客體名稱相關(guān)的文件類別。計(jì)算文件信息量指數(shù)的步驟可包括通過計(jì)算機(jī)處理系統(tǒng)識(shí)別 文件中的句子,通過計(jì)算機(jī)處理系統(tǒng)確定句子中的主語和謂語,在所述特定客體數(shù)據(jù)集的 多個(gè)屬性名稱中識(shí)別和所述主語匹配的第一屬性名稱,將和第一屬性名稱相關(guān)聯(lián)的第一關(guān) 聯(lián)強(qiáng)度值賦予所述主語,在所述特定客體數(shù)據(jù)集的多個(gè)屬性名稱中識(shí)別和所述謂語匹配的 第二屬性名稱,將和第二屬性名稱相關(guān)聯(lián)的第二關(guān)聯(lián)強(qiáng)度值賦予所述謂語,將所述第一關(guān) 聯(lián)強(qiáng)度值和第二關(guān)聯(lián)強(qiáng)度值相乘以產(chǎn)生句子信息量指數(shù),以及使用所述句子信息量指數(shù)計(jì) 算文件信息量指數(shù)。另一方面,本發(fā)明涉及定量估算詞組中和客體名稱相關(guān)的信息的方法。該方法可 包括通過計(jì)算機(jī)處理系統(tǒng)獲取客體名稱,通過計(jì)算機(jī)處理系統(tǒng)獲取自然語言的詞組,通 過計(jì)算機(jī)處理系統(tǒng)識(shí)別詞組中的核心詞,通過計(jì)算機(jī)處理系統(tǒng)識(shí)別詞組中的核心詞的修飾 詞,從計(jì)算機(jī)存儲(chǔ)系統(tǒng)提取和客體名稱相關(guān)的特定客體數(shù)據(jù)集,其中特定客體數(shù)據(jù)集包括 多個(gè)屬性名稱和關(guān)聯(lián)強(qiáng)度值,每一屬性名稱和關(guān)聯(lián)強(qiáng)度值相關(guān)聯(lián),識(shí)別所述多個(gè)屬性名稱 中匹配所述核心詞的第一屬性名稱,將和第一屬性名稱相關(guān)聯(lián)的第一關(guān)聯(lián)強(qiáng)度值賦予所述 核心詞,識(shí)別所述多個(gè)屬性名稱中匹配所述核心詞的修飾詞的第二屬性名稱,將和第二屬 性名稱相關(guān)聯(lián)的第二關(guān)聯(lián)強(qiáng)度值賦予修飾詞,和通過計(jì)算機(jī)處理系統(tǒng)將所述第一關(guān)聯(lián)強(qiáng)度 值和第二關(guān)聯(lián)強(qiáng)度值相乘以產(chǎn)生詞組信息量指數(shù),作為詞組中含有的關(guān)于客體或客體名稱 的信息量的定量度量。另一方面,本發(fā)明涉及定量估算文本內(nèi)容中和客體名稱相關(guān)的信息的方法。該方 法可包括通過計(jì)算機(jī)處理系統(tǒng)獲取客體名稱,從計(jì)算機(jī)存儲(chǔ)系統(tǒng)提取和客體名稱相關(guān)的 特定客體數(shù)據(jù)集,其中特定客體數(shù)據(jù)集包括多個(gè)屬性名稱和關(guān)聯(lián)強(qiáng)度值,每一屬性名稱和 關(guān)聯(lián)強(qiáng)度值相關(guān)聯(lián),通過計(jì)算機(jī)處理系統(tǒng)獲取自然語言的文本內(nèi)容,識(shí)別文本內(nèi)容中的句 子,通過計(jì)算機(jī)處理系統(tǒng)識(shí)別所述句子中的多個(gè)組份子字符串,在所述多個(gè)屬性名稱中搜 索匹配所述組份子字符串中的至少一個(gè)的屬性名稱,將和屬性名稱相關(guān)聯(lián)的關(guān)聯(lián)強(qiáng)度值賦予所述一個(gè)組份子字符串,通過計(jì)算機(jī)處理系統(tǒng)對賦予句子中的組份子字符串的關(guān)聯(lián)強(qiáng)度 值取平均值以產(chǎn)生句子信息量指數(shù),以及使用所述句子信息量指數(shù)計(jì)算文本內(nèi)容的信息量 指數(shù),其中所述信息量指數(shù)是所述文本內(nèi)容中含有的關(guān)于客體或客體名稱的信息量的定量度量。另一方面,本發(fā)明涉及對自然語言內(nèi)容中的信息進(jìn)行定量估算的系統(tǒng)。該系統(tǒng)可 包括可獲取客體名稱和含有自然語言文本的文件的計(jì)算機(jī)處理系統(tǒng),和與所述計(jì)算機(jī)處 理系統(tǒng)通訊且設(shè)置為存儲(chǔ)和所述客體名稱相關(guān)的特定客體數(shù)據(jù)集的計(jì)算機(jī)存儲(chǔ)系統(tǒng),其中 所述特定客體數(shù)據(jù)集包括多個(gè)屬性名稱和關(guān)聯(lián)強(qiáng)度值,每一屬性名稱和關(guān)聯(lián)強(qiáng)度值相關(guān) 聯(lián)。計(jì)算機(jī)處理系統(tǒng)可識(shí)別文件中的 句子,確定句子中的主語和謂語,識(shí)別所述多個(gè)屬性名 稱中和所述主語匹配的第一屬性名稱,將和第一屬性名稱相關(guān)聯(lián)的第一關(guān)聯(lián)強(qiáng)度值賦予所 述主語,識(shí)別所述多個(gè)屬性名稱中和所述謂語匹配的第二屬性名稱,將和第二屬性名稱相 關(guān)聯(lián)的第二關(guān)聯(lián)強(qiáng)度值賦予所述謂語,以及將所述第一關(guān)聯(lián)強(qiáng)度值和第二關(guān)聯(lián)強(qiáng)度值相乘 以產(chǎn)生句子信息量指數(shù),該句子信息量指數(shù)用作對句子中含有的關(guān)于客體或客體名稱的信 息量的定量度量。另一方面,本發(fā)明涉及含有計(jì)算機(jī)可用介質(zhì)和嵌入所述介質(zhì)的計(jì)算機(jī)可讀程序代 碼功能的計(jì)算機(jī)程序產(chǎn)品,它使計(jì)算機(jī)獲取客體名稱和含有自然語言文本的文件,識(shí)別文 件中的句子,確定句子中的主語和謂語,從計(jì)算機(jī)存儲(chǔ)系統(tǒng)提取和客體名稱相關(guān)的特定客 體數(shù)據(jù)集,其中特定客體數(shù)據(jù)集包括多個(gè)屬性名稱和關(guān)聯(lián)強(qiáng)度值,每一屬性名稱和關(guān)聯(lián)強(qiáng) 度值相關(guān)聯(lián),識(shí)別所述多個(gè)屬性名稱中和所述主語匹配的第一屬性名稱,將和第一屬性名 稱相關(guān)聯(lián)的第一關(guān)聯(lián)強(qiáng)度值賦予所述主語,識(shí)別所述多個(gè)屬性名稱中和所述謂語匹配的第 二屬性名稱,將和第二屬性名稱相關(guān)聯(lián)的第二關(guān)聯(lián)強(qiáng)度值賦予所述謂語,以及將所述第一 關(guān)聯(lián)強(qiáng)度值和第二關(guān)聯(lián)強(qiáng)度值相乘以產(chǎn)生句子信息量指數(shù),作為句子中含有的關(guān)于客體或 客體名稱的信息量的定量度量。所述系統(tǒng)的實(shí)施可包括下列一項(xiàng)或多項(xiàng)。所述方法還可包括使用所述句子信息量 指數(shù)計(jì)算文件信息量指數(shù),其中所述文件信息量指數(shù)是文件中含有的關(guān)于客體或客體名稱 的信息量的定量度量。計(jì)算所述文件信息量指數(shù)的步驟可包括計(jì)算文件中多個(gè)句子的句 子信息量指數(shù),其中所述句子信息量指數(shù)對客體或客體名稱是特定的,以及用句子信息量 指數(shù)的函數(shù)的方式計(jì)算文件信息量指數(shù)。計(jì)算所述文件信息量指數(shù)的步驟可包括將句子信 息量指數(shù)相加以產(chǎn)生文件信息量指數(shù)。所述方法還可包括通過計(jì)算機(jī)處理系統(tǒng)獲取關(guān)于客 體名稱的搜索語句,計(jì)算多個(gè)文件的文件信息量指數(shù),其中每一個(gè)文件信息量指數(shù)是文件 中含有的關(guān)于客體或客體名稱的信息量的定量度量,以及通過各個(gè)文件信息量指數(shù)對所述 多個(gè)文件進(jìn)行排序以產(chǎn)生和搜索語句相應(yīng)的搜索結(jié)果。所述方法還可包括通過計(jì)算機(jī)處理 系統(tǒng)獲取客體名稱以對文件進(jìn)行分類,計(jì)算多個(gè)文件的文件信息量指數(shù),其中每一個(gè)文件 信息量指數(shù)是文件中含有的關(guān)于客體或客體名稱的信息量的定量度量,為所述客體名稱確 定用于文件分類的閾值,以及通過將各個(gè)文件信息量指數(shù)和所述閾值相比較從所述多個(gè)文 件選擇和所述客體名稱相關(guān)的一個(gè)或多個(gè)文件。所述方法還可包括當(dāng)和主語或謂語匹配的 屬性名稱未在所述特定客體數(shù)據(jù)集中的多個(gè)屬性名稱中被識(shí)別時(shí)將零值賦予句子信息量 指數(shù)。所述主語或謂語可包括單字,字串,詞組,或嵌入從句。識(shí)別文件中的句子的步驟可 包括通過計(jì)算機(jī)處理系統(tǒng)識(shí)別文件中的復(fù)雜句,將復(fù)雜句分解成一個(gè)或多個(gè)簡單句,其中每一簡單句中的主語和謂語通過計(jì)算機(jī)處理系統(tǒng)識(shí)別,計(jì)算所述一個(gè)或多個(gè)簡單句的句子 信息量指數(shù),以及使用所述一個(gè)或多個(gè)簡單句的句子信息量指數(shù)計(jì)算復(fù)雜句的句子信息量 指數(shù)。句子中的主語和謂語可通過計(jì)算機(jī)處理系統(tǒng)使用句法分析器確定。所述客體名稱可 包括字,字序列,詞組,字符串,搜索語句,搜索語句的子組份,主題,或文件類別的名稱。 本申請描述的系統(tǒng)和方法可按照和內(nèi)容中所攜帶的意義和信息相一致的方式為 搜索,提取,排序,和分類自然語言內(nèi)容提供精確,定量,和自動(dòng)化的技術(shù)。所公開的系統(tǒng)和 方法基于新的理論框架,和常規(guī)方法不同。所公開的系統(tǒng)和方法可估算自然語言內(nèi)容(主 要是以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上的文本文件的形式)中的信息量。所公開的系統(tǒng)和方法可 為每一文本文件產(chǎn)生特定于該文件的數(shù)值,作為對文件中含有的信息量的度量。所公開的 系統(tǒng)和方法也可產(chǎn)生關(guān)于文件和給定的搜索語句、主題、或概念的相關(guān)度的定量度量。所公開的系統(tǒng)和方法可顯著改進(jìn)信息搜尋和檢索的精確性和相關(guān)性排序。所公開 的系統(tǒng)和方法可顯著改進(jìn)文件分類的精確度。所公開的系統(tǒng)和方法可為自然語言理解,機(jī) 器翻譯,和語音識(shí)別中消除語義歧義提供上下文信息。盡管本發(fā)明是參照多個(gè)特定的實(shí)施方案來描述的,但本領(lǐng)域技術(shù)人員理解,在不 脫離本發(fā)明實(shí)質(zhì)和范圍的情況下可對本發(fā)明作多種形式和細(xì)節(jié)上的改變。
下列
本發(fā)明的實(shí)施方案,并入說明書并作為說明書的一部分,并和說明 書一起用于說明本發(fā)明原理。圖1說明一個(gè)客體,客體的屬性,以及這些屬性和客體相關(guān)聯(lián)的關(guān)聯(lián)強(qiáng)度的一個(gè) 實(shí)例。圖2是根據(jù)本發(fā)明的示例性系統(tǒng)圖形。圖3說明圖2中針對指定客體對指定文件中的信息進(jìn)行定量估算的詳細(xì)步驟。圖4說明對詞組和句子中的信息進(jìn)行定量估算的另一示例性方法。圖5說明對文本內(nèi)容中的信息進(jìn)行定量估算的另一示例性方法。
具體實(shí)施例方式人類的知識(shí),或者說人類知識(shí)的某些方面,可以用各種不同的方式來表達(dá)。內(nèi)在的 知識(shí)表達(dá)方式,是人類大腦的功能之一,而外部的,或者說人工的表達(dá)方式,如“框架結(jié)構(gòu)表 達(dá)式”和“語義網(wǎng)絡(luò)”等,則是對這類內(nèi)在知識(shí)的某些方面進(jìn)行模擬的模型表達(dá)。本發(fā)明建立在由發(fā)明人所創(chuàng)建的一個(gè)新型的用于表達(dá)人類知識(shí)和語言信息的 模型之上。該模型稱之為“客體與屬性的關(guān)聯(lián)模型”(Object-Properties Association Model,以下簡稱為0ΡΑΜ)。該模型認(rèn)為,人類知識(shí)的一部分是由眾多關(guān)于物體及其屬性的概 念所構(gòu)成的。所有物體均可稱之為客體。每個(gè)客體都有與之相關(guān)聯(lián)的屬性,而屬性本身也 可以是某種客體。所以又可以說,這部分知識(shí)也是關(guān)于不同客體之間的關(guān)系的知識(shí)。某些 客體被感知為其他客體的屬性。某些客體與其他客體以特定的方式相關(guān)聯(lián),而正是這種特 定的關(guān)聯(lián)方式定義了有關(guān)這些其他客體的概念。簡言之,該模型指出,一個(gè)客體,或者說關(guān) 于某個(gè)客體的概念,可以由所有與該客體相關(guān)聯(lián)的屬性來獨(dú)特地加以定義,而每一個(gè)這樣 的屬性攜帶了有關(guān)該客體的不同數(shù)量的信息。
作為一個(gè)例子,參見圖1,一個(gè)名為“計(jì)算機(jī)”的客體,由眾多的與之關(guān)聯(lián)的屬性所 表達(dá),這些屬性包括“中央處理器”,“主板”,“內(nèi)存”,“硬盤”,“操作系統(tǒng)”,等等??腕w“計(jì)算 機(jī)”和它的每個(gè)屬性之間關(guān)聯(lián)的顯著程度可以用一個(gè)數(shù)值來刻畫,這個(gè)數(shù)值在此稱為“關(guān)聯(lián) 強(qiáng)度”。圖中給出了 “中央處理器”,“主板”,“內(nèi)存”,“硬盤”,“操作系統(tǒng)”等屬性與客體的關(guān) 聯(lián)強(qiáng)度的假設(shè)值,分別為0. 99,0. 90,0. 95,0. 80,0. 98,等等。一個(gè)屬性的關(guān)聯(lián)強(qiáng)度的值越 大,就表示該屬性與該客體之間的關(guān)聯(lián)越強(qiáng)。客體“計(jì)算機(jī)”可以由與之相關(guān)聯(lián)的各種屬性 和它們的關(guān)聯(lián)強(qiáng)度的值來獨(dú)特地加以定義。另外,一個(gè)屬性的關(guān)聯(lián)強(qiáng)度的值與特定的客體 有關(guān),通常隨不同的客體而不同。例如,“顏色”作為一種屬性,對于“花朵”這個(gè)客體來說, 其關(guān)聯(lián)強(qiáng)度也許是0. 8,但是對于“計(jì)算機(jī)”這樣一個(gè)客體來說,其關(guān)聯(lián)強(qiáng)度也許只是0. 2。常規(guī)的知識(shí)表達(dá)方式,如“框架結(jié)構(gòu)表達(dá)式”和“語義網(wǎng)絡(luò)”等,關(guān) 注于表達(dá)不同客 體之間關(guān)系的類型,以及從中所派生的關(guān)系,例如,不同客體之間的母客體與子客體之間的 樹形結(jié)構(gòu)關(guān)系。與之相比,本發(fā)明所提出的OPAM模型,關(guān)注于一個(gè)特定客體具體有哪些屬 性與之關(guān)聯(lián),以及這些屬性的關(guān)聯(lián)強(qiáng)度,或者說,關(guān)注于這些屬性對于該客體的定義能力。 OPAM并不關(guān)注于屬性與客體之間的關(guān)系究竟是何種類型的關(guān)系。在OPAM模型中,一個(gè)客體可以是一個(gè)物理的或有形的客體,也可以是一個(gè)抽象的 客體,包括任何概念。一個(gè)客體可以由語言中的一個(gè)符號名稱來表達(dá),例如一個(gè)字,或多個(gè) 字組成的一個(gè)詞或詞組,一個(gè)字符串,一個(gè)搜索語句,一個(gè)主題,或者一個(gè)文件類別的名稱, 等等。順便說明,由于本發(fā)明涉及自然語言,并使用語法術(shù)語,諸如“句子”,以及句中的“主 語,,和“謂語”等,本發(fā)明中的“客體” 一詞,在英語中為“ ob ject ”,與語法術(shù)語中的“賓語,, 一詞無關(guān)。在本發(fā)明中不使用該詞義。一個(gè)客體的各種屬性對于該客體可以有不同程度的顯著性或關(guān)聯(lián)強(qiáng)度。在OPAM 中,屬性是客體的“定義特征”,而屬性的關(guān)聯(lián)強(qiáng)度則表明某些屬性可以比其他屬性更具有 定義能力。例如,“計(jì)算機(jī)”這一客體與圖1中所列舉的多種屬性相關(guān)聯(lián),這些屬性包括“中 央處理器”,“主板”,“內(nèi)存”,“機(jī)箱”,等等?!爸醒胩幚砥鳌边@一屬性的關(guān)聯(lián)強(qiáng)度為0. 99,而 “機(jī)箱”這一屬性的關(guān)聯(lián)強(qiáng)度為0. 2。與“機(jī)箱”相比,“中央處理器”這一屬性對于“計(jì)算機(jī)” 這一客體來說是一個(gè)具有更強(qiáng)定義能力的特征。OPAM模型還指出,諸如此類的客體_屬性關(guān)系包含在我們的日常語言中。在我們 使用的日常語言中存在一個(gè)與語法結(jié)構(gòu)相對應(yīng)的信息結(jié)構(gòu)。以一個(gè)簡單陳述句為例。一個(gè) 簡單陳述句由兩部分構(gòu)成,即主語和謂語。在語言學(xué)中,一個(gè)共同的理解是,主語告訴我們 該句子的主題是什么,而謂語則告訴我們一些有關(guān)主語的情況。在下述簡單句子中IA “約翰是一個(gè)學(xué)生?!盜B “約翰很聰明?!薄凹s翰”是兩個(gè)句子的主語,而“是一個(gè)學(xué)生”和“很聰明”分別是IA和IB的謂語。但在本發(fā)明所提出的OPAM模型中,主語被認(rèn)為是代表了一個(gè)客體或一個(gè)客體的 名稱,謂語被認(rèn)為是為句子的主語提供了一條可測量的信息。OPAM模型還指出,人類的語 言以下述的基本方式傳遞信息,即一個(gè)客體具有某些屬性,或者,一個(gè)客體與某些其它客 體相關(guān)聯(lián),而這些其它客體則是該客體的屬性。一個(gè)簡單陳述句中的常規(guī)信息結(jié)構(gòu)是“客 體0具有屬性P”,或“客體0與屬性P相關(guān)聯(lián)”。抑或表達(dá)為0+P,與“主語+謂語”的語法 結(jié)構(gòu)相對應(yīng)。
在本發(fā)明中,“簡單句”與“簡單陳述句”可以互換使用。簡單句IA是一個(gè)關(guān)于兩個(gè)客體的陳述。這兩個(gè)客體分別是“約翰”和“學(xué)生”。按 照常規(guī)的理解,說話者告訴了我們一些有關(guān)約翰的情況(他是一個(gè)學(xué)生)。按照數(shù)學(xué)的或邏 輯的理解,“約翰”這一客體被宣稱為是“學(xué)生”這一客體類中的一個(gè)成員。但按照本發(fā)明所 提出的OPAM模型的理解,“約翰”這一客體則被認(rèn)為是具有“學(xué)生”這一屬性,或與“學(xué)生” 這一屬性相關(guān)聯(lián)。說話者提供了一條關(guān)于“約翰”這一客體的信息。簡單句IB將“約翰”這 一客體與另一個(gè)屬性(他很聰明)聯(lián)系在一起,進(jìn)而提供了有關(guān)“約翰”這一客體的另一條 fn息ο
簡單句中的這一信息結(jié)構(gòu),同樣存在于復(fù)雜句中,以及語法上與之有所區(qū)別的復(fù) 合句中。一個(gè)復(fù)雜句是一個(gè)包含有其他(內(nèi)嵌式)句子或從句的句子。例如,在復(fù)雜句“我 知道你很聰明”中,其謂語“知道你很聰明”包含了另一個(gè)句子“你很聰明”,而該句子有自己 的主語(“你”)和謂語(“很聰明”)。由此可見,復(fù)雜句以及其中所包含的簡單句,都可以 被遞歸式地降解到“主語+謂語”這一基本結(jié)構(gòu)。在常規(guī)語法中,一個(gè)復(fù)合句是一個(gè)包含有兩個(gè)或兩個(gè)以上獨(dú)立的或非嵌入式的句 子或從句的句子。例如,“約翰是一個(gè)學(xué)生,瑪麗是一個(gè)教師?!痹诖司渥又?,兩個(gè)從句彼此 之間互不包含。在本發(fā)明中,“復(fù)雜句”可以用于表示復(fù)雜句,也可以表示復(fù)合句。一個(gè)文檔或文件可以包含一個(gè)或者多個(gè)段落。每個(gè)段落可以包含一個(gè)或者多個(gè)簡 單句或復(fù)雜句。在給出了簡單句中的信息結(jié)構(gòu)為“客體0與屬性P相關(guān)聯(lián)”之后,還要指出的是,一 個(gè)語言內(nèi)容中可能攜帶的信息含量還取決于那一個(gè)屬性與該客體相關(guān)聯(lián)。比較下列句子2A “計(jì)算機(jī)有一個(gè)中央處理器?!?B: “計(jì)算機(jī)有一個(gè)機(jī)箱?!睂τ谝粋€(gè)具有計(jì)算機(jī)基礎(chǔ)知識(shí)的人來說,2A和2B也許并不傳遞有關(guān)計(jì)算機(jī)這一 客體的新的信息。但是。如果有人問“兩個(gè)句子中哪一個(gè)含有更多有關(guān)計(jì)算機(jī)的信息?” 時(shí),他很可能選取2A作為答案。這一例子說明,對于同一個(gè)客體和同一個(gè)接收信息的人來 說,客體的不同屬性攜帶著有關(guān)這一客體的不同數(shù)量的信息。在這個(gè)例子中,對于計(jì)算機(jī)這 個(gè)客體來說,“中央處理器”比起“機(jī)箱”來,是一個(gè)具有更強(qiáng)的定義能力的特征。與2A相比,“計(jì)算機(jī)里有一個(gè)中央處理器和一個(gè)硬盤”這個(gè)句子含有更多的關(guān)于計(jì) 算機(jī)這一客體的信息。如果一個(gè)文件包含兩個(gè)句子,例如,“計(jì)算機(jī)里有一個(gè)中央處理器。還 有一個(gè)硬盤。,,而另一個(gè)文件只包含一個(gè)句子,例如,“計(jì)算機(jī)里有一個(gè)中央處理器。,,那么, 與只包含一個(gè)句子的文件相比,包含這兩個(gè)句子的文件含有更多的關(guān)于計(jì)算機(jī)這一客體的 fn息ο在OPAM模型中,這個(gè)特性被稱之為語言內(nèi)容中信息量的遞增規(guī)則。本發(fā)明通過對 文章或文件中每個(gè)句子的分析,為在文字內(nèi)容中對關(guān)于某個(gè)客體的信息含量進(jìn)行定量的估 算提供了一套系統(tǒng)和方法。對于某個(gè)客體來說,每個(gè)句子可以攜帶不同量的信息。又如以上所述,對于一篇文章或一個(gè)文件中信息含量的判斷,可能帶有主觀性,或 者說,對信息含量的測量值,可以是相對的,取決于判斷者的現(xiàn)有知識(shí)狀態(tài)。在OPAM模型 中,這個(gè)特性稱之為語言內(nèi)容中信息量的相對性規(guī)則。本發(fā)明的實(shí)施并不要求估算系統(tǒng)具 有有關(guān)某個(gè)客體的預(yù)設(shè)知識(shí)。但在本發(fā)明的某些實(shí)施方式中,可以假定估算系統(tǒng)具有有關(guān)某個(gè)客體的預(yù)設(shè)知識(shí),以此作為一個(gè)相對參照標(biāo)準(zhǔn)。在本發(fā)明的另一些實(shí)施方式中,為了對測量語言內(nèi)容中的信息含量建立一個(gè)絕對標(biāo)準(zhǔn)或客觀標(biāo)準(zhǔn),系統(tǒng)中的預(yù)設(shè)知識(shí)可以設(shè)為零 值。如此,在一個(gè)句中的信息結(jié)構(gòu)為“客體O具有屬性P”的簡單句中,任何東西,只要它可 能是客體O的一個(gè)屬性,或可以出現(xiàn)在P的位置上,都被假設(shè)為潛在地?cái)y帶了一定含量的有 關(guān)該客體的信息。參見圖2,一個(gè)對自然語言內(nèi)容中的信息含量進(jìn)行定量估算的系統(tǒng)200包含有一 個(gè)計(jì)算機(jī)處理系統(tǒng)210,一個(gè)計(jì)算機(jī)存儲(chǔ)系統(tǒng)220,以及一個(gè)用戶界面230。計(jì)算機(jī)處理系統(tǒng) 210中含有算法應(yīng)用程序,后者進(jìn)一步包括功能模塊211-215用于對自然語言內(nèi)容中的信 息含量進(jìn)行定量估算。計(jì)算機(jī)處理系統(tǒng)210在具體實(shí)施中可以是,但不限于,一個(gè)中央處理 器,一個(gè)特定應(yīng)用型計(jì)算機(jī)處理器,一個(gè)網(wǎng)絡(luò)服務(wù)器,以及一個(gè)計(jì)算機(jī)處理器的群組。計(jì)算 機(jī)處理系統(tǒng)210可以實(shí)施在一個(gè)具有計(jì)算能力的裝置中。例如,一臺(tái)個(gè)人電腦,一臺(tái)便攜式 電腦,一個(gè)諸如智能型手機(jī)或個(gè)人數(shù)碼助理等移動(dòng)式裝置,一個(gè)計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng),其中含有 服務(wù)器和處理器,能為一個(gè)遠(yuǎn)程服務(wù)器或客戶機(jī)提供信息服務(wù),以及一個(gè)云式計(jì)算系統(tǒng)。如 下文更為詳細(xì)說明的,計(jì)算機(jī)存儲(chǔ)系統(tǒng)220可以存儲(chǔ)輸入數(shù)據(jù)221,文件數(shù)據(jù)222其中包含 一個(gè)或多個(gè)文件或文檔,一個(gè)可選的句法分析器223,一個(gè)數(shù)據(jù)庫224,以及輸出數(shù)據(jù)225。 計(jì)算機(jī)存儲(chǔ)系統(tǒng)220可以實(shí)施在各種不同類型的存儲(chǔ)媒體中,如基于磁性,光學(xué),或機(jī)械屬 性以及各種納米材料的媒體,可以包括一個(gè)硬盤或一個(gè)硬盤組,閃存記憶體,光盤,以及磁 帶等。用戶界面230可以由例如一個(gè)安裝在計(jì)算機(jī)上的程序所提供,也可以由一個(gè)網(wǎng)絡(luò)瀏 覽器,或一個(gè)用于移動(dòng)裝置的應(yīng)用程序所提供。計(jì)算機(jī)處理系統(tǒng)210中的模塊211接收輸入數(shù)據(jù)。輸入數(shù)據(jù)可以來自系統(tǒng)外部, 或來自計(jì)算機(jī)存儲(chǔ)系統(tǒng)220中的輸入數(shù)據(jù)221,或來自用戶界面230。輸入的源可以包括一 個(gè)來自網(wǎng)絡(luò)瀏覽器的搜索語句,或用戶在一個(gè)用戶界面(如230)上鍵入的搜索文本字符 串。輸入數(shù)據(jù)包括一個(gè)客體名稱和一個(gè)文件??腕w名稱可以是一個(gè)單字,多個(gè)單字組成的 詞或詞組,一個(gè)字符串,或字符串中的一個(gè)子字符串。客體可以是一個(gè)物理的或有形的物 體,也可以是一個(gè)抽象的物體??腕w名稱可以從輸入字符串中獲得。輸入字符串可以是一 個(gè)單字,多個(gè)單字的詞或詞組,一個(gè)字符串,或字符串中的一個(gè)子字符串。文件可以是任何 文件,只要其中含有某個(gè)語言中的文字,例如,一個(gè)網(wǎng)頁,菜單,一本書,一個(gè)電子郵件,一條 文字短信,一篇文章,一部詞典,一本說明書或手冊,等等。模塊211可以首先接收一個(gè)或多 個(gè)文件的路徑,然后根據(jù)這個(gè)路徑獲取一個(gè)或多個(gè)文件。所獲取的文件可以存儲(chǔ)在計(jì)算機(jī) 存儲(chǔ)系統(tǒng)220中的文件數(shù)據(jù)222中。計(jì)算機(jī)存儲(chǔ)系統(tǒng)220可以根據(jù)需要包含一個(gè)句法分析器223。通常,句法分析器是 一個(gè)基于規(guī)則的程序,在大部分情況下以計(jì)算機(jī)程序的形式體現(xiàn)。句法分析器接收一個(gè)字 符串,例如一個(gè)句子或句子的等價(jià)物,輸出一個(gè)句中各個(gè)組成部分之間之語法關(guān)系的結(jié)構(gòu) 性描述。各種類型的句法分析器可以從商業(yè)的或免費(fèi)的途徑獲得,也可以按照用戶自選的 規(guī)則自行構(gòu)建。句法分析器223可以用于將一個(gè)簡單句劃分為一個(gè)主語和一個(gè)謂語。正如 所知,對于一個(gè)句子,句法分析器未必總是能夠生成與人類語言使用者的理解相一致的結(jié) 構(gòu)性描述。在某些場合,句法分析器或許不會(huì)生成任何有意義的結(jié)構(gòu)描述。如以下詳述,本 發(fā)明提供了句法分析器223的替代方法用以處理這種特殊情況。在本發(fā)明中,句子中的主語或謂語可以是一個(gè)單字,多個(gè)單字的詞或詞組,或一個(gè)內(nèi)嵌的從句。在計(jì)算機(jī)存儲(chǔ)系統(tǒng)220中的數(shù)據(jù)庫224中存有眾多的客體名稱和每個(gè)客體的屬 性的名稱,以及每個(gè)屬性對于客體的關(guān)聯(lián)強(qiáng)度??腕w名稱,屬性名稱,以及關(guān)聯(lián)強(qiáng)度可以用 表格的形式存儲(chǔ),如圖1所示,也可以用其它數(shù)據(jù)結(jié)構(gòu)的形式存儲(chǔ)。在本發(fā)明中,屬性與一 個(gè)給定的客體之間的關(guān)聯(lián)強(qiáng)度,被視為是該屬性對于該客體所攜帶的潛在的信息含量的度 量。而最終實(shí)現(xiàn)的信息的含量,如下文詳述,可以取決于該屬性詞所出現(xiàn)的上下文語境。上 述的數(shù)據(jù)庫可以被稱之為“知識(shí)庫”,因?yàn)樗鎯?chǔ)了關(guān)于客體和屬性之間關(guān)聯(lián)情況的知識(shí)。 數(shù)據(jù)庫224可用自動(dòng)方法或半自動(dòng)的方法構(gòu)建,也可以用手工輸入的方式,或手工和自動(dòng) 并用的方法構(gòu)建。正如前文所述,一個(gè)屬性的關(guān)聯(lián)強(qiáng)度取決于特定的客體。有鑒于此,屬性 的關(guān)聯(lián)強(qiáng)度亦可稱之為“取決于客體的關(guān)聯(lián)強(qiáng)度”。
圖3展示了圖2中模塊212-214所執(zhí)行的具體步驟。在圖3中,句法分析器223 由模塊212 (圖2)執(zhí)行,用以分析所指定的文件,生成一個(gè)段落和句子的列表(步驟310)。 所指定的文件中的復(fù)雜句,如果有的話,被轉(zhuǎn)換成簡單句,如前所述(步驟302)。對每一個(gè) 簡單句,模塊212在其中確定一個(gè)主語和一個(gè)謂語,然后返回兩個(gè)經(jīng)過標(biāo)記的文字串主語 文字串和謂語文字串(步驟303)。另一方面,模塊212從數(shù)據(jù)庫224中獲取與該特定的客 體名稱所關(guān)聯(lián)的特定客體的數(shù)據(jù)集(步驟304),特定客體的數(shù)據(jù)集(步驟305)含有眾多的 屬性名稱以及相應(yīng)的對于該特定客體的關(guān)聯(lián)強(qiáng)度值。隨后,根據(jù)在步驟303中所獲得的主 語文字串和謂語文字串對特定客體的數(shù)據(jù)集中的屬性名稱進(jìn)行搜索,以確定在此特定客體 的數(shù)據(jù)集中是否有一個(gè)屬性名稱與句中的主語或謂語相匹配(步驟305)。如果找到了與主 語或謂語相匹配的屬性(步驟307),該主語或謂語詞的關(guān)聯(lián)強(qiáng)度值就從特定客體的數(shù)據(jù)集 中提取出來(步驟308)。然后,圖2中的模塊213將句子中的主語和謂語詞的關(guān)聯(lián)強(qiáng)度值 相乘,得出該句子的信息量指數(shù)(步驟309)。圖2中的模塊214將在步驟309中所獲得的 句子的信息量指數(shù)累積加到文件的信息量指數(shù)(步驟310)。如前文所述,主語和謂語詞的關(guān)聯(lián)強(qiáng)度值是它們所攜帶的潛在信息含量。步驟309 中將主語和謂語詞的關(guān)聯(lián)強(qiáng)度值相乘這一數(shù)學(xué)運(yùn)算,是在有一個(gè)主語和謂語的上下文語境 中實(shí)現(xiàn)這些潛在信息的方法之一。步驟310中將句子的信息量指數(shù)累積相加以生成文件的 信息量指數(shù)這一數(shù)學(xué)運(yùn)算,則是整合前文所述的語言內(nèi)容中信息含量的遞增規(guī)則的方法之
ο如果在特定客體的數(shù)據(jù)集中找不到與主語或謂語相匹配的屬性(步驟307),該未 匹配的文字串就被進(jìn)一步分析以確定它是否是一個(gè)多字文字串(步驟311)。如果該未匹配 的文字串是一個(gè)多字文字串,就針對其中每一個(gè)組份或子文字串在特定客體的數(shù)據(jù)集中進(jìn) 行搜索(步驟312)。如果一個(gè)子文字串找到了匹配的屬性詞,該子文字串的關(guān)聯(lián)強(qiáng)度值就 從特定客體的數(shù)據(jù)集中提取出來(步驟312)。如果一個(gè)子文字串找不到匹配的屬性詞,該 子文字串的關(guān)聯(lián)強(qiáng)度值就被設(shè)置為零(步驟312)。該多字文字串的關(guān)聯(lián)強(qiáng)度值可以通過對 其中所有的子文字串的關(guān)聯(lián)強(qiáng)度值取平均值而推算得到(步驟313),也可以通過用句法分 析器對其內(nèi)部結(jié)構(gòu)作進(jìn)一步分析而得到(步驟420到470)。由此而間接生成的多字文字 串的關(guān)聯(lián)強(qiáng)度值可用于計(jì)算句子的信息量指數(shù)。如果主語或謂語不是一個(gè)多字文字串(步 驟311),其關(guān)聯(lián)強(qiáng)度值被設(shè)為零(步驟314)。這將生成一個(gè)零值的句子信息量指數(shù)(步驟 309)。
步驟306-309和311-314可以從文件中的下一個(gè)句子開始重復(fù)執(zhí)行,直到文件中 所有句子都處理完畢。如前文所述,語言內(nèi)容中信息含量遵從累積或遞增的規(guī)則。最終得 到的文件信息量指數(shù)是文件中所有句子的信息量指數(shù)的總和。模塊214將其輸出到模塊 215 (圖 2)(步驟 315)。 在某些實(shí)施方法中,計(jì)算句子的信息量指數(shù)可以采用不同的公式,而不是將主語 和謂語的關(guān)聯(lián)強(qiáng)度值簡單相乘。例如,在將主語和謂語的關(guān)聯(lián)強(qiáng)度值相乘的時(shí)候,可以對主 語和謂語分別使用不同的系數(shù)值,以反映句中主語和謂語在位置上的權(quán)重差別。同樣,文件 信息量指數(shù)也未必一定要用文件中句子信息量指數(shù)線性相加的方法來生成。文件信息量指 數(shù)可以用非線性的方式從句子的信息量指數(shù)或段落的信息量指數(shù)中得出,而段落的信息量 指數(shù)也可以用非線性的方式從文件中句子的信息量指數(shù)中得出。如前文所述,復(fù)雜句是含有其它句子或從句的句子,而每個(gè)從句最終都可以降解 和表示為“主語+謂語”的簡單句形式。由此,簡單句中的0+P信息結(jié)構(gòu)同樣適用于復(fù)雜 句中的低層從句上,從而上述用于簡單句的方法可以遞歸式地運(yùn)用到復(fù)雜句中的組份從句 上。復(fù)雜句的信息量指數(shù)可以通過對其組份從句的信息量指數(shù)進(jìn)行累積相加的方法,或上 述其它非線性方法得到。語言中的詞組,可以是簡單詞組,例如一個(gè)單詞,也可以是由多個(gè)單詞組成的復(fù)雜 詞組。在語言學(xué)中,一個(gè)復(fù)雜詞組通常由一個(gè)核心詞和一個(gè)或多個(gè)修飾詞所構(gòu)成。例如,“數(shù) 碼相機(jī)”是一個(gè)復(fù)雜詞組,其中“相機(jī)”是核心詞,“數(shù)碼”是核心詞的修飾詞。在本發(fā)明提 出的OPAM模型中,核心詞被看作是一個(gè)客體的名稱(或者一組相似客體組成的類的名稱), 而修飾詞則被看作是該客體或客體類的屬性的名稱。于是,復(fù)雜詞組中的信息結(jié)構(gòu)同樣可 以表示為“客體+屬性”或0+P這一結(jié)構(gòu)。例如,復(fù)雜詞組“數(shù)碼相機(jī)”是一個(gè)相機(jī)客體類 的一個(gè)子類的名稱,其中所有成員都具有“數(shù)碼”這一屬性。該詞組具有“一個(gè)具有屬性P 的客體(類)0”的信息結(jié)構(gòu)。核心詞和修飾詞本身也可以是多字詞組。例如,在復(fù)雜詞組 “紐約州的西北部”中,核心詞和修飾詞都是多字詞組。在給定了將復(fù)雜詞組的信息結(jié)構(gòu)也 可以表示為0+P這個(gè)方法之后,上述用于計(jì)算簡單句的信息量指數(shù)的方法也可以遞歸式地 應(yīng)用于復(fù)雜詞組中,從而生成復(fù)雜詞組的信息量指數(shù)。這只要通過在特定客體的數(shù)據(jù)集中 找出核心詞和修飾詞對該客體的關(guān)聯(lián)強(qiáng)度,然后將兩者相乘,或根據(jù)需要采用不同的系數(shù) 對復(fù)雜詞組作為非完整句子的信息量進(jìn)行調(diào)整。一個(gè)簡單句,如果主語和謂語都是復(fù)雜詞組,那么句子的信息結(jié)構(gòu)可以是下列情 況“具有屬性P的客體0具有帶有屬性PPP的屬性PP”,其中主語的信息結(jié)構(gòu)是“具有屬性 P的客體0”,而其謂語的信息結(jié)構(gòu)是“具有帶有屬性PPP的屬性PP”。在某些實(shí)施方法中,參見圖4,簡單句中的復(fù)雜詞組可以用圖4中展示的步驟來對 其進(jìn)行分析,以作為圖3中步驟311-313的替代方法。在確定了一個(gè)客體名稱后,提取特定 客體的數(shù)據(jù)集(步驟405)。特定客體的數(shù)據(jù)集,如前所述,是專門與此客體有關(guān)聯(lián)的。在此 數(shù)據(jù)集中搜索與復(fù)雜詞組(如“數(shù)碼相機(jī)”)匹配的屬性名稱(步驟410)。如果找到匹配, 該復(fù)雜詞組可以被看作是一個(gè)在步驟305-315中演示過的簡單屬性名稱。如果找不到匹 配,該復(fù)雜詞組被分解成一個(gè)核心詞(如“相機(jī)”)和一個(gè)修飾詞(如“數(shù)碼”)(步驟420)。 隨后,在此數(shù)據(jù)集中搜索與復(fù)雜詞組的核心詞相匹配的屬性名稱(步驟430)。如果找到匹 配,就從數(shù)據(jù)集中提取核心詞的關(guān)聯(lián)強(qiáng)度的值(步驟440)。同時(shí),在此數(shù)據(jù)集中搜索與復(fù)雜詞組的修飾詞相匹配的屬性名稱(步驟450)。如果找到匹配,就從數(shù)據(jù)集中提取修飾詞的 關(guān)聯(lián)強(qiáng)度的值(步驟460)。將核心詞和修飾詞的關(guān)聯(lián)強(qiáng)度的值相乘,以生產(chǎn)該詞組的信息 量指數(shù)(步驟470)。此指數(shù)可以作為該詞組中所包含的關(guān)于特定客體的信息含量的一個(gè)度 量,也可以作為該詞組的派生關(guān)聯(lián)強(qiáng)度,用以計(jì)算句子的信息量指數(shù),然后再計(jì)算文件的信 息量指數(shù)。 如果復(fù)雜詞組中的核心詞或修飾詞在特定客體的數(shù)據(jù)集中找不到匹配,而核心詞 或修飾詞又是一個(gè)多字詞組,句法分析器可以繼續(xù)對多字詞組中的組成成分進(jìn)行分析,進(jìn) 而遞歸式地運(yùn)用前述方法。然而,本發(fā)明中的系統(tǒng)和方法也提供了下述的替代方法。通常,隨著句子結(jié)構(gòu)的復(fù)雜度的增加,句法分析器的精確度隨之降低,而計(jì)算量隨 之增高。在某些場合,句法分析器對于一個(gè)復(fù)雜詞組或復(fù)雜句或許不會(huì)生成正確的結(jié)構(gòu)描 述。為了處理這些情況,本發(fā)明提供了其它方法,作為對圖3中步驟302和303,以及圖4中 步驟420到470的基于句法分析器對復(fù)雜句和復(fù)雜詞組作遞歸分析方法的替代方法。在復(fù) 雜詞組在數(shù)據(jù)庫中找不到精確匹配的情況下(圖3中步驟311到314所示),這一替代方法 從復(fù)雜主語詞組或謂語詞組的組份詞的關(guān)聯(lián)強(qiáng)度的平均值來導(dǎo)出復(fù)雜詞組的關(guān)聯(lián)強(qiáng)度。換 句話說,該方法不使用句法分析器來標(biāo)記兩個(gè)詞組的內(nèi)部結(jié)構(gòu),而是在數(shù)據(jù)集中搜索與主 語詞組或謂語詞組中的組份詞的匹配,從而不區(qū)分詞組中的核心詞和修飾詞。如果在數(shù)據(jù) 集中找到了與組份詞的匹配,那么它們與特定客體的關(guān)聯(lián)強(qiáng)度的平均值就被用作主語詞組 或謂語詞組的派生關(guān)聯(lián)強(qiáng)度值。例如,針對一個(gè)搜索語句中的客體名稱“計(jì)算機(jī)”,句法分析器返回一個(gè)句子中的 主語為“帶有4GB內(nèi)存的計(jì)算機(jī)”,以及句中的謂語為“裝了一個(gè)UNIX操作系統(tǒng)”。在特定 客體“計(jì)算機(jī)”的數(shù)據(jù)集中既找不到主語也找不到謂語的匹配。此時(shí),相對于使用句法分析 器進(jìn)行遞歸分析的方法來確定復(fù)雜詞組中的核心詞和修飾詞,上述替代方法將主語復(fù)雜詞 組“帶有4GB內(nèi)存的計(jì)算機(jī)”中的每一個(gè)單字或單字的組合在特定客體“計(jì)算機(jī)”的數(shù)據(jù)集 中尋找匹配屬性。然后對每個(gè)單字或單字的不同長度的組合所匹配的關(guān)聯(lián)強(qiáng)度取平均值, 從而生成該主語詞組的派生關(guān)聯(lián)強(qiáng)度。在某些實(shí)施方法中,本發(fā)明提出的系統(tǒng)和方法不使用句法分析器。在這種情況下, 無需確定句中的主語和謂語。參見圖5,在確定了客體名稱以后,提取該特定客體的數(shù)據(jù)集 (步驟510)。句子的邊界根據(jù)自然語言中文本文件所使用的標(biāo)點(diǎn)符號來確定(步驟520)。 一個(gè)句子被看作是一個(gè)字符串。該字符串被分解為組份子字符串(步驟530)。一個(gè)組份 子字符串可以包括一個(gè)單字,一個(gè)詞組,或單字序列的不同長度的組合。對于句中的每個(gè)組 份子字符串,在特定客體的數(shù)據(jù)集中搜索與子字符串相匹配的屬性名稱(步驟540)。如果 一個(gè)子字符串找到了匹配的屬性詞,該子字符串的關(guān)聯(lián)強(qiáng)度值就從特定客體的數(shù)據(jù)集中提 取出來(步驟550)。所匹配的屬性詞的關(guān)聯(lián)強(qiáng)度值就被賦予該子字符串(步驟560)。對 句中的所有子字符串執(zhí)行步驟530-560 (步驟570)。然后,對句子中的所有子字符串的關(guān) 聯(lián)強(qiáng)度值取平均值,得出該句子的信息量指數(shù)(步驟580)??梢愿鶕?jù)不同的情況,例如子 字符串在句中的相對位置,使用不同的系數(shù)作為子字符串的權(quán)重,用以生成一個(gè)加權(quán)平均。 對段落中的每一個(gè)句子,將句子的信息量指數(shù)累積相加以生成該段落的信息量指數(shù)(步驟 590)。文件中段落的信息量指數(shù)累積相加,得出該文件的信息量指數(shù)(步驟595)。在某些 場合,整個(gè)文件的信息量指數(shù)可以用文件中句子信息量指數(shù)直接相加的方法來生成。
在某些不使用句法分析器的實(shí)施方法中,本發(fā)明中的系統(tǒng)和方法不需要根據(jù)標(biāo)點(diǎn)符號來確定句子。整個(gè)文件或段落被看作是一個(gè)平坦(無結(jié)構(gòu))的字符串。這一字符串被 分解為組份子字符串,例如一個(gè)單字或一個(gè)詞組,包括單字序列的不同長度的組合。對于文 件或段落中的每個(gè)組份子字符串,在特定客體的數(shù)據(jù)集中搜索與子字符串相匹配的屬性名 稱。提取相應(yīng)的關(guān)聯(lián)強(qiáng)度值。除了可以將文件或段落中所有組份子字符串的關(guān)聯(lián)強(qiáng)度值的 簡單平均值作為它們的信息量指數(shù)之外,可以根據(jù)不同的情況,例如子字符串在文件或段 落中出現(xiàn)的頻率,和/或子字符串在文件中的相對位置,使用不同的系數(shù)作為子字符串的 權(quán)重,用以生成一個(gè)加權(quán)平均,作為文件或段落的信息量指數(shù)。如果用戶愿意,可以用段落 作為信息度量的文字單元,每個(gè)段落的信息量指數(shù)可以累積相加以生成整個(gè)文件的信息量 指數(shù)。在某些場合,一個(gè)文件可以只包含一個(gè)段落,一個(gè)段落也可以只包含一個(gè)句子,或只 包含一個(gè)或多個(gè)字符串。這些方法能夠節(jié)約成本,尤其是在信息量的度量可以容忍較低精確度的場合,例 如,在將文件分類到非常不同的類別時(shí),這些方法就很合適。同時(shí),也適用于句法分析器完 全失效或根本不采用句法分析器的場合。本發(fā)明公開的系統(tǒng)和方法可以應(yīng)用到許多不同的領(lǐng)域,例如搜索引擎的文章相關(guān) 性排序,對未結(jié)構(gòu)化的分散或未知的文件進(jìn)行自動(dòng)分類,以及為自然語言處理中消除語義 歧義,為機(jī)器翻譯和語音識(shí)別等過程提供上下文語境信息。再次參見圖2,模塊214將一個(gè)或多個(gè)文件的信息量指數(shù)發(fā)送到計(jì)算機(jī)處理系統(tǒng) 210中的模塊215。模塊215可以實(shí)施一個(gè)或多個(gè)下述操作案例。輸出的數(shù)據(jù)可以存放在 輸出數(shù)據(jù)225中,或存放到外部設(shè)施中。搜索引擎的文章相關(guān)性排序某些常規(guī)的排序算法主要依靠關(guān)鍵詞,鏈接,或訪問量,但不直接涉及也不采用文 件內(nèi)容中的信息結(jié)構(gòu)。本發(fā)明中所展示的系統(tǒng)和方法能夠比這些常規(guī)方法生成更好的相關(guān) 性排序結(jié)果。當(dāng)一個(gè)用戶輸入一個(gè)搜索語句時(shí),按照本發(fā)明中所展示的系統(tǒng)和方法來看,用 戶是在搜索語句中標(biāo)明一個(gè)或多個(gè)客體的名稱,用以搜尋關(guān)于這些客體的信息。本發(fā)明中 所展示的系統(tǒng)和方法可以對整個(gè)文件集合中的每篇文章或文件中所包含的信息量進(jìn)行度 量,進(jìn)而將這些文章或文件按其所含有關(guān)被搜尋的客體的信息量來加以排序。從而能以更 為準(zhǔn)確和有效的方式將相關(guān)信息提供給用戶。文件集中的具體文件可以包括互聯(lián)網(wǎng)上的網(wǎng) 頁,一個(gè)公司或組織機(jī)構(gòu)內(nèi)部存儲(chǔ)的文件,以及存儲(chǔ)在個(gè)人電腦上的各種文件。在模塊215中,如果一個(gè)搜索語句與一個(gè)單一的客體名稱相匹配,則可以運(yùn)用上 述過程將文件集中的文件針對這一客體進(jìn)行信息含量的定量分析。由此獲得的有關(guān)該客體 的文件信息量指數(shù)可以被看作是文件與搜尋語句之相關(guān)性的定量度量。而這些文件可以按 其文件信息量指數(shù)在輸出的搜索結(jié)果中排序。這樣,用戶(例如一個(gè)搜尋者)可以首先獲 得那些與其搜索語句更為相關(guān)的文章。這在文件數(shù)量很大的情況下尤其有效。如果一個(gè)搜索語句包含多個(gè)客體名稱,對于同樣的文件集,可以先針對每個(gè)客體 名稱進(jìn)行分析,以確定每個(gè)文件中對每個(gè)客體所含的信息量。然后,根據(jù)每個(gè)文件中對每個(gè) 客體的信息量指數(shù)生成一個(gè)綜合指標(biāo),以此作為該文件與搜索語句之相關(guān)性的總分。然后 這些文件可以按照它們的綜合分?jǐn)?shù)在輸出結(jié)果中排序。文件分類
本發(fā)明中所展示的系統(tǒng)和方法能夠以智能化的方式對文件進(jìn)行分類。在模塊214 和模塊215獲得文件信息量指數(shù)后,那些信息量指數(shù)大于一個(gè)預(yù)設(shè)的閾值的文件可以被看 作是屬于一個(gè)由客體名稱所定義的文件類別,并存儲(chǔ)在輸出數(shù)據(jù)中。例如,如果客體類別的 名稱是“計(jì)算機(jī)”或“財(cái)經(jīng)”,所有關(guān)于“計(jì)算機(jī)”的文件信息量指數(shù)大于一個(gè)預(yù)設(shè)閾值的文 件都可以被歸入“計(jì)算機(jī)”這一類別。所有關(guān)于“財(cái)經(jīng)”的文件信息量指數(shù)大于一個(gè)預(yù)設(shè)閾 值的文件都可以被歸入“財(cái)經(jīng)”這一類別。預(yù)設(shè)閾值對于不同的類別(例如,不同的客體) 來說,可以是相同的,也可以是不同的。運(yùn)用本發(fā)明中所展示的系統(tǒng)和方法,一個(gè)文件可以被歸入一個(gè)或多個(gè)類別,取決 于由模塊214和模塊215所獲得的對應(yīng)不同類別的不同客體的文件信息量。用于對文件進(jìn) 行分類的客體名稱,可以是一個(gè)文件類別的名稱,或者是與一個(gè)文件類別有關(guān)的名稱。根 據(jù)用戶的分類需求,以及預(yù)設(shè)的閾值,同一個(gè)文件可以屬于多個(gè)類別,也可以只屬于一個(gè)類 別?!獋€(gè)具有良好定義的分類系統(tǒng)可以包括互不相交的類別,例如一個(gè)用于計(jì)算機(jī)操 作系統(tǒng)的分類系統(tǒng)可以由“視窗(Windows) ”,“蘋果(Macintosh) ”,和“UNIX”等互不相交的 類別所構(gòu)成。如果一個(gè)文件僅僅是關(guān)于視窗系統(tǒng)的,那么該文件對于蘋果或UNIX這些客體 名稱就很可能只有接近于零的信息量指數(shù),從而將被唯一地歸入視窗這一類別。然而,假如 一個(gè)文件的主題或主要內(nèi)容是關(guān)于視窗和UNIX之間的差別,那么該文件就很有可能對于 視窗和UNIX這兩個(gè)客體都具有大于閾值的信息量指數(shù),從而可能被同時(shí)歸入視窗和UNIX 這兩個(gè)類別。這樣,相關(guān)的信息可以很容易地分別從有關(guān)的類別中找到。
為自然語言處理,機(jī)器翻譯和語音識(shí)別等過程中消除語義歧義提供上下文語境信 息本發(fā)明中所展示的系統(tǒng)和方法能夠運(yùn)用到計(jì)算機(jī)自然語言理解的過程中以消除 語義歧義。自然語言中的詞語通??梢杂卸鄠€(gè)意義。例如,英語中“bank”這個(gè)詞,可以代 表作為金融機(jī)構(gòu)的銀行,也可以代表河邊的提岸。如果沒有上下文語境信息,這類詞語是有 歧義的。如果一個(gè)語言理解程序僅僅從詞典中查找詞義,通??倳?huì)有多于一個(gè)的潛在語義 可供選擇。這使機(jī)器經(jīng)常必須決定哪個(gè)詞義對于上下文語境來說是合適的詞義。在某些常 規(guī)的技術(shù)中,其方法或者是根據(jù)該詞在英語中使用的統(tǒng)計(jì)概率來決定其最可能的詞義,但 這個(gè)方法往往不可靠;或者是根據(jù)可得到的語境信息,但這樣的信息靠機(jī)器本身往往是很 難獲得的。本發(fā)明中所展示的系統(tǒng)和方法能夠有效地根據(jù)上下文來確定這類詞語的最為可 能的語義。上下文可以是一個(gè)詞組,一個(gè)句子,一個(gè)或者多個(gè)段落,或者整個(gè)文件。對于一 個(gè)句子,一個(gè)或者多個(gè)段落,或者整個(gè)文件,都可以計(jì)算其對于每個(gè)語義的信息量指數(shù)。其 中信息量總分為最高的詞義可以被看作是在該上下文中最為貼切的詞義。例如,假定詞典關(guān)于“bank”這個(gè)詞有兩個(gè)詞義。(1) 一個(gè)處理貨幣交易的金融機(jī)構(gòu)。(2) 一個(gè)沿著河邊突起的提岸。假如所要分析的句子是(3) “該 bank 資金充足?!北景l(fā)明中所展示的系統(tǒng)和方法可以為句子(3)計(jì)算其關(guān)于“金融機(jī)構(gòu)”和“河”這兩個(gè)客體的句子信息量指數(shù)。在這個(gè)語境中,關(guān)于“金融機(jī)構(gòu)”的句子信息量指數(shù)將比關(guān)于 “河”的句子信息量指數(shù)要高許多,因?yàn)橄瘛柏泿拧边@樣的詞對于“金融機(jī)構(gòu)”這個(gè)客體來說 具有比對于“河”這個(gè)客體要高出許多的關(guān)聯(lián)強(qiáng)度。上述消除語義歧義的功能可以運(yùn)用到許多領(lǐng)域中。其中一個(gè)領(lǐng)域是機(jī)器翻譯。如上所述,自然語言中的一個(gè)字或詞可以有多于一個(gè)的語義。要讓機(jī)器能夠正確地翻譯一個(gè) 文字內(nèi)容,某種上下文語境經(jīng)常是必須的,用以決定多個(gè)詞義中的哪一個(gè)才是最合適的語 義。本發(fā)明中所展示的系統(tǒng)和方法能夠用如上所述的方法為不同的上下文計(jì)算信息量指 數(shù),并根據(jù)最高的信息量指數(shù)來選取最合適的詞義。上述消除語義歧義的方法也可以運(yùn)用 于計(jì)算機(jī)自然語言理解和語音識(shí)別領(lǐng)域,用以正確地確定一個(gè)多義詞的最合適的語義,從 而為這些領(lǐng)域中的一個(gè)極為關(guān)鍵的問題提供了一個(gè)有效的解決方案。應(yīng)當(dāng)指出,上述方法的應(yīng)用范圍并不限于所列舉的特定例子。在不偏離本發(fā)明的 精神實(shí)質(zhì)的前提下,系統(tǒng)的配置和實(shí)施過程可以有所改變。對自然語言內(nèi)容中信息量的定 量估算方法可以運(yùn)用到比上述列舉的領(lǐng)域更多的領(lǐng)域,包括非自然語言或人工語言,例如 計(jì)算機(jī)編程語言,或者任何一個(gè)符號系統(tǒng)。在自然語言的情況下,存在著各種各樣的句子結(jié) 構(gòu)和段落結(jié)構(gòu)。盡管上述描述中未將這類結(jié)構(gòu)全部列舉,本發(fā)明中描述的“客體+屬性”這 一信息結(jié)構(gòu)以及相應(yīng)的信息定量化方法可以運(yùn)用于任何類型的句子或段落結(jié)構(gòu)。上述技術(shù) 可以分開運(yùn)用,合適的情況下也可以合并使用。另外,關(guān)聯(lián)強(qiáng)度可以用連續(xù)數(shù)值的形式也可以用離散數(shù)值的形式來表達(dá)。關(guān)聯(lián)強(qiáng) 度的值可以在0到1的區(qū)間內(nèi),也可以在任何數(shù)值的區(qū)間內(nèi)。也應(yīng)當(dāng)指出,信息量指數(shù)可以 在和所舉例子不同的層次上加以定義。除了文件,段落,句子,詞組可以有信息量指數(shù)之外, 對任何詞字序列,或其它文字組合,都可以進(jìn)行信息量指數(shù)的定義和計(jì)算。
權(quán)利要求
對自然語言內(nèi)容中的信息進(jìn)行定量估算的方法,包括通過計(jì)算機(jī)處理系統(tǒng)獲取主題或客體名稱;通過計(jì)算機(jī)處理系統(tǒng)獲取含有自然語言文本的文件;通過計(jì)算機(jī)處理系統(tǒng)識(shí)別文件中的句子;通過計(jì)算機(jī)處理系統(tǒng)確定句子中的主語和謂語;從計(jì)算機(jī)存儲(chǔ)系統(tǒng)提取和客體相關(guān)聯(lián)的特定客體數(shù)據(jù)集,其中所述特定客體數(shù)據(jù)集包括多個(gè)屬性名稱和關(guān)聯(lián)強(qiáng)度值,每一屬性名稱和關(guān)聯(lián)強(qiáng)度值相關(guān)聯(lián);識(shí)別所述多個(gè)屬性名稱中和所述主語匹配的第一屬性名稱;將和第一屬性名稱相關(guān)聯(lián)的第一關(guān)聯(lián)強(qiáng)度值賦予所述主語;識(shí)別所述多個(gè)屬性名稱中和所述謂語匹配的第二屬性名稱;將和第二屬性名稱相關(guān)聯(lián)的第二關(guān)聯(lián)強(qiáng)度值賦予所述謂語;以及通過計(jì)算機(jī)處理系統(tǒng)將所述第一關(guān)聯(lián)強(qiáng)度值和第二關(guān)聯(lián)強(qiáng)度值相乘以產(chǎn)生句子信息量指數(shù),作為句子中含有的關(guān)于客體名稱的信息量的定量度量。
2.如權(quán)利要求1所述的方法,其特征在于,還包括使用所述句子信息量指數(shù)計(jì)算文件信息量指數(shù),其中所述文件信息量指數(shù)是文件中含 有的關(guān)于客體名稱的信息量的定量度量。
3.如權(quán)利要求2所述的方法,其特征在于,所述計(jì)算文件信息量指數(shù)的步驟包括計(jì)算文件中多個(gè)句子的句子信息量指數(shù),其中所述句子信息量指數(shù)對客體名稱是特定 的;和,以句子信息量指數(shù)之函數(shù)的方式計(jì)算文件信息量指數(shù)。
4.如權(quán)利要求3所述的方法,其特征在于,所述計(jì)算文件信息量指數(shù)的步驟包括 將句子信息量指數(shù)相加以產(chǎn)生文件信息量指數(shù)。
5.如權(quán)利要求2所述的方法,其特征在于,還包括 通過計(jì)算機(jī)處理系統(tǒng)獲取和客體名稱有關(guān)的搜索語句;計(jì)算多個(gè)文件的文件信息量指數(shù),其中每一個(gè)文件信息量指數(shù)是文件中含有的關(guān)于客 體名稱的信息量的定量度量;和對所述多個(gè)文件按各個(gè)文件的信息量指數(shù)進(jìn)行排序以產(chǎn)生和搜索語句相應(yīng)的搜索結(jié)果。
6.如權(quán)利要求2所述的方法,其特征在于,還包括 通過計(jì)算機(jī)處理系統(tǒng)獲取客體名稱以分類文件;計(jì)算多個(gè)文件的文件信息量指數(shù),其中每一個(gè)文件信息量指數(shù)是文件中含有的關(guān)于客 體名稱的信息量的定量度量;確定和所述客體名稱有關(guān)的文件類別的閾值;通過將各個(gè)文件信息量指數(shù)和所述閾值比較從所述多個(gè)文件中選擇一個(gè)或多個(gè)文件;并將所述一個(gè)或多個(gè)文件賦予所述文件類別。
7.如權(quán)利要求6所述的方法,其特征在于,還包括 確定和所述客體名稱有關(guān)的文件類別的閾值;若一個(gè)或多個(gè)文件的文件信息量指數(shù)超過或等于所述閾值,從所述多個(gè)文件中選擇所述一個(gè)或多個(gè)文件;將所述一個(gè)或多個(gè)文件賦予所述文件類別。
8.如權(quán)利要求1所述的方法,其特征在于,還包括若和主語或謂語匹配的屬性名稱未在所述特定客體數(shù)據(jù)集中的多個(gè)屬性名稱中被識(shí)另|J,將零值賦予句子信息量指數(shù)。
9.如權(quán)利要求1所述的方法,其特征在于,所述句子中的主語或謂語含有單字,字串, 詞組,或嵌入從句。
10.如權(quán)利要求1所述的方法,其特征在于,句子中的主語和謂語通過計(jì)算機(jī)處理系統(tǒng) 使用句法分析器確定。
11.如權(quán)利要求1所述的方法,其特征在于,所述客體名稱包括字,字序列,詞組,字符 串,搜索語句,搜索語句的子組份,主題,或文件類別的名稱。
12.如權(quán)利要求1所述的方法,其特征在于,所述識(shí)別文件中的句子的步驟包括 通過計(jì)算機(jī)處理系統(tǒng)識(shí)別文件中的復(fù)雜句;將復(fù)雜句分解成一個(gè)或多個(gè)簡單句,其中每一簡單句中的主語和謂語通過計(jì)算機(jī)處理 系統(tǒng)識(shí)別;計(jì)算所述一個(gè)或多個(gè)簡單句的句子信息量指數(shù);以及使用所述一個(gè)或多個(gè)簡單句的句子信息量指數(shù)計(jì)算復(fù)雜句的句子信息量指數(shù)。
13.發(fā)現(xiàn)和搜索語句相關(guān)的文本文件方法,包括 通過計(jì)算機(jī)處理系統(tǒng)獲取和客體名稱有關(guān)的搜索語句;通過計(jì)算機(jī)處理系統(tǒng)獲取多個(gè)文件,每一文件含有自然語言文本; 從計(jì)算機(jī)存儲(chǔ)系統(tǒng)提取和客體名稱相關(guān)聯(lián)的特定客體數(shù)據(jù)集,其中所述特定客體數(shù)據(jù) 集包括多個(gè)屬性名稱和關(guān)聯(lián)強(qiáng)度值,每一屬性名稱和關(guān)聯(lián)強(qiáng)度值相關(guān)聯(lián);計(jì)算所述多個(gè)文件中的每一個(gè)的文件信息量指數(shù),其中所述文件信息量指數(shù)是文件中 含有的關(guān)于客體名稱的信息量的定量度量;和對所述多個(gè)文件按各個(gè)文件的信息量指數(shù)進(jìn)行排序以產(chǎn)生和搜索語句相應(yīng)的搜索結(jié)果,其中計(jì)算文件信息量指數(shù)的步驟包括 通過計(jì)算機(jī)處理系統(tǒng)識(shí)別文件中的句子; 通過計(jì)算機(jī)處理系統(tǒng)確定句子中的主語和謂語;在所述特定客體數(shù)據(jù)集的多個(gè)屬性名稱中識(shí)別和所述主語匹配的第一屬性名稱;將和第一屬性名稱相關(guān)聯(lián)的第一關(guān)聯(lián)強(qiáng)度值賦予所述主語;在所述特定客體數(shù)據(jù)集的多個(gè)屬性名稱中識(shí)別和所述謂語匹配的第二屬性名稱;將和第二屬性名稱相關(guān)聯(lián)的第二關(guān)聯(lián)強(qiáng)度值賦予所述謂語;將所述第一關(guān)聯(lián)強(qiáng)度值和第二關(guān)聯(lián)強(qiáng)度值相乘以產(chǎn)生句子信息量指數(shù);以及使用所述句子信息量指數(shù)計(jì)算文件信息量指數(shù)。
14.如權(quán)利要求13所述的方法,其特征在于,通過將對在所述文件中識(shí)別的句子所計(jì) 算的句子信息量指數(shù)相加而計(jì)算所述文件信息量指數(shù)。
15.對自然語言文本文檔進(jìn)行分類的方法,包括通過計(jì)算機(jī)處理系統(tǒng)獲取用于文件分類的客體名稱;通過計(jì)算機(jī)處理系統(tǒng)獲取多個(gè)文件,每一文件含有自然語言文本; 從計(jì)算機(jī)存儲(chǔ)系統(tǒng)提取和客體名稱相關(guān)聯(lián)的特定客體數(shù)據(jù)集,其中所述特定客體數(shù)據(jù) 集包括多個(gè)屬性名稱和關(guān)聯(lián)強(qiáng)度值,每一屬性名稱和關(guān)聯(lián)強(qiáng)度值相關(guān)聯(lián);計(jì)算所述多個(gè)文件中的每一個(gè)的文件信息量指數(shù),其中所述文件信息量指數(shù)是文件中 含有的關(guān)于客體名稱的信息量的定量度量;使用各個(gè)文件信息量指數(shù)從所述多個(gè)文件中選擇和客體名稱有關(guān)的一個(gè)或多個(gè)文件;以及將所述一個(gè)或多個(gè)文件賦予和所述客體名稱相關(guān)的文件類別, 其中計(jì)算文件信息量指數(shù)的步驟包括 通過計(jì)算機(jī)處理系統(tǒng)識(shí)別文件中的句子; 通過計(jì)算機(jī)處理系統(tǒng)確定句子中的主語和謂語;在所述特定客體數(shù)據(jù)集的多個(gè)屬性名稱中識(shí)別和所述主語匹配的第一屬性名稱;將和第一屬性名稱相關(guān)聯(lián)的第一關(guān)聯(lián)強(qiáng)度值賦予所述主語;在所述特定客體數(shù)據(jù)集的多個(gè)屬性名稱中識(shí)別和所述謂語匹配的第二屬性名稱;將和第二屬性名稱相關(guān)聯(lián)的第二關(guān)聯(lián)強(qiáng)度值賦予所述謂語;將所述第一關(guān)聯(lián)強(qiáng)度值和第二關(guān)聯(lián)強(qiáng)度值相乘以產(chǎn)生句子信息量指數(shù);以及使用所述句子信息量指數(shù)計(jì)算文件信息量指數(shù)。
16.如權(quán)利要求15所述的方法,其特征在于,還包括 確定和所述客體名稱有關(guān)的文件類別的閾值;若一個(gè)或多個(gè)文件的文件信息量指數(shù)超過或等于所述閾值,從所述多個(gè)文件中選擇所 述一個(gè)或多個(gè)文件;將所述一個(gè)或多個(gè)文件賦予所述文件類別。
17.定量估算文本內(nèi)容中關(guān)于客體名稱的信息的方法,包括 通過計(jì)算機(jī)處理系統(tǒng)獲取客體名稱;從計(jì)算機(jī)存儲(chǔ)系統(tǒng)提取和客體名稱相關(guān)聯(lián)的特定客體數(shù)據(jù)集,其中所述特定客體數(shù)據(jù) 集包括多個(gè)屬性名稱和關(guān)聯(lián)強(qiáng)度值,每一屬性名稱和關(guān)聯(lián)強(qiáng)度值相關(guān)聯(lián); 通過計(jì)算機(jī)處理系統(tǒng)獲取自然語言文本內(nèi)容; 識(shí)別所述文本內(nèi)容中的句子;通過計(jì)算機(jī)處理系統(tǒng)識(shí)別所述句子中的多個(gè)組份子字符串; 在所述多個(gè)屬性名稱中搜索匹配所述組份子字符串中的至少一個(gè)的屬性名稱; 將和屬性名稱相關(guān)聯(lián)的關(guān)聯(lián)強(qiáng)度值賦予所述一個(gè)組份子字符串; 通過計(jì)算機(jī)處理系統(tǒng)對賦予句子中的組份子字符串的關(guān)聯(lián)強(qiáng)度值取平均值以產(chǎn)生句 子信息量指數(shù);以及使用所述句子信息量指數(shù)計(jì)算文本內(nèi)容的信息量指數(shù),其中所述信息量指數(shù)是所述文 本內(nèi)容中含有的關(guān)于客體名稱的信息量的定量度量。
18.對自然語言內(nèi)容中的信息進(jìn)行定量估算的系統(tǒng),包括設(shè)置為獲取客體名稱和含有自然語言文本的文件的計(jì)算機(jī)處理系統(tǒng);以及 和所述計(jì)算機(jī)處理系統(tǒng)通訊且設(shè)置為存儲(chǔ)和所述客體名稱相關(guān)的特定客體數(shù)據(jù)集的 計(jì)算機(jī)存儲(chǔ)系統(tǒng),其中所述特定客體數(shù)據(jù)集包括多個(gè)屬性名稱和關(guān)聯(lián)強(qiáng)度值,每一屬性名稱和關(guān)聯(lián)強(qiáng)度值相關(guān)聯(lián),其中所述計(jì)算機(jī)處理系統(tǒng)設(shè)置為識(shí)別文件中的句子,確定句子中的主語和謂語,在多 個(gè)屬性名稱中識(shí)別和所述主語匹配的第一屬性名稱,將和第一屬性名稱相關(guān)聯(lián)的第一關(guān)聯(lián) 強(qiáng)度值賦予所述主語,在多個(gè)屬性名稱中識(shí)別和所述謂語匹配的第二屬性名稱,將和第二 屬性名稱相關(guān)聯(lián)的第二關(guān)聯(lián)強(qiáng)度值賦予所述謂語;以及將所述第一關(guān)聯(lián)強(qiáng)度值和第二關(guān)聯(lián) 強(qiáng)度值相乘以產(chǎn)生句子信息量指數(shù)作為句子中含有的關(guān)于客體名稱的信息量的定量度量。
19.如權(quán)利要求18所述的系統(tǒng),其特征在于,所述計(jì)算機(jī)處理系統(tǒng)還設(shè)置為將所述句 子信息量指數(shù)用于計(jì)算文件信息量指數(shù),其中所述文件信息量指數(shù)是文件中含有的關(guān)于客 體名稱的信息量的定量度量。
20.如權(quán)利要求19所述的系統(tǒng),其特征在于,所述計(jì)算機(jī)處理系統(tǒng)還設(shè)置為將為文件 中的句子所計(jì)算的句子信息量指數(shù)相加以產(chǎn)生文件信息量指數(shù)。
全文摘要
本發(fā)明公開了一種對自然語言內(nèi)容中有關(guān)某個(gè)主題或客體的信息量進(jìn)行定量估算的方法。該方法包括識(shí)別文件中的句子,確定句子中的主語和謂語,和提取與客體名稱有關(guān)的特定客體數(shù)據(jù)集。所述特定客體數(shù)據(jù)集包括屬性名稱和關(guān)聯(lián)強(qiáng)度值。每一屬性名稱和關(guān)聯(lián)強(qiáng)度值相關(guān)聯(lián)。該方法也包括識(shí)別屬性名稱中和主語匹配的第一屬性名稱,將和第一屬性名稱相關(guān)聯(lián)的第一關(guān)聯(lián)強(qiáng)度值賦予所述主語,識(shí)別屬性名稱中和謂語匹配的第二屬性名稱,將和第二屬性名稱相關(guān)聯(lián)的第二關(guān)聯(lián)強(qiáng)度值賦予所述謂語,和將所述第一關(guān)聯(lián)強(qiáng)度值和第二關(guān)聯(lián)強(qiáng)度值相乘得到句子信息量指數(shù)。
文檔編號G06F17/27GK101814067SQ201010000239
公開日2010年8月25日 申請日期2010年1月5日 優(yōu)先權(quán)日2009年1月7日
發(fā)明者張光盛 申請人:張光盛