亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于從集群生成的模型來預測輸入數據的結果的制作方法

文檔序號:6455012閱讀:148來源:國知局
專利名稱:基于從集群生成的模型來預測輸入數據的結果的制作方法
技術領域
本發(fā)明涉及機器學習工具。具體地,本發(fā)明涉及利用片段和字群集
(segment and character clustering)來限制機器學習工具生成準確模型所需 要的訓練數據量。
背景技術
機器學習工具(MLT)可以用于識別或預測模式(pattern)。例如, MLT可以學習預測書面文本中的特定詞(word)是人名或地名。作為另一 示例,MLT可以學習預測特定記錄在給定數據集中的位置。更具體地, MLT可以學習預測公司名稱記錄在工作列表中的位置。機器學習工具可以 學習預測許多其他類型的模式。
訓練數據通常用于提供模式,MLT從這些模式中學習預測模式在其他 數據("輸入數據")中的存在。訓練數據中的模式可以包括被映射到 "指定結果"的"輸入"。輸入可以是訓練數據中的任何要素。指定結果 可以是與輸入相關聯(lián)的標簽。通常,人為地提供指定結果。例如,人為地 標記訓練數據中的詞("輸入")以指示特定詞是"命名實體(named entity)",例如人名、地名或者某種其他命名實體?;谳斎牒椭付ńY 果,MLT逐漸發(fā)展了一種模型,該模型可以用于預測不具有指定結果的輸 入數據的結果。作為具體示例,MLT學習從輸入數據中提取命名實體。作 為另一示例,MLT學習確定或預測諸如公司名稱字段之類的特定類型的記 錄位于輸入數據中的何處。
因為訓練數據提供用于教導MLT的模式,所以由MLT所生成的模型 的準確度受訓練數據的性質影響。如果訓練數據包括更多的模式或更好的 模式,那么MLT能夠生成更準確的模型。因為訓練數據通常是手動生成 的,所以產生訓練數據可能是高代價的。此外,獲得足夠的訓練數據使MLT生成準確模型通常存在問題。具體地,對于許多語言,缺少足夠的訓 練數據。作為具體示例,對于漢語,缺少足夠的訓練數據。然而,為MLT 提供足夠數量和質量的訓練數據的問題對于所有語言均存在。
因此,需要基于有限的訓練數據量,禾IJ用MLT來生成準確的模型。、 在該部分中描述的方法是可能被研究過的方法,但不一定是之前已經 被想到或者被研究過的方法。因此,除非以其他方式指出,否則不應僅因 為它們被包括在該部分中,就假設在該部分中描述的任何方法是現(xiàn)有技 術。


在附圖的各圖中,通過示例而非限制來示出本發(fā)明,并且其中相似標
號指代類似元件,其中
圖l是根據本發(fā)明實施例的利用片段集群(segment cluster)和字集群 (character cluster)來擴充訓練數據的體系結構概述,MLT從所述訓練數 據生成用于預測結果的模型。
圖2是根據本發(fā)明實施例的基于相關字的集群來生成模型并且應用該 模型來確定預測結果的過程。
圖3是根據本發(fā)明實施例的將片段集群和字集群用于確定詞片段并提 取命名實體的過程。
圖4是示出其上可以實現(xiàn)本發(fā)明實施例的計算機系統(tǒng)的框圖。
具體實施例方式
在以下的描述中,出于說明的目的,為了提供對本發(fā)明的全面理解而 提出了大量具體細節(jié)。然而,應理解,可以在沒有這些具體細節(jié)的情況下 實踐本發(fā)明。在其他實例中,為了避免不必要地使本發(fā)明模糊,以框圖的 形式示出熟知的結構和設備。
概述
公開了用于預測輸入數據的結果的技術。預測結果是基于模型而被預測的。模型由MLT基于訓練數據來生成。然而,除訓練數據外,模型還
考慮與(1)相關字集群和/或(2)相關片段集群相對應的特征。通過考慮與相關字集群和/或相關片段集群相對應的特征,MLT能夠利用相同的訓練數據來產生更好的模型。產生更好的模型最終使得產生更準確的預測結果。以下將更詳細地描述相關字集群、相關片段集群以及可以如何使用它們來生成模型。
體系結構概述
圖1是根據本發(fā)明實施例的利用片段集群和字集群來擴充訓練數據以使得MLT生成用于預測結果的模型的結構概述。訓練數據115、字集群140和片段集群145被輸入到MLT 110中,MLT IIO從這些輸入中學習,從而確定模型132。模型132用于預測輸入數據150的結果。
訓練數據
訓練數據115包含模式,MLT 110從這些模式中學習以生成模型132。在一個實施例中,訓練數據115包含訓練項以及訓練項的指定結果。例如,訓練項可以是漢字,并且指定結果可以指定字的分類。例如,訓練數據可以指示一個漢字是地名。訓練數據可以指示另一個漢字是人名。訓練數據可以指示又一個漢字不是任何類型的命名實體。
在一個實施例中,字的指定結果可以指示該字是否是人名或地名的至少一部分。字的指定結果也可以指示該字是命名實體的開頭。對命名實體中其他字的指定結果可以指示其他字是命名實體的除開頭外的一部分。
在一個實施例中,訓練數據115包含詞之間的邊界不太容易辨別的語言文本。例如,訓練數據115可以是中文文本。在中文文本中,屬于同一個詞的字之間的間隔與屬于不同詞的字之間的間隔相同。當相關的字之間的邊界不容易辨別時,訓練數據115被稱作未經分段的數據。中文文本僅是如下情況的一個示例訓練數據115包含未明確定義詞邊界的文本。在該示例中,可以用指示字是否是詞的開頭的指定結果來標記該字。
MLT 110能夠僅基于訓練數據115來生成模型132。然而,如將在下文中更詳細地描述的,片段集群145和/或字集群140被用于改善模型132的準確度,而無需增大訓練數據115的大小。
'原始數據
在一個實施例中,從原始數據120中直接或間接地生成片段集群145和字集群140。與訓練數據115不同,原始數據120并不包括指定結果。換言之,不必人為地在原始數據120中放置標簽。因此,可以從任何便利的源來收集原始數據120。此外,因為不需要任何的手動標記,所以原始數據120可以是非常大的文集。
原始數據120可以是未經分段的數據。例如,在一個實施例中,原始數據120中相關字之間的邊界不太容易辨別。作為一個示例,原始數據120可以是中文文本。更一般地,未經分段的原始數據120可以是詞的邊界未被明確定義的任何文本。也可以使用經片段的原始數據120。例如,在一個實施例中,原始數據120中相關字之間的邊界可容易地辨別。
相關片段集群
在原始數據120是未經分段的數據的情況下,分段器(segmentor)125用于對原始數據120進行分段以將原始數據120劃分為片段。這些片段被總地示出為經分段的(segmented)數據128。通常,片段是一串以某種方式相關的一個或多個字的串。片段可以與詞相對應,然而并不要求如此。
由群集工具130從經分段的數據128形成片段集群145。片段集群145包括兩個或更多個相關的片段。例如,群集工具130對經分段的數據128進行分析以確定經分段的數據128中可能在上下文上彼此相關的片段。如果片段是詞,那么在給出它們在經分段的數據128中如何出現(xiàn)的情況下,片段集群145是一組彼此相關的詞。在一個實施例中,利用分布式詞群集技術(distributional word clustering technique)來生成片段集群145。
片段集群可以通過通常被稱作"硬群集"或"軟群集"的技術來生成。在硬群集中,每個特定片段被指派(assign)給一個集群。在軟群集中,特定片段可以被指派給多個不同集群。此外,通過軟群集,概率可以被指派給片段,如下所述。如果特定片段被指派給"n"個不同的集群,那么概率被指派給n個集群的每一個中的該片段。在一個實施例中,群集基于分布式詞群集。
相關字集群
由群集工具130從原始數據120形成字集群140。每個字集群包括一組相關的字。在一個實施例中,利用群集工具130來生成字集群140。群集工具130可以通過將原始數據120中的各個字視為不同的詞,利用分布式詞群集技術來生成字集群140。
與片段集群類似,字集群可以通過"硬群集"或者通過"軟群集"來生成。在硬群集中,每個特定的字被指派給一個集群。在軟群集中,特定的字可以被指派給多個不同的集群。與片段集群類似,通過對字進行軟群集,概率可以被指派給字。
基于集群向訓練數據應用特征在一個實施例中,MLT 110基于字集群140和/或片段集群145向訓練數據115 "應用特征"。具體地,對于訓練數據中的每個訓練項,MLT110確定訓練項與字集群和/或片段集群的哪些相匹配。訓練項與之相匹配的集群被認為是該訓練項的"特征"。訓練項可以與多個集群相匹配,因此可以具有多個特征。MLT 110也可以基于其他因素向訓練數據應用特征。
模型132是基于特征的。例如,MLT 110分析特征和指定結果以確定模型132。在一個實施例中,MLT 110使用"條件隨機場(conditionalrandom field )"來生成模型132 。在"Conditional random fields:Probabilistic models for segmenting and labeling sequence data" (Lafferty, J.,McCallum, A., Pereira, F.). In: Proc. 18th International Conf. on MachineLearning, Morgan Kaufmann, San Francisco, CA (2001) 282-289中描述了條件隨機場。在一個實施例中,MLT 110使用"最大熵建模"。在"A Maximum Entropy Approach to Natural Language Processing", (Adam Berger, Stephen Delia Pietra, Vincent Delia Pietra), Computational Linguistics, 22 (1) 中描述了最大熵建模。'在一個實施例中,MLT U0是支持向量機。在"Text Categorization with Support Vector Machines: Learning with Many Relevant Features", (T. Joachims). Proceedings of the European Conference Machine Learning, Springer, 1998中描述了支持向量機。
基于集群向輸入數據應用特征
輸入數據150是將由MLT 110基于MLT 110應用于輸入數據150的 特征和模型132來進行處理的數據。輸入數據150包含輸入項。MLT 110 基于字集群140和/或片段集群145向輸入項應用特征。
在一個實施例中,輸入數據150是未經分段的數據。例如,輸入數據 150可能是中文文本。輸入項可以是單個漢字。在一個實施例中,MLT 110確定輸入項與字集群和/或片段集群的哪些相匹配。輸入項與之匹配的 集群被認為是輸入項的"特征"。輸入項可以與多個集群相匹配,因此可 以具有多個特征。
在一個實施例中,在將特征應用于未經分段的數據中的輸入項之前, MLT 110可以對輸入數據進行解析(parse)以生成經解析的輸入項。例 如,輸入數據150可能是漢字。在該實施例中,MLT 110將輸入數據150 分段為詞。對于每個經解析的輸入項,MLT 110確定經解析的輸入項與字 集群和/或片段集群的哪些相匹配。經解析的輸入項與之匹配的集群被認為 是該經解析的輸入項的"特征"。經解析的輸入項可以與多個集群相匹 配,因此可以具有多個特征。
預測輸入數據的結果 MLT 110將模型132應用于特征以確定來自輸入數據150的經解析的 輸入項的預測結果160。預測結果160是對為輸入數據150中經解析的輸 入項指定了什么結果的預測。通常,經解析的輸入項與訓練項共有的特征越多,則越有可能是應當將為該訓練項指定的結果指定給該經解析的輸入 項。
在一種簡單情況下,經解析的輸入項將與訓練設定項相同,因此MLT 110將與該訓練設定項的指定結果相同的預測結果指派給該經解析的輸入 項。在更復雜的情況下,輸入項可能與任何的訓練設定項都不匹配。在這 些情況下,MLT 110可以將與如下的訓練設定項的指定結果相同的預測結 果指派給經解析的輸入項該訓練設定項與該經解析的輸入項共有最多的 特征。
通常,預測結果將利用以前被用作手動地對訓練設定項進行分類的 "指定結果"的相同分類來對經解析的輸入項進行分類。例如,如果指定 結果以前指示了哪些訓練設定項是"命名實體",那么預測結果160可以 指示哪些經解析的輸入項可能是"命名實體"。
向訓練項和輸入項應用特征并且基于特征來預測結果的示例
A)基于字集群
基于字集群,提供以下示例來說明可以如何將特征指派給訓練數據 115中的訓練項和輸入數據150,以及可以如何利用特征來預測輸入數據 150的結果。對于該示例,字集群1包括字"X" 、 "A"和"Q";字集 群2包括字"Y" 、 "F"和"L";字集群3包括字"Z"和"B"。訓練 數據115具有訓練項"X" 、 "Y"和"Z"。輸入數據150具有輸入項 "A" 、 "F"和"B"。訓練數據中的訓練項"X"具有指定結果"命名 實體的開頭"。訓練數據中的訓練項"Y"具有指定結果"除開頭外的命 名實體"。訓練數據中的訓練項"Z"在該示例中不具有指定結果。
MLT 110將特征"字集群1"應用于訓練數據115中的訓練項 "X",并將特征"字集群3"應用于訓練數據115中的訓練項"Y"?;?于示例性字集群,沒有給訓練數據115中的訓練項"Z"指派特征。
MLT 110將特征"字集群1"應用于輸入數據150中的輸入項 "A",并且將特征"字集群2"應用于輸入數據150中的輸入項"F"。 基于示例性字集群,沒有給輸入數據150中的輸入項"B"指派特征?;谒概傻奶卣?字集群1" , MLT 110為輸入項"A"預測"命 名實體的開頭"的結果。也就是,在該示例中,MLT 110預測輸入項 "A"應該與訓練數據中的訓練項"X"具有相同的結果。基于所指派的 特征"字集群'2" , MLT 110為輸入項"F"預測"除幵頭外的命名實 體"的結果。也就是,在該示例中,MLT 110預測輸入項"F"應該與訓 練數據中的訓練項"Y"具有相同的結果。MLT 110預測輸入"B"不是 命名實體的一部分?;谶@些預測,MLT110預測輸入項"A"和"F"的 組合是命名實體。
B)基于片段集群 基于片段集群,提供以下示例來說明可以如何將特征指派給訓練數據 115中的訓練項和輸入數據150,以及可以如何利用特征來預測輸入數據 150的結果。對于該示例,片段集群1包括片段"AB"以及其他片段;片 段集群2包括片段"ABCD"以及其他片段。訓練數據115具有訓練項序 歹U "ABCDEF"。
MLT 110確定將應用于訓練數據中的訓練項"A"的特征,如下所 述。MLT 110檢査以"A"開始的訓練項的串,并且判定是否有任何片段 集群具有與訓練項的任何串的片段匹配。如果找到了多個片段匹配,那么
將與最長片段相關聯(lián)的特征指派給訓練項"A"。因此,MLT 110確定片 段"AB"在片段集群1中并且片段"ABCD"在片段集群2中。MLT 110 將特征"片段集群2"應用于訓練項"A",因為這是最長的片段。
接下來,MLT 110基于片段集群向訓練數據115中的"B"應用特 征。MLT 110還基于片段集群向輸入數據150中的輸入項應用特征。此 外,MLT 110基于以前根據片段集群而指派的特征,來為輸入數據150中 的輸入項預測結果。
一般過程
圖2是根據本發(fā)明實施例的、基于相關字的集群來生成模型并且應用 模型132來確定預測結果160的過程200。將聯(lián)系圖1的體系結構來討論過程200。然而,過程200并不因此受限。
步驟202是接收包括特定語言的詞的原始數據120。如之前所討論 的,原始數據120可以是未經分段的。作為示例,原始數據120包括漢語 的字。
步驟204是從原始數據120生成相關字的集群。作為示例,基于對原 始數據120的分析,特定字集群140包含在某種程度上相關的不同的字。
步驟206是基于相關字的集群以及訓練數據115來生成模型132。生 成模型132的步驟包括基于相關字的集群向訓練數據115中的字應用特 征。例如,將標識特定字集群140的特征指派給訓練數據115中的特定 字。更具體地,指派可以基于這樣的確定特定字是特定字集群140的成 員。
也可以基于片段集群145向訓練數據中的字指派特征。以下描述用于 這此的一種技術。檢查訓練數據115中是否存在與一個或多個片段集群 145中的片段相匹配的片段。當找到了片段匹配時,將標識具有該片段的 一個或多個片段集群145的特征指派給訓練數據115中的該片段的一個或 多個字。在一個實施例中,將所述特征指派給訓練數據115中的所述片段 的第一個字。然而,更一般地,可以基于具有相匹配的片段的片段集群 145來將特征指派給訓練數據中的片段的任何一個字。
可以將許多其他類型的特征指派給訓練數據中的字,這些特征中的一 些可以基于指定結果。例如,可以基于字是詞的開頭的指定結果,向該字 指派特征。作為另一示例,可以基于字與命名實體相關聯(lián)的指定結果,向 該字指派特征。可以將許多其他類型的特征指派給字。
步驟208是接收一組輸入數據150。輸入數據150可以是未經分段的 數據。例如,輸入數據150可以是其中詞并不被明顯劃界的語言文本,例 如中文。
步驟210是將模型132應用于輸入數據150以確定輸入數據150內的 字的預測結果160。應用模型132的步驟包括基于相關字的集群向輸入數 據150中的字應用特征。所應用的特征通常是以前被應用于訓練數據115 的字的相同特征。被應用于輸入數據中的字的特征之一標識特定字集群140。例如,如果字被確定為特定字集群140中的成員,那么標識該字集 群140的特征被應用于該字。
被應用于輸入數據150中的字的另一特征標識特定片段集群145???以與如上所述的用于將標識特定字集群140的特征應用于輸入數據150中 的字的技術類似地,來執(zhí)行將標識特定片段集群145的特征應用于輸入數 據150中的字。
基于字集群140和/或片段集群145來應用特征可以改善預測的準確 度,因為MLT110具有預測結果所依據的更多信息。
在將特征應用于輸入數據150中的字之后,MLT IIO至少基于這些特 征來預測結果。作為示例,MLT IIO預測輸入數據150中的詞片段邊界。 更具體地,MLT 110可以基于指派給字的特征,判定哪些字是詞的開頭以 及哪些字不是詞的開頭。作為另一示例,MLT IIO預測輸入數據150中的 命名實體。更具體地,MLT 110可以基于指派給字的特征,判定一組的一 個或多個字與命名實體相關聯(lián)。因為命名實體可能包括多個字,所以MLT 110可以檢查若干個字來預測命名實體。例如,MLT 110可以預測第一個 字是命名實體的開頭并且第一個字之后的兩個字是除開頭外的命名實體的 一部分。
示例性過程
圖3是根據本發(fā)明實施例的、利用片段集群和字集群來在一些輸入數 據150中確定詞片段并提取命名實體的過程300。將聯(lián)系圖1的體系結構 來討論過程300。然而,過程300并不因此受限。步驟302是對原始數據 120的集合進行分段以生成經分段的數據128的集合。片段包括一個或多 個字。經分段的數據128中的特定片段可以或者可以不與詞相對應。
步驟304是從經分段的數據128生成相關片段的集群。相關片段可以 或者可以不與詞相對應。用于生成片段集群145的一種技術是分布式詞群 集;然而也可以使用其他技術。
步驟306是從原始數據120或經分段的數據128生成相關字的集群。 用于生成字集群140的一種技術是分布式詞群集;然而也可以使用其他技術。當利用分布式詞群集來生成字集群140時,可以將字視為詞。
步驟308是至少基于片段集群145和字集群140,向訓練數據115中 的字應用特征。步驟308可以包括與在過程200的步驟206中所討論的技 術類似的技術。過程300并不局限于將特征僅應用于字。
步驟310是至少基于片段集群145和字集群140,向輸入數據150中 的字應用特征。為說明起見,假設輸入數據150是未經分段的。因此,在 該實施例中,特征被應用于輸入數據150的字。然而,如下文中所討論 的,可以將特征指派給片段。
步驟312是將輸入數據150分段為詞并從輸入數據150中提取命名實 體。步驟312基于以前被應用于字的特征。MLT IIO基于所述特征來確定 字的預測結果。為了對輸入數據150進行分段,MLT IIO預測每個字是否 是詞的開頭。為了提取命名實體,MLT 110預測哪些字與命名實體相關聯(lián) 并且分析對相鄰字的預測。
向片段指派特征
過程200和過程300描述了其中特征被應用于訓練數據115和輸入數 據150中的字的實施例。特征也可以被應用于訓練數據115和輸入數據 150中的片段。如之前所討論的,訓練數據115可以包含指示哪些字構成 詞的信息。因此,特征可以被應用于訓練數據115中的詞。更一般地,特 征可以被應用于訓練數據115中的片段,這些片段可以或者可以不對應于 詞。
在一個實施例中,將標識特定片段集群145的特征指派給訓練數據 115中的特定片段。更具體地,指派可以基于這樣的確定訓練數據115 中的特定片段是特定片段集群145的成員。如果訓練數據115被分段為 詞,那么特定片段可以是詞。然而,在任何語言中,片段并非必須與詞相 對應。
此外,特征可以被應用于輸入數據150的片段。輸入數據150可能通 過應用過程300來對輸入數據150進行分段而已經被分段??商娲?,輸 入數據150可以通過任何其他技術而已經被分段。輸入可以被先天地(inherently)分段,例如英文文本的詞。在一個實施例中,基于如下的確 定將特征指派給輸入數據中的片段所述確定即輸入數據中的特定片段是 特定片段集群145的成員。因此,預測輸入數據150的結果可以基于被應 用于輸入數據中的片段和/或字的特征。
硬件概述
圖4是示出其上可以實現(xiàn)本發(fā)明實施例的計算機系統(tǒng)400的框圖。計 算機系統(tǒng)400包括總線402或者用于傳送信息的其他通信機制,以及與總 線402耦合的用于處理信息的處理器404。計算機系統(tǒng)400還包括耦合到 總線402的用于存儲信息和將由處理器404執(zhí)行的指令的主存儲器406, 例如隨機存取存儲器(RAM)或者其他動態(tài)存儲設備。主存儲器406還可 以用于在將由處理器404執(zhí)行的指令的執(zhí)行期間存儲臨時變量或者其他中 間信息。計算機系統(tǒng)400還包括耦合到總線402的用于為處理器404存儲 靜態(tài)信息和指令的只讀存儲器(RAM) 408或者其他靜態(tài)存儲設備。諸如 磁盤或光盤之類的存儲設備410被設置并耦合到總線402,用于存儲信息 和指令。
計算機系統(tǒng)400可以經由總線402耦合到諸如陰極射線管(CRT)之 類的顯示器412,該顯示器412用于向計算機用戶顯示信息。包括字母數 字以及其他鍵的輸入設備414被耦合到總線402,用于向處理器404傳送 信息和命令選擇。另一類型的用戶輸入設備是光標控制器416,例如鼠 標、軌跡球或光標方向鍵,用于向處理器404傳送方向信息和命令選擇并 且用于控制光標在顯示器412上的運動。該輸入設備通常在兩個軸(第一 軸(例如,x)和第二軸(例如,y))上具有兩個自由度,這使得設備能 夠在平面上指定位置。
本發(fā)明涉及將計算機系統(tǒng)400用于實現(xiàn)在此描述的技術。根據本發(fā)明 的一個實施例,響應于處理器404執(zhí)行主存儲器406中所包含的一個或多 個指令的一個或多個序列,由計算機系統(tǒng)400來執(zhí)行那些技術。這樣的指 令可以從諸如存儲設備410之類的另一機器可讀介質被讀取到主存儲器 406中。執(zhí)行主存儲器406中所包含的指令序列使得處理器404執(zhí)行在此描述的處理步驟。在替代實施例中,可以使用硬連線電路來替代軟件指令 或者與軟件指令相結合地使用硬線電路來實現(xiàn)本發(fā)明。因此,本發(fā)明的實 施例并不局限于硬件電路和軟件的任一種特定組合。
這里使用的術語"機器可讀介質"指參與提供使得機器以特定方式進 行操作的數據的任何介質。在利用計算機系統(tǒng)400所實現(xiàn)的實施例中,例
如在向處理器404提供用以執(zhí)行的指令時涉及各種機器可讀介質。這樣的
介質可以采用多種形式,包括但并不局限于非易失性介質、易失性介質
以及傳輸介質。非易失性介質例如包括諸如存儲設備410之類的光盤或磁 盤。易失性介質包括諸如主存儲器406之類的動態(tài)存儲器。傳輸介質包括 同軸電纜、銅線和光纖,包括構成總線402的導線。傳輸介質還可以采用 聲波或光波的形式,例如在無線電波和紅外數據通信期間所生成的那些 波。所有這些介質必須是有形的以使得由介質所運載的指令能夠被將指令 讀取到機器中的物理機制檢測到。
機器可讀介質的常見形式例如包括軟盤、柔性盤、硬盤、磁帶或任何 其他磁性介質,CD-ROM、任何其他光學介質,穿孔卡、紙帶、任何其他 具有孔圖案的物理介質,RAM、 PROM、 EPROM、 FLASH-EPROM、任 何其他存儲器芯片或匣(cartridge),下文所述的載波,或者計算機能夠 對其進行讀取的任何其他介質。
在將一個或多個指令的一個或多個序列運載到處理器404以供處理 時,可以涉及各種形式的機器可讀介質。例如,指令可能最初被運載在遠 程計算機的磁盤上。遠程計算機可以將指令裝載到其動態(tài)存儲器中并且利 用調制解調器經由電話線來發(fā)送指令。計算機系統(tǒng)400的本地調制解調器 可以接收到電話線上的數據并且使用紅外發(fā)射機將數據轉換為紅外信號。 紅外檢測器可以接收到在紅外信號中運載的數據,并且適當的電路可以將 數據置于總線402上??偩€402將數據運載到主存儲器406,處理器404 從主存儲器406取回并執(zhí)行指令。由主存儲器406接收到的指令可以選擇 性地在由處理器404執(zhí)行之前或之后被存儲在存儲設備410上。
計算機系統(tǒng)400還包括耦合到總線402的通信接口 418。通信接口 418提供耦合到網絡鏈路420的雙向數據通信,網絡鏈路420連接到局域網422。例如,通信接口 418可以是綜合業(yè)務數字網(ISDN)卡或者調制 解調器,用于向相應類型的電話線提供數據通信連接。作為另一示例,通 信接口 418可以是局域網(LAN)卡,用于向兼容的LAN提供數據通信 連接。無線鏈路也可以被實現(xiàn)。在任一種這樣的實現(xiàn)中,通信接口 418發(fā) 送和接收電、電磁或光信號,這些信號運載代表各種類型信息的數字數據 流。
網絡鏈路420通常提供通過一個或多個網絡而與其他數據設備的數據 通信。例如,網絡鏈路420可以提供通過局域網422而與主機計算機424 或者與由因特網服務供應商(ISP) 426所操作的數據設備的連接。ISP426 又通過現(xiàn)在一般被稱作"因特網"的萬維分組數據通信網428來提供數據 通信服務。局域網422和因特網428均使用運載數字數據流的電、電磁或 光信號。通過各種網絡的信號以及在網絡鏈路420上并且通過通信接口 418的信號運載去往和來自計算機系統(tǒng)400的數字數據,這些信號是傳送 信息的載波的示例性形式。
計算機系統(tǒng)400可以通過(一個或多個)網絡、網絡鏈路420和通信 接口 418發(fā)送消息并接收數據,包括程序代碼。在因特網的示例中,服務 器430可以通過因特網428、 ISP 426、局域網422和通信接口 418發(fā)送應 用程序的請求碼。
所接收到的代碼可以在其被接收到時被處理器404執(zhí)行,并且/或者被 存儲在存儲設備410或其他非易失性存儲器中以備隨后執(zhí)行。以這種方 式,計算機系統(tǒng)400可以以載波的形式獲得應用碼。
在以上的說明書中,已經通過參考可能隨實現(xiàn)方式的不同而不同的大 量具體細節(jié)描述了本發(fā)明的實施例。因此,本發(fā)明是什么以及申請人希望 本發(fā)明是什么的唯一且排他的指標是從本申請發(fā)布的權利要求組,該權利 要求組具有如下的具體形式,其中權利要求的發(fā)布包括任何后續(xù)的修正。 針對這樣的權利要求中所包含的術語而在此清楚提出的任何定義將決定在 權利要求中所使用的這些術語的含義。因此,未清楚記載在權利要求中的 限制、要素、屬性、特征、優(yōu)點或屬性不會以任何方式限制這些權利要求 的范圍。因此,將說明書和附圖視為說明性的而非限制性的。
權利要求
1. 一種包括執(zhí)行涉及指令的由機器執(zhí)行的操作的方法,其中所述由機器執(zhí)行的操作是以下操作中的至少一個A)通過傳輸介質發(fā)送所述指令;B)通過傳輸介質接收所述指令;C)將所述指令存儲到機器可讀存儲介質上;以及D)執(zhí)行所述指令;其中,所述指令是當被一個或多個處理器執(zhí)行時使所述一個或多個處理器執(zhí)行以下步驟的指令接收包括特定語言的多個詞的數據集,其中,在所述特定語言中,詞是由字構成的;從所述數據集生成相關字的集群;至少基于以下各項來生成模型所述相關字的集群;以及包括多個條目的訓練數據,其中每個條目包括字和該字的指定結果;接收一組輸入數據,其中,所述輸入數據包括尚未與指定結果相關聯(lián)的字,以及將所述模型應用于所述輸入數據以確定所述輸入數據內的字的預測結果。
2. 如權利要求1所述的方法,其中,生成所述模型的步驟包括基于所 述相關字的集群,向所述訓練數據中的字應用特征。
3. 如權利要求2所述的方法,其中,向所述訓練數據中的字應用特征 的步驟包括將標識相關字的特定集群的特征指派給所述訓練數據中的特定 字。
4. 如權利要求3所述的方法,其中,所述特定字是所述特定集群的成員。
5. 如權利要求1所述的方法,其中,應用所述模型的步驟包括基于所述相關字的集群,向所述輸入數據中的字應用特征。
6. 如權利要求5所述的方法,其中,向所述輸入數據應用所述模型的 步驟包括至少基于被應用于所述輸入數據中的字的特征來確定預測結果。
7. 如權利要求5所述的方法,其中,向所述輸入數據中的字應用特征的步驟包括將標識相關字的特定集群的特征指派給所述輸入數據中的特定 字。
8. 如權利要求7所述的方法,其中,所述輸入數據中的所述特定字是 所述特定集群的成員。
9. 如權利要求1所述的方法,其中,生成相關字的集群的步驟包括使 特定字與多于一個所述集群相關聯(lián)。
10. 如權利要求1所述的方法,其中,生成相關字的集群的步驟包括 生成特定字和特定集群之間的一對一的映射。
11. 如權利要求1所述的方法,其中,從所述數據集生成相關字的集 群的步驟包括使用分布式詞群集。
12. 如權利要求1所述的方法,其中,所述指令還包括用于以下步驟 的指令從所述數據集生成包括一個或多個字的相關片段的集群,其中,所述 片段中的至少一個包括多個字,并且其中,生成所述模型的步驟還基于所述相關片段的集群。
13. 如權利要求12所述的方法,其中,生成所述模型的步驟包括基于 所述相關片段的集群和所述相關字的集群,向所述訓練數據中的字應用特 征。
14. 如權利要求13所述的方法,其中,向所述訓練數據中的字應用特 征的步驟包括向所述訓練數據中的特定字應用特征以指示所述特定字是相 關片段的特定集群的成員。
15. 如權利要求13所述的方法,其中,應用所述模型的步驟包括將與 所述相關片段的集群的特定集群相關聯(lián)的特征指派給所述輸入數據中的 字。
16. 如權利要求12所述的方法,其中,所述指令還包括用于在從所述數據集生成相關片段的集群的步驟之前將所述數據集分段為片段的指令。
17. 如權利要求12所述的方法,其中,從所述數據集生成相關片段的字的步驟包括使特定片段與多于一個所述集群相關聯(lián)。
18. 如權利要求12所述的方法,其中,生成相關片段的集群的步驟包 括生成特定片段和特定集群之間的一對一的映射。
19. 如權利要求1所述的方法,其中,所述預測結果中的至少一個是所述輸入數據集中的字是詞邊界。
20. 如權利要求1所述的方法,其中,所述預測結果中的至少一個是所述輸入數據集中的字與命名實體相關聯(lián)。
21. —種包括執(zhí)行涉及指令的由機器執(zhí)行的操作的方法,其中所述由機器執(zhí)行的操作是以下操作中的至少一個A) 通過傳輸介質發(fā)送所述指令;B) 通過傳輸介質接收所述指令;C) 將所述指令存儲到機器可讀存儲介質上;以及D) 執(zhí)行所述指令;其中,所述指令是當被一個或多個處理器執(zhí)行時使所述一個或多個處 理器執(zhí)行以下步驟的指令接收包括特定語言的多個詞的數據集,所述數據集不包括對所述 多個詞之間的邊界的指示;對所述數據集進行分段以生成經分段的數據集; 從所述經分段的數據集生成相關片段的集群; 至少基于以下各項來生成模型 所述相關片段的集群;以及包括多個條目的訓練數據,其中,每個條目包括一個或多個 字的片段和所述片段的指定結果;接收一組輸入數據,其中,所述輸入數據包括尚未與指定結果相 關聯(lián)的一個或多個字的片段,以及將所述模型應用于所述輸入數據以確定所述輸入數據內的片段的 預測結果。
22. 如權利要求21所述的方法,其中,所述訓練數據中的每個片段包 括多于一個字。
23. 如權利要求21所述的方法,其中,所述訓練數據中的每個片段包 括單個字。 '
24. 如權利要求21所述的方法,其中,所述輸入數據中的每個片段包 括多于一個字。
25. 如權利要求21所述的方法,其中,所述輸入數據中的每個片段包 括單個字。
26. 如權利要求21所述的方法,其中,生成所述模型的步驟包括基于 所述相關片段的集群,向所述訓練數據中的片段應用特征。
27. 如權利要求21所述的方法,其中,向所述訓練數據中的片段應用 特征的步驟包括向所述訓練數據中的特定片段應用特征以指示所述特定片 段是相關片段的特定集群的成員。
28. 如權利要求21所述的方法,其中,應用所述模型的步驟包括將與 所述相關片段的集群的特定集群相關聯(lián)的特征指派給所述輸入數據中的片 段。
29. 如權利要求21所述的方法,其中,從所述數據集生成相關片段的 字的步驟包括使特定片段與多于一個所述集群相關聯(lián)。
30. 如權利要求21所述的方法,其中,生成相關片段的集群的步驟包 括生成特定片段和特定集群之間的一對一的映射。
31. 如權利要求21所述的方法,其中,所述預測結果中的至少一個 是所述輸入數據集中的片段是詞邊界。
32. 如權利要求21所述的方法,其中,所述預測結果中的至少一個 是所述輸入數據集中的片段與命名實體相關聯(lián)。
全文摘要
一種基于模型來預測輸入數據的結果的方法,所述模型是基于相關字的集群、相關片段的集群和訓練數據而被生成的。該方法包括接收含特定語言的多個詞的數據集。在該特定語言中,詞是由字構成的。相關字的集群是從數據集生成的。模型是至少基于相關字的集群和訓練數據而被生成的。該模型還可以基于相關片段的集群。訓練數據包括多個條目,其中每個條目包括字和該字的指定結果。包括尚未與指定結果相關聯(lián)的字的一組輸入數據被接收。該模型被應用于輸入數據以確定輸入數據內的字的預測結果。
文檔編號G06F15/18GK101460941SQ200780020357
公開日2009年6月17日 申請日期2007年5月30日 優(yōu)先權日2006年6月1日
發(fā)明者彭富春 申請人:雅虎公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1