語(yǔ)言無(wú)關(guān)的概率內(nèi)容匹配的制作方法
【專利摘要】?jī)?nèi)容被接收,并針對(duì)用于標(biāo)識(shí)一類型的內(nèi)容的規(guī)則來(lái)進(jìn)行比較。每一規(guī)則具有分割和非分割的模式。內(nèi)容針對(duì)模式進(jìn)行匹配,并被分配置信分?jǐn)?shù),如果內(nèi)容匹配分割模式則置信分?jǐn)?shù)較高,如果內(nèi)容匹配非分割模式則置信分?jǐn)?shù)較低。
【專利說(shuō)明】語(yǔ)言無(wú)關(guān)的概率內(nèi)容匹配
[0001] 背景
[0002] 諸如英語(yǔ)等許多語(yǔ)言使得詞語(yǔ)由文本中的空格間隔。在這些類型的語(yǔ)言中,需要 詞語(yǔ)在文本中得到標(biāo)識(shí)的任何技術(shù)是相當(dāng)直接的。這些空格被稱為相鄰詞語(yǔ)之間的分隔 符。這些類型的語(yǔ)言被稱為空格分隔語(yǔ)言或分割語(yǔ)言。
[0003] 然而,諸如漢語(yǔ)、日語(yǔ)、韓語(yǔ)和越南語(yǔ)等其它語(yǔ)言僅被寫為均勻隔開的文字的序 列。這些語(yǔ)言在詞語(yǔ)之間沒有清楚的間隔,因?yàn)樗鼈冊(cè)谠~語(yǔ)之間沒有空格。這些類型的語(yǔ) 言被稱為非分割語(yǔ)言。在非分割語(yǔ)言中缺乏已知的分隔符導(dǎo)致對(duì)例如關(guān)鍵詞的精確檢測(cè)相 當(dāng)困難。
[0004] 類似地,在非分割語(yǔ)言中,完全相同的文字基于周圍的上下文可意味著不同的東 西。作為示例,以下文本:
[0005] 輸入信用卡號(hào)碼。
[0006] 具有詞語(yǔ)分割,這在以下表1中翻譯:
[0007] 表 1
[0008]
[0009] 然而,以下文本
【權(quán)利要求】
1. 一種用于處理文檔的內(nèi)容的計(jì)算機(jī)實(shí)現(xiàn)的方法,包括: 訪問定義被用于將所述內(nèi)容標(biāo)識(shí)為第一類型的內(nèi)容的模式的一組規(guī)則,每一規(guī)則具有 可被分別匹配到以分割語(yǔ)言書寫的文本內(nèi)容和以非分割語(yǔ)言書寫的文本內(nèi)容的分割和非 分割模式; 針對(duì)每一規(guī)則中的所述模式匹配所述文檔的所述內(nèi)容,而無(wú)論所述文檔的所述內(nèi)容是 以分割語(yǔ)言還是以非分割語(yǔ)言書寫,以確定所述文檔中的所述內(nèi)容是否是所述第一類型的 內(nèi)容; 基于所述文檔的所述內(nèi)容匹配分割模式還是非分割模式,生成與關(guān)于所述文檔的所述 內(nèi)容是否是所述第一類型的內(nèi)容的判斷相對(duì)應(yīng)的置信分?jǐn)?shù); 基于所述關(guān)于所述文檔的所述內(nèi)容是否是所述第一類型的內(nèi)容的判斷以及所述相應(yīng) 的置信分?jǐn)?shù),處理所述文檔的所述內(nèi)容。
2. 如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其特征在于,生成置信分?jǐn)?shù)包括: 如果所述文檔的所述內(nèi)容匹配分割模式,則生成較高的置信分?jǐn)?shù),而如果所述文檔的 所述內(nèi)容匹配非分割模式,則生成較低的置信分?jǐn)?shù)。
3. 如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其特征在于,處理所述文檔的所述內(nèi)容包 括: 如果所述文檔中的所述內(nèi)容是具有充分高的相應(yīng)置信分?jǐn)?shù)的所述第一類型的內(nèi)容,根 據(jù)第一組處理規(guī)則來(lái)處理所述文檔中的所述內(nèi)容;以及 否則,根據(jù)第二組處理規(guī)則處理所述文檔的所述內(nèi)容。
4. 如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其特征在于,匹配包括: 針對(duì)每一規(guī)則中的所述非分割模式和所述分割模式兩者來(lái)匹配所述文檔的所述內(nèi) 容; 其中每一模式包括主匹配模式和確證匹配部分,且其中匹配包括: 首先針對(duì)給定模式的所述主匹配部分匹配所述文檔的所述內(nèi)容; 如果所述文檔的所述內(nèi)容匹配所述給定模式的所述主匹配部分,則針對(duì)所述確證匹配 部分來(lái)匹配所述文檔的所述內(nèi)容;以及 如果所述文檔的所述內(nèi)容匹配所述給定模式的所述確證匹配部分,則向所述匹配分配 第一置信分?jǐn)?shù)。
5. 如權(quán)利要求4所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其特征在于,所述給定模式的所述確證匹 配部分具有多個(gè)確證模式,且其中針對(duì)所述確證匹配部分匹配所述文檔的所述內(nèi)容包括: 針對(duì)所述多個(gè)確證匹配模式中的每一個(gè)確證匹配模式匹配所述文檔的所述內(nèi)容;以及 如果所述文檔的所述內(nèi)容匹配多于一個(gè)確證匹配模式,則增加所述置信分?jǐn)?shù)。
6. 如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其特征在于,每一規(guī)則標(biāo)識(shí)不同種類的信 息,當(dāng)所述信息被包括在所述文檔的所述內(nèi)容中時(shí),致使所述文檔的所述內(nèi)容為敏感內(nèi)容; 以及 基于所述文檔的所述內(nèi)容是否被標(biāo)識(shí)為敏感內(nèi)容,而對(duì)所述文檔的所述內(nèi)容應(yīng)用數(shù)據(jù) 傳播規(guī)則。
7. 如權(quán)利要求6所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其特征在于,匹配包括: 針對(duì)標(biāo)識(shí)信用卡信息的規(guī)則中的模式匹配所述文檔的所述內(nèi)容; 針對(duì)標(biāo)識(shí)社會(huì)保障號(hào)碼信息的規(guī)則中的模式匹配所述文檔的所述內(nèi)容;以及 針對(duì)標(biāo)識(shí)個(gè)人信息的規(guī)則中的模式匹配所述文檔的所述內(nèi)容。
8. -種內(nèi)容處理系統(tǒng),包括: 包括多個(gè)規(guī)則的規(guī)則數(shù)據(jù)存儲(chǔ),每一規(guī)則對(duì)應(yīng)于一類型的信息并具有一組分割模式和 一組非分割模式; 內(nèi)容確定組件,所述內(nèi)容確定組件接收內(nèi)容并針對(duì)每一規(guī)則中的所述分割模式和所述 非分割模式匹配所述內(nèi)容以確定所述內(nèi)容是否包括對(duì)應(yīng)于每一規(guī)則的所述類型的信息,所 述內(nèi)容確定組件基于所述內(nèi)容匹配給定規(guī)則中的分割模式還是非分割模式,向所述內(nèi)容是 否包含對(duì)應(yīng)于所述給定規(guī)則的所述類型的信息的判斷分配置信水平;以及 計(jì)算機(jī)處理器,所述計(jì)算機(jī)處理器作為所述系統(tǒng)的功能組件并被所述內(nèi)容確定組件激 活以便于匹配和分配置信水平。
9. 如權(quán)利要求8所述的內(nèi)容處理系統(tǒng),其特征在于,所述內(nèi)容確定組件針對(duì)所述分割 模式和所述非分割模式匹配所述內(nèi)容,而無(wú)論所述內(nèi)容是以分割語(yǔ)言、非分割語(yǔ)言還是分 割和非分割語(yǔ)言兩者書寫的,且其中與當(dāng)所述內(nèi)容匹配非分割模式時(shí)相比,當(dāng)所述內(nèi)容匹 配分割模式時(shí)所述內(nèi)容確定組件向所述判斷分配較高的置信水平。
10. 如權(quán)利要求9所述的內(nèi)容處理系統(tǒng),其特征在于,規(guī)則中的每一模式具有主匹配部 分和確證匹配部分,且其中所述內(nèi)容確定組件首先針對(duì)所述主匹配部分匹配所述內(nèi)容,然 后如果所述內(nèi)容匹配所述主匹配部分則針對(duì)所述確證匹配部分匹配所述內(nèi)容,其中所述確 證匹配部分包括多個(gè)匹配模式,且其中如果所述內(nèi)容匹配所述確證匹配部分中的所述多個(gè) 匹配模式中多于一個(gè)的匹配模式,則所述內(nèi)容確定組件分配增加的置信水平。
【文檔編號(hào)】G06F17/21GK104094250SQ201380008426
【公開日】2014年10月8日 申請(qǐng)日期:2013年2月1日 優(yōu)先權(quán)日:2012年2月7日
【發(fā)明者】M·甘地, C·拉曼納, V·??ɡ{拉亞南, R·龐特斯菲約 申請(qǐng)人:微軟公司