亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文本識(shí)別方法和裝置的制造方法

文檔序號(hào):9631534閱讀:203來源:國知局
一種文本識(shí)別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本識(shí)別技術(shù)領(lǐng)域,特別是涉及一種文本識(shí)別方法和一種文本識(shí)別裝 置。
【背景技術(shù)】
[0002] 隨著大數(shù)據(jù)時(shí)代的到來,文本識(shí)別是信息提取、數(shù)據(jù)分析和數(shù)據(jù)處理中的慣用手 段,例如,在建立電影和演員數(shù)據(jù)庫過程中,往往需要準(zhǔn)確識(shí)別并提取演員的名稱信息。
[0003] 目前,正則匹配法是文本識(shí)別的慣用手段,通過建立正則表達(dá)式,可以識(shí)別滿足該 正則表達(dá)式的特定文本,對(duì)于不滿足該正則表達(dá)式的其他文本,往往無法識(shí)別或識(shí)別出錯(cuò)。
[0004] 在實(shí)際應(yīng)用中,正則匹配法具有極大的局限性,缺乏通用性,尤其對(duì)于復(fù)雜的、非 結(jié)構(gòu)化的網(wǎng)絡(luò)文本,正則匹配法更是難以適用,例如,在演員名稱的識(shí)別過程中,假如存在 第一文本"關(guān)德興/鄧碧云/梁醒波/"和第二文本"安德烈?卡拉斯科/AndreyKrasko, 米蓋爾?普萊切科夫/Μ η x",針對(duì)第一文本的正則表達(dá)式以"/"為演員名稱的分隔符, 然而,將該正則表達(dá)式套用在第二文本時(shí),將會(huì)識(shí)別出"安德烈·卡拉斯科"和"Andrey Krasko"、"米蓋爾?普萊切科夫"和"Μη X"分別為兩個(gè)不同的演員名稱,而實(shí)際上, "Andrey Krasko"僅為"安德烈?卡拉斯科"的別名,"Μ η X"僅為"米蓋爾?普萊切科夫" 的別名。

【發(fā)明內(nèi)容】

[0005] 鑒于上述問題,提出了本發(fā)明實(shí)施例以便提供一種克服上述問題或者至少部分地 解決上述問題的一種文本識(shí)別方法和相應(yīng)的一種文本識(shí)別裝置。
[0006] 為了解決上述問題,本發(fā)明實(shí)施例公開了一種文本識(shí)別方法,包括:
[0007] 對(duì)待識(shí)別文本進(jìn)行分割,獲得若干個(gè)分割文本;其中,各個(gè)分割文本被分割為一個(gè) 或多個(gè)字段;
[0008] 將所述各個(gè)分割文本中的字段,與預(yù)置的文本識(shí)別數(shù)據(jù)庫中的文本進(jìn)行匹配,獲 得匹配數(shù)量;
[0009] 對(duì)各個(gè)所述字段分配與其匹配數(shù)量相應(yīng)的分值;
[0010] 統(tǒng)計(jì)所述各個(gè)分割文本的總分值;
[0011] 將總分值最高的分割文本作為所述待識(shí)別文本的最優(yōu)識(shí)別結(jié)果。
[0012] 優(yōu)選的,所述將待識(shí)別文本分割成若干個(gè)分割文本的步驟包括:
[0013] 確定待識(shí)別文本中分割符的位置;
[0014] 在所述分割符的位置對(duì)所述待識(shí)別文本進(jìn)行分割,獲得2η個(gè)分割文本,η為所述待 識(shí)別文本中分割符的數(shù)量,η為正整數(shù)。
[0015] 優(yōu)選的,所述預(yù)置的文本識(shí)別數(shù)據(jù)庫包括主要文本和次要文本,所述將所述各個(gè) 分割文本中的字段,與預(yù)置的文本識(shí)別數(shù)據(jù)庫中的文本進(jìn)行匹配,獲得匹配數(shù)量的步驟包 括:
[0016] 將所述各個(gè)分割文本中的字段,與所述預(yù)置的文本識(shí)別數(shù)據(jù)庫中的主要文本進(jìn)行 匹配,獲得匹配數(shù)量;
[0017] 若某字段與所述主要文本進(jìn)行匹配所獲得的匹配數(shù)量為0,則將其與所述預(yù)置的 文本識(shí)別數(shù)據(jù)庫中的次要文本進(jìn)行匹配,獲得匹配數(shù)量。
[0018] 優(yōu)選的,所述對(duì)各個(gè)所述字段分配與其匹配結(jié)果相應(yīng)的分值的步驟包括:
[0019] 若某字段的匹配數(shù)量為0,則分配的分值為
[0020] 若某字段的匹配數(shù)量為1,則分配的分值為1 ;
[0021] 若某字段的匹配數(shù)量為m,則分配的分值為1,m為大于或等于2的正整數(shù)。 m
[0022] 優(yōu)選的,所述對(duì)各個(gè)所述字段分配與其匹配結(jié)果相應(yīng)的分值的步驟包括:
[0023] 獲取所述各個(gè)分割文本中字段的數(shù)量p;
[0024] 若某字段的匹配數(shù)量為q,則分配的分值為f,其中,p為正整數(shù),q為0或正整數(shù)。
[0025] 本發(fā)明實(shí)施例還公開了一種文本識(shí)別裝置,包括:
[0026] 文本分割模塊,用于對(duì)待識(shí)別文本進(jìn)行分割,獲得若干個(gè)分割文本;其中,各個(gè)分 割文本被分割為一個(gè)或多個(gè)字段;
[0027] 匹配模塊,用于將所述各個(gè)分割文本中的字段,與預(yù)置的文本識(shí)別數(shù)據(jù)庫中的文 本進(jìn)行匹配,獲得匹配數(shù)量;
[0028] 分值分配模塊,用于對(duì)各個(gè)所述字段分配與其匹配數(shù)量相應(yīng)的分值;
[0029] 總分值統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)所述各個(gè)分割文本的總分值;
[0030] 最優(yōu)識(shí)別結(jié)果確定模塊,用于將總分值最高的分割文本作為所述待識(shí)別文本的最 優(yōu)識(shí)別結(jié)果。
[0031] 優(yōu)選的,所述文本分割模塊包括:
[0032] 分割符位置確定子模塊,用于確定待識(shí)別文本中分割符的位置;
[0033] 文本分割子模塊,用于在所述分割符的位置對(duì)所述待識(shí)別文本進(jìn)行分割,獲得2n 個(gè)分割文本,η為所述待識(shí)別文本中分割符的數(shù)量,η為正整數(shù)。
[0034] 優(yōu)選的,所述預(yù)置的文本識(shí)別數(shù)據(jù)庫包括主要文本和次要文本,所述匹配模塊包 括:
[0035] 第一匹配子模塊,用于將所述各個(gè)分割文本中的字段,與所述預(yù)置的文本識(shí)別數(shù) 據(jù)庫中的主要文本進(jìn)行匹配,獲得匹配數(shù)量;
[0036] 第二匹配子模塊,用于在某字段與所述主要文本進(jìn)行匹配所獲得的匹配數(shù)量為0 時(shí),則將其與所述預(yù)置的文本識(shí)別數(shù)據(jù)庫中的次要文本進(jìn)行匹配,獲得匹配數(shù)量。
[0037] 優(yōu)選的,所述分值分配模塊包括:
[0038] 第一分值分配子模塊,用于在某字段的匹配數(shù)量為0時(shí),則分配的分值為
[0039] 第二分值分配子模塊,用于在某字段的匹配數(shù)量為1,則分配的分值為1 ;
[0040] 第三分值分配子模塊,用于在某字段的匹配數(shù)量為m,則分配的分值為1,m為大 m 于或等于2的正整數(shù)。
[0041] 優(yōu)選的,所述分值分配模塊包括:
[0042] 字段數(shù)量獲取子模塊,用于獲取所述各個(gè)分割文本中字段的數(shù)量p;
[0043] 第四分值分配子模塊,用于在某字段的匹配數(shù)量為q時(shí),則分配的分值為其 中,P為正整數(shù),q為〇或正整數(shù)。
[0044] 本發(fā)明實(shí)施例包括以下優(yōu)點(diǎn):
[0045] 本發(fā)明實(shí)施例可以對(duì)待識(shí)別文本進(jìn)行分割,獲得若干個(gè)分割文本,將各個(gè)分割文 本中的字段,與預(yù)置的文本識(shí)別數(shù)據(jù)庫中的文本進(jìn)行匹配,獲得匹配數(shù)量,對(duì)各個(gè)字段分配 與其匹配數(shù)量相應(yīng)的分值,將總分值最高的分割文本作為待識(shí)別文本的最優(yōu)識(shí)別結(jié)果,由 于本發(fā)明實(shí)施例采用的是文本分割方式,獲得的分割文本可以涵括所有的可能分割結(jié)果, 最后將總分值最高的分割文本作為所有可能分割結(jié)果中的最優(yōu)識(shí)別結(jié)果,因此,本發(fā)明實(shí) 施例可以適用于任意格式的待識(shí)別文本,能夠準(zhǔn)確識(shí)別復(fù)雜的、非結(jié)構(gòu)化的網(wǎng)絡(luò)文本,相對(duì) 于正則匹配法而言,具有更好的通用性和更高的識(shí)別準(zhǔn)確性。
【附圖說明】
[0046] 圖1是本發(fā)明的一種文本識(shí)別方法實(shí)施例的步驟流程圖;
[0047] 圖2是本發(fā)明的一種文本識(shí)別裝置實(shí)施例的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0048] 為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí) 施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。
[0049] 本發(fā)明實(shí)施例的核心構(gòu)思之一在于,本發(fā)明實(shí)施例采用的是文本分割方式,獲得 的分割文本可以涵括所有的可能分割結(jié)果,最后將總分值最高的分割文本作為所有可能分 割結(jié)果中的最優(yōu)識(shí)別結(jié)果,因此,本發(fā)明實(shí)施例可以適用于任意格式的待識(shí)別文本,能夠準(zhǔn) 確識(shí)別復(fù)雜的、非結(jié)構(gòu)化的網(wǎng)絡(luò)文本,相對(duì)于正則匹配法而言,具有更好的通用性和更高的 識(shí)別準(zhǔn)確性。
[0050] 通常,在信息提取
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1