亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

詞語(yǔ)識(shí)別方法及裝置制造方法

文檔序號(hào):6493600閱讀:265來(lái)源:國(guó)知局
詞語(yǔ)識(shí)別方法及裝置制造方法
【專利摘要】本發(fā)明的實(shí)施方式提供了一種詞語(yǔ)識(shí)別方法,包括:對(duì)所述詞語(yǔ)中的每個(gè)單字進(jìn)行識(shí)別,并記錄識(shí)別結(jié)果中置信度最高的前若干個(gè)識(shí)別的候選字及其對(duì)應(yīng)的置信度;搜索每個(gè)常用詞的各單字是否在所述詞語(yǔ)的單字的候選字中出現(xiàn),若出現(xiàn),則記錄該單字的在該常用詞中的該候選字的置信度,若未出現(xiàn),則將該字的置信度計(jì)為零;計(jì)算針對(duì)每個(gè)常用詞的所述詞語(yǔ)中各單字的平均置信度,作為該常用詞的置信度;若置信度最高的常用詞的置信度大于一閾值,則輸出這個(gè)常用詞作為該詞語(yǔ)的識(shí)別結(jié)果,否則輸出該詞語(yǔ)的每個(gè)單字的置信度最高的候選字作為該詞語(yǔ)的識(shí)別結(jié)果。通過使用常用詞語(yǔ)的先驗(yàn)知識(shí)對(duì)詞語(yǔ)進(jìn)行識(shí)別,獲得整個(gè)詞語(yǔ)的置信度,降低了單個(gè)字識(shí)別的誤差,提高了詞語(yǔ)識(shí)別的準(zhǔn)確率和效率。
【專利說(shuō)明】詞語(yǔ)識(shí)別方法及裝置【技術(shù)領(lǐng)域】
[0001]本發(fā)明的各實(shí)施方式涉及詞語(yǔ)識(shí)別方法及裝置。
【背景技術(shù)】
[0002]在對(duì)詞語(yǔ)進(jìn)行光學(xué)字符識(shí)別時(shí),通常先將詞語(yǔ)通過各種拆分方法拆分為多個(gè)文字,然后對(duì)每個(gè)文字分別進(jìn)行識(shí)別。這種方法一方面速度較慢,另一方面,可能某個(gè)文字區(qū)域不清晰或有殘缺而導(dǎo)致該區(qū)域?qū)?yīng)文字的識(shí)別不準(zhǔn)確。而且,由于每個(gè)字的識(shí)別具有一定的錯(cuò)誤概率,這使得整個(gè)詞語(yǔ)的準(zhǔn)確識(shí)別的概率就更低。

【發(fā)明內(nèi)容】

[0003]鑒于上述原因,本發(fā)明提供一種詞語(yǔ)識(shí)別方法及裝置,其通過使用出現(xiàn)頻率較高的常用詞與要識(shí)別的詞語(yǔ)進(jìn)行比較,從而獲得對(duì)詞語(yǔ)較高的識(shí)別率。
[0004]根據(jù)本發(fā)明的一個(gè)方面,提供一種詞語(yǔ)識(shí)別方法,包括:對(duì)所述詞語(yǔ)中的每個(gè)單字進(jìn)行識(shí)別,并記錄識(shí)別結(jié)果中置信度最高的前若干個(gè)識(shí)別的候選字及其對(duì)應(yīng)的置信度;搜索每個(gè)常用詞的各單字是否在所述詞語(yǔ)的單字的候選字中出現(xiàn),若出現(xiàn),則記錄該單字的在該常用詞中的該候選字的置信度,若未出現(xiàn),則將該字的置信度計(jì)為零;計(jì)算針對(duì)每個(gè)常用詞的所述詞語(yǔ)中各單字的平均置信度,作為該常用詞的置信度;若置信度最高的常用詞的置信度大于一閾值,則輸出這個(gè)常用詞作為該詞語(yǔ)的識(shí)別結(jié)果,否則輸出該詞語(yǔ)的每個(gè)單字的置信度最高的候選字作為該詞語(yǔ)的識(shí)別結(jié)果。
[0005]根據(jù)本發(fā)明的另一方面,使用光學(xué)字符識(shí)別(OCR)對(duì)所述單字進(jìn)行識(shí)別。
[0006]根據(jù)本發(fā)明的另一方面,搜索每個(gè)常用詞的各單字是否在所述詞語(yǔ)的所有單字的所有候選字中出現(xiàn)。
`[0007]根據(jù)本發(fā)明的另一方面,當(dāng)某個(gè)常用詞中的某個(gè)單根據(jù)本發(fā)明的另一方面字中出現(xiàn)時(shí),將不在該被識(shí)別的詞語(yǔ)中的該單字的候選字中搜索該常用詞中的其他單字。
[0008]根據(jù)本發(fā)明的另一方面,僅搜索與被識(shí)別的詞語(yǔ)字?jǐn)?shù)相同的常用詞。
[0009]根據(jù)本發(fā)明的另一方面,搜索每個(gè)常用詞的各單字是否在所述詞語(yǔ)的與該常用詞中相同位置的單字的候選字中出現(xiàn)。
[0010]根據(jù)本發(fā)明的另一方面,提供一種詞語(yǔ)識(shí)別裝置,包括:單字識(shí)別單元,用于對(duì)所述詞語(yǔ)中的每個(gè)單字進(jìn)行識(shí)別,并記錄識(shí)別結(jié)果中置信度最高的前若干個(gè)識(shí)別的候選字及其對(duì)應(yīng)的置信度;常用詞搜索單元,用于搜索每個(gè)常用詞的各單字是否在所述詞語(yǔ)的單字的候選字中出現(xiàn),若出現(xiàn),則記錄該單字的在該常用詞中的該候選字的置信度,若未出現(xiàn),則將該字的置信度計(jì)為零;置信度計(jì)算單元,用于計(jì)算針對(duì)每個(gè)常用詞的所述詞語(yǔ)中各單字的平均置信度,作為該常用詞的置信度;輸出單元,若置信度最高的常用詞的置信度大于一閾值,輸出單元輸出這個(gè)常用詞作為該詞語(yǔ)的識(shí)別結(jié)果,否則輸出該詞語(yǔ)的每個(gè)單字的置信度最高的候選字作為該詞語(yǔ)的識(shí)別結(jié)果。
[0011]根據(jù)本發(fā)明的另一方面,所述單字識(shí)別單元包括光學(xué)字符識(shí)別(OCR)引擎。[0012]根據(jù)本發(fā)明的另一方面,該常用詞搜索單元被配置為搜索每個(gè)常用詞的各單字是否在所述詞語(yǔ)的所有單字的所有候選字中出現(xiàn)。
[0013]根據(jù)本發(fā)明的另一方面,該常用詞搜索單元被配置為當(dāng)某個(gè)常用詞中的某個(gè)單字在被識(shí)別的詞語(yǔ)中的某個(gè)單字的候選字中出現(xiàn)時(shí),將不在該被識(shí)別的詞語(yǔ)中的該單字的候選字中搜索該常用詞中的其他單字。
[0014]根據(jù)本發(fā)明的另一方面,該常用詞搜索單元被配置為僅搜索與被識(shí)別的詞語(yǔ)字?jǐn)?shù)相同的常用詞。
[0015]根據(jù)本發(fā)明的另一方面,該常用詞搜索單元被配置為搜索每個(gè)常用詞的各單字是否在所述詞語(yǔ)的與該常用詞中相同位置的單字的候選字中出現(xiàn)。
[0016]通過使用常用詞語(yǔ)的先驗(yàn)知識(shí)對(duì)詞語(yǔ)進(jìn)行識(shí)別,獲得整個(gè)詞語(yǔ)的置信度,降低了單個(gè)字識(shí)別的誤差,提高了詞語(yǔ)識(shí)別的準(zhǔn)確率和效率。該詞語(yǔ)識(shí)別方法和詞語(yǔ)識(shí)別裝置在名片等具有特定常用詞的場(chǎng)合中的詞語(yǔ)識(shí)別是特別有利的。
【專利附圖】

【附圖說(shuō)明】
[0017]當(dāng)結(jié)合附圖閱讀下文對(duì)示范性實(shí)施方式的詳細(xì)描述時(shí),這些以及其他目的、特征和優(yōu)點(diǎn)將變得顯而易見,在附圖中:
[0018]圖1是根據(jù)本發(fā)明優(yōu)選實(shí)施例的詞語(yǔ)識(shí)別方法的流程圖;
[0019]圖2是適于用來(lái)實(shí)踐本發(fā)明實(shí)施方式的詞語(yǔ)識(shí)別裝置的示意性框圖;
[0020]圖3是用來(lái)實(shí)踐本發(fā)明實(shí)施方式的移動(dòng)終端的示意性框圖。
【具體實(shí)施方式】
[0021]附圖中的流程圖和框圖,圖示了按照本發(fā)明各種實(shí)施例的裝置、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來(lái)實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來(lái)實(shí)現(xiàn)。
[0022]現(xiàn)在將僅通過示例性方式來(lái)詳細(xì)地描述本發(fā)明的各種實(shí)施方式。
[0023]圖1是根據(jù)本發(fā)明優(yōu)選實(shí)施例的一詞語(yǔ)識(shí)別方法的流程圖。該方法可典型地用于名片中的常用詞的識(shí)別。該方法具體包括下列步驟:
[0024]首先執(zhí)行步驟S11,對(duì)所述詞語(yǔ)中的每個(gè)單字進(jìn)行識(shí)別,并記錄識(shí)別結(jié)果中置信度最高的前若干個(gè)識(shí)別的候選字及其對(duì)應(yīng)的置信度。優(yōu)選可通過光學(xué)字符識(shí)別(OCR)對(duì)單個(gè)的字進(jìn)行識(shí)別,光學(xué)字符識(shí)別是公知的字符識(shí)別技術(shù),在此不再贅述。對(duì)每個(gè)單字可能識(shí)別出多個(gè)候選字,每個(gè)后候選字對(duì)應(yīng)有其識(shí)別的置信度。記錄其中每個(gè)單字置信度最高的前若干個(gè)候選字及其置信度,以備后面步驟使用。例如,假設(shè)要識(shí)別詞語(yǔ)AB,假設(shè)取每個(gè)單字的置信度最高的前三個(gè)候選字,則首先使用OCR將AB中的單字A識(shí)別出A的置信度為0.9,識(shí)別為A’的置信度為0.4,識(shí)別為A”的置信度為0.2,將單字B識(shí)別為B的置信度為0.8,識(shí)別為B’的置信度為0.4,識(shí)別為B”的置信度為0.1,將這些數(shù)據(jù)進(jìn)行記錄。
[0025]然后執(zhí)行步驟S12,搜索每個(gè)常用詞的各單字是否在所述詞語(yǔ)的單字的候選字中出現(xiàn),若出現(xiàn),則記錄該單字的在該常用詞中的該候選字的置信度,若未出現(xiàn),則將該字的置信度計(jì)為零。其中的常用詞是使用概率較高的、需要對(duì)其進(jìn)行非常準(zhǔn)確的識(shí)別的一些詞語(yǔ)。例如對(duì)于名片中的詞語(yǔ)識(shí)別來(lái)說(shuō),該常用詞可以是“姓名”、“電話”、“地址”等通常會(huì)在名片中出現(xiàn)的詞語(yǔ)??梢酝ㄟ^建立一個(gè)常用詞庫(kù)來(lái)記錄常用詞,并且可以根據(jù)需要向該常用詞庫(kù)中增加或刪除常用詞。
[0026]在第一優(yōu)選實(shí)施方式中,搜索每個(gè)常用詞的各單字是否在所述詞語(yǔ)的所有單字的所有候選字中出現(xiàn)。假設(shè)要識(shí)別詞語(yǔ)AB,則在搜索常用詞庫(kù)中的常用詞AC時(shí),先在A、A’、A”、B、B’和B”的集合中搜索是否出現(xiàn)AC中的A。顯然,該集合中存在A,則記錄該候選字A對(duì)應(yīng)的置信度0.9。然后再在該集合中搜索是否出現(xiàn)AC中的C,顯然,該集合中不存在C,因而將常用詞AC中C對(duì)應(yīng)的置信度設(shè)為零。
[0027]優(yōu)選地,當(dāng)某個(gè)常用詞中的某個(gè)單字在被識(shí)別的詞語(yǔ)中的某個(gè)單字的候選字中出現(xiàn)時(shí),將不在該被識(shí)別的詞語(yǔ)中的該單字的候選字中搜索該常用詞中的其他單字。如上例,當(dāng)在上述集合中搜索到常用詞AC中的A后,在搜索AC中的C時(shí),將不再在A的候選字A、A’、A”中搜索,而僅在剩余的候選字B、B’和B”中進(jìn)行搜索。因?yàn)閷?duì)于被識(shí)別的詞語(yǔ)中的A已經(jīng)在常用詞中找到對(duì)應(yīng)的單字,那么A對(duì)應(yīng)的其他候選字很大程度可能是被誤識(shí)別的字或與該常用詞無(wú)關(guān)的字,因而在搜索該常用詞的其他單字時(shí),無(wú)需再在該范圍中進(jìn)行搜索。這樣,可以節(jié)約計(jì)算資源,提高常用詞的搜索速度。
[0028]當(dāng)搜索完常用詞AC后,再按照上述方法在上述集合中搜索常用詞庫(kù)中的其他常用詞AB、AD、EB、AFG等中的各單字,并得到各常用詞中各單字對(duì)應(yīng)的置信度。例如,常用詞AB中A的置信度即為0.9, B的置信度即為0.8,而AD中A的置信度即為0.9, D因在集合中不存在因而置信度為零。
[0029]然后執(zhí)行步驟S 13,計(jì)算針對(duì)每個(gè)常用詞的所述詞語(yǔ)中各單字的平均置信度,作為該常用詞的置信度。該平均置信度可以通過將常用詞中的各單字的置信度取均值而獲得。例如,對(duì)于上述常用詞AC,由于A的置信度為0.9,C的置信度為0,因而常用詞AC的平均置信度為(0.9+0)/2 = 0.45。而常用詞AB的平均置信度為(0.9+0.8)/2 = 0.85。常用詞AFG的平均置信度為(0.9+0+0)/3 = 0.3。通過該步驟可以獲得被識(shí)別的詞語(yǔ)相對(duì)于常用詞庫(kù)中所有常用詞的置信度。該置信度同時(shí)考慮了詞語(yǔ)中的各個(gè)單字的識(shí)別概率,因而該置信度能夠相對(duì)于各個(gè)單字更能全面地反映被識(shí)別詞語(yǔ)與該常用詞之間的匹配概率,減小單字識(shí)別誤差對(duì)詞語(yǔ)整體識(shí)別的影響,從而更利于對(duì)詞語(yǔ)整體進(jìn)行準(zhǔn)確地識(shí)別。
[0030]當(dāng)獲得每個(gè)常用詞的置信度后,便執(zhí)行步驟S14,判斷置信度最高的常用詞的置信度是否大于一閾值。該閾值可以通過經(jīng)驗(yàn)進(jìn)行設(shè)置,即保證一定的識(shí)別準(zhǔn)確率,又允許詞語(yǔ)圖形具有部分容錯(cuò)能力,例如可以將該閾值設(shè)為0.8。若置信度最高的常用詞的置信度大于一閾值,則執(zhí)行步驟S15,輸出這個(gè)常用詞作為該詞語(yǔ)的識(shí)別結(jié)果,否則執(zhí)行步驟S16,輸出該詞語(yǔ)的每個(gè)單字的置信度最高的候選字作為該詞語(yǔ)的識(shí)別結(jié)果。例如,上述例子中,常用詞中置信度最高的為常用詞AB,其置信度為0.85,大于設(shè)定的閾值0.8,則將該詞語(yǔ)AB識(shí)別為常用詞庫(kù)中的常用詞AB輸出??梢?,該識(shí)別的詞語(yǔ)的含義是正確的。如果常用詞庫(kù)中沒有收錄常用詞AB,而常用詞AC的置信度是最高的,為0.45,小于設(shè)定的閾值0.8,說(shuō)明該詞語(yǔ)與常用詞AC不是太匹配,則不輸出該常用詞AC,而是將在步驟Sll中識(shí)別的AB中的各個(gè)單字的置信度最高的候選字作為該詞語(yǔ)的識(shí)別結(jié)果,即A的候選字中A的置信度最高,為
0.9,則輸出A,而B的候選字中B的置信度最高,為0.8,則輸出B,因而其輸出為AB,與該詞語(yǔ)的含義是符合的。
[0031]在第二優(yōu)選實(shí)施方式中,僅搜索與被識(shí)別的詞語(yǔ)字?jǐn)?shù)相同的常用詞。例如在上述例子中,被識(shí)別的詞AB為兩個(gè)單字,則僅在這兩個(gè)單字的候選字集合中搜索具有兩個(gè)單字的常用詞,例如AC、AB、AD、EB等,而不搜索AFG等不是兩個(gè)單字的常用詞。通過這種方式,可以節(jié)約字?jǐn)?shù)不匹配的常用詞的搜索時(shí)間,提高識(shí)別效率。
[0032]優(yōu)選地,搜索每個(gè)常用詞的各單字是否在所述詞語(yǔ)的與該常用詞中相同位置的單字的候選字中出現(xiàn)。例如,常用詞AB中的A出現(xiàn)在第一個(gè)字位置,則僅在被識(shí)別詞語(yǔ)AB的第一個(gè)字位置的單字A的候選字A、A’、A”中搜索A,常用詞AB中的B出現(xiàn)在第二個(gè)字位置,則僅在被識(shí)別詞語(yǔ)AB的第二個(gè)字位置的單字B的候選字B、B’和B”中搜索B。通過位置匹配的搜索,可以節(jié)約搜算計(jì)算量,提高搜索效率。
[0033]該詞語(yǔ)識(shí)別方法適于通過計(jì)算機(jī)程序來(lái)實(shí)現(xiàn)。
[0034]圖2是適于用來(lái)實(shí)踐本發(fā)明實(shí)施方式的詞語(yǔ)識(shí)別裝置的示意性框圖。在圖2中,詞語(yǔ)識(shí)別裝置200包括:單字識(shí)別單元201,用于對(duì)所述詞語(yǔ)中的每個(gè)單字進(jìn)行識(shí)別,并記錄識(shí)別結(jié)果中置信度最高的前若干個(gè)識(shí)別的候選字及其對(duì)應(yīng)的置信度;常用詞搜索單元202,用于搜索每個(gè)常用詞的各單字是否在所述詞語(yǔ)的單字的候選字中出現(xiàn),若出現(xiàn),則記錄該單字的在該常用詞中的該候選字的置信度,若未出現(xiàn),則將該字的置信度計(jì)為零;置信度計(jì)算單元203,用于計(jì)算針對(duì)每個(gè)常用詞的所述詞語(yǔ)中各單字的平均置信度,作為該常用詞的置信度;輸出單元204,若置信度最高的常用詞的置信度大于一閾值,輸出單元204輸出這個(gè)常用詞作為該詞語(yǔ)的識(shí)別結(jié)果,否則輸出該詞語(yǔ)的每個(gè)單字的置信度最高的候選字作為該詞語(yǔ)的識(shí)別結(jié)果。
[0035]優(yōu)選地,所述單字識(shí)別單元包括光學(xué)字符識(shí)別(OCR)引擎。
[0036]優(yōu)選地,該常用詞搜索單元被配置為搜索每個(gè)常用詞的各單字是否在所述詞語(yǔ)的所有單字的所有候選字中出現(xiàn)。
[0037]優(yōu)選地,該常用詞搜索單元被配置為當(dāng)某個(gè)常用詞中的某個(gè)單字在被識(shí)別的詞語(yǔ)中的某個(gè)單字的候選字中出現(xiàn)時(shí),將不在該被識(shí)別的詞語(yǔ)中的該單字的候選字中搜索該常用詞中的其他單字。
[0038]優(yōu)選地,該常用詞搜索單元被配置為僅搜索與被識(shí)別的詞語(yǔ)字?jǐn)?shù)相同的常用詞。
[0039]優(yōu)選地,該常用詞搜索單元被配置為搜索每個(gè)常用詞的各單字是否在所述詞語(yǔ)的與該常用詞中相同位置的單字的候選字中出現(xiàn)。
[0040]該詞語(yǔ)識(shí)別裝置200適于執(zhí)行以上所述的各種詞語(yǔ)識(shí)別方法。
[0041]該詞語(yǔ)識(shí)別裝置適于通過載入以上詞語(yǔ)識(shí)別方法的計(jì)算機(jī)硬件來(lái)實(shí)現(xiàn)。該詞語(yǔ)識(shí)別裝置尤其適于通過載入以上詞語(yǔ)識(shí)別算法的、具有計(jì)算處理功能的手機(jī)等移動(dòng)設(shè)備來(lái)實(shí)現(xiàn)。該移動(dòng)設(shè)備優(yōu)選還具有數(shù)碼相機(jī),用于拍攝名片等包含文字的圖像信息。該移動(dòng)設(shè)備可通過載入的算法程序,即時(shí)對(duì)拍攝的名片等圖像中的詞語(yǔ)進(jìn)行提取、識(shí)別、存儲(chǔ)。
[0042]下面參考圖3,其示出了適于用來(lái)實(shí)踐本發(fā)明實(shí)施方式的移動(dòng)終端300的示意性框圖。在圖3所示的示例中,移動(dòng)終端300是一個(gè)具有無(wú)線通信能力的移動(dòng)設(shè)備。然而,可以理解,這僅僅是示例性而非限制性的。其他類型的移動(dòng)終端也可以容易地采用本發(fā)明的實(shí)施方式,諸如便攜式數(shù)字助理(PDA)、尋呼機(jī)、移動(dòng)計(jì)算機(jī)、移動(dòng)電視、游戲設(shè)備、膝上型計(jì)算機(jī)、照相機(jī)、錄像機(jī)、GPS設(shè)備以及其他類型的語(yǔ)音和文本通信系統(tǒng)。固定式移動(dòng)終端同樣可以容易地使用本發(fā)明的實(shí)施方式。
[0043]移動(dòng)終端300包括一個(gè)或天線312,其可操作地與發(fā)射機(jī)314和接收機(jī)316進(jìn)行通信。移動(dòng)終端300還包括處理器312或者其他處理元件,其分別提供去往發(fā)射機(jī)314的信號(hào)和接收來(lái)自接收機(jī)316的信號(hào)。信號(hào)包括按照適當(dāng)蜂窩系統(tǒng)的空中接口標(biāo)準(zhǔn)的信令信息,并且還包括用戶語(yǔ)音、接收的數(shù)據(jù)和/或用戶生成的數(shù)據(jù)。在此方面,移動(dòng)終端300能夠利用一個(gè)或多個(gè)空中接口標(biāo)準(zhǔn)、通信協(xié)議、調(diào)制類型以及接入類型來(lái)進(jìn)行操作。作為示范,移動(dòng)終端300能夠根據(jù)多個(gè)第一代、第二代、第三代和/或第四代通信協(xié)議等中的任何協(xié)議來(lái)進(jìn)行操作。例如,移動(dòng)終端300可以能夠按照第二代(G)無(wú)線通信協(xié)議IS-136 (TDMA)、GSM和IS-95 (CDMA)來(lái)進(jìn)行操作,或者按照諸如UMTS、CDMA2000, WCDMA和TD-SCDMA的第三代(G)無(wú)線通信協(xié)議來(lái)進(jìn)行操作,或者按照第四代(4G)無(wú)線通信協(xié)議和/或類似協(xié)議進(jìn)行操作。
[0044]可以理解,處理器312包括實(shí)現(xiàn)移動(dòng)終端300的功能所需的電路。例如,處理器312可以包括數(shù)字信號(hào)處理器設(shè)備、微處理器設(shè)備、各種模數(shù)轉(zhuǎn)換器、數(shù)模轉(zhuǎn)換器和其他支持電路。移動(dòng)終端300的控制和信號(hào)處理功能按照這些設(shè)備各自的能力在其間分配。處理器312由此還可以包括在調(diào)制和傳輸之前對(duì)消息和數(shù)據(jù)進(jìn)行卷積編碼和交織的功能。處理器312還可以另外包括內(nèi)部語(yǔ)音編碼器,并且可以包括內(nèi)部數(shù)據(jù)調(diào)制解調(diào)器。此外,處理器312可以包括對(duì)可以存儲(chǔ)在存儲(chǔ)器中的一個(gè)或多個(gè)軟件程序進(jìn)行操作的功能。例如,處理器312可以能夠操作連接程序,諸如傳統(tǒng)的Web瀏覽器。連接程序繼而可以允許移動(dòng)終端300例如按照無(wú)線應(yīng)用協(xié)議(WAP)、超文本傳輸協(xié)議(HTTP)等來(lái)發(fā)射和接收Web內(nèi)容(諸如基于位置的內(nèi)容和/或其他web頁(yè)面內(nèi)容)。
[0045]移動(dòng)終端300還可以包括用戶接口,其例如可以包括耳機(jī)或者揚(yáng)聲器324、振鈴器322、麥克風(fēng)326、顯示屏328以及輸入接口 331,所有這些設(shè)備都耦合至處理器312。移動(dòng)終端300可以包括小鍵盤330。小鍵盤330可以包括傳統(tǒng)的數(shù)字鍵(0_9)和相關(guān)鍵(#、*),以及用于操作移動(dòng)終端300的其他鍵。備選地,小鍵盤330可以包括傳統(tǒng)的QWERTY小鍵盤布置。小鍵盤330還可以包括與功能相關(guān)聯(lián)的各種軟鍵。移動(dòng)終端300還可以包括相機(jī)模塊336,用于捕獲靜態(tài)和/或動(dòng)態(tài)圖像。
[0046]特別地,顯示屏328可以包括觸摸式屏幕和/或鄰近式屏幕,用戶可以通過直接操作屏幕而操作移動(dòng)終端300。此時(shí),顯示屏328同時(shí)充當(dāng)輸入設(shè)備和輸出設(shè)備二者。在這樣的實(shí)施方式中,輸入接口 331可以配置用于接收用戶通過例如普通的筆、專用觸筆和/或手指在顯示屏328上提供的輸入,包括指點(diǎn)輸入和手勢(shì)輸入。處理器312可配置用于檢測(cè)此類輸入,并且識(shí)別出用戶的手勢(shì)。
[0047]此外,移動(dòng)終端300可以包括諸如操縱桿的接口設(shè)備或者其他用于輸入接口。移動(dòng)終端300還包括電池334,諸如振動(dòng)電池組,用于為操作移動(dòng)終端300所需的各種電路供電,以及可選地提供機(jī)械振動(dòng)作為可檢測(cè)輸出。
[0048]移動(dòng)終端300可以進(jìn)一步包括用戶標(biāo)識(shí)模塊(UM) 338。UIM 338通常是具有內(nèi)置處理器的存儲(chǔ)器設(shè)備。UM 338例如可以包括訂戶標(biāo)識(shí)模塊(SM)、通用集成電路卡(ΠCC)、通用訂戶標(biāo)識(shí)模塊(USM)、可移動(dòng)用戶標(biāo)識(shí)模塊(R-UM)等。ΠΜ 338通常存儲(chǔ)與移動(dòng)訂戶相關(guān)的信元。
[0049]移動(dòng)終端300還可以具有存儲(chǔ)器。例如,移動(dòng)終端300可以包括易失性存儲(chǔ)器340,例如包括用于數(shù)據(jù)臨時(shí)存儲(chǔ)的高速緩存區(qū)域的易失性隨機(jī)存取存儲(chǔ)器(RAM)。移動(dòng)終端300還可以包括其他非易失性存儲(chǔ)器342,其可以是嵌入式的和/或可移動(dòng)的。非易失性存儲(chǔ)器342可以附加地或者可選地包括例如EEPROM和閃存等。存儲(chǔ)器可以存儲(chǔ)移動(dòng)終端300所使用的多個(gè)信息片段和數(shù)據(jù)中的任意項(xiàng),以實(shí)現(xiàn)移動(dòng)終端300的功能。
[0050]所述移動(dòng)終端300可以配置用于實(shí)現(xiàn)上文結(jié)合圖1描述的方法以及作為結(jié)合圖2描述的裝置。
[0051]應(yīng)當(dāng)理解,圖3所述的結(jié)構(gòu)框圖僅僅為了示例的目的而示出的,而不是對(duì)本發(fā)明范圍的限制。在某些情況下,可以根據(jù)具體情況而增加或者減少某些設(shè)備。
[0052]已經(jīng)出于示出和描述的目的給出了本發(fā)明的說(shuō)明書,但是其并不意在是窮舉的或者限制于所公開形式的發(fā)明。本領(lǐng)域技術(shù)人員可以想到很多修改和變體。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本發(fā)明實(shí)施方式中的方法和裝置可以以軟件、硬件、固件或其組合實(shí)現(xiàn)。
[0053]因此,實(shí)施方式是為了更好地說(shuō)明本發(fā)明的原理、實(shí)際應(yīng)用以及使本領(lǐng)域技術(shù)人員中的其他人員能夠理解以下內(nèi)容而選擇和描述的,即,在不脫離本發(fā)明精神的前提下,做出的所有修改和替換都將落入所附權(quán)利要求定義的本發(fā)明保護(hù)范圍內(nèi)。
【權(quán)利要求】
1.一種詞語(yǔ)識(shí)別方法,包括: 對(duì)詞語(yǔ)中的每個(gè)單字進(jìn)行識(shí)別,并記錄識(shí)別結(jié)果中置信度最高的前若干個(gè)識(shí)別的候選字及其對(duì)應(yīng)的置信度; 搜索每個(gè)常用詞的各單字是否在所述詞語(yǔ)的單字的候選字中出現(xiàn),若出現(xiàn),則記錄該單字的在該常用詞中的該候選字的置信度,若未出現(xiàn),則將該字的置信度計(jì)為零; 計(jì)算針對(duì)每個(gè)常用詞的所述詞語(yǔ)中各單字的平均置信度,作為該常用詞的置信度; 若置信度最高的常用詞的置信度大于一閾值,則輸出這個(gè)常用詞作為該詞語(yǔ)的識(shí)別結(jié)果,否則輸出該詞語(yǔ)的每個(gè)單字的置信度最高的候選字作為該詞語(yǔ)的識(shí)別結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其中,使用光學(xué)字符識(shí)別(OCR)對(duì)所述單字進(jìn)行識(shí)別。
3.根據(jù)權(quán)利要求1或2所述的方法,其中,搜索每個(gè)常用詞的各單字是否在所述詞語(yǔ)的所有單字的所有候選字中出現(xiàn)。
4.根據(jù)權(quán)利要求3所述的方法,其中,當(dāng)某個(gè)常用詞中的某個(gè)單字在被識(shí)別的詞語(yǔ)中的某個(gè)單字的候選字中出現(xiàn)時(shí),將不在該被識(shí)別的詞語(yǔ)中的該單字的候選字中搜索該常用詞中的其他單字。
5.根據(jù)權(quán)利要求1或2所述的方法,其中,僅搜索與被識(shí)別的詞語(yǔ)字?jǐn)?shù)相同的常用詞。
6.根據(jù)權(quán)利要求5所述的方法,其中,搜索每個(gè)常用詞的各單字是否在所述詞語(yǔ)的與該常用詞中相同位置的單字的候選字中出現(xiàn)。
7.一種詞語(yǔ)識(shí)別裝置,包括: 單字識(shí)別單元,用于對(duì)詞語(yǔ)中的每個(gè)單字進(jìn)行識(shí)別,并記錄識(shí)別結(jié)果中置信度最高的前若干個(gè)識(shí)別的候選字及其對(duì)應(yīng)的置信度; 常用詞搜索單元,用于搜索每個(gè)常用詞的各單字是否在所述詞語(yǔ)的單字的候選字中出現(xiàn),若出現(xiàn),則記錄該單字的在該常用詞中的該候選字的置信度,若未出現(xiàn),則將該字的置信度計(jì)為零; 置信度計(jì)算單元,用于計(jì)算針對(duì)每個(gè)常用詞的所述詞語(yǔ)中各單字的平均置信度,作為該常用詞的置信度; 輸出單元,若置信度最高的常用詞的置信度大于一閾值,輸出單元輸出這個(gè)常用詞作為該詞語(yǔ)的識(shí)別結(jié)果,否則輸出該詞語(yǔ)的每個(gè)單字的置信度最高的候選字作為該詞語(yǔ)的識(shí)別結(jié)果。
8.根據(jù)權(quán)利要求7所述的裝置,其中,所述單字識(shí)別單元包括光學(xué)字符識(shí)別(OCR)引擎。
9.根據(jù)權(quán)利要求7或8所述的裝置,其中,該常用詞搜索單元被配置為搜索每個(gè)常用詞的各單字是否在所述詞語(yǔ)的所有單字的所有候選字中出現(xiàn)。
10.根據(jù)權(quán)利要求9所述的裝置,其中,該常用詞搜索單元被配置為當(dāng)某個(gè)常用詞中的某個(gè)單字在被識(shí)別的詞語(yǔ)中的某個(gè)單字的候選字中出現(xiàn)時(shí),將不在該被識(shí)別的詞語(yǔ)中的該單字的候選字中搜索該常用詞中的其他單字。
11.根據(jù)權(quán)利要求7或8所述的裝置,其中,該常用詞搜索單元被配置為僅搜索與被識(shí)別的詞語(yǔ)字?jǐn)?shù)相同的常用詞。
12.根據(jù)權(quán)利要求11所述的裝置,其中,該常用詞搜索單元被配置為搜索每個(gè)常用詞的各單字是否在所述詞語(yǔ)的與該常用詞中相同位置的單字的候選字中出現(xiàn)。
【文檔編號(hào)】G06K9/20GK103870822SQ201210570618
【公開日】2014年6月18日 申請(qǐng)日期:2012年12月17日 優(yōu)先權(quán)日:2012年12月17日
【發(fā)明者】鄭大念 申請(qǐng)人:北京千橡網(wǎng)景科技發(fā)展有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1