在線自動(dòng)挖掘新詞的方法及電子裝置制造方法

文檔序號(hào)：6492546閱讀：110來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

在線自動(dòng)挖掘新詞的方法及電子裝置制造方法
【專利摘要】本發(fā)明公開了一種在線自動(dòng)挖掘新詞的方法及電子裝置，其中，在線自動(dòng)挖掘新詞的方法，包括：獲取語料中的多個(gè)候選項(xiàng)；通過相似度算法，獲得第一候選項(xiàng)集合；根據(jù)已建立的第一語言形式和第二語言形式組合的詞對(duì)齊模型，獲取所述第一候選項(xiàng)集合中候選項(xiàng)所對(duì)應(yīng)的第一字符串組合的概率；判斷所述第一候選項(xiàng)集合中候選項(xiàng)的加權(quán)得分是否達(dá)到第二閾值；若達(dá)到所述第二閾值，則所述第一候選項(xiàng)集合中候選項(xiàng)即為挖掘到的新詞。通過上述方式，本發(fā)明能夠利用計(jì)算機(jī)快速、準(zhǔn)確地大量挖掘新詞，取代了手工收集，滿足用戶日益增長的輸入需求。
【專利說明】在線自動(dòng)挖掘新詞的方法及電子裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理【技術(shù)領(lǐng)域】，特別是涉及一種在線自動(dòng)挖掘新詞的方法及電子裝置。裝直。
【背景技術(shù)】
[0002]在日文輸入法中，根據(jù)用戶輸入的假名序列構(gòu)造出符合用戶所期望的漢字序列，以及反過來根據(jù)漢字序列來標(biāo)注其假名讀音，都需要大規(guī)模的“假名-漢字”詞條。
[0003]在信息化的時(shí)代，網(wǎng)絡(luò)上每天都有新詞不斷誕生，例如:組織名稱、公司名稱、人的姓名、技術(shù)名詞等命名。手工收集這些新詞的假名-漢字詞條(例如:來自Blog、Twitter、Facebook、論文、專利等)已經(jīng)無法及時(shí)地滿足用戶日益增長的數(shù)以億計(jì)的輸入需求。

【發(fā)明內(nèi)容】

[0004]本發(fā)明主要解決的技術(shù)問題是提供一種在線自動(dòng)挖掘新詞的方法及電子裝置，能夠大幅提高收集新詞的假名-漢字詞條的效率。
[0005]為解決上述技術(shù)問題，本發(fā)明采用的一個(gè)技術(shù)方案是:提供一種在線自動(dòng)挖掘新詞的方法包括:獲取語料中的具有預(yù)設(shè)字符串形式的候選項(xiàng)集合；根據(jù)已建立的具有預(yù)設(shè)語言形式組合的詞對(duì)齊模型，獲取所述候選項(xiàng)集合中候選項(xiàng)所對(duì)應(yīng)的部分字符的概率；判斷所述候選項(xiàng)集合中候選項(xiàng)所對(duì)應(yīng)的部分字符的概率是否達(dá)到第二閾值，若達(dá)到所述第二閾值，則所述候選項(xiàng)集合中候選項(xiàng)即為挖掘到的新詞。
[0006]其中，獲取語料中的候選項(xiàng)集合的步驟包括:從所述語料中收集具有預(yù)設(shè)形式的第一字符串組合，并獲取其中的候選項(xiàng)，所述候選項(xiàng)是預(yù)設(shè)形式的第一字符串組合中的第一字符串，所述第一字符串組合包括所述第一字符串和第二字符串，其中，所述第一字符串在所述第二字符串的前面且緊鄰所述第二字符串；通過相似度算法，獲得候選項(xiàng)集合，所述候選項(xiàng)集合是通過所述相似度算法得到的相似度得分達(dá)到第一閾值的候選項(xiàng)的集合；
[0007]所述根據(jù)已建立的具有預(yù)設(shè)語言形式組合的詞對(duì)齊模型，獲取所述候選項(xiàng)集合中候選項(xiàng)所對(duì)應(yīng)的部分字符的概率的步驟包括:根據(jù)已建立的第一語言形式和第二語言形式組合的詞對(duì)齊模型，獲取所述候選項(xiàng)集合中候選項(xiàng)所對(duì)應(yīng)的第一字符串組合的概率，所述第一語言形式以第一字符表示，所述第二語言形式以第二字符表示；
[0008]所述判斷所述候選項(xiàng)集合中候選項(xiàng)所對(duì)應(yīng)的部分字符的概率是否達(dá)到第二閾值的步驟包括:判斷所述候選項(xiàng)集合中候選項(xiàng)的加權(quán)得分是否達(dá)到第二閾值，其中，所述候選項(xiàng)集合中候選項(xiàng)的加權(quán)得分是根據(jù)所述候選項(xiàng)集合中候選項(xiàng)的相似度得分和所述候選項(xiàng)集合中候選項(xiàng)所對(duì)應(yīng)的第一字符串組合的概率進(jìn)行加權(quán)相加獲得的。
[0009]其中，所述根據(jù)已建立的第一語言形式和第二語言形式組合的詞對(duì)齊模型，獲取所述第一候選項(xiàng)集合中候選項(xiàng)所對(duì)應(yīng)的第一字符串組合的概率的步驟之前，包括:根據(jù)已有的第一語言形式和第二語言形式組合的詞典，通過最大期望算法建立第一語言形式和第二語言形式組合的詞對(duì)齊模型。[0010]其中，所述第一語言形式和第二語言形式組合的詞對(duì)齊模型是從左向右，按照所述第一字符對(duì)照一個(gè)或多個(gè)所述第二字符的方式進(jìn)行對(duì)齊。
[0011 ] 其中，所述通過相似度算法，獲得第一候選項(xiàng)集合，所述第一候選項(xiàng)集合是通過所述相似度算法得到的相似度得分達(dá)到第一閾值的候選項(xiàng)的集合的步驟，包括:通過相似度算法，獲得每個(gè)所述候選項(xiàng)的相似度得分，其中，所述候選項(xiàng)的相似度得分是:
[0012]LH (C) =freq (c) -E [freq (c)],
[0013]所述c為所述候選項(xiàng)，所述freq(C)是所述c出現(xiàn)在所述第二字符串前面的頻次，所述E [freq (C)]是所述freq (c)的數(shù)學(xué)期望；
[0014]根據(jù)所述每個(gè)候選項(xiàng)的相似度得分，確定所述相似度得分達(dá)到所述第一閾值的候選項(xiàng)，所述相似度得分達(dá)到所述第一閾值的候選項(xiàng)的集合即為所述第一候選項(xiàng)集合。
[0015]其中，所述greq(c)的數(shù)學(xué)期望是:
【權(quán)利要求】
1.一種在線自動(dòng)挖掘新詞的方法，其特征在于，包括: 獲取語料中的具有預(yù)設(shè)字符串形式的候選項(xiàng)集合；根據(jù)已建立的具有預(yù)設(shè)語言形式組合的詞對(duì)齊模型，獲取所述候選項(xiàng)集合中候選項(xiàng)所對(duì)應(yīng)的部分字符的概率；判斷所述候選項(xiàng)集合中候選項(xiàng)所對(duì)應(yīng)的部分字符的概率是否達(dá)到第二閾值，若達(dá)到所述第二閾值，則所述候選項(xiàng)集合中候選項(xiàng)即為挖掘到的新詞。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，獲取語料中的候選項(xiàng)集合的步驟包括: 從所述語料中收集具有預(yù)設(shè)形式的第一字符串組合，并獲取其中的候選項(xiàng)，所述候選項(xiàng)是預(yù)設(shè)形式的第一字符串組合中的第一字符串，所述第一字符串組合包括所述第一字符串和第二字符串，其中，所述第一字符串在所述第二字符串的前面且緊鄰所述第二字符串; 通過相似度算法，獲得候選項(xiàng)集合，所述候選項(xiàng)集合是通過所述相似度算法得到的相似度得分達(dá)到第一閾值的候選項(xiàng)的集合；所述根據(jù)已建立的具有預(yù)設(shè)語言形式組合的詞對(duì)齊模型，獲取所述候選項(xiàng)集合中候選項(xiàng)所對(duì)應(yīng)的部分字符的概率的步驟包括: 根據(jù)已建立的第一語言形式和第二語言形式組合的詞對(duì)齊模型，獲取所述候選項(xiàng)集合中候選項(xiàng)所對(duì)應(yīng)的第一字符串組合的概率，所述第一語言形式以第一字符表示，所述第二語言形式以第二字符表示；所述判斷所述候選項(xiàng)集合中候選項(xiàng)所對(duì)應(yīng)的部分字符的概率是否達(dá)到第二閾值的步驟包括:` 判斷所述候選項(xiàng)集合中候選項(xiàng)的加權(quán)得分是否達(dá)到第二閾值，其中，所述候選項(xiàng)集合中候選項(xiàng)的加權(quán)得分是根據(jù)所述候選項(xiàng)集合中候選項(xiàng)的相似度得分和所述候選項(xiàng)集合中候選項(xiàng)所對(duì)應(yīng)的第一字符串組合的概率進(jìn)行加權(quán)相加獲得的。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述根據(jù)已建立的第一語言形式和第二語言形式組合的詞對(duì)齊模型，獲取所述第一候選項(xiàng)集合中候選項(xiàng)所對(duì)應(yīng)的第一字符串組合的概率的步驟之前，包括: 根據(jù)已有的第一語言形式和第二語言形式組合的詞典，通過最大期望算法建立第一語言形式和第二語言形式組合的詞對(duì)齊模型。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述第一語言形式和第二語言形式組合的詞對(duì)齊模型是從左向右，按照所述第一字符對(duì)照一個(gè)或多個(gè)所述第二字符的方式進(jìn)行對(duì)齊。
5.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述通過相似度算法，獲得第一候選項(xiàng)集合，所述第一候選項(xiàng)集合是通過所述相似度算法得到的相似度得分達(dá)到第一閾值的候選項(xiàng)的集合的步驟，包括: 通過相似度算法，獲得每個(gè)所述候選項(xiàng)的相似度得分，其中，所述候選項(xiàng)的相似度得分是:
LH(C)=freq(c)-E[freq (c)], 所述c為所述候選項(xiàng)，所述freq(c)是所述c出現(xiàn)在所述第二字符串前面的頻次，所述E [freq (C)]是所述freq (c)的數(shù)學(xué)期望；根據(jù)所述每個(gè)候選項(xiàng)的相似度得分，確定所述相似度得分達(dá)到所述第一閾值的候選項(xiàng)，所述相似度得分達(dá)到所述第一閾值的候選項(xiàng)的集合即為所述第一候選項(xiàng)集合。
6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述freq(C)的數(shù)學(xué)期望是:
7.根據(jù)權(quán)利要求1至6任一項(xiàng)所述的方法，其特征在于，所述第一字符串和第二字符串分別是漢字和假名。
8.根據(jù)權(quán)利要求1至6任一項(xiàng)所述的方法，其特征在于，所述第一字符串和第二字符串分別是一種語言的單詞和與所述語言的單詞對(duì)應(yīng)的另一種語言的單詞。
9.根據(jù)權(quán)利要求2至6任一項(xiàng)所述的方法，其特征在于，所述預(yù)設(shè)形式是表征第一字符串組合的形式，所述第一字符串組合包括第一字符串并后緊跟括號(hào)內(nèi)的第二字符串。
10.根據(jù)權(quán)利要求2所述的方法，其特征在于，判斷所述第一候選項(xiàng)集合中候選項(xiàng)為挖掘到的新詞步驟之后，包括: 獲取用戶輸入的第二字符串，查詢所述詞典，獲取并順序顯示與所述輸入的第二字符串意思對(duì)應(yīng)的第一字符串候選項(xiàng)列表；判斷用戶輸入的第二字符串之后是否`輸入預(yù)定字符，如果是，則順序顯示第二字符串組合列表，所述第二字符串組合為與所述輸入的第二字符串意思對(duì)應(yīng)的第一字符串候選項(xiàng)和具有預(yù)定格式的第三字符串的組合；獲取用戶的第一命令，在所述第一命令為確定命令時(shí)，獲取并顯示用戶確定的第二字符串組合，其中，使所述第二字符串組合中的第三字符串獲得焦點(diǎn)；獲取用戶的第二命令，在所述第二命令為確定命令時(shí)，顯示所述用戶確定的第二字符串組合，并結(jié)束流程，在所述第二命令為變換命令時(shí)，查詢所述詞典，獲取并順序顯示與所述第二字符串組合中的第一字符串候選項(xiàng)意思對(duì)應(yīng)的第四字符串列表；獲取用戶確定的第四字符串，顯示所述第二字符串組合中的第一字符串候選項(xiàng)和具有預(yù)定格式的所述確定的第四字符串。
11.根據(jù)權(quán)利要求10所述的方法，其特征在于，所述第一字符串為漢字，所述第二字符串為假名，所述預(yù)定字符為左括號(hào)。
12.根據(jù)權(quán)利要求11所述的方法，其特征在于，所述第三字符串包括輸入的假名和/或與漢字候選項(xiàng)意思對(duì)應(yīng)的英文候選項(xiàng)；所述第四字符串包括與其前面的漢字候選項(xiàng)意思對(duì)應(yīng)的假名候選項(xiàng)和/或英文候選項(xiàng)。
13.根據(jù)權(quán)利要求12所述的方法，其特征在于，所述第四字符串中的假名候選項(xiàng)包括平假名、或片假名、或假名羅馬字候選項(xiàng)。
14.根據(jù)權(quán)利要求11所述的方法，其特征在于，所述查詢所述的詞典的步驟包括:查詢本方法建立的漢字與假名的詞典和/或查詢本方法建立的日文與英文的詞典。
15.根據(jù)權(quán)利要求10所述的方法，其特征在于，所述預(yù)定格式為括號(hào)格式。
16.根據(jù)權(quán)利要求10所述的方法，其特征在于，所述確定命令是鍵盤的“enter”鍵所觸發(fā)的命令，所述變換命令是鍵盤的空格鍵所觸發(fā)的命令，所述第三字符串獲得焦點(diǎn)表現(xiàn)為所述第三字符串加下劃線。
17.一種電子裝置，其特征在于，包括:生成模塊、第二獲取模塊以及第一判斷模塊；所述生成模塊用于獲取語料中的具有預(yù)設(shè)字符串形式的候選項(xiàng)集合；所述第二獲取模塊用于根據(jù)已建立的具有預(yù)設(shè)語言形式組合的詞對(duì)齊模型，獲取所述候選項(xiàng)集合中候選項(xiàng)所對(duì)應(yīng)的部分字符的概率；所述第一判斷模塊用于判斷所述候選項(xiàng)集合中候選項(xiàng)所對(duì)應(yīng)的部分字符的概率是否達(dá)到第二閾值，若達(dá)到所述第二閾值，則所述候選項(xiàng)集合中候選項(xiàng)即為挖掘到的新詞。
18.根據(jù)權(quán)利要求17所述的裝置，其特征在于，還包括第一獲取模塊；所述第一獲取模塊用于獲取語料中的多個(gè)候選項(xiàng)，所述候選項(xiàng)是預(yù)設(shè)形式的第一字符串組合中的第一字符串，所述第一字符串組合包括所述第一字符串和第二字符串，其中，所述第一字符串在所述第二字符串的前面且緊鄰所述第二字符串；所述生成模塊具體用于通過相似度算法，獲得第一候選項(xiàng)集合，所述第一候選項(xiàng)集合是通過所述相似度算法得到的相似度得分達(dá)到第一閾值的候選項(xiàng)的集合；所述第二獲取模塊具體用于根據(jù)已建立的第一語言形式和第二語言形式組合的詞對(duì)齊模型，獲取所述第一候選項(xiàng)集合中候選項(xiàng)所對(duì)應(yīng)的第一字符串組合的概率，所述第一語言形式以第一字符表示，所述第二語言形式以第二字符表示；所述第一判斷模塊具體用于判斷所述第一候選項(xiàng)集合中候選項(xiàng)的加權(quán)得分是否達(dá)到第二閾值，在達(dá)到所述第二閾值時(shí)，將所述第一候選項(xiàng)集合中候選項(xiàng)定為挖掘到的新詞，其中，所述第一候選項(xiàng)集合中候選項(xiàng)的加權(quán)得分是根據(jù)所述第一候選項(xiàng)集合中候選項(xiàng)的相似度得分和所述第一候選項(xiàng)集`合中候選項(xiàng)所對(duì)應(yīng)的所對(duì)應(yīng)的第一字符串組合的概率進(jìn)行加權(quán)相加獲得的。
19.根據(jù)權(quán)利要求18所述的裝置，其特征在于，所述第二獲取模塊包括建立單元，所述建立單元用于根據(jù)已有的第一語言形式和第二語言形式組合的詞典，通過最大期望算法建立第一語言形式和第二語言形式組合的詞對(duì)齊模型。
20.根據(jù)權(quán)利要求19所述的裝置，其特征在于，所述建立單元具體用于建立從左向右、按照所述第一字符對(duì)照一個(gè)或多個(gè)所述第二字符的方式進(jìn)行對(duì)齊的第一語言形式和第二語言形式組合的詞對(duì)齊模型。
21.根據(jù)權(quán)利要求18所述的裝置，其特征在于，所述生成模塊包括獲取單元以及判斷單元；所述獲取單元用于通過相似度算法，獲得每個(gè)所述候選項(xiàng)的相似度得分，其中，所述候選項(xiàng)的相似度得分是:
LH(C)=freq(c)-E[freq (c)], 所述c為所述候選項(xiàng)，所述freq(c)是所述c出現(xiàn)在所述第二字符串前面的頻次，所述E [freq (C)]是所述freq (c)的數(shù)學(xué)期望；所述判斷單元用于根據(jù)所述每個(gè)候選項(xiàng)的相似度得分，判斷所述相似度得分是否達(dá)到所述第一閾值，在所述相似度得分達(dá)到第一閾值時(shí)，將所述候選項(xiàng)放在所述第一候選項(xiàng)集口 ο
22.根據(jù)權(quán)利要求21所述的裝置，其特征在于，所述freq(c)的數(shù)學(xué)期望是:
23.根據(jù)權(quán)利要求18所述的裝置，其特征在于，所述第一獲取模塊進(jìn)一步用于從所述語料中收集具有預(yù)設(shè)形式的第一字符串組合。
24.根據(jù)權(quán)利要求17至23任一項(xiàng)所述的裝置，其特征在于，所述第一字符串和第二字符串分別是漢字和假名。
25.根據(jù)權(quán)利要求17至23任一項(xiàng)所述的裝置，其特征在于，所述第一字符串是一種語言的單詞，所述第二字符串是與所述語言的單詞對(duì)應(yīng)的另一種語言的單詞。
26.根據(jù)權(quán)利要求18至23任一項(xiàng)所述的裝置，其特征在于，所述預(yù)設(shè)形式是表征第二字符串組合的形式，所述第二字符串組合包括第一字符串和括號(hào)內(nèi)的第二字符串。
27.根據(jù)要求要求18所述的裝置，其特征在于，所述裝置還包括第一顯示模塊、第二判斷模塊、第二顯示模塊、第三顯示模塊及第四顯示模塊；所述第一顯示模塊用于獲取用戶輸入的第二字符串，查詢所述詞典，獲取并順序顯示與所述輸入的第二字符串意思對(duì)應(yīng)的第一字符串候選項(xiàng)列表；所述第二判斷模塊用于判斷用戶輸入的第二字符串之后是否輸入預(yù)定字符，并將判斷結(jié)果向第一顯不模塊發(fā)送；所述第一顯示模塊進(jìn)一步用于在用戶輸入的第二字符串之后輸入預(yù)定字符時(shí)，順序顯示第二字符串組合列表，所述第二字符串組合為與所述輸入的第二字符串意思對(duì)應(yīng)的第一字符串候選項(xiàng)和具有預(yù)定格式的第三字符串的組合；所述第二顯示模塊用于獲取用戶的第一命令，在所述第一命令為確定命令時(shí)，獲取并顯示用戶確定的第二字符串組合，其中，使所述第二字符串組合中的第三字符串獲得焦占.所述第三顯示模塊用于獲取用戶的第二命令，在所述第二命令為確定命令時(shí)，顯示所述用戶確定的第二字符串組合；在所述第二命令為變換命令時(shí)，查詢所述詞典，獲取并順序顯示與所述第二字符串組合中的第一字符串候選項(xiàng)意思對(duì)應(yīng)的第四字符串列表；所述第四顯示模塊用于獲取用戶確定的第四字符串，顯示所述第二字符串組合中的第一字符串候選項(xiàng)和具有預(yù)定格式的所述確定的第四字符串。
28.根據(jù)權(quán)利要求27所述的裝置，其特征在于，所述第一字符串為漢字，所述第二字符串為假名，所述預(yù)定字符為左括號(hào)。
29.根據(jù)要求要求28所述的裝置，其特征在于，所述第三字符串包括輸入的假名和/或與漢字候選項(xiàng)意思對(duì)應(yīng)的英文候選項(xiàng)；所述第四字符串包括與其前面的漢字候選項(xiàng)意思對(duì)應(yīng)的假名候選項(xiàng)和/或英文候選項(xiàng)。
30.根據(jù)權(quán)利要求29所述的裝置，其特征在于，所述第四字符串中的假名候選項(xiàng)包括平假名、或片假名、或假名羅馬字候選項(xiàng)。
31.根據(jù)權(quán)利要求28所述的裝置，其特征在于，所述查詢的詞典包括所述裝置建立的漢字與假名的詞典和/或所述裝置建立的日文與英文的詞典。
32.根據(jù)權(quán)利要求27所述的裝置，其特征在于，所述預(yù)定格式為括號(hào)格式。
33.根據(jù)權(quán)利要求27所述的裝置，其特征在于，所述確定命令是鍵盤的“enter”鍵所觸發(fā)的命令，所述變換命令是鍵盤的空格鍵所觸發(fā)的命令，所述第三字符串獲得焦點(diǎn)表現(xiàn)為所述第三字符串加下劃線。`
【文檔編號(hào)】G06F17/30GK103870449SQ201210525387
【公開日】2014年6月18日申請(qǐng)日期:2012年12月10日優(yōu)先權(quán)日:2012年12月10日
【發(fā)明者】吳先超申請(qǐng)人:百度國際科技（深圳）有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳先超
技術(shù)所有人：百度國際科技（深圳）有限公司
我是此專利的發(fā)明人

上一篇：一種專利在線交易系統(tǒng)的制作方法
上一篇：基于藍(lán)牙和指紋識(shí)別技術(shù)的教師身份認(rèn)證方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

在線自動(dòng)挖掘新詞的方法及電子裝置制造方法