本發(fā)明涉及翻譯技術領域,特別涉及一種詞典錄入方法及系統。
背景技術:
現有技術中,對于詞典類數據的錄入,一般由一人或兩人進行整本詞典的錄入工作,不僅耗時長,效率低而且還不能保證準確率。
技術實現要素:
本發(fā)明實施例提供了一種詞典錄入方法及系統,旨在解決如何提高詞典錄入結果的準確率。為了對披露的實施例的一些方面有一個基本的理解,下面給出了簡單的概括。該概括部分不是泛泛評述,也不是要確定關鍵/重要組成元素或描繪這些實施例的保護范圍。其唯一目的是用簡單的形式呈現一些概念,以此作為后面的詳細說明的序言。
根據本發(fā)明實施例的第一方面,提供了一種詞典錄入方法,包括:獲取多個錄入字符信息,多個字符信息為對同一詞條圖片進行錄入后的信息;當多個錄入字符信息中相同語素位置同一語素出現的概率大于閾值時,確定語素為最終語素。
根據本發(fā)明實施例的第二方面,提供一種詞典錄入系統,包括:錄入模塊,用于獲取多個錄入字符信息,錄入字符信息為對同一詞條圖片進行錄入后的信息,最終語素模塊,當錄入模塊獲取的多個錄入字符信息中相同語素位置同一語素出現的概率大于閾值時,確定同一語素為最終語素。
本發(fā)明實施例提供的技術方案可以包括以下有益效果:
在本發(fā)明中,針對同一詞條圖片,能夠獲得多個錄入字符信息,通過篩選出多個錄入字符信息中相同語素位置出現概率大于閾值的同一語素,能夠確保在多個錄入字符信息中篩選出準確性較高的錄入結果,因此能夠有效提高詞典錄入結果的準確性。
應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本發(fā)明。
附圖說明
此處的附圖被并入說明書中并構成本說明書的一部分,示出了符合本發(fā)明的實施例,并與說明書一起用于解釋本發(fā)明的原理。
圖1是根據一示例性實施例示出的一種詞典錄入方法的流程示意圖;
圖2是根據一示例性實施例示出的一種詞典錄入方法的流程示意圖;
圖3是根據一示例性實施例示出的一種詞典錄入方法的流程示意圖;
圖4是根據一示例性實施例示出的一種詞典錄入方法的流程示意圖;
圖5是根據一示例性實施例示出的一種詞典錄入系統的框圖;
圖6是根據一示例性實施例示出的一種詞典錄入系統的框圖;
圖7是根據一示例性實施例示出的一種詞典錄入系統的框圖;
附圖標記說明:1、錄入模塊;2、最終語素模塊;3、識別模塊;4、修正模塊;5、獲取模塊。
具體實施方式
以下描述和附圖充分地示出本發(fā)明的具體實施方案,以使本領域的技術人員能夠實踐它們。實施例僅代表可能的變化。除非明確要求,否則單獨的部件和功能是可選的,并且操作的順序可以變化。一些實施方案的部分和特征可以被包括在或替換其他實施方案的部分和特征。本發(fā)明的實施方案的范圍包括權利要求書的整個范圍,以及權利要求書的所有可獲得的等同物。在本文中,各實施方案可以被單獨地或總地用術語“發(fā)明”來表示,這僅僅是為了方便,并且如果事實上公開了超過一個的發(fā)明,不是要自動地限制該應用的范圍為任何單個發(fā)明或發(fā)明構思。本文中,諸如第一和第二等之類的關系術語僅僅用于將一個實體或者操作與另一個實體或操作區(qū)分開來,而不要求或者暗示這些實體或操作之間存在任何實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素。本文中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似部分互相參見即可。對于實施例公開的結構、產品等而言,由于其與實施例公開的部分相對應,所以描述的比較簡單,相關之處參見方法部分說明即可。
本發(fā)明實施例提供一種詞典錄入方法及系統,旨在解決如何提高詞典錄入結果的準確率。為了實現上述目的,如圖1所示,本發(fā)明實施例包括:
步驟S101:獲取多個錄入字符信息,多個錄入字符信息為對同一詞條進行錄入后的信息。
步驟S102:當多個錄入字符信息中相同語素位置同一語素出現的概率大于閾值時,確定該語素為最終語素。
其中,由于多個錄入字符信息是針對同一詞條圖片進行錄入后的結果,因此多個錄入字符信息的語句結構應當一致,因此在多個錄入字符信息中相同語素位置的語素應該相同,通過篩選出多個錄入字符信息中相同語素位置出現概率大于閾值的同一語素,能夠確保錄入結果的準確性。閾值的具體數值可以為0.5、0.6、0.7、(0.7,0.9)等,在此不做限定,只要能夠保證篩選出的同一語素更加準確即可。
在本實施例中,針對同一詞條圖片,能夠獲得多個錄入字符信息,通過篩選出多個錄入字符信息中相同語素位置出現概率大于閾值的同一語素,能夠確保在多個錄入字符信息中篩選出準確性較高的錄入結果,因此能夠有效提高詞典錄入結果的準確性。
在上述實施例中,確定語素為最終語素有多種實現方法,作為一種可選的實施例,當對應的詞典庫中存在該語素時,確定語素為最終語素。當對應的詞典庫中不存在該語素時,重新獲取多個錄入字符信息。通過在對應的詞典庫中查找該語素,能夠確保最終語素的準確性。
在上述實施例中,如果詞典錄入方法的錄入對象的是英漢詞典,那么多個錄入字符信息中既包括中文漢字語素,也包括英文單詞語素,中文漢字語素對應中文詞典,英文單詞語素對應英文詞典,當多個錄入字符信息中相同語素位置出現概率大于閾值的同一語素為中文漢字語素時,對應的中文詞典中存在該漢字語素,則證明該漢字語素是一個存在的漢字,確定該漢字語素為最終語素。
在上述任一實施例中,可選的,如圖3,步驟S101之前還包括:
步驟S001:獲取識別字符信息,識別字符信息為詞條圖片進行光學字符識別后的信息。
進一步可選的,在本實施例中,還包括:
步驟S1021:當多個錄入字符信息和識別字符信息中相同語素位置同一語素出現的概率大于閾值時,確定語素為最終語素。
在本實施例中,利用光學字符識別技術錄入了一種識別字符信息,能夠增加同一詞條圖片的錄入結果,同時篩選出多個錄入字符信息和識別字符信息中相同語素位置出現概率大于閾值的同一語素,進一步提高錄入結果的準確性。當然,在本實施例中,步驟S001和步驟S101的前后順序可以改變。
在上述實施例中,如圖4所示,步驟S001之后還包括:
步驟S002:獲取多個修正字符信息,多個修正字符信息為對識別字符信息進行修正后的信息。
進一步可選的,在本實施例中,還包括:
步驟1022:當多個錄入字符信息、識別字符信息和多個修正字符信息中相同語素位置同一語素出現的概率大于閾值時,確定語素為最終語素。
在本實施例中,通過對識別字符信息進行修正,又增加了一種新的錄入結果情況,同時篩選出多個錄入字符信息、識別字符信息和修正字符信息中相同語素位置出現概率大于閾值的同一語素,進一步提高錄入結果的準確性。
可選的,在上述任一實施例中,如圖2至圖4所示,還包括:
步驟S01:獲取詞典的掃描圖片;
步驟S02:獲取掃描圖片按照詞條切割后的詞條圖片。
其中切割后的詞條圖片可以是單個詞條的詞條圖片,也可以是多個詞條的詞條圖片,但是詞條圖片必須包含完整的詞條信息。例如對英漢詞典的掃描圖片,切割后的詞條圖片應該包含單詞及其釋義或短語及其釋義的完整信息。通過對詞典掃描片進行切割,可以將整個詞典分為多個部分,通過把詞典的不同部分利用上述任一實施例中的詞典錄入方法進行錄入,能夠有效提高詞典錄入的效率,節(jié)省大量時間。
本發(fā)明實施例還公開了一種詞典錄入系統,如圖5所示,包括錄入模塊1,用于獲取多個錄入字符信息,多個錄入字符信息為對同一詞條圖片進行錄入后的信息,最終語素模塊2,當錄入模塊1獲取的多個錄入字符信息中相同語素位置同一語素出現的概率大于閾值時,確定該語素為最終語素。
其中,由于多個錄入字符信息是針對同一詞條圖片進行錄入后的結果,因此多個錄入字符信息的語句結構應當一致,因此在多個錄入字符信息中相同語素位置的語素應該相同,通過篩選出多個錄入字符信息中相同語素位置出現概率大于閾值的同一語素,能夠確保錄入結果的準確性。閾值的具體數值可以為0.5、0.6、0.7、(0.7,0.9)等,在此不做限定,只要能夠保證篩選出的同一語素更加準確即可。
在本實施例中,針對同一詞條圖片,錄入模塊1會錄入多個錄入字符信息,因此對于同一詞條圖片,會有多個錄入結果,通過篩選多個錄入字符信息中相同語素位置出現概率大于閾值的同一語素,能夠確保在多個錄入字符信息中篩選出準確性較高的錄入結果,因此能夠有效提高詞典錄入結果的準確性。
在上述實施例中,最終語素模塊2還用于當對應的詞典庫中存在該語素時,確定該語素為最終語素。最終語素模塊2還用于當對應的詞典庫中不存在該語素時,觸發(fā)錄入模塊1重新錄入多個錄入字符信息。通過在對應的詞典庫中查找該語素,能夠確保最終語素的準確性。
在上述實施例中,如果詞典錄入系統的錄入對象的是英漢詞典,那么多個錄入字符信息中既包括中文漢字語素,也包括英文單詞語素,中文漢字語素對應中文詞典,英文單詞語素對應英文詞典,當多個錄入字符信息中相同語素位置出現概率大于閾值的同一語素為中文漢字語素時,對應的中文詞典中存在該漢字語素,則證明該漢字語素是一個存在的漢字,確定該漢字語素為最終語素。
可選的,在上述任一實施例中,如圖3所示,還包括識別模塊3,用于獲取識別字符信息,識別字符信息為對同一詞條圖片進行光學字符識別后的信息。進一步可選的,最終語素模塊2還用于當錄入模塊1獲取的多個錄入字符信息和識別模塊3獲取的識別字符信息中相同語素位置同一語素出現的概率大于閾值時,確定該語素為最終語素。
在本實施例中,識別字符3利用光學字符識別技術錄入了一種識別字符信息,能夠增加同一詞條圖片的錄入結果,同時篩選出多個錄入字符信息和識別字符信息中相同語素位置出現概率大于閾值的同一語素,進一步提高錄入結果的準確性。
可選的,在上述實施例中,還包括:修正模塊4,用于獲取多個修正字符信息,多個修正字符信息是對識別字符信息進行修正后的信息。進一步可選的,最終語素模塊2還用于當錄入模塊1獲取的多個錄入字符信息、識別模塊3獲取的識別字符信息和修正模塊4獲取的多個修正字符信息中相同語素位置同一語素出現的概率大于閾值時,確定該語素為最終語素。
在本實施例中,通過修正模塊4獲取對識別字符信息進行修正的信息,又增加了一種新的錄入結果情況,同時篩選出多個錄入字符信息、識別字符信息和修正字符信息中相同語素位置出現概率大于閾值的同一語素,進一步提高錄入結果的準確性。
可選的,在上述詞典錄入系統的任一實施例中,如圖6和圖7所示,還包括:獲取模塊5,用于獲取詞典的掃描圖片,獲取模塊5還用于獲取掃描圖片按照詞條切割后的詞條圖片。
其中切割后的詞條圖片可以是單個詞條的詞條圖片,也可以是多個詞條的詞條圖片,但是詞條圖片必須包含完整的詞條信息。例如對英漢詞典的掃描圖片,切割后的詞條圖片應該包含單詞及其釋義或短語及其釋義的完整信息。通過對詞典掃描片進行切割,可以將整個詞典分為多個部分,通過把詞典的不同部分利用上述任一實施例中的詞典錄入系統進行錄入,能夠有效提高詞典錄入的效率,節(jié)省大量時間。
應當理解的是,本發(fā)明并不局限于上面已經描述并在附圖中示出的流程及結構,并且可以在不脫離其范圍進行各種修改和改變。本發(fā)明的范圍僅由所附的權利要求來限制。