人機交互的分詞與語義標示的方法與系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理技術(shù),特別涉及人機交互的分詞與語義標示的方法。
【背景技術(shù)】
[0002]作為自然語言的中文有著悠久的歷史,古文是沒有標點符號的,標點的使用讓中文更加易于理解。同樣分詞在自然語言處理相關(guān)的應(yīng)用中是非常重要的,分詞的結(jié)果將直接影響到具體應(yīng)用的效果。
[0003]分詞技術(shù)在近年來受到了人們的廣泛關(guān)注。所謂分詞,就是將文字序列切分成一個一個單獨的詞。以中文分詞技術(shù)為例,分詞技術(shù)的目標就是將例如但不限于一句話切分為一個一個單獨的中文詞語。
[0004]而將文字序列切分為單獨的詞,是實現(xiàn)機器識別人類語言的第一步,因此分詞技術(shù)至關(guān)重要。經(jīng)過多年的發(fā)展,研究人員已先后開發(fā)出多種分詞方法,包括例如但不限于基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法等等。
[0005]分詞過程中還存在一定的歧義現(xiàn)象。歧義指的是在分詞過程中存在多種切分選擇的情況,在分詞過程中如果出現(xiàn)歧義,現(xiàn)有技術(shù)中難以為消除歧義提供依據(jù)。容易得出使得機器理解自然語言,完全的自動化在當前背景下不現(xiàn)實,需要使用交互的方式進行。語義上的不確定性,使得作者與讀者的理解有偏差,特別地,在法律文件中,不應(yīng)存在模糊性。在這種情況下,人機交互的分詞與語義標示的方法存在十分必要。
【發(fā)明內(nèi)容】
[0006]本發(fā)明提供了人機交互的分詞與語義標示的方法,可以對文檔進行分詞、詞頻統(tǒng)計、消除二義性和對代詞或省略指代等信息進行處理。
[0007]該方法首先接收文檔輸入,默認進行分詞處理,用戶可以選擇確認分詞或進行人工干預(yù)。
[0008]系統(tǒng)收到進行人工分詞調(diào)整的指示包括增加和刪除兩種操作。
[0009]其中接收到增加分詞指示,提示用戶選中詞語,根據(jù)用戶的光標,高亮標記出的詞語,鼠標再一次松開后,詞語標記完成,添加分詞符號。
[0010]而接收到刪除指示,提示用戶選中詞語,根據(jù)用戶的光標,刪去原分詞符號,將原分詞與前后文合并。
[0011]除了進行分詞的調(diào)整還收到指示進行人工設(shè)置代詞或省略的指向。
[0012]用戶可操作光標定位在接近的計算機設(shè)備顯示設(shè)備上的圖形用戶界面(⑶I)中,系統(tǒng)收到指示進行人工指向提供至少一種指向選項和用戶自定義輸入框,用戶進行輸入選擇,系統(tǒng)接收用戶輸入的GUI選擇或自定義輸入。
[0013]在光標再次移動到該詞條上時,顯示出更新后的指代或省略信息。
[0014]對于有二義性的語句,系統(tǒng)提供用戶自定義輸入框,由用戶進行選擇輸入,系統(tǒng)進行更新保存。
[0015]本發(fā)現(xiàn)還公布了人機交互的分詞與語義標示的系統(tǒng),系統(tǒng)包括獲取輸入模塊、分詞處理模塊、指代設(shè)置模塊及顯示模塊。
[0016]獲取輸入模塊接收文檔的輸入;分詞處理模塊對文檔進行初步處理,與數(shù)據(jù)庫進行匹配,進行分詞;指代設(shè)著模塊包括對文檔指代不明及省略部分提供指代選擇與接收用戶的選擇及輸入,還包括接收用戶對二義性語句的輸入釋義;顯示模塊處理對分詞結(jié)果的顯不O
【附圖說明】
[0017]圖1是用來呈現(xiàn)人機交互的分詞與語義標示的方法的流程圖。
[0018]圖2是人機交互的分詞與語義標示的系統(tǒng)對分詞結(jié)果呈現(xiàn)的示意圖。
[0019]圖3是刪除系統(tǒng)分詞示意圖。
[0020]圖4是添加系統(tǒng)分詞示意圖。
[0021]圖5是用來呈現(xiàn)人機交互的分詞與語義標示的系統(tǒng)對指代設(shè)置示意圖。
[0022]圖6是用來呈現(xiàn)人機交互的分詞與語義標示的系統(tǒng)對指代選擇示意圖。
[0023]圖7是用來呈現(xiàn)人機交互的分詞與語義標示的系統(tǒng)對指代自定義輸入示意圖。
[0024]圖8是用來呈現(xiàn)人機交互的分詞與語義標示的系統(tǒng)對語句二義性處理示意圖。
[0025]圖9是用來呈現(xiàn)人機交互的分詞與語義標示的系統(tǒng)對語句二義性用戶輸入示意圖。
[0026]圖10是人機交互的分詞與語義標示的系統(tǒng)模塊圖。
【具體實施方式】
[0027]圖1是用來呈現(xiàn)人機交互的分詞與語義標示的方法的流程圖。
[0028]該方法從101開始,首先接收文檔輸入,102根據(jù)用戶輸入和默認詞典進行初始化分詞,識別的詞語用分詞符號進行標記。
[0029]之后用戶可以選擇確認分詞或進行人工干預(yù)。
[0030]如用戶不進行人工干預(yù),則通過113步驟達到114結(jié)束。如用戶進行103手動調(diào)整,則可以選擇104分詞調(diào)整或者108指代及二義調(diào)整。
[0031]系統(tǒng)105接受分詞調(diào)整包括增加和刪除兩種操作。
[0032]106設(shè)置分詞符號,如接收到增加分詞指示,提示用戶選中詞語,根據(jù)用戶的光標,高亮標記出的詞語,鼠標再一次松開后,詞語標記完成,添加分詞符號。
[0033]而接收到刪除指示,提示用戶選中詞語,根據(jù)用戶的光標,刪去原分詞符號,將原分詞與前后文合并。107進行整合上下文。
[0034]除了進行分詞的調(diào)整還收到指示進行人工設(shè)置代詞或省略的指向。
[0035]109接受人工指向指示,用戶可操作光標定位在接近的計算機設(shè)備顯示設(shè)備上的圖形用戶界面(GUI)中,110系統(tǒng)收到指示進行人工指向提供至少一種指向選項和用戶自定義輸入框,用戶進行輸入選擇,系統(tǒng)接收用戶輸入的GUI選擇或自定義輸入。
[0036]111接受用戶的選擇及輸入,在光標再次移動到該詞條上時,顯示出更新后的指代或省略信息。
[0037]對于有二義性的語句,110系統(tǒng)用戶自定義輸入框,111由用戶進行選擇輸入,進行112顯示并保存更新,最后114結(jié)束。
[0038]圖2是人機交互的分詞與語義標示的系統(tǒng)分詞結(jié)果呈現(xiàn)的示意圖,分詞結(jié)果如201古詩及202廣寒宮所示。
[0039]圖3是刪除系統(tǒng)分詞示意圖,用戶點擊301刪除分詞符進行刪除操作。
[0040]圖4是添加系統(tǒng)分詞示意圖,用戶使用光標指示選擇需要添加的分詞401,點擊添加分詞符402進行添加操作。
[0041]圖5是用來呈現(xiàn)人機交互的分詞與語義標示的系統(tǒng)對指代設(shè)置示意圖,用戶使用光標指示選擇需要進行指代設(shè)置的501,點擊指代設(shè)置502進行操作。
[0042]圖6是用來呈現(xiàn)人機交互的分詞與語義標示的系統(tǒng)對指代選擇示意圖,界面顯示指代選擇601月亮、廣寒宮闕及602自定義輸入。
[0043]圖7是用來呈現(xiàn)人機交互的分詞與語義標示的系統(tǒng)指代自定義輸入示意圖,在輸入框701中輸入指代內(nèi)容。
[0044]圖8是用來呈現(xiàn)人機交互的分詞與語義標示的系統(tǒng)語句二義性處理示意圖801為選擇的有二義性的語句。
[0045]圖9是用來呈現(xiàn)人機交互的分詞與語義標示的系統(tǒng)語句二義性用戶輸入示意圖,901為二義性語句用戶自定義輸入框。
[0046]圖10是人機交互的分詞與語義標示的系統(tǒng)模塊圖,系統(tǒng)包括115獲取輸入模塊、116分詞處理模塊、117指代設(shè)置模塊及118顯示模塊。
[0047]115獲取輸入模塊接收文檔的輸入;116分詞處理模塊對文檔進行初步處理,與數(shù)據(jù)庫進行匹配,進行分詞;117指代設(shè)著模塊包括對文檔指代不明及省略部分提供指代選擇與接收用戶的選擇及輸入,還包括接收用戶對二義性語句的輸入釋義;118顯示模塊處理對分詞結(jié)果的顯示。
【主權(quán)項】
1.人機交互的分詞與語義標示的方法,包括: A、接收輸入,默認分詞 B、收到指示進行人工分詞調(diào)整 C、收到指示進行人工設(shè)置代詞或省略的指向 D、收到指示對于二義性語句進行釋義輸入 E、接收、顯示并保存用戶的更新操作。2.根據(jù)權(quán)利要求1所述的方法,其特征在于:人機交互入口為在分詞過程中收到的用戶指示操作。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的A步驟包括: 根據(jù)輸入的文本,以詞庫為依據(jù)進行匹配,將識別出的詞匯與其他未識別部分進行標記,達到視覺上的區(qū)分;區(qū)分呈現(xiàn)的方式包括但不限于使用下劃線標記出識別的部分,或采用豎線、斜線等符號進行分隔。4.根據(jù)權(quán)利要求3所述的方法,其特征在于: 詞匯的匹配方式包括但不限于使用正向迭代匹配,即正序逐字識別、與詞庫進行比對,一般默認采用正向最大長度匹配原則并進行詞頻統(tǒng)計。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的B步驟包括: 接收到的人工分詞指示包括刪除默認識別標記和添加新的識別標記,分詞的詞匯頻率統(tǒng)計將在每一次對詞匯識別的人工操作后進行更新。6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的C步驟包括: 接收到的指不為定義指代指不;將識別光標在GUI中接近的文本作為使用了指代或省略的對象,提供至少一種對象選項;接收用戶確認的指代或省略對象;提供至少一種指代或省略的具體內(nèi)容選項;接收用戶確認的指代或省略的具體內(nèi)容。7.根據(jù)權(quán)利要求6所述的方法,其特征在于: 用戶確認指代或省略對象、指代或省略具體內(nèi)容的方式包括但不限于在提供的單選列表中進行選擇或手動輸入。8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的D步驟包括: 接收到的指示為二義性指示;對于有二義性的語句,接收用戶的自定義輸入釋義。9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的E步驟包括: 分詞結(jié)果、代詞或省略指代和二義性等信息隨著源文件一起保存,包括但不限于使用插件或通過格式文件存儲;保存的方式包括但不限于本地保存和保存到互聯(lián)網(wǎng)或云端。10.本發(fā)現(xiàn)還公布了人機交互的分詞與語義標示的系統(tǒng),系統(tǒng)包括獲取輸入模塊、分詞處理模塊、指代設(shè)置模塊及顯示模塊: 獲取輸入模塊接收文檔的輸入;分詞處理模塊對文檔進行初步處理,與數(shù)據(jù)庫進行匹配,進行分詞;指代設(shè)著模塊包括對文檔指代不明及省略部分提供指代選擇與接收用戶的選擇及輸入,還包括接收用戶對二義性語句的輸入釋義;顯示模塊處理對分詞結(jié)果的顯示。
【專利摘要】本發(fā)明公布了人機交互的分詞與語義標示的方法,其中包括:接收文檔輸入,默認分詞;收到指示人工進行分詞增加刪除調(diào)整;進行人工設(shè)置代詞或省略的指向和對二義性語句進行釋義輸入;最后接收、顯示并保存用戶的更新操作。本發(fā)現(xiàn)還公布了人機交互的分詞與語義標示的系統(tǒng),系統(tǒng)包括獲取輸入模塊、分詞處理模塊、指代設(shè)置模塊及顯示模塊。
【IPC分類】G06F17/27, G06F3/0481
【公開號】CN104899187
【申請?zhí)枴緾N201410080020
【發(fā)明人】蔡天琪, 陳竹心, 王墅, 陳澤昊, 徐家輝, 蔡恒進
【申請人】武漢元寶創(chuàng)意科技有限公司
【公開日】2015年9月9日
【申請日】2014年3月6日