專利名稱:與輸入法集成的語義標(biāo)注系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)處理和輸入領(lǐng)域,具體涉及與輸入法集成的語義標(biāo)注系統(tǒng)和方法。
背景技術(shù):
隨著IT技術(shù)特別是Web 2.0技術(shù)的迅速發(fā)展,用戶產(chǎn)生內(nèi)容(包括各種類型的桌面文檔,以及大量的在線文檔-帖子博客等)數(shù)量每天以驚人的速度增長(zhǎng),人們借助上述內(nèi)容來和別人交流自己的想法,闡述自己的觀點(diǎn),甚至對(duì)現(xiàn)有產(chǎn)品和服務(wù)進(jìn)行評(píng)價(jià)或者表達(dá) 投訴意見。所述用戶產(chǎn)生內(nèi)容無論對(duì)于個(gè)人或者商業(yè)機(jī)構(gòu)都有極高的價(jià)值,無論是實(shí)時(shí)跟蹤分析或者日后檢索回顧,都需要技術(shù)能夠?qū)@些產(chǎn)生的內(nèi)容進(jìn)行檢索和方便定位,基于內(nèi)容中的原始特征比如關(guān)鍵詞做索引供檢索是一種方法,但是讓后期檢索需要記憶這些原始特征,對(duì)最終用戶的記憶力將是一個(gè)挑戰(zhàn),反而人對(duì)更抽象的內(nèi)容更容易記憶,舉例來說,讓人記住某個(gè)具體的菜名很難,但是記住菜系反倒容易一些。因此對(duì)上述用戶產(chǎn)生內(nèi)容做語義角度上的概括和標(biāo)注將非常有利于后期對(duì)內(nèi)容的查找和定位。對(duì)文檔做語義標(biāo)注從標(biāo)注發(fā)生的時(shí)間段來看,分為編輯中創(chuàng)建和編輯后增加。編輯中創(chuàng)建意思是說在文檔的編寫過程中增加語義標(biāo)簽。而編輯后增加則是文檔完成后,通過自動(dòng)化或者半自動(dòng)化方式增加語義標(biāo)簽。為減輕人增加和確認(rèn)語義標(biāo)簽的工作量,目前流行的通常是編輯后增加語義標(biāo)簽,通過機(jī)器學(xué)習(xí)自動(dòng)提取可能的標(biāo)簽,對(duì)不確定的留給用戶確認(rèn)。無論采用何種機(jī)器學(xué)習(xí)算法,都需要人工創(chuàng)建一些標(biāo)注好的文檔作為訓(xùn)練樣本,因此人工進(jìn)行一定量的語義標(biāo)注是無法避免的,同時(shí)語義標(biāo)注是一個(gè)動(dòng)態(tài)的過程,錯(cuò)誤標(biāo)簽糾正工作量也非常巨大。這些工作都需要進(jìn)行人工的輸入和語義標(biāo)注?,F(xiàn)有的自動(dòng)語義標(biāo)注方法如圖I所示,該方法包括步驟A、獲取新的文字段落,并將其存儲(chǔ)到文字段落存儲(chǔ)單元中;步驟B、對(duì)這個(gè)段落進(jìn)行語法分析,并將結(jié)果存儲(chǔ)到語法分析結(jié)果存儲(chǔ)單元中; 步驟C、根據(jù)存儲(chǔ)的文字段落和語法分析結(jié)果獲取語義標(biāo)注插件分析出對(duì)應(yīng)的語義標(biāo)簽,并最終將標(biāo)注對(duì)象和語義標(biāo)注返回。通常來說,該方法通過如圖2所示的自動(dòng)語義標(biāo)注系統(tǒng)實(shí)現(xiàn)。所述系統(tǒng)包括應(yīng)用模塊、語法處理模塊和語義類識(shí)別管理模塊,其中應(yīng)用模塊用于獲取新的文字段落,并將其存儲(chǔ)到文字段落存儲(chǔ)單元中;語法處理模塊用于對(duì)這個(gè)段落進(jìn)行語法分析,并將結(jié)果存儲(chǔ)到語法分析結(jié)果存儲(chǔ)單元中;而語義類識(shí)別管理模塊用于根據(jù)存儲(chǔ)的文字段落和語法分析結(jié)果獲取語義標(biāo)注插件分析出對(duì)應(yīng)的語義標(biāo)簽,并最終將標(biāo)注對(duì)象和語義標(biāo)注返回。上述的自動(dòng)語義標(biāo)注方法和系統(tǒng)通常在整段文字編輯結(jié)束后進(jìn)行語義的標(biāo)注和返回,因此通常缺乏用戶確認(rèn)的環(huán)節(jié),使得自動(dòng)語義標(biāo)注出現(xiàn)的誤差難以得到修正,影響語義標(biāo)注的效率。因此如何將標(biāo)注融合到編輯中,化整為零,提高系統(tǒng)使用的方便性和語義標(biāo)注的準(zhǔn)確率是目如亟需解決的問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于提高用戶進(jìn)行語義標(biāo)注的方便性和準(zhǔn)確率。本發(fā)明公開了一種與輸入法集成的語義標(biāo)注系統(tǒng),所述系統(tǒng)包括輸入法模塊,用于進(jìn)行文字輸入并將輸入的文字信息存儲(chǔ)在文字段落存儲(chǔ)單元中;
編輯空閑檢測(cè)模塊,用于跟蹤文字段落存儲(chǔ)單元的信息,檢測(cè)用戶是否處于編輯空閑狀態(tài),并在用戶處于編輯空閑狀態(tài)時(shí)向消息模塊發(fā)送編輯空閑消息以示意用戶處于編輯空閑狀態(tài);消息模塊,用于根據(jù)所述編輯空閑消息向語義類識(shí)別管理模塊發(fā)送語義分析請(qǐng)求消息;語義類識(shí)別管理模塊,用于根據(jù)語義分析請(qǐng)求消息分析所述輸入的文字信息提取出包括預(yù)標(biāo)注對(duì)象和預(yù)語義標(biāo)簽的標(biāo)注對(duì),將所述標(biāo)注對(duì)保存到預(yù)標(biāo)注對(duì)象和語義標(biāo)注存儲(chǔ)單元,并向用戶確認(rèn)模塊發(fā)送語義標(biāo)注確認(rèn)請(qǐng)求消息;用戶確認(rèn)模塊,用于根據(jù)語義標(biāo)注確認(rèn)請(qǐng)求消息向用戶展示所述預(yù)標(biāo)注對(duì)象和語義標(biāo)簽的可選項(xiàng)供用戶選擇,將用戶選擇確認(rèn)后的標(biāo)注結(jié)果返回作為元數(shù)據(jù)或附加數(shù)據(jù)存儲(chǔ)。其中,所述用戶確認(rèn)模塊還包括語義標(biāo)注修改模塊和語義標(biāo)注確認(rèn)模塊,所述語義標(biāo)注修改模塊用于向用戶展示所述預(yù)標(biāo)注對(duì)象以及所述輸入的文字信息供用戶對(duì)預(yù)標(biāo)注對(duì)象進(jìn)行修改,將用戶修改確認(rèn)的標(biāo)注存儲(chǔ)于標(biāo)注結(jié)果存儲(chǔ)單元;所述語義標(biāo)注確認(rèn)模塊用于向用戶展示所述語義標(biāo)簽的可選項(xiàng)供用戶選擇,將用戶選擇確認(rèn)后的語義標(biāo)簽存儲(chǔ)于標(biāo)注結(jié)果存儲(chǔ)單元,并將標(biāo)注結(jié)果存儲(chǔ)單元中的標(biāo)注結(jié)果返回作為元數(shù)據(jù)或附加數(shù)據(jù)存儲(chǔ)。其中,供用戶選擇的語義標(biāo)簽的可選項(xiàng)的默認(rèn)項(xiàng)為存儲(chǔ)于預(yù)標(biāo)注對(duì)象和語義標(biāo)注存儲(chǔ)單元中的預(yù)語義標(biāo)簽。所述編輯空閑檢測(cè)模塊根據(jù)預(yù)定編輯空閑條件判斷用戶是否處于編輯空閑狀態(tài)。其中,所述系統(tǒng)還包括語義標(biāo)注云收集模塊,所述語義標(biāo)注云收集模塊將用戶修改并確認(rèn)后的標(biāo)注結(jié)果以及標(biāo)注對(duì)象的上下文信息,經(jīng)過去重后上傳存儲(chǔ)到網(wǎng)絡(luò)側(cè)的大規(guī)模標(biāo)注語料存儲(chǔ)單元中。其中,所述大規(guī)模標(biāo)注語料存儲(chǔ)單元中存儲(chǔ)的語料在網(wǎng)絡(luò)側(cè)或終端側(cè)訓(xùn)練為語料模型供所述語義類識(shí)別管理模塊下載使用。本發(fā)明還公開了一種與輸入法集成的語義標(biāo)注方法,所述方法包括進(jìn)行文字輸入并將輸入的文字信息存儲(chǔ)在文字段落存儲(chǔ)單元中;跟蹤文字段落存儲(chǔ)單元的信息,檢測(cè)用戶是否處于編輯空閑狀態(tài),并在用戶處于編輯空閑狀態(tài)時(shí)向消息模塊發(fā)送編輯空閑消息以示意用戶處于編輯空閑狀態(tài);根據(jù)所述編輯空閑消息向語義類識(shí)別管理模塊發(fā)送語義分析請(qǐng)求消息;
根據(jù)語義分析請(qǐng)求消息分析所述輸入的文字信息提取出包括預(yù)標(biāo)注對(duì)象和預(yù)語義標(biāo)簽的標(biāo)注對(duì),將所述標(biāo)注對(duì)保存到預(yù)標(biāo)注對(duì)象和語義標(biāo)注存儲(chǔ)單元,并向用戶確認(rèn)模塊發(fā)送語義標(biāo)注確認(rèn)請(qǐng)求消息;根據(jù)語義標(biāo)注確認(rèn)請(qǐng)求消息向用戶展示所述預(yù)標(biāo)注對(duì)象和語義標(biāo)簽的可選項(xiàng)供用戶選擇,將用戶選擇確認(rèn)后的標(biāo)注結(jié)果返回作為元數(shù)據(jù)或附加數(shù)據(jù)存儲(chǔ)。其中,用戶確認(rèn)步驟進(jìn)一步包括向用戶展示所述預(yù)標(biāo)注對(duì)象以及所述輸入的文字信息供用戶對(duì)預(yù)標(biāo)注對(duì)象進(jìn)行修改,將用戶修改確認(rèn)的標(biāo)注存儲(chǔ)于標(biāo)注結(jié)果存儲(chǔ)單元;向用戶展示所述語義標(biāo)簽的可選項(xiàng)供用戶選擇,將用戶選擇確認(rèn)后的語義標(biāo)簽存儲(chǔ)于標(biāo)注結(jié)果存儲(chǔ)單元,并將標(biāo)注結(jié)果存儲(chǔ)單元中的標(biāo)注結(jié)果返回作為元數(shù)據(jù)或附加數(shù)據(jù)存儲(chǔ)。其中,供用戶選擇的語義標(biāo)簽的可選項(xiàng)的默認(rèn)項(xiàng)為存儲(chǔ)于預(yù)標(biāo)注對(duì)象和語義標(biāo)注存儲(chǔ)單元中的預(yù)語義標(biāo)簽。根據(jù)預(yù)定編輯空閑條件判斷用戶是否處于編輯空閑狀態(tài)。其中,所述方法還包括步驟將用戶修改并確認(rèn)后的標(biāo)注結(jié)果以及標(biāo)注對(duì)象的上下文信息,經(jīng)過去重后上傳存儲(chǔ)到網(wǎng)絡(luò)側(cè)的大規(guī)模標(biāo)注語料存儲(chǔ)單元中。其中,所述方法還包括將所述大規(guī)模標(biāo)注語料存儲(chǔ)單元中存儲(chǔ)的語料在網(wǎng)絡(luò)側(cè)或終端側(cè)訓(xùn)練為語料模型供所述語義類識(shí)別管理模塊下載使用。本發(fā)明通過將語義標(biāo)注與輸入法集成為一體,實(shí)現(xiàn)了在用戶輸入文字過程中提示用戶對(duì)于自動(dòng)語義分析結(jié)果進(jìn)行人工確認(rèn),大大提高了元數(shù)據(jù)獲取效率和準(zhǔn)確率,同時(shí),增加了標(biāo)注對(duì)象修改以及網(wǎng)絡(luò)共享和協(xié)作功能,擴(kuò)展了語義標(biāo)注系統(tǒng)的應(yīng)用范圍,進(jìn)一步提高了系統(tǒng)的可用性。
圖I是現(xiàn)有的自動(dòng)語義標(biāo)注方法的方法流程圖;圖2是現(xiàn)有的自動(dòng)語義標(biāo)注系統(tǒng)的框圖; 圖3是本發(fā)明第一實(shí)施例的與輸入法集成的語義標(biāo)注系統(tǒng)的框圖;圖4是本發(fā)明第一實(shí)施例的與輸入法集成的語義標(biāo)注方法的流程圖;圖5是本發(fā)明第一實(shí)施例的用戶確認(rèn)界面的示意圖;圖6是本發(fā)明第二實(shí)施例的與輸入法集成的語義標(biāo)注系統(tǒng)的框圖;圖7是本發(fā)明第二實(shí)施例的用戶確認(rèn)界面的示意圖;圖8是本發(fā)明第三實(shí)施例的與輸入法集成的語義標(biāo)注系統(tǒng)的框圖。
具體實(shí)施例方式下面結(jié)合附圖來進(jìn)一步說明本發(fā)明的具體實(shí)施方式
。任何應(yīng)用程序的輸入都會(huì)借助于特定的輸入裝置,比如對(duì)于中文文本,就需要中文輸入法,所有輸入的信息都會(huì)通過輸入法輸入到對(duì)應(yīng)的應(yīng)用程序比如微軟Word處理軟件。本實(shí)施例將語義標(biāo)注與輸入法進(jìn)行集成中,這樣就做到了將標(biāo)注過程跳出應(yīng)用程序,而且也將標(biāo)注和應(yīng)用解耦。借助于機(jī)器方法獲取的預(yù)標(biāo)注信息呈現(xiàn)給應(yīng)用系統(tǒng)之前,就如選擇輸入詞一樣讓用戶進(jìn)行確認(rèn)。以實(shí)現(xiàn)用戶確認(rèn)環(huán)節(jié)。由此使得用戶使用時(shí)將語義表述過程和文字輸入融合為一體,因此會(huì)提高標(biāo)注效率和準(zhǔn)確性。圖3是本發(fā)明第一實(shí)施例的與輸入法集成的語義標(biāo)注系統(tǒng)的框圖。所述系統(tǒng)包括,輸入法模塊、用戶確認(rèn)模塊、編輯空閑檢測(cè)模塊、消息處理模塊和語義類識(shí)別管理模塊。其中,輸入法模塊用于進(jìn)行文字輸入,輸入的文字信息存儲(chǔ)在文字段落存儲(chǔ)單元中。編輯空閑檢測(cè)模塊一直運(yùn)行跟蹤文字段落存儲(chǔ)單元的信息,檢測(cè)用戶是否處于編輯空閑狀態(tài),如果用戶處于編輯空閑狀態(tài),例如用戶在預(yù)定時(shí)間段內(nèi)未輸入文字或者用戶輸入表示對(duì)句子或段落進(jìn)行意群分割的標(biāo)點(diǎn)符號(hào)(如逗號(hào)、句號(hào)、分號(hào)等),則編輯空閑檢測(cè)模塊向消息模塊發(fā)送編輯空閑消息以示意用戶處于編輯空閑狀態(tài)。消息模塊根據(jù)所述編輯空閑消息,向語義類識(shí)別管理模塊發(fā)送語義分析請(qǐng)求消肩、O語義類識(shí)別管理模塊根據(jù)語義分析請(qǐng)求消息分析存儲(chǔ)在文字段落存儲(chǔ)單元中的文字段落并提取出所有語義標(biāo)注對(duì)(包括語義標(biāo)注對(duì)象和語義標(biāo)簽),并保存到預(yù)標(biāo)注對(duì)象和語義標(biāo)注存儲(chǔ)單元,并向用戶確認(rèn)模塊發(fā)送語義標(biāo)注確認(rèn)請(qǐng)求消息。用戶確認(rèn)模塊包括語義標(biāo)注確認(rèn)模塊,語義標(biāo)注確認(rèn)模塊根據(jù)語義標(biāo)注確認(rèn)請(qǐng)求 消息會(huì)啟動(dòng)用戶確認(rèn)處理過程,向用戶展示標(biāo)注對(duì)象以及語義標(biāo)簽的可選項(xiàng)供用戶選擇,其中的默認(rèn)選項(xiàng)為語義類識(shí)別管理模塊存儲(chǔ)在預(yù)標(biāo)注對(duì)象和語義標(biāo)注存儲(chǔ)單元中的預(yù)標(biāo)注標(biāo)簽,用戶選擇確認(rèn)后的信息保存到標(biāo)注結(jié)果存儲(chǔ)單元中,并返回標(biāo)注結(jié)果作為元數(shù)據(jù)或附加數(shù)據(jù)存儲(chǔ)。優(yōu)選地,消息傳遞的方式可以采用設(shè)置用于存儲(chǔ)編輯空閑消息的編輯空閑消息存儲(chǔ)單元、用于存儲(chǔ)語義分析請(qǐng)求消息的語義分析請(qǐng)求消息存儲(chǔ)單元、用于存儲(chǔ)語義標(biāo)注確認(rèn)請(qǐng)求消息的語義標(biāo)注確認(rèn)請(qǐng)求消息存儲(chǔ)單元。各處理模塊通過改變上述消息存儲(chǔ)單元的信息內(nèi)容以及監(jiān)控對(duì)應(yīng)消息存儲(chǔ)單元的信息內(nèi)容的變化來發(fā)送消息和獲取消息。例如,編輯空閑檢測(cè)模塊檢測(cè)到用戶處于編輯空閑狀態(tài)時(shí)更新所述編輯空閑消息存儲(chǔ)單元中的用戶狀態(tài)為空閑,消息模塊檢測(cè)到所述編輯空閑消息存儲(chǔ)單元用戶狀態(tài)改變?yōu)榭臻e,則更新語義分析請(qǐng)求消息存儲(chǔ)單元中的信息。圖4為本發(fā)明第一實(shí)施例的與輸入法集成的語義標(biāo)注方法的流程圖。所述方法包括步驟100、進(jìn)行文字輸入,輸入的文字信息存儲(chǔ)在文字段落存儲(chǔ)單元中;步驟200、跟蹤文字段落存儲(chǔ)單元的信息,并檢測(cè)用戶是否處于編輯空閑狀態(tài),如果用戶處于編輯空閑狀態(tài),則向消息模塊發(fā)送編輯空閑消息以示意用戶處于編輯空閑狀態(tài);步驟300、根據(jù)所述編輯空閑消息,向語義類識(shí)別管理模塊發(fā)送語義分析請(qǐng)求消息;步驟400、根據(jù)語義分析請(qǐng)求消息分析存儲(chǔ)在文字段落存儲(chǔ)單元中的文字段落并提取出所有語義標(biāo)注對(duì)(包括語義標(biāo)注對(duì)象和語義標(biāo)簽),并保存到預(yù)標(biāo)注對(duì)象和語義標(biāo)注存儲(chǔ)單元,并向語義標(biāo)注確認(rèn)模塊發(fā)送語義標(biāo)注確認(rèn)請(qǐng)求消息;步驟500、根據(jù)語義標(biāo)注去人請(qǐng)求消息啟動(dòng)用戶確認(rèn)處理過程,將用戶確認(rèn)后的信息保存到標(biāo)注結(jié)果存儲(chǔ)單元中并將標(biāo)注結(jié)果存儲(chǔ)在元數(shù)據(jù)或附加數(shù)據(jù)中。
以下通過舉例說明本發(fā)明第一實(shí)施例的語義標(biāo)注方法的流程。(I)用戶使用文檔編輯器(例如,微軟Word編輯器)編輯文檔,使用輸入法輸入如下內(nèi)容L = “我來自河南,”(2)編輯空閑檢測(cè)模塊會(huì)根據(jù)特定策略判斷是否處于編輯空閑狀態(tài),例如當(dāng)用戶輸入標(biāo)點(diǎn)符號(hào)的時(shí)候,即為編輯空閑,那么根據(jù)上個(gè)步驟中的輸入,所述編輯空閑檢測(cè)模塊會(huì)觸發(fā)一個(gè)編輯空閑消息。Midle= {編輯空閑,Word}(3)消息模塊獵獲這個(gè)編輯空閑消息后會(huì)產(chǎn)生一個(gè)語義分析請(qǐng)求消息,對(duì)應(yīng)地觸發(fā)語義類識(shí)別管理模塊。
(4)語義類識(shí)別管理模塊分析L中的信息,得到如下語義分析結(jié)果Rcan = { “地點(diǎn)”河南”,start = 3, length = 2}(5)語義分析結(jié)果將傳遞到用戶確認(rèn)模塊,由用戶確認(rèn)模塊生成并彈出如圖5所示的與輸入法選擇詞匯類似的用戶確認(rèn)窗口,該窗口分為兩個(gè)部分,上部分顯示標(biāo)注對(duì)象“河南”,下部顯示語義標(biāo)注對(duì)應(yīng)的可選項(xiàng),比如“人名,地名,機(jī)構(gòu)名等等”,默認(rèn)選中的是R中對(duì)應(yīng)的類型,本示例對(duì)應(yīng)為“地名”優(yōu)選。當(dāng)用戶確認(rèn)后,用戶確認(rèn)模塊會(huì)產(chǎn)生如下標(biāo)注結(jié)果并將該結(jié)果回傳給存儲(chǔ)單元R= { “地點(diǎn)”“河南” }最終由用戶確認(rèn)模塊獲取所述標(biāo)注結(jié)果并儲(chǔ)存到對(duì)應(yīng)的元數(shù)據(jù)或者附加數(shù)據(jù)中。在語義分析過程中,自動(dòng)類別識(shí)別不可避免的會(huì)出現(xiàn)錯(cuò)誤。語義分析類別識(shí)別錯(cuò)誤通常分為兩類,其一是語義類型分析錯(cuò)誤,比如應(yīng)該是人名的識(shí)別為地名;另外一類是語義標(biāo)注對(duì)象識(shí)別錯(cuò)誤,比如應(yīng)該是三個(gè)字的識(shí)別為兩個(gè)字。對(duì)于第一類錯(cuò)誤,通過引入本發(fā)明第一實(shí)施例中的語義標(biāo)注確認(rèn)模塊,可以修復(fù)。而對(duì)于第二類錯(cuò)誤,在此提出本發(fā)明的第二實(shí)施例對(duì)此作進(jìn)一步優(yōu)化。本發(fā)明第二實(shí)施例的與輸入法集成的語義標(biāo)注系統(tǒng)的框圖如圖6所示。所述系統(tǒng)在第一實(shí)施例的基礎(chǔ)上在用戶確認(rèn)模塊中增加了語義標(biāo)注修改模塊。在第二實(shí)施例中,用戶確認(rèn)模塊包括語義標(biāo)注確認(rèn)模塊和語義標(biāo)注修改模塊,所述語義標(biāo)注修改模塊根據(jù)語義標(biāo)注確認(rèn)請(qǐng)求消息獲取輸入的文字段落和預(yù)標(biāo)注對(duì)象,將輸入的文字段落和預(yù)標(biāo)注對(duì)象和語義標(biāo)注信息混合渲染,同時(shí)顯示輸入的文字段落和預(yù)標(biāo)注對(duì)象,由用戶確認(rèn)標(biāo)注對(duì)象,并根據(jù)用戶修改或確認(rèn)的結(jié)果將確認(rèn)的標(biāo)注對(duì)象存儲(chǔ)到標(biāo)注結(jié)果存儲(chǔ)單元。所述語義標(biāo)注確認(rèn)模塊用于顯示語義標(biāo)簽的可選項(xiàng)供用戶選擇,其中的默認(rèn)選項(xiàng)為語義類識(shí)別管理模塊存儲(chǔ)在預(yù)標(biāo)注對(duì)象和語義標(biāo)注存儲(chǔ)單元中的預(yù)標(biāo)注標(biāo)簽,用戶選擇確認(rèn)后的信息保存到標(biāo)注結(jié)果存儲(chǔ)單元中返回標(biāo)注結(jié)果作為元數(shù)據(jù)存儲(chǔ)。以下通過舉例說明本發(fā)明第二實(shí)施例的語義標(biāo)注方法的流程。(I)用戶在使用文檔編輯器(例如,微軟Word編輯器),來編輯文檔,使用輸入法輸入如下內(nèi)容L = “我今天參觀了故宮博物院,”(2)編輯空閑檢測(cè)模塊會(huì)根據(jù)特定策略判斷是否處于編輯空閑狀態(tài),比如當(dāng)用戶輸入標(biāo)點(diǎn)符號(hào)的時(shí)候,即為編輯空閑,那么根據(jù)上個(gè)步驟中的輸入,所述編輯空閑檢測(cè)模塊會(huì)觸發(fā)一個(gè)編輯空閑消息。Midle= {編輯空閑,Word}(3)消息模塊獵獲這個(gè)編輯空閑消息后會(huì)產(chǎn)生一個(gè)語義分析請(qǐng)求消息,對(duì)應(yīng)地觸發(fā)語義類識(shí)別管理模塊。(4)語義類識(shí)別管理模塊會(huì)分析L中的信息,會(huì)得到如下語義分析結(jié)果
Rcan = { “機(jī)構(gòu)名”故宮”,start = 5, length = 2}(5)用戶確認(rèn)模塊獲取語義分析結(jié)果以及用戶輸入的文字信息,彈出一個(gè)如圖7所示的用戶確認(rèn)窗口,該窗口分為兩個(gè)部分,上部分顯示預(yù)標(biāo)注對(duì)象“故宮”以及其上下文Ih息,其中預(yù)標(biāo)注對(duì)象通過聞売子窗口聞売顯不,該聞売子窗口的起始位置均可調(diào),用戶可以通過修改該高亮子窗口來修改標(biāo)注對(duì)象,而下部顯示語義標(biāo)注對(duì)應(yīng)的可選項(xiàng),比如“人名,地名,機(jī)構(gòu)名等等”,默認(rèn)選中的是語義分析結(jié)果中的預(yù)語義標(biāo)簽,本示例對(duì)應(yīng)為“機(jī)構(gòu)名”優(yōu)選。如果用戶認(rèn)為標(biāo)注對(duì)象應(yīng)該是“故宮博物院”,即可以通過修改該高亮子窗口的位置將博物院加進(jìn)去,當(dāng)用戶確認(rèn)后,用戶確認(rèn)模塊將產(chǎn)生如下標(biāo)注結(jié)果并將該結(jié)果回傳給存儲(chǔ)單元R = { “機(jī)構(gòu)名”“故宮博物院” }(6)經(jīng)用戶確認(rèn)的語義標(biāo)注結(jié)果最終由用戶確認(rèn)模塊獲取并儲(chǔ)存到對(duì)應(yīng)的元數(shù)據(jù)或者附加數(shù)據(jù)中。在保證提高人工確認(rèn)效率的同時(shí),為系統(tǒng)增加網(wǎng)絡(luò)共享特性,使得可以多人協(xié)同工作共享結(jié)果也是對(duì)于本發(fā)明的語義標(biāo)注系統(tǒng)的需求之一。在此提出本發(fā)明的第三實(shí)施例對(duì)本發(fā)明作進(jìn)一步優(yōu)化。圖8是第三實(shí)施例的與輸入法集成的語義標(biāo)注系統(tǒng)的框圖。所述系統(tǒng)在第二實(shí)施例的基礎(chǔ)上增加了語義標(biāo)注云收集模塊,語義標(biāo)注云收集模塊將用戶修改并確認(rèn)后的標(biāo)注語料,包括標(biāo)注對(duì)象的上下文信息,經(jīng)過去重后上傳存儲(chǔ)到網(wǎng)絡(luò)側(cè)的大規(guī)模標(biāo)注語料存儲(chǔ)單元中。存儲(chǔ)在大規(guī)模標(biāo)注語料存儲(chǔ)單元中的語料在網(wǎng)絡(luò)側(cè)通過模型訓(xùn)練器直接訓(xùn)練成為語義分析模型對(duì)語義類識(shí)別管理模塊的語料模型進(jìn)行模型更新,或者將語料分發(fā)給語義類識(shí)別管理模塊由該模塊中嵌入的模型訓(xùn)練器將語料訓(xùn)練成語料模型從而實(shí)現(xiàn)模型的更新。本發(fā)明通過將語義標(biāo)注與輸入法集成為一體,實(shí)現(xiàn)了在用戶輸入文字過程中提示用戶對(duì)于自動(dòng)語義分析結(jié)果進(jìn)行人工確認(rèn),大大提高了用戶的元數(shù)據(jù)獲取效率,同時(shí),增加了標(biāo)注對(duì)象修改以及網(wǎng)絡(luò)共享和協(xié)作功能,擴(kuò)展了語義標(biāo)注系統(tǒng)的應(yīng)用范圍,實(shí)現(xiàn)了獲得大批量高質(zhì)量元數(shù)據(jù)語料的可能,進(jìn)一步提高了系統(tǒng)的可用性。上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍內(nèi)。
權(quán)利要求
1.一種與輸入法集成的語義標(biāo)注系統(tǒng),所述系統(tǒng)包括 輸入法模塊,用于進(jìn)行文字輸入并將輸入的文字信息存儲(chǔ)在文字段落存儲(chǔ)單元中; 編輯空閑檢測(cè)模塊,用于跟蹤文字段落存儲(chǔ)單元的信息,檢測(cè)用戶是否處于編輯空閑狀態(tài),并在用戶處于編輯空閑狀態(tài)時(shí)向消息模塊發(fā)送編輯空閑消息以示意用戶處于編輯空閑狀態(tài); 消息模塊,用于根據(jù)所述編輯空閑消息向語義類識(shí)別管理模塊發(fā)送語義分析請(qǐng)求消息; 語義類識(shí)別管理模塊,用于根據(jù)語義分析請(qǐng)求消息分析所述輸入的文字信息提取出包括預(yù)標(biāo)注對(duì)象和預(yù)語義標(biāo)簽的標(biāo)注對(duì),將所述標(biāo)注對(duì)保存到預(yù)標(biāo)注對(duì)象和語義標(biāo)注存儲(chǔ)單元,并向用戶確認(rèn)模塊發(fā)送語義標(biāo)注確認(rèn)請(qǐng)求消息; 用戶確認(rèn)模塊,用于根據(jù)語義標(biāo)注確認(rèn)請(qǐng)求消息向用戶展示所述預(yù)標(biāo)注對(duì)象和語義標(biāo)簽的可選項(xiàng)供用戶選擇,將用戶選擇確認(rèn)后的標(biāo)注結(jié)果返回作為元數(shù)據(jù)或附加數(shù)據(jù)存儲(chǔ)。
2.如權(quán)利要求I所述的與輸入法集成的語義標(biāo)注系統(tǒng),其特征在于,所述用戶確認(rèn)模塊還包括語義標(biāo)注修改模塊和語義標(biāo)注確認(rèn)模塊,所述語義標(biāo)注修改模塊用于向用戶展示所述預(yù)標(biāo)注對(duì)象以及所述輸入的文字信息供用戶對(duì)預(yù)標(biāo)注對(duì)象進(jìn)行修改,將用戶修改確認(rèn)的標(biāo)注存儲(chǔ)于標(biāo)注結(jié)果存儲(chǔ)單元; 所述語義標(biāo)注確認(rèn)模塊用于向用戶展示所述語義標(biāo)簽的可選項(xiàng)供用戶選擇,將用戶選擇確認(rèn)后的語義標(biāo)簽存儲(chǔ)于標(biāo)注結(jié)果存儲(chǔ)單元,并將標(biāo)注結(jié)果存儲(chǔ)單元中的標(biāo)注結(jié)果返回作為元數(shù)據(jù)或附加數(shù)據(jù)存儲(chǔ)。
3.如權(quán)利要求I或2所述的與輸入法集成的語義標(biāo)注系統(tǒng),其特征在于,供用戶選擇的語義標(biāo)簽的可選項(xiàng)的默認(rèn)項(xiàng)為存儲(chǔ)于預(yù)標(biāo)注對(duì)象和語義標(biāo)注存儲(chǔ)單元中的預(yù)語義標(biāo)簽; 所述編輯空閑檢測(cè)模塊根據(jù)預(yù)定編輯空閑條件判斷用戶是否處于編輯空閑狀態(tài)。
4.如權(quán)利要求I或2所述的與輸入法集成的語義標(biāo)注系統(tǒng),其特征在于,所述系統(tǒng)還包括語義標(biāo)注云收集模塊,所述語義標(biāo)注云收集模塊將用戶修改并確認(rèn)后的標(biāo)注結(jié)果以及標(biāo)注對(duì)象的上下文信息,經(jīng)過去重后上傳存儲(chǔ)到網(wǎng)絡(luò)側(cè)的大規(guī)模標(biāo)注語料存儲(chǔ)單元中。
5.如權(quán)利要求4所述的與輸入法集成的語義標(biāo)注系統(tǒng),其特征在于,所述大規(guī)模標(biāo)注語料存儲(chǔ)單元中存儲(chǔ)的語料在網(wǎng)絡(luò)側(cè)或終端側(cè)訓(xùn)練為語料模型供所述語義類識(shí)別管理模塊下載使用。
6.—種與輸入法集成的語義標(biāo)注方法,所述方法包括 進(jìn)行文字輸入并將輸入的文字信息存儲(chǔ)在文字段落存儲(chǔ)單元中; 跟蹤文字段落存儲(chǔ)單元的信息,檢測(cè)用戶是否處于編輯空閑狀態(tài),并在用戶處于編輯空閑狀態(tài)時(shí)發(fā)送編輯空閑消息以示意用戶處于編輯空閑狀態(tài); 根據(jù)所述編輯空閑消息發(fā)送語義分析請(qǐng)求消息; 根據(jù)語義分析請(qǐng)求消息分析所述輸入的文字信息提取出包括預(yù)標(biāo)注對(duì)象和預(yù)語義標(biāo)簽的標(biāo)注對(duì),將所述標(biāo)注對(duì)保存到預(yù)標(biāo)注對(duì)象和語義標(biāo)注存儲(chǔ)單元,并發(fā)送語義標(biāo)注確認(rèn)請(qǐng)求消息; 根據(jù)語義標(biāo)注確認(rèn)請(qǐng)求消息向用戶展示所述預(yù)標(biāo)注對(duì)象和語義標(biāo)簽的可選項(xiàng)供用戶選擇,將用戶選擇確認(rèn)后的標(biāo)注結(jié)果返回作為元數(shù)據(jù)或附加數(shù)據(jù)存儲(chǔ)。
7.如權(quán)利要求6所述的與輸入法集成的語義標(biāo)注方法,其特征在于,用戶確認(rèn)步驟進(jìn)一步包括 向用戶展示所述預(yù)標(biāo)注對(duì)象以及所述輸入的文字信息供用戶對(duì)預(yù)標(biāo)注對(duì)象進(jìn)行修改,將用戶修改確認(rèn)的標(biāo)注結(jié)果存儲(chǔ)于標(biāo)注結(jié)果存儲(chǔ)單元; 向用戶展示所述語義標(biāo)簽的可選項(xiàng)供用戶選擇,將用戶選擇確認(rèn)后的語義標(biāo)簽存儲(chǔ)于標(biāo)注結(jié)果存儲(chǔ)單元,并將標(biāo)注結(jié)果存儲(chǔ)單元中的標(biāo)注結(jié)果返回作為元數(shù)據(jù)或附加數(shù)據(jù)存儲(chǔ)。
8.如權(quán)利要求6或7所述的與輸入法集成的語義標(biāo)注方法,其特征在于,供用戶選擇的語義標(biāo)簽的可選項(xiàng)的默認(rèn)項(xiàng)為存儲(chǔ)于預(yù)標(biāo)注對(duì)象和語義標(biāo)注存儲(chǔ)單元中的預(yù)語義標(biāo)簽;并且 根據(jù)預(yù)定編輯空閑條件判斷用戶是否處于編輯空閑狀態(tài)。
9.如權(quán)利要求6或7所述的與輸入法集成的語義標(biāo)注方法,其特征在于,所述方法還包括步驟 將用戶修改并確認(rèn)后的標(biāo)注結(jié)果以及標(biāo)注對(duì)象的上下文信息,經(jīng)過去重后上傳存儲(chǔ)到網(wǎng)絡(luò)側(cè)的大規(guī)模標(biāo)注語料存儲(chǔ)單元中。
10.如權(quán)利要求9所述的與輸入法集成的語義標(biāo)注方法,其特征在于,還包括 將所述大規(guī)模標(biāo)注語料存儲(chǔ)單元中存儲(chǔ)的語料在網(wǎng)絡(luò)側(cè)或終端側(cè)訓(xùn)練為語料模型供所述語義類識(shí)別管理模塊下載使用。
全文摘要
本發(fā)明公開了一種與輸入法集成的語義標(biāo)注系統(tǒng)和方法,所述系統(tǒng)包括輸入法模塊、編輯空閑檢測(cè)模塊、消息模塊、語義類識(shí)別管理模塊和用戶確認(rèn)模塊,其中,編輯空閑檢測(cè)模塊在檢測(cè)到用戶處于編輯空閑狀態(tài)時(shí)觸發(fā)語義類識(shí)別管理模塊對(duì)已輸入的文字信息進(jìn)行語義分析提取語義標(biāo)注對(duì)象和語義標(biāo)簽,通過用戶確認(rèn)模塊提示用戶對(duì)機(jī)器自動(dòng)提取的語義標(biāo)注對(duì)象和語義標(biāo)簽進(jìn)行修改和/或確認(rèn)。本發(fā)明通過將輸入法與語義標(biāo)注進(jìn)行集成,提高了語義標(biāo)注元數(shù)據(jù)的獲取效率和準(zhǔn)確率。
文檔編號(hào)G06F17/21GK102662953SQ20121005214
公開日2012年9月12日 申請(qǐng)日期2012年3月1日 優(yōu)先權(quán)日2012年3月1日
發(fā)明者倪旻 申請(qǐng)人:倪旻