亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種獲取新詞的方法、系統(tǒng)及設備的制作方法

文檔序號:6610349閱讀:167來源:國知局
專利名稱:一種獲取新詞的方法、系統(tǒng)及設備的制作方法
技術領域
本發(fā)明涉及信息提取技術,特別是指一種利用即時通信(IM)系統(tǒng)獲取新 詞的方法、系統(tǒng)及實現(xiàn)新詞獲取的即時通信客戶端和服務器。
背景技術
隨著信息化、電子化和網絡化的迅猛發(fā)展和普及,人們每天會從各種通信 網絡、互聯(lián)網絡接觸或獲取到巨大的信息量;隨著信息的大量傳播以及人們交 流內容的不斷擴展,新的詞匯層出不窮并被廣泛使用。由于詞匯是人們溝通的 基礎,不斷增加和更新詞庫是非常必要的。目前,新詞獲取在輸入法和網絡搜 索等領域應用較多,對于輸入法而言,需要不斷更新自身的數(shù)據(jù)庫,以保證為 用戶提供更多的詞匯、更方便的輸入;對于搜索引擎而言,需要隨時更新和擴 展搜索關鍵詞,以提高搜索速度。具體來說,在輸入法方面,現(xiàn)在常用的中文輸入法包括鍵盤輸入和非鍵盤 輸入兩類,所謂鍵盤輸入是指利用鍵盤上的26個英文字母,按照一定的編碼規(guī) 則輸入漢字,如拼音輸入、部首輸入、五筆輸入等等;所謂非鍵盤輸入是指利用其他形式輸入漢字,如手寫輸入、語音輸入、光學字符識別(OCR)技術 輸入等等。但是,這兩類輸入方式對獲取新詞都存在不同程度的問題鍵盤輸 入法,是依據(jù)用戶的輸入頻率和次數(shù)等特征獲取新詞, 一般的方式是先采集 輸入信息并將輸入的信息存儲,然后對存儲的信息按預置規(guī)則進行篩選和統(tǒng)計, 這樣,雖然能準確的獲取新詞,但所獲取的新詞僅來源于某個用戶、且僅存儲 在該用戶當前使用的終端上,并不能面向更多用戶,即使很多新詞是大家都常用的,不同用戶也需要各自通過頻繁輸入分別獲??;而且,對于同一用戶,由于新詞僅存儲在當前使用的終端上,那么,更換終端后又需要重新獲取,比如:
在辦公室的終端上已得到很多常用的新詞,但在自家的終端上使用所需的新詞 時又需要重新獲取。非鍵盤輸入法,很明顯,這類輸入本身是靠設備或軟件對 筆跡、聲音、光學字符的識別完成漢字的輸入,并不能保證較高的識別準確度, 那么,在這種識別程度上獲取新詞,很可能得到錯誤的詞匯或并非所需的詞匯, 因此很難達到獲取新詞的真正目的。在網絡搜索方面,新詞的獲取是將采集到 的所有網絡用戶輸入的關鍵詞,匯集到網絡服務器上存儲,之后再進行統(tǒng)計和 提取。但是,由于新詞的不斷出現(xiàn),且分散在不同的語料庫中,很難及時、有 效地識別與更新;而且,現(xiàn)有技術通常會采用人工參與收集、整理和辨別新詞 的方式,再將得到的新詞加入已有詞庫中,如此,不僅耗費時間、成本,且工 作效率很低。可以看出,現(xiàn)有技術獲取新詞的途徑相對較少,主要是對用戶輸入和查詢 關鍵詞進行收集和統(tǒng)計,進而獲取到新詞,目前并未將其它信息來源作為新詞 的獲取源。發(fā)明內容有鑒于此,本發(fā)明的主要目的在于提供一種獲取新詞的方法,能基于即時 通信的詞源簡單、有效、實時地自動獲取新詞,并能使所獲取的新詞適用范圍 更廣。本發(fā)明的另一目的在于提供一種獲取新詞的系統(tǒng)及設備,能支持基于即時 通信的新詞自動獲取方式,實現(xiàn)簡單方便、靈活有效。為達到上述目的,本發(fā)明的技術方案是這樣實現(xiàn)的本發(fā)明提出了一種獲取新詞的方法,包括A、 從聊天數(shù)據(jù)中獲取備選字符串;B、 根據(jù)預置規(guī)則對所得到的備選字符串進行篩選,將經過篩選后的詞作 為新詞。步驟A中,所述的獲取為獲取本端輸入的聊天數(shù)據(jù);或為獲取接收到的 對端的聊天數(shù)據(jù),其中,所述對端為一個或一個以上。
所述聊天數(shù)據(jù)為本端輸入的聊天數(shù)據(jù);則步驟A具體為IM客戶端軟件接收當前用戶通過輸入法輸入的數(shù)據(jù)信息,在將輸入數(shù)據(jù)作 為聊天記錄顯示于即時通信界面的同時,將當前的輸入信息作為備選字符串;或者,所述聊天數(shù)據(jù)為來自對端的聊天數(shù)據(jù);則步驟A具體為IM客戶端軟件接收對端發(fā)來的數(shù)據(jù)信息,在將接收的數(shù)據(jù)信息作為聊天記 錄顯示于即時通信界面的同時,將收到的數(shù)據(jù)信息作為備選字符串。步驟A與步驟B之間進一步包括將備選字符串劃分為一個或一個以上的 詞;則步驟B根據(jù)預置規(guī)則對所得到的詞進行篩選。步驟B所述篩選后進一步包括統(tǒng)計并判斷經過篩選的詞在指定位置出現(xiàn) 的次數(shù)是否達到設定閾值,如果達到,則將相應詞作為新詞;否則不作為新詞。 其中,所述指定位置為互聯(lián)網數(shù)據(jù),或為來自本端或對端的聊天記錄。上述方案中,該方法進一步包括將獲取的新詞并入各種輸入法的數(shù)據(jù)庫。上述方案中,所述步驟A和步驟B由IM客戶端完成,該方法進一步包括 IM客戶端將獲取的新詞通過即時通信系統(tǒng)發(fā)送給對端用戶。上述方案中,所述步驟A和步驟B由IM客戶端完成,該方法進一步包括 IM客戶端將獲取的新詞上載到后臺服務器,由后臺服務器主動下載給各個注冊 的IM客戶端,或根據(jù)IM客戶端的請求下載給有需求的IM客戶端。上述方案中,所述步驟A和步驟B由后臺服務器完成,該方法進一步包括 后臺服務器將獲取的新詞主動下載給各個注冊的IM客戶端,或根據(jù)IM客戶端 的請求下載給有需求的IM客戶端。本發(fā)明還提出了一種實現(xiàn)新詞獲取的IM客戶端,包括文本輸入單元、 即時消息收發(fā)單元、聊天記錄顯示單元,關鍵在于,該IM客戶端還包括終 端側篩選單元;所述文本輸入單元,用于接收并顯示本端用戶輸入的信息,并將收到的信息發(fā)送給即時消息收發(fā)單元、聊天記錄顯示單元和終端側篩選單元;所述即時消息收發(fā)單元,用于將從文本輸入單元接收的本端用戶輸入的信息發(fā)送給另一 IM客戶端,并將接收到的另一 IM客戶端發(fā)來的信息發(fā)送給聊天 記錄顯示單元和終端側篩選單元;所述終端側篩選單元,接收來自文本輸入單元的本端輸入的聊天數(shù)據(jù)信息, 以及來自即時消息收發(fā)單元的對端發(fā)來的聊天數(shù)據(jù)信息,并根據(jù)預置規(guī)則對聊 天數(shù)據(jù)對應的備選字符串進行篩選,得到新詞。其中,該IM客戶端進一步包括分詞單元,用于將得到的聊天數(shù)據(jù)對應的 備選字符串劃分為一個或一個以上的詞,再將劃分好的詞送至終端側篩選單元 進行篩選。該IM客戶端還進一步包括統(tǒng)計單元,用于接收終端側篩選單元進行篩選 后的詞,并將接收到的詞與從指定位置獲得的數(shù)據(jù)信息進行比較,統(tǒng)計所接收 到的詞在指定位置出現(xiàn)次數(shù)是否達到設定閾值,將達到閾值的詞作為新詞。所述即時消息收發(fā)單元還可以進一步用于將本端獲取的新詞發(fā)送給對端, 或接收對端發(fā)來的新詞。該IM客戶端進一步包括服務器交互單元,用于將本端獲取的新詞上載至 后臺服務器,或接收后臺服務器廣播發(fā)送的新詞,或向后臺服務器請求并下載 新詞。本發(fā)明還提出了一種實現(xiàn)新詞獲取的服務器,包括聊天數(shù)據(jù)收發(fā)單元;該 服務器還包括服務器側篩選單元;所述聊天數(shù)據(jù)收發(fā)單元,接收各個IM客戶端發(fā)來的聊天記錄,并將收到的所有聊天數(shù)據(jù)送至服務器側篩選單元;所述服務器側篩選單元,根據(jù)預置規(guī)則對備選字符串進行篩選,得到新詞。 該服務器進一步包括分詞單元,用于將得到的聊天數(shù)據(jù)對應的備選字符串劃分為一個或一個以上的詞,再將劃分好的詞送至服務器側篩選單元進行篩選。 上述方案中,該服務器進一步包括統(tǒng)計單元,用于接收服務器側篩選單元進行篩選后的詞,并將接收到的詞與從指定位置獲得的數(shù)據(jù)信息進行比較,統(tǒng) 計所接收到的詞在指定位置的出現(xiàn)次數(shù)是否達到設定閾值,將達到閾值的詞作為新詞。所述聊天數(shù)據(jù)收發(fā)單元還進一步用于將獲取的新詞直接下載到各個IM客
戶端,或根據(jù)IM客戶端的請求下載給有需求的IM客戶端。本發(fā)明又提出一種獲取新詞的系統(tǒng),包括至少一個IM客戶端、后臺服務 器;該系統(tǒng)還包括篩選單元,用于根據(jù)預置規(guī)則對備選字符串進行篩選,得到新詞。其中,所述篩選單元位于IM客戶端;或位于后臺服務器;或位于IM客 戶端和后臺服務器。本發(fā)明所提供的獲取新詞的方法、系統(tǒng)及設備,將聊天數(shù)據(jù)作為詞源,從 聊天數(shù)據(jù)中獲取備選字符串,再對所獲取的字符串按預置規(guī)則進行篩選、統(tǒng)計, 獲取新詞。本發(fā)明具有以下的優(yōu)點和特點1) 由于本發(fā)明從聊天數(shù)據(jù)中提取新詞,且聊天數(shù)據(jù)來自于本端輸入,或來 自于一個或多個對端的輸入,如此,不僅擴展了新詞獲取的詞源,且獲取的新 詞更符合多數(shù)人的需求。2) 本發(fā)明獲取新詞的過程可以直接根據(jù)預置規(guī)則進行篩選,也可以在篩選 的基礎上進一步做比較、統(tǒng)計,以便更準確地得到新詞。3) 本發(fā)明的預置規(guī)則可以根據(jù)用戶需求設置各種篩選規(guī)則,不僅能準確度、 效率更高,且實現(xiàn)更靈活。4) 本發(fā)明的新詞獲取可以在IM客戶端完成,也可以在后臺服務器完成; 還可以采用兩層篩選,同時在IM客戶端和后臺服務器完成新詞獲取,實現(xiàn)更 靈活、多樣,且獲取的新詞適用范圍更廣。5 )本發(fā)明在IM客戶端和/或后臺服務器實現(xiàn)新詞獲取時,還可以通過上載、 下載、發(fā)送聊天數(shù)據(jù)等方式,將一個實體獲取的新詞發(fā)送給更多的用戶共享, 使新詞應用更廣泛,且能保證新詞在較大的范圍同步更新,進而節(jié)省時間和成 本,提高工作效率。


圖1為本發(fā)明的方法流程示意圖;圖2為本發(fā)明中IM客戶端的組成結構示意圖;圖3為本發(fā)明中實現(xiàn)新詞獲取的服務器的組成結構示意圖。
具體實施方式
隨著IM的迅速發(fā)展,使用即時通信方式進行交流的人越來越多,通過IM進行交流的內容越來越廣泛。基于此,本發(fā)明的核心思想是將聊天記錄中的聊天數(shù)據(jù)作為詞源,從聊天數(shù)據(jù)中獲取備選字符串,再對所獲取的字符串按預 置規(guī)則進行篩選、統(tǒng)計,將符合要求的字符串作為新詞。本發(fā)明中,獲取新詞的功能可以直接嵌入IM客戶端的即時通信軟件中。 本發(fā)明獲取新詞的方法如圖l所示,包括以下步驟 步驟100:從聊天數(shù)據(jù)中獲取備選字符串;這里,從聊天數(shù)據(jù)中獲取備選字符串與一般輸入法獲取字符串不同,從聊 天數(shù)據(jù)中獲取是實時獲取,不需要先存儲;更重要的是不僅可以獲取本端輸 入的聊天數(shù)據(jù),還可以獲取接收到的對端的聊天數(shù)據(jù),其中,對端可以有多個。對于本端輸入的聊天數(shù)據(jù),具體做法是用戶通過輸入法向IM客戶端輸 入漢字,IM客戶端軟件接收當前輸入的數(shù)據(jù)信息,在將輸入數(shù)據(jù)作為聊天記錄 顯示于即時通信界面的同時,將當前的輸入信息作為備選字符串。對于來自對端的聊天數(shù)據(jù),具體處理是當前用戶IM客戶端的軟件接收 對端發(fā)來的數(shù)據(jù)信息,在將接收的數(shù)據(jù)信息作為聊天記錄顯示于即時通信界面 的同時,將收到的數(shù)據(jù)信息作為備選字符串。本步驟中,可以進一步將備選字符串劃分為一個或一個以上的詞,之后再 對每個詞做后續(xù)的篩選處理;也可以不做劃分,而由后續(xù)的預置規(guī)則來完成分 詞操作,去掉不符合基本構詞要求的部分,以保證得到的是正常使用的詞。如 果做詞匯劃分,則所述的劃分可以是根據(jù)預置的分隔符區(qū)分不同的詞,比如 根據(jù)預置的分隔符,分割出需要的字符串,舉例來說,假設預置的規(guī)則是以逗 號作為分割符之一,則備選字符串為"秋天,美麗的季節(jié)"時,分割為"秋天" 和"美麗的季節(jié)"。也可以根據(jù)日常習慣進行分詞,比如備選字符串為"我的 偶像",按曰常習慣可分為"我的"和"偶像"等等。這里,所述的劃分可采用現(xiàn)有的分詞算法實現(xiàn),比如采用基于字符串匹 配的分詞方法、基于理解的分詞方法以及基于統(tǒng)計的分詞方法。其中,基于字 符串匹配的分詞方法又包括正向(由左到右)最大匹配法、逆向(由右到左) 最大匹配法、最少切分法等,可采用其中之一或任意組合。步驟110:根據(jù)預置規(guī)則對步驟100得到的備選字符串進行篩選,將經過 篩選后的詞作為新詞。這里,篩選規(guī)則是預先設定的,可以根據(jù)需要設置各種篩選規(guī)則,對于多 個篩選規(guī)則,可以單獨使用,也可以結合使用。所述的篩選規(guī)則有很多,比如將步驟100獲得的詞與已有詞庫中的詞進 行比較,如果是已有詞庫中沒有的,就認為是新詞,舉例來說,獲得的詞包括 "騰飛"、"騰躍"、"飛躍",其中,"騰飛"、"騰躍"詞庫中已有,則僅認為"飛 躍"為新詞。再比如統(tǒng)計每個詞在聊天數(shù)據(jù)中出現(xiàn)的次數(shù),設定一個閾值,如果出現(xiàn) 的次數(shù)小于閾值,就不認為是新詞;如果出現(xiàn)次數(shù)大于等于閾值,就認為是新 詞,舉例來說,設定閾值為500,如果"騰飛"出現(xiàn)358次,"騰躍"出現(xiàn)558 次,"飛躍"出現(xiàn)20次,則刪除"騰飛"和"飛躍"。這種情況下,可以連續(xù)統(tǒng) 計多條聊天記錄,包括本端發(fā)出的和本端收到的。又比如設置長度閾值,并結合與已有詞庫比較來篩選,具體的,先選出 處于某個長度范圍內的詞,再將選出的詞與已有詞庫中的詞進行比較,沒有出 現(xiàn)過的就作為新詞,舉例來說,設定長度范圍為2到8,假設收到"香港"、"香 港回歸十周年慶典"、"香港中心區(qū)",則按長度規(guī)則刪除"香港回歸十周年慶典", 保留"香港"和"香港中心區(qū)"。如果步驟100中進一步將備選字符串劃分為一個或多個詞,則本步驟根據(jù) 預置規(guī)則對步驟IOO得到的詞進行篩選。在實際應用中,僅采用步驟100和110的方式選取新詞,并不能完全體現(xiàn) 新詞的概念,因為新詞應該是使用頻率或說出現(xiàn)頻率較高的、已有詞庫中沒有 的詞,所以,為了確保所獲取的新詞是在常用環(huán)境下經常出現(xiàn)的,可以在步驟 110后進一步增加步驟120,同時修改步驟110為步驟110a:
步驟110a:根據(jù)預置規(guī)則對步驟100得到的備選字符串或詞進行篩選,得 到符合要求的詞;這種情況下,還可以增加很多篩選規(guī)則,比如去除不符合預置構詞法的 詞,舉例來說,假設當前預置的構詞法為刪除以"什么是"開頭的字符串,那 么,當獲取到"什么是專利"和"什么"兩個字符串后,因為"什么是專利" 這個字符串是以"什么是"開頭的,不符合預置構詞法的要求,所以刪除字符 串"什么是專利",僅保留字符串"什么"。再比如去除不符合預置編碼要求 的字符的詞,舉例來說,假設當前設置的編碼要求為只選擇符合漢字編碼的字 符,在獲取到"什么?專利"時,由于其中的"?"屬于非漢字,則應刪除"?"。步驟120:統(tǒng)計并判斷經過篩選的詞在指定位置出現(xiàn)的次數(shù)是否達到設定 閾值,如果達到,則將相應詞作為新詞;否則,不作為新詞。這里,所述指定位置可以是互聯(lián)網數(shù)據(jù),也可以是聊天記錄,聊天記錄包 括本端輸入的和對端發(fā)來的。其中,互聯(lián)網數(shù)據(jù)可以有不同的獲得途徑,比如 通過爬蟲技術獲取到任何的互聯(lián)網網頁,網頁上的數(shù)據(jù)即為互聯(lián)網數(shù)據(jù);客戶 自身擁有的數(shù)據(jù),包括電子文章、分類文章,諸如新聞、科技之類;其它客戶提供的數(shù)據(jù)。利用上述方法獲取的新詞,可進一步通過不同的方式提供給更多的人使用,更新覆蓋范圍相對大的詞庫。 一種實現(xiàn)方式是將獲取的新詞并入各種輸入法 的數(shù)據(jù)庫,那么,人們在更新輸入法數(shù)據(jù)庫后,就可以得到更多的新詞,更方 便用戶的使用;另一種實現(xiàn)方式是本端用戶通過即時通信系統(tǒng),在進行聊天 時將自身產生的新詞發(fā)送給對端用戶,對端用戶收到后,可以用獲取的新詞更 新自身的詞庫,這里,對端用戶可以有若干個;再一種實現(xiàn)方式是,本端用戶 將自身獲取的新詞上載到后臺服務器,由后臺服務器主動下載給各個注冊的IM 客戶端,或是根據(jù)IM客戶端的請求下載給有需求的IM客戶端。這里,所說的 新詞也可以是個新詞庫;所說的后臺服務器可以是即時通信服務器,也可以是詞庫服務器,或是其它具備上述處理功能的服務器。通常,步驟100和110、或步驟100~ 120可以在本地的IM客戶端完成;
由于聊天記錄也會傳送至后臺服務器存儲,所以,步驟100和110、或步驟100 ~120也可以在后臺服務器完成。為了使所獲取的新詞更具普遍性、符合更多用戶的需求,本發(fā)明還可以進一步釆用兩層條選的方式,即同時在本地IM客戶端和后臺服務器進行篩選, 具體做法是先在本地IM客戶端按步驟100和110、或步驟100 120進行篩選,得到的結果并不直接作為新詞,而是作為備選詞發(fā)送至后臺服務器,后臺服務器收 集從各個IM客戶端發(fā)來的備選詞,再根據(jù)自身預設的篩選規(guī)則進行篩選和統(tǒng) 計,就相當于,在后臺服務器側再做一次步驟IIO、或再做一次步驟110和120。 IM客戶端和后臺服務器所設置的篩選規(guī)則可以相同,也可以不同;設置的出現(xiàn) 次數(shù)閾值也可以相同,可以不同。經過兩層篩選后得到的詞作為新詞,可以通 過主動下載方式給各個注冊的IM客戶端,也可以通過IM客戶端的請求方式下 載給有需求的IM客戶端。當獲取新詞在IM客戶端完成時,為實現(xiàn)本發(fā)明獲取新詞的方法,本發(fā)明 提出一種實現(xiàn)新詞獲取的IM客戶端,如圖2所示,包括已有的文本輸入單元 21、即時消息收發(fā)單元22、聊天記錄顯示單元23,關鍵是還包括終端側篩選 單元24。其中,文本輸入單元21,用于接收并顯示本端用戶輸入的信息,并將 收到的信息發(fā)送給即時消息收發(fā)單元22、聊天記錄顯示單元23和終端側篩選 單元24;即時消息收發(fā)單元22,連接聊天記錄顯示單元23和另一IM客戶端 的即時消息收發(fā)單元(圖中未示),用于將從文本輸入單元21接收的本端用戶 輸入的信息發(fā)送給另一 IM客戶端,并將接收到的另一 IM客戶端發(fā)來的信息發(fā) 送給聊天記錄顯示單元23和終端側篩選單元24;聊天記錄顯示單元23,用于 顯示本端用戶輸入的發(fā)送給另一 IM客戶端的信息、以及收到的來自另一 IM客 戶端的信息;終端側篩選單元24,接收來自文本輸入單元21的本端輸入的聊 天數(shù)據(jù)信息,以及來自即時消息收發(fā)單元22的對端發(fā)來的聊天數(shù)據(jù)信息,并根 據(jù)預置規(guī)則對聊天數(shù)據(jù)對應的備選字符串進行篩選,得到新詞。其中,終端側 篩選單元24中的預置規(guī)則是預先設定并存儲于其中的。
該實現(xiàn)新詞獲取的IM客戶端可進一步包括分詞單元,位于終端側篩選單 元24之前,用于將得到的聊天數(shù)據(jù)對應的備選字符串劃分為 一個或 一個以上的詞,再將劃分好的詞送至終端側篩選單元24進行篩選。該實現(xiàn)新詞獲取的IM客戶端還可以進一步包括統(tǒng)計單元,用于接收終端 側篩選單元24進行篩選后的詞,并將接收到的詞與從指定位置獲得的數(shù)據(jù)信息 進行比較,統(tǒng)計所接收到的詞在指定位置的出現(xiàn)次數(shù)是否達到設定閾值,將達 到閾值的詞作為新詞。其中,指定位置可以是互聯(lián)網數(shù)據(jù),也可以是來自本端 或對端的聊天記錄。即時消息收發(fā)單元22還可以進一步用于將本端獲取的新詞發(fā)送給對端,或 接收對端發(fā)來的新詞。該實現(xiàn)新詞獲取的IM客戶端還可以進一步包括服務器交互單元,用于將 本端獲取的新詞上載至后臺服務器,或接收后臺服務器廣播發(fā)送的新詞,或向 后臺服務器請求并下載新詞。由于本發(fā)明獲取新詞的方法也可以在服務器端實現(xiàn),所以,當獲取新詞在 后臺服務器完成時,為實現(xiàn)本發(fā)明獲取新詞的方法,本發(fā)明提出一種實現(xiàn)新詞 獲取的服務器,如圖3所示,包括已有的聊天數(shù)據(jù)收發(fā)單元31,關鍵是還包括 服務器側篩選單元32。其中,聊天數(shù)據(jù)收發(fā)單元31,接收各個IM客戶端發(fā)來 的聊天記錄,并將收到的所有聊天數(shù)據(jù)送至服務器惻篩選單元32;服務器側篩 選單元32,根據(jù)預置規(guī)則對備選字符串進行篩選,得到新詞。其中,服務器側 篩選單元32中的預置規(guī)則是預先設定并存儲于其中的。該實現(xiàn)新詞獲取的服務器可進一步包括分詞單元,位于服務器側篩選單元 32之前,用于將收到的所有聊天數(shù)據(jù)對應的備選字符串劃分為一個或一個以上 的詞,再將劃分好的詞送至服務器側篩選單元32進行篩選。該實現(xiàn)新詞獲取的服務器還可以進一步包括統(tǒng)計單元,用于接收服務器側 篩選單元32進行篩選后的詞,并將接收到的詞與從指定位置獲得的數(shù)據(jù)信息進 行比較,統(tǒng)計所接收到的詞在指定位置的出現(xiàn)次數(shù)是否達到設定閾值,將達到 閾值的詞作為新詞。其中,指定位置可以是互聯(lián)網數(shù)據(jù),也可以是來自本端或200710122187.2說明書第1V12頁對端的聊天記錄。聊天數(shù)據(jù)收發(fā)單元31還進一步用于將獲取的新詞直接下載到各個IM客戶端,或根據(jù)IM客戶端的請求下載給有需求的IM客戶端。本發(fā)明中,所述實現(xiàn)新詞獲取的服務器可以是即時通信服務器,也可以是詞庫服務器。聊天數(shù)據(jù)收發(fā)單元31、服務器側篩選單元32、分詞單元和統(tǒng)計單 元可以均位于即時通信服務器中或詞庫服務器中,也可以在同時存在即時通信 服務器和詞庫服務器時,聊天數(shù)據(jù)收發(fā)單元31位于即時通信服務器中,其余單 元位于詞庫服務器中。本發(fā)明還提出一種獲取新詞的系統(tǒng),包括至少一個IM客戶端、后臺服務 器,關鍵在于,該系統(tǒng)還包括篩選單元,用于根據(jù)預置規(guī)則對備選字符串進行 篩選,得到新詞。所述篩選單元可以位于IM客戶端,也可以位于后臺服務器, 還可以同時設置于IM客戶端和后臺服務器。當篩選單元位于IM客戶端時,相 當于系統(tǒng)由至少一個圖2所示的IM客戶端與現(xiàn)有的后臺服務器構成;當篩選 單元位于后臺服務器時,相當于系統(tǒng)由圖3所示的后臺服務器與至少一個現(xiàn)有 的IM客戶端構成;當篩選單元同時設置于IM客戶端和后臺服務器時,相當于 系統(tǒng)由至少一個圖2所示的IM客戶端與圖3所示的后臺服務器構成,這種情 況下,IM客戶端與后臺服務器做兩層篩選。IM客戶端的即時消息收發(fā)單元與后臺服務器的聊天數(shù)據(jù)收發(fā)單元之間用 于傳輸篩選出的備選詞,或傳輸新詞。對于第一種和第三種情況,IM客戶端可以僅為能獲取新詞的IM客戶端, 也可以同時包括能獲取新詞的IM客戶端和已有的IM客戶端;對于第二種情況, 所述IM客戶端僅為已有的IM客戶端。同樣,該系統(tǒng)可進一步包括分詞單元,用于將得到的所有聊天數(shù)據(jù)對應的 備選字符串劃分為一個或多個詞,再將劃分好的詞送至篩選單元進行篩選。該系統(tǒng)還可以進一步包括統(tǒng)計單元,用于接收篩選單元進行篩選后的詞, 并將接收到的詞與從指定位置獲得的數(shù)據(jù)信息進行比較,統(tǒng)計所接收到的詞在 指定位置的出現(xiàn)次數(shù)是否達到設定閾值,將達到閾值的詞作為新詞。其中,指16 定位置可以是互聯(lián)網數(shù)據(jù),也可以是來自本端或對端的聊天記錄。以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范
權利要求
1、一種獲取新詞的方法,其特征在于,該方法包括A、從聊天數(shù)據(jù)中獲取備選字符串;B、根據(jù)預置規(guī)則對所得到的備選字符串進行篩選,將經過篩選后的詞作為新詞。
2、 根據(jù)權利要求l所述的方法,其特征在于,所述獲取為獲取本端輸入 的聊天數(shù)據(jù);或為獲取接收到的對端的聊天數(shù)據(jù),其中,所述對端為一個或一 個以上。
3、 根據(jù)權利要求l所述的方法,其特征在于,所述聊天數(shù)據(jù)為本端輸入的 聊天數(shù)據(jù);則步驟A具體為IM客戶端軟件接收當前用戶通過輸入法輸入的數(shù)據(jù)信息,在將輸入數(shù)據(jù)作 為聊天記錄顯示于即時通信界面的同時,將當前的輸入信息作為備選字符串; 或者,所述聊天數(shù)據(jù)為來自對端的聊天數(shù)據(jù);則步驟A具體為 IM客戶端軟件接收對端發(fā)來的數(shù)據(jù)信息,在將接收的數(shù)據(jù)信息作為聊天記 錄顯示于即時通信界面的同時,將收到的數(shù)據(jù)信息作為備選字符串。
4、 根據(jù)權利要求l所述的方法,其特征在于,步驟A與步驟B之間進一步包括將備選字符串劃分為一個或一個以上的詞;則步驟B根據(jù)預置規(guī)則對所得到的詞進行篩選。
5、 根據(jù)權利要求1至4任一項所述的方法,其特征在于,該方法進一步包 括將獲取的新詞并入各種輸入法的數(shù)據(jù)庫。
6、 根據(jù)權利要求1至4任一項所述的方法,其特征在于,所述步驟A和 步驟B由IM客戶端完成,該方法進一步包括IM客戶端將獲取的新詞通過即時通信系統(tǒng)發(fā)送給對端用戶。
7、 根據(jù)權利要求1至4任一項所述的方法,其特征在于,所述步驟A和 步驟B由IM客戶端完成,該方法進一步包括IM客戶端將獲取的新詞上載到 后臺服務器,由后臺服務器主動下載給各個注冊的IM客戶端,或根據(jù)IM客戶端的請求下載給有需求的IM客戶端。
8、 根據(jù)權利要求1至4任一項所述的方法,其特征在于,所述步驟A和 步驟B由后臺服務器完成,該方法進一步包括后臺服務器將獲取的新詞主動 下載給各個注冊的IM客戶端,或根據(jù)IM客戶端的請求下載給有需求的IM客 戶端。
9、 根據(jù)權利要求1至4任一項所述的方法,其特征在于,步驟B所述篩 選后進一步包括統(tǒng)計并判斷經過篩選的詞在指定位置出現(xiàn)的次數(shù)是否達到設 定閾值,如果達到,則將相應詞作為新詞;否則不作為新詞。
10、 根據(jù)權利要求9所述的方法,其特征在于,所述指定位置為互聯(lián)網數(shù) 據(jù),或為來自本端或對端的聊天記錄。
11、 根據(jù)權利要求9所述的方法,其特征在于,該方法進一步包括將獲 取的新詞并入各種輸入法的數(shù)據(jù)庫。
12、 根據(jù)權利要求9所述的方法,其特征在于,所述步驟A和步驟B由IM 客戶端完成,該方法進一步包括IM客戶端將獲取的新詞通過即時通信系統(tǒng)發(fā) 送給對端用戶。
13、 根據(jù)權利要求9所述的方法,其特征在于,所述步驟A和步驟B由IM 客戶端完成,該方法進一步包括IM客戶端將獲取的新詞上載到后臺服務器, 由后臺服務器主動下載給各個注冊的IM客戶端,或根據(jù)IM客戶端的請求下載 給有需求的IM客戶端。
14、 根據(jù)權利要求9所述的方法,其特征在于,所述步驟A和步驟B由后 臺服務器完成,該方法進一步包括后臺服務器將獲取的新詞主動下載給各個 注冊的IM客戶端,或根據(jù)IM客戶端的請求下載給有需求的IM客戶端。
15、 一種實現(xiàn)新詞獲取的IM客戶端,包括文本輸入單元、即時消息收 發(fā)單元、聊天記錄顯示單元,其特征在于,該IM客戶端還包括終端側篩選 單元;所述文本輸入單元,用于接收并顯示本端用戶輸入的信息,并將收到的信 息發(fā)送給即時消息收發(fā)單元、聊天記錄顯示單元和終端側篩選單元;所述即時消息收發(fā)單元,用于將從文本輸入單元接收的本端用戶輸入的信 息發(fā)送給另一 IM客戶端,并將接收到的另一 IM客戶端發(fā)來的信息發(fā)送給聊天記錄顯示單元和終端側篩選單元;所述終端側篩選單元,接收來自文本輸入單元的本端輸入的聊天數(shù)據(jù)信息, 以及來自即時消息收發(fā)單元的對端發(fā)來的聊天數(shù)據(jù)信息,并根據(jù)預置規(guī)則對聊 天數(shù)據(jù)對應的備選字符串進行篩選,得到新詞。
16、 根據(jù)權利要求15所述的IM客戶端,其特征在于,該IM客戶端進一 步包括分詞單元,用于將得到的聊天數(shù)據(jù)對應的備選字符串劃分為一個或一個 以上的詞,再將劃分好的詞送至終端側篩選單元進行篩選。
17、 根據(jù)權利要求15或16所述的IM客戶端,其特征在于,該IM客戶端 進一步包括統(tǒng)計單元,用于接收終端側篩選單元進行篩選后的詞,并將接收到 的詞與從指定位置獲得的數(shù)據(jù)信息進行比較,統(tǒng)計所接收到的詞在指定位置出 現(xiàn)次數(shù)是否達到設定閾值,將達到闔值的詞作為新詞。
18、 根據(jù)權利要求17所述的IM客戶端,其特征在于,所述即時消息收發(fā) 單元還可以進一步用于將本端獲取的新詞發(fā)送給對端,或接收對端發(fā)來的新詞。
19、 根據(jù)權利要求17所述的IM客戶端,其特征在于,該IM客戶端進一 步包括服務器交互單元,用于將本端獲取的新詞上載至后臺服務器,或接收后 臺服務器廣播發(fā)送的新詞,或向后臺服務器請求并下載新詞。
20、 一種實現(xiàn)新詞獲取的服務器,包括聊天數(shù)據(jù)收發(fā)單元;其特征在于, 該服務器還包括服務器側篩選單元;所述聊天數(shù)據(jù)收發(fā)單元,接收各個IM客戶端發(fā)來的聊天記錄,并將收到 的所有聊天數(shù)據(jù)送至服務器側篩選單元;所述服務器側篩選單元,根據(jù)預置規(guī)則對備選字符串進行篩選,得到新詞。
21、 根據(jù)權利要求20所述的服務器,其特征在于,該服務器進一步包括分 詞單元,用于將得到的聊天數(shù)據(jù)對應的備選字符串劃分為一個或一個以上的詞, 再將劃分好的詞送至服務器側篩選單元進行篩選。
22、 根據(jù)權利要求20或21所述的服務器,其特征在于,該服務器進一步 包括統(tǒng)計單元,用于接收服務器側篩選單元進行篩選后的詞,并將接收到的詞 與從指定位置獲得的數(shù)據(jù)信息進行比較,統(tǒng)計所接收到的詞在指定位置的出現(xiàn) 次數(shù)是否達到設定閾值,將達到閾值的詞作為新詞。
23、 根據(jù)權利要求22所述的服務器,其特征在于,所述聊天數(shù)據(jù)收發(fā)單元 還進一步用于將獲取的新詞直接下載到各個IM客戶端,或根據(jù)IM客戶端的請 求下載給有需求的IM客戶端。
24、 一種獲取新詞的系統(tǒng),包括至少一個IM客戶端、后臺服務器;其特 征在于,該系統(tǒng)還包括篩選單元,用于根據(jù)預置規(guī)則對備選字符串進行篩選, 得到新詞。
25、 根據(jù)權利要求24所述的系統(tǒng),其特征在于,所述篩選單元位于IM客 戶端;或位于后臺服務器;或位于IM客戶端和后臺服務器。
26、 根據(jù)權利要求24或25所述的系統(tǒng),其特征在于,該系統(tǒng)進一步包括 分詞單元,用于將得到的所有聊天數(shù)據(jù)對應的備選字符串劃分為一個或多個詞, 再將劃分好的詞送至篩選單元進行篩選。
27、 根據(jù)權利要求26所述的系統(tǒng),其特征在于,該系統(tǒng)進一步包括統(tǒng)計單 元,用于接收篩選單元進行篩選后的詞,并將接收到的詞與從指定位置獲得的 數(shù)據(jù)信息進行比較,統(tǒng)計所接收到的詞在指定位置的出現(xiàn)次數(shù)是否達到設定閾 值,將達到閾值的詞作為新詞。
全文摘要
本發(fā)明公開了一種獲取新詞的方法,包括A.從聊天數(shù)據(jù)中獲取備選字符串;B.根據(jù)預置規(guī)則對所得到的備選字符串進行篩選,將經過篩選后的詞作為新詞。本發(fā)明還同時公開了一種獲取新詞的系統(tǒng)及實現(xiàn)新詞獲取的即時通信客戶端和服務器,采用本發(fā)明能基于即時通信的詞源簡單、有效、實時地自動獲取新詞,并能使所獲取的新詞適用范圍更廣。
文檔編號G06F17/20GK101119334SQ20071012218
公開日2008年2月6日 申請日期2007年9月21日 優(yōu)先權日2007年9月21日
發(fā)明者李偉杰 申請人:騰訊科技(深圳)有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1