一種獲取新詞的方法、系統(tǒng)及設備的制作方法

文檔序號：6610349閱讀：167來源：國知局

專利名稱：一種獲取新詞的方法、系統(tǒng)及設備的制作方法
技術領域：
本發(fā)明涉及信息提取技術，特別是指一種利用即時通信(IM)系統(tǒng)獲取新詞的方法、系統(tǒng)及實現(xiàn)新詞獲取的即時通信客戶端和服務器。
背景技術：
隨著信息化、電子化和網絡化的迅猛發(fā)展和普及，人們每天會從各種通信網絡、互聯(lián)網絡接觸或獲取到巨大的信息量；隨著信息的大量傳播以及人們交流內容的不斷擴展，新的詞匯層出不窮并被廣泛使用。由于詞匯是人們溝通的基礎，不斷增加和更新詞庫是非常必要的。目前，新詞獲取在輸入法和網絡搜索等領域應用較多，對于輸入法而言，需要不斷更新自身的數(shù)據(jù)庫，以保證為用戶提供更多的詞匯、更方便的輸入；對于搜索引擎而言，需要隨時更新和擴展搜索關鍵詞，以提高搜索速度。具體來說，在輸入法方面，現(xiàn)在常用的中文輸入法包括鍵盤輸入和非鍵盤輸入兩類，所謂鍵盤輸入是指利用鍵盤上的26個英文字母，按照一定的編碼規(guī) 則輸入漢字，如拼音輸入、部首輸入、五筆輸入等等；所謂非鍵盤輸入是指利用其他形式輸入漢字，如手寫輸入、語音輸入、光學字符識別(OCR)技術輸入等等。但是，這兩類輸入方式對獲取新詞都存在不同程度的問題鍵盤輸入法，是依據(jù)用戶的輸入頻率和次數(shù)等特征獲取新詞，一般的方式是先采集輸入信息并將輸入的信息存儲，然后對存儲的信息按預置規(guī)則進行篩選和統(tǒng)計, 這樣，雖然能準確的獲取新詞，但所獲取的新詞僅來源于某個用戶、且僅存儲在該用戶當前使用的終端上，并不能面向更多用戶，即使很多新詞是大家都常用的，不同用戶也需要各自通過頻繁輸入分別獲??；而且，對于同一用戶，由于新詞僅存儲在當前使用的終端上，那么，更換終端后又需要重新獲取，比如:
在辦公室的終端上已得到很多常用的新詞，但在自家的終端上使用所需的新詞時又需要重新獲取。非鍵盤輸入法，很明顯，這類輸入本身是靠設備或軟件對筆跡、聲音、光學字符的識別完成漢字的輸入，并不能保證較高的識別準確度, 那么，在這種識別程度上獲取新詞，很可能得到錯誤的詞匯或并非所需的詞匯, 因此很難達到獲取新詞的真正目的。在網絡搜索方面，新詞的獲取是將采集到的所有網絡用戶輸入的關鍵詞，匯集到網絡服務器上存儲，之后再進行統(tǒng)計和提取。但是，由于新詞的不斷出現(xiàn)，且分散在不同的語料庫中，很難及時、有效地識別與更新；而且，現(xiàn)有技術通常會采用人工參與收集、整理和辨別新詞的方式，再將得到的新詞加入已有詞庫中，如此，不僅耗費時間、成本，且工作效率很低。可以看出，現(xiàn)有技術獲取新詞的途徑相對較少，主要是對用戶輸入和查詢關鍵詞進行收集和統(tǒng)計，進而獲取到新詞，目前并未將其它信息來源作為新詞的獲取源。發(fā)明內容有鑒于此，本發(fā)明的主要目的在于提供一種獲取新詞的方法，能基于即時通信的詞源簡單、有效、實時地自動獲取新詞，并能使所獲取的新詞適用范圍更廣。本發(fā)明的另一目的在于提供一種獲取新詞的系統(tǒng)及設備，能支持基于即時通信的新詞自動獲取方式，實現(xiàn)簡單方便、靈活有效。為達到上述目的，本發(fā)明的技術方案是這樣實現(xiàn)的本發(fā)明提出了一種獲取新詞的方法，包括A、從聊天數(shù)據(jù)中獲取備選字符串；B、根據(jù)預置規(guī)則對所得到的備選字符串進行篩選，將經過篩選后的詞作為新詞。步驟A中，所述的獲取為獲取本端輸入的聊天數(shù)據(jù)；或為獲取接收到的對端的聊天數(shù)據(jù)，其中，所述對端為一個或一個以上。
所述聊天數(shù)據(jù)為本端輸入的聊天數(shù)據(jù)；則步驟A具體為IM客戶端軟件接收當前用戶通過輸入法輸入的數(shù)據(jù)信息，在將輸入數(shù)據(jù)作為聊天記錄顯示于即時通信界面的同時，將當前的輸入信息作為備選字符串；或者，所述聊天數(shù)據(jù)為來自對端的聊天數(shù)據(jù)；則步驟A具體為IM客戶端軟件接收對端發(fā)來的數(shù)據(jù)信息，在將接收的數(shù)據(jù)信息作為聊天記錄顯示于即時通信界面的同時，將收到的數(shù)據(jù)信息作為備選字符串。步驟A與步驟B之間進一步包括將備選字符串劃分為一個或一個以上的詞；則步驟B根據(jù)預置規(guī)則對所得到的詞進行篩選。步驟B所述篩選后進一步包括統(tǒng)計并判斷經過篩選的詞在指定位置出現(xiàn) 的次數(shù)是否達到設定閾值，如果達到，則將相應詞作為新詞；否則不作為新詞。其中，所述指定位置為互聯(lián)網數(shù)據(jù)，或為來自本端或對端的聊天記錄。上述方案中，該方法進一步包括將獲取的新詞并入各種輸入法的數(shù)據(jù)庫。上述方案中，所述步驟A和步驟B由IM客戶端完成，該方法進一步包括 IM客戶端將獲取的新詞通過即時通信系統(tǒng)發(fā)送給對端用戶。上述方案中，所述步驟A和步驟B由IM客戶端完成，該方法進一步包括 IM客戶端將獲取的新詞上載到后臺服務器，由后臺服務器主動下載給各個注冊的IM客戶端，或根據(jù)IM客戶端的請求下載給有需求的IM客戶端。上述方案中，所述步驟A和步驟B由后臺服務器完成，該方法進一步包括后臺服務器將獲取的新詞主動下載給各個注冊的IM客戶端，或根據(jù)IM客戶端的請求下載給有需求的IM客戶端。本發(fā)明還提出了一種實現(xiàn)新詞獲取的IM客戶端，包括文本輸入單元、即時消息收發(fā)單元、聊天記錄顯示單元，關鍵在于，該IM客戶端還包括終端側篩選單元；所述文本輸入單元，用于接收并顯示本端用戶輸入的信息，并將收到的信息發(fā)送給即時消息收發(fā)單元、聊天記錄顯示單元和終端側篩選單元；所述即時消息收發(fā)單元，用于將從文本輸入單元接收的本端用戶輸入的信息發(fā)送給另一 IM客戶端，并將接收到的另一 IM客戶端發(fā)來的信息發(fā)送給聊天記錄顯示單元和終端側篩選單元；所述終端側篩選單元，接收來自文本輸入單元的本端輸入的聊天數(shù)據(jù)信息，以及來自即時消息收發(fā)單元的對端發(fā)來的聊天數(shù)據(jù)信息，并根據(jù)預置規(guī)則對聊天數(shù)據(jù)對應的備選字符串進行篩選，得到新詞。其中，該IM客戶端進一步包括分詞單元，用于將得到的聊天數(shù)據(jù)對應的備選字符串劃分為一個或一個以上的詞，再將劃分好的詞送至終端側篩選單元進行篩選。該IM客戶端還進一步包括統(tǒng)計單元，用于接收終端側篩選單元進行篩選后的詞，并將接收到的詞與從指定位置獲得的數(shù)據(jù)信息進行比較，統(tǒng)計所接收到的詞在指定位置出現(xiàn)次數(shù)是否達到設定閾值，將達到閾值的詞作為新詞。所述即時消息收發(fā)單元還可以進一步用于將本端獲取的新詞發(fā)送給對端，或接收對端發(fā)來的新詞。該IM客戶端進一步包括服務器交互單元，用于將本端獲取的新詞上載至后臺服務器，或接收后臺服務器廣播發(fā)送的新詞，或向后臺服務器請求并下載新詞。本發(fā)明還提出了一種實現(xiàn)新詞獲取的服務器，包括聊天數(shù)據(jù)收發(fā)單元；該服務器還包括服務器側篩選單元；所述聊天數(shù)據(jù)收發(fā)單元，接收各個IM客戶端發(fā)來的聊天記錄，并將收到的所有聊天數(shù)據(jù)送至服務器側篩選單元；所述服務器側篩選單元，根據(jù)預置規(guī)則對備選字符串進行篩選，得到新詞。該服務器進一步包括分詞單元，用于將得到的聊天數(shù)據(jù)對應的備選字符串劃分為一個或一個以上的詞，再將劃分好的詞送至服務器側篩選單元進行篩選。上述方案中，該服務器進一步包括統(tǒng)計單元，用于接收服務器側篩選單元進行篩選后的詞，并將接收到的詞與從指定位置獲得的數(shù)據(jù)信息進行比較，統(tǒng) 計所接收到的詞在指定位置的出現(xiàn)次數(shù)是否達到設定閾值，將達到閾值的詞作為新詞。所述聊天數(shù)據(jù)收發(fā)單元還進一步用于將獲取的新詞直接下載到各個IM客
戶端，或根據(jù)IM客戶端的請求下載給有需求的IM客戶端。本發(fā)明又提出一種獲取新詞的系統(tǒng)，包括至少一個IM客戶端、后臺服務器；該系統(tǒng)還包括篩選單元，用于根據(jù)預置規(guī)則對備選字符串進行篩選，得到新詞。其中，所述篩選單元位于IM客戶端；或位于后臺服務器；或位于IM客戶端和后臺服務器。本發(fā)明所提供的獲取新詞的方法、系統(tǒng)及設備，將聊天數(shù)據(jù)作為詞源，從聊天數(shù)據(jù)中獲取備選字符串，再對所獲取的字符串按預置規(guī)則進行篩選、統(tǒng)計，獲取新詞。本發(fā)明具有以下的優(yōu)點和特點1) 由于本發(fā)明從聊天數(shù)據(jù)中提取新詞，且聊天數(shù)據(jù)來自于本端輸入，或來自于一個或多個對端的輸入，如此，不僅擴展了新詞獲取的詞源，且獲取的新詞更符合多數(shù)人的需求。2) 本發(fā)明獲取新詞的過程可以直接根據(jù)預置規(guī)則進行篩選，也可以在篩選的基礎上進一步做比較、統(tǒng)計，以便更準確地得到新詞。3) 本發(fā)明的預置規(guī)則可以根據(jù)用戶需求設置各種篩選規(guī)則，不僅能準確度、效率更高，且實現(xiàn)更靈活。4) 本發(fā)明的新詞獲取可以在IM客戶端完成，也可以在后臺服務器完成；還可以采用兩層篩選，同時在IM客戶端和后臺服務器完成新詞獲取，實現(xiàn)更靈活、多樣，且獲取的新詞適用范圍更廣。5 )本發(fā)明在IM客戶端和/或后臺服務器實現(xiàn)新詞獲取時，還可以通過上載、下載、發(fā)送聊天數(shù)據(jù)等方式，將一個實體獲取的新詞發(fā)送給更多的用戶共享，使新詞應用更廣泛，且能保證新詞在較大的范圍同步更新，進而節(jié)省時間和成本，提高工作效率。

圖1為本發(fā)明的方法流程示意圖；圖2為本發(fā)明中IM客戶端的組成結構示意圖；圖3為本發(fā)明中實現(xiàn)新詞獲取的服務器的組成結構示意圖。
具體實施方式
隨著IM的迅速發(fā)展，使用即時通信方式進行交流的人越來越多，通過IM進行交流的內容越來越廣泛。基于此，本發(fā)明的核心思想是將聊天記錄中的聊天數(shù)據(jù)作為詞源，從聊天數(shù)據(jù)中獲取備選字符串，再對所獲取的字符串按預置規(guī)則進行篩選、統(tǒng)計，將符合要求的字符串作為新詞。本發(fā)明中，獲取新詞的功能可以直接嵌入IM客戶端的即時通信軟件中。本發(fā)明獲取新詞的方法如圖l所示，包括以下步驟步驟100:從聊天數(shù)據(jù)中獲取備選字符串；這里，從聊天數(shù)據(jù)中獲取備選字符串與一般輸入法獲取字符串不同，從聊天數(shù)據(jù)中獲取是實時獲取，不需要先存儲；更重要的是不僅可以獲取本端輸入的聊天數(shù)據(jù)，還可以獲取接收到的對端的聊天數(shù)據(jù)，其中，對端可以有多個。對于本端輸入的聊天數(shù)據(jù)，具體做法是用戶通過輸入法向IM客戶端輸入漢字，IM客戶端軟件接收當前輸入的數(shù)據(jù)信息，在將輸入數(shù)據(jù)作為聊天記錄顯示于即時通信界面的同時，將當前的輸入信息作為備選字符串。對于來自對端的聊天數(shù)據(jù)，具體處理是當前用戶IM客戶端的軟件接收對端發(fā)來的數(shù)據(jù)信息，在將接收的數(shù)據(jù)信息作為聊天記錄顯示于即時通信界面的同時，將收到的數(shù)據(jù)信息作為備選字符串。本步驟中，可以進一步將備選字符串劃分為一個或一個以上的詞，之后再對每個詞做后續(xù)的篩選處理；也可以不做劃分，而由后續(xù)的預置規(guī)則來完成分詞操作，去掉不符合基本構詞要求的部分，以保證得到的是正常使用的詞。如果做詞匯劃分，則所述的劃分可以是根據(jù)預置的分隔符區(qū)分不同的詞，比如根據(jù)預置的分隔符，分割出需要的字符串，舉例來說，假設預置的規(guī)則是以逗號作為分割符之一，則備選字符串為"秋天，美麗的季節(jié)"時，分割為"秋天" 和"美麗的季節(jié)"。也可以根據(jù)日常習慣進行分詞，比如備選字符串為"我的偶像"，按曰常習慣可分為"我的"和"偶像"等等。這里，所述的劃分可采用現(xiàn)有的分詞算法實現(xiàn)，比如采用基于字符串匹　配的分詞方法、基于理解的分詞方法以及基于統(tǒng)計的分詞方法。其中，基于字符串匹配的分詞方法又包括正向(由左到右)最大匹配法、逆向(由右到左) 最大匹配法、最少切分法等，可采用其中之一或任意組合。步驟110:根據(jù)預置規(guī)則對步驟100得到的備選字符串進行篩選，將經過篩選后的詞作為新詞。這里，篩選規(guī)則是預先設定的，可以根據(jù)需要設置各種篩選規(guī)則，對于多個篩選規(guī)則，可以單獨使用，也可以結合使用。所述的篩選規(guī)則有很多，比如將步驟100獲得的詞與已有詞庫中的詞進行比較，如果是已有詞庫中沒有的，就認為是新詞，舉例來說，獲得的詞包括 "騰飛"、"騰躍"、"飛躍"，其中，"騰飛"、"騰躍"詞庫中已有，則僅認為"飛躍"為新詞。再比如統(tǒng)計每個詞在聊天數(shù)據(jù)中出現(xiàn)的次數(shù)，設定一個閾值，如果出現(xiàn) 的次數(shù)小于閾值，就不認為是新詞；如果出現(xiàn)次數(shù)大于等于閾值，就認為是新詞，舉例來說，設定閾值為500,如果"騰飛"出現(xiàn)358次，"騰躍"出現(xiàn)558 次，"飛躍"出現(xiàn)20次，則刪除"騰飛"和"飛躍"。這種情況下，可以連續(xù)統(tǒng) 計多條聊天記錄，包括本端發(fā)出的和本端收到的。又比如設置長度閾值，并結合與已有詞庫比較來篩選，具體的，先選出處于某個長度范圍內的詞，再將選出的詞與已有詞庫中的詞進行比較，沒有出現(xiàn)過的就作為新詞，舉例來說，設定長度范圍為2到8，假設收到"香港"、"香港回歸十周年慶典"、"香港中心區(qū)"，則按長度規(guī)則刪除"香港回歸十周年慶典"，保留"香港"和"香港中心區(qū)"。如果步驟100中進一步將備選字符串劃分為一個或多個詞，則本步驟根據(jù) 預置規(guī)則對步驟IOO得到的詞進行篩選。在實際應用中，僅采用步驟100和110的方式選取新詞，并不能完全體現(xiàn) 新詞的概念，因為新詞應該是使用頻率或說出現(xiàn)頻率較高的、已有詞庫中沒有的詞，所以，為了確保所獲取的新詞是在常用環(huán)境下經常出現(xiàn)的，可以在步驟 110后進一步增加步驟120，同時修改步驟110為步驟110a:
步驟110a:根據(jù)預置規(guī)則對步驟100得到的備選字符串或詞進行篩選，得到符合要求的詞；這種情況下，還可以增加很多篩選規(guī)則，比如去除不符合預置構詞法的詞，舉例來說，假設當前預置的構詞法為刪除以"什么是"開頭的字符串，那么，當獲取到"什么是專利"和"什么"兩個字符串后，因為"什么是專利" 這個字符串是以"什么是"開頭的，不符合預置構詞法的要求，所以刪除字符串"什么是專利"，僅保留字符串"什么"。再比如去除不符合預置編碼要求的字符的詞，舉例來說，假設當前設置的編碼要求為只選擇符合漢字編碼的字符，在獲取到"什么？專利"時，由于其中的"？"屬于非漢字，則應刪除"？"。步驟120:統(tǒng)計并判斷經過篩選的詞在指定位置出現(xiàn)的次數(shù)是否達到設定閾值，如果達到，則將相應詞作為新詞；否則，不作為新詞。這里，所述指定位置可以是互聯(lián)網數(shù)據(jù)，也可以是聊天記錄，聊天記錄包括本端輸入的和對端發(fā)來的。其中，互聯(lián)網數(shù)據(jù)可以有不同的獲得途徑，比如通過爬蟲技術獲取到任何的互聯(lián)網網頁，網頁上的數(shù)據(jù)即為互聯(lián)網數(shù)據(jù)；客戶自身擁有的數(shù)據(jù)，包括電子文章、分類文章，諸如新聞、科技之類；其它客戶提供的數(shù)據(jù)。利用上述方法獲取的新詞，可進一步通過不同的方式提供給更多的人使用，更新覆蓋范圍相對大的詞庫。一種實現(xiàn)方式是將獲取的新詞并入各種輸入法的數(shù)據(jù)庫，那么，人們在更新輸入法數(shù)據(jù)庫后，就可以得到更多的新詞，更方便用戶的使用；另一種實現(xiàn)方式是本端用戶通過即時通信系統(tǒng)，在進行聊天時將自身產生的新詞發(fā)送給對端用戶，對端用戶收到后，可以用獲取的新詞更新自身的詞庫，這里，對端用戶可以有若干個；再一種實現(xiàn)方式是，本端用戶將自身獲取的新詞上載到后臺服務器，由后臺服務器主動下載給各個注冊的IM 客戶端，或是根據(jù)IM客戶端的請求下載給有需求的IM客戶端。這里，所說的新詞也可以是個新詞庫；所說的后臺服務器可以是即時通信服務器，也可以是詞庫服務器，或是其它具備上述處理功能的服務器。通常，步驟100和110、或步驟100~ 120可以在本地的IM客戶端完成；
由于聊天記錄也會傳送至后臺服務器存儲，所以，步驟100和110、或步驟100 ~120也可以在后臺服務器完成。為了使所獲取的新詞更具普遍性、符合更多用戶的需求，本發(fā)明還可以進一步釆用兩層條選的方式，即同時在本地IM客戶端和后臺服務器進行篩選，具體做法是先在本地IM客戶端按步驟100和110、或步驟100 120進行篩選，得到的結果并不直接作為新詞，而是作為備選詞發(fā)送至后臺服務器，后臺服務器收集從各個IM客戶端發(fā)來的備選詞，再根據(jù)自身預設的篩選規(guī)則進行篩選和統(tǒng) 計，就相當于，在后臺服務器側再做一次步驟IIO、或再做一次步驟110和120。 IM客戶端和后臺服務器所設置的篩選規(guī)則可以相同，也可以不同；設置的出現(xiàn) 次數(shù)閾值也可以相同，可以不同。經過兩層篩選后得到的詞作為新詞，可以通過主動下載方式給各個注冊的IM客戶端，也可以通過IM客戶端的請求方式下載給有需求的IM客戶端。當獲取新詞在IM客戶端完成時，為實現(xiàn)本發(fā)明獲取新詞的方法，本發(fā)明提出一種實現(xiàn)新詞獲取的IM客戶端，如圖2所示，包括已有的文本輸入單元 21、即時消息收發(fā)單元22、聊天記錄顯示單元23，關鍵是還包括終端側篩選單元24。其中，文本輸入單元21，用于接收并顯示本端用戶輸入的信息，并將收到的信息發(fā)送給即時消息收發(fā)單元22、聊天記錄顯示單元23和終端側篩選單元24;即時消息收發(fā)單元22，連接聊天記錄顯示單元23和另一IM客戶端的即時消息收發(fā)單元(圖中未示)，用于將從文本輸入單元21接收的本端用戶輸入的信息發(fā)送給另一 IM客戶端，并將接收到的另一 IM客戶端發(fā)來的信息發(fā) 送給聊天記錄顯示單元23和終端側篩選單元24;聊天記錄顯示單元23，用于顯示本端用戶輸入的發(fā)送給另一 IM客戶端的信息、以及收到的來自另一 IM客戶端的信息；終端側篩選單元24，接收來自文本輸入單元21的本端輸入的聊天數(shù)據(jù)信息，以及來自即時消息收發(fā)單元22的對端發(fā)來的聊天數(shù)據(jù)信息，并根據(jù)預置規(guī)則對聊天數(shù)據(jù)對應的備選字符串進行篩選，得到新詞。其中，終端側篩選單元24中的預置規(guī)則是預先設定并存儲于其中的。
該實現(xiàn)新詞獲取的IM客戶端可進一步包括分詞單元，位于終端側篩選單元24之前，用于將得到的聊天數(shù)據(jù)對應的備選字符串劃分為一個或一個以上的詞，再將劃分好的詞送至終端側篩選單元24進行篩選。該實現(xiàn)新詞獲取的IM客戶端還可以進一步包括統(tǒng)計單元，用于接收終端側篩選單元24進行篩選后的詞，并將接收到的詞與從指定位置獲得的數(shù)據(jù)信息進行比較，統(tǒng)計所接收到的詞在指定位置的出現(xiàn)次數(shù)是否達到設定閾值，將達到閾值的詞作為新詞。其中，指定位置可以是互聯(lián)網數(shù)據(jù)，也可以是來自本端或對端的聊天記錄。即時消息收發(fā)單元22還可以進一步用于將本端獲取的新詞發(fā)送給對端，或接收對端發(fā)來的新詞。該實現(xiàn)新詞獲取的IM客戶端還可以進一步包括服務器交互單元，用于將本端獲取的新詞上載至后臺服務器，或接收后臺服務器廣播發(fā)送的新詞，或向后臺服務器請求并下載新詞。由于本發(fā)明獲取新詞的方法也可以在服務器端實現(xiàn)，所以，當獲取新詞在后臺服務器完成時，為實現(xiàn)本發(fā)明獲取新詞的方法，本發(fā)明提出一種實現(xiàn)新詞獲取的服務器，如圖3所示，包括已有的聊天數(shù)據(jù)收發(fā)單元31，關鍵是還包括服務器側篩選單元32。其中，聊天數(shù)據(jù)收發(fā)單元31，接收各個IM客戶端發(fā)來的聊天記錄，并將收到的所有聊天數(shù)據(jù)送至服務器惻篩選單元32;服務器側篩選單元32,根據(jù)預置規(guī)則對備選字符串進行篩選，得到新詞。其中，服務器側篩選單元32中的預置規(guī)則是預先設定并存儲于其中的。該實現(xiàn)新詞獲取的服務器可進一步包括分詞單元，位于服務器側篩選單元 32之前，用于將收到的所有聊天數(shù)據(jù)對應的備選字符串劃分為一個或一個以上的詞，再將劃分好的詞送至服務器側篩選單元32進行篩選。該實現(xiàn)新詞獲取的服務器還可以進一步包括統(tǒng)計單元，用于接收服務器側篩選單元32進行篩選后的詞，并將接收到的詞與從指定位置獲得的數(shù)據(jù)信息進行比較，統(tǒng)計所接收到的詞在指定位置的出現(xiàn)次數(shù)是否達到設定閾值，將達到閾值的詞作為新詞。其中，指定位置可以是互聯(lián)網數(shù)據(jù)，也可以是來自本端或200710122187.2說明書第1V12頁對端的聊天記錄。聊天數(shù)據(jù)收發(fā)單元31還進一步用于將獲取的新詞直接下載到各個IM客戶端，或根據(jù)IM客戶端的請求下載給有需求的IM客戶端。本發(fā)明中，所述實現(xiàn)新詞獲取的服務器可以是即時通信服務器，也可以是詞庫服務器。聊天數(shù)據(jù)收發(fā)單元31、服務器側篩選單元32、分詞單元和統(tǒng)計單元可以均位于即時通信服務器中或詞庫服務器中，也可以在同時存在即時通信服務器和詞庫服務器時，聊天數(shù)據(jù)收發(fā)單元31位于即時通信服務器中，其余單元位于詞庫服務器中。本發(fā)明還提出一種獲取新詞的系統(tǒng)，包括至少一個IM客戶端、后臺服務器，關鍵在于，該系統(tǒng)還包括篩選單元，用于根據(jù)預置規(guī)則對備選字符串進行篩選，得到新詞。所述篩選單元可以位于IM客戶端，也可以位于后臺服務器，還可以同時設置于IM客戶端和后臺服務器。當篩選單元位于IM客戶端時，相當于系統(tǒng)由至少一個圖2所示的IM客戶端與現(xiàn)有的后臺服務器構成；當篩選單元位于后臺服務器時，相當于系統(tǒng)由圖3所示的后臺服務器與至少一個現(xiàn)有的IM客戶端構成；當篩選單元同時設置于IM客戶端和后臺服務器時，相當于系統(tǒng)由至少一個圖2所示的IM客戶端與圖3所示的后臺服務器構成，這種情況下，IM客戶端與后臺服務器做兩層篩選。IM客戶端的即時消息收發(fā)單元與后臺服務器的聊天數(shù)據(jù)收發(fā)單元之間用于傳輸篩選出的備選詞，或傳輸新詞。對于第一種和第三種情況，IM客戶端可以僅為能獲取新詞的IM客戶端，也可以同時包括能獲取新詞的IM客戶端和已有的IM客戶端;對于第二種情況, 所述IM客戶端僅為已有的IM客戶端。同樣，該系統(tǒng)可進一步包括分詞單元，用于將得到的所有聊天數(shù)據(jù)對應的備選字符串劃分為一個或多個詞，再將劃分好的詞送至篩選單元進行篩選。該系統(tǒng)還可以進一步包括統(tǒng)計單元，用于接收篩選單元進行篩選后的詞，并將接收到的詞與從指定位置獲得的數(shù)據(jù)信息進行比較，統(tǒng)計所接收到的詞在指定位置的出現(xiàn)次數(shù)是否達到設定閾值，將達到閾值的詞作為新詞。其中，指16 定位置可以是互聯(lián)網數(shù)據(jù)，也可以是來自本端或對端的聊天記錄。以上所述，僅為本發(fā)明的較佳實施例而已，并非用于限定本發(fā)明的保護范
權利要求
1、一種獲取新詞的方法，其特征在于，該方法包括A、從聊天數(shù)據(jù)中獲取備選字符串；B、根據(jù)預置規(guī)則對所得到的備選字符串進行篩選，將經過篩選后的詞作為新詞。
2、根據(jù)權利要求l所述的方法，其特征在于，所述獲取為獲取本端輸入的聊天數(shù)據(jù)；或為獲取接收到的對端的聊天數(shù)據(jù)，其中，所述對端為一個或一個以上。
3、根據(jù)權利要求l所述的方法，其特征在于，所述聊天數(shù)據(jù)為本端輸入的聊天數(shù)據(jù)；則步驟A具體為IM客戶端軟件接收當前用戶通過輸入法輸入的數(shù)據(jù)信息，在將輸入數(shù)據(jù)作為聊天記錄顯示于即時通信界面的同時，將當前的輸入信息作為備選字符串；或者，所述聊天數(shù)據(jù)為來自對端的聊天數(shù)據(jù)；則步驟A具體為 IM客戶端軟件接收對端發(fā)來的數(shù)據(jù)信息，在將接收的數(shù)據(jù)信息作為聊天記錄顯示于即時通信界面的同時，將收到的數(shù)據(jù)信息作為備選字符串。
4、根據(jù)權利要求l所述的方法，其特征在于，步驟A與步驟B之間進一步包括將備選字符串劃分為一個或一個以上的詞；則步驟B根據(jù)預置規(guī)則對所得到的詞進行篩選。
5、根據(jù)權利要求1至4任一項所述的方法，其特征在于，該方法進一步包括將獲取的新詞并入各種輸入法的數(shù)據(jù)庫。
6、根據(jù)權利要求1至4任一項所述的方法，其特征在于，所述步驟A和步驟B由IM客戶端完成，該方法進一步包括IM客戶端將獲取的新詞通過即時通信系統(tǒng)發(fā)送給對端用戶。
7、根據(jù)權利要求1至4任一項所述的方法，其特征在于，所述步驟A和步驟B由IM客戶端完成，該方法進一步包括IM客戶端將獲取的新詞上載到后臺服務器，由后臺服務器主動下載給各個注冊的IM客戶端，或根據(jù)IM客戶端的請求下載給有需求的IM客戶端。
8、根據(jù)權利要求1至4任一項所述的方法，其特征在于，所述步驟A和步驟B由后臺服務器完成，該方法進一步包括后臺服務器將獲取的新詞主動下載給各個注冊的IM客戶端，或根據(jù)IM客戶端的請求下載給有需求的IM客戶端。
9、根據(jù)權利要求1至4任一項所述的方法，其特征在于，步驟B所述篩選后進一步包括統(tǒng)計并判斷經過篩選的詞在指定位置出現(xiàn)的次數(shù)是否達到設定閾值，如果達到，則將相應詞作為新詞；否則不作為新詞。
10、根據(jù)權利要求9所述的方法，其特征在于，所述指定位置為互聯(lián)網數(shù) 據(jù)，或為來自本端或對端的聊天記錄。
11、根據(jù)權利要求9所述的方法，其特征在于，該方法進一步包括將獲取的新詞并入各種輸入法的數(shù)據(jù)庫。
12、根據(jù)權利要求9所述的方法，其特征在于，所述步驟A和步驟B由IM 客戶端完成，該方法進一步包括IM客戶端將獲取的新詞通過即時通信系統(tǒng)發(fā) 送給對端用戶。
13、根據(jù)權利要求9所述的方法，其特征在于，所述步驟A和步驟B由IM 客戶端完成，該方法進一步包括IM客戶端將獲取的新詞上載到后臺服務器，由后臺服務器主動下載給各個注冊的IM客戶端，或根據(jù)IM客戶端的請求下載給有需求的IM客戶端。
14、根據(jù)權利要求9所述的方法，其特征在于，所述步驟A和步驟B由后臺服務器完成，該方法進一步包括后臺服務器將獲取的新詞主動下載給各個注冊的IM客戶端，或根據(jù)IM客戶端的請求下載給有需求的IM客戶端。
15、一種實現(xiàn)新詞獲取的IM客戶端，包括文本輸入單元、即時消息收發(fā)單元、聊天記錄顯示單元，其特征在于，該IM客戶端還包括終端側篩選單元；所述文本輸入單元，用于接收并顯示本端用戶輸入的信息，并將收到的信息發(fā)送給即時消息收發(fā)單元、聊天記錄顯示單元和終端側篩選單元；所述即時消息收發(fā)單元，用于將從文本輸入單元接收的本端用戶輸入的信息發(fā)送給另一 IM客戶端，并將接收到的另一 IM客戶端發(fā)來的信息發(fā)送給聊天記錄顯示單元和終端側篩選單元；所述終端側篩選單元，接收來自文本輸入單元的本端輸入的聊天數(shù)據(jù)信息，以及來自即時消息收發(fā)單元的對端發(fā)來的聊天數(shù)據(jù)信息，并根據(jù)預置規(guī)則對聊天數(shù)據(jù)對應的備選字符串進行篩選，得到新詞。
16、根據(jù)權利要求15所述的IM客戶端，其特征在于，該IM客戶端進一步包括分詞單元，用于將得到的聊天數(shù)據(jù)對應的備選字符串劃分為一個或一個以上的詞，再將劃分好的詞送至終端側篩選單元進行篩選。
17、根據(jù)權利要求15或16所述的IM客戶端，其特征在于，該IM客戶端進一步包括統(tǒng)計單元，用于接收終端側篩選單元進行篩選后的詞，并將接收到的詞與從指定位置獲得的數(shù)據(jù)信息進行比較，統(tǒng)計所接收到的詞在指定位置出現(xiàn)次數(shù)是否達到設定閾值，將達到闔值的詞作為新詞。
18、根據(jù)權利要求17所述的IM客戶端，其特征在于，所述即時消息收發(fā) 單元還可以進一步用于將本端獲取的新詞發(fā)送給對端，或接收對端發(fā)來的新詞。
19、根據(jù)權利要求17所述的IM客戶端，其特征在于，該IM客戶端進一步包括服務器交互單元，用于將本端獲取的新詞上載至后臺服務器，或接收后臺服務器廣播發(fā)送的新詞，或向后臺服務器請求并下載新詞。
20、一種實現(xiàn)新詞獲取的服務器，包括聊天數(shù)據(jù)收發(fā)單元；其特征在于，該服務器還包括服務器側篩選單元；所述聊天數(shù)據(jù)收發(fā)單元，接收各個IM客戶端發(fā)來的聊天記錄，并將收到的所有聊天數(shù)據(jù)送至服務器側篩選單元；所述服務器側篩選單元，根據(jù)預置規(guī)則對備選字符串進行篩選，得到新詞。
21、根據(jù)權利要求20所述的服務器，其特征在于，該服務器進一步包括分詞單元，用于將得到的聊天數(shù)據(jù)對應的備選字符串劃分為一個或一個以上的詞，再將劃分好的詞送至服務器側篩選單元進行篩選。
22、根據(jù)權利要求20或21所述的服務器，其特征在于，該服務器進一步包括統(tǒng)計單元，用于接收服務器側篩選單元進行篩選后的詞，并將接收到的詞與從指定位置獲得的數(shù)據(jù)信息進行比較，統(tǒng)計所接收到的詞在指定位置的出現(xiàn) 次數(shù)是否達到設定閾值，將達到閾值的詞作為新詞。
23、根據(jù)權利要求22所述的服務器，其特征在于，所述聊天數(shù)據(jù)收發(fā)單元還進一步用于將獲取的新詞直接下載到各個IM客戶端，或根據(jù)IM客戶端的請求下載給有需求的IM客戶端。
24、一種獲取新詞的系統(tǒng)，包括至少一個IM客戶端、后臺服務器；其特征在于，該系統(tǒng)還包括篩選單元，用于根據(jù)預置規(guī)則對備選字符串進行篩選，得到新詞。
25、根據(jù)權利要求24所述的系統(tǒng)，其特征在于，所述篩選單元位于IM客戶端；或位于后臺服務器；或位于IM客戶端和后臺服務器。
26、根據(jù)權利要求24或25所述的系統(tǒng)，其特征在于，該系統(tǒng)進一步包括分詞單元，用于將得到的所有聊天數(shù)據(jù)對應的備選字符串劃分為一個或多個詞，再將劃分好的詞送至篩選單元進行篩選。
27、根據(jù)權利要求26所述的系統(tǒng)，其特征在于，該系統(tǒng)進一步包括統(tǒng)計單元，用于接收篩選單元進行篩選后的詞，并將接收到的詞與從指定位置獲得的數(shù)據(jù)信息進行比較，統(tǒng)計所接收到的詞在指定位置的出現(xiàn)次數(shù)是否達到設定閾值，將達到閾值的詞作為新詞。
全文摘要
本發(fā)明公開了一種獲取新詞的方法，包括A.從聊天數(shù)據(jù)中獲取備選字符串；B.根據(jù)預置規(guī)則對所得到的備選字符串進行篩選，將經過篩選后的詞作為新詞。本發(fā)明還同時公開了一種獲取新詞的系統(tǒng)及實現(xiàn)新詞獲取的即時通信客戶端和服務器，采用本發(fā)明能基于即時通信的詞源簡單、有效、實時地自動獲取新詞，并能使所獲取的新詞適用范圍更廣。
文檔編號G06F17/20GK101119334SQ20071012218
公開日2008年2月6日申請日期2007年9月21日優(yōu)先權日2007年9月21日
發(fā)明者李偉杰申請人:騰訊科技(深圳)有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：李偉杰
技術所有人：騰訊科技(深圳)有限公司
我是此專利的發(fā)明人

上一篇：數(shù)據(jù)安全讀取方法及其安全存儲裝置的制作方法
上一篇：一種圖片文字檢測的方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯(lián)網安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種獲取新詞的方法、系統(tǒng)及設備的制作方法

一種獲取新詞的方法、系統(tǒng)及設備的制作方法