新詞挖掘方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種新詞挖掘方法和系統(tǒng)。所述方法包括:獲取通過種子詞得到的搜索模式,所述搜索模式中包含與所述種子詞對應的標記符;在搜索日志中查找與所述搜索模式匹配的;判斷所述字符是否存在于詞庫中,若否,則將所述字符作為新詞更新到詞庫中。所述系統(tǒng)包括:模式獲取模塊、處理模塊以及更新模塊。采用本發(fā)明能提高通用性和準確率。
【專利說明】新詞挖掘方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理技術(shù),特別是涉及一種新詞挖掘方法和系統(tǒng)。
【背景技術(shù)】
[0002]在互聯(lián)網(wǎng)絡(luò)的迅猛發(fā)展中大量信息通過互聯(lián)網(wǎng)絡(luò)迅速傳播。互聯(lián)網(wǎng)用戶可以從互聯(lián)網(wǎng)絡(luò)中獲取到巨大的信息量,進而再次通過互聯(lián)網(wǎng)傳播獲取到的信息。隨著信息的廣泛傳播以及互聯(lián)網(wǎng)用戶之間的不斷交流擴展,各種新詞層出不窮,因此需不斷對互聯(lián)網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)進行新詞挖掘,以收錄新詞,進而為各種應用提供便利。
[0003]然而,在挖掘新詞的過程中所使用的方法大致分為基于規(guī)則的新詞獲取方法和基于統(tǒng)計的新詞獲取方法?;谝?guī)則的新詞獲取方法是通過研究詞匯的構(gòu)詞特征來建立規(guī)貝U,進而通過規(guī)則來識別對互聯(lián)網(wǎng)中產(chǎn)生的數(shù)據(jù)進行識別以得到新詞?;谝?guī)則的新詞獲取方法具備較高的準確率,但是由于規(guī)則的建立較為困難,并且需要針對每一場景制定相應的規(guī)則,所建立的一套規(guī)則無法適用于場景變換,通用性差,無法針對不同的場景實現(xiàn)新詞挖掘中較高的準確率。
[0004]基于統(tǒng)計的新詞獲取方法對收錄了各種信息的語料庫所存儲的文本進行大量的訓練,以統(tǒng)計出詞匯的出現(xiàn)概率,進而根據(jù)出現(xiàn)概率得到新詞?;诮y(tǒng)計的新詞獲取方法雖然能夠不受場景的限制,可在任一場景較為迅速地實現(xiàn)新詞的獲取,但是需要大量的訓練語料,并且新詞挖掘的準確率較低,也無法針對不同的場景實現(xiàn)準確率的提高。
【發(fā)明內(nèi)容】
[0005]基于此,有必要針對不同的場景無法提高新詞挖掘準確率的問題,提供一種能提高通用性和準確率的新詞挖掘方法。
[0006]此外,還有必要提供一種能提高通用性和準確性的新詞挖掘系統(tǒng)。
[0007]一種新詞挖掘方法,包括如下步驟:
[0008]獲取通過種子詞得到的搜索模式,所述搜索模式中包含與所述種子詞對應的標記符;
[0009]在搜索日志中查找與所述搜索模式匹配的搜索串,并在所述匹配的搜索串中得到與所述搜索模式的標記符相對應的字符;
[0010]判斷所述字符是否存在于詞庫中,若否,則將所述字符作為新詞更新到詞庫中。
[0011]一種新詞挖掘系統(tǒng),包括:
[0012]模式獲取模塊,用于獲取通過種子詞得到的搜索模式,所述搜索模式中包含與所述種子詞對應的標記符;
[0013]處理模塊,用于在搜索日志中查找與所述搜索模式匹配的搜索串,并在所述匹配的搜索串中得到與所述搜索模式的標記符相對應的字符;
[0014]更新模塊,用于判斷所述字符是否存在于詞庫中,若否,則將所述字符作為新詞更新到詞庫中。[0015]上述新詞挖掘方法和系統(tǒng),通過搜索模式在搜索日志中查找得到匹配的搜索串,其中搜索模式中包含了與種子詞對應的標記符,從搜索串中得到與標記符對應的字符,進而將詞庫中未收錄的字符更新到詞庫中,由于搜索模式中包含了與種子詞對應的標記符,可用于反映用戶的搜索目的,成為種子詞和未知的新詞之間的聯(lián)系,進而提高新詞挖掘的準確性,并且任一場景都有相應的種子詞,進而通過種子詞得到搜索模式,使得任一場景下都可通過搜索模式在搜索日志中挖掘新詞,提高了通用性。
【專利附圖】
【附圖說明】
[0016]圖1為一個實施例中新詞挖掘方法的流程圖;
[0017]圖2為一個實施例中掃描搜索日志得到包含種子詞的搜索串,并將搜索串中的種子詞替換為標記符得到搜索模式的方法流程圖;
[0018]圖3為一個實施例中在搜索日志中查找與搜索模式匹配的搜索串,并在匹配的搜索串中得到與搜索模式的標記符相對應的字符;
[0019]圖4為另一個實施例中新詞挖掘方法的流程圖;
[0020]圖5為一個實施例中新詞挖掘系統(tǒng)的結(jié)構(gòu)示意圖;
[0021]圖6為另一個實施例中新詞挖掘系統(tǒng)的結(jié)構(gòu)示意圖;
[0022]圖7為圖6中日志掃描模塊的結(jié)構(gòu)示意圖;
[0023]圖8為一個實施例中處理模塊的結(jié)構(gòu)示意圖;
[0024]圖9為另一個實施例中新詞挖掘系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0025]如圖1所示,在一個實施例中,一種新詞挖掘方法,包括如下步驟:
[0026]步驟S110,獲取通過種子詞得到的搜索模式,所述搜索模式中包含所述種子詞對應的標記符。
[0027]本實施例中,種子詞是從現(xiàn)有的已知詞匯中選取的若干個詞匯,可以是從已有的搜索串中選取的詞匯,用于代表任一搜索場景中的搜索串,并且處于同一搜索場景中的種子詞將會對應了相似的搜索模式,例如在影視劇場景下,種子詞可以是“車在冏途”、“武林外傳”以及“士兵突擊”等詞匯;在汽車品牌這一場景下,可以將“保時捷”、“法拉利”作為種子詞。在實際的運行過程中,只需選取廣3個已知詞匯作為種子詞即可通過選取得到的種子詞得到相應的搜索模式。搜索模式是與所在的場景相關(guān)聯(lián)的,反映了用戶的搜索行為,每一場景均有相應的搜索模式,搜索模式指示了在相應場景下用戶輸入搜索串的格式,在影視劇這一場景下,用戶輸入某一電視劇的搜索串中種子詞為電視劇名稱,而搜索模式則與種子詞共同組成搜索串。
[0028]在通過種子詞得到的搜索模式中,標記符是與種子詞相對應的部分,用于標識搜索模式中與種子詞相對應的部分。例如,若種子詞為保時捷,則搜索模式中與“保時捷”相對應的部分則即為標記符。
[0029]在另一個實施例中,上述步驟S 110之前還包括:掃描搜索日志得到包含種子詞的搜索串,并將搜索串中的種子詞替換為標記符得到搜索模式。
[0030]本實施例中,搜索串為用戶在使用進行搜索的過程中輸入的字符。在獲取通過種子詞得到的搜索模式之前還需預先通過種子詞得到相應的搜索模式。具體的,獲取搜索日志,對搜索日志進行掃描以查找得到搜索串,該搜索串中包含了種子詞,并將搜索串中包含種子詞的字符替換為標記符,此時替換后的搜索串即為搜索模式。在優(yōu)選的實施例中,標記符為通配符例如,若搜索串為“高清士兵突擊全集下載”,種子詞為“士兵突擊”,則會將搜索串中的“士兵突擊”替換為通配符,得到的搜索模式為“高清*全集下載”。
[0031]如圖2所示,在一個實施例中,上述掃描搜索日志得到包含種子詞的搜索串,并將搜索串中的種子詞替換為標記符得到搜索模式的具體過程包括:
[0032]步驟S210,從搜索日志中提取搜索串。
[0033]本實施例中,搜索日志是搜索引擎運行過程中產(chǎn)生的,記了錄搜索過程中用戶所輸入的搜索串。例如,搜索日志中的每一條目可以是“時間/IP/用戶標識/URL/來源參數(shù)/處理結(jié)果”的格式,搜索引擎中發(fā)生的一次搜索行為將對應了搜索日志中的一個條目,其中,時間為該次搜索行為發(fā)生的時間;IP為瀏覽器等客戶端外網(wǎng)出口的網(wǎng)絡(luò)地址;用戶標識是進行觸發(fā)搜索行為的瀏覽器cookie下的隨機值,用于區(qū)分不同的瀏覽器;來源參數(shù)包括了 referer (引用頁)、URL中攜帶的來源參數(shù)或cookie中攜帶的來源參數(shù);處理結(jié)果包括了該次搜索行為請求成功、失敗、返回的結(jié)果數(shù)量等信息。搜索串設(shè)置于搜索日志的URL字段中,以urlencode (將字符以URL編碼)的形式表示,其編碼類型為gbk或UTF-8,進而將編碼類型為gbk或UTF-8的搜索串統(tǒng)一轉(zhuǎn)換為UTF-8編碼的明文,并去除搜索串中的空串和不可見字符,以方便后續(xù)的處理。
[0034]搜索引擎的不同所對應的搜索日志格式也各不相同,在此并不限于如上所述的搜索日志格式。但是無論是何種搜索日志格式,均可從相對較為復雜的搜索日志中提取出搜索串,換而言之,搜索串為用戶在搜索框中輸入的原始信息。
[0035]在從搜索日志中提取到若干個搜索串之后還將統(tǒng)計每一搜索串的出現(xiàn)頻度QF,進而將搜索串和出現(xiàn)頻度相關(guān)聯(lián)得到存儲了搜索串以及相關(guān)聯(lián)的出現(xiàn)頻度的文本文件query_file,在文本文件query_file中每一搜索串Query以及相關(guān)聯(lián)的出現(xiàn)頻度QF占據(jù)一行形成一條記錄,即[Query, QF]的形式,并按照出現(xiàn)頻度QF進行排列,而文本文件query_file的多條記錄中搜索串和出現(xiàn)頻度各占據(jù)一列。
[0036]步驟S230,在提取的搜索串中進行查找得到包含種子詞的搜索串。
[0037]本實施例中,獲取選定的種子詞,根據(jù)種子詞在文本文件query_file中進行查找得包含了種子詞的搜索串。具體的,若干個種子詞以[seedP^seedn]的形式進行存儲的,其中seedn為種子詞,η為種子詞個數(shù)。根據(jù)[seedl...seedn]在文本文件query_file進行查找,得到包含了任一種子詞的搜索串。
[0038]步驟S250,替換搜索串中的種子詞為標記符,并將替換后的搜索串存儲為搜索模式。
[0039]本實施例中,在對搜索串中的種子詞進行替換之后得到了相應的搜索模式pattern,并進行存儲。具體的,通過文本文件query_f ile中所得到的搜索模式可能為多個,此時所得到的多個搜索模式將存儲為[patternpHpattern k]的形式,其中
N為搜索模式的數(shù)量。
[0040]進一步的,還將對搜索模式進行計數(shù)得到該搜索模式的累計頻度PF,進而將搜索模式與累計頻度PF相關(guān)聯(lián)得到數(shù)據(jù)結(jié)構(gòu)map〈pattern, PF>,其中搜索模式pattern以及與之相關(guān)聯(lián)的累計頻度PF是按照累計頻度的大小進行順序排列的,累計頻度越高,則說明相關(guān)聯(lián)的搜索模式越具備代表性,用于識別得到新詞也就越準確。由于搜索模式是從大量的搜索日志得到的,捕捉了用戶的搜索習慣,因此,具備了較高的穩(wěn)定性和復用性。
[0041]步驟S130,在搜索日志中查找與搜索模式匹配的搜索串,并在匹配的搜索串中得到與搜索模式的標記符相對應的字符。
[0042]本實施例中,再次對搜索日志進行掃描,在搜索日志中查找出與搜索模式匹配的搜索串,進而從搜索串中得到與搜索模式中的標記符對應的字符。具體的,與某一搜索模式相匹配的搜索串滿足了該搜索模式,例如,對于“高清愛情呼叫轉(zhuǎn)移全集下載”的搜索串,滿足了“高清*全集下載”的搜索模式,是與“高清*全集下載”這一搜索模式相匹配的,此時,與標記符對于的字符即為“愛情呼叫轉(zhuǎn)移”。
[0043]在對搜索日志進行掃描得到了與搜索模式相匹配的搜索串之后,以搜索模式為篩選條件,從匹配的搜索串中篩選出與搜索模式的標記符相對應的字符,其中,在相互匹配的搜索模式和搜索串之間,標記符與字符是相對應的,并且由于搜索模式是通過種子詞得到的,種子詞與搜索模式中的標記符相對應,因此,種子詞也是與匹配的搜索模式中的字符相對應的。
[0044]步驟S150,判斷字符是否存在于詞庫中,若否,則進入步驟S170,若是,則結(jié)束。
[0045]本實施例中,從搜索日志的搜索串中通過搜索模式得到了與標記符對應的字符,由于搜索模式是通過搜索日志中的搜索串得到的,反映了用戶通過搜索引擎進行搜索時的搜索習慣,任一搜索模式均反映了相應的場景下用戶所輸入的搜索串形式,因此所得到的字符與得到該搜索模式的種子詞為同類詞匯的可能性非常高,即字符與種子詞是屬于同一場景的,進一步的,與標記符對應的字符是與種子詞屬于同一場景的已知詞匯或新詞。
[0046]詞庫是一組詞匯的集合,在實際應用中,收錄于詞庫中的詞匯將認為是已知詞匯,尚未被詞庫收錄的詞匯則認為是新詞,在一個具體的實施例中,詞庫為詞典的形式。在得到搜索串中與標記符對應的字符之后,將判斷該字符是否已經(jīng)收錄于詞庫中,若否,則判定該字符為新詞,需要將該字符更新到詞庫中,不斷擴充詞庫所收錄的詞匯。
[0047]步驟S170,將字符作為新詞更新到詞庫中。
[0048]本實施例中,將得到的新詞補充到詞庫中,以提高搜索引擎進行搜索的準確率。在實際的運用過程中,在搜索引擎的搜索以及為各類場景提供的熱詞排行榜中,例如最熱男歌手、最熱影視劇等,不斷更新的詞庫提供了方便,避免了詞匯的遺漏,并且由于是通過搜索日志以及搜索模式自動得到的新詞,不需要編輯進行人工維護,大大地減輕了人工工作量,降低成本。
[0049]如圖3所示,在一個實施例中,上述步驟S130的具體過程包括:
[0050]步驟S131,根據(jù)搜索模式逐一對搜索日志中的搜索串進行查找,得到與搜索模式相匹配的搜索串。
[0051]本實施例中,對通過搜索日志得到的多個搜索串進行查找,以得到滿足搜索模式的搜索串,此時滿足搜索模式的搜索串實質(zhì)上是與該搜索模式較為相似的。
[0052]步驟S133,根據(jù)搜索模式中標記符的前綴字符和后綴字符,在匹配的搜索串中去除與前綴字符和后綴字符對應的字符,得到與標記符相對應的字符。
[0053]本實施例中,用戶通過搜索引擎輸入搜索串進行搜索的過程中,通常會輸入與搜索意圖最為相關(guān)的關(guān)鍵字,即中心詞,以供搜索引擎進行搜索。但是,為了進一步縮小搜索范圍,用戶將會在中心詞的前后補充一些詞匯。
[0054]例如,用戶在搜索電視劇士兵突擊的在線觀看網(wǎng)站時,輸入“士兵突擊”這一中心詞,但是,所得到的搜索結(jié)果包括了劇情、下載網(wǎng)站、評論網(wǎng)站以及在線觀看網(wǎng)站等諸多信息,此時,用戶將在“士兵突擊”的前后補充相關(guān)的詞匯得到搜索串“高清士兵突擊在線觀看”,相應的,通過這一搜索串以及種子詞“士兵突擊”所得到的搜索模式為“高清*在線觀看”。
[0055]因此搜索模式包括了前綴字符、標記符以及后綴字符。也就是說,對于包含種子詞的搜索串而言,所對應的形式為:Query=prefix+seed+postfix,其中prefix為前綴字符,postfix為后綴字符,并且前綴字符和后綴字符均可為空。將種子詞替換為標記符即可得到相應的搜索模式:pattern=prefix+*+postfix。相應的,再次對搜索日志進行掃描以獲取與標記符相對應的字符時,搜索串所對應的形式為Query=pref ix+word+postfix,其中,word為中心詞,并且中心詞word中包括了種子詞seed和新詞。
[0056]將搜索模式和搜索串進行文本匹配得到與搜索模式匹配的搜索串,進而根據(jù)搜索模式中的前綴字符和后綴字符去除搜索串中的前綴字符和后綴字符即可得到與標記符對應的字符。
[0057]如圖4所示,在另一個實施例中,上述步驟S150之前還包括如下步驟:
[0058]步驟S310,對與標記符相對應的字符進行計數(shù)得到該字符的出現(xiàn)頻度。
[0059]本實施例中,在得到與標記符相對應的字符之后,將對該字符進行計數(shù)得到該字符的出現(xiàn)頻度,并將該字符與出現(xiàn)頻度相關(guān)聯(lián),按照出現(xiàn)頻度的大小順序排列該字符以及相關(guān)聯(lián)的出現(xiàn)頻度,得到字符和出現(xiàn)頻度的列表,以便于查看。
[0060]步驟S330,判斷該字符的出現(xiàn)頻度是否大于閾值,若否,則進入步驟S350,若是,則進入步驟S150。
[0061]本實施例中,若判斷到字符的出現(xiàn)頻度并未大于閾值,則說明該字符為噪音或者垃圾,需濾除該字符,若判斷到字符的出現(xiàn)頻度是大于閾值的,則進一步判斷該字符是否為新詞。
[0062]步驟S350,濾除出現(xiàn)頻度對應的字符。
[0063]如圖5所不,在一個實施例中,一種新詞挖掘系統(tǒng),包括模式獲取模塊110、處理模塊130以及更新模塊150。
[0064]模式獲取模塊110,用于獲取通過種子詞得到的搜索模式,搜索模式中包含與種子詞對應的標記符。
[0065]本實施例中,種子詞是從現(xiàn)有的已知詞匯中選取的若干個詞匯,可以是從已有的搜索串中選取的詞匯,用于代表任一搜索場景中的搜索串,并且處于同一搜索場景中的種子詞將會對應了相似的搜索模式,例如在影視劇場景下,種子詞可以是“車在冏途”、“武林外傳”以及“士兵突擊”等詞匯;在汽車品牌這一場景下,可以將“保時捷”、“法拉利”作為種子詞。在實際的運行過程中,只需選取廣3個已知詞匯作為種子詞即可通過選取得到的種子詞得到相應的搜索模式,搜索模式是與所在的場景相關(guān)聯(lián)的,反映了用戶的搜索行為,每一場景均有相應的搜索模式,搜索模式指示了在相應場景下用戶輸入搜索串的格式,在影視劇這一場景下,用戶輸入某一電視劇的搜索串中種子詞為電視劇名稱,而搜索模式則與種子詞共同組成搜索串。
[0066]模式獲取模塊110通過種子詞得到的搜索模式中,標記符是與種子詞相對應的部分,用于標識搜索模式中與種子詞相對應的部分。例如,若種子詞為保時捷,則搜索模式中與“保時捷”相對應的部分即為標記符。
[0067]如圖6所示,在另一個實施例中,上述新詞挖掘系統(tǒng)還包括日志掃描模塊210。日志掃描模塊210用于掃描搜索日志得到包含種子詞的搜索串,并將搜索串中的種子詞替換為標記符得到搜索模式。
[0068]本實施例中,搜索串為用戶在使用進行搜索的過程中輸入的字符。在獲取通過種子詞得到的搜索模式之前還需日志掃描模塊210預先通過種子詞得到相應的搜索模式。具體的,日志掃描模塊210獲取搜索日志,對搜索日志進行掃描以查找得到搜索串,該搜索串中包含了種子詞,并將搜索串中包含種子詞的字符替換為標記符,此時替換后的搜索串即為搜索模式。在優(yōu)選的實施例中,標記符為通配符“*”。例如,若搜索串為“高清士兵突擊全集下載”,種子詞為“士兵突擊”,則會將搜索串中的“士兵突擊”替換為通配符,得到的搜索模式為“高清*全集下載”。
[0069]如圖7所示,在一個實施例中,上述日志掃描模塊210包括提取單元211、第一查找單元213以及替換單元215。
[0070]提取單元211,用于從搜索日志中提取搜索串。
[0071 ] 本實施例中,搜索日志是搜索弓I擎運行過程中產(chǎn)生的,例如,搜索日志中的每一條目可以是“時間/IP/用戶標識/URL/來源參數(shù)/處理結(jié)果”的格式,搜索引擎中發(fā)生的一次搜索行為將對應了搜索日志中的一個條目,其中,時間為該次搜索行為發(fā)生的時間;IP為瀏覽器等客戶端外網(wǎng)出口的網(wǎng)絡(luò)地址;用戶標識是進行觸發(fā)搜索行為的瀏覽器cookie下的隨機值,用于區(qū)分不同的瀏覽器;來源參數(shù)包括了 referer、URL中攜帶的來源參數(shù)或cookie中攜帶的來源參數(shù);處理結(jié)果包括了該次搜索行為請求成功、失敗、返回的結(jié)果數(shù)量等信息。搜索串設(shè)置于搜索日志的URL字段中,以urlencode (將字符以URL編碼)的形式表示,其編碼類型為gbk或UTF-8,進而將編碼類型為gbk或UTF-8的搜索串統(tǒng)一轉(zhuǎn)換為UTF-8編碼的明文,并去除搜索串中的空串和不可見字符,以方便后續(xù)的處理。
[0072]搜索引擎的不同所對應的搜索日志格式也各不相同,在此并不限于如上所述的搜索日志格式。但是無論是何種搜索日志格式,提取單元211均可從相對較為復雜的搜索日志中提取出搜索串,換而言之,搜索串為用戶在搜索框中輸入的原始信息。
[0073]在從搜索日志中提取到若干個搜索串之后還將統(tǒng)計每一搜索串的出現(xiàn)頻度QF,進而將搜索串和出現(xiàn)頻度相關(guān)聯(lián)得到存儲了搜索串以及相關(guān)聯(lián)的出現(xiàn)頻度的文本文件query_file,在文本文件query_file中每一搜索串Query以及相關(guān)聯(lián)的出現(xiàn)頻度QF占據(jù)一行形成一條記錄,即[Query, QF]的形式,并按照出現(xiàn)頻度QF進行排列,而文本文件query_file的多條記錄中搜索串和出現(xiàn)頻度各占據(jù)一列。
[0074]第一查找單元213,用于在提取的搜索串中進行查找得到包含種子詞的搜索串。
[0075]本實施例中,第一查找單元213獲取選定的種子詞,根據(jù)種子詞在文本文件query_file中進行查找得包含了種子詞的搜索串。具體的,若干個種子詞以[seedL...seedn]的形式進行存儲的,其中seedn為種子詞,η為種子詞個數(shù)。第一查找單元213根據(jù)[seedl...seedn]在文本文件query_file進行查找,得到包含了任一種子詞的搜索串。[0076]替換單元215,用于替換搜索串中的種子詞為標記符,并將替換后的搜索串存儲為搜索模式。
[0077]本實施例中,替換單元215對搜索串中的種子詞進行替換之后得到了相應的搜索模式pattern,并進行存儲。具體的,通過文本文件query_file中所得到的搜索模式可能為多個,此時所得到的多個搜索模式將存儲為[patternl"^pattern k]的形式,其中
I≤ k ≤ N, N為搜索模式的數(shù)量。 [0078]進一步的,還將對搜索模式進行計數(shù)得到該搜索模式的累計頻度PF,進而將搜索模式與累計頻度PF相關(guān)聯(lián)得到數(shù)據(jù)結(jié)構(gòu)map〈pattern, PF>,其中搜索模式pattern以及與之相關(guān)聯(lián)的累計頻度PF是按照累計頻度的大小進行順序排列的,累計頻度越高,則說明相關(guān)聯(lián)的搜索模式越具備代表性,用于識別得到新詞也就越準確。由于搜索模式是從大量的搜索日志得到的,捕捉了用戶的搜索習慣,因此,具備了較高穩(wěn)定性和復用性。
[0079]處理模塊130,用于在搜索日志中查找與搜索模式匹配的搜索串,并在匹配的搜索串中得到與搜索模式的標記符相對應的字符。
[0080]本實施例中,處理模塊130再次對搜索日志進行掃描,在搜索日志中查找出與搜索模式匹配的搜索串,進而從搜索串中得到與搜索模式中的標記符對應的字符。具體的,與某一搜索模式相匹配的搜索串滿足了該搜索模式,例如,對于“高清愛情呼叫轉(zhuǎn)移全集下載”的搜索串,滿足了 “高清*全集下載”的搜索模式,是與“高清*全集下載”這一搜索模式相匹配的,此時,與標記符對于的字符即為“愛情呼叫轉(zhuǎn)移”。
[0081]處理模塊130在對搜索日志進行掃描得到了與搜索模式相匹配的搜索串之后,以搜索模式為篩選條件,從匹配的搜索串中篩選出與搜索模式的標記符相對應的字符,其中,在相互匹配的搜索模式和搜索串之間,標記符與字符是相對應的,并且由于搜索模式是通過種子詞得到的,種子詞與搜索模式中的標記符相對應,因此,種子詞也是與匹配的搜索模式中的字符相對應的。
[0082]更新模塊150,用于判斷字符是否存在于詞庫中,若否,則將字符作為新詞更新到詞庫中,若是,則結(jié)束。
[0083]本實施例中,從搜索日志的搜索串中通過搜索模式得到了與標記符對應的字符,由于搜索模式是通過搜索日志中的搜索串得到的,反映了用戶通過搜索引擎進行搜索時的搜索習慣,任一搜索模式均反映了相應的場景下用戶所輸入的搜索串形式,因此所得到的字符與得到該搜索模式的種子詞為同類詞匯的可能性非常高,即字符與種子詞是屬于同一場景的,進一步的,與標記符對應的字符是與種子詞屬于同一場景的已知詞匯或新詞。
[0084]詞庫是一組詞匯的集合,在實際應用中,收錄于詞庫中的詞匯將認為是已知詞匯,尚未被詞庫收錄的詞匯則認為是新詞,在一個具體的實施例中,詞庫為詞典的形式。在得到搜索串中與標記符對應的字符之后,更新模塊150將判斷該字符是否已經(jīng)收錄于詞庫中,若否,則判定該字符為新詞,需要將該字符更新到詞庫中,不斷擴充詞庫所收錄的詞匯。
[0085]如圖8所示,在一個實施例中,上述處理模塊130包括第二查找單元131以及字符去除單元133。
[0086]第二查找單元131,用于根據(jù)搜索模式逐一對搜索日志中的搜索串進行查找,得到與搜索模式相匹配的搜索串。
[0087]本實施例中,第二查找單元131對通過搜索日志得到的多個搜索串進行查找,以得到滿足搜索模式的搜索串,此時滿足搜索模式的搜索串實質(zhì)上是與該搜索模式較為相似的。
[0088]字符去除單元133,用于根據(jù)搜索模式中標記符的前綴字符和后綴字符,在匹配的搜索串中去除與前綴字符和后綴字符對應的字符,得到與標記符相對應的字符。
[0089]本實施例中,用戶通過搜索引擎輸入搜索串進行搜索的過程中,通常會輸入與搜索意圖最為相關(guān)的關(guān)鍵字,即中心詞,以供搜索引擎進行搜索。但是,為了進一步縮小搜索范圍,用戶將會在中心詞的前后補充一些詞匯。
[0090]例如,用戶在搜索電視劇士兵突擊的在線觀看網(wǎng)站時,輸入“士兵突擊”這一中心詞,但是,所得到的搜索結(jié)果包括了劇情、下載網(wǎng)站、評論網(wǎng)站以及在線觀看網(wǎng)站等諸多信息,此時,用戶將在“士兵突擊”的前后補充相關(guān)的詞匯得到搜索串“高清士兵突擊在線觀看”,相應的,通過這一搜索串以及種子詞“士兵突擊”所得到的搜索模式為“高清*在線觀看”。
[0091]因此搜索模式包括了前綴字符、標記符以及后綴字符。也就是說,對于包含種子詞的搜索串而言,所對應的形式為:Query=prefix+seed+postfix,其中prefix為前綴字符,postfix為后綴字符,并且前綴字符和后綴字符均可為空。將種子詞替換為標記符即可得到相應的搜索模式:pattern=prefix+*+postfix。相應的,再次對搜索日志進行掃描以獲取與標記符相對應的字符時,搜索串所對應的形式為Query=prefix+word+postfix,其中,word為中心詞,并且中心詞word中包括了種子詞seed和新詞。
[0092]字符去除單元133將搜索模式和搜索串進行文本匹配得到與搜索模式匹配的搜索串,進而根據(jù)搜索模式中的前綴字符和后綴字符去除搜索串中的前綴字符和后綴字符即可得到與標記符對應的字符。
[0093]如圖9所示,在另一個實施例中,上述新詞挖掘系統(tǒng)還包括計數(shù)模塊310和字符過濾模塊330。
[0094]計數(shù)模塊310,用于對與標記符相對應的字符進行計數(shù)得到字符的出現(xiàn)頻度。
[0095]本實施例中,在得到與標記符相對應的字符之后,計數(shù)模塊310將對該字符進行計數(shù)得到該字符的出現(xiàn)頻度,并將該字符與出現(xiàn)頻度相關(guān)聯(lián),按照出現(xiàn)頻度的大小順序排列該字符以及相關(guān)聯(lián)的出現(xiàn)頻度,得到字符和出現(xiàn)頻度的列表,以便于查看。
[0096]字符過濾模塊330,用于判斷字符的出現(xiàn)頻度是否大于閾值,若否,則濾除出現(xiàn)頻度對應的字符,若是,則通知更新模塊150。
[0097]本實施例中,若字符過濾模塊330判斷到字符的出現(xiàn)頻度并未大于閾值,則說明該字符為噪音或者垃圾,需濾除該字符,若判斷到字符的出現(xiàn)頻度是大于閾值的,則進一步判斷該字符是否為新詞。
[0098]本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(Read-Only Memory, ROM)或隨機存儲記憶體(Random AccessMemory, RAM)等。
[0099]以上所述實施例僅表達了本發(fā)明的幾種實施方式,其描述較為具體和詳細,但并不能因此而理解為對本發(fā)明專利范圍的限制。應當指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應以所附權(quán)利要求為準。
【權(quán)利要求】
1.一種新詞挖掘方法,包括如下步驟: 獲取通過種子詞得到的搜索模式,所述搜索模式中包含與所述種子詞對應的標記符; 在搜索日志中查找與所述搜索模式匹配的搜索串,并在所述匹配的搜索串中得到與所述搜索模式的標記符相對應的字符; 判斷所述字符是否存在于詞庫中,若否,則將所述字符作為新詞更新到詞庫中。
2.根據(jù)權(quán)利要求1所述的新詞挖掘方法,其特征在于,所述獲取通過種子詞得到的搜索模式的步驟之前還包括: 掃描搜索日志得到包含種子詞的搜索串,并將所述搜索串中的種子詞替換為標記符得到搜索模式。
3.根據(jù)權(quán)利要求2所述的新詞挖掘方法,其特征在于,所述掃描搜索日志得到包含種子詞的搜索串,并將所述搜索串中的種子詞替換為標記符得到搜索模式的步驟為: 從搜索日志中提取搜索串; 在所述提取的搜索串中進行查找得到包含種子詞的搜索串; 替換所述搜索串中的種子詞為標記符,并將所述替換后的搜索串存儲為搜索模式。
4.根據(jù)權(quán)利要求1所述的新詞挖掘方法,其特征在于,所述在搜索日志中查找與所述搜索模式匹配的搜索串,并在所述匹配的搜索串中得到與所述搜索模式的標記符相對應的字符的步驟為: 根據(jù)所述搜索模式逐一對搜索 日志中的搜索串進行查找,得到與所述搜索模式相匹配的搜索串; 根據(jù)所述搜索模式中標記符的前綴字符和后綴字符,在所述匹配的搜索串中去除與所述前綴字符和后綴字符對應的字符,得到與所述標記符相對應的字符。
5.根據(jù)權(quán)利要求1所述的新詞挖掘方法,其特征在于,所述判斷所述字符是否存在于詞庫中的步驟之前還包括: 對與所述標記符相對應的字符進行計數(shù)得到所述字符的出現(xiàn)頻度; 判斷所述字符的出現(xiàn)頻度是否大于閾值,若否,則濾除所述出現(xiàn)頻度對應的字符,若是,則進入所述判斷所述字符是否存在于詞庫中的步驟。
6.一種新詞挖掘系統(tǒng),其特征在于,包括: 模式獲取模塊,用于獲取通過種子詞得到的搜索模式,所述搜索模式中包含與所述種子詞對應的標記符; 處理模塊,用于在搜索日志中查找與所述搜索模式匹配的搜索串,并在所述匹配的搜索串中得到與所述搜索模式的標記符相對應的字符; 更新模塊,用于判斷所述字符是否存在于詞庫中,若否,則將所述字符作為新詞更新到詞庫中。
7.根據(jù)權(quán)利要求6所述的新詞挖掘系統(tǒng),其特征在于,還包括: 日志掃描模塊,用于掃描搜索日志得到包含種子詞的搜索串,并將所述搜索串中的種子詞替換為標記符得到搜索模式。
8.根據(jù)權(quán)利要求7所述的新詞挖掘系統(tǒng),其特征在于,所述日志掃描模塊包括: 提取單元,用于從搜索日志中提取搜索串; 第一查找單元,用于在所述提取的搜索串中進行查找得到包含種子詞的搜索串;替換單元,用于替換所述搜索串中的種子詞為標記符,并將所述替換后的搜索串存儲為搜索模式。
9.根據(jù)權(quán)利要求6所述的新挖掘系統(tǒng),其特征在于,所述處理模塊包括: 第二查找單元,用于根據(jù)所述搜索模式逐一對搜索日志中的搜索串進行查找,得到與所述搜索模式相匹配的搜索串; 字符去除單元,用于根據(jù)所述搜索模式中標記符的前綴字符和后綴字符,在所述匹配的搜索串中去除與所述前綴字符和后綴字符對應的字符,得到與所述標記符相對應的字符。
10.根據(jù)權(quán)利要求6所述的新詞挖掘系統(tǒng),其特征在于,還包括: 計數(shù)模塊,用于對與所述標記符相對應的字符進行計數(shù)得到所述字符的出現(xiàn)頻度;字符過濾模塊,用于判斷所述字符的出現(xiàn)頻度是否大于閾值,若否,則濾除所述出現(xiàn)頻度對應的字符,若是,則通知所述更新模塊。
【文檔編號】G06F17/30GK103544165SQ201210241308
【公開日】2014年1月29日 申請日期:2012年7月12日 優(yōu)先權(quán)日:2012年7月12日
【發(fā)明者】劉嚴 申請人:騰訊科技(深圳)有限公司