一種尋址類查詢詞的挖掘方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種尋址類查詢詞的挖掘方法及系統(tǒng),該方法包括:對用戶點擊日志中記錄的域名相同的主域URL進行歸一化處理,生成對應的主域名,并依據(jù)所述主域URL對應的查詢詞生成所述主域名的查詢詞集合;對所述查詢詞集合中的查詢詞進行切詞,并統(tǒng)計得到的分詞的出現(xiàn)次數(shù),確定出現(xiàn)次數(shù)最多的分詞中最長的分詞為所述主域名對應的核心詞;確定所述查詢詞集合中包含所述核心詞且被查詢次數(shù)最高的查詢詞為所述主域名對應的尋址類查詢詞。根據(jù)本發(fā)明提供的技術(shù)方案,能夠自動挖掘生成尋址類查詢詞集合,提高尋址類Bad?Case挖掘召回率。
【專利說明】一種尋址類查詢詞的挖掘方法及系統(tǒng)
【【技術(shù)領域】】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領域的搜索技術(shù),尤其涉及一種尋址類查詢詞的挖掘方法及系統(tǒng)。
【【背景技術(shù)】】
[0002]搜索引擎的查詢詞可以分為尋址類查詢詞、信息類查詢詞和事務類查詢詞。按照Andrei Broder的研究,這三種查詢詞的比例分別是:12.3%,62%和25.7%。尋址類查詢詞指的是用戶需要查詢某個網(wǎng)站地址時提供的查詢詞,例如,淘寶網(wǎng)、蘑菇街、中國平安官方網(wǎng)站等,對于這類查詢詞用戶的搜索需求非常明確,就是希望找到對應的官方網(wǎng)站地址,因此搜索引擎需要將對應的官方網(wǎng)站地址放在搜索結(jié)果的靠前位置,如前三位。但是,實際情況下中會出現(xiàn)如下官方網(wǎng)站地址沒有排到首位而不能滿足用戶搜索需求的情況:
[0003]1、官方網(wǎng)站地址沒有出現(xiàn)在搜索結(jié)果的第一位;
[0004]2、官方網(wǎng)站地址沒有出現(xiàn)在首頁;
[0005]3、官方網(wǎng)站地址沒有被搜索引擎收錄;
[0006]4、出現(xiàn)虛假的官方網(wǎng)站地址;
[0007]上述情況稱為搜索引擎的尋址類Bad Case,尋址類Bad Case指的是用戶的查詢詞是尋址類查詢詞,但是搜索引擎沒有給出對應的官方網(wǎng)站地址或者給出的官方網(wǎng)站地址在搜索結(jié)果中比較靠后,從而導致搜索引擎對于尋址類查詢詞給出的搜索結(jié)果不能滿足用戶需求。
[0008]目前,尋址類BadCase的挖掘方法是一種半自動的挖掘方法,需要人工提供尋址類查詢詞集合和對應的官方網(wǎng)站地址,然后自動抓取集合中尋址類查詢詞的搜索結(jié)果,判斷對應的官方網(wǎng)站地址是否在搜索結(jié)果中、是否排在比較靠前的位置等。這種挖掘方法的缺點是:尋址類查詢詞集合需要人工配置,浪費人力且效率較低,配置的尋址類查詢詞的數(shù)量有限,導致尋址類BadCase挖掘召回率較低,從而導致搜索結(jié)果不能滿足用戶需求,需要用戶的頻繁操作,搜索效率較低,同樣給搜索引擎增加負擔。尋址類Bad Case挖掘召回率指的是從一個集合中找出真正尋址類Bad Case的比例,例如,實際中存在有100個尋址類Bad Case,利用上述方法只能找到其中的60個尋址類BadCase,則尋址類Bad Case挖掘召回率為60%。
【
【發(fā)明內(nèi)容】
】
[0009]本發(fā)明提供了一種尋址類查詢詞的挖掘方法及系統(tǒng),能夠自動挖掘生成尋址類查詢詞集合,提高尋址類Bad Case挖掘召回率。
[0010]本發(fā)明的具體技術(shù)方案如下:
[0011]根據(jù)本發(fā)明一優(yōu)選實施例,一種尋址類查詢詞的挖掘方法,包括:
[0012]對用戶點擊日志中記錄的域名相同的主域URL進行歸一化處理,生成對應的主域名,并依據(jù)所述主域URL對應的查詢詞生成所述主域名的查詢詞集合;[0013]對所述查詢詞集合中的查詢詞進行切詞,并統(tǒng)計得到的分詞的出現(xiàn)次數(shù),確定出現(xiàn)次數(shù)最多的分詞中最長的分詞為所述主域名對應的核心詞;
[0014]確定所述查詢詞集合中包含所述核心詞且被查詢次數(shù)最高的查詢詞為所述主域名對應的尋址類查詢詞。
[0015]上述方法中,該方法還包括:
[0016]依據(jù)預設的時間區(qū)間參數(shù)從用戶點擊日志中提取最近的用戶點擊日志,并依據(jù)預設的字段序號從提取的用戶點擊日志中獲取查詢詞和點擊的URL ;
[0017]依據(jù)預設的主域URL格式對所述點擊的URL進行篩選,得到點擊的URL中的主域URL。
[0018]上述方法中,所述對用戶點擊日志中記錄的域名相同的主域URL進行歸一化處理,生成對應的主域名具體包括:
[0019]以域名作為關鍵字對主域URL進行分類處理,將域名相同的主域URL歸為一類;
[0020]依據(jù)預設的一個主域URL格式對每類主域URL下的主域URL進行歸一化處理,對應每類主域URL生成一個主域名。
[0021]上述方法中,所述依據(jù)主域URL對應的查詢詞生成所述主域名的查詢詞集合具體包括:
[0022]提取每類主域URL下每個主域URL對應的查詢詞,并統(tǒng)計每種查詢詞的被查詢次數(shù),對提取的查詢詞進行去重處理;
[0023]利用處理后得到的查詢詞及每種查詢詞的被查詢次數(shù)生成查詢詞集合,確定所述查詢詞集合為所述主域名的查詢詞集合。
[0024]上述方法中,所述對查詢詞集合中的查詢詞進行切詞具體包括:
[0025]依據(jù)預設的切詞粒度對主域名對應的查詢詞集合中的每個查詢詞進行切詞處理,對應每個查詢詞生成一個以上分詞;
[0026]所述切詞粒度是以詞組或具有完整意義的字為粒度的切詞粒度。
[0027]上述方法中,確定主域名對應的尋址類查詢詞的方法為:
[0028]從主域名的查詢詞集合中提取包含所述核心詞的查詢詞;
[0029]依據(jù)被查詢次數(shù)由高到低的順序?qū)μ崛〕龅牟樵冊~進行排序,提取其中排名靠前的一個以上查詢詞;
[0030]確定所述核心詞和提取的查詢詞為主域名對應的尋址類查詢詞。
[0031]上述方法中,該方法還包括:
[0032]判斷主域名的查詢詞集合中除主域名對應的尋址類查詢詞以外的查詢詞以切詞為粒度的編輯距離;所述查詢詞以切詞為粒度的編輯距離包括:查詢詞與核心詞之間以切詞為粒度的編輯距離、查詢詞與尋址類查詢詞之間以切詞為粒度的編輯距離;當所述查詢詞以切詞為粒度的編輯距離小于預設的編輯距離閾值時,確定所述查詢詞為主域名的擴展尋址類查詢詞;
[0033]或,將所述核心詞與預設的分詞后綴進行組合生成尋址類查詢詞,確定生成的尋址類查詢詞為主域名的擴展尋址類查詢詞。
[0034]上述方法中,判斷查詢詞以切詞為粒度的編輯距離之前,該方法還包括:
[0035]在主域名的查詢詞集合中將尋址類查詢詞篩除,對篩除后保留的查詢詞依據(jù)預設的切詞粒度進行切詞,對應每個查詢詞得到一個以上分詞。
[0036]上述方法中,如果查詢詞對應存在兩個以上以切詞為粒度的編輯距離,則所述查詢詞以切詞為粒度的編輯距離為兩個以上以切詞為粒度的編輯距離中最小的編輯距離。
[0037]一種尋址類查詢詞的挖掘系統(tǒng),包括:主域名生成單元、核心詞生成單元、尋址類查詢詞生成單元;其中,
[0038]主域名生成單元,用于對用戶點擊日志中記錄的域名相同的主域URL進行歸一化處理,生成對應的主域名,并依據(jù)所述主域URL對應的查詢詞生成所述主域名的查詢詞集合;
[0039]核心詞生成單元,用于對所述查詢詞集合中的查詢詞進行切詞,并統(tǒng)計得到的分詞的出現(xiàn)次數(shù),確定出現(xiàn)次數(shù)最多的分詞中最長的分詞為所述主域名對應的核心詞;
[0040]尋址類查詢詞生成單元,用于確定所述查詢詞集合中包含所述核心詞且被查詢次數(shù)最高的查詢詞為所述主域名對應的尋址類查詢詞。
[0041]上述系統(tǒng)中,該系統(tǒng)還包括:
[0042]日志提取單元,用于依據(jù)預設的時間區(qū)間參數(shù)從用戶點擊日志中提取最近的用戶點擊日志,并依據(jù)預設的字段序號從提取的用戶點擊日志中獲取查詢詞和點擊的URL;
[0043]主域URL生成單元,用于依據(jù)預設的主域URL格式對所述點擊的URL進行篩選,得到點擊的URL中的主域URL。
[0044]上述系統(tǒng)中,所述主域名生成單元對用戶點擊日志中記錄的域名相同的主域URL進行歸一化處理生成對應的主域名具體包括:
[0045]以域名作為關鍵字對主域URL進行分類處理,將域名相同的主域URL歸為一類;
[0046]依據(jù)預設的一個主域URL格式對每類主域URL下的主域URL進行歸一化處理,對應每類主域URL生成一個主域名。
[0047]上述系統(tǒng)中,所述主域名生成單元依據(jù)主域URL對應的查詢詞生成所述主域名的查詢詞集合具體包括:
[0048]提取每類主域URL下每個主域URL對應的查詢詞,并統(tǒng)計每種查詢詞的被查詢次數(shù),對提取的查詢詞進行去重處理;
[0049]利用處理后得到的查詢詞及每種查詢詞的被查詢次數(shù)生成查詢詞集合,確定所述查詢詞集合為所述主域名的查詢詞集合。
[0050]上述系統(tǒng)中,所述核心詞生成單元對查詢詞集合中的查詢詞進行切詞具體包括:
[0051]依據(jù)預設的切詞粒度對主域名對應的查詢詞集合中的每個查詢詞進行切詞處理,對應每個查詢詞生成一個以上分詞;
[0052]所述切詞粒度是以詞組或具有完整意義的字為粒度的切詞粒度。
[0053]上述系統(tǒng)中,所述尋址類查詢詞生成單元確定主域名對應的尋址類查詢詞具體包括:
[0054]從主域名的查詢詞集合中提取包含所述核心詞的查詢詞;
[0055]依據(jù)被查詢次數(shù)由高到低的順序?qū)μ崛〕龅牟樵冊~進行排序,提取其中排名靠前的一個以上查詢詞;
[0056]確定所述核心詞和提取的查詢詞為主域名對應的尋址類查詢詞。
[0057]上述系統(tǒng)中,該系統(tǒng)還包括:[0058]尋址類查詢詞擴展單元,用于判斷主域名的查詢詞集合中除主域名對應的尋址類查詢詞以外的查詢詞以切詞為粒度的編輯距離;所述查詢詞以切詞為粒度的編輯距離包括:查詢詞與核心詞之間以切詞為粒度的編輯距離、查詢詞與尋址類查詢詞之間以切詞為粒度的編輯距離;當所述查詢詞以切詞為粒度的編輯距離小于預設的編輯距離閾值時,確定所述查詢詞為主域名的擴展尋址類查詢詞;
[0059]或,尋址類查詢詞擴展單元,用于將所述核心詞與預設的分詞后綴進行組合生成尋址類查詢詞,確定生成的尋址類查詢詞為主域名的擴展尋址類查詢詞。
[0060]上述系統(tǒng)中,所述尋址類查詢詞擴展單元,還用于在主域名的查詢詞集合中將尋址類查詢詞篩除,對篩除后保留的查詢詞依據(jù)預設的切詞粒度進行切詞,對應每個查詢詞得到一個以上分詞。
[0061]上述系統(tǒng)中,所述尋址類查詢詞擴展單元,還用于當查詢詞對應存在兩個以上以切詞為粒度的編輯距離時,確定兩個以上以切詞為粒度的編輯距離中最小的編輯距離為所述查詢詞以切詞為粒度的編輯距離。
[0062]由以上技術(shù)方案可以看出,本發(fā)明提供的具有以下有益效果:
[0063]本發(fā)明通過對搜索引擎記錄的用戶點擊日志進行反向分析處理,自動生成官方網(wǎng)站地址對應的尋址類查詢詞,有效挖掘出尋址類查詢詞;依據(jù)自動挖掘出的尋址類查詢詞對尋址類Bad Case進行挖掘時,能夠提高尋址類BadCase的挖掘效率和尋址類Bad Case挖掘召回率,從而依據(jù)挖掘出的尋址類Bad Case對搜索結(jié)果進行調(diào)整,使搜索結(jié)果能夠滿足用戶需求,減少用戶的頻 繁操作,提高搜索效率,最終能夠改進搜索引擎對于尋址類查詢詞的搜索效果,提高搜索產(chǎn)品在尋址類需求上的搜索滿意度。
【【專利附圖】
【附圖說明】】
[0064]圖1是本發(fā)明實現(xiàn)尋址類查詢詞的挖掘方法的優(yōu)選實施例的流程示意圖;
[0065]圖2是本發(fā)明實現(xiàn)尋址類查詢詞的挖掘系統(tǒng)的優(yōu)選實施例的結(jié)構(gòu)示意圖。
【【具體實施方式】】
[0066]本發(fā)明的基本思想是:對用戶點擊日志中記錄的域名相同的主域URL進行歸一化處理,生成對應的主域名,并依據(jù)所述主域URL對應的查詢詞生成所述主域名的查詢詞集合;對所述查詢詞集合中的查詢詞進行切詞,并統(tǒng)計得到的分詞的出現(xiàn)次數(shù),確定出現(xiàn)次數(shù)最多的分詞中最長的分詞為所述主域名對應的核心詞;確定所述查詢詞集合中包含所述核心詞且被查詢次數(shù)最高的查詢詞為所述主域名對應的尋址類查詢詞。
[0067]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細描述。
[0068]本發(fā)明提供一種尋址類查詢詞的挖掘方法,圖1是本發(fā)明實現(xiàn)尋址類查詢詞的挖掘方法的優(yōu)選實施例的流程示意圖,如圖1所示,該優(yōu)選實施例包括以下步驟:
[0069]步驟101,依據(jù)預設的字段序號從用戶點擊日志中提取查詢詞和點擊的URL。
[0070]具體的,搜索引擎每天都有數(shù)以億計的查詢,每次查詢都會對應(Tn次的用戶點擊行為,用戶點擊日志中記錄了每次查詢對應的點擊的URL,該點擊的URL指的是用戶在輸入查詢詞后,用戶在搜索引擎提供的該查詢詞的搜索結(jié)果中所點擊的URL;用戶所點擊的URL從一定程度上代表用戶的搜索意圖,而查詢詞是用戶表達搜索意圖的方式,因而間接地反映出查詢詞的類型,當用戶點擊的是官方網(wǎng)站地址(也稱為主域URL)時,用戶所用的查詢詞很可能就是一個尋址類查詢詞,尋址類查詢詞一定會落在官方網(wǎng)站地址對應的所有查詢詞組成的查詢詞集合中。
[0071]搜索引擎記錄的用戶點擊日志中,用戶點擊日志中包括:cookie、用戶的IP地址、搜索時間、用戶輸入的查詢詞和用戶在查詢詞的搜索結(jié)果中點擊的URL ;本優(yōu)選實施例中可以依據(jù)預設的時間區(qū)間參數(shù)T在用戶點擊日志中提取最近T天的用戶點擊日志。
[0072]用戶預先設置一個配置腳本,該配置腳本的內(nèi)容為用戶點擊日志中的字段序號,依據(jù)配置腳本中的字段序號從提取的用戶點擊日志中提取與字段序號對應的字段,本優(yōu)選實施例中,從用戶點擊日志中提取的字段包括查詢詞和用戶在搜索結(jié)果中點擊的URL;這里,對于不同的搜索引擎,對應的用戶點擊日志格式也不一樣,因此配置腳本中字段的序號可以依據(jù)用戶點擊日志格式進行設置,只要能依據(jù)配置腳本從用戶點擊日志中提取出查詢詞和用戶點擊的URL即可。
[0073]例如,有如下用戶點擊日志:
[0074]000062E33D2650968076693074BBA7D6
111.224.89.13512/Nov/2012:22:19:0 路虎攬勝 http://www.autohome.com.cn/69/
[0075]000062E33D2650968076693074BBA7D6 111.224.89.13512/Nov/2012:22:19:30 路虎攬勝 http://car.bitaut0.com/luhulansheng/
[0076]0001893BF7D55652EA6A10BF4470259E
111.194.105.1412/Nov/2012:23:02:10 蘑燕街 http://www.mogujie.com/
[0077]0002F17005B75292FA484CA8A59941B9221.2.145.9812/Nov/2012:13:34:51 成吉思汗電視劇 http://www.56.com/w78/album-ai d-8034399.html
[0078]00032B70FCA0553766F7C30EB58141F2
112.230.47.24212/Nov/2012:10:32:51 蘑燕街網(wǎng)址 http://www.mogujie.com/
[0079]0004DB2301E4872CB77FF6892FF8C41E 123.55.2.4312/Nov/2012:15:34:12 成吉思汗 http://www.56.com/w78/album-aid-8034399.html
[0080]0004DB2301E4872CB77FF6892FF8C41E123.55.2.4312/Nov/2012:15:34:36 蘑燕街 http://www.mogujie.com
[0081 ] 其中,上述7個用戶點擊日志中,每個用戶點擊日志包括5個字段,每個字段之間以空格或“\t”為分隔符進行分隔,所述5個字段中,第I個字段“000062E33D2650968076693074BBA7D6”為cookie,用于表示一個具體的用戶,第2個字段“111.224.89.135為IP”地址,第3個字段“ 12/Nov/2012:22:19:0"為搜索時間,第4個字段“路虎攬勝”為查詢詞,第5個字段“http://www.autohome.com.cn/69/”為路虎攬勝的搜索結(jié)果中用戶點擊的URL。
[0082]例如,對于上述用戶點擊日志,配置腳本中字段的序號為4和5,依據(jù)該配置腳本可以從用戶點擊日志中提取出第4個字段和第5個字段,即查詢詞和點擊的URL,得到如下“查詢詞點擊的URL”的組合形式的信息:
[0083]路虎攬勝http://www.autohome.com.cn/69/[0084]路虎攬勝http://car.bitaut0.com/luhulansheng/
[0085]蘑燕街 http://www.mogujie.com/
[0086]成吉思汗電視劇http://www.56.com/w78/album-aid_8034399.html
[0087]蘑燕街網(wǎng)址http://www.mogujie.com/
[0088]成吉思汗http://www.56.com/w78/album-aid_8034399.html
[0089]蘑燕街 http://www.mogujie.com
[0090]步驟102,依據(jù)預設的主域URL格式對點擊的URL進行篩選得到主域URL,對具有相同域名的主域URL進行歸一化處理,生成對應的主域名;依據(jù)主域URL對應的查詢詞生成主域名的查詢詞集合。
[0091]具體的,為了后續(xù)便于對查詢詞和點擊的URL進行處理,首先對在步驟101中得到的查詢詞和點擊的URL的組合形式進行處理,對查詢詞和點擊的URL進行次序互換處理,將“查詢詞點擊的URL”的組合形式處理成“點擊的URL查詢詞”的組合形式。
[0092]例如,將步驟101中從用戶點擊日志中提取出查詢詞和點擊的URL進行次序互換處理后,得到如下信息:
[0093]http://www.autohome.com.cn/69/ 路虎攬勝
[0094]http://car.bitaut0.com/luhulansheng/ 路虎攬勝
[0095]http://www.mogujie.com/ 蘑燕街
[0096]http://www.56.com/w78/album-aid_8034399.html 成吉思汗電視劇
[0097]http://www.mogujie.com/ 蘑燕街網(wǎng)址
[0098]http://www.56.com/w78/album-aid_8034399.html 成吉思汗
[0099]http://www.mogujie.com/ 蘑燕街
[0100]依據(jù)預設的主域URL格式對點擊的URL進行篩選處理,將不符合主域URL格式的點擊的URL篩除,得到符合主域URL格式的點擊的URL ;其中,主域URL指的是一個網(wǎng)站的主頁URL ;由于本優(yōu)選實施例是針對尋址類查詢詞的挖掘,因而僅需要對尋址類查詢詞對應的點擊的URL進行處理,而尋址類查詢詞對應的點擊的URL的格式都是主域URL格式,因此,對點擊的URL的篩選處理可以從提取的用戶點擊日志的點擊的URL中得到主域URL ;其中,為了能夠篩選出多種形式的主域URL,這里,預設的主域URL格式包括:http://域名、http://域名/、http://域名/文件名,例如:
[0101]http:// 域名
[0102]http:// 域名 /
[0103]http:// 域名 /index.html
[0104]http:// 域名 /default.html
[0105]http:// 域名 /index.htm
[0106]http:// 域名 /index, php
[0107]http:// 域名 /index, jsp
[0108]http:// 域名 /index, asp
[0109]其中,預設的主域URL格式可以動態(tài)增加、刪除和修改。
[0110]以域名作為關鍵字對篩選后得到的主域URL進行分類處理,將域名相同的主域URL歸為一類;對每類主域URL下的主域URL進行歸一化處理,即依據(jù)預設的一個主域URL格式,對應每類主域URL生成一個主域名,例如,這里預設的主域URL格式可以為“http:1l域名/”,將每類主域URL下的主域URL都歸一化處理為“http://域名/”格式的主域名。
[0111]將每類主域URL對應的主域名作為key,提取該類主域URL下每個主域URL對應的查詢詞,統(tǒng)計每種查詢詞的被查詢次數(shù),然后對提取的查詢詞進行去重處理,利用處理后得到的查詢詞及每種查詢詞的被查詢次數(shù)生成查詢詞集合,將該查詢詞集合作為所述key的查詢詞集合,從而得到主域名的查詢詞集合;生成的查詢詞集合中包括查詢詞及對應的被查詢次數(shù)。
[0112]例如,對次序互換處理后得到的查詢詞和點擊的URL進行篩選、分類、歸一化、提取查詢詞、統(tǒng)計查詢詞的被查詢次數(shù)、去重等處理后,得到如下主域名及對應的查詢詞集合:
[0113]http://www.autohome.com.cn/69/ 路虎攬勝(I)
[0114]http://car.bitaut0.com/luhulansheng/ 路虎攬勝(I)
[0115]http://www.mogujie.com/ 蘑燕街(2)蘑燕街網(wǎng)址(I)
[0116]http://www.56.com/w78/album-aid-8034399.html 成吉思汗(I)成吉思汗電視劇(I)
[0117]其中,主域名與查詢詞之間、對應同一主域名的不同查詢詞之間,可以用空格或“\t”為分隔符進行分隔;示例的括號中的數(shù)字表示查詢詞的被查詢次數(shù)。
[0118]步驟103,依據(jù)預設的切詞粒度對查詢詞集合中的查詢詞進行切詞,統(tǒng)計得到的分詞的出現(xiàn)次數(shù),確定出現(xiàn)次數(shù)最多的分詞中最長的分詞為主域名對應的尋址類查詢詞的核心詞。
[0119]具體的,依據(jù)預設的切詞粒度對步驟102中得到的主域名對應的查詢詞集合中的每個查詢詞都進行切詞處理,每個查詢詞都對應生成一個以上分詞;其中,所述切詞粒度可以利用搜索引擎中常用的切詞粒度,如以詞組為切詞粒度或以具有完整意義的字為切詞粒度,只要保證對查詢詞進行切詞處理后得到的每個分詞都具有完整意義即可;其中,對于一個查詢詞如果存在兩種以上的切詞結(jié)果,則保留每種切詞結(jié)果后的分詞,并對這些分詞進行去重處理,將處理后的分詞作為該查詢詞的分詞;例如,“蘑菇街官方網(wǎng)站”進行切詞后,可以得到“蘑菇”、“街”、“官方”、“網(wǎng)站”以及“蘑菇街”、“官方網(wǎng)站”兩種切詞結(jié)果,將這些分詞都作為“蘑菇街”切詞處理后生成的分詞;例如,“蘑菇街網(wǎng)址”可以切詞處理生成“蘑菇”、“街”、“網(wǎng)址”三個分詞,“蘑菇”和“網(wǎng)址”都不能再進一步切詞處理。
[0120]可選的,為了提高處理效率,在對查詢詞集合中的查詢詞進行切詞處理之前,可以依據(jù)被查詢次數(shù)由高到底的順序?qū)Σ樵冊~集合中的查詢詞進行排序,提取排名靠前的查詢詞,僅對提取的查詢詞進行切詞處理,例如,提取排名位于前10%的查詢詞;這樣處理是因為查詢詞集合中會存在與主域名關聯(lián)度較低的一些查詢詞,例如,主域名為http://www.mogujie.com/的查詢詞集合為:蘑燕街(100)、蘑燕街官網(wǎng)(40)、蘑燕街官方網(wǎng)站(30)、蘑菇街網(wǎng)站(20)、蘑菇街網(wǎng)址(10)、女性購物社區(qū)(3)、最大購物社區(qū)(3),其中,女性購物社區(qū)和最大購物社區(qū)這些查詢詞僅代表一小部分人甚至個別人的搜索習慣,而不是普遍的搜索習慣,不具有代表性,因此,可以僅對被查詢次數(shù)靠前的查詢詞進行切詞處理,這些查詢詞是具有代表性的查詢詞。
[0121]對查詢詞集合中的每個查詢詞都進行切詞處理后,每個查詢詞對應生成一個以上分詞,這些分詞組成分詞集合,將分詞集合中相同的分詞的出現(xiàn)次數(shù)相加,得到該分詞的出現(xiàn)次數(shù);其中,查詢詞對應的一個以上分詞中,每個分詞的出現(xiàn)次數(shù)都等于該查詢詞的被查詢次數(shù);依據(jù)分詞的出現(xiàn)次數(shù)由大到小的順序?qū)Ψ衷~進行排序,生成分詞序列;依據(jù)預設的分詞候選數(shù),從該分詞序列中提取排名靠前的一個以上分詞,這些分詞的出現(xiàn)次數(shù)最多;然后,確定出現(xiàn)次數(shù)最多一個以上分詞中最長的分詞為主域名對應的尋址類查詢詞的核心詞;將主域名與核心詞的關聯(lián)關系以字典文件形式進行保存,例如,字典文件形式為:http://www.mogujie.com/ 蘑燕街。
[0122]步驟104,從主域名的查詢詞集合中提取包含核心詞且被查詢次數(shù)最高的一個以上查詢詞,確定核心詞和提取的查詢詞為主域名對應的尋址類查詢詞。
[0123]具體的,從主域名的查詢詞集合中提取出包含所述核心詞的查詢詞,依據(jù)被查詢次數(shù)由高到低的順序?qū)μ崛〕龅牟樵冊~進行排序,提取其中排名靠前的一個以上查詢詞,其中,提取的查詢詞的具體數(shù)量可以預先進行配置;利用核心詞和得到的查詢詞組成主域名對應的尋址類查詢詞集合,即確定核心詞和提取出的查詢詞為主域名對應的尋址類查詢
ο
[0124]例如,如果核心詞為蘑菇街,則尋址類查詢詞集合中可以包括:蘑菇街官網(wǎng)地址、蘑菇街網(wǎng)址、蘑菇街官方網(wǎng)站、蘑菇街地址、蘑菇街網(wǎng)站地址、蘑菇街網(wǎng)址等;保存確定的尋址類查詢詞與主域名的關聯(lián)關系,這里可以將主域名與核心詞、主域名與尋址類查詢詞的關聯(lián)關系進行合并保存,如:http://www.mogujie.com/蘑燕街蘑燕街官方網(wǎng)站蘑燕街網(wǎng)址;其中,在保存關聯(lián)關系的字典文件中,主域名與核心詞之間,核心詞與尋址類查詢詞之間、尋址類查詢詞與尋址類查詢詞之間 可以用空格或“\t”為分隔符進行分隔。
[0125]步驟105,當識別出用戶輸入的查詢詞為尋址類查詢詞時,在該查詢詞的搜索結(jié)果中優(yōu)先顯示該尋址類查詢詞對應的主域名。
[0126]具體的,當搜索引擎識別出用戶輸入的查詢詞屬于某個尋址類查詢詞集合時,表示用戶輸入的查詢詞為尋址類查詢詞,則依據(jù)保存的尋址類查詢詞與主域名的關聯(lián)關系,找到該尋址類查詢詞對應的主域名,通過增加該主域名在搜索結(jié)果中的權(quán)重值的方式,提高主域名在搜索結(jié)果中的位置,實現(xiàn)在搜索結(jié)果中相對優(yōu)先顯示對應的主域名;需要說明的是,如果用戶輸入的查詢詞與尋址類查詢詞相同,表示用戶帶有強烈的尋址需求,想要找到對應的官方網(wǎng)站地址,因此搜索引擎會優(yōu)先考慮將對應的主域名放在搜索結(jié)果的靠前位置,例如前三位;但是主域名在搜索結(jié)果中最終的位置還取決于其他因素,如網(wǎng)站的頁面質(zhì)量、競價等;因此,當用戶輸入的查詢詞為尋址類查詢詞時,搜索引擎在該查詢詞的搜索結(jié)果中優(yōu)先顯示尋址類查詢詞對應的主域名,但不表示主域名必須作為搜索結(jié)果中的第一個結(jié)果;例如,主域名與另外一個URL的因素完全一樣,則通過提高主域名的權(quán)重值的方式使得主域名在搜索結(jié)果中的位置比該URL在搜索結(jié)果中的位置靠前,因而是在搜索結(jié)果中相對優(yōu)先顯示主域名。
[0127]由于用戶的搜索習慣不同,因此對于同一搜索需求不同用戶輸入的查詢詞不同,因此,在上述技術(shù)方案的基礎上,為了進一步提高對尋址類查詢詞的識別率,本優(yōu)選實施例還包括以下步驟:
[0128]步驟106,依據(jù)主域名的查詢詞集合中除主域名對應的尋址類查詢詞以外的查詢詞以切詞為粒度的編輯距離,確定所述查詢詞為主域名的擴展尋址類查詢詞;或,依據(jù)所述核心詞與預設的分詞后綴生成主域名的擴展尋址類查詢詞。
[0129]具體的,為了進一步提高尋址類查詢詞的召回率,可以對尋址類查詢詞進行進一步擴展,擴展方式可以依據(jù)搜索需求進行配置,本優(yōu)選實施例中包括以下兩種擴展方式,但不僅限于以下方式:
[0130]第一種:在主域名的查詢詞集合中將尋址類查詢詞集合中的尋址類查詢詞篩除,對篩除后保留的查詢詞依據(jù)預設的切詞粒度進行切詞,對應每個查詢詞得到一個以上分
ο
[0131]判斷主域名的查詢詞集合中除主域名對應的尋址類查詢詞以外的查詢詞以切詞為粒度的編輯距離;所述查詢詞以切詞為粒度的編輯距離包括:查詢詞與核心詞之間以切詞為粒度的編輯距離、查詢詞與尋址類查詢詞之間以切詞為粒度的編輯距離;所述編輯距離指的是兩個字符串之間,由一個字符串轉(zhuǎn)換成另一個字符串所需要的最少編輯操作次數(shù),允許的編輯操作包括:將一個字符替換成另一個字符、插入一個字符和刪除一個字符等;通常都是以字或字符為粒度的編輯距離,本優(yōu)選實施例中,查詢詞與核心詞之間的編輯距離是以切詞為粒度,也稱為切詞距離;如果該查詢詞以切詞為粒度的編輯距離小于預設的編輯距離閾值,則認為該查詢詞為具有尋址類需求的查詢詞,則確定該查詢詞為所述主域名對應的擴展尋址類查詢詞,將該查詢詞添加到尋址類查詢詞集合中;其中,如果一個查詢詞進行切詞時可以得到兩個以上切詞結(jié)果,則依據(jù)每個切詞結(jié)果判斷該查詢詞與核心詞之間以切詞為粒度的編輯距離,得到的一個以上編輯距離,取其中最小的編輯距離作為該查詢詞與核心詞的編輯距離;其中,所述編輯距離閾值可以為I。
[0132]第二種:將所述核心詞與預設的分詞后綴進行組合,生成尋址類查詢詞,確定生成的尋址類查詢詞為主域名對應的擴展尋址類查詢詞,將該擴展尋址類查詢詞添加到尋址類查詢詞集合中;其中,預設的分詞后綴指的是地址、網(wǎng)址、網(wǎng)站、官網(wǎng)等尋址類查詢詞常帶有的分詞;例如,核心詞為蘑菇街,將蘑菇街與預設的分詞后綴組合后可以得到的擴展尋址類查詢詞可以是:蘑菇街地址、蘑菇街網(wǎng)址、蘑菇街網(wǎng)站、蘑菇街官網(wǎng)等。
`[0133]例如,對于查詢詞進行切詞后得到如下分詞:
[0134](I)蘑菇街官網(wǎng):蘑菇I街I官網(wǎng)
[0135](2)蘑菇街官方網(wǎng)站:蘑菇I街I官方I網(wǎng)站
[0136](3)蘑菇街網(wǎng)站:蘑菇I街I網(wǎng)站
[0137]其中,對于(I)與核心詞“蘑菇街”,由“蘑菇街”轉(zhuǎn)換成“蘑菇街官網(wǎng)”,只需要增加一個切詞,因此“蘑菇街官網(wǎng)”與“蘑菇街”之間以切詞為粒度的編輯距離為I;同理,對于
(2)與核心詞“蘑菇街”之間以切詞為粒度的編輯距離為2。
[0138]實施例
[0139]依據(jù)預設的主域URL格式對點擊的URL進行篩選處理和分類處理后,得到如下主域 URL:
[0140]http://www.mogujie.com
[0141]http://www.mogujie.com/
[0142]http://www.mogujie.com/index, html
[0143]http://www.mogujie.com/index, php
[0144]http://www.mogujie.com/default, html[0145]http://www.mogujie.com/default, htm
[0146]依據(jù)“http://域名/”的主域URL格式,對上述主域URL進行歸一化處理,生成的主域名為:www.mogujie.com。
[0147]將主域名www.mogujie.com作為key,提取key的查詢詞集合,并對查詢詞集合中查詢詞的被查詢次數(shù)進行統(tǒng)計,得到如下5個查詢詞及對應的被查詢次數(shù):蘑菇街(100)、蘑菇街官網(wǎng)(40)、蘑菇街官方網(wǎng)站(30)、蘑菇街地址(10)、蘑菇街網(wǎng)址(20),其中,100、40、30、10和20分別為這5個查詢詞對應的被查詢次數(shù)。
[0148]對該5個查詢詞分別進行切詞處理:
[0149]蘑菇街(100):蘑菇I街I蘑菇街
[0150]蘑菇街官網(wǎng)(40):蘑菇I街I官網(wǎng)I蘑菇街
[0151]蘑菇街官方網(wǎng)站(30):蘑菇I街I官方I網(wǎng)站I蘑菇街I官方網(wǎng)站
[0152]蘑菇街地址(10):蘑菇I街I地址I蘑菇街
[0153]蘑菇街網(wǎng)站(20):蘑菇I街I網(wǎng)站I蘑菇街
[0154]對上述分詞的出現(xiàn)次數(shù)進行統(tǒng)計:
[0155]蘑菇:200
[0156]街:200
[0157]蘑菇街:200
[0158]官網(wǎng):40
[0159]官方:30
[0160]網(wǎng)站:30
[0161]官方網(wǎng)站:30
[0162]地址:10
[0163]網(wǎng)址:10
[0164]其中,蘑菇、街、蘑菇街為提取的三個出現(xiàn)次數(shù)最高的分詞,將這三個分詞中的最長的分詞“蘑燕街”篩選出來,確定主域名“WWW.mogujie.com”的查詢詞集合的核心詞為“蘑菇街”。
[0165]為實現(xiàn)上述方法,本發(fā)明還提供一種尋址類查詢詞的挖掘系統(tǒng),圖2是本發(fā)明實現(xiàn)尋址類查詢詞的挖掘系統(tǒng)的優(yōu)選實施例的結(jié)構(gòu)示意圖,如圖2所示,該系統(tǒng)包括:主域名生成單元20、核心詞生成單元21、尋址類查詢詞生成單元22 ;其中,
[0166]主域名生成單元20,用于對用戶點擊日志中記錄的域名相同的主域URL進行歸一化處理,生成對應的主域名,并依據(jù)所述主域URL對應的查詢詞生成所述主域名的查詢詞集合;
[0167]核心詞生成單元21,用于對所述查詢詞集合中的查詢詞進行切詞,并統(tǒng)計得到的分詞的出現(xiàn)次數(shù),確定出現(xiàn)次數(shù)最多的分詞中最長的分詞為所述主域名對應的核心詞;
[0168]尋址類查詢詞生成單元22,用于確定所述查詢詞集合中包含所述核心詞且被查詢次數(shù)最高的查詢詞為所述主域名對應的尋址類查詢詞。
[0169]該系統(tǒng)還包括:
[0170]日志提取單元23,用于依據(jù)預設的時間區(qū)間參數(shù)從用戶點擊日志中提取最近的用戶點擊日志,并依據(jù)預設的字段序號從提取的用戶點擊日志中獲取查詢詞和點擊的URL ;[0171 ] 主域URL生成單元24,用于依據(jù)預設的主域URL格式對所述點擊的URL進行篩選,得到點擊的URL中的主域URL。
[0172]其中,所述主域名生成單元20對用戶點擊日志中記錄的域名相同的主域URL進行歸一化處理生成對應的主域名具體包括:以域名作為關鍵字對主域URL進行分類處理,將域名相同的主域URL歸為一類;依據(jù)預設的一個主域URL格式對每類主域URL下的主域URL進行歸一化處理,對應每類主域URL生成一個主域名。
[0173]其中,所述主域名生成單元20依據(jù)主域URL對應的查詢詞生成所述主域名的查詢詞集合具體包括:提取每類主域URL下每個主域URL對應的查詢詞,并統(tǒng)計每種查詢詞的被查詢次數(shù),對提取的查詢詞進行去重處理;利用處理后得到的查詢詞及每種查詢詞的被查詢次數(shù)生成查詢詞集合,確定所述查詢詞集合為所述主域名的查詢詞集合。
[0174]其中,所述核心詞生成單元21對查詢詞集合中的查詢詞進行切詞具體包括:依據(jù)預設的切詞粒度對主域名對應的查詢詞集合中的每個查詢詞進行切詞處理,對應每個查詢詞生成一個以上分詞;所述切詞粒度是以詞組或具有完整意義的字為粒度的切詞粒度。
[0175]其中,所述尋址類查詢詞生成單元22確定主域名對應的尋址類查詢詞具體包括:從主域名的查詢詞集合中提取包含所述核心詞的查詢詞;依據(jù)被查詢次數(shù)由高到低的順序?qū)μ崛〕龅牟樵冊~進行排序,提取其中排名靠前的一個以上查詢詞;確定所述核心詞和提取的查詢詞為主域名對應的尋址類查詢詞。
[0176]該系統(tǒng)還包括:尋址類查詢詞擴展單元25,用于判斷主域名的查詢詞集合中除主域名對應的尋址類查詢詞以外的查詢詞以切詞為粒度的編輯距離;所述查詢詞以切詞為粒度的編輯距離包括:查詢詞與核心詞之間以切詞為粒度的編輯距離、查詢詞與尋址類查詢詞之間以切詞為粒度的編輯距離;當所述查詢詞以切詞為粒度的編輯距離小于預設的編輯距離閾值時,確定所述查詢詞為主域名的擴展尋址類查詢詞;
[0177]或,尋址類查詢詞擴展單元25,用于將所述核心詞與預設的分詞后綴進行組合生成尋址類查詢詞,確定生成的尋址類查詢詞為主域名的擴展尋址類查詢詞。
[0178]所述尋址類查詢詞擴展單元25,還用于在主域名的查詢詞集合中將尋址類查詢詞篩除,對篩除后保留的查詢詞依據(jù)預設的切詞粒度進行切詞,對應每個查詢詞得到一個以上分詞。
[0179]所述尋址類查詢詞擴展單元25,還用于當查詢詞對應存在兩個以上以切詞為粒度的編輯距離時,確定兩個以上以切詞為粒度的編輯距離中最小的編輯距離為所述查詢詞以切詞為粒度的編輯距離。
[0180]本發(fā)明的上述技術(shù)方案,通過對搜索引擎記錄的用戶點擊日志進行反向分析處理,自動生成官方網(wǎng)站地址對應的尋址類查詢詞,有效挖掘出尋址類查詢詞;不再需要人工提供尋址類查詢詞和對應的官方網(wǎng)站地址,而是依據(jù)自動挖掘出的尋址類查詢詞對尋址類Bad Case進行挖掘,因而能夠提高尋址類Bad Case的挖掘效率和尋址類Bad Case挖掘召回率,從而依據(jù)挖掘出的尋址類Bad Case對搜索結(jié)果進行調(diào)整,使搜索結(jié)果能夠滿足用戶需求,減少用戶的頻繁操作,提高搜索效率,最終能夠改進搜索引擎對于尋址類查詢詞的搜索效果,提高搜索產(chǎn)品在尋址類需求上的搜索滿意度。
[0181]以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明保護的范圍之內(nèi)。
【權(quán)利要求】
1.一種尋址類查詢詞的挖掘方法,其特征在于,該方法包括: 對用戶點擊日志中記錄的域名相同的主域URL進行歸一化處理,生成對應的主域名,并依據(jù)所述主域URL對應的查詢詞生成所述主域名的查詢詞集合; 對所述查詢詞集合中的查詢詞進行切詞,并統(tǒng)計得到的分詞的出現(xiàn)次數(shù),確定出現(xiàn)次數(shù)最多的分詞中最長的分詞為所述主域名對應的核心詞; 確定所述查詢詞集合中包含所述核心詞且被查詢次數(shù)最高的查詢詞為所述主域名對應的尋址類查詢詞。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括: 依據(jù)預設的時間區(qū)間參數(shù)從用戶點擊日志中提取最近的用戶點擊日志,并依據(jù)預設的字段序號從提取的用戶點擊日志中獲取查詢詞和點擊的URL ; 依據(jù)預設的主域URL格式對所述點擊的URL進行篩選,得到點擊的URL中的主域URL。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對用戶點擊日志中記錄的域名相同的主域URL進行歸一化處理,生成對應的主域名具體包括: 以域名作為關鍵字對主域URL進行分類處理,將域名相同的主域URL歸為一類; 依據(jù)預設的一個主域URL格式對每類主域URL下的主域URL進行歸一化處理,對應每類主域URL生成一個主域名。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述依據(jù)主域URL對應的查詢詞生成所述主域名的查詢詞集合具體包括`: 提取每類主域URL下每個主域URL對應的查詢詞,并統(tǒng)計每種查詢詞的被查詢次數(shù),對提取的查詢詞進行去重處理; 利用處理后得到的查詢詞及每種查詢詞的被查詢次數(shù)生成查詢詞集合,確定所述查詢詞集合為所述主域名的查詢詞集合。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對查詢詞集合中的查詢詞進行切詞具體包括: 依據(jù)預設的切詞粒度對主域名對應的查詢詞集合中的每個查詢詞進行切詞處理,對應每個查詢詞生成一個以上分詞; 所述切詞粒度是以詞組或具有完整意義的字為粒度的切詞粒度。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,確定主域名對應的尋址類查詢詞的方法為: 從主域名的查詢詞集合中提取包含所述核心詞的查詢詞; 依據(jù)被查詢次數(shù)由高到低的順序?qū)μ崛〕龅牟樵冊~進行排序,提取其中排名靠前的一個以上查詢詞; 確定所述核心詞和提取的查詢詞為主域名對應的尋址類查詢詞。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括: 判斷主域名的查詢詞集合中除主域名對應的尋址類查詢詞以外的查詢詞以切詞為粒度的編輯距離;所述查詢詞以切詞為粒度的編輯距離包括:查詢詞與核心詞之間以切詞為粒度的編輯距離、查詢詞與尋址類查詢詞之間以切詞為粒度的編輯距離;當所述查詢詞以切詞為粒度的編輯距離小于預設的編輯距離閾值時,確定所述查詢詞為主域名的擴展尋址類查詢詞;或,將所述核心詞與預設的分詞后綴進行組合生成尋址類查詢詞,確定生成的尋址類查詢詞為主域名的擴展尋址類查詢詞。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,判斷查詢詞以切詞為粒度的編輯距離之前,該方法還包括: 在主域名的查詢詞集合中將尋址類查詢詞篩除,對篩除后保留的查詢詞依據(jù)預設的切詞粒度進行切詞,對應每個查詢詞得到一個以上分詞。
9.根據(jù)權(quán)利要求7所述的方法,其特征在于,如果查詢詞對應存在兩個以上以切詞為粒度的編輯距離,則所述查詢詞以切詞為粒度的編輯距離為兩個以上以切詞為粒度的編輯距離中最小的編輯距離。
10.一種尋址類查詢詞的挖掘系統(tǒng),其特征在于,該系統(tǒng)包括:主域名生成單元、核心詞生成單元、尋址類查詢詞生成單元;其中, 主域名生成單元,用于對用戶點擊日志中記錄的域名相同的主域URL進行歸一化處理,生成對應的主域名,并依據(jù)所述主域URL對應的查詢詞生成所述主域名的查詢詞集合; 核心詞生成單元,用于對所述查詢詞集合中的查詢詞進行切詞,并統(tǒng)計得到的分詞的出現(xiàn)次數(shù),確定出現(xiàn)次數(shù)最多的分詞中最長的分詞為所述主域名對應的核心詞; 尋址類查詢詞生成單元,用于確定所述查詢詞集合中包含所述核心詞且被查詢次數(shù)最高的查詢詞為所述主域名對應的尋址類查詢詞。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,該系統(tǒng)還包括: 日志提取單元,用于依據(jù)預設的時間區(qū)間參數(shù)從用戶點擊日志中提取最近的用戶點擊日志,并依據(jù) 預設的字段序號從提取的用戶點擊日志中獲取查詢詞和點擊的URL ; 主域URL生成單元,用于依據(jù)預設的主域URL格式對所述點擊的URL進行篩選,得到點擊的URL中的主域URL。
12.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述主域名生成單元對用戶點擊日志中記錄的域名相同的主域URL進行歸一化處理生成對應的主域名具體包括: 以域名作為關鍵字對主域URL進行分類處理,將域名相同的主域URL歸為一類; 依據(jù)預設的一個主域URL格式對每類主域URL下的主域URL進行歸一化處理,對應每類主域URL生成一個主域名。
13.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述主域名生成單元依據(jù)主域URL對應的查詢詞生成所述主域名的查詢詞集合具體包括: 提取每類主域URL下每個主域URL對應的查詢詞,并統(tǒng)計每種查詢詞的被查詢次數(shù),對提取的查詢詞進行去重處理; 利用處理后得到的查詢詞及每種查詢詞的被查詢次數(shù)生成查詢詞集合,確定所述查詢詞集合為所述主域名的查詢詞集合。
14.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述核心詞生成單元對查詢詞集合中的查詢詞進行切詞具體包括: 依據(jù)預設的切詞粒度對主域名對應的查詢詞集合中的每個查詢詞進行切詞處理,對應每個查詢詞生成一個以上分詞; 所述切詞粒度是以詞組或具有完整意義的字為粒度的切詞粒度。
15.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述尋址類查詢詞生成單元確定主域名對應的尋址類查詢詞具體包括: 從主域名的查詢詞集合中提取包含所述核心詞的查詢詞; 依據(jù)被查詢次數(shù)由高到低的順序?qū)μ崛〕龅牟樵冊~進行排序,提取其中排名靠前的一個以上查詢詞; 確定所述核心詞和提取的查詢詞為主域名對應的尋址類查詢詞。
16.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,該系統(tǒng)還包括: 尋址類查詢詞擴展單元,用于判斷主域名的查詢詞集合中除主域名對應的尋址類查詢詞以外的查詢詞以切詞為粒度的編輯距離;所述查詢詞以切詞為粒度的編輯距離包括:查詢詞與核心詞之間以切詞為粒度的編輯距離、查詢詞與尋址類查詢詞之間以切詞為粒度的編輯距離;當所述查詢詞以切詞為粒度的編輯距離小于預設的編輯距離閾值時,確定所述查詢詞為主域名的擴展尋址類查詢詞; 或,尋址類查詢詞擴展單元,用于將所述核心詞與預設的分詞后綴進行組合生成尋址類查詢詞,確定生成的尋址類查詢詞為主域名的擴展尋址類查詢詞。
17.根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,所述尋址類查詢詞擴展單元,還用于在主域名的查詢詞集合中將尋址類查詢詞篩除,對篩除后保留的查詢詞依據(jù)預設的切詞粒度進行切詞,對應每個查詢詞得到一個以上分詞。
18.根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,所述尋址類查詢詞擴展單元,還用于當查詢詞對應存在兩個以上以切詞為粒度的編輯距離時,確定兩個以上以切詞為粒度的編輯距離中最小的編輯距離為所述 查詢詞以切詞為粒度的編輯距離。
【文檔編號】G06F17/30GK103873601SQ201210533948
【公開日】2014年6月18日 申請日期:2012年12月11日 優(yōu)先權(quán)日:2012年12月11日
【發(fā)明者】阮星華 申請人:百度在線網(wǎng)絡技術(shù)(北京)有限公司