亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

計(jì)算查詢?cè)~模式中分詞權(quán)重的方法和裝置與流程

文檔序號(hào):12802367閱讀:420來(lái)源:國(guó)知局
計(jì)算查詢?cè)~模式中分詞權(quán)重的方法和裝置與流程

本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體而言,涉及一種計(jì)算查詢?cè)~模式中分詞權(quán)重的方法和裝置。



背景技術(shù):

查詢?cè)~是用戶通過瀏覽器提交給搜索引擎的請(qǐng)求,通常是一串表達(dá)用戶需求的字符串。搜索引擎在根據(jù)查詢?cè)~進(jìn)行搜索時(shí),需要對(duì)查詢?cè)~進(jìn)行分詞操作,并分析分詞結(jié)果的權(quán)重,以按照得到分詞的權(quán)重提供搜索結(jié)果;分詞權(quán)重是查詢?cè)~分析中非常重要的目標(biāo),對(duì)搜索引擎的能否滿足用戶的搜索需求起著決定性的作用。

目前,對(duì)于查詢?cè)~的分詞權(quán)重的計(jì)算存在很多的方法,例如下面的一些技術(shù):1、基于共同點(diǎn)擊的分詞權(quán)重計(jì)算方法;2、基于分詞詞性的分詞權(quán)重計(jì)算方法;3、基于命名實(shí)體的分詞權(quán)重計(jì)算方法。但是以上的這些技術(shù),所計(jì)算得到的分詞權(quán)重的方案都存在相應(yīng)缺陷,因此需要提出一種新的用于計(jì)算分詞權(quán)重的方案。



技術(shù)實(shí)現(xiàn)要素:

鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的計(jì)算查詢?cè)~模式中分詞權(quán)重的方法和裝置。

依據(jù)本發(fā)明的一種計(jì)算查詢?cè)~模式中分詞權(quán)重的方法,包括:獲取用戶輸入的查詢?cè)~,以及所述查詢?cè)~對(duì)應(yīng)的搜索結(jié)果中所述用戶點(diǎn)擊的網(wǎng)址標(biāo)題;對(duì)所述查詢?cè)~進(jìn)行分詞操作,并根據(jù)分詞結(jié)果生成所述查詢?cè)~的模式;判斷所述查詢?cè)~的分詞是否在所述網(wǎng)址標(biāo)題中出現(xiàn);根據(jù)所述模式中的分詞是否在相應(yīng)網(wǎng)址標(biāo)題中出現(xiàn),計(jì)算所述模式中的分詞的權(quán)重。

可選地,前述的方法,根據(jù)所述模式中的分詞是否在相應(yīng)網(wǎng)址標(biāo)題中出現(xiàn),計(jì)算所述模式中的分詞的權(quán)重,具體包括:根據(jù)所述模式中可替換分詞的位置和個(gè)數(shù),將所述模式中包含的分詞組合劃分為多組,分別計(jì)算多組分組組合中分詞的權(quán)重。

可選地,前述的方法,根據(jù)所述模式中的分詞是否在相應(yīng)網(wǎng)址標(biāo)題中出現(xiàn),計(jì)算所述模式中的分詞的權(quán)重,還包括:對(duì)所述多個(gè)分組組合中分詞的權(quán)重進(jìn)行合并,得到所述模式中分詞的權(quán)重。

可選地,前述的方法,還包括:獲取多個(gè)模式中查找相同的模式,對(duì)所述相同模式的權(quán)重進(jìn)行合并。

可選地,前述的方法,還包括:檢測(cè)所述模式在已知多個(gè)查詢?cè)~中是否出現(xiàn),根據(jù)檢測(cè)結(jié)果判斷是否保留所述模式。

依據(jù)本發(fā)明的一種計(jì)算查詢?cè)~模式中分詞權(quán)重的裝置,包括:獲取模塊,用于獲取用戶輸入的查詢?cè)~,以及所述查詢?cè)~對(duì)應(yīng)的搜索結(jié)果中所述用戶點(diǎn)擊的網(wǎng)址標(biāo)題;模式生成模塊,用于對(duì)所述查詢?cè)~進(jìn)行分詞操作,并根據(jù)分詞結(jié)果生成所述查詢?cè)~的模式;分詞判斷模塊,用于判斷所述查詢?cè)~的分詞是否在所述網(wǎng)址標(biāo)題中出現(xiàn);權(quán)重計(jì)算模塊,用于根據(jù)所述模式中的分詞是否在相應(yīng)網(wǎng)址標(biāo)題中出現(xiàn),計(jì)算所述模式中的分詞的權(quán)重。

可選地,前述的裝置,所述權(quán)重計(jì)算模塊根據(jù)所述模式中可替換分詞的位置和個(gè)數(shù),將所述模式中包含的分詞組合劃分為多組,分別計(jì)算多組分組組合中分詞的權(quán)重。

可選地,前述的裝置,還包括:所述權(quán)重計(jì)算模塊對(duì)所述多個(gè)分組組合中分詞的權(quán)重進(jìn)行合并,得到所述模式中分詞的權(quán)重。

可選地,前述的裝置,所述權(quán)重計(jì)算模塊獲取多個(gè)模式中查找相同的模式,對(duì)所述相同模式的權(quán)重進(jìn)行合并。

可選地,前述的裝置,還包括:過濾模塊,用于檢測(cè)所述模式在已知多個(gè)查詢?cè)~中是否出現(xiàn),根據(jù)檢測(cè)結(jié)果判斷是否保留所述模式。

根據(jù)以上技術(shù)方案,本發(fā)明的計(jì)算查詢?cè)~模式中分詞權(quán)重的方法和裝置至少具有以下優(yōu)點(diǎn):

在本發(fā)明的技術(shù)方案中,用戶輸入查詢?cè)~后,在搜索結(jié)果中點(diǎn)擊的網(wǎng)址標(biāo)題反映了用戶輸入的查詢?cè)~的需求,因此基于用戶所點(diǎn)擊的網(wǎng)址標(biāo)題,對(duì)查詢?cè)~拆分模式并分析模式分詞的權(quán)重,得到模式中的分詞權(quán)重值能夠體現(xiàn)該分詞對(duì)于用戶的重要程度;基于本發(fā)明計(jì)算得到的查詢?cè)~模式的分詞權(quán)重,能夠?yàn)橛脩敉扑头嫌脩粜枨蟮乃阉鹘Y(jié)果。

上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。

附圖說明

通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:

圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的一種計(jì)算查詢?cè)~模式中分詞權(quán)重的方法的流程圖;

圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的一種計(jì)算查詢?cè)~模式中分詞權(quán)重的裝置的框圖;

圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的一種計(jì)算查詢?cè)~模式中分詞權(quán)重的裝置的框圖。

具體實(shí)施方式

下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。

在描述本發(fā)明的實(shí)施例前,需要對(duì)以下概念進(jìn)行說明:

查詢?cè)~(query)是指,用戶通過瀏覽器提交給搜索引擎的請(qǐng)求,通常是 一串表達(dá)用戶需求的字符串。

查詢?cè)~的模式(pattern)是指:模式是指不同的查詢?cè)~都能按某種方式來(lái)表示,例如用正則表達(dá)式;例如下面的這幾個(gè)查詢?cè)~:

查詢?cè)~1:但字怎么造句

查詢?cè)~2:即字怎么造句

這兩個(gè)查詢?cè)~表達(dá)了不同的事情(但和即的造句),但是有相同的說法,根據(jù)這兩個(gè)查詢?cè)~可以得到如下的模式:*字怎么造句,這里的“*”為通配符,表示無(wú)或任意的漢字。又比如,對(duì)于查詢?cè)~:混合性皮膚適合用的化妝品,可以得到如下的模式:混合*皮膚*化妝*品*。

分詞(term)權(quán)重:分詞是指對(duì)查詢?cè)~進(jìn)行分詞操作后的基本單位,分詞權(quán)重就是指計(jì)算查詢?cè)~分詞后得到的每個(gè)分詞在這個(gè)查詢?cè)~里的相對(duì)權(quán)重,分詞權(quán)重是查詢?cè)~分析中非常重要的目標(biāo),對(duì)搜索引擎的能否滿足用戶的搜索需求起著決定性的作用。

如圖1所示,本發(fā)明的一個(gè)實(shí)施例中提供一種計(jì)算查詢?cè)~模式中分詞權(quán)重的方法,包括:

步驟110,獲取用戶輸入的查詢?cè)~,以及所述查詢?cè)~對(duì)應(yīng)的搜索結(jié)果中所述用戶點(diǎn)擊的網(wǎng)址標(biāo)題。在本實(shí)施例中,將將用戶提交給搜索引擎的查詢?cè)~以及查詢?cè)~點(diǎn)擊的網(wǎng)址(url)標(biāo)題作為輸入。用戶輸入查詢?cè)~后,在搜索結(jié)果中點(diǎn)擊的網(wǎng)址標(biāo)題反映了用戶輸入的查詢?cè)~的需求。

步驟120,對(duì)所述查詢?cè)~進(jìn)行分詞操作,并根據(jù)分詞結(jié)果生成所述查詢?cè)~的模式。在本實(shí)施例中,對(duì)每一個(gè)<查詢?cè)~,標(biāo)題>的組合,首先對(duì)查詢?cè)~進(jìn)行分詞操作,在查詢?cè)~的分詞結(jié)果中任意選取一個(gè)詞、兩個(gè)詞、三個(gè)詞、四個(gè)詞的所有組合,按照在查詢?cè)~中的順序組裝為模式。例如:某個(gè)查詢?cè)~為abcde,假設(shè)每個(gè)字母表示分詞后的分詞,則可以得到如下的模式:

1、一個(gè)詞,a*,*b*,*c*,*d*,*e,這里用“*”表示通配符;

2、兩個(gè)詞,a*b*,a*c*,a*d*,a*e……

3、三個(gè)詞,a*b*c*,a*b*d*,a*b*e……

4、四個(gè)詞,a*b*c*d*,a*b*c*e,*b*c*d*e……

步驟130,判斷所述查詢?cè)~的分詞是否在所述網(wǎng)址標(biāo)題中出現(xiàn)。在本實(shí)施例中,需要計(jì)算查詢?cè)~中的分詞是否在標(biāo)題中出現(xiàn),出現(xiàn)記錄為1,否則為0:假設(shè)abcde這5個(gè)詞在標(biāo)題中的出現(xiàn)情況為1、0、1、1、0,即a、c、d在標(biāo)題里出現(xiàn),b、e在標(biāo)題中沒有出現(xiàn)。

步驟140,根據(jù)所述模式中的分詞是否在相應(yīng)網(wǎng)址標(biāo)題中出現(xiàn),計(jì)算所述模式中的分詞的權(quán)重。根據(jù)本實(shí)施例,可以將分詞在標(biāo)題中的出現(xiàn)情況作為模式的權(quán)重值輸出。由于在搜索結(jié)果中點(diǎn)擊的網(wǎng)址標(biāo)題反映了用戶輸入的查詢?cè)~的需求,因此基于用戶所點(diǎn)擊的網(wǎng)址標(biāo)題,對(duì)查詢?cè)~拆分模式并分析模式分詞的權(quán)重,得到模式中的分詞權(quán)重值能夠體現(xiàn)該分詞對(duì)于用戶的重要程度;基于本發(fā)明計(jì)算得到的查詢?cè)~模式的分詞權(quán)重,能夠?yàn)橛脩敉扑头嫌脩粜枨蟮乃阉鹘Y(jié)果。

本發(fā)明的一個(gè)實(shí)施例中提供一種計(jì)算查詢?cè)~模式中分詞權(quán)重的方法,相比于前述的實(shí)施例,本實(shí)施例的計(jì)算查詢?cè)~模式中分詞權(quán)重的方法,步驟140,具體包括:

根據(jù)所述模式中可替換分詞的位置和個(gè)數(shù),將所述模式中包含的分詞組合劃分為多組,分別計(jì)算多組分組組合中分詞的權(quán)重。在本實(shí)施例中,計(jì)算權(quán)重值時(shí)按照可替換的分詞的位置和個(gè)數(shù)進(jìn)行分組,例如:對(duì)于模式:*b*c*d*e,*通配符代表了可替換分詞,則在計(jì)算流程里會(huì)如下計(jì)算權(quán)重值:

1、計(jì)算所有滿足這個(gè)模式的查詢?cè)~中,b、c、d、e這四個(gè)分詞在標(biāo)題中的出現(xiàn)概率;

2、對(duì)于出現(xiàn)在b之前的可替換分詞的情況,按照個(gè)數(shù)進(jìn)行分組,例如,針對(duì)在b之前只有一個(gè)分詞的、有2個(gè)分詞的、有3個(gè)分詞的、有4個(gè)分詞的分詞情況,分別統(tǒng)計(jì)這4種情況下形成的分詞組合中每個(gè)分詞在標(biāo)題中出現(xiàn)的概率;

3、同樣地,對(duì)于出現(xiàn)在b和c之間的可替換分詞的情況、c和d之間 的分詞情況、d和e之間的分詞情況、e后面的分詞情況,也按照分詞的個(gè)數(shù)進(jìn)行分組得到多個(gè)分詞組合,為每個(gè)分詞組合計(jì)算得到在標(biāo)題中的出現(xiàn)概率。

在上面的例子上,假定a、c、d在標(biāo)題中出現(xiàn),那么對(duì)于*b*e*這個(gè)模式的,其中一個(gè)分詞組合的分詞權(quán)重值如下:

*b*e*:1,0,11,0

第一個(gè)1表示b前面有一個(gè)分詞,并且出現(xiàn)在標(biāo)題;

第二個(gè)0表示b沒有出現(xiàn)在標(biāo)題;

第三個(gè)11表示b和e中間有兩個(gè)分詞,并且都在標(biāo)題出現(xiàn);

第四個(gè)0表示e沒有出現(xiàn)在標(biāo)題。

在本實(shí)施例中,基于可替換分詞的個(gè)數(shù)和位置,對(duì)模式進(jìn)行了細(xì)分,以利于更準(zhǔn)確地計(jì)算每個(gè)分詞的權(quán)重。

本發(fā)明的一個(gè)實(shí)施例中提供一種計(jì)算查詢?cè)~模式中分詞權(quán)重的方法,相比于前述的實(shí)施例,本實(shí)施例的計(jì)算查詢?cè)~模式中分詞權(quán)重的方法,步驟140,還包括:

對(duì)所述多個(gè)分組組合中分詞的權(quán)重進(jìn)行合并,得到所述模式中分詞的權(quán)重。在本實(shí)施例中,多個(gè)分詞組合合并后輸出權(quán)重值的格式舉例:

*b*e*:x|xx|xxx|xxxx,x,|x|xx|xxx|xxx|xxxx,x,x|xx|xxx|xxxx

上面這個(gè)例子中每一個(gè)x表示一個(gè)實(shí)際的數(shù),可能是0或者1,表示當(dāng)前<查詢?cè)~,標(biāo)題>對(duì)中某個(gè)分詞是否出現(xiàn)在標(biāo)題中的統(tǒng)計(jì)。

用“|”分隔的表示某個(gè)區(qū)間里1個(gè)、2個(gè)、3個(gè)、4個(gè)分詞在標(biāo)題出現(xiàn)的情況,例如一開始的3個(gè)“|”分別記錄b前面只有一個(gè)分詞時(shí)這個(gè)分詞是否在標(biāo)題中出現(xiàn)、有2個(gè)分詞時(shí)這2個(gè)分詞的出現(xiàn)情況等等,用逗號(hào)隔開了表示在模式b、e之間可替換的分詞在標(biāo)題里的出現(xiàn)情況,以及b和e在標(biāo)題中的出現(xiàn)情況;在本實(shí)施例中,綜合了多個(gè)分詞組合的分詞權(quán)重得到模式中分詞的權(quán)重,數(shù)據(jù)量減少更加適于存儲(chǔ)和使用。

本發(fā)明的一個(gè)實(shí)施例中提供一種計(jì)算查詢?cè)~模式中分詞權(quán)重的方法,相比于前述的實(shí)施例,本實(shí)施例的計(jì)算查詢?cè)~模式中分詞權(quán)重的方法,還包括:

獲取多個(gè)模式中查找相同的模式,對(duì)所述相同模式的權(quán)重進(jìn)行合并。

在本實(shí)施例中,在每個(gè)<查詢?cè)~,標(biāo)題>中,能夠得到模式的一個(gè)值;最后把相同模式的不同值進(jìn)行合并,主要是處理不同分詞的情況,例如:

*b*e*:1,0,11,0

*b*e*:11,1,1,0,1

合并后為

*b*e:1|11,0.5,1|11,0,1

第一個(gè)1|11,表示b前面存在一個(gè)分詞和2個(gè)分詞這兩種情況,且他們都在標(biāo)題里出現(xiàn);

第二個(gè)0.5,表示b在標(biāo)題中出現(xiàn)的概率是0.5;

第三個(gè)1|11表示b和e之間存在一個(gè)分詞和2個(gè)分詞這兩種情況,且他們都在標(biāo)題出現(xiàn);

第四個(gè)0表示e沒有在標(biāo)題出現(xiàn);

第五個(gè)1表示e后面有一個(gè)分詞,并且在標(biāo)題出現(xiàn)。

在本實(shí)施例中,用戶可能多次輸入同一個(gè)查詢?cè)~而點(diǎn)擊了不同的搜索結(jié)果,則根據(jù)查詢?cè)~和單次點(diǎn)擊的搜索結(jié)果的網(wǎng)址標(biāo)題計(jì)算模式的分詞權(quán)重可能存在不準(zhǔn)確的情況;而本實(shí)施例中對(duì)相同模式的分詞權(quán)重組合,相當(dāng)于綜合了用戶點(diǎn)擊同一查詢?cè)~以及用多次點(diǎn)擊的搜索結(jié)果的網(wǎng)址標(biāo)題來(lái)計(jì)算查詢?cè)~模式的分詞權(quán)重,所以計(jì)算結(jié)果更加準(zhǔn)確。

本發(fā)明的一個(gè)實(shí)施例中提供一種計(jì)算查詢?cè)~模式中分詞權(quán)重的方法,相比于前述的實(shí)施例,本實(shí)施例的計(jì)算查詢?cè)~模式中分詞權(quán)重的方法,還包括:

檢測(cè)所述模式在已知多個(gè)查詢?cè)~中是否出現(xiàn),根據(jù)檢測(cè)結(jié)果判斷是否保留所述模式。

在本實(shí)施例中,通過模式在所有<查詢?cè)~,標(biāo)題>的出現(xiàn)次數(shù)進(jìn)行過濾,最后得到大概1億個(gè)模式,清除了重復(fù)的數(shù)據(jù)。

綜合以上實(shí)施例,可以大規(guī)模地挖掘查詢?cè)~的模式,并且同時(shí)包含模式的分詞在網(wǎng)址標(biāo)題里的出現(xiàn)概率,這個(gè)概率可以作為分詞權(quán)重的重要特征,例如:

查詢?cè)~:但怎么造句,可以匹配如下模式:

*怎么*造句*:0.79|0.720.73|0.640.650.65|0.670.610.620.63,0.29…

通過這個(gè)模式,我們能夠發(fā)現(xiàn)“但”這個(gè)單字,并且是停用詞的單字,在這個(gè)查詢?cè)~里有重要的作用,因?yàn)楫?dāng)“怎么”前面只有一個(gè)分詞時(shí),這個(gè)分詞在標(biāo)題中的出現(xiàn)概率是0.79;利用這個(gè)信息來(lái)改進(jìn)分詞的權(quán)重值,有利于節(jié)省對(duì)查詢?cè)~的分析,搜索結(jié)果的質(zhì)量能夠取得明顯改進(jìn)。

如圖2所示,本發(fā)明的一個(gè)實(shí)施例中提供一種計(jì)算查詢?cè)~模式中分詞權(quán)重的裝置,包括:

獲取模塊210,獲取用戶輸入的查詢?cè)~,以及所述查詢?cè)~對(duì)應(yīng)的搜索結(jié)果中所述用戶點(diǎn)擊的網(wǎng)址標(biāo)題。在本實(shí)施例中,將將用戶提交給搜索引擎的查詢?cè)~以及查詢?cè)~點(diǎn)擊的網(wǎng)址(url)標(biāo)題作為輸入。用戶輸入查詢?cè)~后,在搜索結(jié)果中點(diǎn)擊的網(wǎng)址標(biāo)題反映了用戶輸入的查詢?cè)~的需求。

模式生成模塊220,對(duì)所述查詢?cè)~進(jìn)行分詞操作,并根據(jù)分詞結(jié)果生成所述查詢?cè)~的模式。在本實(shí)施例中,對(duì)每一個(gè)<查詢?cè)~,標(biāo)題>的組合,首先對(duì)查詢?cè)~進(jìn)行分詞操作,在查詢?cè)~的分詞結(jié)果中任意選取一個(gè)詞、兩個(gè)詞、三個(gè)詞、四個(gè)詞的所有組合,按照在查詢?cè)~中的順序組裝為模式。例如:某個(gè)查詢?cè)~為abcde,假設(shè)每個(gè)字母表示分詞后的分詞,則可以得到如下的模式:

1、一個(gè)詞,a*,*b*,*c*,*d*,*e,這里用“*”表示通配符;

2、兩個(gè)詞,a*b*,a*c*,a*d*,a*e……

3、三個(gè)詞,a*b*c*,a*b*d*,a*b*e……

4、四個(gè)詞,a*b*c*d*,a*b*c*e,*b*c*d*e……

分詞判斷模塊230,判斷所述查詢?cè)~的分詞是否在所述網(wǎng)址標(biāo)題中出現(xiàn)。在本實(shí)施例中,需要計(jì)算查詢?cè)~中的分詞是否在標(biāo)題中出現(xiàn),出現(xiàn)記錄為1,否則為0:假設(shè)abcde這5個(gè)詞在標(biāo)題中的出現(xiàn)情況為1、0、1、1、0,即a、c、d在標(biāo)題里出現(xiàn),b、e在標(biāo)題中沒有出現(xiàn)。

權(quán)重計(jì)算模塊240,根據(jù)所述模式中的分詞是否在相應(yīng)網(wǎng)址標(biāo)題中出現(xiàn),計(jì)算所述模式中的分詞的權(quán)重。根據(jù)本實(shí)施例,可以將分詞在標(biāo)題中的出現(xiàn)情況作為模式的權(quán)重值輸出。由于在搜索結(jié)果中點(diǎn)擊的網(wǎng)址標(biāo)題反映了用戶輸入的查詢?cè)~的需求,因此基于用戶所點(diǎn)擊的網(wǎng)址標(biāo)題,對(duì)查詢?cè)~拆分模式并分析模式分詞的權(quán)重,得到模式中的分詞權(quán)重值能夠體現(xiàn)該分詞對(duì)于用戶的重要程度;基于本發(fā)明計(jì)算得到的查詢?cè)~模式的分詞權(quán)重,能夠?yàn)橛脩敉扑头嫌脩粜枨蟮乃阉鹘Y(jié)果。

本發(fā)明的一個(gè)實(shí)施例中提供一種計(jì)算查詢?cè)~模式中分詞權(quán)重的裝置,相比于前述的實(shí)施例,本實(shí)施例的計(jì)算查詢?cè)~模式中分詞權(quán)重的裝置,

權(quán)重計(jì)算模塊240根據(jù)所述模式中可替換分詞的位置和個(gè)數(shù),將所述模式中包含的分詞組合劃分為多組,分別計(jì)算多組分組組合中分詞的權(quán)重。在本實(shí)施例中,計(jì)算權(quán)重值時(shí)按照可替換的分詞的位置和個(gè)數(shù)進(jìn)行分組,例如:對(duì)于模式:*b*c*d*e,*通配符代表了可替換分詞,則在計(jì)算流程里會(huì)如下計(jì)算權(quán)重值:

1、計(jì)算所有滿足這個(gè)模式的查詢?cè)~中,b、c、d、e這四個(gè)分詞在標(biāo)題中的出現(xiàn)概率;

2、對(duì)于出現(xiàn)在b之前的可替換分詞的情況,按照個(gè)數(shù)進(jìn)行分組,例如,針對(duì)在b之前只有一個(gè)分詞的、有2個(gè)分詞的、有3個(gè)分詞的、有4個(gè)分詞的分詞情況,分別統(tǒng)計(jì)這4種情況下形成的分詞組合中每個(gè)分詞在標(biāo)題中出現(xiàn)的概率;

3、同樣地,對(duì)于出現(xiàn)在b和c之間的可替換分詞的情況、c和d之間的分詞情況、d和e之間的分詞情況、e后面的分詞情況,也按照分詞的個(gè) 數(shù)進(jìn)行分組得到多個(gè)分詞組合,為每個(gè)分詞組合計(jì)算得到在標(biāo)題中的出現(xiàn)概率。

在上面的例子上,假定a、c、d在標(biāo)題中出現(xiàn),那么對(duì)于*b*e*這個(gè)模式的,其中一個(gè)分詞組合的分詞權(quán)重值如下:

*b*e*:1,0,11,0

第一個(gè)1表示b前面有一個(gè)分詞,并且出現(xiàn)在標(biāo)題;

第二個(gè)0表示b沒有出現(xiàn)在標(biāo)題;

第三個(gè)11表示b和e中間有兩個(gè)分詞,并且都在標(biāo)題出現(xiàn);

第四個(gè)0表示e沒有出現(xiàn)在標(biāo)題。

在本實(shí)施例中,基于可替換分詞的個(gè)數(shù)和位置,對(duì)模式進(jìn)行了細(xì)分,以利于更準(zhǔn)確地計(jì)算每個(gè)分詞的權(quán)重。

本發(fā)明的一個(gè)實(shí)施例中提供一種計(jì)算查詢?cè)~模式中分詞權(quán)重的裝置,相比于前述的實(shí)施例,本實(shí)施例的計(jì)算查詢?cè)~模式中分詞權(quán)重的裝置,

權(quán)重計(jì)算模塊240對(duì)所述多個(gè)分組組合中分詞的權(quán)重進(jìn)行合并,得到所述模式中分詞的權(quán)重。在本實(shí)施例中,多個(gè)分詞組合合并后輸出權(quán)重值的格式舉例:

*b*e*:x|xx|xxx|xxxx,x,|x|xx|xxx|xxx|xxxx,x,x|xx|xxx|xxxx

上面這個(gè)例子中每一個(gè)x表示一個(gè)實(shí)際的數(shù),可能是0或者1,表示當(dāng)前<查詢?cè)~,標(biāo)題>對(duì)中某個(gè)分詞是否出現(xiàn)在標(biāo)題中的統(tǒng)計(jì)。

用“|”分隔的表示某個(gè)區(qū)間里1個(gè)、2個(gè)、3個(gè)、4個(gè)分詞在標(biāo)題出現(xiàn)的情況,例如一開始的3個(gè)“|”分別記錄b前面只有一個(gè)分詞時(shí)這個(gè)分詞是否在標(biāo)題中出現(xiàn)、有2個(gè)分詞時(shí)這2個(gè)分詞的出現(xiàn)情況等等,用逗號(hào)隔開了表示在模式b、e之間可替換的分詞在標(biāo)題里的出現(xiàn)情況,以及b和e在標(biāo)題中的出現(xiàn)情況;在本實(shí)施例中,綜合了多個(gè)分詞組合的分詞權(quán)重得到模式中分詞的權(quán)重,數(shù)據(jù)量減少更加適于存儲(chǔ)和使用。

本發(fā)明的一個(gè)實(shí)施例中提供一種計(jì)算查詢?cè)~模式中分詞權(quán)重的裝置,相比于前述的實(shí)施例,本實(shí)施例的計(jì)算查詢?cè)~模式中分詞權(quán)重的裝置,

權(quán)重計(jì)算模塊240獲取多個(gè)模式中查找相同的模式,對(duì)所述相同模式的權(quán)重進(jìn)行合并。

在本實(shí)施例中,在每個(gè)<查詢?cè)~,標(biāo)題>中,能夠得到模式的一個(gè)值;最后把相同模式的不同值進(jìn)行合并,主要是處理不同分詞的情況,例如:

*b*e*:1,0,11,0

*b*e*:11,1,1,0,1

合并后為

*b*e:1|11,0.5,1|11,0,1

第一個(gè)1|11,表示b前面存在一個(gè)分詞和2個(gè)分詞這兩種情況,且他們都在標(biāo)題里出現(xiàn);

第二個(gè)0.5,表示b在標(biāo)題中出現(xiàn)的概率是0.5;

第三個(gè)1|11表示b和e之間存在一個(gè)分詞和2個(gè)分詞這兩種情況,且他們都在標(biāo)題出現(xiàn);

第四個(gè)0表示e沒有在標(biāo)題出現(xiàn);

第五個(gè)1表示e后面有一個(gè)分詞,并且在標(biāo)題出現(xiàn)。

在本實(shí)施例中,用戶可能多次輸入同一個(gè)查詢?cè)~而點(diǎn)擊了不同的搜索結(jié)果,則根據(jù)查詢?cè)~和單次點(diǎn)擊的搜索結(jié)果的網(wǎng)址標(biāo)題計(jì)算模式的分詞權(quán)重可能存在不準(zhǔn)確的情況;而本實(shí)施例中對(duì)相同模式的分詞權(quán)重組合,相當(dāng)于綜合了用戶點(diǎn)擊同一查詢?cè)~以及用多次點(diǎn)擊的搜索結(jié)果的網(wǎng)址標(biāo)題來(lái)計(jì)算查詢?cè)~模式的分詞權(quán)重,所以計(jì)算結(jié)果更加準(zhǔn)確。

如圖3所示,本發(fā)明的一個(gè)實(shí)施例中提供一種計(jì)算查詢?cè)~模式中分詞權(quán)重的裝置,相比于前述的實(shí)施例,本實(shí)施例的計(jì)算查詢?cè)~模式中分詞權(quán)重的裝置,還包括:

過濾模塊310,檢測(cè)所述模式在已知多個(gè)查詢?cè)~中是否出現(xiàn),根據(jù)檢測(cè)結(jié) 果判斷是否保留所述模式。

在本實(shí)施例中,通過模式在所有<查詢?cè)~,標(biāo)題>的出現(xiàn)次數(shù)進(jìn)行過濾,最后得到大概1億個(gè)模式,清除了重復(fù)的數(shù)據(jù)。綜合以上實(shí)施例,可以大規(guī)模地挖掘查詢?cè)~的模式,并且同時(shí)包含模式的分詞在網(wǎng)址標(biāo)題里的出現(xiàn)概率,這個(gè)概率可以作為分詞權(quán)重的重要特征,例如:

查詢?cè)~:但怎么造句,可以匹配如下模式:

*怎么*造句*:0.79|0.720.73|0.640.650.65|0.670.610.620.63,0.29…

通過這個(gè)模式,我們能夠發(fā)現(xiàn)“但”這個(gè)單字,并且是停用詞的單字,在這個(gè)查詢?cè)~里有重要的作用,因?yàn)楫?dāng)“怎么”前面只有一個(gè)分詞時(shí),這個(gè)分詞在標(biāo)題中的出現(xiàn)概率是0.79;利用這個(gè)信息來(lái)改進(jìn)分詞的權(quán)重值,有利于節(jié)省對(duì)查詢?cè)~的分析,搜索結(jié)果的質(zhì)量能夠取得明顯改進(jìn)。

在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對(duì)任何特定編程語(yǔ)言。應(yīng)當(dāng)明白,可以利用各種編程語(yǔ)言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語(yǔ)言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。

在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說明書的理解。

類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。

本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自 適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。

此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來(lái)使用。

本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(dsp)來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的計(jì)算查詢?cè)~模式中分詞權(quán)重的裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。

應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來(lái)具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1