專利名稱:一種擴(kuò)展查詢的方法、裝置及搜索引擎系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索查詢領(lǐng)域,特別是涉及一種擴(kuò)展查詢的方法、裝置及包含 該裝置的搜索引擎系統(tǒng)。
背景技術(shù):
搜索引擎技術(shù)的發(fā)展給廣大網(wǎng)絡(luò)用戶帶來非常多的便利,用戶利用搜索引 擎可以很方便的獲取其想要知道的信息。用戶在搜索引擎上輸入一個(gè)查詢?cè)~, 搜索引擎根據(jù)用戶的查詢?cè)~,就能返回包含該查詢?cè)~的網(wǎng)頁。因此,對(duì)于使用 搜索引擎的用戶而言,查詢?cè)~至關(guān)重要,只有使用恰當(dāng)?shù)牟樵冊(cè)~,才能找到需 要的網(wǎng)頁。
目前,各個(gè)搜索引擎為了幫助用戶找到恰當(dāng)?shù)牟樵冊(cè)~,進(jìn)一步提高搜索查 詢質(zhì)量,都提供了"相關(guān)搜索"的功能。即當(dāng)一個(gè)用戶查詢某個(gè)詞的時(shí)候,搜索
引擎會(huì)提示其他用戶用過的相關(guān)查詢?cè)~。例如用戶在Google輸入"電腦"后點(diǎn) 擊查詢按鈕,返回的頁面中除列出搜索結(jié)果外,在該頁面的最下端還給出了相 關(guān)搜索"太平洋電腦網(wǎng)"、"筆記本電腦"、"太平洋電腦"、"聯(lián)想電腦"、"筆記本 電腦報(bào)價(jià)"等與"電腦"相關(guān)的查詢?cè)~。
現(xiàn)有的提供相關(guān)查詢?cè)~的方法,主要是比較查詢?cè)~之間的相似性,即比較 兩個(gè)查詢?cè)~有多少相同的字或詞?;谶@種技術(shù)得到的相關(guān)查詢?cè)~,存在以下 問題提供的相關(guān)查詢?cè)~,性質(zhì)都是一樣的,通過這些查詢?cè)~搜索到的結(jié)果都 差不多;提供的相關(guān)查詢?cè)~,由于性質(zhì)一樣,所以是否能夠搜索到更多更廣范 圍的信息是不確定的。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種擴(kuò)展查詢的方法、裝置及包含該裝 置的搜索引擎系統(tǒng),以解決目前的搜索引擎提供的相關(guān)查詢?cè)~,性質(zhì)可能一樣, 導(dǎo)致通過這些查詢?cè)~搜索到的結(jié)果都差不多,并且是否能夠搜索到更多更廣范 圍的信息不確定的問題。
為解決上述技術(shù)問題,根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明公開了以下技術(shù)方案
一種擴(kuò)展查詢的方法,包括
統(tǒng)計(jì)與查詢?cè)~同現(xiàn)的詞語;
將所有同現(xiàn)的詞語進(jìn)行分類;
為每一個(gè)類別選擇特征詞;
將各個(gè)類的特征詞作為該查詢?cè)~的相關(guān)查詢?cè)~。
其中,所述同現(xiàn)的詞語指與查詢?cè)~在一個(gè)網(wǎng)頁中同時(shí)出現(xiàn)的詞語。
優(yōu)選的,所述統(tǒng)計(jì)與查詢?cè)~同現(xiàn)的詞語具體包括以所有的查詢?cè)~為關(guān)4建 詞建立索引,索引內(nèi)容為與查詢?cè)~同現(xiàn)的詞語。
其中,所述索引為倒排索引。
優(yōu)選的,還包括將同現(xiàn)的詞語按照出現(xiàn)頻率從高到低進(jìn)行排序。 優(yōu)選的,所述將所有同現(xiàn)的詞語進(jìn)行分類具體包括將每個(gè)同現(xiàn)的詞語都
用一個(gè)集合表示,集合的內(nèi)容為與該詞同現(xiàn)的詞語和詞頻;比較集合之間的相
似度,如果相似度符合預(yù)置條件,則將集合對(duì)應(yīng)的同現(xiàn)詞語合并到一類。 其中,所述比較集合之間的相似度是比較集合中相同詞語的個(gè)數(shù)。 優(yōu)選的,所述為每一個(gè)類別選擇特征詞具體包括從每一個(gè)類別以及對(duì)應(yīng)
的集合中選擇一個(gè)詞作為特征詞,該詞在本類別中出現(xiàn)的頻率高于在其他類別
中出現(xiàn)的頻率。
優(yōu)選的,所述方法還包括用戶輸入查詢?cè)~,將對(duì)應(yīng)該查詢?cè)~的相關(guān)查詢 詞提供給用戶;其中,所述相關(guān)查詢?cè)~包括多個(gè)分類。
優(yōu)選的,將對(duì)應(yīng)該查詢?cè)~的相關(guān)查詢?cè)~提供給用戶具體包括根據(jù)搜索日 志,對(duì)所述相關(guān)查詢?cè)~按照查詢頻率進(jìn)行排序;將查詢頻率符合預(yù)置條件的相 關(guān)查詢?cè)~提供給用戶。
一種擴(kuò)展查詢的裝置,包括
數(shù)據(jù)統(tǒng)計(jì)單元,用于統(tǒng)計(jì)與查詢?cè)~同現(xiàn)的詞語;
詞語分類單元,用于將所有同現(xiàn)的詞語進(jìn)行分類;
類別命名單元,用于為每一個(gè)類別選擇特征詞;
擴(kuò)展查詢單元,用于將各個(gè)類的特4正詞作為該查詢?cè)~的相關(guān)查詢?cè)~。 其中,所述同現(xiàn)的詞語指與查詢?cè)~在一個(gè)網(wǎng)頁中同時(shí)出現(xiàn)的詞語。優(yōu)選的,所述數(shù)據(jù)統(tǒng)計(jì)單元進(jìn)一步包括建立索引單元,用于以所有的查 詢?cè)~為關(guān)鍵詞建立索引,索引內(nèi)容為與查詢?cè)~同現(xiàn)的詞語。 其中,所述索引為倒排索引。
優(yōu)選的,所述數(shù)據(jù)統(tǒng)計(jì)單元還包括排序單元,用于將同現(xiàn)的詞語按照出 現(xiàn)頻率從高到低進(jìn)行排序。
優(yōu)選的,所述詞語分類單元進(jìn)一步包括建立集合單元,用于將每個(gè)同現(xiàn) 的詞語都用一個(gè)集合表示,集合的內(nèi)容為與該詞同現(xiàn)的詞語和詞頻;合并單元, 用于比較集合之間的相似度,如果相似度符合預(yù)置條件,則將集合對(duì)應(yīng)的同現(xiàn) 詞語合并到一類。
其中,所述比較集合之間的相似度是比較集合中相同詞語的個(gè)數(shù)。 優(yōu)選的,所述類別命名單元通過以下方式為每一個(gè)類別選擇特征詞從每
一個(gè)類別以及對(duì)應(yīng)的集合中選擇一個(gè)詞作為特征詞,該詞在本類別中出現(xiàn)的頻
率高于在其他類別中出現(xiàn)的頻率。
優(yōu)選的,所述裝置還包括應(yīng)用單元,用于在用戶輸入查詢?cè)~時(shí),將對(duì)應(yīng) 該查詢?cè)~的相關(guān)查詢?cè)~提供給用戶;其中,所述相關(guān)查詢?cè)~包括多個(gè)分類。
優(yōu)選的,所述應(yīng)用單元進(jìn)一步包括排序單元,用于根據(jù)搜索日志,對(duì)所 述相關(guān)查詢?cè)~按照查詢頻率進(jìn)行排序;類別篩選單元,用于將查詢頻率符合預(yù) 置條件的相關(guān)查詢?cè)~提供給用戶。
一種搜索引擎系統(tǒng),所述搜索引擎系統(tǒng)包括所述的擴(kuò)展查詢裝置。
才艮據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明具有以下技術(shù)效果 本發(fā)明在向用戶提供相關(guān)查詢?cè)~時(shí),是將與該查詢?cè)~同現(xiàn)的詞語進(jìn)行分 類,然后將各個(gè)類的特征詞作為該查詢?cè)~的相關(guān)查詢?cè)~提供給用戶。與現(xiàn)有技 術(shù)相比,本發(fā)明提供給用戶的是多類查詢,各個(gè)查詢?cè)~的性質(zhì)不同,能夠查詢 到更多更廣范圍的信息;而現(xiàn)有技術(shù)提供的相關(guān)查詢,不一定是幾類查詢?cè)~, 很有可能性質(zhì)都是一樣的,因?yàn)楝F(xiàn)有的比較查詢?cè)~之間相似性的方法很難判 斷。
本發(fā)明在于引導(dǎo)用戶用更優(yōu)的詞進(jìn)行檢索,以便能夠得到更好的檢索效 果;引導(dǎo)用戶的實(shí)質(zhì),是對(duì)用戶的查詢目的進(jìn)行猜測(cè)、進(jìn)而細(xì)分,從而得到更好的效果。總之,本發(fā)明通過對(duì)查詢?cè)~進(jìn)行了分類,保證了擴(kuò)展后查詢的多樣 性。
圖1是本發(fā)明所述一種擴(kuò)展查詢的方法第一實(shí)施例的流程圖; 圖2是本發(fā)明實(shí)施例一中的索引示意圖; 圖3是本發(fā)明實(shí)施例 一 中對(duì)兩個(gè)集合進(jìn)行求交運(yùn)算的示意圖; 圖4是本發(fā)明所述一種擴(kuò)展查詢的方法第二實(shí)施例的流程圖; 圖5是本發(fā)明所述一種擴(kuò)展查詢的裝置第一實(shí)施例的結(jié)構(gòu)圖; 圖6是本發(fā)明所述一種擴(kuò)展查詢的裝置第二實(shí)施例的結(jié)構(gòu)圖。
具體實(shí)施例方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。
本發(fā)明提供了一種擴(kuò)展查詢的方法,對(duì)于用戶的查詢進(jìn)行擴(kuò)展,能夠?yàn)橛?戶提供更優(yōu)的查詢?cè)~,從而得到更好的查詢效果。 實(shí)施例一
參照?qǐng)D1,是所述一種擴(kuò)展查詢的方法第一實(shí)施例的流程圖。 S101,統(tǒng)計(jì)與查詢?cè)~同現(xiàn)的詞語。
統(tǒng)計(jì)與查詢?cè)~同現(xiàn)的所有詞語,是指統(tǒng)計(jì)一個(gè)詞都與哪些詞在一個(gè)網(wǎng)頁 (或一篇文章)中同時(shí)出現(xiàn)。在實(shí)際應(yīng)用中, 一種優(yōu)選的統(tǒng)計(jì)方法是以所有 出現(xiàn)過的查詢?cè)~為關(guān)4建詞建立索引,索引內(nèi)容為與查詢?cè)~同現(xiàn)的詞語。
參照?qǐng)D2,是索引示意圖。該索引是一種倒排索引結(jié)構(gòu),索引中的每個(gè)關(guān) 4定詞即為查詢?cè)~,對(duì)應(yīng)每個(gè)關(guān)4t詞的索引內(nèi)容即為與該查詢?cè)~同現(xiàn)的詞語。這 些同現(xiàn)的詞語可能來源于多個(gè)網(wǎng)頁。例如,對(duì)于某查詢?cè)~,同現(xiàn)的詞語有A、 B、 C、 D,其中詞A和B與該查詢?cè)~在一個(gè)網(wǎng)頁中同時(shí)出現(xiàn),詞C和D與該 查詢?cè)~在另一個(gè)網(wǎng)頁中同時(shí)出現(xiàn)。所以,每個(gè)索引內(nèi)容為所有與查詢?cè)~同現(xiàn)的 詞語。
優(yōu)選的,還可以對(duì)索引中的同現(xiàn)詞語按照出現(xiàn)的頻率從高到低進(jìn)行排序, 以方^_后續(xù)處理。如果一個(gè)詞語在多個(gè)網(wǎng)頁中與該查詢?cè)~同現(xiàn),則這個(gè)詞語出現(xiàn)的頻率就高,該詞就排在靠前的位置。例如,對(duì)于某查詢?cè)~,同現(xiàn)的詞語有
A、 B、 C、 D,其中詞A、 B、 C與該查詢?cè)~在網(wǎng)頁X中同時(shí)出現(xiàn),而詞D既 在網(wǎng)頁X中與查該詢?cè)~同現(xiàn),又在網(wǎng)頁Y中與該查詢?cè)~同現(xiàn),這樣詞D的出 現(xiàn)概率就高于詞A、 B、 C。
S102,將所有同現(xiàn)的詞語進(jìn)行分類。
從S101中統(tǒng)計(jì)出的與一個(gè)查詢?cè)~同時(shí)出現(xiàn)的詞,可能會(huì)非常多,但不能 把所有的同現(xiàn)詞都拿出來做相關(guān)搜索。所以,需要把得到的所有的同現(xiàn)詞做分 類,分為各個(gè)類別。
本實(shí)施例優(yōu)選采用的分類方法是,采用一種最大劃分的方法。具體如下
首先,將每個(gè)同現(xiàn)的詞語都用一個(gè)集合表示,集合的內(nèi)容為與該詞同現(xiàn)的 詞語和詞頻;這樣,對(duì)于每個(gè)同現(xiàn)詞,都可以用一串詞和詞頻來表示;
然后,比較集合之間的相似度,如果相似度符合預(yù)置條件,則將集合對(duì)應(yīng) 的同現(xiàn)詞語合并到一類。
每個(gè)同現(xiàn)詞用上述集合的方式表示之后,每?jī)蓚€(gè)詞之間就可以比較相似 度,從而將相似的同現(xiàn)詞合并為一類,這樣就可以得到很多分類。具體過程是 兩兩集合求交,即比較集合中相同詞語的個(gè)數(shù),如果兩個(gè)集合的交集很大,則 認(rèn)為兩個(gè)詞是同類的,兩個(gè)集合可以合并為一個(gè)集合;如果兩個(gè)詞的交集很小, 則認(rèn)為兩個(gè)詞是不同類的。所述集合合并的過程可以通過閾值控制,即設(shè)置交 集閾值,當(dāng)兩個(gè)集合的交集符合所述閾值時(shí),就可以進(jìn)行合并。
參照?qǐng)D3,是對(duì)兩個(gè)集合進(jìn)行求交運(yùn)算的示意圖。圖中,詞l對(duì)應(yīng)的集合 包括詞11、詞12、詞13以及詞01、詞02,詞2對(duì)應(yīng)的集合包括詞21、詞22、 詞23以及詞01、詞02。這兩個(gè)集合都包含詞Ol、詞02,所以存在交集;如 果交集符合閾值,則可以將詞1和詞2合并到一類。這樣兩兩計(jì)算之后,就可 以得到很多的分類。
舉例i兌明,查詢?cè)~為apple,與apple同時(shí)出現(xiàn)的詞有ipod、 iphone、手才幾、 mp3、 mac……。以前四個(gè)詞為例,每個(gè)詞用一個(gè)集合表示,如下
與ipod同現(xiàn)的詞有apple、播放器、mp3、歌曲、音樂、iTunes.......
與mp3同現(xiàn)的詞有播放器、歌曲、音樂......
與iphone同現(xiàn)的詞有apple 、手機(jī)、蘋果……與手機(jī)同現(xiàn)的詞有報(bào)價(jià)、號(hào)碼……
按照上述分類方法如果兩個(gè)集合包含的詞大部分相同,則認(rèn)為這兩個(gè)集 合是一類。因此,ipod和mp3是一類,iphone和手機(jī)是一類。
需要說明的是,本實(shí)施例中對(duì)應(yīng)每個(gè)詞的集合由與這個(gè)詞同現(xiàn)的詞和詞頻 構(gòu)成,但還可以提耳又這個(gè)詞的二元或三元關(guān)系構(gòu)成集合,其中所述二元或三元 關(guān)系是指這個(gè)詞的前后詞與這個(gè)詞構(gòu)成的二元或三元關(guān)系。
S103,為每一個(gè)類別選擇特征詞。
得到同現(xiàn)詞的分類之后,需要找到一個(gè)特征詞來代替整個(gè)類另'j,形象地說, 是要給這個(gè)類別起一個(gè)名字。本實(shí)施例優(yōu)選的,采用直接從類別中選取的方式, 即從每一個(gè)類別以及對(duì)應(yīng)的集合中選擇一個(gè)特征詞,這樣能夠保證找到的特征 詞,都是在搜索引擎中查詢有結(jié)果的。挑選的原則如下
第一,在本類別中出現(xiàn)的頻率高;
第二,在其他類別中出現(xiàn)的頻率低。
仍以查詢?cè)~為apple為例,ipod和mp3是一類,iphone和手才幾是一類。然 后從每一類中選出最具代表性的詞語,根據(jù)詞頻選擇,同時(shí)由于ipod和iphone 的同現(xiàn)詞中,都包含apple,并且這兩個(gè)詞沒有互包含,則認(rèn)為ipod、 iphone 是apple的兩個(gè)類名。
S10 4,將各個(gè)類的特征詞作為該查詢?cè)~的相關(guān)查詢?cè)~。
這樣,ipod和iphone就可以作為apple的相關(guān)查詢?cè)~,在用戶查詢apple 的時(shí)候,將ipod和iphone推薦給用戶。當(dāng)然,相關(guān)查詢?cè)~并非只能是各個(gè)類 的特征詞,也可以是個(gè)各類別中的其他詞。
下面是本發(fā)明的優(yōu)選實(shí)施例說明。
實(shí)施例二
參照?qǐng)D4,是所迷一種擴(kuò)展查詢的方法第二實(shí)施例的流程圖。其中,S401 一S404與實(shí)施例一的S101—S104相同,在此不再詳述。 S401,統(tǒng)計(jì)與查詢?cè)~同現(xiàn)的所有詞語;
在搜索引擎系統(tǒng)中,要完成這件事情,需要有非常大的資料庫(kù)。在網(wǎng)頁搜 索庫(kù),整個(gè)資料庫(kù)就是用戶能夠檢索到的所有網(wǎng)頁的集合,做這件事情,對(duì)于 計(jì)算能力的要求是非常大的。為解決這個(gè)問題,本實(shí)施例采用分布式計(jì)算的方式,將一個(gè)計(jì)算任務(wù)分布到機(jī)群上運(yùn)算,從而提高處理效率。
5402, 將所有同現(xiàn)的詞語進(jìn)行分類;
5403, 每個(gè)詞語類中,選出最具代表性的詞語進(jìn)行命名;
5404, 將各個(gè)類別最具代表性的詞語作為該查詢?cè)~的相關(guān)查詢?cè)~;
當(dāng)然,相關(guān)查詢?cè)~并非只能是各個(gè)類的特征詞,也可以是個(gè)各類別中的其 他詞;
S405,用戶輸入查詢?cè)~,將對(duì)應(yīng)該查詢?cè)~的相關(guān)查詢?cè)~提供給用戶;其中, 所述相關(guān)查詢?cè)~包括多個(gè)分類。
在4臾索引擎應(yīng)用中,如果類別4艮多,就需要找出適當(dāng)?shù)念悇e推薦給用戶。 挑選的方法是可以依據(jù)用戶的搜索日志,選出一些查詢頻高的詞,這些詞由于 用戶使用的頻率較高,說明是其他用戶感興趣的詞語。
還是以apple為例,最纟冬可育fe會(huì)4尋到ipod、iphone、mac、notebook, stock......
若干類別,在類別太多的前提下,只能選幾個(gè)給用戶展現(xiàn),選擇類別可以依據(jù) 用戶的查詢頻率展現(xiàn),比如,apple iphone在搜索引擎上有很多人查,則認(rèn)為 apple iphone是用戶比較感興趣的詞語,優(yōu)先選擇。
由此可知,本發(fā)明提供給用戶的是多類查詢,各個(gè)相關(guān)查詢?cè)~的性質(zhì)不同, 能夠查詢到更多更廣范圍的信息。而現(xiàn)有技術(shù)提供的相關(guān)查詢,不一定是幾類 查詢?cè)~,很有可能性質(zhì)都是一樣的,因?yàn)楝F(xiàn)有的比較查詢?cè)~之間相似性的方法 很難判斷。
例如,用Google查apple,相關(guān)4,薦是
apple iphone apple手機(jī) apple ipod apple uk apple hk
power apple apple computer apple tv apple筆^己本 apple mp3 Google的查詢結(jié)果中,iphone和手機(jī)、ipod和mp3、 computer和筆記本 的性質(zhì)基本相同。
而利用本發(fā)明查詢,相關(guān)推薦則是
Apple ipodapple iphone apple notebook apple os xapple tv
apple Leopad apple tiger apple store apple quicktime Apple Developer
推薦結(jié)果都是不同類的查詢,乂人而擴(kuò)展了查詢范圍。
綜上所述,本發(fā)明能夠引導(dǎo)用戶用更優(yōu)的詞進(jìn)行檢索,以便能夠得到更好的檢索效果;引導(dǎo)用戶的實(shí)質(zhì),是對(duì)用戶的查詢目的進(jìn)行猜測(cè)、進(jìn)而細(xì)分,從
而得到更好的效果。總之,本發(fā)明通過對(duì)查詢?cè)~進(jìn)行了分類,保證了擴(kuò)展后查 詢的多樣性。
針對(duì)上述方法,本發(fā)明還提供了一種擴(kuò)展查詢的裝置實(shí)施例。參照?qǐng)D5, 是所述一種擴(kuò)展查詢的裝置第一實(shí)施例的結(jié)構(gòu)圖。所述裝置主要包括數(shù)據(jù)統(tǒng)計(jì) 單元U51、詞語分類單元U52、類別命名單元U53和擴(kuò)展查詢單元U54,其 中
數(shù)據(jù)統(tǒng)計(jì)單元U51,用于統(tǒng)計(jì)與查詢?cè)~同現(xiàn)的詞語;
詞語分類單元U52,用于將所有同現(xiàn)的詞語進(jìn)^^分類;
類別命名單元U53,用于為每一個(gè)類別選擇特征詞;
擴(kuò)展查詢單元U54,用于將各個(gè)類的特征詞作為該查詢?cè)~的相關(guān)查詢?cè)~。
優(yōu)選的,所述數(shù)據(jù)統(tǒng)計(jì)單元U51進(jìn)一步包括建立索引單元,用于以所 有的查詢?cè)~為關(guān)鍵詞建立索引,索引內(nèi)容為與查詢?cè)~同現(xiàn)的詞語。其中,所述 索引為排索引。
優(yōu)選的,所述數(shù)據(jù)統(tǒng)計(jì)單元U51還包括排序單元,用于將同現(xiàn)的詞語 按照出現(xiàn)頻率從高到低進(jìn)行排序。
優(yōu)選的,所述詞語分類單元U52進(jìn)一步包括建立集合單元,用于將每 個(gè)同現(xiàn)的詞語都用一個(gè)集合表示,集合的內(nèi)容為與該詞同現(xiàn)的詞語和詞頻;以 及合并單元,用于比較集合之間的相似度,如果相似度符合預(yù)置條件,則將集 合對(duì)應(yīng)的同現(xiàn)詞語合并到 一類。
優(yōu)選的,所述類別命名單元U53通過以下方式為每一個(gè)類別選擇特征詞 從每一個(gè)類別以及對(duì)應(yīng)的集合中選擇一個(gè)特征詞,該詞在本類別中出現(xiàn)的頻率 高于在其他類別中出現(xiàn)的頻率。
參照?qǐng)D6,是所述一種擴(kuò)展查詢的裝置第二實(shí)施例的結(jié)構(gòu)圖。所述裝置除 包括數(shù)據(jù)統(tǒng)計(jì)單元U61、詞語分類單元U62、類別命名單元U63和擴(kuò)展查詢 單元U64之外,還包括應(yīng)用單元U65。
其中,數(shù)據(jù)統(tǒng)計(jì)單元U61、詞語分類單元U62、類別命名單元U63和擴(kuò) 展查詢單元U64的功能以及單元之間的數(shù)據(jù)處理關(guān)系與上述圖5所示裝置中 的數(shù)據(jù)統(tǒng)計(jì)單元U51、詞語分類單元U52、類別命名單元U53和擴(kuò)展查詢單元U54相同,在此不再詳述。
所述裝置中的應(yīng)用單元U65,用于在用戶輸入查詢?cè)~時(shí),將對(duì)應(yīng)該查詢?cè)~ 的相關(guān)查詢?cè)~提供給用戶;其中,所述相關(guān)查詢?cè)~包括多個(gè)分類。
優(yōu)選的,所述應(yīng)用單元U65進(jìn)一步包括排序單元,用于根據(jù)搜索曰志, 對(duì)所述相關(guān)查詢?cè)~按照查詢頻率進(jìn)行排序;類別篩選單元,用于將查詢頻率高 的相關(guān)查詢?cè)~提供給用戶。
本發(fā)明還提供了一種搜索引擎系統(tǒng),所述系統(tǒng)包含圖5或圖6所述的裝置。 該搜索引擎系統(tǒng)通過圖4或圖5所述裝置對(duì)查詢?cè)~進(jìn)行了分類后,當(dāng)用戶利用 某一查詢?cè)~進(jìn)行搜索時(shí),可以對(duì)用戶的搜索進(jìn)行擴(kuò)展,提供多類查詢,這些相 關(guān)查詢?cè)~具有不同性質(zhì),因此從一定程度上說是擴(kuò)展了查詢的廣度。
圖5、圖6所示裝置中未詳述的部分可以參見圖l一圖4所示方法的相關(guān) 部分,為了篇幅考慮,在此不再詳述。
以上對(duì)本發(fā)明所提供的 一種擴(kuò)展查詢的方法、裝置及包含該裝置的搜索引
進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思 想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之處。綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明 的限制。
權(quán)利要求
1、一種擴(kuò)展查詢的方法,其特征在于,包括統(tǒng)計(jì)與查詢?cè)~同現(xiàn)的詞語;將所有同現(xiàn)的詞語進(jìn)行分類;為每一個(gè)類別選擇特征詞;將各個(gè)類的特征詞作為該查詢?cè)~的相關(guān)查詢?cè)~。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于所述同現(xiàn)的詞語指與查詢 詞在 一 個(gè)網(wǎng)頁中同時(shí)出現(xiàn)的詞語。
3、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述統(tǒng)計(jì)與查詢?cè)~同現(xiàn)的 詞語具體包括以所有的查詢?cè)~為關(guān)鍵詞建立索引,索引內(nèi)容為與查詢?cè)~同現(xiàn)的詞語。
4、 根據(jù)權(quán)利要求3所述的方法,其特征在于所述索引為倒排索引。
5、 根據(jù)權(quán)利要求3所述的方法,其特征在于,還包括將同現(xiàn)的詞語按 照出現(xiàn)頻率從高到低進(jìn)行排序。
6、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所有同現(xiàn)的詞語進(jìn) 行分類具體包括將每個(gè)同現(xiàn)的詞語都用一個(gè)集合表示,集合的內(nèi)容為與該詞同現(xiàn)的詞語和 詞頻;比較集合之間的相似度,如果相似度符合預(yù)置條件,則將集合對(duì)應(yīng)的同現(xiàn) 詞語合并到一類。
7、 根據(jù)權(quán)利要求6所述的方法,其特征在于所述比較集合之間的相似 度是比較集合中相同詞語的個(gè)數(shù)。
8、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述為每一個(gè)類別選擇特 征詞具體包括從每一個(gè)類別以及對(duì)應(yīng)的集合中選擇一個(gè)詞作為特征詞,該詞在本類別中 出現(xiàn)的頻率高于在其他類別中出現(xiàn)的頻率。
9、 根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括 將對(duì)應(yīng)該查詢?cè)~的相關(guān)查詢?cè)~提供給用戶;其中,所述相關(guān)查詢?cè)~包括多個(gè)分類。
10、 根據(jù)權(quán)利要求9所述的方法,其特征在于,將對(duì)應(yīng)該查詢?cè)~的相關(guān)查詢?cè)~^提供給用戶具體包括根據(jù)搜索日志,對(duì)所述相關(guān)查詢?cè)~按照查詢頻率進(jìn)行排序; 將查詢頻率符合預(yù)置條件的相關(guān)查詢?cè)~提供給用戶。
11、 一種擴(kuò)展查詢的裝置,其特征在于,包括 數(shù)據(jù)統(tǒng)計(jì)單元,用于統(tǒng)計(jì)與查詢?cè)~同現(xiàn)的詞語; 詞語分類單元,用于將所有同現(xiàn)的詞語進(jìn)行分類; 類別命名單元,用于為每一個(gè)類別選擇特征詞;擴(kuò)展查詢單元,用于將各個(gè)類的特征詞作為該查詢?cè)~的相關(guān)查詢?cè)~。
12、 根據(jù)權(quán)利要求11所述的裝置,其特征在于所述同現(xiàn)的詞語指與查 詢?cè)~在一個(gè)網(wǎng)頁中同時(shí)出現(xiàn)的詞語。
13、 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述數(shù)據(jù)統(tǒng)計(jì)單元進(jìn)一 步包括建立索引單元,用于以所有的查詢?cè)~為關(guān)鍵詞建立索引,索引內(nèi)容為與查 詢?cè)~同現(xiàn)的詞語。
14、 根據(jù)權(quán)利要求13所述的裝置,其特征在于所述索引為倒排索引。
15、 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述數(shù)據(jù)統(tǒng)計(jì)單元還包括排序單元,用于將同現(xiàn)的詞語按照出現(xiàn)頻率從高到低進(jìn)行排序。
16、 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述詞語分類單元進(jìn)一 步包括建立集合單元,用于將每個(gè)同現(xiàn)的詞語都用一個(gè)集合表示,集合的內(nèi)容為 與該詞同現(xiàn)的詞語和詞頻;合并單元,用于比較集合之間的相似度,如果相似度符合預(yù)置條件,則將 集合對(duì)應(yīng)的同現(xiàn)詞語合并到 一類。
17、 根據(jù)權(quán)利要求16所述的裝置,其特征在于所述比較集合之間的相 似度是比較集合中相同詞語的個(gè)數(shù)。
18、 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述類別命名單元通過 以下方式為每一個(gè)類別選擇特征詞從每一個(gè)類別以及對(duì)應(yīng)的集合中選擇一個(gè)詞作為特征詞,該詞在本類別中 出現(xiàn)的頻率高于在其他類別中出現(xiàn)的頻率。
19、 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括應(yīng)用單元,用于在用戶輸入查詢?cè)~時(shí),將對(duì)應(yīng)該查詢?cè)~的相關(guān)查詢?cè)~提供給用戶;其中,所述相關(guān)查詢?cè)~包括多個(gè)分類。
20、 根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述應(yīng)用單元進(jìn)一步包括排序單元,用于根據(jù)搜索日志,對(duì)所述相關(guān)查詢?cè)~按照查詢頻率進(jìn)行排序; 類別篩選單元,用于將查詢頻率符合預(yù)置條件的相關(guān)查詢?cè)~提供給用戶。
21、 一種搜索引擎系統(tǒng),其特征在于所述搜索引擎系統(tǒng)包括上述權(quán)利要 求11至20任意一項(xiàng)權(quán)利要求所述的擴(kuò)展查詢裝置。
全文摘要
本發(fā)明公開了一種擴(kuò)展查詢的方法、裝置及包含該裝置的搜索引擎系統(tǒng),以解決目前的搜索引擎提供的相關(guān)查詢?cè)~,性質(zhì)可能一樣,導(dǎo)致通過這些查詢?cè)~搜索到的結(jié)果都差不多,并且是否能夠搜索到更多更廣范圍的信息不確定的問題。所述方法包括統(tǒng)計(jì)與查詢?cè)~同現(xiàn)的詞語;將所有同現(xiàn)的詞語進(jìn)行分類;為每一個(gè)類別選擇特征詞;將各個(gè)類的特征詞作為該查詢?cè)~的相關(guān)查詢?cè)~。與現(xiàn)有技術(shù)相比,本發(fā)明提供給用戶的是多類查詢,各個(gè)查詢?cè)~的性質(zhì)不同,能夠查詢到更多更廣范圍的信息。本發(fā)明在于引導(dǎo)用戶用更優(yōu)的詞進(jìn)行檢索,以便能夠得到更好的檢索效果;引導(dǎo)用戶的實(shí)質(zhì),是對(duì)用戶的查詢目的進(jìn)行猜測(cè)、進(jìn)而細(xì)分,從而得到更好的效果。
文檔編號(hào)G06F17/30GK101295319SQ200810115470
公開日2008年10月29日 申請(qǐng)日期2008年6月24日 優(yōu)先權(quán)日2008年6月24日
發(fā)明者張智敏 申請(qǐng)人:北京搜狗科技發(fā)展有限公司