對(duì)查詢?cè)~分類的方法及裝置制造方法
【專利摘要】本發(fā)明提供了對(duì)查詢?cè)~分類的方法及裝置,其中,該方法包括:確認(rèn)分類資源庫(kù)中沒(méi)有存儲(chǔ)當(dāng)前查詢?cè)~,對(duì)當(dāng)前查詢?cè)~進(jìn)行劃分,得到分詞結(jié)果,分詞結(jié)果包含至少一個(gè)分詞;根據(jù)當(dāng)前查詢?cè)~的分詞結(jié)果,從分類資源庫(kù)中確定出至少包含一個(gè)分詞的建庫(kù)查詢?cè)~作為相似查詢?cè)~,并將該建庫(kù)查詢?cè)~的置信度作為相似查詢?cè)~的置信度,該建庫(kù)查詢?cè)~的分類作為該相似查詢?cè)~的分類;計(jì)算當(dāng)前查詢?cè)~與相似查詢?cè)~之間的相似度,由所述相似度和相似查詢?cè)~的置信度計(jì)算出當(dāng)前查詢?cè)~的置信度,將相似查詢?cè)~的分類作為當(dāng)前查詢?cè)~的分類,在分類資源庫(kù)中存儲(chǔ)當(dāng)前查詢?cè)~、當(dāng)前查詢?cè)~的置信度和當(dāng)前查詢?cè)~的分類。本發(fā)明方案能夠?qū)崿F(xiàn)基于已有分類資源庫(kù)對(duì)新的查詢?cè)~進(jìn)行分類。
【專利說(shuō)明】對(duì)查詢?cè)~分類的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息搜索領(lǐng)域,尤其涉及對(duì)查詢?cè)~分類的方法及裝置。
【背景技術(shù)】
[0002]現(xiàn)有的信息搜索方法包括:
[0003]首先,客戶端接收用戶輸入的查詢?cè)~,向網(wǎng)絡(luò)側(cè)服務(wù)器發(fā)送包含查詢?cè)~的搜索請(qǐng)求。用戶輸入的查詢?cè)~為當(dāng)前待搜索的查詢?cè)~,通常將其稱為當(dāng)前查詢?cè)~。查詢?cè)~也就是用戶進(jìn)行搜索時(shí)輸入的關(guān)鍵詞,例如,采用百度搜索工具進(jìn)行搜索時(shí)輸入的關(guān)鍵詞“射雕英雄傳電視劇”,即為查詢?cè)~。
[0004]而后,服務(wù)器根據(jù)搜索請(qǐng)求搜索出網(wǎng)頁(yè)條目;為當(dāng)前查詢?cè)~設(shè)置分類,由分類等多個(gè)影響因子對(duì)搜索出的眾多網(wǎng)頁(yè)條目進(jìn)行排序,將排序后的網(wǎng)頁(yè)條目發(fā)送給客戶端。
[0005]最后,客戶端將排序后的網(wǎng)頁(yè)條目展示給用戶。每個(gè)網(wǎng)頁(yè)條目對(duì)應(yīng)一個(gè)網(wǎng)頁(yè),用戶點(diǎn)擊某網(wǎng)頁(yè)條目,便可展示對(duì)應(yīng)的網(wǎng)頁(yè)。
[0006]以查詢?cè)~“發(fā)明”為例,圖1示出了與“發(fā)明”相關(guān)的部分網(wǎng)頁(yè)條目,包括:關(guān)于“中國(guó)發(fā)明網(wǎng)”的網(wǎng)頁(yè)條目,關(guān)于“發(fā)明百度百科”的網(wǎng)頁(yè)條目,關(guān)于“發(fā)明吧百度貼吧”的網(wǎng)頁(yè)條目,關(guān)于“《我愛(ài)發(fā)明》官網(wǎng)”的網(wǎng)頁(yè)條目,關(guān)于“發(fā)明的最新相關(guān)信息”的網(wǎng)頁(yè)條目;圖中的省略號(hào)為各網(wǎng)頁(yè)條目的概述。
[0007]進(jìn)行排序的影響因子包括多個(gè),分類為其中的一個(gè)重要因子。目前多采用離線資源挖掘方法進(jìn)行查詢?cè)~分類,具體包括:
[0008]分類資源庫(kù)中存儲(chǔ)了查詢?cè)~信息,包括查詢?cè)~、查詢?cè)~的置信度和分類,進(jìn)行分類查詢?cè)~時(shí),由當(dāng)前查詢?cè)~在分類資源庫(kù)中確定出其分類。
[0009]預(yù)先在分類資源庫(kù)中存儲(chǔ)查詢?cè)~信息的方法包括:從搜索日志中選取查詢?cè)~,采用分類器為選取的各查詢?cè)~設(shè)置置信度和分類,將查詢?cè)~、查詢?cè)~的置信度和分類存儲(chǔ)到分類資源庫(kù)。搜索日志中記錄了各次搜索數(shù)據(jù),每次搜索數(shù)據(jù)包括查詢?cè)~及搜索得到的網(wǎng)頁(yè)條目;分類器根據(jù)搜索數(shù)據(jù)進(jìn)行學(xué)習(xí),得到各查詢?cè)~的置信度和分類,其中,置信度為相應(yīng)分類的可信程度。
[0010]現(xiàn)有方案在分類資源庫(kù)中確定出與當(dāng)前查詢?cè)~對(duì)應(yīng)的分類,存在以下缺陷:由于用戶通過(guò)客戶端不斷輸入新的查詢?cè)~,即分類資源庫(kù)中沒(méi)有的查詢?cè)~,為了保證能匹配到新的查詢?cè)~,需要不斷進(jìn)行學(xué)習(xí),以在分類資源庫(kù)中增加查詢?cè)~及該查詢?cè)~的分類,這導(dǎo)致資源挖掘的代價(jià)比較大;并且,用戶輸入的查詢?cè)~千變?nèi)f化,采用現(xiàn)有方案存儲(chǔ)到分類資源庫(kù)的查詢?cè)~覆蓋率低,很難構(gòu)建一個(gè)完備的分類資源庫(kù),以實(shí)現(xiàn)對(duì)用戶輸入的任何查詢?cè)~都可以進(jìn)行分類。
[0011]如果能基于已有分類資源庫(kù)實(shí)現(xiàn)對(duì)新的查詢?cè)~進(jìn)行分類,將克服上述缺陷,但目前還沒(méi)有這方面的技術(shù)。
【發(fā)明內(nèi)容】
[0012]本發(fā)明提供了一種對(duì)查詢?cè)~分類的方法,該方法能夠?qū)崿F(xiàn)基于已有分類資源庫(kù)對(duì)新的查詢?cè)~進(jìn)行分類,從而降低分類資源的挖掘成本、提高搜索結(jié)果的排序效率。
[0013]本發(fā)明提供了一種對(duì)查詢?cè)~分類的裝置,該裝置能夠?qū)崿F(xiàn)基于已有分類資源庫(kù)對(duì)新的查詢?cè)~進(jìn)行分類,從而降低分類資源的挖掘成本、提高搜索結(jié)果的排序效率。
[0014]—種對(duì)查詢?cè)~分類的方法,該方法包括:
[0015]確認(rèn)分類資源庫(kù)中沒(méi)有存儲(chǔ)當(dāng)前查詢?cè)~,對(duì)當(dāng)前查詢?cè)~進(jìn)行劃分,得到分詞結(jié)果,分詞結(jié)果包含至少一個(gè)分詞;
[0016]根據(jù)當(dāng)前查詢?cè)~的分詞結(jié)果,從分類資源庫(kù)中確定出至少包含一個(gè)分詞的建庫(kù)查詢?cè)~作為相似查詢?cè)~,并將該建庫(kù)查詢?cè)~的置信度作為相似查詢?cè)~的置信度,該建庫(kù)查詢?cè)~的分類作為該相似查詢?cè)~的分類;
[0017]計(jì)算出當(dāng)前查詢?cè)~與相似查詢?cè)~之間的相似度,由所述相似度和相似查詢?cè)~的置信度計(jì)算出當(dāng)前查詢?cè)~的置信度,將相似查詢?cè)~的分類作為當(dāng)前查詢?cè)~的分類,在分類資源庫(kù)中存儲(chǔ)當(dāng)前查詢?cè)~、當(dāng)前查詢?cè)~的置信度和當(dāng)前查詢?cè)~的分類。
[0018]一種對(duì)查詢?cè)~分類的裝置,該裝置包括判斷單元、分詞器、索引單元、計(jì)算及存儲(chǔ)單元;
[0019]所述判斷單元,用于確認(rèn)分類資源庫(kù)中沒(méi)有存儲(chǔ)當(dāng)前查詢?cè)~,向所述分詞器發(fā)送啟動(dòng)指令;
[0020]所述分詞器,用于接收啟動(dòng)指令,對(duì)當(dāng)前查詢?cè)~進(jìn)行劃分,得到分詞結(jié)果,傳送給索引單元,分詞結(jié)果包含至少一個(gè)分詞;
[0021]所述索引單元,用于根據(jù)當(dāng)前查詢?cè)~的分詞結(jié)果,從分類資源庫(kù)中確定出至少包含一個(gè)分詞的建庫(kù)查詢?cè)~作為相似查詢?cè)~,并將該建庫(kù)查詢?cè)~的置信度作為相似查詢?cè)~的置信度,該建庫(kù)查詢?cè)~的分類作為該相似查詢?cè)~的分類,將相似查詢?cè)~傳送給計(jì)算及存儲(chǔ)單元;
[0022]所述計(jì)算及存儲(chǔ)單元,用于計(jì)算出當(dāng)前查詢?cè)~與相似查詢?cè)~之間的相似度,由所述相似度和相似查詢?cè)~的置信度計(jì)算出當(dāng)前查詢?cè)~的置信度,將相似查詢?cè)~的分類作為當(dāng)前查詢?cè)~的分類,在分類資源庫(kù)中存儲(chǔ)當(dāng)前查詢?cè)~、當(dāng)前查詢?cè)~的置信度和當(dāng)前查詢?cè)~的分類。
[0023]從上述方案可以看出,本發(fā)明中,如果確認(rèn)分類資源庫(kù)中沒(méi)有存儲(chǔ)當(dāng)前查詢?cè)~,也就是當(dāng)前查詢?cè)~為新的查詢?cè)~,則對(duì)當(dāng)前查詢?cè)~進(jìn)行劃分,從分類資源庫(kù)中確定出至少包含一個(gè)分詞的建庫(kù)查詢?cè)~作為相似查詢?cè)~,基于相似查詢?cè)~計(jì)算出當(dāng)前查詢?cè)~的置信度,并將相似查詢?cè)~的分類作為當(dāng)前查詢?cè)~的分類。從而,實(shí)現(xiàn)了基于已有分類資源庫(kù)對(duì)新的查詢?cè)~進(jìn)行分類,減少了資源挖掘的代價(jià),并且,即使用戶輸入的查詢?cè)~千變?nèi)f化,也能完成對(duì)用戶輸入的任意查詢?cè)~的分類。
【專利附圖】
【附圖說(shuō)明】
[0024]圖1為由查詢?cè)~“發(fā)明”搜索出的網(wǎng)頁(yè)條目;
[0025]圖2為本發(fā)明對(duì)查詢?cè)~分類的方法示意性流程圖;
[0026]圖3為本發(fā)明預(yù)先建立分類資源庫(kù)的方法示意性流程圖;
[0027]圖4為本發(fā)明對(duì)查詢?cè)~分類的裝置結(jié)構(gòu)示意圖?!揪唧w實(shí)施方式】
[0028]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下面結(jié)合實(shí)施例和附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。
[0029]本發(fā)明中,若當(dāng)前查詢?cè)~為新的查詢?cè)~時(shí),從分類資源庫(kù)中確定出至少包含一個(gè)分詞的建庫(kù)查詢?cè)~作為相似查詢?cè)~,基于相似查詢?cè)~計(jì)算出當(dāng)前查詢?cè)~的置信度,并將相似查詢?cè)~的分類作為當(dāng)前查詢?cè)~的分類。其中,相似查詢?cè)~即為在分類資源庫(kù)中與當(dāng)前查詢?cè)~相似的查詢?cè)~。參見(jiàn)圖2,為本發(fā)明對(duì)查詢?cè)~分類的方法示意性流程圖,其包括以下步驟:
[0030]步驟201,確認(rèn)分類資源庫(kù)中沒(méi)有存儲(chǔ)當(dāng)前查詢?cè)~。
[0031]判斷分類資源庫(kù)中是否存儲(chǔ)有當(dāng)前查詢?cè)~,如果有,則將對(duì)應(yīng)的分類作為當(dāng)前查詢?cè)~的分類,如果沒(méi)有則執(zhí)行步驟202,則確認(rèn)分類資源庫(kù)中沒(méi)有存儲(chǔ)當(dāng)前查詢?cè)~,采用本發(fā)明方案對(duì)當(dāng)前查詢?cè)~進(jìn)行分類。
[0032]步驟202,對(duì)當(dāng)前查詢?cè)~進(jìn)行劃分,得到分詞結(jié)果,分詞結(jié)果包含至少一個(gè)分詞。
[0033]將當(dāng)前查詢?cè)~劃分為一個(gè)個(gè)獨(dú)立的分詞,具體地,可采用分詞器實(shí)現(xiàn)劃分。例如,將“天龍八部電視劇”劃分為“天龍八部”和“電視劇”兩個(gè)分詞。
[0034]步驟203,根據(jù)當(dāng)前查詢?cè)~的分詞結(jié)果,從分類資源庫(kù)中確定出至少包含一個(gè)分詞的建庫(kù)查詢?cè)~作為相似查詢?cè)~,并將該建庫(kù)查詢?cè)~的置信度作為相似查詢?cè)~的置信度,該建庫(kù)查詢?cè)~的分類作為該相似查詢?cè)~的分類。
[0035]同樣以在客戶端中輸入關(guān)鍵詞“天龍八部電視劇”進(jìn)行搜索的例子進(jìn)行說(shuō)明,將分類資源庫(kù)中包含“天龍八部”的查詢?cè)~、包含“電視劇”的查詢?cè)~,以及同時(shí)包含“天龍八部”和“電視劇”的查詢?cè)~,都確定為當(dāng)前查詢?cè)~的相似查詢?cè)~。
[0036]步驟204,計(jì)算出當(dāng)前查詢?cè)~與相似查詢?cè)~之間的相似度,由所述相似度和相似查詢?cè)~的置信度計(jì)算出當(dāng)前查詢?cè)~的置信度,將相似查詢?cè)~的分類作為當(dāng)前查詢?cè)~的分類,在分類資源庫(kù)中存儲(chǔ)當(dāng)前查詢?cè)~、當(dāng)前查詢?cè)~的置信度和當(dāng)前查詢?cè)~的分類。
[0037]具體地,可由兩個(gè)查詢?cè)~中相同字的個(gè)數(shù)、所占比例等計(jì)算相似度。如:兩個(gè)查詢?cè)~中的相同字的個(gè)數(shù)越多,則相似度越高;查詢?cè)~中相同字占總字?jǐn)?shù)的比例越高,則相似度越聞。
[0038]分類資源庫(kù)中還對(duì)應(yīng)建庫(kù)查詢?cè)~存儲(chǔ)了其置信度,從分類資源庫(kù)中讀取相似查詢?cè)~的置信度;由相似度和相似查詢?cè)~的置信度計(jì)算出當(dāng)前查詢?cè)~的置信度,根據(jù)需要,可采用多種方法計(jì)算當(dāng)前查詢?cè)~的置信度,例如:用相似度乘以相似查詢?cè)~的置信度,將所得的乘積作為當(dāng)前查詢?cè)~出的置信度,假設(shè)當(dāng)前查詢?cè)~A和相似查詢?cè)~B的相似度為80%,B的置信度為90%,則A的置信度為80% x90% ;或者,用相似度加上相似查詢?cè)~的置信度,將所得的相加結(jié)果作為當(dāng)前查詢?cè)~出的置信度;等等。
[0039]如果步驟203中確定出的相似查詢?cè)~為一個(gè),本步驟計(jì)算出的當(dāng)前查詢?cè)~的置信度為一個(gè),則基于該相似查詢?cè)~計(jì)算出當(dāng)前查詢?cè)~的置信度,將該相似查詢?cè)~的分類作為當(dāng)前查詢?cè)~的分類。
[0040]如果步驟203中確定出的相似查詢?cè)~為兩個(gè)以上,本步驟分別基于各個(gè)相似查詢?cè)~計(jì)算出當(dāng)前查詢?cè)~的置信度,得到的置信度為兩個(gè)以上,則將數(shù)值最大的置信度作為當(dāng)前查詢?cè)~的置信度,將最大置信度的查詢?cè)~的分類作為當(dāng)前查詢?cè)~的分類。
[0041]除選擇數(shù)值最大的置信度作為當(dāng)前查詢?cè)~的置信度以外,還可以從計(jì)算得到的兩個(gè)以上置信度中選取一個(gè)作為當(dāng)前查詢?cè)~的置信度,將選取的置信度對(duì)應(yīng)查詢?cè)~的分類作為當(dāng)前查詢?cè)~的分類。這種情況下,為了保證最后確定的當(dāng)前查詢?cè)~的分類有效,還可進(jìn)行有效性判斷,具體地,所述將選取的置信度對(duì)應(yīng)查詢?cè)~的分類作為當(dāng)前查詢?cè)~的分類之前,還包括:判斷選取的置信度是否大于設(shè)定閾值,如果是,則將選取的置信度對(duì)應(yīng)查詢?cè)~的分類作為當(dāng)前查詢?cè)~的分類;否則,排除選取的該置信度,從其他置信度中再選取一個(gè)置信度,繼續(xù)有效性判斷,直到選取的置信度大于設(shè)定閾值為止;如果最后仍未找到合適的置信度,則所有置信度中的最大值作為當(dāng)前查詢?cè)~的置信度,將最大置信度的查詢?cè)~的分類作為當(dāng)前查詢?cè)~的分類。設(shè)定閾值可根據(jù)需要設(shè)置,例如為40%。
[0042]本發(fā)明基于預(yù)先建立的分類資源庫(kù)進(jìn)行查詢?cè)~分類,分類資源庫(kù)中存儲(chǔ)了查詢?cè)~信息,包括查詢?cè)~、查詢?cè)~的置信度和分類。預(yù)先在分類資源庫(kù)中存儲(chǔ)查詢?cè)~信息可采用以下方式實(shí)現(xiàn),包括:從搜索日志中選取建庫(kù)查詢?cè)~;采用分類器為選取的各建庫(kù)查詢?cè)~設(shè)置置信度和分類;排除重復(fù)的建庫(kù)查詢?cè)~,將剩余的建庫(kù)查詢?cè)~、建庫(kù)查詢?cè)~的置信度和建庫(kù)查詢?cè)~的分類存儲(chǔ)到分類資源庫(kù)。參見(jiàn)圖3,為本發(fā)明預(yù)先建立分類資源庫(kù)的方法示意性流程圖,其包括以下步驟:
[0043]步驟301,從搜索日志中選取建庫(kù)查詢?cè)~。
[0044]搜索日志中記錄了各次搜索數(shù)據(jù),每次搜索數(shù)據(jù)包括查詢?cè)~及搜索得到的網(wǎng)頁(yè)條目。從搜索日志中選取建庫(kù)查詢?cè)~,得到待分類查詢?cè)~列表;待分類查詢?cè)~列表為倒排索引文件,包含從搜索日志中選取的建庫(kù)查詢?cè)~以及相應(yīng)搜索數(shù)據(jù)在搜索日志中的記錄位置;進(jìn)一步地,待分類查詢?cè)~列表中的建庫(kù)查詢?cè)~可用其標(biāo)識(shí)(ID)表示,每個(gè)建庫(kù)查詢?cè)~唯一對(duì)應(yīng)一個(gè)ID ;這樣,在需要時(shí),由該建庫(kù)查詢?cè)~的記錄位置便可在搜索日志中找到相應(yīng)的搜索數(shù)據(jù)。
[0045]步驟302,采用分類器為選取的各建庫(kù)查詢?cè)~設(shè)置置信度和分類。
[0046]根據(jù)分類器的特點(diǎn),可根據(jù)搜索數(shù)據(jù)進(jìn)行學(xué)習(xí),得到各建庫(kù)查詢?cè)~的置信度和分類。本步驟中,由分類器為待分類查詢?cè)~列表中的各建庫(kù)查詢?cè)~設(shè)置分類和置信度,在待分類查詢?cè)~列表中對(duì)應(yīng)各建庫(kù)查詢?cè)~記錄分類和置信度,得到已分類查詢?cè)~列表。
[0047]本步驟中,可采用一個(gè)分類器為同一建庫(kù)查詢?cè)~設(shè)置置信度和分類;也可采用兩個(gè)分類器為同一建庫(kù)查詢?cè)~設(shè)置置信度和分類,具體地:采用至少兩個(gè)分類器為同一建庫(kù)查詢?cè)~設(shè)置分類,將所占比例最高的分類作為相應(yīng)建庫(kù)查詢?cè)~的分類,并將所述比例最高的分類對(duì)應(yīng)的置信度作為相應(yīng)建庫(kù)查詢?cè)~的置信度。例如,采用五個(gè)分類器為建庫(kù)查詢?cè)~“金山詞霸”分類,其中四個(gè)分類器學(xué)習(xí)后的分類都為“軟件”、置信度為95%,則將“金山詞霸”的分類確定為“軟件”、置信度確定為95% ;如果所述四個(gè)分類器學(xué)習(xí)得到的置信度不同,可采用多種方式確定“金山詞霸”的置信度,例如:從中選擇一個(gè)作為“金山詞霸”的置信度,或者,對(duì)四個(gè)置信度求平均,將得到的平均值作為“金山詞霸”的置信度。
[0048]采用多個(gè)分類器為同一建庫(kù)查詢?cè)~設(shè)置置信度和分類,最終該建庫(kù)查詢?cè)~的類別與置信度由這多個(gè)分類器的結(jié)果綜合決定,對(duì)結(jié)果的質(zhì)量要求越高,投票的多數(shù)性概率就要求越高。
[0049]步驟303,排除重復(fù)的建庫(kù)查詢?cè)~,將剩余的建庫(kù)查詢?cè)~、建庫(kù)查詢?cè)~的置信度和建庫(kù)查詢?cè)~的分類存儲(chǔ)到分類資源庫(kù)。
[0050]由于步驟301中選取的建庫(kù)查詢?cè)~可能重復(fù),本步驟中,排除已分類建庫(kù)查詢?cè)~列表中重復(fù)的建庫(kù)查詢?cè)~,將剩余的建庫(kù)查詢?cè)~、建庫(kù)查詢?cè)~的置信度和建庫(kù)查詢?cè)~的分類存儲(chǔ)到分類資源庫(kù)。
[0051]將剩下的建庫(kù)查詢?cè)~、建庫(kù)查詢?cè)~的置信度和建庫(kù)查詢?cè)~的分類存儲(chǔ)到分類資源庫(kù)時(shí),可無(wú)規(guī)則放置,也可按照置信度由高至低的順序逐層放置。若按照置信度由高至低的順序逐層放置,圖2流程步驟203所述從分類資源庫(kù)中確定出至少包含一個(gè)分詞的建庫(kù)查詢?cè)~作為相似查詢?cè)~可具體包括:從分類資源庫(kù)的最高層開(kāi)始,判斷是否存在至少包含一個(gè)分詞的建庫(kù)查詢?cè)~,如果是,則從最高層確定出至少包含一個(gè)分詞的建庫(kù)查詢?cè)~作為相似查詢?cè)~,否則,判斷低一層中是否存在至少包含一個(gè)分詞的建庫(kù)查詢?cè)~,直到確定出相似查詢?cè)~為止。
[0052]參見(jiàn)圖4,為本發(fā)明對(duì)查詢?cè)~分類的裝置結(jié)構(gòu)示意圖,判斷單元、分詞器、索引單元、計(jì)算及存儲(chǔ)單元;
[0053]所述判斷單元,用于確認(rèn)分類資源庫(kù)中沒(méi)有存儲(chǔ)當(dāng)前查詢?cè)~,向所述分詞器發(fā)送啟動(dòng)指令;
[0054]所述分詞器,用于接收啟動(dòng)指令,對(duì)當(dāng)前查詢?cè)~進(jìn)行劃分,得到分詞結(jié)果,傳送給索引單元,分詞結(jié)果包含至少一個(gè)分詞;
[0055]所述索引單元,用于根據(jù)當(dāng)前查詢?cè)~的分詞結(jié)果,從分類資源庫(kù)中確定出至少包含一個(gè)分詞的建庫(kù)查詢?cè)~作為相似查詢?cè)~,并將該建庫(kù)查詢?cè)~的置信度作為相似查詢?cè)~的置信度,該建庫(kù)查詢?cè)~的分類作為該相似查詢?cè)~的分類,將相似查詢?cè)~傳送給計(jì)算及存儲(chǔ)單元;
[0056]所述計(jì)算及存儲(chǔ)單元,用于計(jì)算出當(dāng)前查詢?cè)~與相似查詢?cè)~之間的相似度,由所述相似度和相似查詢?cè)~的置信度計(jì)算出當(dāng)前查詢?cè)~的置信度,將相似查詢?cè)~的分類作為當(dāng)前查詢?cè)~的分類,在分類資源庫(kù)中存儲(chǔ)當(dāng)前查詢?cè)~、當(dāng)前查詢?cè)~的置信度和當(dāng)前查詢?cè)~的分類。
[0057]可選地,所述索引單元確定出的相似查詢?cè)~為兩個(gè)以上,所述計(jì)算及存儲(chǔ)單元計(jì)算出當(dāng)前查詢?cè)~的置信度為兩個(gè)以上,將數(shù)值最大的置信度作為當(dāng)前查詢?cè)~的置信度,將最大置信度的查詢?cè)~的分類作為當(dāng)前查詢?cè)~的分類。
[0058]可選地,所述計(jì)算及存儲(chǔ)單元包括計(jì)算子單元,用于計(jì)算出當(dāng)前查詢?cè)~與相似查詢?cè)~之間的相似度,用所述相似度乘以相似查詢?cè)~的置信度,將所得的乘積作為當(dāng)前查詢?cè)~出的置信度。
[0059]可選地,該裝置還包括分類資源選取單元、分類資源設(shè)置單元和分類資源存儲(chǔ)單元;
[0060]所述分類資源選取單元,用于從搜索日志中選取建庫(kù)查詢?cè)~;
[0061]所述分類資源設(shè)置單元,用于采用分類器為選取的各建庫(kù)查詢?cè)~設(shè)置置信度和分類;
[0062]所述分類資源存儲(chǔ)單元,用于排除重復(fù)的建庫(kù)查詢?cè)~,將剩余的建庫(kù)查詢?cè)~、建庫(kù)查詢?cè)~的置信度和建庫(kù)查詢?cè)~的分類存儲(chǔ)到分類資源庫(kù)。
[0063]本發(fā)明中,如果確認(rèn)當(dāng)前查詢?cè)~為新的查詢?cè)~后,對(duì)當(dāng)前查詢?cè)~進(jìn)行劃分,從分類資源庫(kù)中確定出至少包含一個(gè)分詞的建庫(kù)查詢?cè)~作為相似查詢?cè)~,基于相似查詢?cè)~計(jì)算出當(dāng)前查詢?cè)~的置信度,并將相似查詢?cè)~的分類作為當(dāng)前查詢?cè)~的分類。從而,實(shí)現(xiàn)了基于已有分類資源庫(kù)對(duì)新的查詢?cè)~進(jìn)行分類,減少了資源挖掘的代價(jià),并且,即使用戶輸入的查詢?cè)~千變?nèi)f化,也能完成對(duì)用戶輸入的任意查詢?cè)~的分類,提高查詢?cè)~分類的覆蓋率。
[0064]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
【權(quán)利要求】
1.一種對(duì)查詢?cè)~分類的方法,其特征在于,該方法包括: 確認(rèn)分類資源庫(kù)中沒(méi)有存儲(chǔ)當(dāng)前查詢?cè)~,對(duì)當(dāng)前查詢?cè)~進(jìn)行劃分,得到分詞結(jié)果,分詞結(jié)果包含至少一個(gè)分詞; 根據(jù)當(dāng)前查詢?cè)~的分詞結(jié)果,從分類資源庫(kù)中確定出至少包含一個(gè)分詞的建庫(kù)查詢?cè)~作為相似查詢?cè)~,并將該建庫(kù)查詢?cè)~的置信度作為相似查詢?cè)~的置信度,該建庫(kù)查詢?cè)~的分類作為該相似查詢?cè)~的分類; 計(jì)算出當(dāng)前查詢?cè)~與相似查詢?cè)~之間的相似度,由所述相似度和相似查詢?cè)~的置信度計(jì)算出當(dāng)前查詢?cè)~的置信度,將相似查詢?cè)~的分類作為當(dāng)前查詢?cè)~的分類,在分類資源庫(kù)中存儲(chǔ)當(dāng)前查詢?cè)~、當(dāng)前查詢?cè)~的置信度和當(dāng)前查詢?cè)~的分類。
2.如權(quán)利要求1所述的方法,其特征在于,確定出的相似查詢?cè)~為兩個(gè)以上,計(jì)算出當(dāng)前查詢?cè)~的置信度為兩個(gè)以上,將數(shù)值最大的置信度作為當(dāng)前查詢?cè)~的置信度,將最大置信度的查詢?cè)~的分類作為當(dāng)前查詢?cè)~的分類。
3.如權(quán)利要求1所述的方法,其特征在于,所述由所述相似度和相似查詢?cè)~的置信度計(jì)算出當(dāng)前查詢?cè)~的置信度包括: 用所述相似度乘以相似查詢?cè)~的置信度,將所得的乘積作為當(dāng)前查詢?cè)~出的置信度。
4.如權(quán)利要求1所述的方法,其特征在于,該方法還預(yù)先包括: 從搜索日志中選取建庫(kù)查詢?cè)~; 采用分類器為選取的各建庫(kù)查詢?cè)~設(shè)置置信度和分類; 排除重復(fù)的建庫(kù)查詢?cè)~,將剩余的建庫(kù)查詢?cè)~、建庫(kù)查詢?cè)~的置信度和建庫(kù)查詢?cè)~的分類存儲(chǔ)到分類資源庫(kù)。
5.如權(quán)利要求4所述的方法,其特征在于,所述采用分類器為選取的各建庫(kù)查詢?cè)~設(shè)置置信度和分類包括: 采用至少兩個(gè)分類器為同一建庫(kù)查詢?cè)~設(shè)置分類,將所占比例最高的分類作為相應(yīng)建庫(kù)查詢?cè)~的分類,并將所述比例最高的分類對(duì)應(yīng)的置信度作為相應(yīng)建庫(kù)查詢?cè)~的置信度。
6.如權(quán)利要求4所述的方法,其特征在于,將剩下的建庫(kù)查詢?cè)~、建庫(kù)查詢?cè)~的置信度和建庫(kù)查詢?cè)~的分類存儲(chǔ)到分類資源庫(kù)時(shí),按照置信度由高至低的順序逐層放置; 所述從分類資源庫(kù)中確定出至少包含一個(gè)分詞的建庫(kù)查詢?cè)~作為相似查詢?cè)~包括:從分類資源庫(kù)的最高層開(kāi)始,判斷是否存在至少包含一個(gè)分詞的建庫(kù)查詢?cè)~,如果是,則從最高層確定出至少包含一個(gè)分詞的建庫(kù)查詢?cè)~作為相似查詢?cè)~,否則,判斷低一層中是否存在至少包含一個(gè)分詞的建庫(kù)查詢?cè)~,直到確定出相似查詢?cè)~為止。
7.—種對(duì)查詢?cè)~分類的裝置,其特征在于,該裝置包括判斷單元、分詞器、索引單元、計(jì)算及存儲(chǔ)單元; 所述判斷單元,用于確認(rèn)分類資源庫(kù)中沒(méi)有存儲(chǔ)當(dāng)前查詢?cè)~,向所述分詞器發(fā)送啟動(dòng)指令; 所述分詞器,用于接收啟動(dòng)指令,對(duì)當(dāng)前查詢?cè)~進(jìn)行劃分,得到分詞結(jié)果,傳送給索引單元,分詞結(jié)果包含至少一個(gè)分詞; 所述索引單元,用于根據(jù)當(dāng)前查詢?cè)~的分詞結(jié)果,從分類資源庫(kù)中確定出至少包含一個(gè)分詞的建庫(kù)查詢?cè)~作為相似查詢?cè)~,并將該建庫(kù)查詢?cè)~的置信度作為相似查詢?cè)~的置信度,該建庫(kù)查詢?cè)~的分類作為該相似查詢?cè)~的分類,將相似查詢?cè)~傳送給計(jì)算及存儲(chǔ)單元; 所述計(jì)算及存儲(chǔ)單元,用于計(jì)算出當(dāng)前查詢?cè)~與相似查詢?cè)~之間的相似度,由所述相似度和相似查詢?cè)~的置信度計(jì)算出當(dāng)前查詢?cè)~的置信度,將相似查詢?cè)~的分類作為當(dāng)前查詢?cè)~的分類,在分類資源庫(kù)中存儲(chǔ)當(dāng)前查詢?cè)~、當(dāng)前查詢?cè)~的置信度和當(dāng)前查詢?cè)~的分類。
8.如權(quán)利要求7所述的裝置,其特征在于,所述索引單元確定出的相似查詢?cè)~為兩個(gè)以上,所述計(jì)算及存儲(chǔ)單元計(jì)算出當(dāng)前查詢?cè)~的置信度為兩個(gè)以上,將數(shù)值最大的置信度作為當(dāng)前查詢?cè)~的置信度,將最大置信度的查詢?cè)~的分類作為當(dāng)前查詢?cè)~的分類。
9.如權(quán)利要求7所述的裝置,其特征在于,所述計(jì)算及存儲(chǔ)單元包括計(jì)算子單元,用于計(jì)算出當(dāng)前查詢?cè)~與相似查詢?cè)~之間的相似度,用所述相似度乘以相似查詢?cè)~的置信度,將所得的乘積作為當(dāng)前查詢?cè)~出的置信度。
10.如權(quán)利要求7、8或9所述的裝置,其特征在于,該裝置還包括分類資源選取單元、分類資源設(shè)置單元和分類資源存儲(chǔ)單元; 所述分類資源選取單元,用于從搜索日志中選取建庫(kù)查詢?cè)~; 所述分類資源設(shè)置單元,用于采用分類器為選取的各建庫(kù)查詢?cè)~設(shè)置置信度和分類; 所述分類資源存儲(chǔ)單元,用于 排除重復(fù)的建庫(kù)查詢?cè)~,將剩余的建庫(kù)查詢?cè)~、建庫(kù)查詢?cè)~的置信度和建庫(kù)查詢?cè)~的分類存儲(chǔ)到分類資源庫(kù)。
【文檔編號(hào)】G06F17/30GK103455491SQ201210171056
【公開(kāi)日】2013年12月18日 申請(qǐng)日期:2012年5月29日 優(yōu)先權(quán)日:2012年5月29日
【發(fā)明者】羅景 申請(qǐng)人:深圳市世紀(jì)光速信息技術(shù)有限公司