一種生成需求模板的方法、需求識(shí)別的方法及其裝置【技術(shù)領(lǐng)域】本發(fā)明涉及自然語(yǔ)言處理技術(shù),特別涉及一種生成需求模板的方法,需求識(shí)別的方法及其裝置。
背景技術(shù):隨著搜索引擎的廣泛應(yīng)用,搜索引擎技術(shù)得到了很大發(fā)展,如今的搜索引擎已經(jīng)不僅僅滿足于返回與用戶查詢相匹配的內(nèi)容,而是試圖返回與用戶查詢需求相關(guān)的內(nèi)容。要返回與用戶查詢需求相關(guān)的內(nèi)容,首先需要理解用戶在搜索時(shí)的需求,也就是需要對(duì)用戶需求進(jìn)行識(shí)別,在現(xiàn)有技術(shù)中,對(duì)用戶需求進(jìn)行識(shí)別通常采用基于規(guī)則的方式實(shí)現(xiàn)。例如開(kāi)發(fā)人員通過(guò)觀察發(fā)現(xiàn),用戶的查詢中以“mp3”結(jié)尾的查詢一般都是音樂(lè)類的需求,開(kāi)發(fā)人員就將“mp3結(jié)尾的需求為音樂(lè)需求”這條規(guī)則寫(xiě)入到需求識(shí)別程序中。這種方法存在下面兩個(gè)問(wèn)題:首先,規(guī)則的建立依靠人的觀察,因此需要耗費(fèi)大量的人力物力,而且也很難建立全面覆蓋各種需求的規(guī)則,從而導(dǎo)致應(yīng)用程序難以識(shí)別用戶的各種需求;其次,采用這種方法識(shí)別用戶需求,由于規(guī)則是嵌入到線上需求識(shí)別程序代碼中的,因此會(huì)導(dǎo)致需求識(shí)別程序的可擴(kuò)展性和可維護(hù)性都大大降低。
技術(shù)實(shí)現(xiàn)要素:本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種生成需求模板的方法、需求識(shí)別的方法及其裝置,以解決現(xiàn)有技術(shù)中,對(duì)用戶需求進(jìn)行識(shí)別的程序難以全面識(shí)別用戶的各種需求,并且可擴(kuò)展性和可維護(hù)性都較差的缺陷。本發(fā)明為解決技術(shù)問(wèn)題而采用的技術(shù)方案是提供一種生成需求模板的方法,包括:從搜索日志中獲取需求類型的種子查詢;將所述需求類型的種子查詢泛化為所述需求類型的候選模板;從所述需求類型的候選模板中選取所述需求類型的最終模板。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,獲取需求類型的種子查詢的步驟包括:獲取預(yù)設(shè)的所述需求類型的初始種子查詢;對(duì)搜索日志中記錄的所有查詢按照層次聚類的方法進(jìn)行聚類;確定一個(gè)聚類層次,使得在該層次下不少于預(yù)定比例的初始種子查詢被聚到同一個(gè)類X中且在該層次下類X包含的查詢總數(shù)最小,將該層次下的類X包含的所有查詢作為所述需求類型的種子查詢。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,獲取所述需求類型的種子查詢的步驟包括:獲取預(yù)設(shè)的所述需求類型的初始種子查詢;使用迭代學(xué)習(xí)器從搜索日志中學(xué)習(xí)與所述初始種子查詢之間的相似度滿足預(yù)設(shè)要求的查詢,并將學(xué)習(xí)到的查詢與所述初始種子查詢一并作為所述需求類型的種子查詢。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,獲取需求類型的種子查詢的步驟包括:從搜索日志中導(dǎo)致所述需求類型的頁(yè)面被點(diǎn)擊的查詢中,選取查詢次數(shù)最高的N1個(gè)查詢作為所述需求類型的種子查詢,所述N1為預(yù)設(shè)的正整數(shù);或者,從所述需求類型的垂直搜索的搜索日志中提取所述需求類型的種子查詢。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,將所述需求類型的種子查詢泛化為所述需求類型的候選模板的步驟包括:將所述需求類型的種子查詢中與所述需求類型所對(duì)應(yīng)的預(yù)設(shè)實(shí)體詞匹配的部分替換成所述預(yù)設(shè)實(shí)體詞所屬類別的通配符;或者,將所述需求類型的種子查詢中被類別識(shí)別函數(shù)識(shí)別出來(lái)的部分替換成所述類別識(shí)別函數(shù)所對(duì)應(yīng)類別的通配符,其中所述類別識(shí)別函數(shù)是根據(jù)一個(gè)類別的屬性定義的用于識(shí)別該類別的函數(shù)。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,將所述需求類型的種子查詢泛化為所述需求類型的模板的步驟進(jìn)一步包括:將所述需求類型的種子查詢中對(duì)所述需求類型的貢獻(xiàn)度低于預(yù)設(shè)貢獻(xiàn)度要求的詞語(yǔ)替換為用于限制詞語(yǔ)長(zhǎng)度的長(zhǎng)度通配符。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,從所述需求類型的候選模板中選取所述需求類型的最終模板時(shí),依據(jù)所述需求類型的候選模板的以下特征中的至少一個(gè)進(jìn)行:點(diǎn)擊特征,用于表征所述需求類型的候選模板覆蓋的查詢能夠引起所述需求類型的頁(yè)面被點(diǎn)擊的概率;相似度特征,用于表征所述需求類型的一個(gè)候選模板與所述需求類型的所有候選模板的共性程度;匹配能力特征,用于表征所述需求類型的候選模板匹配所述需求類型的查詢的能力。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述需求類型的候選模板W的點(diǎn)擊特征采用下列方式計(jì)算:其中Click(W)表示W(wǎng)的點(diǎn)擊特征,表示W(wǎng)在搜索日志中覆蓋的所有查詢引起所述需求類型頁(yè)面被點(diǎn)擊的次數(shù),表示W(wǎng)在搜索日志中覆蓋的所有查詢引起所有頁(yè)面被點(diǎn)擊的次數(shù)。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述需求類型的候選模板W的相似度特征采用下列方式計(jì)算:其中,Similarity(W)表示W(wǎng)的相似度特征,表示W(wǎng)與所述需求類型的所有其他候選模板之間的相似度之和。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述需求類型的候選模板W的匹配能力特征采用下列方式計(jì)算:其中,Match(W)表示W(wǎng)的匹配能力特征,表示W(wǎng)在所述需求類型的查詢構(gòu)成的搜索日志中匹配到的查詢的數(shù)量,表示W(wǎng)在各種需求類型的查詢構(gòu)成的搜索日志中匹配到的查詢的數(shù)量。本發(fā)明還提供了一種需求識(shí)別的方法,包括:獲取用戶查詢;在前文所述生成需求模板的方法得到的最終模板中確定與所述用戶查詢相匹配的最終模板,并將與所述用戶查詢相匹配的最終模板所對(duì)應(yīng)的需求類型作為所述用戶查詢具有的需求。本發(fā)明還提供了一種生成需求模板的裝置,包括:種子獲取單元,用于從搜索日志中獲取需求類型的種子查詢;泛化單元,用于將所述需求類型的種子查詢泛化為所述需求類型的候選模板;選取單元,用于從所述需求類型的候選模板中選取所述需求類型的最終模板。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述種子獲取單元包括:第一選取單元,用于獲取預(yù)設(shè)的所述需求類型的初始種子查詢;聚類單元,用于對(duì)搜索日志中記錄的所有查詢按照層次聚類的方法進(jìn)行聚類;確定單元,用于確定一個(gè)聚類層次,使得在該層次下不少于預(yù)定比例的初始種子查詢被聚到同一個(gè)類X中且在該層次下類X包含的查詢總數(shù)最小,將該層次下的類X包含的所有查詢作為所述需求類型的種子查詢。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述種子獲取單元包括:第二選取單元,用于獲取預(yù)設(shè)的所述需求類型的的初始種子查詢;學(xué)習(xí)單元,用于使用迭代學(xué)習(xí)器從搜索日志中學(xué)習(xí)與所述初始種子查詢之間的相似度滿足預(yù)設(shè)要求的查詢,并將學(xué)習(xí)到的查詢與所述初始種子查詢一并作為所述需求類型的種子查詢。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述種子獲取單元在獲取所述需求類型的種子查詢時(shí),具體從搜索日志中導(dǎo)致所述需求類型的頁(yè)面被點(diǎn)擊的查詢中,選取查詢次數(shù)最高的N1個(gè)查詢作為所述需求類型的種子查詢,所述N1為預(yù)設(shè)的正整數(shù);或者,從所述需求類型的垂直搜索的搜索日志中提取所述需求類型的種子查詢。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述泛化單元在將所述需求類型的種子查詢泛化為所述需求類型的候選模板時(shí),具體將所述需求類型的種子查詢中與所述需求類型對(duì)應(yīng)的預(yù)設(shè)實(shí)體詞匹配的部分替換成所述預(yù)設(shè)實(shí)體詞所屬類別的通配符;或者,將所述需求類型的種子查詢中被類別識(shí)別函數(shù)識(shí)別出來(lái)的部分替換成所述類別識(shí)別函數(shù)所對(duì)應(yīng)類別的通配符,其中所述類別識(shí)別函數(shù)是根據(jù)一個(gè)類別的屬性定義的用于識(shí)別該類別的函數(shù)。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述泛化單元,還用于將所述需求類型的種子查詢中對(duì)所述需求類型的貢獻(xiàn)度低于預(yù)設(shè)貢獻(xiàn)度要求的詞語(yǔ)替換為用于限制詞語(yǔ)長(zhǎng)度的長(zhǎng)度通配符。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述選取單元從所述需求類型的候選模板中選取所述需求類型的最終模板時(shí),依據(jù)所述需求類型的候選模板的以下特征中的至少一個(gè)進(jìn)行:點(diǎn)擊特征,用于表征所述需求類型的候選模板覆蓋的查詢能夠引起所述需求類型的頁(yè)面被點(diǎn)擊的概率;相似度特征,用于表征所述需求類型的一個(gè)候選模板與所述需求類型的所有候選模板的共性程度;匹配能力特征,用于表征所述需求類型的候選模板匹配所述需求類型的查詢的能力。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述選取單元采用下列方式計(jì)算所述需求類型的候選模板W的點(diǎn)擊特征:其中Click(W)表示W(wǎng)的點(diǎn)擊特征,表示W(wǎng)在搜索日志中覆蓋的所有查詢引起所述需求類型頁(yè)面被點(diǎn)擊的次數(shù),表示W(wǎng)在搜索日志中覆蓋的所有查詢引起所有頁(yè)面被點(diǎn)擊的次數(shù)。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述選取單元采用下列方式計(jì)算所述需求類型的候選模板W的相似度特征:其中,Similarity(W)表示W(wǎng)的相似度特征,表示W(wǎng)與所述需求類型的所有其他候選模板之間的相似度之和。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述選取單元采用下列方式計(jì)算所述需求類型的候選模板W的匹配能力特征:其中,Match(W)表示W(wǎng)的匹配能力特征,表示W(wǎng)在所述需求類型的查詢構(gòu)成的搜索日志中匹配到的查詢的數(shù)量,表示W(wǎng)在各種需求類型的查詢構(gòu)成的搜索日志中匹配到的查詢的數(shù)量。本發(fā)明還提供了一種需求識(shí)別的裝置,包括:查詢獲取單元,用于獲取用戶查詢;匹配單元,用于在前文所述生成需求模板的裝置得到的最終模板中確定與所述用戶查詢相匹配的最終模板,并將與所述用戶查詢相匹配的最終模板所對(duì)應(yīng)的需求類型作為所述用戶查詢具有的需求。由以上技術(shù)方案可以看出,通過(guò)上述方式,無(wú)需開(kāi)發(fā)人員人工將識(shí)別規(guī)則寫(xiě)入需求識(shí)別程序中,而是由機(jī)器自動(dòng)地利用搜索日志中記錄的查詢生成需求模板來(lái)對(duì)用戶需求進(jìn)行識(shí)別。在線上程序中,當(dāng)獲取到用戶查詢后,利用線下生成的需求模板,能夠很好地判斷用戶的需求類型。在這種識(shí)別用戶需求的方式中,需求模板是自動(dòng)生成的,節(jié)約了人力物力,同時(shí),由于生成需求模板與需求識(shí)別實(shí)現(xiàn)了線下和線上的分離,使得需求識(shí)別程序的可擴(kuò)展性和可維護(hù)性都大大提高。【附圖說(shuō)明】圖1為本發(fā)明中生成需求模板的方法與需求識(shí)別的方法的實(shí)施例的流程示意圖;圖2為本發(fā)明中對(duì)搜索日志中的查詢進(jìn)行聚類的結(jié)構(gòu)示意圖;圖3為本發(fā)明中匹配樹(shù)的示意圖;圖4為本發(fā)明中生成需求模板的裝置與需求識(shí)別的裝置的實(shí)施例的結(jié)構(gòu)示意框圖;圖5為本發(fā)明中種子獲取單元的一個(gè)實(shí)施例的結(jié)構(gòu)示意框圖;圖6為本發(fā)明中種子獲取單元的又一個(gè)實(shí)施例的結(jié)構(gòu)示意框圖?!揪唧w實(shí)施方式】為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。請(qǐng)參考圖1,圖1為本發(fā)明中生成需求模板的方法與需求識(shí)別的方法的實(shí)施例的流程示意圖。如圖1所示,本實(shí)施例分為線下部分及線上部分,其中線下部分為生成需求模板的方法的實(shí)施例的流程示意圖,線上部分為需求識(shí)別的方法的實(shí)施例的流程示意圖。線下部分生成需求模板的方法包括:步驟S101:從搜索日志(querylog)中獲取需求類型的種子查詢。步驟S102:將相應(yīng)需求類型的種子查詢泛化為相應(yīng)需求類型的候選模板。步驟S103:從相應(yīng)需求類型的候選模板中選取相應(yīng)需求類型的最終模板。下面對(duì)上述步驟進(jìn)行具體說(shuō)明。步驟S101中,一種需求類型的種子查詢包括以各種方式表達(dá)的能夠反映這種需求類型的查詢。例如種子查詢“步步驚心主題曲”和“三寸天堂”,雖然表達(dá)方式不同,但是表達(dá)的需求是相同的,都是查詢同一首歌曲。獲取需求類型的種子查詢可以有多種方式,下面通過(guò)具體的實(shí)施例對(duì)獲取種子查詢的方式進(jìn)行介紹。獲取一種需求類型的種子查詢的實(shí)施例一:步驟S1011:獲取預(yù)設(shè)的該種需求類型的初始種子查詢,并對(duì)搜索日志中記錄的所有查詢按照層次聚類的方法進(jìn)行聚類。步驟S1012:確定一個(gè)聚類層次,使得在該層次下不少于預(yù)定比例的初始種子查詢被聚到同一個(gè)類X中且在該層次下類X包含的查詢總數(shù)最小,將該層次下的類X包含的所有查詢作為該種需求類型的種子查詢??梢岳斫?,其中的預(yù)定比例作為一個(gè)比例值,取值范圍應(yīng)該大于等于零且小于等于1,并且當(dāng)預(yù)定比例取值為1(即100%)時(shí),不少于預(yù)定比例的初始種子查詢實(shí)際上就是全部的初始種子查詢。初始種子查詢可通過(guò)人工選定有該種需求類型的查詢得到。本實(shí)施例可采用自底向上或自頂向下兩種方式進(jìn)行層次聚類。自底向上的層次聚類方法是:首先將每一個(gè)查詢作為一個(gè)類,然后通過(guò)迭代,不斷地合并最相似的兩類,直到將所有的查詢合并為一類;自頂向下的層次聚類方法是:首先將所有查詢看作一類,然后通過(guò)迭代,找出最不相似的查詢分裂出去成為兩個(gè)類,直至到每個(gè)查詢自成一類。在聚類中,獲知不同查詢之間的相似度,一種方式是通過(guò)計(jì)算與不同查詢對(duì)應(yīng)的特征詞向量之間的余弦相似度得到,其中與每個(gè)查詢對(duì)應(yīng)的特征詞,可從該查詢對(duì)應(yīng)的檢索結(jié)果中提取得到。此外,與各查詢對(duì)應(yīng)的用戶點(diǎn)擊數(shù)據(jù)也可以作為計(jì)算不同查詢之間相似度的特征。本發(fā)明對(duì)聚類中如何判斷不同查詢之間的相似度的方法不做限制,可采用本領(lǐng)域技術(shù)人員所知的任意方式進(jìn)行。下面通過(guò)一個(gè)具體實(shí)例說(shuō)明上述獲取一種需求類型的種子查詢的過(guò)程。假設(shè)音樂(lè)需求類型的初始種子查詢?yōu)椤安讲襟@心主題曲”、“三寸天堂mp3”和“愛(ài)我中華歌曲免費(fèi)試聽(tīng)”。搜索日志中的查詢有:1、步步驚心片尾曲,2、步步驚心主題曲,3、三寸天堂,4、嚴(yán)藝丹三寸天堂,5、三寸天堂mp3,6、好聽(tīng)的歌曲,7愛(ài)我中華歌曲免費(fèi)試聽(tīng),8、步步驚心在線觀看,9、步步驚心第30集,10、步步驚心無(wú)刪節(jié)版,11、穿越小說(shuō)步步驚心,則對(duì)以上查詢進(jìn)行層次聚類的結(jié)果請(qǐng)參考圖2。圖2為本發(fā)明中對(duì)搜索日志中的查詢進(jìn)行聚類的結(jié)果示意圖。如圖2所示,在聚類結(jié)果的第一層上,查詢1、2是一類,查詢3、4是一類,查詢8、9是一類,其余查詢各自是一類。在聚類結(jié)果的第二層上,查詢1、2是一類,查詢3、4、5是一類,查詢8、9、10是一類,其余查詢各自是一類。在查詢的第三層上,查詢1、2、3、4、5是一類,查詢8、9、10是一類,其余查詢各自是一類。在查詢的第四層上,查詢1、2、3、4、5、6是一類,查詢8、9、10是一類,其余查詢各自是一類。在查詢的第五層上,查詢1、2、3、4、5、6、7是一類,查詢8、9、10是一類,查詢11自成一類。在查詢的第六層上,查詢1、2、3、4、5、6、7、8、9、10是一類,查詢11自成一類。在查詢的第七層上,所有查詢組成一類。可以看出,初始種子查詢分別是查詢2、5、7,如果前面所說(shuō)的預(yù)定比例取1,也就是要求確定一個(gè)層次,在該層次下,所有的初始種子查詢(即查詢2、5、7)在同一個(gè)類中,且這個(gè)類包含的查詢數(shù)目應(yīng)該最小,顯然,在第五層的時(shí)候存在滿足這個(gè)條件的類,這個(gè)類包含的所有查詢分別是查詢1、2、3、4、5、6、7,所以查詢1、2、3、4、5、6、7就是音樂(lè)需求類型的最終的種子查詢。獲取一種需求類型的種子查詢的實(shí)施例二:步驟S101a:獲取預(yù)設(shè)的該種需求類型的初始種子查詢。步驟S102b:使用迭代學(xué)習(xí)器從搜索日志中學(xué)習(xí)與初始種子查詢之間的相似度滿足要求的查詢,并將學(xué)習(xí)到的查詢與初始種子查詢一并作為該種需求類型的種子查詢。與實(shí)施例一中類似的,初始種子查詢可通過(guò)人工選定有該種需求類型的查詢得到,并且在本實(shí)施例中,同樣需要獲取不同查詢之間的相似度,而不同查詢之間相似度的計(jì)算方法與實(shí)施例一中介紹的類似,在此不再贅述。迭代學(xué)習(xí)器可采用任意的有監(jiān)督或無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法得到,本發(fā)明不再做重點(diǎn)描述。除了上面所說(shuō)的實(shí)施例一和實(shí)施例二,在獲取一種需求類型的種子查詢時(shí),還可以根據(jù)導(dǎo)致該種需求類型的頁(yè)面被點(diǎn)擊時(shí)的查詢來(lái)確定。例如:從導(dǎo)致該種需求類型的頁(yè)面被點(diǎn)擊的查詢中選取查詢次數(shù)最高的N1個(gè)查詢作為該種需求類型的種子查詢,其中N1為預(yù)設(shè)的正整數(shù)。譬如一個(gè)流行音樂(lè)下載的頁(yè)面,被“周杰倫專輯下載”、“周杰倫菊花臺(tái)”、“依然范特西”等查詢大量點(diǎn)擊,則這幾個(gè)查詢就可以作為流行音樂(lè)需求類型的種子查詢。此外,還可以從一種需求類型的垂直搜索的搜索日志中提取該種需求類型的種子查詢。垂直搜索是針對(duì)某個(gè)行業(yè)或某個(gè)領(lǐng)域的搜索,當(dāng)用戶在一個(gè)旅游網(wǎng)站搜索的時(shí)候,表達(dá)的就是與旅游有關(guān)的需求,而不會(huì)是與餐飲相關(guān)的需求。因此當(dāng)需要獲取與旅游相關(guān)需求的種子查詢時(shí),就可以直接從旅游搜索領(lǐng)域的搜索日志中提取得到。請(qǐng)繼續(xù)參考圖1。步驟S102中,將查詢泛化為候選模板的過(guò)程,就是用通配符對(duì)查詢進(jìn)行限定以生成候選模板的過(guò)程。具體地,步驟S102的實(shí)施方式包括以下幾種,參見(jiàn)實(shí)施例三、四和五。實(shí)施例三:將相應(yīng)需求類型的種子查詢中與相應(yīng)需求類型所對(duì)應(yīng)的預(yù)設(shè)實(shí)體詞匹配的部分替換成該預(yù)設(shè)實(shí)體詞所屬類別的通配符。例如音樂(lè)需求類型的種子查詢有“步步驚心片尾曲”和“嚴(yán)藝丹三寸天堂”,音樂(lè)需求類型對(duì)應(yīng)的預(yù)設(shè)實(shí)體詞有:步步驚心(屬于電影電視劇名稱類別)、嚴(yán)藝丹(屬于歌手名稱類別)和三寸天堂(屬于歌曲名稱類別),則查詢“步步驚心片尾曲”和“嚴(yán)藝丹三寸天堂”就可以分別泛化為“【電影電視劇名稱】片尾曲”和“【歌手名稱】【歌曲名稱】”兩個(gè)候選模板。實(shí)施例四:將相應(yīng)需求類型的種子查詢中被類別識(shí)別函數(shù)識(shí)別出來(lái)的部分替換成類別識(shí)別函數(shù)所對(duì)應(yīng)類別的通配符,其中類別識(shí)別函數(shù)是根據(jù)一個(gè)類別的屬性定義的用于識(shí)別該類別的函數(shù)。類別識(shí)別函數(shù)包括人名識(shí)別函數(shù),符號(hào)識(shí)別函數(shù),英文識(shí)別函數(shù),數(shù)字識(shí)別函數(shù),日期識(shí)別函數(shù),商品型號(hào)識(shí)別函數(shù)等等,其中的人名、符號(hào)、英文等表示對(duì)應(yīng)類別的屬性。應(yīng)該理解,在使用函數(shù)識(shí)別一個(gè)類別的思想下,類別識(shí)別函數(shù)并不僅限于以上種類,凡是本領(lǐng)域技術(shù)人員能夠?qū)崿F(xiàn)的類別識(shí)別函數(shù),都應(yīng)該包括在本發(fā)明的范圍內(nèi)。實(shí)施例四中的類別識(shí)別函數(shù)也可以與實(shí)施例三中的預(yù)設(shè)實(shí)體詞結(jié)合使用,可以增強(qiáng)候選模板中通配符的正確性。下面5個(gè)視頻需求類型的種子查詢:1、“文章演的最新電影”2、“馬伊琍演過(guò)的勵(lì)志電影”3、“孫儷鄧超夫婦一起主演的電影”4、“范冰冰自己彎腰收拾行李視頻”5、“邁克爾·杰克遜的所有高清視頻”假如人名識(shí)別函數(shù)與包含明星類別實(shí)體詞的預(yù)設(shè)詞表結(jié)合使用,可以得到下列候選模板:[Star]演的最新電影、[Star]演過(guò)的勵(lì)志電影、[Star][Star]夫婦一起主演的電影、[Star]自己彎腰收拾行李視頻、[F:name]的所有高清視頻,其中[Star]是滿足預(yù)設(shè)明星類別實(shí)體詞的明星名字的通配符,[F:name]是能夠被人名識(shí)別函數(shù)識(shí)別出的人名的通配符。但是在另一個(gè)查詢?yōu)椤澳睦镉刑?yáng)照常升起的影評(píng)文章”的例子中,雖然“文章”與預(yù)設(shè)明星類別實(shí)體詞匹配,但是由于人名識(shí)別函數(shù)未將這個(gè)查詢中的“文章”識(shí)別為人名,因此這個(gè)查詢中的“文章”就不會(huì)被泛化,從而提高了候選模板的正確性。人名識(shí)別函數(shù)可根據(jù)詞語(yǔ)的共現(xiàn)概率來(lái)定義,例如統(tǒng)計(jì)大規(guī)模語(yǔ)料資源,根據(jù)一個(gè)詞語(yǔ)與上下文詞語(yǔ)共現(xiàn)的概率判斷這個(gè)詞語(yǔ)作為人名出現(xiàn)的可能性大小,當(dāng)可能性大于設(shè)定閾值時(shí)就將這個(gè)詞語(yǔ)認(rèn)定為人名。其他種類的類別識(shí)別函數(shù)也可以根據(jù)識(shí)別類型的特點(diǎn)進(jìn)行定義,這里不再贅述。實(shí)施例五:在實(shí)施例三和實(shí)施例四的基礎(chǔ)上,將相應(yīng)需求類型的種子查詢中對(duì)相應(yīng)需求類型的貢獻(xiàn)度低于預(yù)設(shè)貢獻(xiàn)度要求的詞語(yǔ)替換為用于限制詞語(yǔ)長(zhǎng)度的長(zhǎng)度通配符。例如實(shí)施例四中所舉例子的5個(gè)種子查詢,查詢1中的“演的最新”、查詢2中的“演過(guò)的勵(lì)志”、查詢3中的“夫婦一起主演的”、查詢4中的“自己彎腰收拾行李”、查詢5中的“的所有高清”,這些詞語(yǔ)對(duì)判斷一個(gè)查詢是否屬于視頻需求類型的貢獻(xiàn)度比較低,因此,可以將這些詞語(yǔ)替換為長(zhǎng)度通配符。例如將查詢1中的“演的最新”替換為[W:1-4],其中[W:1-4]是表示長(zhǎng)度為1到4個(gè)字的通配符。實(shí)施例四中的5個(gè)種子查詢,在實(shí)施例三與實(shí)施例四處理的基礎(chǔ)上,進(jìn)一步對(duì)視頻需求類型的貢獻(xiàn)度低于預(yù)設(shè)貢獻(xiàn)度要求的詞語(yǔ)進(jìn)行替換后可得到下列的候選模板:1、[Star][W:1-4]電影2、[Star][W:1-5]電影3、[Star][Star][W:1-7]電影4、[Star][W:1-8]視頻5、[F:name][W:1-5]視頻上述候選模板1和候選模板2還可以依據(jù)一定的合并策略,例如以待合并候選模板中的長(zhǎng)度通配符的匹配長(zhǎng)度區(qū)間的最大距離進(jìn)行合并,將候選模板1與候選模板2合并為:[Star][W:1-5]電影。查詢中的詞語(yǔ)對(duì)相應(yīng)需求類型的貢獻(xiàn)度,可以通過(guò)計(jì)算查詢中n-gram粒度的詞語(yǔ)構(gòu)成的向量與相應(yīng)需求類型的詞語(yǔ)構(gòu)成的向量之間的余弦距離得到,其中n-gram是指由n個(gè)能獨(dú)立表意的最小粒度詞形成的片段,例如“演的最新”就是一個(gè)由最小粒度詞“演的”和“最新”形成的2-gram。關(guān)于n-gram的概念可以參考現(xiàn)有的各種分詞技術(shù),在此不再詳細(xì)說(shuō)明。確定相應(yīng)需求類型的詞語(yǔ)也可采用各種現(xiàn)有技術(shù)進(jìn)行,例如人工選取或者在相應(yīng)需求類型的語(yǔ)料中挖掘等等,由于不是本發(fā)明的重點(diǎn),在此不再贅述。以上敘述可以看出,通過(guò)步驟S102,可以得到相應(yīng)需求類型的候選模板,但是,由于在泛化過(guò)程中有可能存在過(guò)度泛化的情況,如這樣一個(gè)模板“[歌手名稱][W:1-4]”,不僅可以匹配上“嚴(yán)藝丹三寸天堂”這樣的查詢,還可以匹配上“嚴(yán)藝丹的身高”這樣的查詢,假設(shè)這個(gè)模板是音樂(lè)需求類型的模板,很顯然,其匹配的后一個(gè)查詢表達(dá)的需求并不是音樂(lè)類型的,說(shuō)明想要得到足夠準(zhǔn)確的需求模板,還需要從步驟S102中得到的候選模板中進(jìn)行選取。因此,在步驟S103中,會(huì)對(duì)步驟S102中生成的候選模板進(jìn)行選取,以得到最終模板。步驟S103中對(duì)候選模板進(jìn)行選取,可采用分類器的方式進(jìn)行,即利用分類器將候選模板分為正確模板與錯(cuò)誤模板,其中的正確模板就是要選取為相應(yīng)需求類型的最終模板。對(duì)分類器來(lái)說(shuō),影響分類結(jié)果好壞的最重要因素是對(duì)候選模板提取的特征。在本發(fā)明中,可以提取的特征包括但不限于:點(diǎn)擊特征、相似度特征及匹配能力特征。其中點(diǎn)擊特征用于表征相應(yīng)需求類型的候選模板覆蓋的查詢能夠引起相應(yīng)需求類型的頁(yè)面被點(diǎn)擊的概率,相似度特征用于表征相應(yīng)需求類型的一個(gè)候選模板與相應(yīng)需求類型的所有候選模板的共性程度,匹配能力特征用于表征相應(yīng)需求類型的候選模板匹配相應(yīng)需求類型的查詢的能力。具體地,候選模板W的點(diǎn)擊特征可用公式(1)表示:其中,Click(W)表示W(wǎng)的點(diǎn)擊特征,表示W(wǎng)在搜索日志中覆蓋的所有查詢引起相應(yīng)需求類型頁(yè)面(URL)被點(diǎn)擊的次數(shù),表示W(wǎng)在搜索日志中覆蓋的所有查詢引起所有頁(yè)面被點(diǎn)擊的次數(shù)。例如,候選模板“[電影電視劇名稱]主題曲下載”在搜索日志中覆蓋的所有查詢包括“步步驚心主題曲下載”、“水滸傳主題曲下載”,在這兩個(gè)查詢引起的點(diǎn)擊中,有100個(gè)點(diǎn)擊指向的是音樂(lè)網(wǎng)站,有5個(gè)點(diǎn)擊指向了其他網(wǎng)站,則“[電影電視劇名稱]主題曲下載”這個(gè)候選模板相對(duì)于音樂(lè)需求的點(diǎn)擊特征值就是100/105。而“[電影電視劇名稱]在線閱讀”這個(gè)候選模板覆蓋的查詢有“步步驚心在線閱讀”、“水滸傳在線閱讀”,在這兩個(gè)查詢引起的點(diǎn)擊中,只有3個(gè)點(diǎn)擊指向的是音樂(lè)網(wǎng)站,有100個(gè)點(diǎn)擊指向了其他網(wǎng)站(主要是閱讀網(wǎng)站),則很顯然,“[電影電視劇名稱]在線閱讀”這個(gè)候選模板相對(duì)于音樂(lè)需求的點(diǎn)擊特征值就是3/103,通過(guò)上述這種方法也很容易判斷出“[電影電視劇名稱]在線閱讀”這個(gè)模板相對(duì)于閱讀需求的點(diǎn)擊特征值應(yīng)該很高,從而更可能有閱讀的需求。候選模板W的相似度特征,可用公式(2)進(jìn)行計(jì)算:其中Similarity(W)表示W(wǎng)的相似度特征,表示W(wǎng)與相應(yīng)需求類型的所有其他候選模板之間的相似度之和。例如音樂(lè)需求類型下有A、B、C三個(gè)候選模板,則候選模板A的相似度特征Similarity(A)=S(A,B)+S(A,C),同理,Similarity(B)=S(B,A)+S(B,C),Similarity(C)=S(C,A)+S(C,B)。一個(gè)候選模板X(qián)與另一個(gè)候選模板Y之間的相似度,可通過(guò)計(jì)算X得到的詞向量與Y得到的詞向量之間的余弦距離得到。而候選模板X(qián)或Y的詞向量,可以采用多種方式獲取,例如從X或Y匹配的查詢中抽取關(guān)鍵詞構(gòu)成詞向量,或者從X或Y匹配的查詢導(dǎo)致的檢索結(jié)果中抽取關(guān)鍵詞構(gòu)成詞向量,抽取的方式可采用本領(lǐng)域技術(shù)人員想到的任意方式進(jìn)行,本發(fā)明對(duì)此不做限制。候選模板W的匹配能力特征,可用公式(3)進(jìn)行計(jì)算:其中,Match(W)表示W(wǎng)的匹配能力特征,表示W(wǎng)在相應(yīng)需求類型的查詢構(gòu)成的搜索日志中匹配到的查詢的數(shù)量,表示W(wǎng)在各種需求類型的查詢構(gòu)成的搜索日志中匹配到的查詢的數(shù)量。相應(yīng)需求類型的查詢構(gòu)成的搜索日志指的是僅記錄有該種需求類型的查詢的日志文件。例如,從一個(gè)音樂(lè)網(wǎng)站取得的搜索日志,很顯然記錄的應(yīng)該都是音樂(lè)需求類型的查詢。請(qǐng)繼續(xù)參考圖1,圖1中的線上部分的需求識(shí)別的方法包括:步驟S201:獲取用戶查詢。步驟S202:在前文所述生成需求模板的方法得到的最終模板中確定與用戶查詢相匹配的最終模板,并將與用戶查詢相匹配的最終模板所對(duì)應(yīng)的需求類型作為用戶查詢具有的需求。步驟S202中,確定與用戶查詢相匹配的最終模板,可以采用樹(shù)結(jié)構(gòu)的算法進(jìn)行匹配。在樹(shù)結(jié)構(gòu)中,每一個(gè)節(jié)點(diǎn)代表一種狀態(tài),其中的根節(jié)點(diǎn)代表初始狀態(tài),葉子節(jié)點(diǎn)代表模板匹配成功的狀態(tài),而中間節(jié)點(diǎn)則代表匹配過(guò)程中的中間狀態(tài)。連接兩個(gè)節(jié)點(diǎn)之間的邊,稱為狀態(tài)轉(zhuǎn)移條件。請(qǐng)參考圖3,圖3為本發(fā)明中匹配樹(shù)的示意圖。對(duì)查詢“三寸天堂2011”而言,初始狀態(tài)是1,由于“三寸天堂”符合狀態(tài)轉(zhuǎn)移條件“[歌曲名稱]”,所以從狀態(tài)1轉(zhuǎn)移到狀態(tài)3,又因?yàn)椤?011”符合狀態(tài)轉(zhuǎn)移條件“[F:time]”(表示能被時(shí)間識(shí)別函數(shù)識(shí)別),所以又從狀態(tài)3轉(zhuǎn)移到狀態(tài)9(即葉子節(jié)點(diǎn),表示匹配成功)。構(gòu)成狀態(tài)轉(zhuǎn)移路線的狀態(tài)轉(zhuǎn)移條件組合就形成了與查詢相匹配的模板。由于與查詢相匹配的模板所對(duì)應(yīng)的需求類型是已知的,在匹配過(guò)程結(jié)束后,就可以確定用戶查詢具有與相匹配的模板一致的需求。應(yīng)該理解,以上所舉例子中采用查詢樹(shù)算法進(jìn)行舉例,并不是為了對(duì)本發(fā)明的匹配過(guò)程進(jìn)行限定,實(shí)際上,任何已知的匹配算法在此都可以采用,例如采用正則表達(dá)式的方式進(jìn)行匹配,由于匹配算法屬于本領(lǐng)域技術(shù)人員可以獲知的技術(shù),本發(fā)明在此不再做詳細(xì)介紹。請(qǐng)參考圖4。圖4為本發(fā)明中生成需求模板的裝置與需求識(shí)別的裝置的的實(shí)施例的結(jié)構(gòu)示意框圖,其中,線下部分為生成需求模板的裝置的示意圖,線上部分為需求識(shí)別裝置的示意圖。如圖4所示,生成需求模板的裝置包括:種子獲取單元301、泛化單元302及選取單元303。其中種子獲取單元301,用于獲取需求類型的種子查詢。泛化單元302,用于將相應(yīng)需求類型的種子查詢泛化為相應(yīng)需求類型的候選模板。選取單元303,用于從相應(yīng)需求類型的候選模板中選取相應(yīng)需求類型的最終模板。請(qǐng)參考圖5,圖5為本發(fā)明中種子獲取單元的一個(gè)實(shí)施例的結(jié)構(gòu)示意框圖。如圖5所示,種子獲取單元301包括:第一選取單元3011、聚類單元3012及確定單元3013。其中第一選取單元3011用于獲取預(yù)設(shè)的相應(yīng)需求類型的初始種子查詢。聚類單元3012用于對(duì)搜索日志中記錄的所有查詢按照層次聚類的方法進(jìn)行聚類。確定單元3013用于確定一個(gè)聚類層次,使得在該層次下不少于預(yù)定比例的初始種子查詢被聚到同一個(gè)類X中且在該層次下類X包含的查詢總數(shù)最小,將該層次下的類X包含的所有查詢作為相應(yīng)需求類型的種子查詢。請(qǐng)參考圖6,圖6為本發(fā)明中種子獲取單元的又一個(gè)實(shí)施例的結(jié)構(gòu)示意框圖。如圖6所示,種子獲取單元301包括:第二選取單元301a和學(xué)習(xí)單元301b。其中第二選取單元301a用于獲取預(yù)設(shè)的相應(yīng)需求類型的初始種子查詢。學(xué)習(xí)單元301b用于使用迭代學(xué)習(xí)器從搜索日志中學(xué)習(xí)與所述初始種子查詢之間的相似度滿足預(yù)設(shè)要求的查詢,并將學(xué)習(xí)到的查詢與所述初始種子查詢一并作為相應(yīng)需求類型的種子查詢。除了圖5與圖6所示的方式,種子獲取單元301還可以從搜索日志中導(dǎo)致相應(yīng)需求類型的頁(yè)面被點(diǎn)擊的查詢中選取查詢次數(shù)最高的N1個(gè)查詢作為相應(yīng)需求類型的種子查詢,或者,從反映相應(yīng)需求類型的垂直搜索的搜索日志中提取相應(yīng)需求類型的種子查詢。請(qǐng)繼續(xù)參考圖4。泛化單元302將相應(yīng)需求類型的種子查詢泛化為相應(yīng)需求類型的候選模板時(shí),具體有:方式一:將相應(yīng)需求的種子查詢中與相應(yīng)需求類型所對(duì)應(yīng)的預(yù)設(shè)實(shí)體詞匹配的部分替換成該預(yù)設(shè)實(shí)體詞所屬類別的通配符,或者方式二:將相應(yīng)需求類型的種子查詢中被類別識(shí)別函數(shù)識(shí)別出來(lái)的部分替換成類別識(shí)別函數(shù)所對(duì)應(yīng)類別的通配符,其中所述類別識(shí)別函數(shù)是根據(jù)一個(gè)類別的屬性定義的用于識(shí)別該類別的函數(shù)。泛化單元302將相應(yīng)需求類型的種子查詢泛化為相應(yīng)需求類型的候選模板時(shí),在以上兩種方式的基礎(chǔ)上還進(jìn)一步包括將相應(yīng)需求類型的種子查詢中對(duì)相應(yīng)需求類型的貢獻(xiàn)度低于預(yù)設(shè)貢獻(xiàn)度要求的詞語(yǔ)替換為用于限制詞語(yǔ)長(zhǎng)度的長(zhǎng)度通配符。選取單元303在從相應(yīng)需求類型的候選模板中選取相應(yīng)需求類型的最終模板時(shí),依據(jù)相應(yīng)需求類型的候選模板的以下特征中的至少一個(gè)進(jìn)行:一、點(diǎn)擊特征,用于表征相應(yīng)需求類型的候選模板覆蓋的查詢能夠引起相應(yīng)需求類型的頁(yè)面被點(diǎn)擊的概率。二、相似度特征,用于表征相應(yīng)需求類型的一個(gè)候選模板在相應(yīng)需求類型的所有候選模板中的共性程度。三、匹配能力特征,用于表征相應(yīng)需求類型的候選模板匹配相應(yīng)需求類型的查詢的能力。具體地,選取單元303采用下列方式計(jì)算相應(yīng)需求類型的候選模板W的點(diǎn)擊特征:其中Click(W)表示W(wǎng)的點(diǎn)擊特征,表示W(wǎng)在搜索日志中覆蓋的所有查詢引起相應(yīng)需求類型頁(yè)面被點(diǎn)擊的次數(shù),表示W(wǎng)在搜索日志中覆蓋的所有查詢引起所有頁(yè)面被點(diǎn)擊的次數(shù)。具體地,選取單元303采用下列方式計(jì)算相應(yīng)需求類型的候選模板W的相似度特征:其中,Similarity(W)表示W(wǎng)的相似度特征,表示W(wǎng)與相應(yīng)需求類型的所有其他候選模板之間的相似度之和。具體地,選取單元303采用下列方式計(jì)算相應(yīng)需求類型的候選模板W的匹配能力特征:其中,Match(W)表示W(wǎng)的匹配能力特征,表示W(wǎng)在相應(yīng)需求類型的查詢構(gòu)成的搜索日志中匹配到的查詢的數(shù)量,表示W(wǎng)在各種需求類型的查詢構(gòu)成的搜索日志中匹配到的查詢的數(shù)量。如圖4所示,線上部分的需求識(shí)別裝置包括:查詢獲取單元401及匹配單元402。其中查詢獲取單元401用于獲取用戶查詢,匹配單元402用于在前文所述生成需求模板的裝置得到的最終模板中確定與用戶查詢相匹配的最終模板,并將與用戶查詢相匹配的最終模板所對(duì)應(yīng)的需求類型作為用戶查詢具有的需求。匹配單元402可采用任意已知的匹配算法確定與用戶查詢相匹配的最終模板,本發(fā)明對(duì)此不做限制。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。