亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

建立詞項(xiàng)需求分類模型的方法、詞項(xiàng)需求分類方法及裝置與流程

文檔序號(hào):12041428閱讀:239來(lái)源:國(guó)知局
建立詞項(xiàng)需求分類模型的方法、詞項(xiàng)需求分類方法及裝置與流程
建立詞項(xiàng)需求分類模型的方法、詞項(xiàng)需求分類方法及裝置【技術(shù)領(lǐng)域】本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別涉及一種建立詞項(xiàng)需求分類模型的方法、詞項(xiàng)需求分類方法及對(duì)應(yīng)裝置。

背景技術(shù):
隨著互聯(lián)網(wǎng)在全球范圍內(nèi)的迅速發(fā)展與成熟,網(wǎng)絡(luò)上的信息資源不斷豐富,信息數(shù)據(jù)量也在飛速膨脹,通過(guò)搜索引擎獲取信息已經(jīng)成為現(xiàn)代人獲取信息的主要方式。為了向用戶提供更加便捷、準(zhǔn)確地查詢服務(wù)是搜索引擎技術(shù)在當(dāng)今和未來(lái)的發(fā)展方向。在搜索引擎技術(shù)中,對(duì)用戶的搜索需求進(jìn)行識(shí)別是提高搜索準(zhǔn)確性和有效性的重要一環(huán),特別在結(jié)構(gòu)化搜索(即垂直搜索)中作用顯著。在識(shí)別用戶的搜索需求時(shí),通常會(huì)利用到搜索請(qǐng)求(query)中各詞項(xiàng)(term)的需求類型,根據(jù)query中各term的需求類型進(jìn)一步確定query的搜索需求。因此,對(duì)term進(jìn)行的需求分類會(huì)對(duì)搜索準(zhǔn)確性和有效性帶來(lái)直接影響?,F(xiàn)有對(duì)term進(jìn)行需求分類的方法主要是:人工收集一些需求詞,將待分類term在搜索引擎中進(jìn)行搜索后,根據(jù)搜索結(jié)果中包含的需求詞數(shù)量確定term的需求類型。例如,人工收集視頻類的需求詞為:“高清”、“在線觀看”等,如果某個(gè)term的搜索結(jié)果前10條搜索結(jié)果中包含這兩個(gè)詞的結(jié)果數(shù)最多,則確定該term具有視頻類需求。但這種對(duì)term進(jìn)行需求分類的方法具有以下缺陷:1)需求詞需要人工收集,召回率較低,并不能適用于所有term的分類。2)人工收集的需求詞并不一定準(zhǔn)確,且容易存在歧義,例如一個(gè)需求詞有可能在多個(gè)需求類別中都具有,則在對(duì)term進(jìn)行需求分類時(shí),準(zhǔn)確率較低。

技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提供了一種建立詞項(xiàng)需求分類模型的方法、詞項(xiàng)需求分類方法及裝置,以便于提高term需求分類的召回率和準(zhǔn)確率。具體技術(shù)方案如下:一種建立詞項(xiàng)term需求分類模型的方法,該方法包括:S1、針對(duì)各需求類型分別執(zhí)行步驟S11至步驟S13,得到模板分類模型:S11、獲取當(dāng)前需求類型的種子term的搜索結(jié)果;S12、將所述搜索結(jié)果的標(biāo)題title、網(wǎng)頁(yè)地址url和摘要snippet中的至少一種泛化為模板;S13、基于各模板在當(dāng)前需求類型的出現(xiàn)頻率值計(jì)算各模板在當(dāng)前需求類型中的權(quán)值;S2、針對(duì)每一個(gè)種子term,利用種子term對(duì)應(yīng)的模板在各需求類型中的權(quán)值,確定種子term在各需求類型上的得分,從而得到包含種子term以及種子term在各需求類型上的得分的term需求分類模型。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述種子term是人工針對(duì)各需求類型進(jìn)行配置的,或者人工在網(wǎng)頁(yè)資源中標(biāo)注的,或者從各需求類型的術(shù)語(yǔ)平臺(tái)獲取的。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟S11中還包括:確定種子term與對(duì)應(yīng)搜索結(jié)果之間的相關(guān)度,將不滿足預(yù)設(shè)相關(guān)度要求的搜索結(jié)果過(guò)濾掉;或者,僅保留搜索結(jié)果中排在前N1個(gè)的搜索結(jié)果以供執(zhí)行所述步驟S12,所述N1為預(yù)設(shè)的正整數(shù)。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟S12中,對(duì)搜索結(jié)果的title或snippet的泛化包括:將搜索結(jié)果的title或snippet中與對(duì)應(yīng)種子term重疊的內(nèi)容采用通配符替代;或者,將搜索結(jié)果的title或snippet與當(dāng)前需求類型的實(shí)體詞典進(jìn)行匹配,將title或snippet中匹配上的詞語(yǔ)替換為對(duì)應(yīng)實(shí)體的類別;或者,將搜索結(jié)果的title或snippet與當(dāng)前需求類型的實(shí)體識(shí)別函數(shù)進(jìn)行匹配,將title或snippet中匹配上的詞語(yǔ)替換為實(shí)體識(shí)別函數(shù)的識(shí)別結(jié)果。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟S12中,對(duì)搜索結(jié)果的url的泛化具體包括:將url的域名抽取出來(lái)作為模板;或者,執(zhí)行以下步驟A1至A4,A1、判斷搜索結(jié)果的url中是否存在“#”,如果是,執(zhí)行步驟A2;否則直接執(zhí)行步驟A3;A2、去掉所述“#”以及“#”之后的字符串,繼續(xù)執(zhí)行步驟A3;A3、如果當(dāng)前url以“.html”或者“.htm”結(jié)尾,則去掉最后一個(gè)“/”之后的字符串;如果當(dāng)前url以“/”結(jié)尾,則去掉倒數(shù)第二個(gè)“/”之后的字符串;如果當(dāng)前url最后一個(gè)“/”之后的字符串中存在“?”,則去掉所述“?”以及所述“?”之后的字符串;其他情況則去掉最后一個(gè)“/”之后的字符串;A4、將當(dāng)前url中預(yù)設(shè)類型的字符串泛化成對(duì)應(yīng)的類型標(biāo)記。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟S13中,按照公式或者計(jì)算模板P在當(dāng)前需求類型中的權(quán)值SP;其中,TFP為模板P在當(dāng)前需求類型的出現(xiàn)頻率,T為當(dāng)前需求類型中種子term的數(shù)量,ITFP為模板P的逆向模板頻率ITF值。所述TFP按照如下公式計(jì)算:FP為模板P所來(lái)自的搜索結(jié)果i構(gòu)成的集合,Ri為模板P所來(lái)自的搜索結(jié)果i的排序值。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,按照計(jì)算模板P的ITF值ITFP;其中,Tall為所有需求類型的數(shù)量,Tp為能泛化出模板P的種子term所在的需求類型數(shù)量。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟S2中,分別針對(duì)各需求類型,將種子term對(duì)應(yīng)的模板在該需求類型中的權(quán)值進(jìn)行累加,得到種子term在該需求類型上的得分。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟S2之后還包括:獲取待訓(xùn)練term,將該待訓(xùn)練term按照步驟S11至S13中與所述種子term相同的方式處理,并利用待訓(xùn)練term對(duì)應(yīng)的模板在各需求類型中的權(quán)值,確定待訓(xùn)練term在各需求類型上的得分,再利用所述term需求分類模型對(duì)待訓(xùn)練term進(jìn)行分類,確定待訓(xùn)練term的需求類型,并將待訓(xùn)練term添加到對(duì)應(yīng)需求類型的種子term中,重復(fù)開始執(zhí)行所述步驟S1和S2進(jìn)行訓(xùn)練,直至滿足預(yù)設(shè)的訓(xùn)練要求;其中,所述訓(xùn)練要求包括:重復(fù)執(zhí)行所述步驟S1和S2的次數(shù)達(dá)到預(yù)設(shè)的次數(shù)值,或者,訓(xùn)練時(shí)長(zhǎng)達(dá)到預(yù)設(shè)的時(shí)長(zhǎng),或者,各需求類型中種子term的數(shù)量達(dá)到預(yù)設(shè)的數(shù)量要求,或者,各需求類型的種子term數(shù)量收斂。一種詞項(xiàng)term需求分類方法,該方法包括:P1、獲取待分類term的搜索結(jié)果;P2、將搜索結(jié)果的標(biāo)題title、網(wǎng)頁(yè)地址url和摘要snippet中至少一種泛化為模板;P3、查詢模板分類模型,確定泛化得到的各模板在各需求類型上的權(quán)值;P4、利用各模板在各需求類型上的權(quán)值,確定所述待分類term在各需求類型上的得分;P5、分別針對(duì)每一個(gè)需求類型:利用所述待分類term在該需求類型上的得分與查詢term需求分類模型得到的各種子term在該需求類型上的得分,確定所述待分類term在該需求類型上的置信度;P6、依據(jù)所述待分類term在各需求類型上的置信度確定所述待分類term所屬的需求類型;其中,所述模板分類模型和term需求分類模型是按照上述建立term需求分類模型的方法建立的。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟P1中還包括:確定所述待分類term 與對(duì)應(yīng)搜索結(jié)果之間的相關(guān)度,將不滿足預(yù)設(shè)相關(guān)度要求的搜索結(jié)果過(guò)濾掉;或者,僅保留搜索結(jié)果中排在前N2個(gè)的搜索結(jié)果以供執(zhí)行所述步驟P2,所述N2為預(yù)設(shè)的正整數(shù)。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟P2中,對(duì)搜索結(jié)果的title或snippet的泛化包括:將搜索結(jié)果的title或snippet中與所述待分類term重疊的內(nèi)容采用通配符替代;或者,將搜索結(jié)果的title或snippet與各需求類型的實(shí)體詞典進(jìn)行匹配,將title或snippet中匹配上的詞語(yǔ)替換為對(duì)應(yīng)實(shí)體的類別;或者,將搜索結(jié)果的title或snippet與各需求類型的實(shí)體識(shí)別函數(shù)進(jìn)行匹配,將title或snippet中匹配上的詞語(yǔ)替換為實(shí)體識(shí)別函數(shù)的識(shí)別結(jié)果。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟P2中,對(duì)搜索結(jié)果的url的泛化具體包括:將url的域名抽取出來(lái)作為模板;或者,執(zhí)行以下步驟B1至B4,B1、判斷搜索結(jié)果的url中是否存在“#”,如果是,執(zhí)行步驟B2;否則直接執(zhí)行步驟B3;B2、去掉所述“#”以及“#”之后的字符串,繼續(xù)執(zhí)行步驟B3;B3、如果當(dāng)前url以“.html”或者“.htm”結(jié)尾,則去掉最后一個(gè)“/”之后的字符串;如果當(dāng)前url以“/”結(jié)尾,則去掉倒數(shù)第二個(gè)“/”之后的字符串;如果當(dāng)前url最后一個(gè)“/”之后的字符串中存在“?”,則去掉所述“?”以及所述“?”之后的字符串;其他情況則去掉最后一個(gè)“/”之后的字符串;B4、將當(dāng)前url中預(yù)設(shè)類型的字符串泛化成對(duì)應(yīng)的類型標(biāo)記。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述步驟P4具體包括:分別針對(duì)各需求類型,將所述泛化得到的模板在需求類型上的權(quán)值進(jìn)行累加,得到所述待分類term在各需求類型上的得分。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟P5中,確定所述待分類term在各需求類型上的置信度具體包括:按照計(jì)算待分類term在需求類型m上的置信度TNnm;其中,所述scorenm為所述待分類term在需求類型m上的得分,avg(scorem)為所述term需求分類模型中需求類型m的種子term在需求類型m上的得分平均值,αm為針對(duì)需求類型m設(shè)置的常量。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述步驟P6具體包括:將對(duì)應(yīng)置信度排在前N4個(gè)的需求類型確定為所述待分類term所屬的需求類型,N4為預(yù)設(shè)的正整數(shù);或者,將對(duì)應(yīng)置信度超過(guò)預(yù)設(shè)置信度閾值的需求類型確定為所述待分類term所屬的需求類型;或者,按照預(yù)設(shè)的置信度與需求強(qiáng)度等級(jí)之間的對(duì)應(yīng)關(guān)系,確定所述待分類term在各需求類型上的需求強(qiáng)度等級(jí)。一種建立詞項(xiàng)term需求分類模型的裝置,該裝置包括:模板模型建立單元和需求模型建立單元;所述模板模型建立單元,用于分別針對(duì)各需求類型進(jìn)行訓(xùn)練得到模板分類模型,所述模板模型建立單元具體包括:結(jié)果獲取子單元,用于獲取當(dāng)前需求類型的種子term的搜索結(jié)果;模板泛化子單元,用于將所述搜索結(jié)果的標(biāo)題title、網(wǎng)頁(yè)地址url和摘要snippet中的至少一種泛化為模板;權(quán)值計(jì)算子單元,用于基于各模板在當(dāng)前需求類型的出現(xiàn)頻率值計(jì)算各模板在當(dāng)前需求類型中的權(quán)值;所述需求模型建立單元,用于針對(duì)每一個(gè)種子term,利用種子term對(duì)應(yīng)的模板在各需求類型中的權(quán)值,確定種子term在各需求類型上的得分,從而得到包含種子term以及種子term在各需求類型上的得分的term需求分類模型。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述種子term是人工針對(duì)各需求類型進(jìn)行配置 的,或者人工在網(wǎng)頁(yè)資源中標(biāo)注的,或者從各需求類型的術(shù)語(yǔ)平臺(tái)獲取的。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述結(jié)果獲取子單元,還用于確定種子term與對(duì)應(yīng)搜索結(jié)果之間的相關(guān)度,將不滿足預(yù)設(shè)相關(guān)度要求的搜索結(jié)果過(guò)濾掉;或者,僅保留搜索結(jié)果中排在前N1個(gè)的搜索結(jié)果以供所述模板泛化子單元進(jìn)行泛化,所述N1為預(yù)設(shè)的正整數(shù)。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述模板泛化子單元對(duì)搜索結(jié)果的title或snippet進(jìn)行泛化時(shí),將搜索結(jié)果的title或snippet中與對(duì)應(yīng)種子term重疊的內(nèi)容采用通配符替代;或者,將搜索結(jié)果的title或snippet與當(dāng)前需求類型的實(shí)體詞典進(jìn)行匹配,將title或snippet中匹配上的詞語(yǔ)替換為對(duì)應(yīng)實(shí)體的類別;或者,將搜索結(jié)果的title或snippet與當(dāng)前需求類型的實(shí)體識(shí)別函數(shù)進(jìn)行匹配,將title或snippet中匹配上的詞語(yǔ)替換為實(shí)體識(shí)別函數(shù)的識(shí)別結(jié)果。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述模板泛化子單元對(duì)搜索結(jié)果的url的進(jìn)行泛化時(shí),將url的域名抽取出來(lái)作為模板;或者,具體執(zhí)行以下操作:操作A1、判斷搜索結(jié)果的url中是否存在“#”,如果是,執(zhí)行操作A2;否則直接執(zhí)行操作A3;操作A2、去掉所述“#”以及“#”之后的字符串,繼續(xù)執(zhí)行操作A3;操作A3、如果當(dāng)前url以“.html”或者“.htm”結(jié)尾,則去掉最后一個(gè)“/”之后的字符串;如果當(dāng)前url以“/”結(jié)尾,則去掉倒數(shù)第二個(gè)“/”之后的字符串;如果當(dāng)前url最后一個(gè)“/”之后的字符串中存在“?”,則去掉所述“?”以及所述“?”之后的字符串;其他情況則去掉最后一個(gè)“/”之后的字符串;操作A4、將當(dāng)前url中預(yù)設(shè)類型的字符串泛化成對(duì)應(yīng)的類型標(biāo)記。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述權(quán)值計(jì)算子單元按照公式或者計(jì)算模板P在當(dāng)前需求類型中的權(quán)值SP;其中,TFP為模板P在當(dāng)前需求類型的出現(xiàn)頻率,T為當(dāng)前需求類型中種子term的數(shù)量,ITFP為模板P的逆向模板頻率ITF值。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述權(quán)值計(jì)算子單元按照公式計(jì)算TFP;FP為模板P所來(lái)自的搜索結(jié)果i構(gòu)成的集合,Ri為模板P所來(lái)自的搜索結(jié)果i的排序值。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述權(quán)值計(jì)算子單元,還用于按照計(jì)算模板的ITF值,其中,Tall為所有需求類型的數(shù)量,Tp為能泛化出模板P的種子term所在的需求類型數(shù)量。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述需求模型建立單元分別針對(duì)各需求類型,將種子term對(duì)應(yīng)的模板在該需求類型中的權(quán)值進(jìn)行累加,得到種子term在該需求類型上的得分。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該裝置還包括:訓(xùn)練控制單元,用于獲取待訓(xùn)練term,將待訓(xùn)練term提供給所述模板模型建立單元和需求模型建立單元以對(duì)所述待訓(xùn)練term執(zhí)行與所述種子term相同的處理,從所述需求模型建立單元獲取待訓(xùn)練term在各需求類型上的得分,再利用所述term需求分類模型對(duì)待訓(xùn)練term進(jìn)行分類,確定待訓(xùn)練term的需求類型,并將待訓(xùn)練term添加到對(duì)應(yīng)需求類型的種子term中,重新觸發(fā)所述模板模型建立單元基于種子term進(jìn)行訓(xùn)練,直至滿足預(yù)設(shè)的訓(xùn)練要求;其中,所述訓(xùn)練要求包括:訓(xùn)練的次數(shù)達(dá)到預(yù)設(shè)的次數(shù)值,或者,訓(xùn)練時(shí)長(zhǎng)達(dá)到預(yù)設(shè)的時(shí)長(zhǎng),或者,各需求類型中種子term的數(shù)量達(dá)到預(yù)設(shè)的數(shù)量要求,或者,各需求類型的種子term數(shù)量收斂。一種詞項(xiàng)term需求分類裝置,該裝置包括:結(jié)果獲取單元,用于獲取待分類term的搜索結(jié)果;模板泛化單元,用于將搜索結(jié)果的標(biāo)題title、網(wǎng)頁(yè)地址url和摘要snippet中至少一種泛化為模板;權(quán)值計(jì)算單元,用于查詢模板分類模型,確定泛化得到的各模板在各需求類型上的權(quán)值;得分確定單元,用于利用各模板在各需求類型上的權(quán)值,確定所述待分類term在各需求類型上的得分;置信度確定單元,用于分別針對(duì)每一個(gè)需求類型:利用所述待分類term在該需求類型上的得分與查詢term需求分類模型得到的各種子term在該需求類型上的得分,確定所述待分類term在該需求類型上的置信度;類型確定單元,用于依據(jù)所述待分類term在各需求類型上的置信度確定所述待分類term所屬的需求類型;其中,所述模板分類模型和term需求分類模型是按照上述term需求分類裝置建立的。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述結(jié)果獲取單元,還用于確定所述待分類term與對(duì)應(yīng)搜索結(jié)果之間的相關(guān)度,將不滿足預(yù)設(shè)相關(guān)度要求的搜索結(jié)果過(guò)濾掉;或者,僅保留搜索結(jié)果中排在前N2個(gè)的搜索結(jié)果以供所述模板泛化單元進(jìn)行泛化,所述N2為預(yù)設(shè)的正整數(shù)。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述模板泛化單元在對(duì)搜索結(jié)果的title或snippet進(jìn)行泛化時(shí),將搜索結(jié)果的title或snippet中與所述待分類term重疊的內(nèi)容采用通配符替代;或者,將搜索結(jié)果的title或snippet與各需求類型的實(shí)體詞典進(jìn)行匹配,將title或snippet中匹配上的詞語(yǔ)替換為對(duì)應(yīng)實(shí)體的類別;或者,將搜索結(jié)果的title或snippet與各需求類型的實(shí)體識(shí)別函數(shù)進(jìn)行匹配,將title或snippet中匹配上的詞語(yǔ)替換為實(shí)體識(shí)別函數(shù)的識(shí)別結(jié)果。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述模板泛化單元在對(duì)搜索結(jié)果的url進(jìn)行泛化時(shí),將url的域名抽取出來(lái)作為模板;或者,執(zhí)行以下操作:操作B1、判斷搜索結(jié)果的url中是否存在“#”,如果是,執(zhí)行操作B2;否則直接執(zhí)行操作B3;操作B2、去掉所述“#”以及“#”之后的字符串,繼續(xù)執(zhí)行操作B3;操作B3、如果當(dāng)前url以“.html”或者“.htm”結(jié)尾,則去掉最后一個(gè)“/”之后的字符串;如果當(dāng)前url以“/”結(jié)尾,則去掉倒數(shù)第二個(gè)“/”之后的字符串;如果當(dāng)前url最后一個(gè)“/”之后的字符串中存在“?”,則去掉所述“?”以及所述“?”之后的字符串;其他情況則去掉最后一個(gè)“/”之后的字符串;操作B4、將當(dāng)前url中預(yù)設(shè)類型的字符串泛化成對(duì)應(yīng)的類型標(biāo)記。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述得分確定單元分別針對(duì)各需求類型,將所述泛化得到的模板在需求類型上的權(quán)值進(jìn)行累加,得到所述待分類term在各需求類型上的得分。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述置信度確定單元在確定所述待分類term在各需求類型上的置信度時(shí),按照計(jì)算待分類term在需求類型m上的置信度TNnm;其中,所述scorenm為所述待分類term在需求類型m上的得分,avg(scorem)為所述term需求分類模型中需求類型m的種子term在需求類型m上的得分平均值,αm為針對(duì)需求類型m設(shè)置的常量。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述類型確定單元將對(duì)應(yīng)置信度排在前N4個(gè)的需求類型確定為所述待分類term所屬的需求類型,N4為預(yù)設(shè)的正整數(shù);或者,將對(duì)應(yīng)置信度超過(guò)預(yù)設(shè)置信度閾值的需求類型確定為所述待分類term所屬的需求類型;或者,按照預(yù)設(shè)的置信度與需求強(qiáng)度等級(jí)之間的對(duì)應(yīng)關(guān)系,確定所述待分類term在各需求類型上的需求強(qiáng)度等級(jí)。由以上技術(shù)方案可以看出,本發(fā)明利用種子term的搜索結(jié)果泛化出的模 板在各需求類型的權(quán)值來(lái)確定種子term在各需求類型的權(quán)值,并進(jìn)一步確定種子term在各需求類型上的得分,從而得到term需求分類模型,并基于該需求分類模型對(duì)待分類term進(jìn)行分類。也就是說(shuō),利用檢索結(jié)果來(lái)逼近term的需求,能夠真實(shí)地反映term的需求類型,覆蓋搜索率較高的大量term,具有較高的準(zhǔn)確率和召回率?!靖綀D說(shuō)明】圖1為本發(fā)明實(shí)施例一提供的建立term需求分類模型的方法流程圖;圖2為本發(fā)明實(shí)施例二提供的對(duì)term進(jìn)行需求分類的方法流程圖;圖3為本發(fā)明實(shí)施例三提供的建立term需求分類模型的裝置結(jié)構(gòu)圖;圖4為本發(fā)明實(shí)施例四提供的term需求分類裝置的結(jié)構(gòu)圖?!揪唧w實(shí)施方式】為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。通過(guò)觀察發(fā)現(xiàn),通常搜索結(jié)果與query之間具有以下特點(diǎn):1)搜索結(jié)果與query之間具有語(yǔ)義相關(guān)性。2)一個(gè)query的搜索結(jié)果分布,能夠很好地反映用戶的需求分布情況,并且相同需求的query,搜索結(jié)果的標(biāo)題(title)、網(wǎng)頁(yè)地址(url)或者摘要(snippet)中的句子通常具有相似模式。3)兩個(gè)query的搜索結(jié)果的title、url或snippet具有的相似模式越多,兩個(gè)query的需求越相似。基于以上觀察結(jié)論,本發(fā)明提供一種特別的詞項(xiàng)需求分類模型建立方法,下面結(jié)合實(shí)施例一進(jìn)行詳細(xì)描述。實(shí)施例一、圖1為本發(fā)明實(shí)施例一提供的建立term需求分類模型的方法流程圖,如圖1所示,該方法包括以下步驟:步驟100:針對(duì)各需求類型分別執(zhí)行步驟101至步驟103:本發(fā)明涉及的需求類型可以包括但不限于:視頻類、游戲類、圖片類、歌曲類、軟件類等等大粒度的類別,也可以是更小粒度的類別,例如:電視劇類、電影類、手機(jī)視頻類等。步驟101、獲取當(dāng)前需求類型的種子term的搜索結(jié)果。由于需求類型的種子term數(shù)量較少,通常250個(gè)左右即可,因此可以采用人工配置的方式、或者采用在網(wǎng)頁(yè)資源中人工標(biāo)注的方式、或者直接從相應(yīng)類型的術(shù)語(yǔ)平臺(tái)獲取。需要說(shuō)明的是,本發(fā)明實(shí)施例中涉及到的term包括但不限于:專名、詞語(yǔ)、短語(yǔ)、短句等。將當(dāng)前需求類型的種子term逐一作為query在搜索引擎中進(jìn)行搜索,獲取搜索結(jié)果。假設(shè)對(duì)于小區(qū)類的種子term包括:海德衛(wèi)城、宏康和園、長(zhǎng)宏新苑、天安海景花園三期,則得到的搜索結(jié)果title和url如表1所示。表1在獲取到搜索結(jié)果后,可以對(duì)搜索結(jié)果進(jìn)行初步的過(guò)濾處理,即判斷搜索結(jié)果與種子term之間的相關(guān)度是否滿足預(yù)設(shè)的相關(guān)度要求,如果是,則保留該搜索結(jié)果,否則將不滿足相關(guān)度要求的搜索結(jié)果過(guò)濾掉。其中,搜索結(jié)果與種子term之間的相關(guān)度可以采用但不限于以下方式確定:搜索結(jié)果的標(biāo)題中包含的種子term的內(nèi)容長(zhǎng)度所占種子term長(zhǎng)度的比例,如果該比例大于預(yù)設(shè)的比例閾值,則確定搜索結(jié)果與種子term之間的相關(guān)度滿足預(yù)設(shè)的相關(guān)度要求,保留該搜索結(jié)果。通常在搜索結(jié)果的標(biāo)題中,與種子term重合的內(nèi)容會(huì)采用飄紅、飄黃等特殊標(biāo)注,因此可以判斷這些特殊標(biāo)注的長(zhǎng)度所占種子term長(zhǎng)度的比例是否大于預(yù)設(shè)的比例閾值。經(jīng)過(guò)該初步的過(guò)濾處理,表1中的搜索結(jié)果剩余的如表2所示。表2步驟102、將搜索結(jié)果的title、url和snippet中的至少一種泛化為模板。其中,在進(jìn)行泛化時(shí),可以選取在搜索結(jié)果中排在前N1個(gè)的搜索結(jié)果用于進(jìn)行泛化,N1為預(yù)設(shè)的正整數(shù)。title和snippet的泛化可以采用多種泛化方式,例如,可以直接將title或snippet中與種子term重疊的內(nèi)容采用通配符替代,該通配符可以限定長(zhǎng)度,也可以不限定長(zhǎng)度。也可以基于預(yù)設(shè)的當(dāng)前需求類型的實(shí)體詞典和/或?qū)嶓w識(shí)別函數(shù)。具體如下:將title或snippet與當(dāng)前需求類型的實(shí)體詞典進(jìn)行匹配,將title或snippet中匹配上的詞語(yǔ)替換為對(duì)應(yīng)實(shí)體的類別。例如,某title為“宮保雞丁做法詳細(xì)圖解-美食天下>美食廚房”,采用實(shí)體詞典進(jìn)行匹配后,確定“宮保雞丁”匹配到的實(shí)體的類別為菜名,則將該title泛化為“【菜名】做法詳細(xì)圖解-美食天下>美食廚房”。將title或snippet與當(dāng)前需求類型的實(shí)體識(shí)別函數(shù)進(jìn)行匹配,將title或snippet中匹配上的詞語(yǔ)替換為實(shí)體識(shí)別函數(shù)的識(shí)別結(jié)果,實(shí)體識(shí)別函數(shù)包括人名識(shí)別函數(shù),符號(hào)識(shí)別函數(shù),英文識(shí)別函數(shù),數(shù)字識(shí)別函數(shù),日期識(shí)別函數(shù),商品型號(hào)識(shí)別函數(shù)等等。例如,某title為“劉德華2011年演唱會(huì)盛大開場(chǎng)”,采用實(shí)體識(shí)別函數(shù)進(jìn)行匹配后,識(shí)別結(jié)果為“劉德華”為明星名、“2011年為日期”,則將該title泛化為“【明星名】【日期】演唱會(huì)盛大開場(chǎng)”。當(dāng)然,也可以結(jié)合采用其他泛化方式,例如基于長(zhǎng)度的通配符的泛化等 等,由于模板的泛化可以采用已有技術(shù),在本發(fā)明實(shí)施例中不再一一贅述。對(duì)url的泛化可以直接將url的域名抽取出來(lái)作為模板,或者,執(zhí)行步驟S1至步驟S3:步驟S1:判斷url中是否存在“#”,如果是,執(zhí)行步驟S2;否則直接執(zhí)行步驟S3。步驟S2:去掉“#”以及“#”之后的字符串,繼續(xù)執(zhí)行步驟S3。例如,如果url為“http://www.baidu.com/cars/index.html#123”,經(jīng)過(guò)此步驟后,得到“http://www.baidu.com/cars/index.html”。步驟S3:按照以下規(guī)則進(jìn)行處理:如果當(dāng)前url以“.html”或者“.htm”結(jié)尾,則去掉最后一個(gè)“/”之后的字符串;如果當(dāng)前url以“/”結(jié)尾,則去掉倒數(shù)第二個(gè)“/”之后的字符串;如果當(dāng)前url最后一個(gè)“/”之后的字符串中存在“?”,則去掉“?”以及“?”之后的字符串;其他情況則去掉最后一個(gè)“/”之后的字符串。例如,如果url為“http://www.baidu.com/cars/index.html”,則泛化為“http://www.baidu.com/cars/”。如果url為“http://www.baidu.com/cars/q7/”,則泛化為“http://www.baidu.com/cars/”。如果url為“http://www.baidu.com/all/brand.aspx?id=audi”,則泛化為“http://www.baidu.com/all/brand.aspx”。如果url為“http://www.baidu.com/brand/audi.aspx”,則泛化為“http://www.baidu.com/brand/”。在按照上述過(guò)程對(duì)url進(jìn)行泛化時(shí),也可以進(jìn)一步將url中預(yù)設(shè)類型的字符串部分替換為對(duì)應(yīng)的類型標(biāo)記。例如,對(duì)于“http://office.focus.cn/news/2011-04-21/”,其中的“2011-04-21” 為日期類型,因此可以替換為日期的標(biāo)識(shí),例如“http://office.focus.cn/news/【F:date】/”。舉個(gè)例子,經(jīng)過(guò)本步驟后,表2中url和標(biāo)題泛化成的模板可以如表3中所示,表3中【*】標(biāo)識(shí)通配符。表3在本步驟得到title模板、url模板和snippet模板后,可以進(jìn)一步進(jìn)行過(guò)濾處理,將覆蓋搜索結(jié)果數(shù)量小于設(shè)定數(shù)量閾值的模板過(guò)濾掉,即將覆蓋面過(guò)小的模板過(guò)濾掉。步驟103、分別統(tǒng)計(jì)各模板在當(dāng)前需求類型的出現(xiàn)頻率(TF)值,基于TF值計(jì)算各模板在當(dāng)前需求類型中的權(quán)值構(gòu)成模板分類模型。在本步驟中,如果存在title模板、url模板和snippet模板中的多種,則分別針對(duì)各種模板統(tǒng)計(jì)TF值。具體地,在計(jì)算模板在當(dāng)前需求類型中的權(quán)值時(shí),可以按照如下公式(1)或(2)計(jì)算:其中,SP為模板P在當(dāng)前需求類型中的權(quán)值,TFP為模板P在當(dāng)前需求類型的出現(xiàn)頻率,T為當(dāng)前需求類型中種子term的數(shù)量,ITFP為模板P的逆向模板頻率(ITF)值。公式(1)和公式(2)中的TFP可以直接通過(guò)統(tǒng)計(jì)模板P在當(dāng)前需求類型中的出現(xiàn)次數(shù)得到,作為一種優(yōu)選的實(shí)施方式,還可以進(jìn)一步結(jié)合模板P所來(lái)自搜索結(jié)果的排序值來(lái)體現(xiàn),即TFP可以采用公式(3)計(jì)算:FP為模板P所來(lái)自的搜索結(jié)果i構(gòu)成的集合,Ri為模板P所來(lái)自的搜索結(jié)果i的排序值。如果采用公式(3)的方式計(jì)算TFP,此時(shí)對(duì)應(yīng)的模板P的權(quán)值計(jì)算公式(2)就可以表示為:其中模板P的ITF值ITFP的計(jì)算公式可以為:其中,Tall為所有需求類型的數(shù)量,該Tall可以采用種子term具有的所有需求類型數(shù)量,也可以采用所有可能存在的需求類型的數(shù)量。Tp為能泛化出模板P的種子term所在的需求類型數(shù)量。例如,url模板“http://www.baidu.com/cars/”由10類種子term泛化得來(lái),所有需求類型的 數(shù)量為100,則此模板的ITF值為需要說(shuō)明的是,公式(5)僅為本發(fā)明實(shí)施例提供的計(jì)算模板ITF值的其中一種方式,凡是利用Tall和Tp對(duì)該公式進(jìn)行變形所得到的其他公式均在本發(fā)明保護(hù)范圍內(nèi)。經(jīng)過(guò)上述處理,表3中的各模板的ITF值可以如表4所示。表4在得到各模板的ITF值后,可以進(jìn)一步將各模板的ITF值映射為[1,a]區(qū)間內(nèi)的值ITFpnormal,但該操作不是必須的操作。ITFpnormal計(jì)算公式的一種可以為:其中a為預(yù)設(shè)的參數(shù)值,例如選取100,ITFmaxavg為所有模板按照ITF值進(jìn)行降序排列時(shí)排在前N2個(gè)的ITF平均值,其中N2為預(yù)設(shè)的參數(shù)值,例如選取50。如果對(duì)各模板的ITF進(jìn)行了映射處理,則公式中的(2)和(4)中的ITFP 可以替換為ITFmaxavg。利用表4中各模板的ITF值,以及其在搜索結(jié)果中的排序值、當(dāng)前需求類型中種子term的數(shù)量計(jì)算出的各模板在當(dāng)前需求中的權(quán)值可以如表5所示。表5經(jīng)過(guò)本步驟后,得到的模板分類模型包括:模板以及模板在各需求類型的權(quán)值。步驟110:針對(duì)每一個(gè)種子term,利用種子term對(duì)應(yīng)的模板在各需求類型中的權(quán)值,確定該種子term在各需求類型上的得分,從而得到包含種子term以及種子term在各需求類型上的得分的需求分類模型。獲取利用種子term的搜索結(jié)果進(jìn)行泛化后得到的模板,即種子term對(duì)應(yīng)的模板,查詢模板分類模型以確定各模板在各需求類型上的得分,分別針對(duì)各需求類型將種子term對(duì)應(yīng)的模板在需求類型中的權(quán)值進(jìn)行累加,得到種子term在各需求類型上的得分。為了更進(jìn)一步提高需求分類模型的準(zhǔn)確性,作為一種優(yōu)選的實(shí)施方式,在得到各種子term在各需求類型上的得分后,可以進(jìn)一步采用一個(gè)由多個(gè)待訓(xùn)練term構(gòu)成的訓(xùn)練樣本對(duì)需求分類模型進(jìn)行訓(xùn)練。具體過(guò)程為:獲取待訓(xùn)練term,將待訓(xùn)練term按照步驟101至步驟103中與種子term相同的方式處理,得到待訓(xùn)練term對(duì)應(yīng)的模板在各需求類型中的權(quán)值;利用待訓(xùn)練term對(duì)應(yīng)的模板在各需求類型中的權(quán)值,確定待訓(xùn)練term在各需求類型上的得分;再利用所述term需求分類模型對(duì)待訓(xùn)練term進(jìn)行分類,確定待訓(xùn)練term的需求類型,并將待訓(xùn)練term添加到對(duì)應(yīng)需求類型的種子term中;然后重復(fù)執(zhí)行實(shí)施例一所示流程進(jìn)行訓(xùn)練,直至滿足預(yù)設(shè)的訓(xùn)練要求。通過(guò)該過(guò)程實(shí)際上是采用待訓(xùn)練term擴(kuò)充了種子term的規(guī)模。其中預(yù)設(shè)的訓(xùn)練要求可以包括但不限于:重復(fù)執(zhí)行實(shí)施例一所示流程的次數(shù)達(dá)到預(yù)設(shè)次數(shù)值,或者,訓(xùn)練時(shí)長(zhǎng)達(dá)到預(yù)設(shè)的時(shí)長(zhǎng),或者,各需求類型中種子term的數(shù)量達(dá)到預(yù)設(shè)的數(shù)量要求,或者,各需求類型的種子term數(shù)量收斂。執(zhí)行上述流程之后,得到的需求分類模型中包含種子term以及種子term在各需求類型上的得分。基于該需求分類模型就可以進(jìn)行term的需求分類,下面結(jié)合實(shí)施例二對(duì)term的需求分類過(guò)程進(jìn)行詳細(xì)描述。實(shí)施例二、圖2為本發(fā)明實(shí)施例二提供的對(duì)term進(jìn)行需求分類的方法流程圖,如圖2所示,該方法具體包括以下步驟:步驟201:獲取待分類term的搜索結(jié)果。步驟202:將搜索結(jié)果的title、url和snippet中的至少一種泛化為模板。上述步驟201和步驟202中對(duì)待分類term的處理過(guò)程與實(shí)施例一的步驟101和步驟102中對(duì)種子term的處理過(guò)程相同,在此不再贅述。步驟203:查詢模板分類模型,確定各模板在各需求類型上的權(quán)值。步驟204:利用各模板在各需求類型上的權(quán)值,確定該待分類term在各需求類型上的得分。同樣,在本步驟中可以分別針對(duì)各需求類型將待分類term對(duì)應(yīng)的模板在需求類型中的權(quán)值進(jìn)行累加,得到待分類term在各需求類型上的得分。假設(shè)待分類term為“宏康和園”,則按照步驟201至步驟204執(zhí)行后得到該待分類term在各需求類型上的得分如表6所示。表6步驟205:分別針對(duì)每一個(gè)需求類型:利用待分類term在需求類型j上的得分與各種子term在需求類型j上的得分,確定待分類term在需求類型j上的置信度。在計(jì)算置信度時(shí),可以將待分類term在各需求類型上的得分與需求分類模型中種子term在各類型上的平均得分進(jìn)行比較。例如,按照如下公式計(jì)算termn在需求類型m上的置信度TNnm:其中scorenm為termn在需求類型m上的得分,avg(scorem)為需求分類模型中需求類型m的種子term在需求類型m上的得分平均值,αm為針對(duì)需求類型m設(shè)置的一個(gè)常量。如果采用方式二的方法,根據(jù)表6中待分類term在各需求類型上的得分,取各需求類型的αm為1,計(jì)算得到的待分類term在各需求類型上的置信度如表7所示。表7步驟206:依據(jù)待分類term在各需求類型上的置信度確定待分類term所屬的需求類型。在本步驟中,確定待分類term所屬的需求類型可以依據(jù)不同的策略進(jìn)行,包括但不限于以下幾種:策略1:將對(duì)應(yīng)置信度排在前N4個(gè)的需求類型確定為待分類term所屬的需求類型,N4為預(yù)設(shè)的正整數(shù)。策略2:將對(duì)應(yīng)置信度超過(guò)預(yù)設(shè)置信度閾值的需求類型確定為待分類term所屬的需求類型。策略3:按照預(yù)設(shè)的置信度與需求強(qiáng)度等級(jí)之間的對(duì)應(yīng)關(guān)系,確定待分類term在各需求類型上的強(qiáng)度等級(jí)。例如,預(yù)先設(shè)置三級(jí)需求強(qiáng)度等級(jí):強(qiáng)需求等級(jí)、弱需求等級(jí)和無(wú)需求等級(jí),按照預(yù)設(shè)的置信度與各需求強(qiáng)度等級(jí)之間的對(duì)應(yīng)關(guān)系,確定待分類term在各需求類型上具有強(qiáng)需求、弱需求和無(wú)需求中的一種。以表7為例,假設(shè)預(yù)先設(shè)置置信度在0.5以上對(duì)應(yīng)強(qiáng)需求,置信度在0.5和0.1之間對(duì)應(yīng)弱需求,置信度在0.1以下對(duì)應(yīng)無(wú)需求,則待分類term“宏康和園”在小區(qū)上具有強(qiáng)需求,在游戲、軟件、小說(shuō)和視頻上均無(wú)需求。以上是對(duì)本發(fā)明所提供的方法進(jìn)行的描述,下面結(jié)合實(shí)施例三和四對(duì)本發(fā)明所提供的裝置進(jìn)行詳細(xì)描述。實(shí)施例三、圖3為本發(fā)明實(shí)施例三提供的建立term需求分類模型的裝置結(jié)構(gòu)圖,如圖3所示,該裝置包括:模板模型建立單元300和需求模型建立單元310。模板模型建立單元300,用于分別針對(duì)各需求類型進(jìn)行訓(xùn)練得到模板分類模型,本發(fā)明涉及的需求類型可以包括但不限于:視頻類、游戲類、圖片類、歌曲類、軟件類等等大粒度的類別,也可以是更小粒度的類別,例如:電視劇類、電影類、手機(jī)視頻類等。其中,模板模型建立單元300具體包括:結(jié)果獲取子單元301、模板泛化子單元302和權(quán)值計(jì)算子單元303。結(jié)果獲取子單元301獲取當(dāng)前需求類型的種子term的搜索結(jié)果。種子term是人工針對(duì)各需求類型進(jìn)行配置的,或者人工在網(wǎng)頁(yè)資源中標(biāo)注的,或者從各需求類型的術(shù)語(yǔ)平臺(tái)獲取的。優(yōu)選地,結(jié)果獲取子單元301可以進(jìn)一步確定種子term與對(duì)應(yīng)搜索結(jié)果之間的相關(guān)度,將不滿足預(yù)設(shè)相關(guān)度要求的搜索結(jié)果過(guò)濾掉;或者,僅保留搜 索結(jié)果中排在N1個(gè)的搜索結(jié)果以供模板泛化子單元302進(jìn)行泛化,N1為預(yù)設(shè)的正整數(shù)。其中,種子term與搜索結(jié)果之間的相關(guān)度可以采用但不限于以下方式確定:搜索結(jié)果的標(biāo)題中包含的種子term的內(nèi)容長(zhǎng)度所占種子term長(zhǎng)度的比例,如果該比例大于預(yù)設(shè)的比例閾值,則確定搜索結(jié)果與種子term之間的相關(guān)度滿足預(yù)設(shè)的相關(guān)度要求,保留該搜索結(jié)果。通常在搜索結(jié)果的標(biāo)題中,與種子term重合的內(nèi)容會(huì)采用飄紅、飄黃等特殊標(biāo)注,因此可以判斷這些特殊標(biāo)注的長(zhǎng)度所占種子term長(zhǎng)度的比例是否大于預(yù)設(shè)的比例閾值。模板泛化子單元302將搜索結(jié)果的title、url和snippet中的至少一種泛化為模板。其中,對(duì)搜索結(jié)果的title或snippet進(jìn)行泛化時(shí),泛化方式可以包括但不限于以下中的至少一種:方式一、將搜索結(jié)果的title或snippet中與對(duì)應(yīng)種子term重疊的內(nèi)容采用通配符替代。方式二、將搜索結(jié)果的title或snippet與當(dāng)前需求類型的實(shí)體詞典進(jìn)行匹配,將title或snippet中匹配上的詞語(yǔ)替換為對(duì)應(yīng)實(shí)體的類別。方式三、將搜索結(jié)果的title或snippet與當(dāng)前需求類型的實(shí)體識(shí)別函數(shù)進(jìn)行匹配,將title或snippet中匹配上的詞語(yǔ)替換為實(shí)體識(shí)別函數(shù)的識(shí)別結(jié)果。模板泛化子單元302在對(duì)搜索結(jié)果的url的進(jìn)行泛化時(shí),將url的域名抽取出來(lái)作為模板;或者,具體執(zhí)行以下操作:操作A1、判斷搜索結(jié)果的url中是否存在“#”,如果是,執(zhí)行操作A2;否則直接執(zhí)行操作A3。操作A2、去掉“#”以及“#”之后的字符串,繼續(xù)執(zhí)行操作A3。操作A3、如果當(dāng)前url以“.html”或者“.htm”結(jié)尾,則去掉最后一個(gè)“/”之后的字符串;如果當(dāng)前url以“/”結(jié)尾,則去掉倒數(shù)第二個(gè)“/”之后的字符串;如果當(dāng)前url最后一個(gè)“/”之后的字符串中存在“?”,則去掉“?”以及“?”之后的字符串;其他情況則去掉最后一個(gè)“/”之后的字符串;操作A4、將當(dāng)前url中預(yù)設(shè)類型的字符串泛化成對(duì)應(yīng)的類型標(biāo)記。權(quán)值計(jì)算子單元303基于各模板在當(dāng)前需求類型的出現(xiàn)頻率值計(jì)算各模板在當(dāng)前需求類型中的權(quán)值。權(quán)值計(jì)算子單元303按照公式或者計(jì)算模板P在當(dāng)前需求類型中的權(quán)值SP。其中,TFP為模板P在當(dāng)前需求類型的出現(xiàn)頻率,T為當(dāng)前需求類型中種子term的數(shù)量,ITFP為模板P的ITF值。在計(jì)算TFP時(shí),可以按照公式其中,F(xiàn)P為模板P所來(lái)自的搜索結(jié)果i構(gòu)成的集合,Ri為模板P所來(lái)自的搜索結(jié)果i的排序值。在計(jì)算各模板的ITF值時(shí),可以按照計(jì)算模板的ITF值,其中,ITFP為模板P的ITF值,Tall為所有需求類型的數(shù)量,Tp為能泛化出模板P的種子term所在的需求類型數(shù)量。一種模板權(quán)值的計(jì)算方式,即為按照公式計(jì)算模板P在當(dāng)前需求類型中的權(quán)值SP。至此,由模板模型建立單元300可以得到包含模板以及模板在各需求類型的權(quán)值的模板分類模型。需求模型建立單元310針對(duì)每一個(gè)種子term,利用種子term對(duì)應(yīng)的模板在各需求類型中的權(quán)值,確定種子term在各需求類型上的得分,從而得到包含種子term以及種子term在各需求類型上的得分的term需求分類模型。具體地,需求模型建立單元310分別針對(duì)各需求類型,將種子term對(duì)應(yīng)的模板在該需求類型中的權(quán)值進(jìn)行累加,得到種子term該需求類型上的得分。為了更進(jìn)一步提高需求分類模型的準(zhǔn)確性,作為一種優(yōu)選的實(shí)施方式,該 裝置還包括:訓(xùn)練控制單元320,用于獲取待訓(xùn)練term,將待訓(xùn)練term提供給所述模板模型建立單元和需求模型建立單元以對(duì)所述待訓(xùn)練term執(zhí)行與所述種子term相同的處理,從所述需求模型建立單元獲取待訓(xùn)練term在各需求類型上的得分,再利用所述term需求分類模型對(duì)待訓(xùn)練term進(jìn)行分類,確定待訓(xùn)練term的需求類型,并將待訓(xùn)練term添加到對(duì)應(yīng)需求類型的種子term中,重新觸發(fā)模板模型建立單元300基于種子term進(jìn)行訓(xùn)練,直至滿足預(yù)設(shè)的訓(xùn)練要求。其中,訓(xùn)練要求包括:訓(xùn)練的次數(shù)達(dá)到預(yù)設(shè)的次數(shù)值,或者,訓(xùn)練時(shí)長(zhǎng)達(dá)到預(yù)設(shè)的時(shí)長(zhǎng),或者,各需求類型中種子term的數(shù)量達(dá)到預(yù)設(shè)的數(shù)量要求,或者,各需求類型的種子term數(shù)量收斂。實(shí)施例四、圖4為本發(fā)明實(shí)施例四提供的term需求分類裝置的結(jié)構(gòu)圖,如圖4所示,該裝置包括:結(jié)果獲取單元400、模板泛化單元410、權(quán)值計(jì)算單元420、得分確定單元430、置信度確定單元440以及類型確定單元450。結(jié)果獲取單元400獲取待分類term的搜索結(jié)果。為了減少計(jì)算量和準(zhǔn)確性,結(jié)果獲取單元400還可以進(jìn)一步確定待分類term與對(duì)應(yīng)搜索結(jié)果之間的相關(guān)度,將不滿足預(yù)設(shè)相關(guān)度要求的搜索結(jié)果過(guò)濾掉;或者,僅保留搜索結(jié)果中排在N2個(gè)的搜索結(jié)果以供模板泛化單元410進(jìn)行泛化,N2為預(yù)設(shè)的正整數(shù)。模板泛化單元410將搜索結(jié)果的title、url和snippet中至少一種泛化為模板。具體地,模板泛化單元410在對(duì)搜索結(jié)果的title或snippet進(jìn)行泛化時(shí),可以采用以下方式中的至少一種:方式一、將搜索結(jié)果的title或snippet中與待分類term重疊的內(nèi)容采用通配符替代。方式二、將搜索結(jié)果的title或snippet與各需求類型的實(shí)體詞典進(jìn)行匹配,將title或snippet中匹配上的詞語(yǔ)替換為對(duì)應(yīng)實(shí)體的類別。方式三、將搜索結(jié)果的title或snippet與各需求類型的實(shí)體識(shí)別函數(shù)進(jìn)行匹配,將title或snippet中匹配上的詞語(yǔ)替換為實(shí)體識(shí)別函數(shù)的識(shí)別結(jié)果。模板泛化單元410在對(duì)搜索結(jié)果的url進(jìn)行泛化時(shí),將url的域名抽取出來(lái)作為模板;或者,具體執(zhí)行以下操作:操作B1、判斷搜索結(jié)果的url中是否存在“#”,如果是,執(zhí)行操作B2;否則直接執(zhí)行操作B3。操作B2、去掉“#”以及“#”之后的字符串,繼續(xù)執(zhí)行操作B3。操作B3、如果當(dāng)前url以“.html”或者“.htm”結(jié)尾,則去掉最后一個(gè)“/”之后的字符串;如果當(dāng)前url以“/”結(jié)尾,則去掉倒數(shù)第二個(gè)“/”之后的字符串;如果當(dāng)前url最后一個(gè)“/”之后的字符串中存在“?”,則去掉“?”以及“?”之后的字符串;其他情況則去掉最后一個(gè)“/”之后的字符串;操作B4、將當(dāng)前url中預(yù)設(shè)類型的字符串泛化成對(duì)應(yīng)的類型標(biāo)記。權(quán)值計(jì)算單元420查詢模板分類模型,確定泛化得到的各模板在各需求類型上的權(quán)值。得分確定單元430利用各模板在各需求類型上的權(quán)值,確定待分類term在各需求類型上的得分。具體地,可以分別針對(duì)各需求類型,將泛化得到的模板在需求類型上的權(quán)值進(jìn)行累加,得到待分類term在各需求類型上的得分。置信度確定單元440分別針對(duì)每一個(gè)需求類型:利用待分類term在該需求類型上的得分與查詢term需求分類模型得到的各種子term在該需求類型上的得分,確定待分類term在該需求類型上的置信度。具體地,置信度確定單元440在確定待分類term在各需求類型上的置信度時(shí),按照計(jì)算待分類term在需求類型m上的置信度TNnm;其中,scorenm為待分類term在需求類型m上的得分,avg(scorem)為term需求分類模型中需求類型m的種子term在需求類型m上的得分平均值,αm為針對(duì)需求類型m設(shè)置的常量。類型確定單元450依據(jù)待分類term在各需求類型上的置信度確定待分類term所屬的需求類型。上述模板分類模型和term需求分類模型是按照實(shí)施例三所述裝置建立的。類型確定單元450可以按照如下方式確定待分類term所屬的需求類型:方式一、將對(duì)應(yīng)置信度排在前N4個(gè)的需求類型確定為待分類term所屬的需求類型,N4為預(yù)設(shè)的正整數(shù)。方式二、將對(duì)應(yīng)置信度超過(guò)預(yù)設(shè)置信度閾值的需求類型確定為待分類term所屬的需求類型。方式三、按照預(yù)設(shè)的置信度與需求強(qiáng)度等級(jí)之間的對(duì)應(yīng)關(guān)系,確定待分類term在各需求類型上的需求強(qiáng)度等級(jí)。由以上描述可以看出,本發(fā)明實(shí)施例提供的方法和裝置具備以下優(yōu)點(diǎn):1)利用種子term的搜索結(jié)果泛化出的模板在各需求類型的權(quán)值來(lái)確定種子term在各需求類型的權(quán)值,并進(jìn)一步確定種子term在各需求類型上的得分,從而得到term需求分類模型,并基于該需求分類模型對(duì)待分類term進(jìn)行分類。也就是說(shuō),利用檢索結(jié)果來(lái)逼近term的需求,能夠真實(shí)地反映term的需求類型,覆蓋搜索率較高的大量term,具有較高的準(zhǔn)確率和召回率。2)能夠真實(shí)地反映term的需求變遷及強(qiáng)度情況,比如“家常菜”,在沒(méi)有出電視劇之前,通常只具有菜譜類的搜索結(jié)果,就僅給出菜譜類的強(qiáng)需求,當(dāng)電視劇上映時(shí),電視劇類的搜索結(jié)果占上風(fēng),則視頻類成為強(qiáng)需求。3)基于搜索結(jié)果泛化模板作為特征的方式,這種大粒度、大片段的特征,能夠有效克服詞匯一級(jí)特征帶來(lái)的歧義問(wèn)題,從而提高需求識(shí)別的準(zhǔn)確率。4)本發(fā)明屬于弱監(jiān)督學(xué)習(xí),對(duì)訓(xùn)練語(yǔ)料的要求不高,需要給出若干需求類型的term即可,從術(shù)語(yǔ)平臺(tái)都可以輕松得到。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1