1.一種問(wèn)答對(duì)分類模型的訓(xùn)練方法,包括:
獲取問(wèn)答對(duì)數(shù)據(jù);
從所述問(wèn)答對(duì)數(shù)據(jù)中提取問(wèn)答對(duì)特征;
根據(jù)所述問(wèn)答對(duì)數(shù)據(jù)的質(zhì)量對(duì)所述問(wèn)答對(duì)數(shù)據(jù)標(biāo)注分類標(biāo)簽;
采用所述問(wèn)答對(duì)特征與所述分類標(biāo)簽訓(xùn)練問(wèn)答對(duì)分類模型。
2.如權(quán)利要求1所述的方法,其特征在于,所述問(wèn)答對(duì)特征包括如下的一種或多種:
提問(wèn)者特征、回答者特征、問(wèn)答對(duì)文本語(yǔ)義特征、問(wèn)答對(duì)數(shù)字特征、用戶反饋特征。
3.如權(quán)利要求1-2任一項(xiàng)所述的方法,其特征在于,所述問(wèn)答對(duì)數(shù)據(jù)包括問(wèn)題與答案,所述問(wèn)答對(duì)文本語(yǔ)義特征包括問(wèn)答對(duì)配對(duì)特征;
所述從所述問(wèn)答對(duì)數(shù)據(jù)中提取問(wèn)答對(duì)特征的步驟包括:
查找所述問(wèn)題中的詞項(xiàng)與所述答案中的詞項(xiàng)共現(xiàn)的詞對(duì);
統(tǒng)計(jì)所述共現(xiàn)的詞對(duì)的數(shù)量,作為問(wèn)答對(duì)配對(duì)特征。
4.如權(quán)利要求1-3任一項(xiàng)所述的方法,其特征在于,所述問(wèn)答對(duì)數(shù)據(jù)包括問(wèn)題與答案,所述問(wèn)答對(duì)文本語(yǔ)義特征包括問(wèn)答對(duì)最小路由距離;
所述從所述問(wèn)答對(duì)數(shù)據(jù)中提取問(wèn)答對(duì)特征的步驟包括:
從所述問(wèn)題中提取關(guān)鍵詞,生成問(wèn)題關(guān)鍵詞集合;
從所述答案中提取關(guān)鍵詞,生成答案關(guān)鍵詞集合;
計(jì)算所述問(wèn)題關(guān)鍵詞集合和所述答案關(guān)鍵詞集合之間相似度;
將所述相似度進(jìn)行累積,獲得問(wèn)答對(duì)最小路由距離。
5.如權(quán)利要求1-4任一項(xiàng)所述的方法,其特征在于,所述問(wèn)答對(duì)數(shù)據(jù)包括問(wèn)題與答案,所述問(wèn)答對(duì)文本語(yǔ)義特征包括問(wèn)答對(duì)句子相似度;
所述從所述問(wèn)答對(duì)數(shù)據(jù)中提取問(wèn)答對(duì)特征的步驟包括:
將所述問(wèn)題轉(zhuǎn)換為第一句子向量;
將所述答案轉(zhuǎn)換為第二句子向量;
計(jì)算所述第一句子向量與所述第二句子向量之間的相似度,作為問(wèn)答對(duì)句子相似度。
6.如權(quán)利要求1-5任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述問(wèn)答對(duì)數(shù)據(jù)的質(zhì)量對(duì)所述問(wèn)答對(duì)數(shù)據(jù)標(biāo)注分類標(biāo)簽的步驟包括:
查找搜索所述問(wèn)答對(duì)數(shù)據(jù)時(shí)記錄的搜索記錄數(shù)據(jù);
根據(jù)所述搜索記錄數(shù)據(jù)對(duì)所述問(wèn)答對(duì)數(shù)據(jù)標(biāo)注分類標(biāo)簽。
7.如權(quán)利要求1-6任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述搜索記錄數(shù)據(jù)對(duì)所述問(wèn)答對(duì)數(shù)據(jù)標(biāo)注分類標(biāo)簽的步驟包括:
挖掘所述問(wèn)答對(duì)數(shù)據(jù)在搜索關(guān)鍵詞下的平均點(diǎn)擊權(quán)重;
挖掘所述問(wèn)答對(duì)數(shù)據(jù)在搜索關(guān)鍵詞下的最后一次點(diǎn)擊權(quán)重;
采用所述平均點(diǎn)擊權(quán)重和所述最后一次點(diǎn)擊權(quán)重?cái)M合連續(xù)分值;
將所述連續(xù)分值離散化為分類標(biāo)簽。
8.如權(quán)利要求1-7任一項(xiàng)所述的方法,其特征在于,所述挖掘所述問(wèn)答對(duì)數(shù)據(jù)在搜索關(guān)鍵詞下的平均點(diǎn)擊權(quán)重的步驟包括:
記錄所述問(wèn)答對(duì)數(shù)據(jù)所屬網(wǎng)頁(yè)的地址;
計(jì)算所述地址在指定的搜索關(guān)鍵詞下的點(diǎn)擊分值;
采用所述點(diǎn)擊分值計(jì)算所述地址在指定的搜索關(guān)鍵詞下的點(diǎn)擊分值分布信息;
采用所述點(diǎn)擊分值分布信息計(jì)算所述問(wèn)答對(duì)數(shù)據(jù)在搜索關(guān)鍵詞下的平均點(diǎn)擊權(quán)重。
9.如權(quán)利要求1-8任一項(xiàng)所述的方法,其特征在于,所述計(jì)算所述地址在指定的搜索關(guān)鍵詞下的點(diǎn)擊分值的步驟包括:
統(tǒng)計(jì)所述地址在指定的關(guān)鍵詞下的點(diǎn)擊次數(shù);
統(tǒng)計(jì)指定的關(guān)鍵詞的搜索次數(shù);
采用所述點(diǎn)擊次數(shù)與所述搜索次數(shù)計(jì)算所述地址在指定的搜索關(guān)鍵詞下的點(diǎn)擊分值。
10.一種問(wèn)答對(duì)分類模型的訓(xùn)練裝置,包括:
問(wèn)答對(duì)數(shù)據(jù)獲取模塊,適于獲取問(wèn)答對(duì)數(shù)據(jù);
問(wèn)答對(duì)特征提取模塊,適于從所述問(wèn)答對(duì)數(shù)據(jù)中提取問(wèn)答對(duì)特征;
分類標(biāo)簽標(biāo)注模塊,適于根據(jù)所述問(wèn)答對(duì)數(shù)據(jù)的質(zhì)量對(duì)所述問(wèn)答對(duì)數(shù)據(jù)標(biāo)注分類標(biāo)簽;
模型訓(xùn)練模塊,適于采用所述問(wèn)答對(duì)特征與所述分類標(biāo)簽訓(xùn)練問(wèn)答對(duì)分類模型。