特征、 詞素的文本分類相關特征、詞素的主題分布和詞素所屬查詢詞的主題分布的第一交叉特 征、概率潛語義分析PLSA主題相似度特征中的一種特征。
7. 根據權利要求6所述的方法,其特征在于,所述預設特征包括所述詞素交叉特征中 的查詢詞中詞素轉移概率的平均值特征時,所述確定每條訓練數據的每個預設特征的特征 值,包括: 根據轉移概率詞典獲取每條訓練數據中的詞素與所述每條訓練數據中的詞素所屬的 查詢詞中的其它詞素之間的轉移概率; 確定每條訓練數據中的詞素與所述每條訓練數據中的詞素所屬的查詢詞中的其它詞 素之間轉移概率的平均值,并將轉移概率的平均值確定為所述查詢詞中詞素轉移概率的平 均值特征的特征值。
8. 根據權利要求6所述的方法,其特征在于,所述預設特征包括所述詞素交叉特征中 的詞素的第一轉移概率特征和詞素的第二轉移概率特征時,所述確定每條訓練數據的每個 預設特征的特征值,包括: 從轉移概率詞典中查詢每條訓練數據中的詞素的第一轉移概率的概率值和詞素的第 二轉移概率的概率值,并將所述第一轉移概率的概率值和所述第二轉移概率的概率值分別 確定為所述詞素的第一轉移概率特征和詞素的第二轉移概率特征的特征值。
9. 根據權利要求7或8所述的方法,其特征在于,所述方法還包括: 將檢索會話包括的查詢詞成對輸出,獲得多個查詢詞對,其中,獲得的每個查詢詞對包 括第一查詢詞和第二查詢詞; 對所述檢索會話包括的所有查詢詞對中的第一查詢詞和第二查詢詞切詞,將第一查詢 詞中的每個詞素與第二查詢詞中的每個詞素組合獲得詞素對,每個詞素對包括所述第一查 詢詞中的第一詞素和所述第二查詢詞中的第二詞素; 統(tǒng)計任一詞素對在所述檢索會話中出現的次數以及所述任一詞素對中第一詞素和第 二詞素單獨出現的次數; 根據所述任一詞素對在所述檢索會話中出現的次數以及所述任一詞素對中第二詞素 單獨出現的次數確定所述任一詞素對中第一詞素相對于第二詞素的轉移概率,根據所述任 一詞素對在所述檢索會話中出現的次數以及所述任一詞素對中第一詞素單獨出現的次數 確定所述第二詞素相對于第一詞素的轉移概率; 根據所有詞素對中第一詞素相對于第二詞素的轉移概率及第二詞素相對于第一詞素 的轉移概率獲得轉移概率詞典。
10. 根據權利要求6所述的方法,其特征在于,所述預設特征包括所述詞素交叉特征中 的詞素的文本分類相關特征,且所述詞素的文本分類相關特征包括詞素與詞素分類庫中的 每個詞素類別的相關特征時,所述確定每條訓練數據的每個預設特征的特征值,包括: 獲取每條訓練數據中的詞素所屬所述詞素分類庫中的第一預設數值個詞素類別,確定 所述每條訓練數據中的詞素與所述第一預設數值個詞素類別的相關特征的特征值為第一 特征值,并確定所述每條訓練數據中的詞素與所述詞素分類庫中除所述第一預設數值個詞 素類別之外的其它詞素類別的相關特征的特征值為第二特征值。
11. 根據權利要求10所述的方法,其特征在于,所述詞素的文本分類相關特征還包括 詞素與查詢詞分類庫中的每個查詢詞類別的相關特征時,所述確定每條訓練數據的每個預 設特征的特征值,還包括: 獲取每條訓練數據中的詞素所屬的查詢詞在所述查詢詞分類庫中的第二預設數值個 查詢詞類別,確定所述每條訓練數據中的詞素與所述第二預設數值個查詢詞類別的相關特 征的特征值為第三特征值,并確定所述每條訓練數據中的詞素與所述查詢詞分類庫中除所 述第二預設數值個查詢詞類別之外的其它查詢詞類別的相關特征的特征值為第四特征值。
12. 根據權利要求11所述的方法,其特征在于,所述詞素的文本分類相關特征還包括 詞素所屬詞素類別及詞素所屬的查詢詞所屬查詢詞類別的第二交叉特征時,所述確定每條 訓練數據的每個預設特征的特征值,還包括: 確定每條訓練數據中的詞素所屬所述詞素分類庫中的第一預設數值個詞素類別下的 每個子詞素類別,并確定每條訓練數據中的詞素所屬的查詢詞所屬所述查詢詞分類庫中的 第二預設數值個查詢詞類別下的每個子查詢詞類別; 將每個子詞素類別與每個子查詢詞類別構成一個第二交叉特征,如果任一第二交叉特 征中的子詞素類別與子查詢詞類別相同,則確定所述任一第二交叉特征的特征值為第五特 征值,如果任一第二交叉特征中的子詞素類別與子查詢詞類別不同,則確定所述任一第二 交叉特征的特征值為第六特征值。
13. 根據權利要求6所述的方法,其特征在于,所述預設特征包括所述詞素交叉特征中 的詞素的主題分布和詞素所屬查詢詞的主題分布的第一交叉特征,所述確定每條訓練數據 的每個預設特征的特征值,包括: 獲取每條訓練數據中的詞素所屬詞素主題庫中的第三預設數值個詞素主題分布,并獲 取每條訓練數據中的詞素所屬的查詢詞在所屬查詢詞主題庫中的第四預設數值個查詢詞 主題分布; 確定每條訓練數據中的詞素所屬所述詞素主題庫中的第三預設數值個詞素主題分布 下的每個子詞素主題分布,并確定每條訓練數據中的詞素所屬的查詢詞在所屬所述查詢詞 主題庫中的第四預設數值個查詢詞主題分布下的每個子查詢詞主題分布; 將每個子詞素主題分布與每個子查詢詞主題分布構成一個第一交叉特征,如果任一第 一交叉特征中的子詞素主題分布與子查詢詞主題分布相同,則確定所述任一第一交叉特征 的特征值為第七特征值,如果任一第一交叉特征中的子詞素主題分布與子查詢詞主題分布 不同,則確定所述任一第一交叉特征的特征值為第八特征值。
14. 根據權利要求6所述的方法,其特征在于,所述預設特征包括所述詞素交叉特征中 的PLSA主題相似度特征,所述確定每條訓練數據的每個預設特征的特征值,包括: 獲取每條訓練數據中的詞素所屬詞素主題庫中的第三預設數值個詞素主題分布,并獲 取每個訓練數據中的詞素所屬的查詢詞在所屬查詢詞主題庫中的第四預設數值個查詢詞 主題分布; 計算每個詞素主題分布與每個查詢詞主題分布的主題相似度值,并將計算得到的每個 主題相似度值確定為PLSA主題相似度特征的特征值。
15. -種確定詞素重要性分析模型的裝置,其特征在于,所述裝置包括: 獲取模塊,用于獲取至少兩條訓練數據,每條訓練數據包括一個查詢詞、所述查詢詞中 的任一詞素以及所述任一詞素在所述查詢詞中的重要性得分; 第一確定模塊,用于確定每條訓練數據的每個預設特征的特征值,所述預設特征至少 包括詞素自解釋特征及詞素交叉特征中的一種特征; 第二確定模塊,用于根據所有訓練數據的每個預設特征的特征值及所有訓練數據中包 括的詞素的重要性得分確定模型參數,所述模型參數的數量由所述預設特征的數量確定, 且所述模型參數的數量不大于所述訓練數據的數量; 第三確定模塊,用于根據確定的模型參數確定詞素重要性分析模型。
16. 根據權利要求15所述的裝置,其特征在于,所述獲取模塊,包括: 第一獲取單元,用于從歷史查詢數據中獲取至少一個查詢詞,所述歷史查詢數據為檢 索日志、歷史擴展關系詞表及點擊日志中的至少一個歷史數據; 第二獲取單元,用于獲取所述查詢詞中的至少一個詞素; 第一確定單元,用于確定每個詞素在所述查詢詞中的重要性得分; 第二確定單元,用于根據獲取的查詢詞、每個查詢詞中的詞素以及各個詞素在所屬查 詢詞中的重要性得分確定至少兩條訓練數據。
17. 根據權利要求16所述的裝置,其特征在于,當所述歷史查詢數據為檢索日志中的 歷史數據時,所述第二確定單元,包括: 第一獲得子單元,用于獲得所述查詢詞的所有詞素; 第一統(tǒng)計子單元,用于分別統(tǒng)計每個詞素出現的次數以及所述查詢詞中的所有詞素出 現的總次數; 第一確定子單元,用于根據每個詞素出現的次數以及所述查詢詞中的所有詞素出現的 總次數確定每個詞素在所述查詢詞中的重要性得分。
18. 根據權利要求16所述的裝置,其特征在于,當所述歷史查詢數據為歷史擴展關系 詞表中的歷史數據,且所述歷史數據包括查詢詞及所述查詢詞對應的關系詞時,所述第二 確定單元,包括: 第二獲得子單元,用于獲得所述查詢詞的所有詞素; 第二統(tǒng)計子單元,用于分別統(tǒng)計每個詞素出現的次數以及所述查詢詞對應的關系詞中 包含每個詞素的關系詞的總個數; 第二確定子單元,用于根據每個詞素出現的次數以及所述查詢詞對應的關系詞中包含 每個詞素的關系詞的總個數確定每個詞素在所述查詢詞中的重要性得分。
19. 根據權利要求16所述的裝置,其特征在于,當所述歷史查詢數據為點擊日志中的 歷史數據,且所述歷史數據