亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

確定詞素重要性分析模型的方法及裝置的制造方法_3

文檔序號:8543696閱讀:來源:國知局
可W結合預設模型的模型 參數(shù)的特點而獲取至少兩條訓練數(shù)據(jù)。
[0081] 由于在訓練預設模型W獲得詞素重要性分析模型時,需要用到查詢詞、查詢詞中 的任一詞素W及該任一詞素在該查詢詞中的重要性得分。因此,每條訓練數(shù)據(jù)至少包括一 個查詢詞、查詢詞中的任一詞素W及任一詞素在查詢詞中的重要性得分。
[0082] 其中,關于獲取至少兩條訓練數(shù)據(jù)的方式,本發(fā)明實施例不作具體限定。具體實施 時,獲取至少兩條訓練數(shù)據(jù)包括但不限于可W通過W下步驟來實現(xiàn):
[0083] 步驟一、從歷史查詢數(shù)據(jù)中獲取至少一個查詢詞。
[0084] 其中,本發(fā)明實施例不對歷史查詢數(shù)據(jù)的具體內(nèi)容進行限定,歷史查詢數(shù)據(jù)包括 但不限于為檢索日志、歷史擴展關系詞表及點擊日志中的至少一個歷史數(shù)據(jù)。另外,關于從 歷史查詢數(shù)據(jù)中獲取至少一個查詢詞的方式,可W有很多種。具體實施時,可W從歷史查詢 數(shù)據(jù)中選擇至少一條查詢數(shù)據(jù)作為獲取到的查詢詞。本發(fā)明實施例不對獲取歷史查詢數(shù)據(jù) 的方式進行限定,具體實施時,可W從搜索日志里自動挖掘歷史查詢數(shù)據(jù)。
[0085] 步驟二、獲取查詢詞中的至少一個詞素,并確定每個詞素在查詢詞中的重要性得 分。
[0086] 為了后續(xù)可W方便地使用獲取到的訓練數(shù)據(jù)對預設模型進行訓練,從而確定預設 模型中的模型參數(shù),需要確定查詢詞中的至少一個詞素,并確定每個詞素在所屬查詢詞中 的重要性得分。關于確定查詢詞中的至少一個詞素的方式,可W為在獲取到至少一個查詢 詞后,對獲取到的查詢詞進行切詞得到。其中,關于對獲取到的查詢詞進行切詞的方式,可 W有很多種。具體實施時,可W通過計算機程序把組成查詢詞的字符串序列切成一個個單 獨的詞素。例如,如果查詢詞為"魚在長江中游",如果用標記"/"將一個個詞素區(qū)別開來, 則對該查詢詞進行切詞得到的切詞結果為"魚/在/長江/中/游"。
[0087] 其中,關于確定每個詞素在查詢詞中的重要性得分的方式,本發(fā)明實施例不作具 體限定,具體實施時,可W根據(jù)歷史查詢數(shù)據(jù)的類型采用不同的方式確定每個詞素在查詢 詞中的重要性得分。具體詳見下面描述的內(nèi)容:
[0088] A;當歷史查詢數(shù)據(jù)為檢索日志中的歷史數(shù)據(jù)時,確定每個詞素在查詢詞中的重要 性得分的方式,包括但不限于:
[0089] (1)獲得查詢詞的所有詞素,并分別統(tǒng)計每個詞素出現(xiàn)的次數(shù)W及查詢詞中的所 有詞素出現(xiàn)的總次數(shù)。
[0090] 在分別統(tǒng)計每個詞素出現(xiàn)的次數(shù)W及查詢詞中的所有詞素出現(xiàn)的總次數(shù)時,可W w檢索會話為單位進行統(tǒng)計。其中,檢索會話可w根據(jù)用戶id、檢索時間、查詢詞之間的文 本相關程度劃分得到。在本發(fā)明實施例中,可W將半小時內(nèi)同一個用戶檢索的,且查詢詞之 間的文本相關性大于一定闊值的連續(xù)檢索序列作為一個檢索會話。例如,如果在半小時內(nèi) 同一用戶在搜索引擎中輸入的查詢詞分別為"多吃±豆可W長高嗎","怎樣才能長高呢", "運動可W長高嗎","長高秘訣",則該些查詢詞構成一個連續(xù)檢索序列。如果設置的闊值為 0. 5,且通過計算該些查詢詞之間的文本相關性得到該些查詢詞的文本相關性為0. 8,因此, 確定該些查詢詞之間的文本相關性大于一定闊值。因此,可W將該些查詢詞構成的連續(xù)檢 索序列作為一個檢索會話。當然,此處僅W半小時為一個檢索會話的時間為例進行了舉例 說明,具體實施時,檢索會話的持續(xù)時間也可W為其它時間間隔,本發(fā)明實施例對此不作具 體限定。另外,關于計算查詢詞的文本相關性的方法,本發(fā)明實施例不作具體限定。
[0091] 在獲得查詢詞的所有詞素時,可W將該檢索會話中的每個查詢詞進行切詞得到查 詢詞中的所有詞素。在對該檢索會話中的所有查詢詞切詞之后,可W分別統(tǒng)計每個詞素出 現(xiàn)的次數(shù)W及查詢詞中的所有詞素出現(xiàn)的總次數(shù)。
[0092] 需要說明的是,當切詞后的詞素為同義詞時,在統(tǒng)計某個詞素出現(xiàn)的次數(shù)時,需要 將該詞素的同義詞的出現(xiàn)次數(shù)也累加到該詞素出現(xiàn)的次數(shù)中。例如,如果某一檢索會話為 "多吃±豆可W長高嗎","怎樣才能長高呢","運動可W長高嗎","長高秘訣","增高藥淘 寶"。在該檢索會話中,"長高"與"增高"是同義詞,因此,在統(tǒng)計"長高"出現(xiàn)次數(shù)時,應該 把"增高"和"長高"作為一個整體進行統(tǒng)計。其中,關于確定某一詞素是否為另一詞素的 同義詞的方式,可W有很多種,本實施例對此不作具體限定,包括但不限于可W通過加載額 外的同義詞詞典來實現(xiàn)。
[0093] (2)根據(jù)每個詞素出現(xiàn)的次數(shù)W及查詢詞中的所有詞素出現(xiàn)的總次數(shù)確定每個詞 素在查詢詞中的重要性得分。
[0094] 統(tǒng)計每個詞素出現(xiàn)的次數(shù)W及查詢詞中的所有詞素出現(xiàn)的總次數(shù)之后,便可W根 據(jù)每個詞素出現(xiàn)的次數(shù)W及該詞素所屬的查詢詞中的所有詞素出現(xiàn)的總次數(shù)確定每個詞 素在所屬查詢詞中的重要性得分。關于根據(jù)每個詞素出現(xiàn)的次數(shù)W及所屬的查詢詞中的所 有詞素出現(xiàn)的總次數(shù)確定每個詞素在所屬查詢詞中的重要性得分的方式,可W有很多種。 具體實施時,包括但不限于根據(jù)每個詞素出現(xiàn)的次數(shù)W及該詞素所屬的查詢詞中的所有詞 素出現(xiàn)的總次數(shù)通過下述公式確定每個詞素在所屬查詢詞中的重要性得分:
[0095]
【主權項】
1. 一種確定詞素重要性分析模型的方法,其特征在于,所述方法包括: 獲取至少兩條訓練數(shù)據(jù),每條訓練數(shù)據(jù)包括一個查詢詞、所述查詢詞中的任一詞素以 及所述任一詞素在所述查詢詞中的重要性得分; 確定每條訓練數(shù)據(jù)的每個預設特征的特征值,所述預設特征至少包括詞素自解釋特征 及詞素交叉特征中的一種特征; 根據(jù)所有訓練數(shù)據(jù)的每個預設特征的特征值及所有訓練數(shù)據(jù)中包括的詞素的重要性 得分確定模型參數(shù),并根據(jù)確定的模型參數(shù)確定詞素重要性分析模型; 其中,所述模型參數(shù)的數(shù)量由所述預設特征的數(shù)量確定,且所述模型參數(shù)的數(shù)量不大 于所述訓練數(shù)據(jù)的數(shù)量。
2. 根據(jù)權利要求1所述的方法,其特征在于,所述獲取至少兩條訓練數(shù)據(jù),包括: 從歷史查詢數(shù)據(jù)中獲取至少一個查詢詞,所述歷史查詢數(shù)據(jù)為檢索日志、歷史擴展關 系詞表及點擊日志中的至少一個歷史數(shù)據(jù); 獲取所述查詢詞中的至少一個詞素,并確定每個詞素在所述查詢詞中的重要性得分; 根據(jù)獲取的查詢詞、每個查詢詞中的詞素以及各個詞素在所屬查詢詞中的重要性得分 確定至少兩條訓練數(shù)據(jù)。
3. 根據(jù)權利要求2所述的方法,其特征在于,所述歷史查詢數(shù)據(jù)為檢索日志中的歷史 數(shù)據(jù); 所述確定每個詞素在所述查詢詞中的重要性得分,包括: 獲得所述查詢詞的所有詞素,并分別統(tǒng)計每個詞素出現(xiàn)的次數(shù)以及所述查詢詞中的所 有詞素出現(xiàn)的總次數(shù); 根據(jù)每個詞素出現(xiàn)的次數(shù)以及所述查詢詞中的所有詞素出現(xiàn)的總次數(shù)確定每個詞素 在所述查詢詞中的重要性得分。
4. 根據(jù)權利要求2所述的方法,其特征在于,所述歷史查詢數(shù)據(jù)為歷史擴展關系詞表 中的歷史數(shù)據(jù),所述歷史數(shù)據(jù)包括查詢詞及所述查詢詞對應的關系詞; 所述確定每個詞素在所述查詢詞中的重要性得分,包括: 獲得所述查詢詞的所有詞素,并分別統(tǒng)計每個詞素出現(xiàn)的次數(shù)以及所述查詢詞對應的 關系詞中包含每個詞素的關系詞的總個數(shù); 根據(jù)每個詞素出現(xiàn)的次數(shù)以及所述查詢詞對應的關系詞中包含每個詞素的關系詞的 總個數(shù)確定每個詞素在所述查詢詞中的重要性得分。
5. 根據(jù)權利要求2所述的方法,其特征在于,所述歷史查詢數(shù)據(jù)為點擊日志中的歷史 數(shù)據(jù),所述歷史數(shù)據(jù)包括查詢詞及所述查詢詞對應的點擊詞構成的查詢詞點擊詞對; 所述確定每個詞素在所述查詢詞中的重要性得分,包括: 統(tǒng)計具有共有詞素的查詢詞點擊詞對的展示次數(shù)和點擊次數(shù),并統(tǒng)計每個共有詞素對 應的累加展示次數(shù)和累加點擊次數(shù); 根據(jù)所述每個共有詞素對應的累加展示次數(shù)和累加點擊次數(shù)確定所述查詢詞中每個 詞素對應的展示次數(shù)和點擊次數(shù),根據(jù)所述查詢詞中每個詞素對應的展示次數(shù)和點擊次數(shù) 確定每個詞素在所述查詢詞中的重要性得分。
6. 根據(jù)權利要求1至5中任一權利要求所述的方法,其特征在于,所述詞素自解釋特征 至少包括詞素專名類型特征、詞素逆向文件頻率特征、詞素分詞特征、詞素在查詢詞中的位 置特征及詞素的全局核心得分特征中的一種特征; 所述詞素交叉特征至少包括詞素與詞素所屬查詢詞中其它詞素的字面交叉特征、查詢 詞中詞素轉(zhuǎn)移概率的平均值特征、詞素的第一轉(zhuǎn)移概率特征和詞素的第二轉(zhuǎn)移概率
當前第3頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1