確定詞素重要性分析模型的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,特別涉及一種確定詞素重要性分析模型的方法及裝置。
【背景技術(shù)】
[0002] 在信息檢索領(lǐng)域,通常用戶會(huì)在搜索引擎中輸入某一查詢?cè)~來從互聯(lián)網(wǎng)上獲取與 輸入的查詢?cè)~有關(guān)的信息。為了明確用戶的檢索意圖,搜索引擎在獲取到用戶輸入的查詢 詞后,通常會(huì)對(duì)用戶輸入的查詢?cè)~進(jìn)行切詞,獲得該查詢?cè)~包含的各個(gè)詞素后,分析該查詢 詞中的任一詞素在該查詢?cè)~中的重要性,從而根據(jù)任一詞素在查詢?cè)~中的重要性來提供滿 足用戶真正需求的信息和服務(wù)。而在分析詞素在查詢?cè)~中的重要性時(shí),通常需要通過相應(yīng) 的詞素重要性分析模型來實(shí)現(xiàn),因此,有必要提出一種確定詞素重要性分析模型的方法。
[0003] 相關(guān)技術(shù)在確定詞素重要性分析模型時(shí),通常采用的方法為:抽取一些查詢?cè)~及 其切詞后的詞素,通過人工標(biāo)注的方法確定各個(gè)詞素在查詢?cè)~中的重要性,并W每個(gè)詞素 的重要性得分作為評(píng)價(jià)各個(gè)詞素在查詢?cè)~中的重要性的標(biāo)準(zhǔn);將若干個(gè)人工標(biāo)注獲得的查 詢?cè)~、查詢?cè)~中的某一詞素W及該詞素在查詢?cè)~中的重要性得分作為獲取到的訓(xùn)練數(shù)據(jù), 并通過獲取到的訓(xùn)練數(shù)據(jù)訓(xùn)練決策樹模型,從而將訓(xùn)練得到的模型作為確定的詞素重要性 分析模型。
[0004] 在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)相關(guān)技術(shù)至少存在W下問題:
[0005]由于相關(guān)技術(shù)通常會(huì)建立決策樹模型來分析詞素的重要性,而由于決策樹模型層 次結(jié)構(gòu)較多,運(yùn)算速度較慢,因此,在利用確定的決策樹模型來分析詞素重要性時(shí),分析速 度較慢,導(dǎo)致分析詞素在查詢?cè)~中的重要性的效率較低。另外,由于決策樹模型對(duì)連續(xù)的字 段難W作出準(zhǔn)確的預(yù)測,因此,當(dāng)使用確定的決策樹模型分析詞素在查詢?cè)~中的重要性時(shí), 準(zhǔn)確性不高。
【發(fā)明內(nèi)容】
[0006] 為了解決相關(guān)技術(shù)的問題,本發(fā)明實(shí)施例提供了一種確定詞素重要性分析模型的 方法及裝置。所述技術(shù)方案如下:
[0007] 第一方面,提供了一種確定詞素重要性分析模型的方法,所述方法包括:
[0008] 獲取至少兩條訓(xùn)練數(shù)據(jù),每條訓(xùn)練數(shù)據(jù)包括一個(gè)查詢?cè)~、所述查詢?cè)~中的任一詞 素W及所述任一詞素在所述查詢?cè)~中的重要性得分;
[0009] 確定每條訓(xùn)練數(shù)據(jù)的每個(gè)預(yù)設(shè)特征的特征值,所述預(yù)設(shè)特征至少包括詞素自解釋 特征類及詞素交叉特征類中的一種特征;
[0010] 根據(jù)所有訓(xùn)練數(shù)據(jù)的每個(gè)預(yù)設(shè)特征的特征值及所有訓(xùn)練數(shù)據(jù)中包括的詞素的重 要性得分確定模型參數(shù),并根據(jù)確定的模型參數(shù)確定詞素重要性分析模型,其中,所述模型 參數(shù)的數(shù)量由所述預(yù)設(shè)特征的數(shù)量確定,且所述模型參數(shù)的數(shù)量不大于所述訓(xùn)練數(shù)據(jù)的數(shù) 量。
[0011] 第二方面,提供了一種確定詞素重要性分析模型的裝置,所述裝置包括:
[0012] 獲取模塊,用于獲取至少兩條訓(xùn)練數(shù)據(jù),每條訓(xùn)練數(shù)據(jù)包括一個(gè)查詢?cè)~、所述查詢 詞中的任一詞素W及所述任一詞素在所述查詢?cè)~中的重要性得分;
[0013] 第一確定模塊,用于確定每條訓(xùn)練數(shù)據(jù)的每個(gè)預(yù)設(shè)特征的特征值,所述預(yù)設(shè)特征 至少包括詞素自解釋特征類及詞素交叉特征類中的一種特征;
[0014] 第二確定模塊,用于根據(jù)所有訓(xùn)練數(shù)據(jù)的每個(gè)預(yù)設(shè)特征的特征值及所有訓(xùn)練數(shù)據(jù) 中包括的詞素的重要性得分確定模型參數(shù),所述模型參數(shù)的數(shù)量由所述預(yù)設(shè)特征的數(shù)量確 定,且所述模型參數(shù)的數(shù)量不大于所述訓(xùn)練數(shù)據(jù)的數(shù)量;
[0015] 第H確定模塊,用于根據(jù)確定的模型參數(shù)確定詞素重要性分析模型。
[0016] 本發(fā)明實(shí)施例提供的技術(shù)方案帶來的有益效果是:
[0017] 通過獲取到的訓(xùn)練數(shù)據(jù)確定模型參數(shù),并根據(jù)確定的模型參數(shù)確定詞素重要性分 析模型,進(jìn)而實(shí)現(xiàn)在通過詞素重要性分析模型分析詞素重要性時(shí),不僅運(yùn)算速度較快,提高 了分析詞素重要性的效率,而且準(zhǔn)確性較高。
【附圖說明】
[0018]為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可W根據(jù)該些附圖獲得其他 的附圖。
[0019]圖1是本發(fā)明實(shí)施例一提供的一種確定詞素重要性分析模型的方法流程圖;
[0020] 圖2是本發(fā)明實(shí)施例二提供的一種確定詞素重要性分析模型的方法流程圖;
[0021]圖3是本發(fā)明實(shí)施例H提供的一種確定詞素重要性分析模型的裝置結(jié)構(gòu)示意圖;
[0022] 圖4是本發(fā)明實(shí)施例四提供的一種服務(wù)器的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0023] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方 式作進(jìn)一步地詳細(xì)描述。
[0024] 在文本挖掘與檢索領(lǐng)域,對(duì)一個(gè)查詢?cè)~進(jìn)行切詞得到各個(gè)詞素之后,經(jīng)常需要分 析各個(gè)詞素在該查詢?cè)~中的重要程度。譬如在文本檢索時(shí),當(dāng)用戶在搜索引擎中輸入一個(gè) 查詢?cè)~后,可W通過分析該查詢?cè)~中各個(gè)詞素的重要性來確定該查詢?cè)~中最重要的詞素, 并挑選最重要的詞素優(yōu)先檢索,從而提供滿足用戶真正需求的信息和服務(wù)。例如,如果給定 一個(gè)查詢?cè)~T,對(duì)該查詢?cè)~進(jìn)行切詞獲得的切詞結(jié)果為T=tit2t3t4......t。,!!為切詞后詞素的 個(gè)數(shù),ti表示該查詢?cè)~中具體的詞素。對(duì)于每個(gè)詞素ti,可W分別對(duì)應(yīng)一個(gè)重要性得分 來表示詞素ti在查詢?cè)~T中的重要程度,WiG[0,l],Wi越大,表示詞素ti在查詢?cè)~T中的 重要程度越強(qiáng)。因此,在分析出該查詢?cè)~中最重要的詞素后,便可根據(jù)該最重要的詞素來為 用戶提供與該最重要的詞素相關(guān)的信息和服務(wù)。
[00巧]實(shí)際應(yīng)用中,在確定查詢?cè)~中各個(gè)詞素的重要程度時(shí),通常會(huì)預(yù)先確定一個(gè)用于 分析詞素在查詢?cè)~中重要性的模型,并通過該確定的模型來分析詞素在查詢?cè)~中的重要 性。本發(fā)明實(shí)施例即提供了一種確定詞素在查詢?cè)~中重要性的詞素重要性分析模型。通過 該確定的模型,可W分析詞素在查詢?cè)~中的重要性,從而確定查詢?cè)~中最重要的詞素。
[0026] 其中,具體的確定詞素重要性分析模型的方法詳見下述實(shí)施例一和實(shí)施例二:
[0027] 實(shí)施例一
[0028] 結(jié)合上述內(nèi)容,本發(fā)明實(shí)施例提供了一種確定詞素重要性分析模型的方法。參見 圖1,本發(fā)明實(shí)施例提供的方法流程包括:
[0029] 101;獲取至少兩條訓(xùn)練數(shù)據(jù),每條訓(xùn)練數(shù)據(jù)包括一個(gè)查詢?cè)~、查詢?cè)~中的任一詞 素W及任一詞素在查詢?cè)~中的重要性得分;
[0030] 優(yōu)選地,獲取至少兩條訓(xùn)練數(shù)據(jù),包括:
[0031] 從歷史查詢數(shù)據(jù)中獲取至少一個(gè)查詢?cè)~,歷史查詢數(shù)據(jù)為檢索日志、歷史擴(kuò)展關(guān) 系詞表及點(diǎn)擊日志中的至少一個(gè)歷史數(shù)據(jù);
[0032] 獲取查詢?cè)~中的至少一個(gè)詞素,并確定每個(gè)詞素在查詢?cè)~中的重要性得分;
[0033] 根據(jù)獲取的查詢?cè)~、每個(gè)查詢?cè)~中的詞素W及各個(gè)詞素在所屬查詢?cè)~中的重要性 得分確定至少兩條訓(xùn)練數(shù)據(jù)。
[0034] 優(yōu)選地,歷史查詢數(shù)據(jù)為檢索日志中的歷史數(shù)據(jù);
[00巧]確定每個(gè)詞素在查詢?cè)~中的重要性得分,包括:
[0036] 獲得查詢?cè)~的所有詞素,并分別統(tǒng)計(jì)每個(gè)詞素出現(xiàn)的次數(shù)W及查詢?cè)~中的所有詞 素出現(xiàn)的總次數(shù);
[0037] 根據(jù)每個(gè)詞素出現(xiàn)的次數(shù)W及查詢?cè)~中的所有詞素出現(xiàn)的總次數(shù)確定每個(gè)詞素 在查詢?cè)~中的重要性得分。
[0038] 優(yōu)選地,歷史查詢數(shù)據(jù)為歷史擴(kuò)展關(guān)系詞表中的歷史數(shù)據(jù),歷史數(shù)據(jù)包括查詢?cè)~ 及查詢?cè)~對(duì)應(yīng)的關(guān)系詞;
[0039] 確定每個(gè)詞素在查詢?cè)~中的重要性得分,包括:
[0040] 獲得查詢?cè)~的所有詞素,并分別統(tǒng)計(jì)每個(gè)詞素出現(xiàn)的次數(shù)W及查詢?cè)~對(duì)應(yīng)的關(guān)系 詞中包含每個(gè)詞素的關(guān)系詞的總個(gè)數(shù);
[0041] 根據(jù)每個(gè)詞素出現(xiàn)的次數(shù)W及查詢?cè)~對(duì)應(yīng)的關(guān)系詞中包含每個(gè)詞素的關(guān)系詞的 總個(gè)數(shù)確定每個(gè)詞素在查詢?cè)~中的重要性得分。
[0042] 優(yōu)選地,歷史查詢數(shù)據(jù)為點(diǎn)擊日志中的歷史數(shù)據(jù),歷史數(shù)據(jù)包括查詢?cè)~及查詢?cè)~ 對(duì)應(yīng)的點(diǎn)擊詞構(gòu)成的查詢?cè)~點(diǎn)擊詞對(duì);
[0043] 確定每個(gè)詞素在查詢?cè)~中的重要性得分,包括: