l,c2,c3)。那么,對(duì)于該訓(xùn)練樣本而言,其特征參數(shù)集中的相關(guān)性特征參數(shù)子集由上述五部分的相關(guān)性特征參數(shù)組合而成,即,(Cl,C2, C3, C4,C5),該子集中包括十五項(xiàng)相關(guān)性特征參數(shù)。
[0037]針對(duì)上述五部分分別確定與查詢的相關(guān)性特征參數(shù),是出于同一相關(guān)性特征參數(shù)在不同的部分中可能具有不同的區(qū)分度的考慮。例如,假設(shè)針對(duì)分詞共現(xiàn)數(shù)量這一特征參數(shù),由于標(biāo)準(zhǔn)問題通常較短,里面包含的信息量相對(duì)較少,因此,其在標(biāo)準(zhǔn)問題中能夠具有較高的區(qū)分度。然而,其在標(biāo)準(zhǔn)答案中的區(qū)分度可能并不高,因?yàn)闃?biāo)準(zhǔn)答案通常較長(zhǎng),分詞在該標(biāo)準(zhǔn)答案中出現(xiàn)的頻率可能較高。此時(shí),如果將該特征在這兩部分中所占權(quán)重視為相同,則對(duì)標(biāo)準(zhǔn)問題部分而言是不公平的。通過針對(duì)上述五部分分別確定與查詢的相關(guān)性特征參數(shù),可以全面衡量每種相關(guān)性特征參數(shù)在不同部分中所起的作用,進(jìn)而提高之后構(gòu)建出的問答排序模型的精度。
[0038]如上所述,訓(xùn)練樣本的特征參數(shù)集中還可以包括重要性特征參數(shù)子集。其中,重要性特征參數(shù)子集是由多個(gè)重要性特征參數(shù)組成的。所述重要性特征參數(shù)能夠表明在一個(gè)訓(xùn)練樣本中的問答集對(duì)于用戶使用而言的重要程度。例如,所述重要性特征參數(shù)可以包括以下中的至少一者:問答集的點(diǎn)擊次數(shù),問答集的時(shí)效性、用戶行為偏好等等。這些重要性特征參數(shù)可以通過挖掘用戶的檢索日志來獲取,或者預(yù)先存儲(chǔ)在構(gòu)建的問答庫中。應(yīng)當(dāng)理解的是,如何通過挖掘用戶的檢索日志來獲取上述重要性特征參數(shù)的方法有多種,并且是本領(lǐng)域的技術(shù)人員公知的,對(duì)此,本發(fā)明在此不進(jìn)行詳細(xì)描述。
[0039]區(qū)別于相關(guān)性特征參數(shù)是針對(duì)問答集的上述五部分的,在本發(fā)明中,重要性特征參數(shù)僅針對(duì)整個(gè)問答集部分??梢詫⑨槍?duì)整個(gè)問答集部分的若干重要性特征參數(shù)組成重要性特征參數(shù)子集。例如,假設(shè)要確定問答集的兩項(xiàng)重要性特征參數(shù),記為Kl和K2,那么,重要性特征子集可以由這兩項(xiàng)重要性特征參數(shù)組合而成,即,(Kl,K2)。
[0040]通過在訓(xùn)練樣本的特征參數(shù)集中引入問答集的重要性特征參數(shù),可以使得在進(jìn)行問答排序時(shí)能夠充分考慮用戶對(duì)問答集的實(shí)際使用情況,從而使得構(gòu)建的問答排序模型和所得的排序結(jié)果更切合用戶的實(shí)際使用需求,并可以實(shí)現(xiàn)針對(duì)不同的用戶使用情況來定制不同的問答排序模型。
[0041]之后,就可以將所得到的相關(guān)性特征參數(shù)子集和重要性特征參數(shù)子集進(jìn)行組合,得出訓(xùn)練樣本的特征參數(shù)集。例如,以上述示例為例,所得到的特征參數(shù)集可以為T(C1,C2,C3,C4,C5,Kl, K2)。
[0042]在確定出每個(gè)訓(xùn)練樣本的特征參數(shù)集之后,就可以根據(jù)所確定出的特征參數(shù)集、以及所述訓(xùn)練樣本的正負(fù)例標(biāo)注,構(gòu)建針對(duì)每個(gè)預(yù)設(shè)查詢的排序訓(xùn)練數(shù)據(jù),以用于構(gòu)建問答排序模型。
[0043]在本發(fā)明中,問答排序模型是基于Pairwise的排序模型。該模型將排序問題轉(zhuǎn)化為二元分類問題。即,在給定查詢下,基于Pairwise的排序模型只考慮兩個(gè)問答集之間相關(guān)度的相對(duì)順序。對(duì)于兩個(gè)問答集qal和qa2,如果查詢和qal的相關(guān)性高于查詢和qa2的相關(guān)性,那么{qal,qa2}作為一個(gè)整體被標(biāo)注+1 ;反之則{qal, qa2}作為一個(gè)整體被標(biāo)注-1。用上述方法兩兩比較所有問答集的相對(duì)順序,就可以得到給定查詢下所有問答集的相關(guān)性順序。上述給{qal,qa2}標(biāo)注+1/-1的過程是典型的二元分類問題。有大量經(jīng)典的二元分類算法可供套用,本發(fā)明中選用sm(支持向量機(jī))作為分類器。
[0044]針對(duì)每個(gè)預(yù)設(shè)查詢而言,可以根據(jù)該預(yù)設(shè)查詢的每個(gè)訓(xùn)練樣本的特征參數(shù)集、以及這些訓(xùn)練樣本的正負(fù)例標(biāo)注,構(gòu)建針對(duì)該預(yù)設(shè)查詢的排序訓(xùn)練數(shù)據(jù)。例如,假設(shè)針對(duì)問答庫中的第I個(gè)預(yù)設(shè)查詢而言,第一訓(xùn)練樣本為(query,QAl),并且該第一訓(xùn)練樣本被標(biāo)注為正例;第二訓(xùn)練樣本為(query,QA2),并且該第二訓(xùn)練樣本被標(biāo)注為負(fù)例;第三訓(xùn)練樣本為(query,QA3),并且該第三訓(xùn)練樣本被標(biāo)注為負(fù)例(在該示例中僅以三個(gè)訓(xùn)練樣本為例進(jìn)行說明,省略了該第I個(gè)預(yù)設(shè)查詢的其余訓(xùn)練樣本示例)。其中,QAl表示問答庫中與第I個(gè)預(yù)設(shè)查詢query對(duì)應(yīng)的問答集。QA2表示從問答庫中篩選出的與第I個(gè)預(yù)設(shè)查詢query有關(guān)的候選問答集中除QAl之外的若干其他問答集中的一個(gè)問答集;以及QA3表示所述若干其他問答集中的另一問答集。此外,還假設(shè)確定出的第一訓(xùn)練樣本的特征參數(shù)集為Tl,第二訓(xùn)練樣本的特征參數(shù)集為T2,第三訓(xùn)練樣本的特征參數(shù)集為T3。這樣,可以構(gòu)建出四組排序訓(xùn)練數(shù)據(jù),分別是{T1,T2,+1},{Τ2,Τ1,-1},{T1,T3,+1},以及{Τ3,Τ1,_1}。依照此方法可以構(gòu)建出針對(duì)第I個(gè)預(yù)設(shè)查詢的所有排序訓(xùn)練數(shù)據(jù)。仍以上述示例為例,假設(shè)篩選出的候選問答集為20個(gè),那么可以構(gòu)建出I個(gè)正例訓(xùn)練樣本和19個(gè)反例訓(xùn)練樣本,這樣,針對(duì)該第I個(gè)預(yù)設(shè)查詢,最終可以構(gòu)建出19X2個(gè)排序訓(xùn)練數(shù)據(jù)。
[0045]之后,針對(duì)其他每個(gè)預(yù)設(shè)查詢均進(jìn)行上述過程,從而構(gòu)建出針對(duì)每個(gè)預(yù)設(shè)查詢的排序訓(xùn)練數(shù)據(jù)。仍以上述示例為例,假設(shè)問答庫中包括100個(gè)預(yù)設(shè)查詢,并且篩選出的候選問答集為20個(gè),那么針對(duì)問答庫中的所有預(yù)設(shè)查詢,總共可以構(gòu)建出100 X 19 X 2個(gè)排序訓(xùn)練數(shù)據(jù)。
[0046]構(gòu)建出所有訓(xùn)練數(shù)據(jù)之后,就可以進(jìn)行步驟d,利用所構(gòu)建的所有排序訓(xùn)練數(shù)據(jù)進(jìn)行排序?qū)W習(xí),得出針對(duì)所述問答庫的問答排序模型。排序?qū)W習(xí)過程實(shí)質(zhì)上是特征參數(shù)集中的各項(xiàng)特征參數(shù)的權(quán)值計(jì)算的過程。由此,可以實(shí)現(xiàn)特征權(quán)值的自動(dòng)計(jì)算,無需開發(fā)人員進(jìn)行權(quán)值的手動(dòng)設(shè)定,從而降低了人工參與成本,并且實(shí)時(shí)性好。即使增加或減少特征參數(shù)、或者因問答庫發(fā)生更新而導(dǎo)致特征參數(shù)的分布發(fā)生變化,都可以通過上述排序?qū)W習(xí)過程自動(dòng)擬合出新的特征權(quán)值,從而適應(yīng)這種特征參數(shù)的變化,且保證構(gòu)建出的問答排序模型的可靠性和準(zhǔn)確性。
[0047]上述步驟a?步驟d可以在線下完成,即,所述步驟a?步驟d主要用于在線下完成問答庫的構(gòu)建和問答排序模型的構(gòu)建。
[0048]在構(gòu)建出問答排序模型之后,進(jìn)行步驟e,接收用戶查詢,并根據(jù)所述用戶查詢從所述問答庫中篩選與所述用戶查詢有關(guān)的候選問答集;以及步驟f:利用所述問答排序模型對(duì)所述候選問答集進(jìn)行排序。這兩個(gè)步驟是線上完成的,主要利用線下構(gòu)建的問答庫和問答排序模型來為用戶提供線上自動(dòng)問答服務(wù)。
[0049]具體地,在接收到用戶查詢之后,可以對(duì)用戶查詢進(jìn)行問句分析,得出該用戶查詢包括的分詞。然后,根據(jù)所述分詞,從問答庫中篩選出與所述用戶查詢有關(guān)的候選問答集。篩選方法與上面描述的在線下完成的篩選與預(yù)設(shè)查詢有關(guān)的候選問答集的方法相一致,對(duì)此,本發(fā)明在此不進(jìn)行贅述。
[0050]在獲得與所述用戶查詢有關(guān)的候選問答集之后,在所述步驟f中,可以通過以下方式對(duì)這些候選問答集進(jìn)行排序:確定所述用戶查詢與篩選出的每個(gè)候選問答集之間的特征參數(shù)集;將所述特征參數(shù)集輸入至所述問答排序模型,以利用所述問答排序模型對(duì)所述每個(gè)候選問答集進(jìn)行排序。
[0051]所述用戶查詢與線上篩選出的每個(gè)候選問答集之間的特征參數(shù)集也可以包括相關(guān)性特征參數(shù)子集和重要性特征參數(shù)子集,并且也可以通過以下方式確定所述特征參數(shù)集:針對(duì)每個(gè)候選問答集,分別計(jì)算所述用戶查詢與該候選問答集、以及與該候選問答集中的所述標(biāo)準(zhǔn)問題、所述標(biāo)準(zhǔn)答案、所述擴(kuò)展問題、所述擴(kuò)展答案之間的同種相關(guān)性特征參數(shù),并將所計(jì)算出的同種相關(guān)性特征參數(shù)進(jìn)行組合,得出所述用戶查詢與該候選問答集的相關(guān)性特征參數(shù)子集;獲取該候選問答集的重要性特征參數(shù),并將所獲取的重要性特征參數(shù)進(jìn)行組合,得出所述用戶查詢與該候選問答集的重要性特征參數(shù)子集;以及將所述相關(guān)性特征參數(shù)子集和所述重要性特征子集進(jìn)行組合,得出所述用戶查詢與該候選問答集的所述特征參數(shù)集。
[0052]上述在線上完成的特征參數(shù)集的確定過程同上面描述的在線下完成的確定每個(gè)訓(xùn)練樣本的特征參數(shù)集的方法相一致,對(duì)此,本發(fā)明不再進(jìn)行詳細(xì)描述。
[0053]在得出用戶查詢與線上篩選出的每個(gè)候選問答集之間的特征參數(shù)集之后,將這些特征參數(shù)集輸入至所述問答排序模型,利用所述問答排序模型對(duì)所述每個(gè)候選問答集進(jìn)行排序,并得出排序結(jié)果。利用通過排序?qū)W習(xí)得出的問答排序模型進(jìn)行問答集排序,可以使排序結(jié)果更為準(zhǔn)確和可靠。
[0054]此外,在本發(fā)明的一個(gè)優(yōu)選實(shí)施方式中,可以針對(duì)不同領(lǐng)域,利用所述步驟a?所述步驟d為每個(gè)領(lǐng)域構(gòu)建一問答庫以及針對(duì)該問答庫的問答排序模型。也就是說,在本發(fā)明中,線下為每個(gè)領(lǐng)域所構(gòu)建的問答庫和問答排序模型都是該領(lǐng)域?qū)俚?。并且,所述方法還可以包括:步驟g(未示出):接收來自用戶的領(lǐng)域選擇信息,并根據(jù)該領(lǐng)域選擇信息確定與用戶選擇的領(lǐng)域?qū)?yīng)的問答庫。在這種情況下,在所述步驟e中,接收所述用戶查詢,并根據(jù)所述用戶查詢從與所述用戶選擇的領(lǐng)域?qū)?yīng)的問答庫中篩選與所述用戶查詢有關(guān)的候選問答集