一種自動(dòng)生成開(kāi)放式問(wèn)題答案的方法與流程

文檔序號(hào)：11654419閱讀：528來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域，特別涉及一種自動(dòng)生成開(kāi)放式問(wèn)題答案的方法。

背景技術(shù)：

隨著互聯(lián)網(wǎng)的發(fā)展，問(wèn)答社區(qū)逐漸成為深受網(wǎng)民歡迎的一種互聯(lián)網(wǎng)產(chǎn)品，如國(guó)內(nèi)的“知乎”、“頭條問(wèn)答”，美國(guó)的quora，用戶可以在社區(qū)中提出各種問(wèn)題，其它用戶看到自己熟悉領(lǐng)域的問(wèn)題就可以發(fā)布自己的答案。這些答案會(huì)被所有瀏覽該問(wèn)題的用戶看到，點(diǎn)贊或點(diǎn)踩，受歡迎的答案會(huì)被系統(tǒng)排到靠前的位置。這類(lèi)社區(qū)的一個(gè)挑戰(zhàn)是，隨著用戶量的增長(zhǎng)，越來(lái)越多的問(wèn)題很少被其它用戶關(guān)注到，導(dǎo)致無(wú)人回答，提問(wèn)者的積極性大受打擊。有些社區(qū)提供了答主自動(dòng)邀請(qǐng)的功能，會(huì)根據(jù)用戶的回答歷史為問(wèn)題自動(dòng)邀請(qǐng)合適的用戶來(lái)回答?？墒沁@樣會(huì)導(dǎo)致活躍的答主收到過(guò)多的邀請(qǐng)，沒(méi)有辦法在保證回答質(zhì)量的情況下及時(shí)回答問(wèn)題。因此，目前這個(gè)問(wèn)題尚沒(méi)有有效的解決方案。

在自動(dòng)回答方面，現(xiàn)有的技術(shù)主要聚焦在解決封閉性問(wèn)題的回答生成上，比如“奧巴馬是美國(guó)第幾屆總統(tǒng)？”?，F(xiàn)有的一些系統(tǒng)一般會(huì)把利用nlp技術(shù)把問(wèn)題轉(zhuǎn)化為一個(gè)結(jié)構(gòu)化的查詢語(yǔ)言并通過(guò)查詢預(yù)先構(gòu)建的知識(shí)圖譜返回答案。但是現(xiàn)有的自動(dòng)回答生成技術(shù)無(wú)法解決開(kāi)放式問(wèn)題的回答自動(dòng)生成問(wèn)題，比如：“你對(duì)樂(lè)視的生態(tài)化反戰(zhàn)略怎么看？”這類(lèi)問(wèn)題的提問(wèn)者需要的不是知識(shí)性的答案，而是對(duì)問(wèn)題的分析和觀點(diǎn)的闡述，從而達(dá)到思想的交流。目前的網(wǎng)絡(luò)問(wèn)答社區(qū)無(wú)法對(duì)上述具有開(kāi)放式特定的網(wǎng)絡(luò)問(wèn)題進(jìn)行自動(dòng)答復(fù)，也沒(méi)有實(shí)現(xiàn)網(wǎng)絡(luò)問(wèn)題的自動(dòng)生成答案的功能。上述功能的欠缺導(dǎo)致網(wǎng)絡(luò)資源的大量浪費(fèi)，無(wú)法整合網(wǎng)絡(luò)資源，也不能實(shí)現(xiàn)網(wǎng)絡(luò)自適應(yīng)地處理問(wèn)答機(jī)制，使得大量用戶問(wèn)題無(wú)法得到及時(shí)反饋與解決。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明技術(shù)方案所解決的技術(shù)問(wèn)題為：如何針對(duì)網(wǎng)絡(luò)應(yīng)用中的開(kāi)放式問(wèn)題提供網(wǎng)絡(luò)的自主回復(fù)。

為了解決上述技術(shù)問(wèn)題，本發(fā)明技術(shù)方案提供了一種自動(dòng)生成開(kāi)放式問(wèn)題答案的方法，包括：

獲取內(nèi)容庫(kù)，所述內(nèi)容庫(kù)中的項(xiàng)目至少包括項(xiàng)目來(lái)源、項(xiàng)目?jī)?nèi)容及項(xiàng)目標(biāo)題中的一種屬性；

建立答案規(guī)則并從所述內(nèi)容庫(kù)中獲取符合所述答案規(guī)則的項(xiàng)目以組建答案庫(kù)，所述答案規(guī)則包括至少與所述項(xiàng)目來(lái)源、項(xiàng)目?jī)?nèi)容、項(xiàng)目標(biāo)題中一種對(duì)應(yīng)篩選條件；

對(duì)輸入的問(wèn)題項(xiàng)目進(jìn)行分詞并尋找答案庫(kù)中具備所有分詞的目標(biāo)項(xiàng)目；

計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目的綜合相關(guān)度并找出綜合相關(guān)度最高的目標(biāo)項(xiàng)目以輸出。

可選的，所述獲取內(nèi)容庫(kù)包括：根據(jù)內(nèi)部提供或外部抓取的文檔或視頻建立內(nèi)容庫(kù)中的項(xiàng)目。

可選的，所述建立答案規(guī)則包括：

從內(nèi)容庫(kù)中篩選符合如下條件中的至少一項(xiàng)的項(xiàng)目：

所述項(xiàng)目來(lái)源的權(quán)威度合法；

所述項(xiàng)目?jī)?nèi)容的時(shí)效合法；

所述項(xiàng)目標(biāo)題中包含實(shí)體詞語(yǔ)；

所述項(xiàng)目標(biāo)題是疑問(wèn)句。

可選的，所述建立答案規(guī)則包括：

從所述內(nèi)容庫(kù)中人工篩選所述符合所述答案規(guī)則的項(xiàng)目及不符合所述答案規(guī)則的項(xiàng)目以分別作為第一正樣本及第一負(fù)樣本；

將所述項(xiàng)目的屬性、第一正樣本及第一負(fù)樣本輸入答案規(guī)則建立模型、訓(xùn)練所述答案規(guī)則建立模型以建立所述答案規(guī)則。

可選的，所述訓(xùn)練所述答案規(guī)則建立模型以建立所述答案規(guī)則包括：

獲取所述第一正樣本/第一負(fù)樣本相對(duì)于所述項(xiàng)目屬性的第一真實(shí)數(shù)據(jù)/第二真實(shí)數(shù)據(jù)；

使用所述答案規(guī)則建立模型預(yù)測(cè)所述第一正樣本/第一負(fù)樣本相對(duì)于所述項(xiàng)目屬性的第一預(yù)測(cè)數(shù)據(jù)/第二預(yù)測(cè)數(shù)據(jù)；

調(diào)整所述答案規(guī)則建立模型的模型參數(shù)，當(dāng)所述第一預(yù)測(cè)數(shù)據(jù)與第一真實(shí)數(shù)據(jù)一致且第二預(yù)測(cè)數(shù)據(jù)與第二真實(shí)數(shù)據(jù)一致則輸出所述模型參數(shù)及其答案規(guī)則建立模型。

可選的，所述答案規(guī)則建立模型基于機(jī)器學(xué)習(xí)算法。

可選的，所述機(jī)器學(xué)習(xí)算法為樸素貝葉斯算法、gbdt算法、svm算法及rnn算法中的一種。

可選的，所述對(duì)輸入的問(wèn)題項(xiàng)目進(jìn)行分詞并尋找答案庫(kù)中具備所有分詞的目標(biāo)項(xiàng)目包括：

將所述輸入的問(wèn)題項(xiàng)目分為順序的單個(gè)詞組成的序列；

若所述答案庫(kù)中項(xiàng)目標(biāo)題具備所述序列中的每一個(gè)詞，則選擇該項(xiàng)目標(biāo)題的項(xiàng)目作為所述目標(biāo)項(xiàng)目。

可選的，所述計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目的綜合相關(guān)度包括：

分別使用若干相關(guān)度函數(shù)計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目之間的單一相關(guān)度；

對(duì)計(jì)算得到的單一相關(guān)度分配權(quán)重并將所述權(quán)重與所對(duì)應(yīng)單一相關(guān)度之積累加以得到所述綜合相關(guān)度。

可選的，所述分別使用若干相關(guān)度函數(shù)計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目之間的單一相關(guān)度至少包括執(zhí)行如下幾種計(jì)算方式的一種或多種：

對(duì)目標(biāo)項(xiàng)目標(biāo)題與問(wèn)題項(xiàng)目進(jìn)行分詞，通過(guò)word2vec工具獲取每個(gè)詞的數(shù)值向量，然后把這些詞的向量相加得到項(xiàng)目標(biāo)題的語(yǔ)義向量和問(wèn)題項(xiàng)目語(yǔ)義向量，最后計(jì)算上述兩個(gè)向量的cosine距離，以獲取第一單一相關(guān)度；

目標(biāo)項(xiàng)目標(biāo)題與問(wèn)題項(xiàng)目進(jìn)行分詞，計(jì)算二者共有詞的數(shù)量占二者所有詞的比例，以獲取第二單一相關(guān)度；

獲取目標(biāo)項(xiàng)目標(biāo)題的關(guān)鍵詞，通過(guò)word2vec工具獲取每個(gè)關(guān)鍵詞的數(shù)值向量，然后把這些向量加和作為目標(biāo)項(xiàng)目標(biāo)題的語(yǔ)義向量；對(duì)問(wèn)題項(xiàng)目進(jìn)行分詞，然后通過(guò)word2vec工具獲取每個(gè)詞的數(shù)值向量并加和作為問(wèn)題項(xiàng)目的語(yǔ)義向量，最后計(jì)算目標(biāo)項(xiàng)目標(biāo)題與問(wèn)題項(xiàng)目語(yǔ)義向量之間的cosine距離，以獲得第三單一相關(guān)度。

可選的，所述自動(dòng)生成開(kāi)放式問(wèn)題答案的方法還包括：

從所述答案庫(kù)中人工篩選所述符合所述問(wèn)題項(xiàng)目的項(xiàng)目標(biāo)題及不符合所述問(wèn)題項(xiàng)目的項(xiàng)目標(biāo)題以分別作為第二正樣本及第二負(fù)樣本；

拆分所述問(wèn)題項(xiàng)目、第二正樣本及第二負(fù)樣本為單字序列，并基于rnn處理后得到各個(gè)序列的語(yǔ)義向量；

訓(xùn)練rnn模型以準(zhǔn)確預(yù)測(cè)上述各語(yǔ)義向量間的cosine距離是否符合真實(shí)相關(guān)度，以獲得rnn模型參數(shù)；

所述計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目的綜合相關(guān)度包括：

對(duì)目標(biāo)項(xiàng)目標(biāo)題與問(wèn)題項(xiàng)目進(jìn)行分詞以獲得單字序列；

基于所述rnn模型參數(shù)使用rnn模型預(yù)測(cè)所述標(biāo)項(xiàng)目標(biāo)題與問(wèn)題項(xiàng)目單字序列之間的預(yù)測(cè)相關(guān)度。

可選的，所述自動(dòng)生成開(kāi)放式問(wèn)題答案的方法還包括：至少提取綜合相關(guān)度最高的目標(biāo)項(xiàng)目中的目標(biāo)內(nèi)容進(jìn)行發(fā)布。

本發(fā)明技術(shù)方案的有益效果至少包括：

本發(fā)明技術(shù)方案能夠解決現(xiàn)有技術(shù)中，社區(qū)問(wèn)答無(wú)法回復(fù)的問(wèn)題，為用戶提供了一種可結(jié)合網(wǎng)絡(luò)自有資源有效自動(dòng)生成答案的技術(shù)方案，不僅解決了網(wǎng)絡(luò)配置資源閑置的問(wèn)題，還提高了社區(qū)問(wèn)答環(huán)境的有效性及積極性。

本發(fā)明技術(shù)方案通過(guò)建立答案規(guī)則及項(xiàng)目相關(guān)度指標(biāo)，有效確認(rèn)了最佳網(wǎng)絡(luò)答案，并可與用戶選擇相結(jié)合，提供了一種有效獲取問(wèn)題答案的技術(shù)方案，提高了答案與問(wèn)題適配的準(zhǔn)確度。

本發(fā)明技術(shù)方案可以在投入資源較少的情況下大幅降低問(wèn)答社區(qū)內(nèi)零回答問(wèn)題的比例，同時(shí)自動(dòng)生成的答案可以給準(zhǔn)備回答問(wèn)題的用戶作為參考，也降低了撰寫(xiě)高質(zhì)量回答的門(mén)檻，提升了用戶體驗(yàn)。

附圖說(shuō)明

圖1為本發(fā)明技術(shù)方案提供的一種自動(dòng)生成開(kāi)放式問(wèn)題答案的方法流程示意圖；

圖2為本發(fā)明技術(shù)方案提供的一種建立答案規(guī)則的方法流程示意圖；

圖3為本發(fā)明技術(shù)方案提供的一種所述訓(xùn)練所述答案規(guī)則建立模型的方法流程示意圖；

圖4為本發(fā)明技術(shù)方案提供的一種對(duì)輸入的問(wèn)題項(xiàng)目進(jìn)行分詞并尋找答案庫(kù)中具備所有分詞的目標(biāo)項(xiàng)目的方法流程示意圖；

圖5為本發(fā)明技術(shù)方案提供的一種基于人工規(guī)則計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目的綜合相關(guān)度的方法流程示意圖；

圖6為本發(fā)明技術(shù)方案提供的另一種自動(dòng)生成開(kāi)放式問(wèn)題答案的方法流程示意圖；

圖7為本發(fā)明技術(shù)方案提供的一種基于機(jī)器學(xué)習(xí)方法計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目的綜合相關(guān)度的方法流程示意圖；

圖8為本發(fā)明技術(shù)方案提供的又一種自動(dòng)生成開(kāi)放式問(wèn)題答案的方法流程示意圖；

圖9為本發(fā)明技術(shù)方案提供的再一種自動(dòng)生成開(kāi)放式問(wèn)題答案的方法流程示意圖。

具體實(shí)施方式

現(xiàn)有技術(shù)中無(wú)法實(shí)現(xiàn)對(duì)于開(kāi)放式網(wǎng)絡(luò)問(wèn)題的自動(dòng)答復(fù)，如果能有一種有效的針對(duì)開(kāi)放式問(wèn)題的答案自動(dòng)生成方法，就可以大大緩解問(wèn)答社區(qū)內(nèi)很多用戶的問(wèn)題得不到及時(shí)回答的現(xiàn)象。如果該自動(dòng)答案生成方法的精確度還無(wú)法直接回復(fù)提問(wèn)者，也可以作為參考文案發(fā)送給系統(tǒng)認(rèn)為有能力回答原問(wèn)題的用戶，答題用戶經(jīng)過(guò)簡(jiǎn)單編輯就可以產(chǎn)出優(yōu)質(zhì)的答案，比完全靠自己寫(xiě)一篇答案效率高出不少，沒(méi)有任何回答的問(wèn)題比例也會(huì)相應(yīng)下降。本發(fā)明技術(shù)方案提出了一種自動(dòng)生成答案的方法，可以從一個(gè)包含文章，視頻的內(nèi)容庫(kù)中根據(jù)用戶問(wèn)題抽取候選答案，既可以直接回復(fù)提問(wèn)者，也可以作為素材發(fā)送給被邀請(qǐng)的潛在答主，提高其撰寫(xiě)答案的成本。

根據(jù)本發(fā)明技術(shù)方案的整體發(fā)明思路，其首先需要通過(guò)獲取一內(nèi)容庫(kù)來(lái)建立答案庫(kù)，答案庫(kù)的建立需要從內(nèi)容庫(kù)中選擇符合答案規(guī)則的項(xiàng)目，即“準(zhǔn)答案項(xiàng)目”，此后再根據(jù)用戶提出的問(wèn)題項(xiàng)目，實(shí)現(xiàn)答案自動(dòng)匹配的過(guò)程。本發(fā)明技術(shù)方案首先需要獲取到內(nèi)容庫(kù)，其內(nèi)容形式可以包括文章和短視頻，其次需要在內(nèi)容庫(kù)中挖掘適合作為答案的內(nèi)容作為答案庫(kù)，然后根據(jù)用戶給定的問(wèn)題，通過(guò)檢索的方式在答案庫(kù)中找到最合適的候選答案；對(duì)候選答案設(shè)置預(yù)定的置信度算法以推算候選答案的置信度，選擇置信度高于閾值的候選答案直接回復(fù)答案或?qū)⒑蜻x答案作為素材發(fā)送給潛在答主供其參考。

以下結(jié)合附圖詳細(xì)闡述本發(fā)明技術(shù)方案的具體實(shí)施過(guò)程。

根據(jù)圖1所示的一種自動(dòng)生成開(kāi)放式問(wèn)題答案的方法，包括如下步驟：

步驟s100，獲取內(nèi)容庫(kù)，所述內(nèi)容庫(kù)中的項(xiàng)目至少包括項(xiàng)目來(lái)源、項(xiàng)目?jī)?nèi)容及項(xiàng)目標(biāo)題中的一種屬性。

步驟s101，建立答案規(guī)則并從所述內(nèi)容庫(kù)中獲取符合所述答案規(guī)則的項(xiàng)目以組建答案庫(kù)，所述答案規(guī)則包括至少與所述項(xiàng)目來(lái)源、項(xiàng)目?jī)?nèi)容、項(xiàng)目標(biāo)題中一種對(duì)應(yīng)篩選條件；

步驟s102，對(duì)輸入的問(wèn)題項(xiàng)目進(jìn)行分詞并尋找答案庫(kù)中具備所有分詞的目標(biāo)項(xiàng)目；

步驟s103，計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目的綜合相關(guān)度并找出綜合相關(guān)度最高的目標(biāo)項(xiàng)目以輸出。

根據(jù)步驟s100，所述獲取內(nèi)容庫(kù)包括：根據(jù)內(nèi)部提供或外部抓取的文檔或視頻建立內(nèi)容庫(kù)中的項(xiàng)目。為了建立答案庫(kù)，首先需要有一個(gè)包含文章或者短視頻的內(nèi)容庫(kù)。這些內(nèi)容可以從互聯(lián)網(wǎng)上抓取，比如基于某些抓取互聯(lián)網(wǎng)數(shù)據(jù)的軟件對(duì)特定的互聯(lián)網(wǎng)站點(diǎn)上的內(nèi)容進(jìn)行匹配抓取，以建立新的內(nèi)容庫(kù)，并根據(jù)互聯(lián)網(wǎng)更新數(shù)據(jù)不斷更新該內(nèi)容庫(kù)。另一種情況是，問(wèn)答社區(qū)的運(yùn)營(yíng)方同時(shí)也運(yùn)營(yíng)內(nèi)容平臺(tái)，有合法的內(nèi)容獲取渠道。比如頭條問(wèn)答實(shí)際上是今日頭條旗下產(chǎn)品，本身有數(shù)千萬(wàn)合法的短視頻和文章可以作為答案庫(kù)的來(lái)源，即可直接基于平臺(tái)內(nèi)容的融合性而基于平臺(tái)數(shù)據(jù)庫(kù)獲取到內(nèi)容庫(kù)。一般來(lái)說(shuō)，內(nèi)容庫(kù)需要涵蓋領(lǐng)域越廣越好，這樣給定問(wèn)題有更大概率找到合適的答案或者素材。有了內(nèi)容庫(kù)，本發(fā)明技術(shù)方案即根據(jù)步驟s101，通過(guò)預(yù)設(shè)的答案規(guī)則篩選出有可能作為問(wèn)題答案的內(nèi)容項(xiàng)目，以此組建答案庫(kù)。

在本發(fā)明技術(shù)方案的一種變化例下，根據(jù)步驟s101，所述建立答案規(guī)則包括：從內(nèi)容庫(kù)中篩選符合如下條件中的至少一項(xiàng)的項(xiàng)目：

所述項(xiàng)目來(lái)源的權(quán)威度合法；

所述項(xiàng)目?jī)?nèi)容的時(shí)效合法；

所述項(xiàng)目標(biāo)題中包含實(shí)體詞語(yǔ)；

所述項(xiàng)目標(biāo)題是疑問(wèn)句。

該變化例提供了一種較為簡(jiǎn)單的建立答案規(guī)則的方案，上述方案中，篩選的條件可以是并列的多種項(xiàng)目屬性的篩選內(nèi)容，以形成由一組篩選條件規(guī)定的答案規(guī)則，篩選的條件也可以是一種項(xiàng)目屬性的篩選內(nèi)容，并由此建立多種答案規(guī)則，答案庫(kù)中的項(xiàng)目需要滿足由一組篩選條件規(guī)定的答案規(guī)則或者同時(shí)滿足多種答案規(guī)則。

在答案規(guī)則是由一組篩選條件規(guī)定的情況下，以下給出一種比較簡(jiǎn)單的建立答案規(guī)則的應(yīng)用例：

該組答案規(guī)則設(shè)定的篩選過(guò)程可以是：

識(shí)別出項(xiàng)目?jī)?nèi)容的時(shí)效性是否合法，即該項(xiàng)目?jī)?nèi)容是否是知識(shí)性的長(zhǎng)時(shí)效內(nèi)容；

識(shí)別項(xiàng)目標(biāo)題的類(lèi)型是疑問(wèn)句還是陳述句；

識(shí)別所述項(xiàng)目標(biāo)題中是否包含實(shí)體詞語(yǔ)；

識(shí)別項(xiàng)目標(biāo)題的長(zhǎng)度是否超過(guò)預(yù)定長(zhǎng)度；

項(xiàng)目?jī)?nèi)容來(lái)源的權(quán)威度是否高于預(yù)定值；

識(shí)別結(jié)果是否符合預(yù)定的篩選結(jié)果，若是，則將篩選項(xiàng)目認(rèn)定為符合所述答案規(guī)則的項(xiàng)目，并將其歸于答案庫(kù)項(xiàng)目。比如只篩選符合下列條件之一的內(nèi)容作為候選答案，即設(shè)定預(yù)定的篩選結(jié)果如下：

預(yù)定的篩選結(jié)果一：(長(zhǎng)時(shí)效內(nèi)容)and(標(biāo)題中包含明確實(shí)體)and(標(biāo)題包含疑問(wèn)句)；

預(yù)定的篩選結(jié)果二：(長(zhǎng)時(shí)效內(nèi)容)and(標(biāo)題中包含明確實(shí)體)and(標(biāo)題是陳述句)and(來(lái)源權(quán)威度高于預(yù)定值)。

例如，內(nèi)容庫(kù)中其中一篇文章的項(xiàng)目標(biāo)題為《當(dāng)年做手機(jī)的公司都去哪兒了？3分鐘看懂他們靠啥活》，經(jīng)時(shí)效性識(shí)別模型判定是長(zhǎng)時(shí)效內(nèi)容，標(biāo)題中包含實(shí)體“手機(jī)”，而且有疑問(wèn)句，滿足預(yù)定的篩選結(jié)果一，因此可以被篩選為候選答案，符合答案規(guī)則，并加入答案庫(kù)。如果用戶問(wèn)一些諸如“當(dāng)年做手機(jī)的公司很多，現(xiàn)在都在干什么？”“手機(jī)行業(yè)有那些轉(zhuǎn)行的案例？”，這篇文章就是一個(gè)有價(jià)值的答案。

上述方法中根據(jù)文本內(nèi)容識(shí)別文章時(shí)效性，識(shí)別標(biāo)題的句式，標(biāo)題中的實(shí)體識(shí)別都是成熟的文本分析技術(shù)，在此不再贅述。來(lái)源權(quán)威度一般是人工設(shè)定，如果內(nèi)容庫(kù)涉及的來(lái)源較多，需要一定的工作量來(lái)對(duì)內(nèi)容庫(kù)涉及的來(lái)源進(jìn)行統(tǒng)計(jì)及分級(jí)，一種對(duì)來(lái)源進(jìn)行分級(jí)的方式可以參考如下規(guī)定，但需要說(shuō)明的是，如下規(guī)定僅是一種實(shí)例，根據(jù)不同的來(lái)源及分級(jí)要求，可以有其他不同的分級(jí)方式：

系統(tǒng)預(yù)先對(duì)互聯(lián)網(wǎng)項(xiàng)目中來(lái)源權(quán)威度作出了評(píng)級(jí)，比如對(duì)于政府站點(diǎn)的來(lái)源度評(píng)級(jí)為最高，即10級(jí)，事業(yè)單位站點(diǎn)來(lái)源度評(píng)級(jí)次之，即9級(jí)，社會(huì)性媒體站點(diǎn)上的官方發(fā)言的來(lái)源度評(píng)級(jí)再次，即8級(jí)，社會(huì)性媒體站點(diǎn)上的群眾性自媒體發(fā)言且被官方認(rèn)定過(guò)，評(píng)級(jí)為7級(jí)，社會(huì)性媒體站點(diǎn)上的群眾性自媒體發(fā)言且轉(zhuǎn)發(fā)次數(shù)及瀏覽次數(shù)達(dá)高預(yù)定次數(shù)，評(píng)級(jí)為6級(jí)，社會(huì)性媒體站點(diǎn)上的群眾性自媒體發(fā)言且轉(zhuǎn)發(fā)次數(shù)及瀏覽次數(shù)達(dá)中預(yù)定次數(shù)，評(píng)級(jí)為5級(jí)，社會(huì)性媒體站點(diǎn)上的群眾性自媒體發(fā)言且轉(zhuǎn)發(fā)次數(shù)及瀏覽次數(shù)達(dá)低預(yù)定次數(shù)，評(píng)級(jí)為4級(jí)，社會(huì)性媒體站點(diǎn)上的群眾性自媒體發(fā)言且瀏覽次數(shù)達(dá)預(yù)定次數(shù)，評(píng)級(jí)為3級(jí)，群眾性自媒體站點(diǎn)且瀏覽次數(shù)達(dá)預(yù)定次數(shù)，評(píng)級(jí)為2級(jí)，否則評(píng)級(jí)為1級(jí)。

根據(jù)步驟s101，所述建立答案規(guī)則可采用一種較為復(fù)雜但是篩選精確度更高的方式，即利用機(jī)器學(xué)習(xí)的方法訓(xùn)練一個(gè)自動(dòng)篩選候選答案的模型，再以此模型對(duì)內(nèi)容庫(kù)中的項(xiàng)目?jī)?nèi)容進(jìn)行是否符合答案規(guī)則的預(yù)測(cè)，并根據(jù)預(yù)測(cè)結(jié)果來(lái)判斷內(nèi)容庫(kù)中的項(xiàng)目是否符合答案規(guī)則。

在本發(fā)明技術(shù)方案的另一種變化例下，如圖2所示，所述建立答案規(guī)則包括如下步驟：

步驟s200，從所述內(nèi)容庫(kù)中人工篩選所述符合所述答案規(guī)則的項(xiàng)目及不符合所述答案規(guī)則的項(xiàng)目以分別作為第一正樣本及第一負(fù)樣本；

步驟s201，將所述項(xiàng)目的屬性、第一正樣本及第一負(fù)樣本輸入答案規(guī)則建立模型、訓(xùn)練所述答案規(guī)則建立模型以建立所述答案規(guī)則。

根據(jù)步驟s200，其中篩選樣本的過(guò)程包括：先預(yù)先從內(nèi)容庫(kù)中人工標(biāo)注一定數(shù)量的可以作為候選答案的內(nèi)容(即第一正樣本)和不太合適作為候選答案(即第一負(fù)樣本)，一般樣本集中的每一類(lèi)樣本，即第一正樣本及第一負(fù)樣本，至少需要每一類(lèi)各標(biāo)注數(shù)千個(gè)人工篩選的樣本。

在獲取上述樣本后，再根據(jù)步驟s201，把這些樣本輸入機(jī)器學(xué)習(xí)模型，也即所述答案規(guī)則建立模型，比如樸素貝葉斯模型，gbdt模型，svm模型等，讓模型自己學(xué)習(xí)如何根據(jù)內(nèi)容的各項(xiàng)屬性區(qū)分正樣本和負(fù)樣本。學(xué)習(xí)結(jié)束后這些模型就可以用來(lái)判別該內(nèi)容是否可以作為某些問(wèn)題的候選答案。這里所說(shuō)的內(nèi)容屬性包括第一種基于人工規(guī)則的方法中提及的顯式屬性，比如，內(nèi)容的時(shí)效性(是否是知識(shí)性的長(zhǎng)時(shí)效內(nèi)容)，標(biāo)題的類(lèi)型(是疑問(wèn)句還是陳述句，是否包含意義明確的實(shí)體)，標(biāo)題的長(zhǎng)度，來(lái)源的權(quán)威度。除了這些容易被理解的屬性外，還可以引入一些人不容易理解，但是可能對(duì)機(jī)器學(xué)習(xí)模型增強(qiáng)識(shí)別能力有幫助的復(fù)雜屬性。比如用rnn(循環(huán)神經(jīng)網(wǎng)絡(luò))把內(nèi)容標(biāo)題轉(zhuǎn)換成數(shù)值向量，用這個(gè)數(shù)值向量作為單層神經(jīng)網(wǎng)絡(luò)的輸入，得到“該標(biāo)題可能回答了一個(gè)問(wèn)題”的概率p，而這個(gè)概率p也可以作為內(nèi)容的一種屬性。對(duì)于上述屬性，訓(xùn)練模型對(duì)屬性預(yù)測(cè)結(jié)果輸出，在應(yīng)用時(shí)即可對(duì)上述預(yù)測(cè)結(jié)果與預(yù)定結(jié)果進(jìn)行比較，來(lái)獲取符合答案規(guī)則的內(nèi)容庫(kù)項(xiàng)目了，從而能夠組建答案庫(kù)。具體的，根據(jù)步驟s201，如圖3所示，所述訓(xùn)練所述答案規(guī)則建立模型以建立所述答案規(guī)則包括如下步驟：

步驟s300，獲取所述第一正樣本/第一負(fù)樣本相對(duì)于所述項(xiàng)目屬性的第一真實(shí)數(shù)據(jù)/第二真實(shí)數(shù)據(jù)；

步驟s301,使用所述答案規(guī)則建立模型預(yù)測(cè)所述第一正樣本/第一負(fù)樣本相對(duì)于所述項(xiàng)目屬性的第一預(yù)測(cè)數(shù)據(jù)/第二預(yù)測(cè)數(shù)據(jù)；

步驟s302,調(diào)整所述答案規(guī)則建立模型的模型參數(shù)，當(dāng)所述第一預(yù)測(cè)數(shù)據(jù)與第一真實(shí)數(shù)據(jù)一致且第二預(yù)測(cè)數(shù)據(jù)與第二真實(shí)數(shù)據(jù)一致則輸出所述模型參數(shù)及其答案規(guī)則建立模型。

其中，所述獲取所述第一正樣本/第一負(fù)樣本相對(duì)于所述項(xiàng)目屬性的第一真實(shí)數(shù)據(jù)/第二真實(shí)數(shù)據(jù)包括：獲取所述第一正樣本相對(duì)于所述項(xiàng)目屬性的第一真實(shí)數(shù)據(jù)，即比如項(xiàng)目屬性為上述第一種基于人工規(guī)則的方法中提及的顯式屬性，所述第一真實(shí)數(shù)據(jù)針對(duì)其中的預(yù)定的篩選結(jié)果一為：是、是、是(按二進(jìn)制數(shù)據(jù)為：111)；以及獲取所述第一負(fù)樣本相對(duì)于所述項(xiàng)目屬性的第二真實(shí)數(shù)據(jù)，所述第二真實(shí)數(shù)據(jù)針對(duì)其中的預(yù)定的篩選結(jié)果一為：否、否、否(按二進(jìn)制數(shù)據(jù)為：000)。

所述使用所述答案規(guī)則建立模型預(yù)測(cè)所述第一正樣本/第一負(fù)樣本相對(duì)于所述項(xiàng)目屬性的第一預(yù)測(cè)數(shù)據(jù)/第二預(yù)測(cè)數(shù)據(jù)包括：使用所述答案規(guī)則建立模型預(yù)測(cè)所述第一正樣本相對(duì)于所述項(xiàng)目屬性的第一預(yù)測(cè)數(shù)據(jù)，比如第一預(yù)測(cè)數(shù)據(jù)針對(duì)其中的預(yù)定的篩選結(jié)果一為：是、是、否(按二進(jìn)制數(shù)據(jù)為：110)；以及，使用所述答案規(guī)則建立模型預(yù)測(cè)所述第一負(fù)樣本相對(duì)于所述項(xiàng)目屬性的第二預(yù)測(cè)數(shù)據(jù)，所述第二預(yù)測(cè)數(shù)據(jù)針對(duì)其中的預(yù)定的篩選結(jié)果一為：否、是、否(按二進(jìn)制數(shù)據(jù)為：010)。

所述調(diào)整所述答案規(guī)則建立模型的模型參數(shù)，根據(jù)上述實(shí)例，即包括調(diào)整所述答案規(guī)則建立模型的模型參數(shù)使110的預(yù)測(cè)數(shù)值可在預(yù)測(cè)時(shí)準(zhǔn)確輸出為111，使010的預(yù)測(cè)數(shù)值可在預(yù)測(cè)時(shí)準(zhǔn)確輸出為000。上述訓(xùn)練過(guò)程針對(duì)每一樣本數(shù)據(jù)都是一樣的，最終在所有樣本數(shù)據(jù)的第一預(yù)測(cè)數(shù)據(jù)與第一真實(shí)數(shù)據(jù)一致且第二預(yù)測(cè)數(shù)據(jù)與第二真實(shí)數(shù)據(jù)一致，則輸出所述模型參數(shù)及其答案規(guī)則建立模型。

本發(fā)明技術(shù)方案對(duì)于步驟s300～s302的流程可以是內(nèi)部運(yùn)行的，也可以是外部處理得到的。根據(jù)上述步驟s300～s302，所述答案規(guī)則建立模型基于機(jī)器學(xué)習(xí)算法。具體的，所述機(jī)器學(xué)習(xí)算法為樸素貝葉斯算法、gbdt算法、svm算法及rnn算法中的一種。給定一組內(nèi)容屬性和大量正樣本，負(fù)樣本，如何訓(xùn)練機(jī)器學(xué)習(xí)模型得到一個(gè)有效的候選答案識(shí)別模型，在機(jī)器學(xué)習(xí)領(lǐng)域是一個(gè)已經(jīng)被充分解決的成熟問(wèn)題，因此這個(gè)過(guò)程的具體技術(shù)細(xì)節(jié)在此不在贅述。

根據(jù)本發(fā)明技術(shù)方案的上述內(nèi)容，已描述了候選建立候選答案庫(kù)的流程。需要說(shuō)明的是：

如果問(wèn)答社區(qū)的運(yùn)營(yíng)方已經(jīng)擁有一個(gè)門(mén)類(lèi)比較齊全，內(nèi)容豐富的內(nèi)容平臺(tái)(比如頭條問(wèn)答產(chǎn)品的運(yùn)營(yíng)方同時(shí)擁有日均新增幾十萬(wàn)文章，視頻的頭條號(hào)自媒體平臺(tái))，則圖1中的獲取步驟s100可直接基于平臺(tái)數(shù)據(jù)庫(kù)獲取得到，否則則要從互聯(lián)網(wǎng)上抓取大量的文章和帶有描述信息的視頻(可以是短視頻)來(lái)構(gòu)成內(nèi)容庫(kù)中的項(xiàng)目，并實(shí)現(xiàn)自我更新。

本發(fā)明技術(shù)方案還提供了篩選符合答案規(guī)則的內(nèi)容庫(kù)項(xiàng)目來(lái)組建答案庫(kù)的技術(shù)手段，其中包括直接設(shè)計(jì)一種或多種候選答案規(guī)則的技術(shù)手段及通過(guò)訓(xùn)練機(jī)器學(xué)習(xí)模型來(lái)建立答案規(guī)則的技術(shù)手段，兩種手段可以分別在技術(shù)方案中單獨(dú)使用，也可以并行使用。

另外，在直接設(shè)計(jì)一種或多種候選答案規(guī)則的技術(shù)手段中，若存在多種候選答案規(guī)則時(shí)，還可以根據(jù)不同情況下的篩選效果需要對(duì)不同候選答案規(guī)則設(shè)置權(quán)重，使用每個(gè)選答案規(guī)則判斷結(jié)果與權(quán)重之積的累加結(jié)果作為最終內(nèi)容庫(kù)項(xiàng)目的判斷結(jié)果來(lái)進(jìn)行實(shí)際篩選。

本發(fā)明技術(shù)方案組建答案庫(kù)的手段并不受上述技術(shù)方案的限制。

根據(jù)本發(fā)明技術(shù)方案的上述內(nèi)容，在建立了候選答案庫(kù)之后，給定一個(gè)用戶提出的問(wèn)題，根據(jù)步驟s102就可以在答案庫(kù)中搜索最合適的候選答案，具體的，根據(jù)步驟s102，本發(fā)明技術(shù)方案即提供了一種可行的答案自動(dòng)匹配技術(shù)手段，如圖4所示，所述對(duì)輸入的問(wèn)題項(xiàng)目進(jìn)行分詞并尋找答案庫(kù)中具備所有分詞的目標(biāo)項(xiàng)目包括步驟：

步驟s400，將所述輸入的問(wèn)題項(xiàng)目分為順序的單個(gè)詞組成的序列；

步驟s401，若所述答案庫(kù)中項(xiàng)目標(biāo)題具備所述序列中的每一個(gè)詞，則選擇該項(xiàng)目標(biāo)題的項(xiàng)目作為所述目標(biāo)項(xiàng)目。

需要說(shuō)明的是，根據(jù)步驟s400，所述輸入的問(wèn)題項(xiàng)目一般其長(zhǎng)度包含的字符數(shù)一般會(huì)比較短，即類(lèi)似為一句話的問(wèn)題或幾句話的問(wèn)題，在長(zhǎng)度上可能與輸入問(wèn)題項(xiàng)目長(zhǎng)度類(lèi)似的會(huì)是答案庫(kù)中的項(xiàng)目標(biāo)題，因此此處答案自動(dòng)匹配的過(guò)程可能限于問(wèn)題項(xiàng)目與項(xiàng)目標(biāo)題直接的匹配手。但是可以理解的是，若輸入的問(wèn)題項(xiàng)目比較長(zhǎng)，其涵蓋的內(nèi)容也會(huì)比較多，一般輸入的問(wèn)題項(xiàng)目也會(huì)具有標(biāo)題，此時(shí)可以使用輸入問(wèn)題項(xiàng)目的標(biāo)題與項(xiàng)目標(biāo)題作匹配。即步驟s400所指輸入的問(wèn)題項(xiàng)目在輸入的問(wèn)題內(nèi)容長(zhǎng)度超過(guò)預(yù)定內(nèi)容長(zhǎng)度時(shí)，選取問(wèn)題項(xiàng)目標(biāo)題作為所述輸入的問(wèn)題項(xiàng)目，但若輸入的問(wèn)題內(nèi)容長(zhǎng)度未超過(guò)預(yù)定內(nèi)容長(zhǎng)度時(shí)，則將所述問(wèn)題長(zhǎng)度作為所述輸入的問(wèn)題項(xiàng)目。

根據(jù)步驟s103，在找到目標(biāo)項(xiàng)目后，可以根據(jù)計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目的綜合相關(guān)度來(lái)推測(cè)到問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目的匹配情況，從而實(shí)現(xiàn)自動(dòng)匹配答案。本發(fā)明技術(shù)方案提供了如下兩種計(jì)算方案來(lái)獲取到上述綜合相關(guān)度。具體為：

第一種計(jì)算方案為人工規(guī)則的方法，如圖5所示，所述計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目的綜合相關(guān)度包括步驟：

步驟s500，分別使用若干相關(guān)度函數(shù)計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目之間的單一相關(guān)度；

步驟s501，對(duì)計(jì)算得到的單一相關(guān)度分配權(quán)重并將所述權(quán)重與所對(duì)應(yīng)單一相關(guān)度之積累加以得到所述綜合相關(guān)度。

根據(jù)步驟s500，所述分別使用若干相關(guān)度函數(shù)計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目之間的單一相關(guān)度至少包括執(zhí)行如下幾種計(jì)算方式的一種或多種，比如：

第一種計(jì)算方式：對(duì)目標(biāo)項(xiàng)目標(biāo)題與問(wèn)題項(xiàng)目進(jìn)行分詞，通過(guò)word2vec工具獲取每個(gè)詞的數(shù)值向量，然后把這些詞的向量相加得到項(xiàng)目標(biāo)題的語(yǔ)義向量和問(wèn)題項(xiàng)目語(yǔ)義向量，最后計(jì)算上述兩個(gè)向量的cosine距離，以獲取第一單一相關(guān)度；

第二種計(jì)算方式：目標(biāo)項(xiàng)目標(biāo)題與問(wèn)題項(xiàng)目進(jìn)行分詞，計(jì)算二者共有詞的數(shù)量占二者所有詞的比例，以獲取第二單一相關(guān)度；

第三種計(jì)算方式：獲取目標(biāo)項(xiàng)目標(biāo)題的關(guān)鍵詞，通過(guò)word2vec工具獲取每個(gè)關(guān)鍵詞的數(shù)值向量，然后把這些向量加和作為目標(biāo)項(xiàng)目標(biāo)題的語(yǔ)義向量；對(duì)問(wèn)題項(xiàng)目進(jìn)行分詞，然后通過(guò)word2vec工具獲取每個(gè)詞的數(shù)值向量并加和作為問(wèn)題項(xiàng)目的語(yǔ)義向量，最后計(jì)算目標(biāo)項(xiàng)目標(biāo)題與問(wèn)題項(xiàng)目語(yǔ)義向量之間的cosine距離，以獲得第三單一相關(guān)度。

其中，word2vec工具是現(xiàn)有技術(shù)中一種流行的詞向量化工具，由谷歌公司開(kāi)發(fā)，可以把詞表示一個(gè)數(shù)值向量，而且保證語(yǔ)義相近的詞其數(shù)值向量距離也更近，該工具的應(yīng)算原理此處不再贅述。

在根據(jù)本計(jì)算方案的一則擴(kuò)展實(shí)例中，令：

rel(c,q)＝w1×f1(c,q)+w2×f2(c,q)+…+wn×fn(c,q)

其中，c和q分別代表目標(biāo)項(xiàng)目與問(wèn)題項(xiàng)目，rel(c,q)代表c和q的綜合相關(guān)度，f1、f2、…、fn分別表示單一的相關(guān)函數(shù)，n為大于2的自然數(shù)，w1、w2、…、wn表示相關(guān)函數(shù)f1、f2、…、fn權(quán)重，是手工調(diào)整的。f1、f2、…、fn的計(jì)算方式可以采用上述第一種至第三種計(jì)算方式，也可以采用其他現(xiàn)有技術(shù)中的相關(guān)度函數(shù)的計(jì)算方式。相關(guān)領(lǐng)域的技術(shù)人員還可以設(shè)計(jì)出更多有效的相關(guān)度函數(shù)，限于篇幅，在此不再一一列舉。

在本發(fā)明技術(shù)方案的第二種計(jì)算方案為機(jī)器學(xué)習(xí)的方法，如圖6所示的一種自動(dòng)生成開(kāi)放式問(wèn)題答案的方法(圖6所示的方法流程基于圖1)，除了包括步驟s100～s103外，還包括如下步驟：

步驟s600，從所述答案庫(kù)中人工篩選所述符合所述問(wèn)題項(xiàng)目的項(xiàng)目標(biāo)題及不符合所述問(wèn)題項(xiàng)目的項(xiàng)目標(biāo)題以分別作為第二正樣本及第二負(fù)樣本；

步驟s601，拆分所述問(wèn)題項(xiàng)目、第二正樣本及第二負(fù)樣本為單字序列，并基于rnn處理后得到各個(gè)序列的語(yǔ)義向量；

步驟s602，訓(xùn)練rnn模型以準(zhǔn)確預(yù)測(cè)上述各語(yǔ)義向量間的cosine距離是否符合真實(shí)相關(guān)度，以獲得rnn模型參數(shù)。

本發(fā)明技術(shù)方案對(duì)于步驟s600～s602的流程可以是內(nèi)部運(yùn)行的，也可以是外部處理得到的。rnn(recurrentneutralnetworks)模型也即循環(huán)神經(jīng)網(wǎng)絡(luò)模型，是一種流行的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，其輸入一個(gè)字符序列，可以獲得一個(gè)向量用來(lái)表示這個(gè)字符序列的潛在語(yǔ)義，現(xiàn)有技術(shù)中對(duì)該模型有更為細(xì)致的闡述。本發(fā)明技術(shù)方案運(yùn)用該rnn模型來(lái)訓(xùn)練問(wèn)題項(xiàng)目及目標(biāo)項(xiàng)目標(biāo)題之間的匹配預(yù)測(cè)，從而提高匹配預(yù)測(cè)的準(zhǔn)確度。

根據(jù)圖6中的步驟s103，結(jié)合圖7，所述計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目的綜合相關(guān)度包括步驟：

步驟s700，對(duì)目標(biāo)項(xiàng)目標(biāo)題與問(wèn)題項(xiàng)目進(jìn)行分詞以獲得單字序列；

步驟s701，基于所述rnn模型參數(shù)使用rnn模型預(yù)測(cè)所述標(biāo)項(xiàng)目標(biāo)題與問(wèn)題項(xiàng)目單字序列之間的預(yù)測(cè)相關(guān)度。

根據(jù)步驟s700至s701，可知，在本發(fā)明技術(shù)方案中，針對(duì)一個(gè)用戶問(wèn)題q，可以先標(biāo)注一批候選答案庫(kù)中適合作為這個(gè)問(wèn)題回答的內(nèi)容{c}(即與該問(wèn)題匹配的目標(biāo)標(biāo)題c的集合)，然后標(biāo)注一批不適合作為這個(gè)問(wèn)題回答的內(nèi)容{c’}(即與該問(wèn)題不匹配的目標(biāo)標(biāo)題c’的集合)。q和所有c組成的配對(duì)可以作為第二正樣本，q和所有c’組成的配對(duì)可以作為第二負(fù)樣本。一般需要對(duì)數(shù)千不同的q進(jìn)行此項(xiàng)操作，收集數(shù)以萬(wàn)級(jí)的正負(fù)樣本，然后就可以訓(xùn)練機(jī)器學(xué)習(xí)模型自動(dòng)學(xué)習(xí)如何計(jì)算rel(c，q)。

本實(shí)例中采用流行的rnn模型來(lái)學(xué)習(xí)候選答案標(biāo)題和用戶問(wèn)題的相關(guān)度，這里把問(wèn)題和候選答案標(biāo)題都作為單字序列(比如問(wèn)題q為“為什么索尼，松下等日本企業(yè)近年來(lái)衰落了？”被轉(zhuǎn)化為如下的單字序列<為，什，么，索，尼，松，下，等，日，本，企，業(yè)，近，年，來(lái)，衰，落，了>)，經(jīng)過(guò)rnn模型處理后得問(wèn)題序列的語(yǔ)義向量及候選答案標(biāo)題的語(yǔ)義向量。如果二者相關(guān)，兩個(gè)向量之間的cosine距離應(yīng)該為1，如果二者不相關(guān)，其cosine距離應(yīng)該為0。

利用經(jīng)典的bptt算法，即考慮利用rnn模型預(yù)測(cè)得到的向量之間的cosine距離和樣本中真實(shí)計(jì)算得到的向量之間的cosine距離的誤差，用這個(gè)誤差反過(guò)來(lái)調(diào)整rnn模型的模型參數(shù)，不斷調(diào)整模型參數(shù)使得使所得到的預(yù)測(cè)值與真實(shí)值誤差越來(lái)越小，就可以找到合適的模型參數(shù)使得rnn模型對(duì)(c,q)配對(duì)樣本相關(guān)性的預(yù)測(cè)能力最強(qiáng)。

找到合適的模型參數(shù)后，模型就訓(xùn)練完成，即就可以利用合適的rnn模型對(duì)于任意的(c，q)組合計(jì)算相關(guān)性，即預(yù)測(cè)得到的問(wèn)題序列的語(yǔ)義向量及候選答案標(biāo)題的語(yǔ)義向量之間的cosine距離，從而根據(jù)預(yù)測(cè)值來(lái)判斷匹配情況：先把c的標(biāo)題和q作為單字序列，然后分別用rnn模型處理得到各自的語(yǔ)義向量，再計(jì)算cosine距離。計(jì)算出的距離越大，相關(guān)度越高，所以這個(gè)計(jì)算方法可以用來(lái)從若干候選答案中找出最相關(guān)的。所述預(yù)測(cè)相關(guān)度即指根據(jù)rnn模型計(jì)算問(wèn)題序列的語(yǔ)義向量及候選答案標(biāo)題的語(yǔ)義向量之間的cosine距離。

如果匹配算法的準(zhǔn)確度較高(需要實(shí)際評(píng)估，因?yàn)槿斯ひ?guī)則的效果需要不斷調(diào)整規(guī)來(lái)嘗試提高，不容易取得滿意的效果，機(jī)器學(xué)習(xí)方法的效果受到樣本質(zhì)量和數(shù)量的影響)，可以把相關(guān)性高于特定閾值的候選答案直接回復(fù)到問(wèn)題后面由機(jī)器人賬號(hào)發(fā)布到問(wèn)答社區(qū)，當(dāng)然這樣的做法有一定風(fēng)險(xiǎn)，更穩(wěn)妥的做法是把候選答案發(fā)給適合回答該問(wèn)題的真實(shí)用戶，讓該用戶評(píng)判候選答案是否很好的回答了問(wèn)題。另外該用戶還可以把候選答案作為素材，在此基礎(chǔ)上修改回復(fù)一個(gè)更好的答案，這樣會(huì)比自己從頭開(kāi)始寫(xiě)效率來(lái)得更高。在本發(fā)明技術(shù)方案的又一種變化例下，如圖8所示(圖8基于圖1所示方案，當(dāng)然在其他實(shí)施例中也可以基于圖6所示方案進(jìn)行變形)，一種自動(dòng)生成開(kāi)放式問(wèn)題答案的方法，除了包括步驟s100～s103外，還包括如下步驟：步驟s800，至少提取綜合相關(guān)度最高的目標(biāo)項(xiàng)目中的目標(biāo)內(nèi)容進(jìn)行發(fā)布。

上述發(fā)布的對(duì)象可以是提出問(wèn)題的用戶，也可以是擬作出回答的用戶。根據(jù)圖8所示自動(dòng)生成開(kāi)放式問(wèn)題答案的方法來(lái)操作的一個(gè)應(yīng)用例，如圖9所示，其中用戶問(wèn)題來(lái)自于問(wèn)答社區(qū)，一般不是簡(jiǎn)單的事實(shí)性問(wèn)題(事實(shí)性問(wèn)題比如“現(xiàn)在的美國(guó)總統(tǒng)是誰(shuí)？”)，而是需要較多文字或者視頻來(lái)闡述的開(kāi)放性問(wèn)題(比如“特朗普上任后會(huì)給國(guó)際局勢(shì)帶來(lái)什么變化？”)，該方法包括如下步驟：

首先是預(yù)先從一個(gè)包含海量文章或視頻內(nèi)容的內(nèi)容庫(kù)挖掘候選答案并建立候選答案庫(kù)，其次是收到用戶提問(wèn)后，從候選答案庫(kù)中找到匹配的答案并發(fā)布答案。

結(jié)合圖9，從候選答案庫(kù)中找到匹配的答案并發(fā)布答案的步驟進(jìn)一步包括：

步驟s900，對(duì)用戶問(wèn)題進(jìn)行分詞；

步驟s901，根據(jù)分詞后的詞集此在候選答案庫(kù)找到標(biāo)題包含這些詞的候選答案；

步驟s902，對(duì)于每項(xiàng)候選答案，計(jì)算其標(biāo)題和用戶問(wèn)題的相關(guān)性；

步驟s903，系統(tǒng)需要判斷自動(dòng)生成的答案相關(guān)度是否高于特定閾值；高于閾值的候選答案則視為topk答案；

對(duì)于topk答案，可以根據(jù)步驟s904，發(fā)送給適合回答問(wèn)題的用戶，即潛在搭主供其參考，為其撰寫(xiě)答案提供素材；也可以根據(jù)步驟s905，利用系統(tǒng)賬號(hào)在問(wèn)答社區(qū)直接發(fā)布答案。

本發(fā)明雖然已以較佳實(shí)施例公開(kāi)如上，但其并不是用來(lái)限定本發(fā)明，任何本領(lǐng)域技術(shù)人員在不脫離本發(fā)明的精神和范圍內(nèi)，都可以利用上述揭示的方法和技術(shù)內(nèi)容對(duì)本發(fā)明技術(shù)方案做出可能的變動(dòng)和修改，因此，凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容，依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所作的任何簡(jiǎn)單修改、等同變化及修飾，均屬于本發(fā)明技術(shù)方案的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：曹歡歡;羅立新
技術(shù)所有人：北京字節(jié)跳動(dòng)科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

開(kāi)放式廚房油煙問(wèn)題相關(guān)技術(shù)

參考文獻(xiàn)自動(dòng)生成方法相關(guān)技術(shù)

idea自動(dòng)生成構(gòu)造方法相關(guān)技術(shù)

自動(dòng)生成的方法存根相關(guān)技術(shù)

eclipse自動(dòng)生成方法相關(guān)技術(shù)

idea自動(dòng)生成接口方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種自動(dòng)生成開(kāi)放式問(wèn)題答案的方法與流程