本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種自動(dòng)生成開(kāi)放式問(wèn)題答案的方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的發(fā)展,問(wèn)答社區(qū)逐漸成為深受網(wǎng)民歡迎的一種互聯(lián)網(wǎng)產(chǎn)品,如國(guó)內(nèi)的“知乎”、“頭條問(wèn)答”,美國(guó)的quora,用戶可以在社區(qū)中提出各種問(wèn)題,其它用戶看到自己熟悉領(lǐng)域的問(wèn)題就可以發(fā)布自己的答案。這些答案會(huì)被所有瀏覽該問(wèn)題的用戶看到,點(diǎn)贊或點(diǎn)踩,受歡迎的答案會(huì)被系統(tǒng)排到靠前的位置。這類(lèi)社區(qū)的一個(gè)挑戰(zhàn)是,隨著用戶量的增長(zhǎng),越來(lái)越多的問(wèn)題很少被其它用戶關(guān)注到,導(dǎo)致無(wú)人回答,提問(wèn)者的積極性大受打擊。有些社區(qū)提供了答主自動(dòng)邀請(qǐng)的功能,會(huì)根據(jù)用戶的回答歷史為問(wèn)題自動(dòng)邀請(qǐng)合適的用戶來(lái)回答??墒沁@樣會(huì)導(dǎo)致活躍的答主收到過(guò)多的邀請(qǐng),沒(méi)有辦法在保證回答質(zhì)量的情況下及時(shí)回答問(wèn)題。因此,目前這個(gè)問(wèn)題尚沒(méi)有有效的解決方案。
在自動(dòng)回答方面,現(xiàn)有的技術(shù)主要聚焦在解決封閉性問(wèn)題的回答生成上,比如“奧巴馬是美國(guó)第幾屆總統(tǒng)?”?,F(xiàn)有的一些系統(tǒng)一般會(huì)把利用nlp技術(shù)把問(wèn)題轉(zhuǎn)化為一個(gè)結(jié)構(gòu)化的查詢語(yǔ)言并通過(guò)查詢預(yù)先構(gòu)建的知識(shí)圖譜返回答案。但是現(xiàn)有的自動(dòng)回答生成技術(shù)無(wú)法解決開(kāi)放式問(wèn)題的回答自動(dòng)生成問(wèn)題,比如:“你對(duì)樂(lè)視的生態(tài)化反戰(zhàn)略怎么看?”這類(lèi)問(wèn)題的提問(wèn)者需要的不是知識(shí)性的答案,而是對(duì)問(wèn)題的分析和觀點(diǎn)的闡述,從而達(dá)到思想的交流。目前的網(wǎng)絡(luò)問(wèn)答社區(qū)無(wú)法對(duì)上述具有開(kāi)放式特定的網(wǎng)絡(luò)問(wèn)題進(jìn)行自動(dòng)答復(fù),也沒(méi)有實(shí)現(xiàn)網(wǎng)絡(luò)問(wèn)題的自動(dòng)生成答案的功能。上述功能的欠缺導(dǎo)致網(wǎng)絡(luò)資源的大量浪費(fèi),無(wú)法整合網(wǎng)絡(luò)資源,也不能實(shí)現(xiàn)網(wǎng)絡(luò)自適應(yīng)地處理問(wèn)答機(jī)制,使得大量用戶問(wèn)題無(wú)法得到及時(shí)反饋與解決。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明技術(shù)方案所解決的技術(shù)問(wèn)題為:如何針對(duì)網(wǎng)絡(luò)應(yīng)用中的開(kāi)放式問(wèn)題提供網(wǎng)絡(luò)的自主回復(fù)。
為了解決上述技術(shù)問(wèn)題,本發(fā)明技術(shù)方案提供了一種自動(dòng)生成開(kāi)放式問(wèn)題答案的方法,包括:
獲取內(nèi)容庫(kù),所述內(nèi)容庫(kù)中的項(xiàng)目至少包括項(xiàng)目來(lái)源、項(xiàng)目?jī)?nèi)容及項(xiàng)目標(biāo)題中的一種屬性;
建立答案規(guī)則并從所述內(nèi)容庫(kù)中獲取符合所述答案規(guī)則的項(xiàng)目以組建答案庫(kù),所述答案規(guī)則包括至少與所述項(xiàng)目來(lái)源、項(xiàng)目?jī)?nèi)容、項(xiàng)目標(biāo)題中一種對(duì)應(yīng)篩選條件;
對(duì)輸入的問(wèn)題項(xiàng)目進(jìn)行分詞并尋找答案庫(kù)中具備所有分詞的目標(biāo)項(xiàng)目;
計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目的綜合相關(guān)度并找出綜合相關(guān)度最高的目標(biāo)項(xiàng)目以輸出。
可選的,所述獲取內(nèi)容庫(kù)包括:根據(jù)內(nèi)部提供或外部抓取的文檔或視頻建立內(nèi)容庫(kù)中的項(xiàng)目。
可選的,所述建立答案規(guī)則包括:
從內(nèi)容庫(kù)中篩選符合如下條件中的至少一項(xiàng)的項(xiàng)目:
所述項(xiàng)目來(lái)源的權(quán)威度合法;
所述項(xiàng)目?jī)?nèi)容的時(shí)效合法;
所述項(xiàng)目標(biāo)題中包含實(shí)體詞語(yǔ);
所述項(xiàng)目標(biāo)題是疑問(wèn)句。
可選的,所述建立答案規(guī)則包括:
從所述內(nèi)容庫(kù)中人工篩選所述符合所述答案規(guī)則的項(xiàng)目及不符合所述答案規(guī)則的項(xiàng)目以分別作為第一正樣本及第一負(fù)樣本;
將所述項(xiàng)目的屬性、第一正樣本及第一負(fù)樣本輸入答案規(guī)則建立模型、訓(xùn)練所述答案規(guī)則建立模型以建立所述答案規(guī)則。
可選的,所述訓(xùn)練所述答案規(guī)則建立模型以建立所述答案規(guī)則包括:
獲取所述第一正樣本/第一負(fù)樣本相對(duì)于所述項(xiàng)目屬性的第一真實(shí)數(shù)據(jù)/第二真實(shí)數(shù)據(jù);
使用所述答案規(guī)則建立模型預(yù)測(cè)所述第一正樣本/第一負(fù)樣本相對(duì)于所述項(xiàng)目屬性的第一預(yù)測(cè)數(shù)據(jù)/第二預(yù)測(cè)數(shù)據(jù);
調(diào)整所述答案規(guī)則建立模型的模型參數(shù),當(dāng)所述第一預(yù)測(cè)數(shù)據(jù)與第一真實(shí)數(shù)據(jù)一致且第二預(yù)測(cè)數(shù)據(jù)與第二真實(shí)數(shù)據(jù)一致則輸出所述模型參數(shù)及其答案規(guī)則建立模型。
可選的,所述答案規(guī)則建立模型基于機(jī)器學(xué)習(xí)算法。
可選的,所述機(jī)器學(xué)習(xí)算法為樸素貝葉斯算法、gbdt算法、svm算法及rnn算法中的一種。
可選的,所述對(duì)輸入的問(wèn)題項(xiàng)目進(jìn)行分詞并尋找答案庫(kù)中具備所有分詞的目標(biāo)項(xiàng)目包括:
將所述輸入的問(wèn)題項(xiàng)目分為順序的單個(gè)詞組成的序列;
若所述答案庫(kù)中項(xiàng)目標(biāo)題具備所述序列中的每一個(gè)詞,則選擇該項(xiàng)目標(biāo)題的項(xiàng)目作為所述目標(biāo)項(xiàng)目。
可選的,所述計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目的綜合相關(guān)度包括:
分別使用若干相關(guān)度函數(shù)計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目之間的單一相關(guān)度;
對(duì)計(jì)算得到的單一相關(guān)度分配權(quán)重并將所述權(quán)重與所對(duì)應(yīng)單一相關(guān)度之積累加以得到所述綜合相關(guān)度。
可選的,所述分別使用若干相關(guān)度函數(shù)計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目之間的單一相關(guān)度至少包括執(zhí)行如下幾種計(jì)算方式的一種或多種:
對(duì)目標(biāo)項(xiàng)目標(biāo)題與問(wèn)題項(xiàng)目進(jìn)行分詞,通過(guò)word2vec工具獲取每個(gè)詞的數(shù)值向量,然后把這些詞的向量相加得到項(xiàng)目標(biāo)題的語(yǔ)義向量和問(wèn)題項(xiàng)目語(yǔ)義向量,最后計(jì)算上述兩個(gè)向量的cosine距離,以獲取第一單一相關(guān)度;
目標(biāo)項(xiàng)目標(biāo)題與問(wèn)題項(xiàng)目進(jìn)行分詞,計(jì)算二者共有詞的數(shù)量占二者所有詞的比例,以獲取第二單一相關(guān)度;
獲取目標(biāo)項(xiàng)目標(biāo)題的關(guān)鍵詞,通過(guò)word2vec工具獲取每個(gè)關(guān)鍵詞的數(shù)值向量,然后把這些向量加和作為目標(biāo)項(xiàng)目標(biāo)題的語(yǔ)義向量;對(duì)問(wèn)題項(xiàng)目進(jìn)行分詞,然后通過(guò)word2vec工具獲取每個(gè)詞的數(shù)值向量并加和作為問(wèn)題項(xiàng)目的語(yǔ)義向量,最后計(jì)算目標(biāo)項(xiàng)目標(biāo)題與問(wèn)題項(xiàng)目語(yǔ)義向量之間的cosine距離,以獲得第三單一相關(guān)度。
可選的,所述自動(dòng)生成開(kāi)放式問(wèn)題答案的方法還包括:
從所述答案庫(kù)中人工篩選所述符合所述問(wèn)題項(xiàng)目的項(xiàng)目標(biāo)題及不符合所述問(wèn)題項(xiàng)目的項(xiàng)目標(biāo)題以分別作為第二正樣本及第二負(fù)樣本;
拆分所述問(wèn)題項(xiàng)目、第二正樣本及第二負(fù)樣本為單字序列,并基于rnn處理后得到各個(gè)序列的語(yǔ)義向量;
訓(xùn)練rnn模型以準(zhǔn)確預(yù)測(cè)上述各語(yǔ)義向量間的cosine距離是否符合真實(shí)相關(guān)度,以獲得rnn模型參數(shù);
所述計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目的綜合相關(guān)度包括:
對(duì)目標(biāo)項(xiàng)目標(biāo)題與問(wèn)題項(xiàng)目進(jìn)行分詞以獲得單字序列;
基于所述rnn模型參數(shù)使用rnn模型預(yù)測(cè)所述標(biāo)項(xiàng)目標(biāo)題與問(wèn)題項(xiàng)目單字序列之間的預(yù)測(cè)相關(guān)度。
可選的,所述自動(dòng)生成開(kāi)放式問(wèn)題答案的方法還包括:至少提取綜合相關(guān)度最高的目標(biāo)項(xiàng)目中的目標(biāo)內(nèi)容進(jìn)行發(fā)布。
本發(fā)明技術(shù)方案的有益效果至少包括:
本發(fā)明技術(shù)方案能夠解決現(xiàn)有技術(shù)中,社區(qū)問(wèn)答無(wú)法回復(fù)的問(wèn)題,為用戶提供了一種可結(jié)合網(wǎng)絡(luò)自有資源有效自動(dòng)生成答案的技術(shù)方案,不僅解決了網(wǎng)絡(luò)配置資源閑置的問(wèn)題,還提高了社區(qū)問(wèn)答環(huán)境的有效性及積極性。
本發(fā)明技術(shù)方案通過(guò)建立答案規(guī)則及項(xiàng)目相關(guān)度指標(biāo),有效確認(rèn)了最佳網(wǎng)絡(luò)答案,并可與用戶選擇相結(jié)合,提供了一種有效獲取問(wèn)題答案的技術(shù)方案,提高了答案與問(wèn)題適配的準(zhǔn)確度。
本發(fā)明技術(shù)方案可以在投入資源較少的情況下大幅降低問(wèn)答社區(qū)內(nèi)零回答問(wèn)題的比例,同時(shí)自動(dòng)生成的答案可以給準(zhǔn)備回答問(wèn)題的用戶作為參考,也降低了撰寫(xiě)高質(zhì)量回答的門(mén)檻,提升了用戶體驗(yàn)。
附圖說(shuō)明
圖1為本發(fā)明技術(shù)方案提供的一種自動(dòng)生成開(kāi)放式問(wèn)題答案的方法流程示意圖;
圖2為本發(fā)明技術(shù)方案提供的一種建立答案規(guī)則的方法流程示意圖;
圖3為本發(fā)明技術(shù)方案提供的一種所述訓(xùn)練所述答案規(guī)則建立模型的方法流程示意圖;
圖4為本發(fā)明技術(shù)方案提供的一種對(duì)輸入的問(wèn)題項(xiàng)目進(jìn)行分詞并尋找答案庫(kù)中具備所有分詞的目標(biāo)項(xiàng)目的方法流程示意圖;
圖5為本發(fā)明技術(shù)方案提供的一種基于人工規(guī)則計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目的綜合相關(guān)度的方法流程示意圖;
圖6為本發(fā)明技術(shù)方案提供的另一種自動(dòng)生成開(kāi)放式問(wèn)題答案的方法流程示意圖;
圖7為本發(fā)明技術(shù)方案提供的一種基于機(jī)器學(xué)習(xí)方法計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目的綜合相關(guān)度的方法流程示意圖;
圖8為本發(fā)明技術(shù)方案提供的又一種自動(dòng)生成開(kāi)放式問(wèn)題答案的方法流程示意圖;
圖9為本發(fā)明技術(shù)方案提供的再一種自動(dòng)生成開(kāi)放式問(wèn)題答案的方法流程示意圖。
具體實(shí)施方式
現(xiàn)有技術(shù)中無(wú)法實(shí)現(xiàn)對(duì)于開(kāi)放式網(wǎng)絡(luò)問(wèn)題的自動(dòng)答復(fù),如果能有一種有效的針對(duì)開(kāi)放式問(wèn)題的答案自動(dòng)生成方法,就可以大大緩解問(wèn)答社區(qū)內(nèi)很多用戶的問(wèn)題得不到及時(shí)回答的現(xiàn)象。如果該自動(dòng)答案生成方法的精確度還無(wú)法直接回復(fù)提問(wèn)者,也可以作為參考文案發(fā)送給系統(tǒng)認(rèn)為有能力回答原問(wèn)題的用戶,答題用戶經(jīng)過(guò)簡(jiǎn)單編輯就可以產(chǎn)出優(yōu)質(zhì)的答案,比完全靠自己寫(xiě)一篇答案效率高出不少,沒(méi)有任何回答的問(wèn)題比例也會(huì)相應(yīng)下降。本發(fā)明技術(shù)方案提出了一種自動(dòng)生成答案的方法,可以從一個(gè)包含文章,視頻的內(nèi)容庫(kù)中根據(jù)用戶問(wèn)題抽取候選答案,既可以直接回復(fù)提問(wèn)者,也可以作為素材發(fā)送給被邀請(qǐng)的潛在答主,提高其撰寫(xiě)答案的成本。
根據(jù)本發(fā)明技術(shù)方案的整體發(fā)明思路,其首先需要通過(guò)獲取一內(nèi)容庫(kù)來(lái)建立答案庫(kù),答案庫(kù)的建立需要從內(nèi)容庫(kù)中選擇符合答案規(guī)則的項(xiàng)目,即“準(zhǔn)答案項(xiàng)目”,此后再根據(jù)用戶提出的問(wèn)題項(xiàng)目,實(shí)現(xiàn)答案自動(dòng)匹配的過(guò)程。本發(fā)明技術(shù)方案首先需要獲取到內(nèi)容庫(kù),其內(nèi)容形式可以包括文章和短視頻,其次需要在內(nèi)容庫(kù)中挖掘適合作為答案的內(nèi)容作為答案庫(kù),然后根據(jù)用戶給定的問(wèn)題,通過(guò)檢索的方式在答案庫(kù)中找到最合適的候選答案;對(duì)候選答案設(shè)置預(yù)定的置信度算法以推算候選答案的置信度,選擇置信度高于閾值的候選答案直接回復(fù)答案或?qū)⒑蜻x答案作為素材發(fā)送給潛在答主供其參考。
以下結(jié)合附圖詳細(xì)闡述本發(fā)明技術(shù)方案的具體實(shí)施過(guò)程。
根據(jù)圖1所示的一種自動(dòng)生成開(kāi)放式問(wèn)題答案的方法,包括如下步驟:
步驟s100,獲取內(nèi)容庫(kù),所述內(nèi)容庫(kù)中的項(xiàng)目至少包括項(xiàng)目來(lái)源、項(xiàng)目?jī)?nèi)容及項(xiàng)目標(biāo)題中的一種屬性。
步驟s101,建立答案規(guī)則并從所述內(nèi)容庫(kù)中獲取符合所述答案規(guī)則的項(xiàng)目以組建答案庫(kù),所述答案規(guī)則包括至少與所述項(xiàng)目來(lái)源、項(xiàng)目?jī)?nèi)容、項(xiàng)目標(biāo)題中一種對(duì)應(yīng)篩選條件;
步驟s102,對(duì)輸入的問(wèn)題項(xiàng)目進(jìn)行分詞并尋找答案庫(kù)中具備所有分詞的目標(biāo)項(xiàng)目;
步驟s103,計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目的綜合相關(guān)度并找出綜合相關(guān)度最高的目標(biāo)項(xiàng)目以輸出。
根據(jù)步驟s100,所述獲取內(nèi)容庫(kù)包括:根據(jù)內(nèi)部提供或外部抓取的文檔或視頻建立內(nèi)容庫(kù)中的項(xiàng)目。為了建立答案庫(kù),首先需要有一個(gè)包含文章或者短視頻的內(nèi)容庫(kù)。這些內(nèi)容可以從互聯(lián)網(wǎng)上抓取,比如基于某些抓取互聯(lián)網(wǎng)數(shù)據(jù)的軟件對(duì)特定的互聯(lián)網(wǎng)站點(diǎn)上的內(nèi)容進(jìn)行匹配抓取,以建立新的內(nèi)容庫(kù),并根據(jù)互聯(lián)網(wǎng)更新數(shù)據(jù)不斷更新該內(nèi)容庫(kù)。另一種情況是,問(wèn)答社區(qū)的運(yùn)營(yíng)方同時(shí)也運(yùn)營(yíng)內(nèi)容平臺(tái),有合法的內(nèi)容獲取渠道。比如頭條問(wèn)答實(shí)際上是今日頭條旗下產(chǎn)品,本身有數(shù)千萬(wàn)合法的短視頻和文章可以作為答案庫(kù)的來(lái)源,即可直接基于平臺(tái)內(nèi)容的融合性而基于平臺(tái)數(shù)據(jù)庫(kù)獲取到內(nèi)容庫(kù)。一般來(lái)說(shuō),內(nèi)容庫(kù)需要涵蓋領(lǐng)域越廣越好,這樣給定問(wèn)題有更大概率找到合適的答案或者素材。有了內(nèi)容庫(kù),本發(fā)明技術(shù)方案即根據(jù)步驟s101,通過(guò)預(yù)設(shè)的答案規(guī)則篩選出有可能作為問(wèn)題答案的內(nèi)容項(xiàng)目,以此組建答案庫(kù)。
在本發(fā)明技術(shù)方案的一種變化例下,根據(jù)步驟s101,所述建立答案規(guī)則包括:從內(nèi)容庫(kù)中篩選符合如下條件中的至少一項(xiàng)的項(xiàng)目:
所述項(xiàng)目來(lái)源的權(quán)威度合法;
所述項(xiàng)目?jī)?nèi)容的時(shí)效合法;
所述項(xiàng)目標(biāo)題中包含實(shí)體詞語(yǔ);
所述項(xiàng)目標(biāo)題是疑問(wèn)句。
該變化例提供了一種較為簡(jiǎn)單的建立答案規(guī)則的方案,上述方案中,篩選的條件可以是并列的多種項(xiàng)目屬性的篩選內(nèi)容,以形成由一組篩選條件規(guī)定的答案規(guī)則,篩選的條件也可以是一種項(xiàng)目屬性的篩選內(nèi)容,并由此建立多種答案規(guī)則,答案庫(kù)中的項(xiàng)目需要滿足由一組篩選條件規(guī)定的答案規(guī)則或者同時(shí)滿足多種答案規(guī)則。
在答案規(guī)則是由一組篩選條件規(guī)定的情況下,以下給出一種比較簡(jiǎn)單的建立答案規(guī)則的應(yīng)用例:
該組答案規(guī)則設(shè)定的篩選過(guò)程可以是:
識(shí)別出項(xiàng)目?jī)?nèi)容的時(shí)效性是否合法,即該項(xiàng)目?jī)?nèi)容是否是知識(shí)性的長(zhǎng)時(shí)效內(nèi)容;
識(shí)別項(xiàng)目標(biāo)題的類(lèi)型是疑問(wèn)句還是陳述句;
識(shí)別所述項(xiàng)目標(biāo)題中是否包含實(shí)體詞語(yǔ);
識(shí)別項(xiàng)目標(biāo)題的長(zhǎng)度是否超過(guò)預(yù)定長(zhǎng)度;
項(xiàng)目?jī)?nèi)容來(lái)源的權(quán)威度是否高于預(yù)定值;
識(shí)別結(jié)果是否符合預(yù)定的篩選結(jié)果,若是,則將篩選項(xiàng)目認(rèn)定為符合所述答案規(guī)則的項(xiàng)目,并將其歸于答案庫(kù)項(xiàng)目。比如只篩選符合下列條件之一的內(nèi)容作為候選答案,即設(shè)定預(yù)定的篩選結(jié)果如下:
預(yù)定的篩選結(jié)果一:(長(zhǎng)時(shí)效內(nèi)容)and(標(biāo)題中包含明確實(shí)體)and(標(biāo)題包含疑問(wèn)句);
預(yù)定的篩選結(jié)果二:(長(zhǎng)時(shí)效內(nèi)容)and(標(biāo)題中包含明確實(shí)體)and(標(biāo)題是陳述句)and(來(lái)源權(quán)威度高于預(yù)定值)。
例如,內(nèi)容庫(kù)中其中一篇文章的項(xiàng)目標(biāo)題為《當(dāng)年做手機(jī)的公司都去哪兒了?3分鐘看懂他們靠啥活》,經(jīng)時(shí)效性識(shí)別模型判定是長(zhǎng)時(shí)效內(nèi)容,標(biāo)題中包含實(shí)體“手機(jī)”,而且有疑問(wèn)句,滿足預(yù)定的篩選結(jié)果一,因此可以被篩選為候選答案,符合答案規(guī)則,并加入答案庫(kù)。如果用戶問(wèn)一些諸如“當(dāng)年做手機(jī)的公司很多,現(xiàn)在都在干什么?”“手機(jī)行業(yè)有那些轉(zhuǎn)行的案例?”,這篇文章就是一個(gè)有價(jià)值的答案。
上述方法中根據(jù)文本內(nèi)容識(shí)別文章時(shí)效性,識(shí)別標(biāo)題的句式,標(biāo)題中的實(shí)體識(shí)別都是成熟的文本分析技術(shù),在此不再贅述。來(lái)源權(quán)威度一般是人工設(shè)定,如果內(nèi)容庫(kù)涉及的來(lái)源較多,需要一定的工作量來(lái)對(duì)內(nèi)容庫(kù)涉及的來(lái)源進(jìn)行統(tǒng)計(jì)及分級(jí),一種對(duì)來(lái)源進(jìn)行分級(jí)的方式可以參考如下規(guī)定,但需要說(shuō)明的是,如下規(guī)定僅是一種實(shí)例,根據(jù)不同的來(lái)源及分級(jí)要求,可以有其他不同的分級(jí)方式:
系統(tǒng)預(yù)先對(duì)互聯(lián)網(wǎng)項(xiàng)目中來(lái)源權(quán)威度作出了評(píng)級(jí),比如對(duì)于政府站點(diǎn)的來(lái)源度評(píng)級(jí)為最高,即10級(jí),事業(yè)單位站點(diǎn)來(lái)源度評(píng)級(jí)次之,即9級(jí),社會(huì)性媒體站點(diǎn)上的官方發(fā)言的來(lái)源度評(píng)級(jí)再次,即8級(jí),社會(huì)性媒體站點(diǎn)上的群眾性自媒體發(fā)言且被官方認(rèn)定過(guò),評(píng)級(jí)為7級(jí),社會(huì)性媒體站點(diǎn)上的群眾性自媒體發(fā)言且轉(zhuǎn)發(fā)次數(shù)及瀏覽次數(shù)達(dá)高預(yù)定次數(shù),評(píng)級(jí)為6級(jí),社會(huì)性媒體站點(diǎn)上的群眾性自媒體發(fā)言且轉(zhuǎn)發(fā)次數(shù)及瀏覽次數(shù)達(dá)中預(yù)定次數(shù),評(píng)級(jí)為5級(jí),社會(huì)性媒體站點(diǎn)上的群眾性自媒體發(fā)言且轉(zhuǎn)發(fā)次數(shù)及瀏覽次數(shù)達(dá)低預(yù)定次數(shù),評(píng)級(jí)為4級(jí),社會(huì)性媒體站點(diǎn)上的群眾性自媒體發(fā)言且瀏覽次數(shù)達(dá)預(yù)定次數(shù),評(píng)級(jí)為3級(jí),群眾性自媒體站點(diǎn)且瀏覽次數(shù)達(dá)預(yù)定次數(shù),評(píng)級(jí)為2級(jí),否則評(píng)級(jí)為1級(jí)。
根據(jù)步驟s101,所述建立答案規(guī)則可采用一種較為復(fù)雜但是篩選精確度更高的方式,即利用機(jī)器學(xué)習(xí)的方法訓(xùn)練一個(gè)自動(dòng)篩選候選答案的模型,再以此模型對(duì)內(nèi)容庫(kù)中的項(xiàng)目?jī)?nèi)容進(jìn)行是否符合答案規(guī)則的預(yù)測(cè),并根據(jù)預(yù)測(cè)結(jié)果來(lái)判斷內(nèi)容庫(kù)中的項(xiàng)目是否符合答案規(guī)則。
在本發(fā)明技術(shù)方案的另一種變化例下,如圖2所示,所述建立答案規(guī)則包括如下步驟:
步驟s200,從所述內(nèi)容庫(kù)中人工篩選所述符合所述答案規(guī)則的項(xiàng)目及不符合所述答案規(guī)則的項(xiàng)目以分別作為第一正樣本及第一負(fù)樣本;
步驟s201,將所述項(xiàng)目的屬性、第一正樣本及第一負(fù)樣本輸入答案規(guī)則建立模型、訓(xùn)練所述答案規(guī)則建立模型以建立所述答案規(guī)則。
根據(jù)步驟s200,其中篩選樣本的過(guò)程包括:先預(yù)先從內(nèi)容庫(kù)中人工標(biāo)注一定數(shù)量的可以作為候選答案的內(nèi)容(即第一正樣本)和不太合適作為候選答案(即第一負(fù)樣本),一般樣本集中的每一類(lèi)樣本,即第一正樣本及第一負(fù)樣本,至少需要每一類(lèi)各標(biāo)注數(shù)千個(gè)人工篩選的樣本。
在獲取上述樣本后,再根據(jù)步驟s201,把這些樣本輸入機(jī)器學(xué)習(xí)模型,也即所述答案規(guī)則建立模型,比如樸素貝葉斯模型,gbdt模型,svm模型等,讓模型自己學(xué)習(xí)如何根據(jù)內(nèi)容的各項(xiàng)屬性區(qū)分正樣本和負(fù)樣本。學(xué)習(xí)結(jié)束后這些模型就可以用來(lái)判別該內(nèi)容是否可以作為某些問(wèn)題的候選答案。這里所說(shuō)的內(nèi)容屬性包括第一種基于人工規(guī)則的方法中提及的顯式屬性,比如,內(nèi)容的時(shí)效性(是否是知識(shí)性的長(zhǎng)時(shí)效內(nèi)容),標(biāo)題的類(lèi)型(是疑問(wèn)句還是陳述句,是否包含意義明確的實(shí)體),標(biāo)題的長(zhǎng)度,來(lái)源的權(quán)威度。除了這些容易被理解的屬性外,還可以引入一些人不容易理解,但是可能對(duì)機(jī)器學(xué)習(xí)模型增強(qiáng)識(shí)別能力有幫助的復(fù)雜屬性。比如用rnn(循環(huán)神經(jīng)網(wǎng)絡(luò))把內(nèi)容標(biāo)題轉(zhuǎn)換成數(shù)值向量,用這個(gè)數(shù)值向量作為單層神經(jīng)網(wǎng)絡(luò)的輸入,得到“該標(biāo)題可能回答了一個(gè)問(wèn)題”的概率p,而這個(gè)概率p也可以作為內(nèi)容的一種屬性。對(duì)于上述屬性,訓(xùn)練模型對(duì)屬性預(yù)測(cè)結(jié)果輸出,在應(yīng)用時(shí)即可對(duì)上述預(yù)測(cè)結(jié)果與預(yù)定結(jié)果進(jìn)行比較,來(lái)獲取符合答案規(guī)則的內(nèi)容庫(kù)項(xiàng)目了,從而能夠組建答案庫(kù)。具體的,根據(jù)步驟s201,如圖3所示,所述訓(xùn)練所述答案規(guī)則建立模型以建立所述答案規(guī)則包括如下步驟:
步驟s300,獲取所述第一正樣本/第一負(fù)樣本相對(duì)于所述項(xiàng)目屬性的第一真實(shí)數(shù)據(jù)/第二真實(shí)數(shù)據(jù);
步驟s301,使用所述答案規(guī)則建立模型預(yù)測(cè)所述第一正樣本/第一負(fù)樣本相對(duì)于所述項(xiàng)目屬性的第一預(yù)測(cè)數(shù)據(jù)/第二預(yù)測(cè)數(shù)據(jù);
步驟s302,調(diào)整所述答案規(guī)則建立模型的模型參數(shù),當(dāng)所述第一預(yù)測(cè)數(shù)據(jù)與第一真實(shí)數(shù)據(jù)一致且第二預(yù)測(cè)數(shù)據(jù)與第二真實(shí)數(shù)據(jù)一致則輸出所述模型參數(shù)及其答案規(guī)則建立模型。
其中,所述獲取所述第一正樣本/第一負(fù)樣本相對(duì)于所述項(xiàng)目屬性的第一真實(shí)數(shù)據(jù)/第二真實(shí)數(shù)據(jù)包括:獲取所述第一正樣本相對(duì)于所述項(xiàng)目屬性的第一真實(shí)數(shù)據(jù),即比如項(xiàng)目屬性為上述第一種基于人工規(guī)則的方法中提及的顯式屬性,所述第一真實(shí)數(shù)據(jù)針對(duì)其中的預(yù)定的篩選結(jié)果一為:是、是、是(按二進(jìn)制數(shù)據(jù)為:111);以及獲取所述第一負(fù)樣本相對(duì)于所述項(xiàng)目屬性的第二真實(shí)數(shù)據(jù),所述第二真實(shí)數(shù)據(jù)針對(duì)其中的預(yù)定的篩選結(jié)果一為:否、否、否(按二進(jìn)制數(shù)據(jù)為:000)。
所述使用所述答案規(guī)則建立模型預(yù)測(cè)所述第一正樣本/第一負(fù)樣本相對(duì)于所述項(xiàng)目屬性的第一預(yù)測(cè)數(shù)據(jù)/第二預(yù)測(cè)數(shù)據(jù)包括:使用所述答案規(guī)則建立模型預(yù)測(cè)所述第一正樣本相對(duì)于所述項(xiàng)目屬性的第一預(yù)測(cè)數(shù)據(jù),比如第一預(yù)測(cè)數(shù)據(jù)針對(duì)其中的預(yù)定的篩選結(jié)果一為:是、是、否(按二進(jìn)制數(shù)據(jù)為:110);以及,使用所述答案規(guī)則建立模型預(yù)測(cè)所述第一負(fù)樣本相對(duì)于所述項(xiàng)目屬性的第二預(yù)測(cè)數(shù)據(jù),所述第二預(yù)測(cè)數(shù)據(jù)針對(duì)其中的預(yù)定的篩選結(jié)果一為:否、是、否(按二進(jìn)制數(shù)據(jù)為:010)。
所述調(diào)整所述答案規(guī)則建立模型的模型參數(shù),根據(jù)上述實(shí)例,即包括調(diào)整所述答案規(guī)則建立模型的模型參數(shù)使110的預(yù)測(cè)數(shù)值可在預(yù)測(cè)時(shí)準(zhǔn)確輸出為111,使010的預(yù)測(cè)數(shù)值可在預(yù)測(cè)時(shí)準(zhǔn)確輸出為000。上述訓(xùn)練過(guò)程針對(duì)每一樣本數(shù)據(jù)都是一樣的,最終在所有樣本數(shù)據(jù)的第一預(yù)測(cè)數(shù)據(jù)與第一真實(shí)數(shù)據(jù)一致且第二預(yù)測(cè)數(shù)據(jù)與第二真實(shí)數(shù)據(jù)一致,則輸出所述模型參數(shù)及其答案規(guī)則建立模型。
本發(fā)明技術(shù)方案對(duì)于步驟s300~s302的流程可以是內(nèi)部運(yùn)行的,也可以是外部處理得到的。根據(jù)上述步驟s300~s302,所述答案規(guī)則建立模型基于機(jī)器學(xué)習(xí)算法。具體的,所述機(jī)器學(xué)習(xí)算法為樸素貝葉斯算法、gbdt算法、svm算法及rnn算法中的一種。給定一組內(nèi)容屬性和大量正樣本,負(fù)樣本,如何訓(xùn)練機(jī)器學(xué)習(xí)模型得到一個(gè)有效的候選答案識(shí)別模型,在機(jī)器學(xué)習(xí)領(lǐng)域是一個(gè)已經(jīng)被充分解決的成熟問(wèn)題,因此這個(gè)過(guò)程的具體技術(shù)細(xì)節(jié)在此不在贅述。
根據(jù)本發(fā)明技術(shù)方案的上述內(nèi)容,已描述了候選建立候選答案庫(kù)的流程。需要說(shuō)明的是:
如果問(wèn)答社區(qū)的運(yùn)營(yíng)方已經(jīng)擁有一個(gè)門(mén)類(lèi)比較齊全,內(nèi)容豐富的內(nèi)容平臺(tái)(比如頭條問(wèn)答產(chǎn)品的運(yùn)營(yíng)方同時(shí)擁有日均新增幾十萬(wàn)文章,視頻的頭條號(hào)自媒體平臺(tái)),則圖1中的獲取步驟s100可直接基于平臺(tái)數(shù)據(jù)庫(kù)獲取得到,否則則要從互聯(lián)網(wǎng)上抓取大量的文章和帶有描述信息的視頻(可以是短視頻)來(lái)構(gòu)成內(nèi)容庫(kù)中的項(xiàng)目,并實(shí)現(xiàn)自我更新。
本發(fā)明技術(shù)方案還提供了篩選符合答案規(guī)則的內(nèi)容庫(kù)項(xiàng)目來(lái)組建答案庫(kù)的技術(shù)手段,其中包括直接設(shè)計(jì)一種或多種候選答案規(guī)則的技術(shù)手段及通過(guò)訓(xùn)練機(jī)器學(xué)習(xí)模型來(lái)建立答案規(guī)則的技術(shù)手段,兩種手段可以分別在技術(shù)方案中單獨(dú)使用,也可以并行使用。
另外,在直接設(shè)計(jì)一種或多種候選答案規(guī)則的技術(shù)手段中,若存在多種候選答案規(guī)則時(shí),還可以根據(jù)不同情況下的篩選效果需要對(duì)不同候選答案規(guī)則設(shè)置權(quán)重,使用每個(gè)選答案規(guī)則判斷結(jié)果與權(quán)重之積的累加結(jié)果作為最終內(nèi)容庫(kù)項(xiàng)目的判斷結(jié)果來(lái)進(jìn)行實(shí)際篩選。
本發(fā)明技術(shù)方案組建答案庫(kù)的手段并不受上述技術(shù)方案的限制。
根據(jù)本發(fā)明技術(shù)方案的上述內(nèi)容,在建立了候選答案庫(kù)之后,給定一個(gè)用戶提出的問(wèn)題,根據(jù)步驟s102就可以在答案庫(kù)中搜索最合適的候選答案,具體的,根據(jù)步驟s102,本發(fā)明技術(shù)方案即提供了一種可行的答案自動(dòng)匹配技術(shù)手段,如圖4所示,所述對(duì)輸入的問(wèn)題項(xiàng)目進(jìn)行分詞并尋找答案庫(kù)中具備所有分詞的目標(biāo)項(xiàng)目包括步驟:
步驟s400,將所述輸入的問(wèn)題項(xiàng)目分為順序的單個(gè)詞組成的序列;
步驟s401,若所述答案庫(kù)中項(xiàng)目標(biāo)題具備所述序列中的每一個(gè)詞,則選擇該項(xiàng)目標(biāo)題的項(xiàng)目作為所述目標(biāo)項(xiàng)目。
需要說(shuō)明的是,根據(jù)步驟s400,所述輸入的問(wèn)題項(xiàng)目一般其長(zhǎng)度包含的字符數(shù)一般會(huì)比較短,即類(lèi)似為一句話的問(wèn)題或幾句話的問(wèn)題,在長(zhǎng)度上可能與輸入問(wèn)題項(xiàng)目長(zhǎng)度類(lèi)似的會(huì)是答案庫(kù)中的項(xiàng)目標(biāo)題,因此此處答案自動(dòng)匹配的過(guò)程可能限于問(wèn)題項(xiàng)目與項(xiàng)目標(biāo)題直接的匹配手。但是可以理解的是,若輸入的問(wèn)題項(xiàng)目比較長(zhǎng),其涵蓋的內(nèi)容也會(huì)比較多,一般輸入的問(wèn)題項(xiàng)目也會(huì)具有標(biāo)題,此時(shí)可以使用輸入問(wèn)題項(xiàng)目的標(biāo)題與項(xiàng)目標(biāo)題作匹配。即步驟s400所指輸入的問(wèn)題項(xiàng)目在輸入的問(wèn)題內(nèi)容長(zhǎng)度超過(guò)預(yù)定內(nèi)容長(zhǎng)度時(shí),選取問(wèn)題項(xiàng)目標(biāo)題作為所述輸入的問(wèn)題項(xiàng)目,但若輸入的問(wèn)題內(nèi)容長(zhǎng)度未超過(guò)預(yù)定內(nèi)容長(zhǎng)度時(shí),則將所述問(wèn)題長(zhǎng)度作為所述輸入的問(wèn)題項(xiàng)目。
根據(jù)步驟s103,在找到目標(biāo)項(xiàng)目后,可以根據(jù)計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目的綜合相關(guān)度來(lái)推測(cè)到問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目的匹配情況,從而實(shí)現(xiàn)自動(dòng)匹配答案。本發(fā)明技術(shù)方案提供了如下兩種計(jì)算方案來(lái)獲取到上述綜合相關(guān)度。具體為:
第一種計(jì)算方案為人工規(guī)則的方法,如圖5所示,所述計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目的綜合相關(guān)度包括步驟:
步驟s500,分別使用若干相關(guān)度函數(shù)計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目之間的單一相關(guān)度;
步驟s501,對(duì)計(jì)算得到的單一相關(guān)度分配權(quán)重并將所述權(quán)重與所對(duì)應(yīng)單一相關(guān)度之積累加以得到所述綜合相關(guān)度。
根據(jù)步驟s500,所述分別使用若干相關(guān)度函數(shù)計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目之間的單一相關(guān)度至少包括執(zhí)行如下幾種計(jì)算方式的一種或多種,比如:
第一種計(jì)算方式:對(duì)目標(biāo)項(xiàng)目標(biāo)題與問(wèn)題項(xiàng)目進(jìn)行分詞,通過(guò)word2vec工具獲取每個(gè)詞的數(shù)值向量,然后把這些詞的向量相加得到項(xiàng)目標(biāo)題的語(yǔ)義向量和問(wèn)題項(xiàng)目語(yǔ)義向量,最后計(jì)算上述兩個(gè)向量的cosine距離,以獲取第一單一相關(guān)度;
第二種計(jì)算方式:目標(biāo)項(xiàng)目標(biāo)題與問(wèn)題項(xiàng)目進(jìn)行分詞,計(jì)算二者共有詞的數(shù)量占二者所有詞的比例,以獲取第二單一相關(guān)度;
第三種計(jì)算方式:獲取目標(biāo)項(xiàng)目標(biāo)題的關(guān)鍵詞,通過(guò)word2vec工具獲取每個(gè)關(guān)鍵詞的數(shù)值向量,然后把這些向量加和作為目標(biāo)項(xiàng)目標(biāo)題的語(yǔ)義向量;對(duì)問(wèn)題項(xiàng)目進(jìn)行分詞,然后通過(guò)word2vec工具獲取每個(gè)詞的數(shù)值向量并加和作為問(wèn)題項(xiàng)目的語(yǔ)義向量,最后計(jì)算目標(biāo)項(xiàng)目標(biāo)題與問(wèn)題項(xiàng)目語(yǔ)義向量之間的cosine距離,以獲得第三單一相關(guān)度。
其中,word2vec工具是現(xiàn)有技術(shù)中一種流行的詞向量化工具,由谷歌公司開(kāi)發(fā),可以把詞表示一個(gè)數(shù)值向量,而且保證語(yǔ)義相近的詞其數(shù)值向量距離也更近,該工具的應(yīng)算原理此處不再贅述。
在根據(jù)本計(jì)算方案的一則擴(kuò)展實(shí)例中,令:
rel(c,q)=w1×f1(c,q)+w2×f2(c,q)+…+wn×fn(c,q)
其中,c和q分別代表目標(biāo)項(xiàng)目與問(wèn)題項(xiàng)目,rel(c,q)代表c和q的綜合相關(guān)度,f1、f2、…、fn分別表示單一的相關(guān)函數(shù),n為大于2的自然數(shù),w1、w2、…、wn表示相關(guān)函數(shù)f1、f2、…、fn權(quán)重,是手工調(diào)整的。f1、f2、…、fn的計(jì)算方式可以采用上述第一種至第三種計(jì)算方式,也可以采用其他現(xiàn)有技術(shù)中的相關(guān)度函數(shù)的計(jì)算方式。相關(guān)領(lǐng)域的技術(shù)人員還可以設(shè)計(jì)出更多有效的相關(guān)度函數(shù),限于篇幅,在此不再一一列舉。
在本發(fā)明技術(shù)方案的第二種計(jì)算方案為機(jī)器學(xué)習(xí)的方法,如圖6所示的一種自動(dòng)生成開(kāi)放式問(wèn)題答案的方法(圖6所示的方法流程基于圖1),除了包括步驟s100~s103外,還包括如下步驟:
步驟s600,從所述答案庫(kù)中人工篩選所述符合所述問(wèn)題項(xiàng)目的項(xiàng)目標(biāo)題及不符合所述問(wèn)題項(xiàng)目的項(xiàng)目標(biāo)題以分別作為第二正樣本及第二負(fù)樣本;
步驟s601,拆分所述問(wèn)題項(xiàng)目、第二正樣本及第二負(fù)樣本為單字序列,并基于rnn處理后得到各個(gè)序列的語(yǔ)義向量;
步驟s602,訓(xùn)練rnn模型以準(zhǔn)確預(yù)測(cè)上述各語(yǔ)義向量間的cosine距離是否符合真實(shí)相關(guān)度,以獲得rnn模型參數(shù)。
本發(fā)明技術(shù)方案對(duì)于步驟s600~s602的流程可以是內(nèi)部運(yùn)行的,也可以是外部處理得到的。rnn(recurrentneutralnetworks)模型也即循環(huán)神經(jīng)網(wǎng)絡(luò)模型,是一種流行的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其輸入一個(gè)字符序列,可以獲得一個(gè)向量用來(lái)表示這個(gè)字符序列的潛在語(yǔ)義,現(xiàn)有技術(shù)中對(duì)該模型有更為細(xì)致的闡述。本發(fā)明技術(shù)方案運(yùn)用該rnn模型來(lái)訓(xùn)練問(wèn)題項(xiàng)目及目標(biāo)項(xiàng)目標(biāo)題之間的匹配預(yù)測(cè),從而提高匹配預(yù)測(cè)的準(zhǔn)確度。
根據(jù)圖6中的步驟s103,結(jié)合圖7,所述計(jì)算所述問(wèn)題項(xiàng)目與目標(biāo)項(xiàng)目的綜合相關(guān)度包括步驟:
步驟s700,對(duì)目標(biāo)項(xiàng)目標(biāo)題與問(wèn)題項(xiàng)目進(jìn)行分詞以獲得單字序列;
步驟s701,基于所述rnn模型參數(shù)使用rnn模型預(yù)測(cè)所述標(biāo)項(xiàng)目標(biāo)題與問(wèn)題項(xiàng)目單字序列之間的預(yù)測(cè)相關(guān)度。
根據(jù)步驟s700至s701,可知,在本發(fā)明技術(shù)方案中,針對(duì)一個(gè)用戶問(wèn)題q,可以先標(biāo)注一批候選答案庫(kù)中適合作為這個(gè)問(wèn)題回答的內(nèi)容{c}(即與該問(wèn)題匹配的目標(biāo)標(biāo)題c的集合),然后標(biāo)注一批不適合作為這個(gè)問(wèn)題回答的內(nèi)容{c’}(即與該問(wèn)題不匹配的目標(biāo)標(biāo)題c’的集合)。q和所有c組成的配對(duì)可以作為第二正樣本,q和所有c’組成的配對(duì)可以作為第二負(fù)樣本。一般需要對(duì)數(shù)千不同的q進(jìn)行此項(xiàng)操作,收集數(shù)以萬(wàn)級(jí)的正負(fù)樣本,然后就可以訓(xùn)練機(jī)器學(xué)習(xí)模型自動(dòng)學(xué)習(xí)如何計(jì)算rel(c,q)。
本實(shí)例中采用流行的rnn模型來(lái)學(xué)習(xí)候選答案標(biāo)題和用戶問(wèn)題的相關(guān)度,這里把問(wèn)題和候選答案標(biāo)題都作為單字序列(比如問(wèn)題q為“為什么索尼,松下等日本企業(yè)近年來(lái)衰落了?”被轉(zhuǎn)化為如下的單字序列<為,什,么,索,尼,松,下,等,日,本,企,業(yè),近,年,來(lái),衰,落,了>),經(jīng)過(guò)rnn模型處理后得問(wèn)題序列的語(yǔ)義向量及候選答案標(biāo)題的語(yǔ)義向量。如果二者相關(guān),兩個(gè)向量之間的cosine距離應(yīng)該為1,如果二者不相關(guān),其cosine距離應(yīng)該為0。
利用經(jīng)典的bptt算法,即考慮利用rnn模型預(yù)測(cè)得到的向量之間的cosine距離和樣本中真實(shí)計(jì)算得到的向量之間的cosine距離的誤差,用這個(gè)誤差反過(guò)來(lái)調(diào)整rnn模型的模型參數(shù),不斷調(diào)整模型參數(shù)使得使所得到的預(yù)測(cè)值與真實(shí)值誤差越來(lái)越小,就可以找到合適的模型參數(shù)使得rnn模型對(duì)(c,q)配對(duì)樣本相關(guān)性的預(yù)測(cè)能力最強(qiáng)。
找到合適的模型參數(shù)后,模型就訓(xùn)練完成,即就可以利用合適的rnn模型對(duì)于任意的(c,q)組合計(jì)算相關(guān)性,即預(yù)測(cè)得到的問(wèn)題序列的語(yǔ)義向量及候選答案標(biāo)題的語(yǔ)義向量之間的cosine距離,從而根據(jù)預(yù)測(cè)值來(lái)判斷匹配情況:先把c的標(biāo)題和q作為單字序列,然后分別用rnn模型處理得到各自的語(yǔ)義向量,再計(jì)算cosine距離。計(jì)算出的距離越大,相關(guān)度越高,所以這個(gè)計(jì)算方法可以用來(lái)從若干候選答案中找出最相關(guān)的。所述預(yù)測(cè)相關(guān)度即指根據(jù)rnn模型計(jì)算問(wèn)題序列的語(yǔ)義向量及候選答案標(biāo)題的語(yǔ)義向量之間的cosine距離。
如果匹配算法的準(zhǔn)確度較高(需要實(shí)際評(píng)估,因?yàn)槿斯ひ?guī)則的效果需要不斷調(diào)整規(guī)來(lái)嘗試提高,不容易取得滿意的效果,機(jī)器學(xué)習(xí)方法的效果受到樣本質(zhì)量和數(shù)量的影響),可以把相關(guān)性高于特定閾值的候選答案直接回復(fù)到問(wèn)題后面由機(jī)器人賬號(hào)發(fā)布到問(wèn)答社區(qū),當(dāng)然這樣的做法有一定風(fēng)險(xiǎn),更穩(wěn)妥的做法是把候選答案發(fā)給適合回答該問(wèn)題的真實(shí)用戶,讓該用戶評(píng)判候選答案是否很好的回答了問(wèn)題。另外該用戶還可以把候選答案作為素材,在此基礎(chǔ)上修改回復(fù)一個(gè)更好的答案,這樣會(huì)比自己從頭開(kāi)始寫(xiě)效率來(lái)得更高。在本發(fā)明技術(shù)方案的又一種變化例下,如圖8所示(圖8基于圖1所示方案,當(dāng)然在其他實(shí)施例中也可以基于圖6所示方案進(jìn)行變形),一種自動(dòng)生成開(kāi)放式問(wèn)題答案的方法,除了包括步驟s100~s103外,還包括如下步驟:步驟s800,至少提取綜合相關(guān)度最高的目標(biāo)項(xiàng)目中的目標(biāo)內(nèi)容進(jìn)行發(fā)布。
上述發(fā)布的對(duì)象可以是提出問(wèn)題的用戶,也可以是擬作出回答的用戶。根據(jù)圖8所示自動(dòng)生成開(kāi)放式問(wèn)題答案的方法來(lái)操作的一個(gè)應(yīng)用例,如圖9所示,其中用戶問(wèn)題來(lái)自于問(wèn)答社區(qū),一般不是簡(jiǎn)單的事實(shí)性問(wèn)題(事實(shí)性問(wèn)題比如“現(xiàn)在的美國(guó)總統(tǒng)是誰(shuí)?”),而是需要較多文字或者視頻來(lái)闡述的開(kāi)放性問(wèn)題(比如“特朗普上任后會(huì)給國(guó)際局勢(shì)帶來(lái)什么變化?”),該方法包括如下步驟:
首先是預(yù)先從一個(gè)包含海量文章或視頻內(nèi)容的內(nèi)容庫(kù)挖掘候選答案并建立候選答案庫(kù),其次是收到用戶提問(wèn)后,從候選答案庫(kù)中找到匹配的答案并發(fā)布答案。
結(jié)合圖9,從候選答案庫(kù)中找到匹配的答案并發(fā)布答案的步驟進(jìn)一步包括:
步驟s900,對(duì)用戶問(wèn)題進(jìn)行分詞;
步驟s901,根據(jù)分詞后的詞集此在候選答案庫(kù)找到標(biāo)題包含這些詞的候選答案;
步驟s902,對(duì)于每項(xiàng)候選答案,計(jì)算其標(biāo)題和用戶問(wèn)題的相關(guān)性;
步驟s903,系統(tǒng)需要判斷自動(dòng)生成的答案相關(guān)度是否高于特定閾值;高于閾值的候選答案則視為topk答案;
對(duì)于topk答案,可以根據(jù)步驟s904,發(fā)送給適合回答問(wèn)題的用戶,即潛在搭主供其參考,為其撰寫(xiě)答案提供素材;也可以根據(jù)步驟s905,利用系統(tǒng)賬號(hào)在問(wèn)答社區(qū)直接發(fā)布答案。
本發(fā)明雖然已以較佳實(shí)施例公開(kāi)如上,但其并不是用來(lái)限定本發(fā)明,任何本領(lǐng)域技術(shù)人員在不脫離本發(fā)明的精神和范圍內(nèi),都可以利用上述揭示的方法和技術(shù)內(nèi)容對(duì)本發(fā)明技術(shù)方案做出可能的變動(dòng)和修改,因此,凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容,依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所作的任何簡(jiǎn)單修改、等同變化及修飾,均屬于本發(fā)明技術(shù)方案的保護(hù)范圍。