專利名稱:一種在問答系統(tǒng)中搜索優(yōu)選專家信息的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種在問答系統(tǒng)中搜索優(yōu)選專家信息的方法。
背景技術(shù):
互聯(lián)網(wǎng)是一個(gè)用戶交流平臺(tái),借助網(wǎng)絡(luò)社區(qū),用戶可突破時(shí)間和空間限制與其它用戶進(jìn)行交流,并獲得幫助,基于WEB的問答系統(tǒng)就是這樣一種廣受歡迎的用戶交流平臺(tái), 在這一社區(qū)中,用戶可以將自己的疑難問題提交上去,等待本領(lǐng)域?qū)<覍?duì)問題進(jìn)行解答,并通過網(wǎng)絡(luò)將問題答案返回給用戶?,F(xiàn)有問答系統(tǒng)中,用戶提出問題時(shí)事先并不知道誰是該問題領(lǐng)域的專家,因此,只能沒有針對(duì)性的提出問題,或者向多人提出解答問題的請(qǐng)求,并且在提出問題后,也只能被動(dòng)的等待答復(fù)。這樣不僅浪費(fèi)日漸緊缺的網(wǎng)絡(luò)資源和人力資源, 用戶也不能得到及時(shí)的專業(yè)的答復(fù)。而用戶如果想比較有針對(duì)性的找到擅長(zhǎng)于自己所提問題的專家,需要熟悉現(xiàn)有系統(tǒng)中的所有專家的背景情況,并進(jìn)行人工查找,非常費(fèi)時(shí)費(fèi)力。
發(fā)明內(nèi)容
本發(fā)明提出一種通過對(duì)web問答系統(tǒng)中的問答文本內(nèi)容進(jìn)行分析,利用分類和信息檢索方法,自動(dòng)將能夠回答某個(gè)問題的最適合專家從專家?guī)熘兴阉鞒鰜淼脑趩柎鹣到y(tǒng)中搜索優(yōu)選專家信息的方法。本發(fā)明的中心思想在于基于專家?guī)熘械膶<冶尘靶畔?gòu)建表征專家專長(zhǎng)的特征向量;獲取用戶提問的問題特征向量;構(gòu)建問題-專家匹配度預(yù)測(cè)模型,并對(duì)模型進(jìn)行訓(xùn)練;根據(jù)訓(xùn)練獲得的模型,對(duì)專家與給定問題之間的匹配程度進(jìn)行預(yù)測(cè),并按照預(yù)測(cè)分值給出最擅長(zhǎng)所述問題的專家。本發(fā)明是通過如下技術(shù)方案實(shí)現(xiàn)本發(fā)明有益效果的,提出一種在問答系統(tǒng)中搜索優(yōu)選專家信息的方法,包括建立專家信息與專家特征向量的對(duì)應(yīng)關(guān)系;獲取用戶提問的問題特征向量;獲取匹配所述問題特征向量的所述專家特征向量;根據(jù)所述專家信息與所述專家特征向量的對(duì)應(yīng)關(guān)系獲取所述專家信息?!敖<倚畔⑴c專家特征向量的對(duì)應(yīng)關(guān)系”具體包括保存所述專家信息和專家的擅長(zhǎng)領(lǐng)域信息的對(duì)應(yīng)關(guān)系;對(duì)所述擅長(zhǎng)領(lǐng)域信息進(jìn)行停用詞去除和/或詞根還原;根據(jù)上述擅長(zhǎng)領(lǐng)域信息生成所述專家特征向量;建立專家信息與專家特征向量的對(duì)應(yīng)關(guān)系。所述“擅長(zhǎng)領(lǐng)域信息”具體包括專家的論文和/或?qū)<业纳瞄L(zhǎng)領(lǐng)域記錄和/或獲得正面評(píng)價(jià)的專家答案?!矮@取用戶提問的問題特征向量”具體包括將接收到的所述用戶提問轉(zhuǎn)化為文本格式的提問數(shù)據(jù);對(duì)所述提問數(shù)據(jù)進(jìn)行停用詞去除、詞根還原等預(yù)處理;生成與上述提問數(shù)據(jù)對(duì)應(yīng)的問題特征向量?!矮@取匹配所述問題特征向量的所述專家特征向量”具體為構(gòu)建問題-專家匹配度預(yù)測(cè)模型。“構(gòu)建問題-專家匹配度預(yù)測(cè)模型”具體包括
以用戶反饋信息(喜歡、評(píng)分等)作為標(biāo)注,構(gòu)建由所述問題特征向量、所述專家特征向量、用戶反饋組成的三元組樣本集合;根據(jù)不同的用戶反饋信息模型,構(gòu)建模型的損失函數(shù),并訓(xùn)練所述專家特征向量與所述問題特征向量之間的匹配模型;基于所述匹配模型獲取匹配該問題特征向量的專家特征向量。有益效果通過對(duì)專家的發(fā)表文獻(xiàn)、問答歷史信息和當(dāng)前問題內(nèi)容,給出合理的自動(dòng)特征抽取方法,并構(gòu)建專家和問題之間的匹配模型,高效、準(zhǔn)確的在web問答系統(tǒng)中的海量信息中幫助用戶快速找到擅長(zhǎng)某一問題的專家,以便針對(duì)性的提問題,從而高效地獲得高質(zhì)量的回答。
下面根據(jù)附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)說明。圖1為本發(fā)明一種在問答系統(tǒng)中搜索優(yōu)選專家信息的方法的流程圖之一;圖2為本發(fā)明一種在問答系統(tǒng)中搜索優(yōu)選專家信息的方法的流程圖之一;圖3為本發(fā)明一種在問答系統(tǒng)中搜索優(yōu)選專家信息的方法的流程圖之一;圖4為本發(fā)明一種在問答系統(tǒng)中搜索優(yōu)選專家信息的方法的流程圖之一。
具體實(shí)施例方式實(shí)施例1一種在問答系統(tǒng)中搜索優(yōu)選專家信息的方法,包括如下步驟SlOl、建立專家信息與專家特征向量的對(duì)應(yīng)關(guān)系。具體包括如下步驟S1011、保存專家信息和專家的擅長(zhǎng)領(lǐng)域信息的對(duì)應(yīng)關(guān)系。將上述擅長(zhǎng)領(lǐng)域信息轉(zhuǎn)化為文本格式。保存專家信息用于將專家的聯(lián)系方式及相關(guān)背景展示給用戶,使能用戶與專家在問答系統(tǒng)中的溝通渠道建立。專家信息可包括專家姓名和/或?qū)<衣?lián)系方式和/或?qū)<以趩柎鹣到y(tǒng)中的登陸ID和/或?qū)<以趩柎鹣到y(tǒng)中的用戶名等。專家的擅長(zhǎng)領(lǐng)域信息用于表征專家擅長(zhǎng)的領(lǐng)域。擅長(zhǎng)領(lǐng)域信息包括專家的論文和 /或?qū)<业纳瞄L(zhǎng)領(lǐng)域記錄和/或獲得正面評(píng)價(jià)的專家答案等。專家的論文是專家對(duì)某一科學(xué)問題的研究成果,能夠客觀地反映該專家的所研究的領(lǐng)域和研究的興趣,是該專家學(xué)術(shù)背景的真實(shí)反映。擅長(zhǎng)領(lǐng)域記錄是專家在問答系統(tǒng)中注冊(cè)或填寫自我介紹信息時(shí)由本人的,簡(jiǎn)短而準(zhǔn)確,能夠從另一個(gè)側(cè)面反映專家擅長(zhǎng)的技術(shù)領(lǐng)域。獲得正面評(píng)價(jià)的專家答案也是反映該專家專長(zhǎng)的重要信息來源,并很可能超出該專家學(xué)術(shù)論文或者自填的擅長(zhǎng)領(lǐng)域的范疇,由于采用問答中模式,所采用的詞句多為不同于學(xué)術(shù)論文的非正式詞語,因此,是對(duì)專家的論文、擅長(zhǎng)領(lǐng)域記錄的有效補(bǔ)充。通過以上三個(gè)方面的信息來源,可以形成對(duì)該專家較為全面的擅長(zhǎng)領(lǐng)域信息。S1012、對(duì)上述擅長(zhǎng)領(lǐng)域信息進(jìn)行停用詞去除、詞根還原等預(yù)處理??梢杂行Ы档蜕鲜錾瞄L(zhǎng)領(lǐng)域信息中的噪聲。S1013、根據(jù)上述擅長(zhǎng)領(lǐng)域信息生成專家特征向量。
經(jīng)過預(yù)處理的擅長(zhǎng)領(lǐng)域信息為文本片段,將文本片段看作一系列無序詞條的集合,給每個(gè)詞條加一個(gè)權(quán)值,并將文本片段映射成特征向量ζ e Rn,將上述特征向量定義為專家特征向量。其中,η為詞條個(gè)數(shù),即字典長(zhǎng)度,每一維上的元素Zi為第i個(gè)詞條在當(dāng)前擅長(zhǎng)領(lǐng)域信息中的權(quán)值。詞條的權(quán)值計(jì)算方法采用tfidf函數(shù),進(jìn)一步說明如下
權(quán)利要求
1.一種在問答系統(tǒng)中搜索優(yōu)選專家信息的方法,其特征在于,包括 建立專家信息與專家特征向量的對(duì)應(yīng)關(guān)系;獲取用戶提問的問題特征向量;獲取匹配所述問題特征向量的所述專家特征向量;根據(jù)所述專家信息與所述專家特征向量的對(duì)應(yīng)關(guān)系獲取所述專家信息。
2.如權(quán)利要求1所述的方法,其特征在于,“建立專家信息與專家特征向量的對(duì)應(yīng)關(guān)系”具體包括保存所述專家信息和專家的擅長(zhǎng)領(lǐng)域信息的對(duì)應(yīng)關(guān)系; 對(duì)所述擅長(zhǎng)領(lǐng)域信息進(jìn)行停用詞去除和/或詞根還原; 根據(jù)上述擅長(zhǎng)領(lǐng)域信息生成所述專家特征向量; 建立專家信息與專家特征向量的對(duì)應(yīng)關(guān)系。
3.如權(quán)利要求2所述的方法,其特征在于,所述“擅長(zhǎng)領(lǐng)域信息”具體包括專家的論文和/或?qū)<业纳瞄L(zhǎng)領(lǐng)域記錄和/或獲得正面評(píng)價(jià)的專家答案。
4.如權(quán)利要求1所述的方法,其特征在于,“獲取用戶提問的問題特征向量”具體包括 將接收到的所述用戶提問轉(zhuǎn)化為文本格式的提問數(shù)據(jù);對(duì)所述提問數(shù)據(jù)進(jìn)行停用詞去除、詞根還原等預(yù)處理; 生成與上述提問數(shù)據(jù)對(duì)應(yīng)的問題特征向量。
5.如權(quán)利要求1所述的方法,其特征在于,“獲取匹配所述問題特征向量的所述專家特征向量”具體為構(gòu)建問題-專家匹配度預(yù)測(cè)模型。
6.如權(quán)利要求5所述的方法,其特征在于,“構(gòu)建問題-專家匹配度預(yù)測(cè)模型”具體包括以用戶反饋信息(喜歡、評(píng)分等)作為標(biāo)注,構(gòu)建由所述問題特征向量、所述專家特征向量、用戶反饋組成的三元組樣本集合;根據(jù)不同的用戶反饋信息模型,構(gòu)建模型的損失函數(shù),并訓(xùn)練所述專家特征向量與所述問題特征向量之間的匹配模型;基于所述匹配模型獲取匹配該問題特征向量的專家特征向量。
全文摘要
本發(fā)明提出一種在問答系統(tǒng)中搜索優(yōu)選專家信息的方法,包括基于專家?guī)熘械男畔⒔⒈碚髅總€(gè)專家專長(zhǎng)的特征向量;獲取用戶提問的問題特征向量;獲取匹配所述問題特征向量的所述專家特征向量;根據(jù)所述專家信息與所述專家特征向量的對(duì)應(yīng)關(guān)系獲取所述專家信息。本發(fā)明提出通過對(duì)web問答系統(tǒng)中的問答文本內(nèi)容進(jìn)行分析,利用分類和信息檢索方法,自動(dòng)將能夠回答某個(gè)問題的最適合的專家從專家?guī)熘兴阉鞒鰜怼?br>
文檔編號(hào)G06F17/30GK102184225SQ201110117900
公開日2011年9月14日 申請(qǐng)日期2011年5月9日 優(yōu)先權(quán)日2011年5月9日
發(fā)明者何芳連 申請(qǐng)人:北京奧米時(shí)代生物技術(shù)有限公司