一種基于關(guān)鍵詞的評(píng)審專家智能檢索與推薦方法
【專利摘要】本發(fā)明公開了一種基于關(guān)鍵詞的評(píng)審專家智能檢索與推薦方法。本發(fā)明具體包括如下步驟:步驟1:將專家信息主要文本切分成子串序列并進(jìn)行中科院ICTCLAS分詞,對(duì)分詞結(jié)果進(jìn)行停用詞過濾得到詞語集合;步驟2:分字段提取每個(gè)專家信息的特征詞;步驟3:基于特征詞所在字段和權(quán)值構(gòu)建專家知識(shí)表示模型,并建立專家信息索引庫;步驟4:當(dāng)用戶輸入關(guān)鍵詞時(shí)會(huì)根據(jù)檢索詞庫進(jìn)行自動(dòng)提示,同時(shí)利用檢索詞統(tǒng)計(jì)器實(shí)時(shí)更新檢索詞詞庫;步驟5:基于語義等信息計(jì)算關(guān)鍵詞和專家信息間的檢索相關(guān)度;步驟6:根據(jù)匹配度從高到低列出相關(guān)的專家。本發(fā)明通過輸入關(guān)鍵詞實(shí)現(xiàn)專家信息的智能全文檢索以及推薦,更準(zhǔn)確地檢索出與待審科技項(xiàng)目相匹配的專家。
【專利說明】 —種基于關(guān)鍵詞的評(píng)審專家智能檢索與推薦方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于信息檢索【技術(shù)領(lǐng)域】,尤其涉及一種基于關(guān)鍵詞的評(píng)審專家智能檢索與推薦方法,用于檢索科技項(xiàng)目評(píng)審專家。
【背景技術(shù)】
[0002]隨著科技項(xiàng)目申報(bào)管理系統(tǒng)在我國(guó)的迅速普及,科技項(xiàng)目的評(píng)審工作從以往的集中會(huì)議模式發(fā)展到當(dāng)前的網(wǎng)絡(luò)模式。評(píng)審專家根據(jù)領(lǐng)域知識(shí)和資助機(jī)構(gòu)的資助標(biāo)準(zhǔn),對(duì)項(xiàng)目申請(qǐng)書進(jìn)行評(píng)議,資助機(jī)構(gòu)依據(jù)評(píng)審專家的評(píng)議情況決定是否資助??萍柬?xiàng)目管理系統(tǒng)的規(guī)模越來越大,形成大量的專家?guī)煨畔?。由于科技?xiàng)目評(píng)審必須做到客觀性、公正性和權(quán)威性,因此,如何快速準(zhǔn)確地、智能地檢索并遴選出與待審項(xiàng)目領(lǐng)域相匹配的評(píng)審專家,變得十分重要和關(guān)鍵。
[0003]現(xiàn)有的科技項(xiàng)目評(píng)審專家信息檢索大多以字符精確匹配或模糊匹配的方式,從單字段或多字段進(jìn)行篩選,檢索過程只注重關(guān)鍵詞的機(jī)械匹配,檢索相關(guān)度計(jì)算忽略語義相關(guān)性的分析,不是針對(duì)專家信息的全文檢索。在計(jì)算檢索相關(guān)性時(shí),缺乏考慮專家信息各字段具有不同的重要性;同時(shí),由于沒有建立專門的索引庫,在專家信息量龐大的情況下,不能快速檢索出結(jié)果,而且不能按照相關(guān)度進(jìn)行排序。另外現(xiàn)有技術(shù)在輸入關(guān)鍵詞時(shí)大多缺乏智能聯(lián)想提示功能。這些都會(huì)導(dǎo)致檢索結(jié)果查全率和查準(zhǔn)率不高,限制了在科技項(xiàng)目評(píng)審專家檢索領(lǐng)域的自動(dòng)分析和智能化處理的能力,直接約束了科技項(xiàng)目評(píng)審工作的社會(huì)服務(wù)能力?,F(xiàn)今通用的全文檢索技術(shù)在很多領(lǐng)域得到的應(yīng)用,可有效緩解上述問題,但鮮有在專家信息領(lǐng)域的運(yùn)用。
【發(fā)明內(nèi)容】
[0004]本發(fā)明針對(duì)現(xiàn)有技術(shù)的不足,提出一種基于關(guān)鍵詞的評(píng)審專家智能檢索與推薦方法。
[0005]本發(fā)明解決問題所采用的技術(shù)方案包括如下步驟:
[0006]步驟1.評(píng)審專家信息的采集是專家智能檢索的第一步,從科技項(xiàng)目申報(bào)管理系統(tǒng)后臺(tái)數(shù)據(jù)庫中收集評(píng)審專家知識(shí)信息。
[0007]步驟2.把評(píng)審專家信息中的通用詞和慣用詞作為專業(yè)停用詞庫;把標(biāo)點(diǎn)符號(hào)、非漢字作為切分標(biāo)記庫。
[0008]步驟3.對(duì)評(píng)審專家信息進(jìn)行分詞:首先根據(jù)評(píng)審專家信息中切分標(biāo)記抽取專家信息,獲獎(jiǎng)情況、發(fā)明情況、發(fā)表論文情況、課題承擔(dān)過的項(xiàng)目及完成情況、研究方向等信息,切分成子串序列,一個(gè)子串序列即一個(gè)字段信息;利用中科院ICTCLAS對(duì)子串序列進(jìn)行分詞。
[0009]步驟4.根據(jù)通用停用詞庫和專業(yè)停用詞庫進(jìn)行停用詞過濾,提取每個(gè)專家的特征詞集合。通用停用詞庫采用哈工大停用詞表,專業(yè)停用詞庫的構(gòu)建是一個(gè)自學(xué)習(xí)不斷完善的過程,設(shè)計(jì)了一個(gè)專業(yè)停用詞庫統(tǒng)計(jì)器,在不斷進(jìn)行的專家信息分詞過程中統(tǒng)計(jì)詞語的詞頻,詞語在文本出現(xiàn)的概率大于一定閥值,將它納入到專業(yè)停用詞庫,這些詞語不是反映信息主題的特征詞。
[0010]步驟5.構(gòu)建專家知識(shí)表示模型:本發(fā)明利用專家信息的“半結(jié)構(gòu)化”特征,對(duì)空間向量模型和物元知識(shí)集模型的擴(kuò)展,建立知識(shí)表示模型TM = (id, F,WF, T,V),其中,id表示在專家?guī)熘械臉?biāo)識(shí)字段^表示評(píng)審專家中字段類別集合;WF為字段的權(quán)重集合,定義wf為字段權(quán)重集合的元素;T為特征詞語集合…表示字段所對(duì)應(yīng)的特征詞語及其權(quán)重集合,Vi={vn, f (Vil), vi2, f (vi2),...,vin, f (Vin)}, Vij 表示第 i 個(gè)字段中的第 j 個(gè)特征詞語,f (Vij)
表示Vij特征詞語在所對(duì)應(yīng)的字段內(nèi)的出現(xiàn)頻率權(quán)重,計(jì)算公式如下:
[0011]
【權(quán)利要求】
1.一種基于關(guān)鍵詞的評(píng)審專家智能檢索與推薦方法,其特征在于該方法的具體步驟是: 步驟1.從科技項(xiàng)目申報(bào)管理系統(tǒng)后臺(tái)數(shù)據(jù)庫中收集評(píng)審專家信息; 步驟2.把評(píng)審專家信息中的通用詞和慣用詞作為專業(yè)停用詞庫;把標(biāo)點(diǎn)符號(hào)、非漢字作為切分標(biāo)記庫; 步驟3.對(duì)評(píng)審專家信息進(jìn)行分詞:首先根據(jù)評(píng)審專家信息中切分標(biāo)記抽取專家信息,獲獎(jiǎng)情況、發(fā)明情況、發(fā)表論文情況、課題承擔(dān)過的項(xiàng)目及完成情況、研究方向;切分成子串序列,一個(gè)子串序列即一個(gè)字段信息;利用中科院ICTCLAS對(duì)子串序列進(jìn)行分詞; 步驟4.根據(jù)通用停用詞庫和專業(yè)停用詞庫進(jìn)行停用詞過濾,提取每個(gè)專家的特征詞集合,所述的通用停用詞庫采用哈工大停用詞表; 步驟5.構(gòu)建專家知識(shí)表示模型:利用專家信息的“半結(jié)構(gòu)化”特征,對(duì)空間向量模型和物元知識(shí)集模型的擴(kuò)展,建立知識(shí)表示模型TM = (id, F,WF, T,V),其中,id表示在專家?guī)熘械臉?biāo)識(shí)字段;F表示評(píng)審專家中字段類別集合;WF為字段的權(quán)重集合,定義Wf為字段權(quán)重集合的元素;T為特征詞語集合;V表示字段所對(duì)應(yīng)的特征詞語及其權(quán)重集合,Vi=Ivil, f (Viι),Vi2, f (Vi2),...,vin, f (Vin)},Vij表示第i個(gè)字段中的第j個(gè)特征詞語,f (Vij)表示Vij特征詞語在所對(duì)應(yīng)的字段內(nèi)的出現(xiàn)頻率權(quán)重,計(jì)算公式如下:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于:步驟7中所述的自動(dòng)提示關(guān)鍵詞,其關(guān)鍵詞詞庫的構(gòu)建過程如下: 設(shè)計(jì)一個(gè)關(guān)鍵詞統(tǒng)計(jì)器,統(tǒng)計(jì)已檢索過的關(guān)鍵詞詞頻,以鍵值對(duì)〈key, value)的方式索引入庫;其中鍵key是歷史關(guān)鍵詞,值value是關(guān)鍵詞的歷史檢索次數(shù);若用戶首次輸入關(guān)鍵詞 term,則以〈term, one〉保存;否則,更新〈term, num> 為〈term, num+l> ;其中,one為檢索次數(shù)初始值1,num為當(dāng)前的關(guān)鍵詞被檢索次數(shù);同時(shí)用戶在檢索輸入框中輸入關(guān)鍵詞時(shí),關(guān)鍵詞統(tǒng)計(jì)器獲取當(dāng)前已輸入的關(guān)鍵詞語素S,從關(guān)鍵詞詞庫中篩選關(guān)鍵詞開頭語素為S的相關(guān)關(guān)鍵詞,設(shè)置歷史檢索次數(shù)閥值,以歷史檢索次數(shù)降序的方式,自動(dòng)地添加到檢索輸入框的下拉條目做關(guān)鍵詞推薦。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于:步驟8中所述的關(guān)鍵詞與專家信息特征詞語的語義相似度的計(jì)算過程如下: 在評(píng)審專家知識(shí)表示模型中,字段內(nèi)的特征詞詞頻統(tǒng)計(jì)向量包括特征詞、經(jīng)過位置重要性優(yōu)化的詞頻權(quán)重,其表示為Vi=Ivil, f (vn), vi2, f (vi2),...,vin, f (Vin)},特征詞頻率權(quán)重越大,表示這個(gè)特征詞越能夠反映該字段的主題,定義關(guān)鍵詞與專家信息的某個(gè)字段信息的語義相關(guān)度計(jì)算公式為:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于:步驟8中所述的關(guān)鍵詞與專家信息特征詞語的語素相似度的計(jì)算過程如下: 漢語中絕大多數(shù)詞語的同義詞、含有相同語素這一特點(diǎn),語素相似度占重要的部分,比較兩個(gè)詞語中相同語素的個(gè)數(shù),若相同語素的個(gè)數(shù)越多,則相似度就越大;引入語素相似度,將漢語的構(gòu)詞特征和計(jì)算機(jī)檢索技術(shù)結(jié)合起來,它是輔助識(shí)別同義詞的有效方法,在計(jì)算個(gè)別詞語語義相似度不好的情況下,改善語義相似度的計(jì)算;語素相似度的計(jì)算公式為:
5.根據(jù)權(quán)利要求3所述的方法,其特征在于:所述的語義相似度計(jì)算過程如下: 在知網(wǎng)語義詞典中,如果對(duì)于兩個(gè)詞語W1和WyW1有η個(gè)概念:S11,S12,...,Sln7W2有m個(gè)概念:S21,S22,...,S2n ;詞語W1和W2的相似度SimSEM (Wl,W2)等于各個(gè)概念的相似度之最大值:
【文檔編號(hào)】G06F17/30GK103605665SQ201310511342
【公開日】2014年2月26日 申請(qǐng)日期:2013年10月24日 優(yōu)先權(quán)日:2013年10月24日
【發(fā)明者】徐小良, 吳仁克, 鄭楊, 潘翔 申請(qǐng)人:杭州電子科技大學(xué)