一種創(chuàng)建網(wǎng)絡百科詞條的方法及裝置制造方法
【專利摘要】本發(fā)明實施例公開了一種創(chuàng)建網(wǎng)絡百科詞條的方法及裝置,所述方法包括:接收待創(chuàng)建詞條,分析待創(chuàng)建詞條的領域分類,并查詢與領域分類相對應的視角分區(qū);使用待創(chuàng)建詞條和視角分區(qū)組建檢索語句,根據(jù)檢索語句進行檢索;依據(jù)預設的整合規(guī)則,對檢索結(jié)果進行整合,并顯示整合后的檢索結(jié)果。通過本發(fā)明公開的一種創(chuàng)建網(wǎng)絡百科詞條的方法及裝置,使得自動創(chuàng)建詞條能夠?qū)崿F(xiàn),提高了創(chuàng)建詞條準確率。
【專利說明】一種創(chuàng)建網(wǎng)絡百科詞條的方法及裝置
【技術領域】
[0001]本發(fā)明實施例涉及自然語言處理【技術領域】,尤其涉及一種創(chuàng)建網(wǎng)絡百科詞條的方法及裝置。
【背景技術】
[0002]百科全書是概要記述人類一切知識門類或某一知識門類的工具書,其幾乎包容了各種工具書的成分,囊括了各方面的知識。隨著網(wǎng)絡技術的發(fā)展,網(wǎng)絡百科逐漸替代紙質(zhì)百科全書。
[0003]由于網(wǎng)絡百科具有開放性和自由性,強調(diào)用戶的參與和奉獻精神。因此,網(wǎng)絡百科允許任何用戶創(chuàng)建詞條,并編輯與詞條相對應的內(nèi)容,充分調(diào)動用戶的力量,匯聚上億用戶的智慧。同時,網(wǎng)絡百科實現(xiàn)了與搜索引擎(例如,百度和谷歌等)、問答的結(jié)合,從不同的層次上滿足用戶對信息的需求。目前中文版的網(wǎng)絡百科主要有:維基百科、百度百科、搜狗百科和互動百科。
[0004]在網(wǎng)絡百科中搜索詞條時,若搜索引擎返回的頁面為未收錄該詞條,則如圖1所示。則需要將該詞條作為待創(chuàng)建詞條,人工創(chuàng)建與待創(chuàng)建詞條對應的網(wǎng)絡百科。目前,需要創(chuàng)建面向人物、機構(gòu)、品牌和產(chǎn)品等方向的待創(chuàng)建詞條的時候,創(chuàng)建人首先利用已有搜索引擎,從不同維度檢索待創(chuàng)建詞條的相關網(wǎng)頁信息。然后人工對相關網(wǎng)頁信息加以過濾、精簡和整合等一系列編輯。最后創(chuàng)建出與待創(chuàng)建詞條相對應的內(nèi)容。這一人工創(chuàng)建全新詞條的工作繁重而瑣碎。并且在人工對相關網(wǎng)頁信息加以過濾、精簡和整合等一系列編輯的過程中,由于創(chuàng)建者的自身因素,有可能出現(xiàn)誤操作,降低了網(wǎng)絡百科的正確率。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實施例提供一種創(chuàng)建網(wǎng)絡百科詞條的方法及裝置,以提高創(chuàng)建網(wǎng)絡百科詞條的效率和準確率。
[0006]一方面,本發(fā)明實施例提供了一種創(chuàng)建網(wǎng)絡百科詞條的方法,包括:
[0007]接收待創(chuàng)建詞條,分析所述待創(chuàng)建詞條的領域分類,并查詢與所述領域分類相對應的視角分區(qū);
[0008]使用所述待創(chuàng)建詞條和所述視角分區(qū)組建檢索語句,根據(jù)所述檢索語句進行檢索;
[0009]依據(jù)預設的整合規(guī)則,對檢索結(jié)果進行整合,并顯示整合后的檢索結(jié)果。
[0010]另一方面,本發(fā)明實施例還提供了一種創(chuàng)建網(wǎng)絡百科詞條的裝置,包括:
[0011]視角分區(qū)查詢模塊,用于接收待創(chuàng)建詞條,分析所述待創(chuàng)建詞條的領域分類,并查詢與所述領域分類相對應的視角分區(qū);
[0012]檢索語句構(gòu)建模塊,用于使用所述待創(chuàng)建詞條和所述視角分區(qū)組建檢索語句,根據(jù)所述檢索語句進行檢索;
[0013]檢索結(jié)果整合模塊,用于依據(jù)預設的整合規(guī)則,對檢索結(jié)果進行整合,并顯示整合后的檢索結(jié)果。
[0014]本發(fā)明實施例通過一種創(chuàng)建網(wǎng)絡百科詞條的方法及裝置,在網(wǎng)絡百科檢索的詞條為未收錄的詞條時,將該詞條作為待創(chuàng)建詞條,分析待創(chuàng)建詞條的領域分類,并查詢與領域分類相對應的視角分區(qū);對待創(chuàng)建詞條和視角分區(qū)組建檢索語句進行檢索;依據(jù)預設的整合規(guī)則,對檢索結(jié)果進行整合,并顯示整合后的檢索結(jié)果,使得能夠?qū)崿F(xiàn)自動創(chuàng)建詞條,提高了創(chuàng)建詞條的準確率。
【專利附圖】
【附圖說明】
[0015]圖1為現(xiàn)有技術中未收錄詞條對應的網(wǎng)絡百科頁面;
[0016]圖2為本發(fā)明實施例提供的一種創(chuàng)建網(wǎng)絡百科詞條的方法的流程示意圖;
[0017]圖3a為本發(fā)明實施例提供的訓練詞條與領域分類模型和利用詞條與領域分類模型分析待創(chuàng)建詞條的領域分類的示意圖;
[0018]圖3b為本發(fā)明實施例提供的目前網(wǎng)絡百科中已有的詞條對應的領域分類;
[0019]圖3c為本發(fā)明實施例提供的目前網(wǎng)絡百科中已有的詞條對應的分類特征;
[0020]圖4為本發(fā)明實施例提供的一種創(chuàng)建網(wǎng)絡百科詞條的方法的流程示意圖;
[0021]圖5為本發(fā)明實施例提供的一種創(chuàng)建網(wǎng)絡百科詞條的方法的流程示意圖;
[0022]圖6為本發(fā)明實施例提供語義角色標注過程示意圖;
[0023]圖7為本發(fā)明實施例提供的一種創(chuàng)建網(wǎng)絡百科詞條的方法的流程示意圖;
[0024]圖8為本發(fā)明實施例提供的依存關系樹不意圖;
[0025]圖9為本發(fā)明實施例提供的一種創(chuàng)建網(wǎng)絡百科詞條的方法的示意圖;
[0026]圖10為本發(fā)明實施例提供的一種創(chuàng)建網(wǎng)絡百科詞條的裝置的結(jié)構(gòu)示意圖;
[0027]圖11為本發(fā)明實施例提供的一種創(chuàng)建網(wǎng)絡百科詞條的裝置的結(jié)構(gòu)的示意圖;
[0028]圖12為本發(fā)明實施例提供的一種創(chuàng)建網(wǎng)絡百科詞條的頁面。
【具體實施方式】
[0029]下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明??梢岳斫獾氖牵颂幩枋龅木唧w實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關的部分而非全部結(jié)構(gòu)。
[0030]實施例一
[0031]圖2為本發(fā)明實施例一提供的一種創(chuàng)建網(wǎng)絡百科詞條的方法的流程示意圖。
[0032]該方法可適用于網(wǎng)絡百科未收錄用戶輸入的新詞條,用戶創(chuàng)建新詞條的情況下,該方法可以由創(chuàng)建網(wǎng)絡百科詞條的裝置來執(zhí)行,該裝置可以配置在能夠處理網(wǎng)絡百科信息的服務器中。該方法具體包括以下操作S201-S203:
[0033]操作S201,接收待創(chuàng)建詞條,分析待創(chuàng)建詞條的領域分類,并查詢與領域分類相對應的視角分區(qū)。
[0034]在操作S201中,在網(wǎng)絡百科中檢索詞條,網(wǎng)絡百科搜索引擎未返回與詞條相應的網(wǎng)頁信息,并且提示用戶該詞條并未被網(wǎng)絡百科收錄,則該詞條可以作為待創(chuàng)建詞條,需要創(chuàng)建與待創(chuàng)建詞條相對應的網(wǎng)絡百科。為實現(xiàn)創(chuàng)建與待創(chuàng)建詞條相對應的網(wǎng)絡百科,需要分析待創(chuàng)建詞條的領域分類,以作為區(qū)分待創(chuàng)建詞條所屬領域的依據(jù),待創(chuàng)建詞條可以對應一個領域分類也可以對應多個領域分類。例如,“微軟亞洲研宄所”是機構(gòu)名稱,則對應的領域分類為機構(gòu);“奔馳”可以對應人名“卡爾.奔馳”這個人物,也可以對應“梅賽德斯奔馳”這個汽車品牌,則“奔馳”可以對應人物和汽車品牌兩個領域分類。在分析待創(chuàng)建詞條的領域分類后,可以查詢與領域分類相對應的至少一個視角分區(qū)。視角分區(qū)可以代表領域分類的各方面屬性,以對領域分類進行詳細的描述。例如“張亞勤”為人物領域分類,其對應的視角分區(qū)可以包括早年經(jīng)歷、個人履歷、主要榮譽和微軟亞太。
[0035]操作S202,使用待創(chuàng)建詞條和視角分區(qū)組建檢索語句,根據(jù)檢索語句進行檢索,獲得檢索結(jié)果。
[0036]在操作S202中,可以將待創(chuàng)建詞條和各個視角分區(qū)分別組建檢索語句,例如檢索語句分別為“張亞勤早年經(jīng)歷”和“張亞勤個人履歷”等,以實現(xiàn)從各個視角分區(qū)對待創(chuàng)建詞條進行全面檢索。也可以將待創(chuàng)建詞條和多個視角分區(qū)組建檢索語句,例如“張亞勤個人履歷主要榮譽”,讓搜索引擎返回與待創(chuàng)建詞條精準度更高的網(wǎng)頁內(nèi)容,有利于搜索到高質(zhì)量的網(wǎng)頁作為原始語料,以構(gòu)建與待創(chuàng)建詞條相對應的網(wǎng)絡百科。檢索結(jié)果可以包括搜索引擎返回的關于各個查詢語句的全部網(wǎng)頁內(nèi)容。
[0037]操作S203,依據(jù)預設的整合規(guī)則,對檢索結(jié)果進行整合,并顯示整合后的檢索結(jié)果Ο
[0038]在S203中,檢索結(jié)果中的網(wǎng)頁內(nèi)容的數(shù)量較多,而且這些網(wǎng)頁內(nèi)容中存在相對同一視角分區(qū)重復描述的內(nèi)容,可讀性不強。需要依據(jù)預設的整合規(guī)則,對檢索結(jié)果進行整合,將整合后的檢索結(jié)果作為與待創(chuàng)建詞條相對應的網(wǎng)絡百科展示。為進一步提高創(chuàng)建網(wǎng)絡百科的準確性,在向用戶展示該整合后的檢索結(jié)果后,可以提示用戶確認該整合后的檢索結(jié)果是否正確。若正確,則可以將該整合后的檢索結(jié)果作為待創(chuàng)建詞條對應的網(wǎng)絡百科;若不正確,則用戶可以修改整合后的檢索結(jié)果,將修改后的檢索結(jié)果作為待創(chuàng)建詞條對應的網(wǎng)絡百科。
[0039]通過本發(fā)明實施例提供的一種創(chuàng)建網(wǎng)絡百科詞條的方法,可以在網(wǎng)絡百科檢索詞條,該詞條為未收錄的詞條的情況下,將該詞條作為待創(chuàng)建詞條,自動創(chuàng)建待創(chuàng)建詞條的網(wǎng)絡百科,提高了創(chuàng)建網(wǎng)絡百科詞條的準確率。
[0040]實施例二
[0041]本實施例基于上述實施例,進一步將上述操作S201“接收待創(chuàng)建詞條,分析待創(chuàng)建詞條的領域分類,并查詢與領域分類相對應的視角分區(qū)”進一步優(yōu)化為:依據(jù)詞條與領域分類模型分析待創(chuàng)建詞條的領域分類,獲得至少一個領域分類。
[0042]訓練詞條與領域分類模型和利用詞條與領域分類模型分析待創(chuàng)建詞條的領域分類的示意圖如圖3a所示,訓練詞條與領域分類模型的階段具體包括:
[0043]首先,獲取訓練數(shù)據(jù)。可以將已人工標注領域分類的詞條作為訓練數(shù)據(jù)。例如:“蘋果-水果”,也可以將目前網(wǎng)絡百科中已有的詞條和與之相對應的領域分類作為訓練數(shù)據(jù),例如“微軟亞洲研宄院-機構(gòu)”。
[0044]其次,使用分類器構(gòu)建訓練數(shù)據(jù)的分類特征。其中,分類器可以是SVM(Supp0rtVector Machine,支持向量機)或貝葉斯分類器。
[0045]分類特征可以是詞條本身特征,例如,詞條為“水果”,則“顏色”和“形狀”這些“水果”自身的特征可以作為分類特征。
[0046]分類特征也可以是詞條自動調(diào)用搜索引擎獲得的top-N(流量排行榜)的網(wǎng)頁內(nèi)容。例如,搜索詞條“張亞勤”獲得的網(wǎng)頁上包括“他”、“出生于1966年”和“華盛頓大學博士”等信息,這些信息都支持“張亞勤”這個詞條而被劃分到“人物”這個領域的分類特征。
[0047]最后,依據(jù)分類特征,創(chuàng)建詞條與領域分類模型。
[0048]例如,分別依據(jù)詞條“蘋果”的自身分類特征“形狀”和“顏色”構(gòu)建特征函數(shù),fl(x)為“顏色”的特征函數(shù),代表水果圖片上的顏色信息,例如紅色可以取值為1,黃色可以取值為2等;f2(x)為“形狀”的特征函數(shù),代表水果圖片X的形狀,例如“圓形”可以取值為1,“細長型”可以取值為2等。其創(chuàng)建的詞條與領域分類模型為線性模型y(x)=wl*fl (x)+w2*f2(x),其中x為水果圖片,y (x)為領域分類:水果,wl和w2是兩個待定參數(shù)。
[0049]以此類推,可以擴展特征的類型,根據(jù)已有百科詞條上面的頁面內(nèi)容以及該詞條已經(jīng)所述的領域標簽,來構(gòu)造出來詞條與領域標簽的分類模型。
[0050]例如:一個已有的百科詞條“張亞勤”在百科中,所述的領域標簽分類為“人物”,如圖3b所示。
[0051]這樣的話,可以根據(jù)這個百科網(wǎng)頁詞條構(gòu)造出來一個訓練數(shù)據(jù)如下:
[0052]y:人物;
[0053]X:張亞勤;
[0054]fl(x)到fn(x)可以圖3c中的一些短語,例如f 1 (x)是“張亞勤這個詞條的百科網(wǎng)頁中,是否包括“早年經(jīng)歷”這個內(nèi)容”,這是因為對于一個新的待創(chuàng)建條目,如果我們已經(jīng)從已有網(wǎng)頁中搜索到了和“早年經(jīng)歷”相關的文字內(nèi)容的話,則該待創(chuàng)建條目屬于“人物”領域標簽的可能性會大增,這是符合人們的常識預期的。
[0055]如圖3所示,利用詞條與領域分類模型分析待創(chuàng)建詞條的領域分類的操作可以包括:
[0056]首先,接收待創(chuàng)建詞條。
[0057]其次,構(gòu)建待創(chuàng)建詞條的分類特征,并調(diào)用詞條與領域分類模型。
[0058]其中,構(gòu)建待創(chuàng)建詞條的分類特征可以是詞條本身特征,例如,詞條為“水果”,則“顏色”和“形狀”這些“水果”自身的特征可以作為分類特征。
[0059]構(gòu)建待創(chuàng)建詞條的分類特征也可以是詞條自動調(diào)用搜索引擎獲得的top-N的網(wǎng)頁內(nèi)容。例如,搜索詞條“張亞勤”獲得的網(wǎng)頁上包括“他”、“出生于1966年”和“華盛頓大學博士”等信息,這些信息都支持“張亞勤”這個詞條被劃分到“人物”這個領域的分類特征。依據(jù)上述各個分類特征,并調(diào)用詞條與領域分類模型,得到待創(chuàng)建詞條的各個領域分類,即將待創(chuàng)建詞條的各個分類特征輸入詞條與領域分類模型,得到詞條與領域分類模型輸出的待創(chuàng)建詞條的至少一個領域分類。最后,輸出領域分類的集合。該集合中包括了至少一個領域分類,例如,“張亞勤人物”中包含了一個領域分類;而“奔馳人物品牌”包括了兩個領域分類。
[0060]通過本發(fā)明實施例提供的技術方案,可以依據(jù)詞條與領域分類模型分析待創(chuàng)建詞條的領域分類,提高了分析待創(chuàng)建詞條的領域分類的準確性。
[0061]實施例三
[0062]本實施例基于上述實施例,進一步將上述“接收待創(chuàng)建詞條,分析待創(chuàng)建詞條的領域分類,并查詢與領域分類相對應的視角分區(qū)”中的操作進一步優(yōu)化為:依據(jù)領域分類對應的網(wǎng)絡百科詞條模板,查詢與領域分類相對應的視角分區(qū)。
[0063]其中,網(wǎng)絡百科詞條模板中包含領域分類和與領域分類相對應的視角分區(qū)。示例性的,領域分類可以包括人物、機構(gòu)、藥品和品牌中的至少一個。人物相對應的視角分區(qū)可以包括時間、空間和生平事件組成的時空圖譜;機構(gòu)相對應的視角分區(qū)可以包括時間、空間和相關人物;藥品相對應的視角分區(qū)可以包括時間、發(fā)明人、發(fā)明機構(gòu)、效果和副作用;品牌相對應的視角分區(qū)可以包括時間、創(chuàng)始人、規(guī)模和產(chǎn)品。
[0064]例如,“張亞勤”這個人物詞條下的視角分區(qū)包括:早年經(jīng)歷、個人履歷、主要貢獻、主要榮譽和微軟亞太;而“李開復”這個人物詞條下的視角分區(qū)包括:人物經(jīng)歷,成就及榮譽,個人作品和社會評價。
[0065]依據(jù)上述對于百度百科人物相關詞條的視角分區(qū)的匯總,可以總體概括出和人物相關的視角分區(qū)可以有:個人履歷(等同于人物經(jīng)歷),成就及榮譽(主要貢獻、主要榮譽)和社會評價等若干方面,按照類似的方法可以建立起“人物”相關的百科詞條的模板。從而使用該模板來指導待創(chuàng)建詞條的自動建立過程。
[0066]通過本發(fā)明實施例提供的技術方案,可以依據(jù)領域分類對應的網(wǎng)絡百科詞條模板查詢與領域分類相對應的視角分區(qū),提高了確定視角分區(qū)的準確性。
[0067]實施例四
[0068]本發(fā)明實施例提供的技術方案中,基于上述實施例進一步優(yōu)化了“接收待創(chuàng)建詞條,分析所述待創(chuàng)建詞條的領域分類,并查詢與所述領域分類相對應的視角分區(qū)”的過程,如圖4所示,具體包括操作S401-405 ;
[0069]操作S401,接收待創(chuàng)建詞條,分析所述待創(chuàng)建詞條的領域分類,并查詢與所述領域分類相對應的視角分區(qū)。
[0070]操作S402,使用待創(chuàng)建詞條和視角分區(qū)組建檢索語句,根據(jù)檢索語句進行檢索,獲得檢索結(jié)果。
[0071]操作S403,對于查詢到的各視角分區(qū),統(tǒng)計檢索結(jié)果中對應該視角分區(qū)的檢索結(jié)果的出現(xiàn)頻次。
[0072]例如,查詢“張亞勤人物”獲得的視角分區(qū)包括:早年經(jīng)歷51頻次、個人履歷20頻次、少年時期49頻次、主要貢獻10頻次。
[0073]操作S404,將查詢到的語義相似的多個視角分區(qū)合并成一個視角分區(qū),并疊加該多個視角分區(qū)對應的檢索結(jié)果的出現(xiàn)頻次,作為合并后的視角分區(qū)對應的檢索結(jié)果的出現(xiàn)頻次。
[0074]將語義相似的多個視角分區(qū)例如早年經(jīng)歷和少年時期,合并成一個視角分區(qū),例如早年經(jīng)歷,并疊加其頻次(早年經(jīng)歷51頻次、少年時期49頻次)作為合后的視角分區(qū)的頻次,例如早年經(jīng)歷100頻次。
[0075]操作S405,按照各視角分區(qū)對應的檢索結(jié)果的出現(xiàn)頻次由高到低的順序,顯示各視角分區(qū)相對應的檢索結(jié)果。
[0076]通過本發(fā)明實施例提供的技術方案,可以將語義相似的多個視角分區(qū)合并成一個視角分區(qū),降低了后續(xù)檢索待創(chuàng)建詞條和所述視角分區(qū)組建檢索語句的任務量,降低了創(chuàng)建網(wǎng)絡百科的數(shù)據(jù)處理量。
[0077]實施例五
[0078]在上述實施例的基礎上,本發(fā)明實施例提供了一種創(chuàng)建網(wǎng)絡百科詞條的方法,適用于創(chuàng)建新詞條的網(wǎng)絡百科的情況下,如圖5所示,具體執(zhí)行操作S501-S505:
[0079]操作S501,接收待創(chuàng)建詞條,分析待創(chuàng)建詞條的領域分類,并查詢與領域分類相對應的視角分區(qū)。
[0080]操作S502,使用待創(chuàng)建詞條和視角分區(qū)組建檢索語句,根據(jù)檢索語句進行檢索,獲得檢索結(jié)果。
[0081]操作S503,采用語義角色標注器,對檢索結(jié)果中的各個語句進行語義角色標注(SRL,Semantic role labelling),獲得各個語句的主干結(jié)構(gòu)。
[0082]在操作S503中,在自然語言處理中,語義角色標注器可以采用0 (η)復雜度的分析算法,其中η是輸入語句中詞的個數(shù)。各個語句的主干結(jié)構(gòu)可以包括:謂詞、謂詞的語義角色分類、每個謂詞對應的論元(例如,主語,賓語,時間狀語,地點狀語等)和謂詞和論元之間的語義關系。
[0083]為清楚起見,語義角色標注過程以對語句“我愛百度”進行語義角色標注為例進行說明,如圖6所示:
[0084]首先,對語句“我愛百度”進行PRG(Predicate recognit1n,謂詞識別),識別出的謂詞為“愛”。
[0085]其次,分析謂詞“愛”的語義分類。例如,“愛”的語義分類若是CPB2(ChinesePropbank 2.0,中文賓州樹庫2.0版)中frame set (框架集)定義的第一種語義分類,則給“愛”的語義分類賦值為“愛.01”。
[0086]最后,查找與謂詞“愛”相對應的論元。論元可以是主語、賓語、時間狀語,地點狀語等,例如“我愛百度”中的“愛”的主語A0是“我”,賓語A1是“百度”,則與謂詞“愛”相對應的論元為“我”和“百度”。
[0087]需要進行說明的是,語義角色標注器對語句主干結(jié)構(gòu)的標注與語序(word order)無關。例如:語句一,“警方正在詳細調(diào)查事故原因”,對其進行語義角色標注警方”/主語-施事正在詳細“調(diào)查” /動詞-謂詞“事故原因” /賓語-受事;語句二,“警方正在對事故原因進行詳細調(diào)查”,其中動詞后置,并且名詞化了,但語句主干不變;語句三,“警方對事故原因的調(diào)查已經(jīng)結(jié)束”。上述三個語句對應同一種語義主干:警方調(diào)查事故原因。從而可以避免語句的語序影響對語義角色標注,提高了語義角色標注的準確性。
[0088]需要進行說明的是,語句的主干結(jié)構(gòu)是由“主謂賓定狀補”這樣的語法結(jié)構(gòu)嵌套/組合而成。語句中的主語(或者賓語等)有可能被隱藏。為克服這一問題,語義角色標注器還可以對語句的語義角色進行自動補全。例如:在“我吃飯了 ”和“我吃了 ”這兩個語句中的“吃”這個謂詞,都是需要主語和賓語的,只不過第二個語句中的賓語被省略了。這兩個語句中抽取出來的主干結(jié)構(gòu)可以分別是:我/施事-吃/謂詞-飯/受事;我/施事_吃/謂詞-〈什么>/受事。例如你吃晚飯了嗎”和“我吃了”這兩個語句中,可以抽取到的主干結(jié)構(gòu)是“我/施事-吃/謂詞-晚飯/受事”。從而,通過語義角色標注器抽取出來的主干結(jié)構(gòu),為非單個語句的信息抽取提供了很好的線索。
[0089]操作S504,依據(jù)預設的整合規(guī)則,對檢索結(jié)果進行整合,并顯示整合后的檢索結(jié)果Ο
[0090]通過本發(fā)明實施例提供的技術方案,可以采用語義角色標注器,對檢索結(jié)果中的各個語句進行語義角色標注獲得各個語句的主干結(jié)構(gòu),提高了創(chuàng)建網(wǎng)絡百科的準確性。
[0091]語料庫中存在的詞語為已知詞,但語句中的部分詞語在語料庫中并不存在,例如新興的網(wǎng)絡詞語,這些詞語為未知詞。為了提高語義角色標注器標注語句主干結(jié)構(gòu)的精度,還需要對未知詞進行識別??梢允褂迷~聚類詞典,將未知詞映射到相似的已知詞上,并達到正確解析出未知詞相關的語義角色關系。
[0092]例如:語句1 “我目前還沒有學習過這個課程”;語句2 “我目前還沒有研修過這個課程”。假設,已知詞為“學習”的主語為“我”,賓語為“課程”;未知詞為“研修”,也不知道“研修”的語義角色。此時,就需要根據(jù)詞聚類方法,即根據(jù)上下文的相似度,來估計當前的兩個詞“學習”和“研修”的語義相似度。在基于大規(guī)模數(shù)據(jù)訓練的時候,如果這兩個詞左右的若干詞相似度位于一定范圍內(nèi),則可以提高已知詞和未知詞的語義相似度。由于“學習”和“研修”左右的詞完全相同,則可以判斷“學習”和“研修”語義相似度很高,從而可以把已知的“學習”的語義框架移植到未知的“研修”這個詞上面,確定“學習”為“研修”的已知詞。
[0093]由于支持向量機和貝葉斯分類器等分類器對頻次較高的已知詞進行語義標注準確度更高,也可以對已知詞采用上述映射方法,例如“學習”和“鉆研”兩個已知詞,“學習”出現(xiàn)的頻次高,“鉆研”出現(xiàn)的頻次低,可以將“鉆研”映射到“學習”上,從而提高語義角色標注的精度。
[0094]實施例六
[0095]本發(fā)明實施例提供的技術方案中,優(yōu)選的是語義角色標注器采用pipeline(管程)結(jié)構(gòu),該管程結(jié)構(gòu)的語義角色標注器以語句的依存分析樹為輸入,以語句的主干結(jié)構(gòu)為輸出。因此,在調(diào)用管程結(jié)構(gòu)的語義角色標注器對語句進行語義角色標注之前,需要獲取語句的依存分析樹。
[0096]為解決上述問題,本發(fā)明實施例提供一種優(yōu)選的技術方案,參見圖7所示,包括以下操作:
[0097]操作S701,接收待創(chuàng)建詞條,分析待創(chuàng)建詞條的領域分類,并查詢與領域分類相對應的視角分區(qū)。
[0098]操作S702,使用待創(chuàng)建詞條和視角分區(qū)組建檢索語句,根據(jù)檢索語句進行檢索。
[0099]操作S703,對檢索結(jié)果中的各個語句分別進行依存關系分析,并對分析結(jié)果進行修正,獲得各個語句分別對應的依存分析樹。
[0100]在操作S703中,可以使用依存關系分析器分析各個語句的依存關系,依存關系可以是現(xiàn)有的語法關系,例如主謂賓定狀補。分析結(jié)果中可以包括語句的主語、謂語、賓語和狀語中的至少一個。依存關系樹可以是完成分詞和詞性標注的語句。例如,語句“克里斯蒂娜昨天用棒球打了斯科特”的依存關系樹如圖8,其中,“克里斯蒂娜”為主語,“昨天”為時間狀語、“斯科特”為賓語。
[0101]操作S704,將檢索結(jié)果中的各個語句的依存分析樹分別輸入語義角色標注器,語義角色標注器每次接收到語句的依存分析樹后,根據(jù)當前接收的依存分析樹進行語法解析,輸出對應語句的主干結(jié)構(gòu)。
[0102]操作S705,依據(jù)預設的整合規(guī)則,對檢索結(jié)果進行整合,并顯示整合后的檢索結(jié)果,具體是對檢索結(jié)果中各個語句的主干結(jié)構(gòu)進行整合,并顯示整合后的內(nèi)容。
[0103]通過本發(fā)明實施例提供的技方案,可以為管程結(jié)構(gòu)的語義角色標注器提供語句的依存關系樹作為輸入,從而實現(xiàn)利用語義角色標注器輸出語句的主干結(jié)構(gòu)。
[0104]實施例七
[0105]本發(fā)明實施例提供的技術方案中,預設的整合規(guī)則包括以下至少一項:
[0106]預設的整合規(guī)則可以是,對檢索結(jié)果中的實體詞語進行歧義消除。以將具有歧義的實體詞語統(tǒng)一為同一個實體詞語。例如,在同一個文檔里面,“尤利烏斯.愷撒” “凱撒” “他”和“凱撒大帝”等都是指代的同一個人“尤利烏斯.愷撒”??梢詫⑵浣y(tǒng)一為“尤利烏斯.愷撒”。
[0107]預設的整合規(guī)則可以是,歸一化代表同一個實體的縮率語。例如“美國”和“美利堅合眾國”都是指美國,可以將其二者歸一化為“美國”。
[0108]預設的整合規(guī)則可以是,對時間進行歸一化和自動計算。例如“張亞勤出生于1966年。12歲那年他考上了中國科學技術大學少年班”,這里的“12歲”可以通過“1966+12 =1978”即后一句,通過時間計算和代詞的指代消解,可以改寫為“ 1978年張亞勤考上了中國科學技術大學少年班”。通過這個步驟,我們可以使得圍繞同一個人物的不同語句上的知識信息,按照時間和地點的先后順序統(tǒng)一整合起來。
[0109]預設的整合規(guī)則可以是,識別檢索結(jié)果中NER(Named Entity Recognit1n,命名實體識別)特征。以識別出語句中有特定意義的實體詞語,例如人名、地名和時間等實體詞語。人名一般為主語賓語等,地名表示地點狀語,時間表示時間狀語。
[0110]例如:“黎明昨天在上地買了一個書包”。其中,“黎明”為人名,“昨天”為時間,“上地”為地點,則謂詞“買”的主干為:“我”為主語,“昨天”為時間狀語,“上地”為地點狀語,“買”為謂詞,“書包”為賓語??梢钥吹?,命名實體識別特征對語義角色標注器的精度有提示作用。
[0111]預設的整合規(guī)則可以是,識別檢索結(jié)果中Chunk(塊)特征,Chunk特征可以將語句中的短語作為主語或者賓語。例如,“我去中國銀行上地支行”。“中國銀行上地支行”是一個Chunk特征,代表了唯一的地點,可以將“中國銀行上地支行”作為地點賓語。因此識別檢索結(jié)果中Chunk特征可以使得語義角色標注器達到更好的對于短語的論元成分的分類。
[0112]預設的整合規(guī)則可以是,使用檢詞泛化詞典將檢索結(jié)果中未知詞描述為已知詞點的近義詞,來彌補因為語料庫中的缺詞問題而導致的語義角色標注系統(tǒng)精度下降問題。
[0113]實施例八
[0114]本實施例基于上述各個實施例,以待創(chuàng)建詞語為“張亞勤”為例,提供了一種創(chuàng)建網(wǎng)絡百科的方法,參見圖9,主要包括以下三個階段:
[0115]第一階段,對檢索到的語句進行語義標注。其中,檢索語句可以是“張亞勤早年經(jīng)歷”,其檢索到的語句包括“張亞勤1966年出生于山西太原”、“張亞勤12歲考上大學”和“張亞勤從中國科技大學畢業(yè)”。
[0116]對上述語句進行語義標注,“張亞勤1966年出身與山西太原”中的“張亞勤”為主語、“出生”為謂詞、“山西太原”為地點狀語、“1966年”為時間狀語?!皬垇喦?2歲考上大學”中的“張亞勤”為主語、“考”為謂詞、“12歲”為時間狀語、“大學”為賓語?!皬垇喦趶闹袊萍即髮W畢業(yè)”中的“張亞勤”為主語、“畢業(yè)”為謂詞、“中國科技大學”為地點狀語。
[0117]第二階段,對檢索結(jié)果進行整合。將其中的“12歲”與“1966年”進行疊加生成“1987”,從而獲得“1978年中國科技大學張亞勤大學入學”、“1966年山西太原張亞勤出生”和“1982年中國科技大學張亞勤大學畢業(yè)”的檢索結(jié)果。
[0118]第三階段,依據(jù)整合后的檢索語句,生成網(wǎng)絡百科頁面。
[0119]實施例九
[0120]本發(fā)明實施例提供了一種創(chuàng)建網(wǎng)絡百科詞條的裝置,適用于該方法可適用于網(wǎng)絡百科未收錄用戶輸入的新詞條,用戶創(chuàng)建新詞條的情況下,如圖10所示,主要包括:視角分區(qū)查詢模塊1001、檢索語句構(gòu)建模塊1002和檢索結(jié)果整合模塊1003。
[0121]視角分區(qū)查詢模塊1001,用于接收待創(chuàng)建詞條,分析待創(chuàng)建詞條的領域分類,并查詢與領域分類相對應的視角分區(qū);檢索語句構(gòu)建模塊1002,用于使用待創(chuàng)建詞條和視角分區(qū)組建檢索語句,根據(jù)檢索語句進行檢索;檢索結(jié)果整合模塊1003,用于依據(jù)預設的整合規(guī)則,對檢索結(jié)果進行整合,并顯示整合后的檢索結(jié)果。
[0122]在視角分區(qū)查詢模塊1001中,在網(wǎng)絡百科中檢索詞條,網(wǎng)絡百科搜索引擎未返回與詞條相應的網(wǎng)頁信息,并且提示用戶該詞條并未被網(wǎng)絡百科收錄,則該詞條可以作為待創(chuàng)建詞條,需要創(chuàng)建與待創(chuàng)建詞條相對應的網(wǎng)絡百科。為實現(xiàn)創(chuàng)建與待創(chuàng)建詞條相對應的網(wǎng)絡百科。需要分析待創(chuàng)建詞條的領域分類,以作為區(qū)分待創(chuàng)建詞條所屬領域的依據(jù),待創(chuàng)建詞條可以對應一個領域分類也可以對應多個領域分類。在分析待創(chuàng)建詞條的領域分類后,可以查詢與領域分類相對應的至少一個視角分區(qū)。視角分區(qū)可以代表領域分類的各方面屬性,以對領域分類進行詳細的描述。
[0123]視角分區(qū)查詢模塊1001具體用于,依據(jù)詞條與領域分類模型分析待創(chuàng)建詞條的領域分類,獲得至少一個領域分類。其中,領域分類可以包括人物、機構(gòu)、藥品和品牌中的至少一個;人物相對應的視角分區(qū)包括時間、空間和生平事件組成的時空圖譜;機構(gòu)相對應的視角分區(qū)包括時間、空間和相關人物;藥品相對應的視角分區(qū)包括時間、發(fā)明人、發(fā)明機構(gòu)、效果和副作用;品牌相對應的視角分區(qū)包括時間、創(chuàng)始人、規(guī)模和產(chǎn)品。
[0124]在視角分區(qū)查詢模塊1001還可以將待創(chuàng)建詞條和各個視角分區(qū)組建檢索語句,以實現(xiàn)從各個視角對待創(chuàng)建詞條進行全面檢索。也可以將待創(chuàng)建詞條和多個視角分區(qū)組建檢索語句,讓搜索引擎返回與待創(chuàng)建詞條精準度更高的網(wǎng)頁內(nèi)容,有利于搜索到高質(zhì)量的網(wǎng)頁作為原始語料構(gòu)建與待創(chuàng)建詞條相對應的網(wǎng)絡百科。檢索結(jié)果可以包括搜索引擎返回的關于各個查詢語句的全部網(wǎng)頁內(nèi)容。
[0125]視角分區(qū)查詢模塊1001還可以依據(jù)領域分類對應的網(wǎng)絡百科詞條模板,查詢與領域分類相對應的視角分區(qū);其中,網(wǎng)絡百科詞條模板中包含領域分類和與領域分類相對應的視角分區(qū)。
[0126]在檢索結(jié)果整合模塊1003中,檢索結(jié)果中的網(wǎng)頁內(nèi)容的數(shù)量較多,而且這些網(wǎng)頁內(nèi)容中存在相對同一視角分區(qū)重復描述的內(nèi)容,可讀性不強。需要依據(jù)預設的整合規(guī)則,對檢索結(jié)果進行整合,將整合后的檢索結(jié)果作為與待創(chuàng)建詞條相對應的網(wǎng)絡百科展示。為進一步提高創(chuàng)建網(wǎng)絡百科的準確性,在向用戶展示該整合后的檢索結(jié)果后,可以提示用戶確認該整合后的檢索結(jié)果是否正確。若正確,則可以將該整合后的檢索結(jié)果作為待創(chuàng)建詞條對應的網(wǎng)絡百科;若不正確,則用戶可以修改整合后的檢索結(jié)果,將修改后的檢索結(jié)果作為待創(chuàng)建詞條對應的網(wǎng)絡百科。
[0127]檢索結(jié)果整合模塊1003具體執(zhí)行以下至少一項預設的整合規(guī)則:對檢索結(jié)果進行命名實體識別NER,以識別出有特定意義的實體詞語;對檢索結(jié)果中的實體詞語進行歧義消除,以將具有歧義的實體詞語統(tǒng)一為同一個實體詞語;歸一化代表同一個實體的縮率語。
[0128]檢索結(jié)果整合模塊1003,包括:頻次統(tǒng)計子模塊、頻次疊加子模塊和結(jié)果輸出子豐旲塊。
[0129]頻次統(tǒng)計子模塊,用于對于查詢到的各視角分區(qū),統(tǒng)計檢索結(jié)果中對應該視角分區(qū)的檢索結(jié)果的出現(xiàn)頻次;
[0130]頻次疊加子模塊,用于將查詢到的語義相似的多個視角分區(qū)合并成一個視角分區(qū),并疊加該多個視角分區(qū)對應的檢索結(jié)果的出現(xiàn)頻次,作為合并后的視角分區(qū)對應的檢索結(jié)果的出現(xiàn)頻次;
[0131]結(jié)果輸出子模塊,用于按照各視角分區(qū)對應的檢索結(jié)果的出現(xiàn)頻次由高到低的順序,顯示各視角分區(qū)相對應的檢索結(jié)果。
[0132]通過本發(fā)明實施例提供的通過一種創(chuàng)建網(wǎng)絡百科詞條的裝置,可以在網(wǎng)絡百科檢索詞條,該詞條為未收錄的詞條的情況下,將該詞條作為待創(chuàng)建詞條,自動創(chuàng)建待創(chuàng)建詞條的網(wǎng)絡百科,提高了創(chuàng)建網(wǎng)絡百科詞條的準確率。
[0133]實施例十
[0134]在上述各個實施例的基礎上,本發(fā)明實施例提供的一種創(chuàng)建網(wǎng)絡百科詞條的裝置,如圖11所示,包括:視角分區(qū)查詢模塊1101、檢索語句構(gòu)建模塊1102依存關系樹獲得模塊1103、語義角色標注模塊1104和檢索結(jié)果整合模塊1105。
[0135]依存關系樹獲得模塊1103,用于對檢索結(jié)果中的各個語句分別進行依存關系分析,并對分析結(jié)果進行修正,獲得各個語句分別對應的依存分析樹;
[0136]語義角色標注模塊1104具體用于,將檢索結(jié)果中的各個語句的依存分析樹分別輸入語義角色標注器,語義角色標注器每次接收到語句的依存分析樹后,根據(jù)當前接收的依存分析樹進行語法解析,輸出對應語句的主干結(jié)構(gòu)。
[0137]通過本發(fā)明實施例提供的技術方案,可以采用語義角色標注器,對檢索結(jié)果中的各個語句進行語義角色標注獲得各個語句的主干結(jié)構(gòu),提高了創(chuàng)建網(wǎng)絡百科的準確性。
[0138]啟動上述各個實施例提供的技術方案的條件可以是在用戶在如圖12所示的頁面中,觸發(fā)“快速創(chuàng)建按鈕”來時實現(xiàn)。
[0139]請注意,上述僅為本發(fā)明的較佳實施例及所運用技術原理。本領域技術人員會理解,本發(fā)明不限于這里的特定實施例,對本領域技術人員來說能夠進行各種明顯的變化、重新調(diào)整和替代而不會脫離本發(fā)明的保護范圍。因此,雖然通過以上實施例對本發(fā)明進行了較為詳細的說明,但是本發(fā)明不僅僅限于以上實施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。
【權(quán)利要求】
1.一種創(chuàng)建網(wǎng)絡百科詞條的方法,其特征在于,包括: 接收待創(chuàng)建詞條,分析所述待創(chuàng)建詞條的領域分類,并查詢與所述領域分類相對應的視角分區(qū); 使用所述待創(chuàng)建詞條和所述視角分區(qū)組建檢索語句,根據(jù)所述檢索語句進行檢索; 依據(jù)預設的整合規(guī)則,對檢索結(jié)果進行整合,并顯示整合后的檢索結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,分析所述待創(chuàng)建詞條的領域分類包括: 依據(jù)詞條與領域分類模型分析所述待創(chuàng)建詞條的領域分類,獲得至少一個所述領域分類。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述查詢與所述領域分類相對應的視角分區(qū),包括: 依據(jù)所述領域分類對應的網(wǎng)絡百科詞條模板,查詢與所述領域分類相對應的視角分區(qū);其中,所述網(wǎng)絡百科詞條模板中包含所述領域分類和與所述領域分類相對應的視角分區(qū)。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述領域分類包括人物、機構(gòu)、藥品和品牌中的至少一個; 所述人物相對應的視角分區(qū)包括時間、空間和生平事件組成的時空圖譜; 所述機構(gòu)相對應的視角分區(qū)包括時間、空間和相關人物; 所述藥品相對應的視角分區(qū)包括時間、發(fā)明人、發(fā)明機構(gòu)、效果和副作用; 所述品牌相對應的視角分區(qū)包括時間、創(chuàng)始人、規(guī)模和產(chǎn)品。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在使用所述待創(chuàng)建詞條和所述視角分區(qū)組建檢索語句,根據(jù)所述檢索語句進行檢索之后,依據(jù)預設的整合規(guī)則,整合檢索結(jié)果之前,還包括: 采用語義角色標注器,對檢索結(jié)果中的各個語句進行語義角色標注,獲得所述各個語句的主干結(jié)構(gòu)。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,在采用語義角色標注器,對檢索結(jié)果中的各個語句進行語義角色標注之前,還包括: 對檢索結(jié)果中的各個語句分別進行依存關系分析,并對分析結(jié)果進行修正,獲得所述各個語句分別對應的依存分析樹; 則所述采用語義角色標注器,對檢索結(jié)果中的各個語句進行語義角色標注,獲得所述各個語句的主干結(jié)構(gòu),包括: 將檢索結(jié)果中的各個語句的依存分析樹分別輸入所述語義角色標注器,所述語義角色標注器每次接收到語句的依存分析樹后,根據(jù)當前接收的依存分析樹進行語法解析,輸出對應語句的主干結(jié)構(gòu)。
7.根據(jù)權(quán)利要求1-6中任一所述的方法,其特征在于,所述預設的整合規(guī)則包括以下至少一項: 對所述檢索結(jié)果進行命名實體識別NER,以識別出有特定意義的實體詞語; 對所述檢索結(jié)果中的實體詞語進行歧義消除,以將具有歧義的實體詞語統(tǒng)一為同一個實體詞語; 歸一化代表同一個實體的縮率語。
8.根據(jù)權(quán)利要求1-6中任一所述的方法,其特征在于,依據(jù)預設的整合規(guī)則,對檢索結(jié)果進行整合之后,在顯示整合后的檢索結(jié)果之前,還包括: 對于查詢到的各視角分區(qū),統(tǒng)計所述檢索結(jié)果中對應該視角分區(qū)的檢索結(jié)果的出現(xiàn)頻次; 將查詢到的語義相似的多個視角分區(qū)合并成一個視角分區(qū),并疊加該多個視角分區(qū)對應的檢索結(jié)果的出現(xiàn)頻次,作為合并后的視角分區(qū)對應的檢索結(jié)果的出現(xiàn)頻次; 所述顯示整合后的檢索結(jié)果包括: 按照各視角分區(qū)對應的檢索結(jié)果的出現(xiàn)頻次由高到低的順序,顯示各視角分區(qū)相對應的檢索結(jié)果。
9.一種創(chuàng)建網(wǎng)絡百科詞條的裝置,其特征在于,包括: 視角分區(qū)查詢模塊,用于接收待創(chuàng)建詞條,分析所述待創(chuàng)建詞條的領域分類,并查詢與所述領域分類相對應的視角分區(qū); 檢索語句構(gòu)建模塊,用于使用所述待創(chuàng)建詞條和所述視角分區(qū)組建檢索語句,根據(jù)所述檢索語句進行檢索; 檢索結(jié)果整合模塊,用于依據(jù)預設的整合規(guī)則,對檢索結(jié)果進行整合,并顯示整合后的檢索結(jié)果。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述視角分區(qū)查詢模塊具體用于,依據(jù)詞條與領域分類模型分析所述待創(chuàng)建詞條的領域分類,獲得至少一個所述領域分類。
11.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述視角分區(qū)查詢模塊具體用于,依據(jù)所述領域分類對應的網(wǎng)絡百科詞條模板,查詢與所述領域分類相對應的視角分區(qū);其中,所述網(wǎng)絡百科詞條模板中包含所述領域分類和與所述領域分類相對應的視角分區(qū)。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述領域分類包括人物、機構(gòu)、藥品和品牌中的至少一個; 所述人物相對應的視角分區(qū)包括時間、空間和生平事件組成的時空圖譜; 所述機構(gòu)相對應的視角分區(qū)包括時間、空間和相關人物; 所述藥品相對應的視角分區(qū)包括時間、發(fā)明人、發(fā)明機構(gòu)、效果和副作用; 所述品牌相對應的視角分區(qū)包括時間、創(chuàng)始人、規(guī)模和產(chǎn)品。
13.根據(jù)權(quán)利要求9所述的裝置,其特征在于,還包括: 語義角色標注模塊,用于采用語義角色標注器,對檢索結(jié)果中的各個語句進行語義角色標注,獲得所述各個語句的主干結(jié)構(gòu)。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,還包括: 依存關系樹獲得模塊,用于對檢索結(jié)果中的各個語句分別進行依存關系分析,并對分析結(jié)果進行修正,獲得所述各個語句分別對應的依存分析樹; 貝1J,所述語義角色標注模塊具體用于,將檢索結(jié)果中的各個語句的依存分析樹分別輸入所述語義角色標注器,所述語義角色標注器每次接收到語句的依存分析樹后,根據(jù)當前接收的依存分析樹進行語法解析,輸出對應語句的主干結(jié)構(gòu)。
15.根據(jù)權(quán)利要求9-14中任一所述的裝置,其特征在于,所述檢索結(jié)果整合模塊具體執(zhí)行以下至少一項所述預設的整合規(guī)則: 對所述檢索結(jié)果進行命名實體識別NER,以識別出有特定意義的實體詞語; 對所述檢索結(jié)果中的實體詞語進行歧義消除,以將具有歧義的實體詞語統(tǒng)一為同一個實體詞語; 歸一化代表同一個實體的縮率語。
16.根據(jù)權(quán)利要求9-14中任一所述的裝置,其特征在于,所述檢索結(jié)果整合模塊,包括: 頻次統(tǒng)計子模塊,用于對于查詢到的各視角分區(qū),統(tǒng)計所述檢索結(jié)果中對應該視角分區(qū)的檢索結(jié)果的出現(xiàn)頻次; 頻次疊加子模塊,用于將查詢到的語義相似的多個視角分區(qū)合并成一個視角分區(qū),并疊加該多個視角分區(qū)對應的檢索結(jié)果的出現(xiàn)頻次,作為合并后的視角分區(qū)對應的檢索結(jié)果的出現(xiàn)頻次; 結(jié)果輸出子模塊,用于按照各視角分區(qū)對應的檢索結(jié)果的出現(xiàn)頻次由高到低的順序,顯示各視角分區(qū)相對應的檢索結(jié)果。
【文檔編號】G06F17/30GK104484374SQ201410742411
【公開日】2015年4月1日 申請日期:2014年12月8日 優(yōu)先權(quán)日:2014年12月8日
【發(fā)明者】吳先超 申請人:百度在線網(wǎng)絡技術(北京)有限公司