亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種詞條的獲取方法和裝置與流程

文檔序號(hào):11545548閱讀:165來(lái)源:國(guó)知局
一種詞條的獲取方法和裝置【
技術(shù)領(lǐng)域
】本發(fā)明涉及互聯(lián)網(wǎng)信息處理
技術(shù)領(lǐng)域
,特別涉及一種詞條的獲取方法和裝置?!?br>背景技術(shù)
:】隨著信息和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,人們?cè)絹?lái)越多地通過(guò)互聯(lián)網(wǎng)進(jìn)行各種知識(shí)和信息的搜索。百科網(wǎng)站是一個(gè)互聯(lián)網(wǎng)所有用戶(hù)均能平等的瀏覽、創(chuàng)造、完善內(nèi)容的平臺(tái),例如百度百科、維基百科、互動(dòng)百科等,能夠讓互聯(lián)網(wǎng)用戶(hù)通過(guò)百科網(wǎng)站即能找到自己想要的全面、準(zhǔn)確、客觀的定義性信息,可供其他用戶(hù)進(jìn)行類(lèi)似主題的查詢(xún)和瀏覽,以便提供相應(yīng)的知識(shí)或者借鑒。詞條是百科網(wǎng)站所含內(nèi)容的基礎(chǔ)分割單位,一個(gè)詞條具有一個(gè)或多個(gè)單一的主題,用于闡述一件事物、一個(gè)人物、或者具備特定主題的組合等知識(shí)內(nèi)容,例如:“故宮”、“劉德華”、“2008年北京奧運(yùn)會(huì)”等。在百科網(wǎng)站中包括極大數(shù)量的詞條,這些詞條記錄了各種行業(yè)、各種主題、各種知識(shí)領(lǐng)域的內(nèi)容。對(duì)于搜索引擎來(lái)說(shuō),利用這些百科詞條可以大大提高檢索的準(zhǔn)確性和檢索覆蓋率,并且有利于從網(wǎng)頁(yè)中提取結(jié)構(gòu)化數(shù)據(jù),用以進(jìn)行垂直搜索,得到更為精確的信息。隨著信息的大量傳播以及人們交流內(nèi)容的不斷擴(kuò)展,新詞條層出不窮?,F(xiàn)有的新詞條都是通過(guò)人工添加并創(chuàng)建新詞條對(duì)應(yīng)的知識(shí)內(nèi)容,進(jìn)而通過(guò)人工審核的方式將創(chuàng)建合格的新詞條添加到百科網(wǎng)站中,以供用戶(hù)進(jìn)行知識(shí)和信息的搜索。對(duì)于一個(gè)未創(chuàng)建新詞條,比如新的歌曲、電影、人物等,系統(tǒng)并不會(huì)在互聯(lián)網(wǎng)上主動(dòng)發(fā)現(xiàn),導(dǎo)致一些新詞條無(wú)法及時(shí)創(chuàng)建和更新,影響搜索引擎的檢索速度,甚至還會(huì)影響檢索的準(zhǔn)確性和召回率。【技術(shù)實(shí)現(xiàn)要素:】有鑒于此,本發(fā)明提供了一種詞條的獲取方法和裝置,利用已有詞庫(kù)挖掘?qū)嶓w詞條,可指導(dǎo)用戶(hù)創(chuàng)建新詞,解決百科數(shù)據(jù)庫(kù)中實(shí)體詞條收錄不足的問(wèn)題,便于實(shí)現(xiàn)更有效的知識(shí)搜索。具體技術(shù)方案如下:一種詞條的獲取方法,該方法包括以下步驟:S1、獲取詞條庫(kù)中同一分類(lèi)的已有詞條集合;S2、利用所獲取的已有詞條集合進(jìn)行搜索,得到包含所述已有詞條的錨文本,并記錄所述已有詞條的錨文本所在的網(wǎng)頁(yè)位置;S3、根據(jù)所記錄的網(wǎng)頁(yè)位置,在相應(yīng)的位置提取與所述已有詞條的錨文本之間的上下文距離滿(mǎn)足預(yù)設(shè)要求的錨文本。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟S3之后,還包括:S4、根據(jù)與所述已有詞條的錨文本之間的上下文距離計(jì)算所提取的錨文本的權(quán)重,統(tǒng)計(jì)所提取的錨文本在當(dāng)前分類(lèi)中出現(xiàn)的頻度,將頻度或權(quán)重滿(mǎn)足預(yù)設(shè)要求的錨文本識(shí)別為新詞條。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述錨文本所在的網(wǎng)頁(yè)位置,包括:錨文本所在的網(wǎng)頁(yè)、錨文本所在的網(wǎng)頁(yè)分塊以及錨文本在網(wǎng)頁(yè)分塊中的位置。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述上下文距離滿(mǎn)足預(yù)設(shè)要求包括:所提取的錨文本所在的網(wǎng)頁(yè)分塊與已有詞條的錨文本所在的網(wǎng)頁(yè)分塊相同。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述上下文距離滿(mǎn)足要求,還包括:所提取的錨文本與已有詞條的錨文本的間隔距離小于預(yù)設(shè)距離閾值。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述根據(jù)與所述已有詞條的錨文本之間的上下文距離計(jì)算所提取的錨文本的權(quán)重,具體包括:在同一網(wǎng)頁(yè)分塊中,確定所提取的錨文本與已有詞條的錨文本的上下文距離;利用確定的上下文距離,計(jì)算在對(duì)應(yīng)的網(wǎng)頁(yè)分塊中所提取的錨文本的權(quán)重;在整個(gè)當(dāng)前分類(lèi)下,將提取到的各個(gè)網(wǎng)頁(yè)分塊中計(jì)算得到的所提取的錨文本的權(quán)重進(jìn)行求和,得到所提取的錨文本的權(quán)重。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述在同一網(wǎng)頁(yè)分塊中確定所提取的錨文本與已有詞條的錨文本的上下文距離,具體包括:確定所提取的錨文本所在的網(wǎng)頁(yè)分塊中包含的已有詞條的錨文本;計(jì)算所提取的錨文本與獲取的各個(gè)已有詞條的錨文本之間的距離;選取距離的最小值作為與已有詞條的上下文距離。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟S3之后,還包括:將所提取的錨文本與所述詞條庫(kù)進(jìn)行對(duì)比,得到未收錄的錨文本;僅對(duì)所述未收錄的錨文本執(zhí)行所述步驟S4。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟S3之后,還包括:將所提取的錨文本中不包含指定詞性的錨文本過(guò)濾掉;僅對(duì)過(guò)濾后剩余的錨文本執(zhí)行所述步驟S4。一種詞條的獲取裝置,該裝置包括:已有詞條獲取模塊,用于獲取詞條庫(kù)中同一分類(lèi)的已有詞條集合;搜索模塊,用于利用所述已有詞條獲取模塊獲取的已有詞條集合進(jìn)行搜索,得到包含所述已有詞條的錨文本,并記錄所述已有詞條的錨文本所在的網(wǎng)頁(yè)位置;提取模塊,用于根據(jù)所述搜索模塊記錄的網(wǎng)頁(yè)位置,在相應(yīng)的位置提取與所述已有詞條的錨文本之間的上下文距離滿(mǎn)足預(yù)設(shè)要求的錨文本。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該裝置還包括:新詞條識(shí)別模塊,用于根據(jù)與所述已有詞條的錨文本之間的上下文距離計(jì)算所述提取模塊提取的錨文本的權(quán)重,統(tǒng)計(jì)所提取的錨文本在當(dāng)前分類(lèi)中出現(xiàn)的頻度,將頻度或權(quán)重滿(mǎn)足預(yù)設(shè)要求的錨文本識(shí)別為新詞條。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述錨文本所在的網(wǎng)頁(yè)位置,包括:錨文本所在的網(wǎng)頁(yè)、錨文本所在的網(wǎng)頁(yè)分塊以及錨文本在網(wǎng)頁(yè)分塊中的位置。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述上下文距離滿(mǎn)足預(yù)設(shè)要求包括:所提取的錨文本所在的網(wǎng)頁(yè)分塊與已有詞條的錨文本所在的網(wǎng)頁(yè)分塊相同。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述上下文距離滿(mǎn)足要求,還包括:所提取的錨文本與已有詞條的錨文本的間隔距離小于預(yù)設(shè)距離閾值。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述新詞條識(shí)別模塊,包括:距離確定單元,用于在同一網(wǎng)頁(yè)分塊中,確定所提取的錨文本與已有詞條的錨文本的上下文距離;權(quán)重計(jì)算單元,用于利用所述距離確定單元確定的上下文距離,計(jì)算在對(duì)應(yīng)的網(wǎng)頁(yè)分塊中所提取的錨文本的權(quán)重;加權(quán)單元,用于在整個(gè)當(dāng)前分類(lèi)下,將提取到的各個(gè)網(wǎng)頁(yè)分塊中計(jì)算得到的所提取的錨文本的權(quán)重進(jìn)行求和,得到所提取的錨文本的權(quán)重。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述距離確定單元,具體配置為:確定所提取的錨文本所在的網(wǎng)頁(yè)分塊中包含的已有詞條的錨文本;計(jì)算所提取的錨文本與獲取的各個(gè)已有詞條的錨文本之間的距離;選取距離的最小值作為與已有詞條的上下文距離。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該裝置還包括:已有詞條過(guò)濾模塊,用于將所述提取模塊提取的錨文本與所述詞條庫(kù)進(jìn)行對(duì)比,得到未收錄的錨文本;并將所述未收錄的錨文本提供給所述新詞識(shí)別模塊。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該裝置還包括:詞性過(guò)濾模塊,用于將所述提取模塊提取的錨文本中不包含指定詞性的錨文本過(guò)濾掉;并將過(guò)濾后剩余的錨文本提供給所述新詞識(shí)別模塊。由以上技術(shù)方案可以看出,本發(fā)明提供的詞條的獲取方法和裝置,利用已有詞庫(kù)挖掘?qū)嶓w詞條,提供尚未創(chuàng)建的新詞條,可指導(dǎo)用戶(hù)創(chuàng)建新詞條對(duì)應(yīng)的知識(shí),解決百科數(shù)據(jù)庫(kù)中實(shí)體詞條收錄不足的問(wèn)題,有利于完善結(jié)構(gòu)化的數(shù)據(jù)資料,便于實(shí)現(xiàn)更有效的知識(shí)搜索?!靖綀D說(shuō)明】圖1為本發(fā)明實(shí)施例一提供的詞條的獲取方法流程圖;圖2為網(wǎng)頁(yè)及其包含的網(wǎng)頁(yè)分塊示意圖;圖3為利用已有詞條“因?yàn)閻?ài)情”搜索到的某個(gè)網(wǎng)頁(yè)分塊示意圖;圖4為本發(fā)明實(shí)施例二提供的詞條的獲取方法流程圖;圖5為本發(fā)明實(shí)施例三提供的詞條的獲取裝置示意圖;圖6為本發(fā)明實(shí)施例四提供的詞條的獲取裝置示意圖?!揪唧w實(shí)施方式】為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。實(shí)施例一、圖1是本實(shí)施例提供的詞條的獲取方法流程圖,如圖1所示,該方法包括:步驟S101、獲取詞條庫(kù)中同一分類(lèi)的已有詞條集合。所述詞條庫(kù)可以是百科詞條庫(kù)、輸入法詞條庫(kù)等分類(lèi)詞條庫(kù),在本發(fā)明中以百科詞條庫(kù)為例進(jìn)行說(shuō)明。所述分類(lèi)可以采用分類(lèi)詞條庫(kù)原有的各個(gè)類(lèi)別,包括:歌曲、電影、人物、自然、文化、地理、歷史、生活、社會(huì)、藝術(shù)、經(jīng)濟(jì)、科技、體育等類(lèi)別,或者,可以對(duì)已有詞條利用現(xiàn)有的分類(lèi)或聚類(lèi)方法(如貝葉斯分類(lèi)方法、決策樹(shù)方法、支持向量機(jī)SVM等)劃分的類(lèi)別。獲取詞條庫(kù)中同一分類(lèi)的已有詞條集合,逐一對(duì)詞條庫(kù)中各個(gè)分類(lèi)的已有詞條,執(zhí)行步驟S102和步驟S103。步驟S102、利用所獲取的已有詞條集合進(jìn)行搜索,得到包含所述已有詞條的錨文本,并記錄所述已有詞條的錨文本所在的網(wǎng)頁(yè)位置。在互聯(lián)網(wǎng)網(wǎng)頁(yè)中,利用獲取的已有詞條集合進(jìn)行搜索,得到包含已有詞條的錨文本,記錄該些錨文本及錨文本所在的網(wǎng)頁(yè)位置。錨文本所在的網(wǎng)頁(yè)位置可以包括:錨文本所在的網(wǎng)頁(yè)、錨文本所在的網(wǎng)頁(yè)分塊以及錨文本在網(wǎng)頁(yè)分塊中的位置。圖2是一個(gè)網(wǎng)頁(yè)及其包含的網(wǎng)頁(yè)分塊示意圖,如圖2所示,錨文本1所在的網(wǎng)頁(yè)位置為該網(wǎng)頁(yè)的網(wǎng)頁(yè)分塊A內(nèi)的第一個(gè)位置。舉個(gè)例子,通過(guò)步驟S101獲取到百科詞條中已有的歌曲分類(lèi)集合T1,該歌曲分類(lèi)集合T1中包括幾萬(wàn)個(gè)已有詞條,例如{因?yàn)閻?ài)情,愛(ài)你痛到不知痛,等等...}。通過(guò)搜索找到包含歌曲分類(lèi)集合T1中已有詞條的錨文本,例如,利用已有詞條“因?yàn)閻?ài)情”進(jìn)行搜索,在http://ting.baidu.com網(wǎng)頁(yè)中找到錨文本“因?yàn)閻?ài)情”,如圖3所示,記錄該錨文本“因?yàn)閻?ài)情”所在的網(wǎng)頁(yè)分塊以及網(wǎng)頁(yè)位置。或者,在進(jìn)行搜索包含所述已有詞條的錨文本時(shí),也可以先獲取互聯(lián)網(wǎng)上每個(gè)網(wǎng)頁(yè)的所有錨文本,再利用各分類(lèi)的已有詞條集合進(jìn)行匹配,找出能夠匹配的錨文本,記錄該些錨文本所在的網(wǎng)頁(yè)、網(wǎng)頁(yè)分塊以及網(wǎng)頁(yè)位置。步驟S103、根據(jù)所記錄的網(wǎng)頁(yè)位置,在相應(yīng)的位置提取與所述已有詞條的錨文本之間的上下文距離滿(mǎn)足預(yù)設(shè)要求的錨文本。對(duì)于所記錄的已有詞條的錨文本的網(wǎng)頁(yè)位置,提取與該網(wǎng)頁(yè)位置上下文距離滿(mǎn)足要求的錨文本作為詞條。其中,所述上下文距離滿(mǎn)足預(yù)設(shè)要求可以包括:所提取的錨文本所在的網(wǎng)頁(yè)分塊與已有詞條的錨文本所在的網(wǎng)頁(yè)分塊相同。如圖2中的錨文本1和錨文本3所在的網(wǎng)頁(yè)分塊相同,但錨文本1和錨文本5則處于不同的網(wǎng)頁(yè)分塊中。如果錨文本1為已有詞條的錨文本,則可以提取到滿(mǎn)足要求的錨文本為:錨文本2和錨文本3。具體地,可以根據(jù)頁(yè)面布局標(biāo)簽確定錨文本所在的網(wǎng)頁(yè)分塊,如頁(yè)面布局標(biāo)簽“<div></div>”和“<table></table>”等進(jìn)行判斷,確定是否處于相同的網(wǎng)頁(yè)分塊?;蛘?,也可以根據(jù)網(wǎng)頁(yè)視覺(jué)分塊等來(lái)確定同一網(wǎng)頁(yè)分塊?;蛘?,所提取的錨文本所在的網(wǎng)頁(yè)分塊與已有詞條的錨文本所在的網(wǎng)頁(yè)分塊相同,且所提取的錨文本與已有詞條的錨文本的間隔距離小于預(yù)設(shè)距離閾值。例如,圖3為利用已有詞條“因?yàn)閻?ài)情”搜索到的某個(gè)網(wǎng)頁(yè)分塊示意圖,在圖3中,“王菲”、“傷不起”、“王麟”、“最炫民族風(fēng)”、“鳳凰傳奇”、“新貴妃醉酒”、“愛(ài)的供養(yǎng)”等錨文本與已有詞條的錨文本“因?yàn)閻?ài)情”處于同一網(wǎng)頁(yè)分塊中,提取該些錨文本作為詞條。為了進(jìn)一步提高精度,在提取上下文距離滿(mǎn)足預(yù)設(shè)要求的錨文本,還對(duì)間隔距離有所限定。如果圖3中“新貴妃醉酒”、“愛(ài)的供養(yǎng)”等錨文本與已有詞條的錨文本“因?yàn)閻?ài)情”之間的間隔距離超過(guò)了預(yù)設(shè)距離閾值時(shí),則不提取該些錨文本。所述預(yù)設(shè)距離閾值根據(jù)實(shí)際需要進(jìn)行設(shè)定,比如10個(gè)字符以?xún)?nèi)。實(shí)施例二、圖4是本實(shí)施例提供的詞條的獲取方法流程圖,如圖4所示,該方法包括:步驟S401、獲取詞條庫(kù)中同一分類(lèi)的已有詞條集合。步驟S402、利用所獲取的已有詞條集合進(jìn)行搜索,得到包含所述已有詞條的錨文本,并記錄所述已有詞條的錨文本所在的網(wǎng)頁(yè)位置。步驟S403、根據(jù)所記錄的網(wǎng)頁(yè)位置,在相應(yīng)的位置提取與所述已有詞條的錨文本之間的上下文距離滿(mǎn)足預(yù)設(shè)要求的錨文本。上述步驟S401至S403與實(shí)施例一中的步驟S101至S103對(duì)應(yīng)相同,于此不再贅述。步驟S404、將所提取的錨文本與所述詞條庫(kù)進(jìn)行對(duì)比,得到未收錄的錨文本。由于提取到的錨文本很可能為已有詞條,因而,為了提高效率,對(duì)提取到的錨文本進(jìn)行過(guò)濾,將已有詞條過(guò)濾掉,以便后續(xù)僅對(duì)未收錄的錨文本進(jìn)行處理。如果圖3中的“牽手”、“背叛情歌”是已有詞條,則予以過(guò)濾掉。由于在某一個(gè)分類(lèi)下提取到的錨文本可能屬于其他分類(lèi),例如,圖3中可以提取到“王菲”、“王麟”等人物。因而,將提取到的錨文本與整個(gè)詞條庫(kù)進(jìn)行對(duì)比,去掉已存在于詞條庫(kù)中的錨文本,得到未收錄的錨文本。如果未收錄的錨文本屬于人物或其他預(yù)設(shè)相關(guān)分類(lèi)下的詞條,也予以保留,進(jìn)一步執(zhí)行步驟S405至S406。所述預(yù)設(shè)相關(guān)分類(lèi)是指具有關(guān)聯(lián)關(guān)系的分類(lèi),根據(jù)經(jīng)驗(yàn)設(shè)定,例如,歌曲分類(lèi)與人物、電影、娛樂(lè)等分類(lèi)具有關(guān)聯(lián)關(guān)系。值得說(shuō)明的是,在處理效率要求不高時(shí),也可以不執(zhí)行本步驟,或者,也可以在執(zhí)行步驟S406得到錨文本的權(quán)重或頻度之后再進(jìn)行識(shí)別是否為未收錄,以確定新詞條。此時(shí),以下步驟S405至S406則是對(duì)所提取的錨文本執(zhí)行。步驟S405、將未收錄的錨文本中不包含指定詞性的錨文本過(guò)濾掉。對(duì)于步驟S404得到的錨文本,通過(guò)分詞、詞性標(biāo)注技術(shù)過(guò)濾掉不包含指定詞性的錨文本,例如過(guò)濾掉不包含動(dòng)詞、名詞、形容詞等的錨文本。同時(shí),為了得到規(guī)范的詞條,還可以基于錨文本的長(zhǎng)度和包含的標(biāo)點(diǎn)符號(hào)進(jìn)行過(guò)濾,將不符合要求的錨文本過(guò)濾掉。當(dāng)然,本步驟也并非為必要的步驟。步驟S406、根據(jù)與所述已有詞條的錨文本之間的上下文距離計(jì)算所述未收錄的錨文本的權(quán)重,統(tǒng)計(jì)所述未收錄的錨文本在當(dāng)前分類(lèi)中出現(xiàn)的頻度,將頻度或權(quán)重滿(mǎn)足預(yù)設(shè)要求的錨文本識(shí)別為新詞條。統(tǒng)計(jì)步驟S405過(guò)濾后剩余的錨文本在當(dāng)前分類(lèi)中出現(xiàn)的頻度,即出現(xiàn)次數(shù),并計(jì)算步驟S405過(guò)濾后剩余的錨文本的權(quán)重,具體地,根據(jù)與所述已有詞條的錨文本之間的上下文距離計(jì)算錨文本的權(quán)重,包括:步驟S406_1、在同一網(wǎng)頁(yè)分塊中,確定所述未收錄的錨文本與已有詞條的錨文本的上下文距離。具體地,先確定所述未收錄的錨文本所在的網(wǎng)頁(yè)分塊中包含的已有詞條的錨文本。再計(jì)算所述未收錄的錨文本與獲取的各個(gè)已有詞條的錨文本之間的距離。其中,上下文距離d可以但不限于采用未收錄的錨文本與已有詞條之間間隔的字符串長(zhǎng)度來(lái)計(jì)算,不包括頁(yè)面布局標(biāo)簽、空格、回車(chē)等符號(hào)。最后,選取距離的最小值作為與已有詞條的上下文距離。例如,在同一個(gè)網(wǎng)頁(yè)分塊中有多個(gè)已有詞條的錨文本K1,K2,K3,…Kn,和多個(gè)未收錄的錨文本L1,L2,L3等,逐一對(duì)該網(wǎng)頁(yè)分塊中未收錄的錨文本,分別計(jì)算到K1~Kn的距離,將得出的距離最小值確定為該未收錄的錨文本與已有詞條的上下文距離。步驟S406_2、利用確定的上下文距離,計(jì)算在對(duì)應(yīng)的網(wǎng)頁(yè)分塊中所述未收錄的錨文本的權(quán)重。利用未收錄的錨文本與已有詞條的上下文距離,計(jì)算該未收錄的錨文本在各個(gè)網(wǎng)頁(yè)分塊中的權(quán)重。上下文距離越近,權(quán)重越大。權(quán)重計(jì)算公式可以但不限于采用:(公式1)如圖3中,在該網(wǎng)頁(yè)分塊中,利用已有詞條錨文本“因?yàn)閻?ài)情”計(jì)算未收錄錨文本“傷不起”的權(quán)重,具體為:上下文距離d=6,間隔的字符串包括“2,王麟,-,進(jìn)而得到權(quán)重為依次類(lèi)推,在記錄的各個(gè)網(wǎng)頁(yè)分塊中,計(jì)算在對(duì)應(yīng)分塊中的未收錄錨文本的權(quán)重。步驟S406_3、在整個(gè)當(dāng)前分類(lèi)下,將提取到的各個(gè)網(wǎng)頁(yè)分塊中計(jì)算得到的所述未收錄的錨文本的權(quán)重進(jìn)行求和,得到未收錄的錨文本的權(quán)重。在整個(gè)當(dāng)前分類(lèi)下,將步驟S406_2計(jì)算得到的在各個(gè)分塊中的未收錄錨文本的權(quán)重進(jìn)行加權(quán)求和,作為所述未收錄錨文本的權(quán)重。例如:將步驟S406_2計(jì)算得到各個(gè)網(wǎng)頁(yè)分塊中“傷不起”的權(quán)重求和得到“傷不起”的權(quán)重為295.4,判斷是否大于預(yù)設(shè)權(quán)重閾值。統(tǒng)計(jì)得到“傷不起”在歌曲分類(lèi)中出現(xiàn)了1442次,判斷是否大于預(yù)設(shè)頻次閾值。如果權(quán)重大于預(yù)設(shè)權(quán)重閾值或者出現(xiàn)頻次大于預(yù)設(shè)頻次閾值,則將該錨文本識(shí)別為新詞條。根據(jù)實(shí)際應(yīng)用場(chǎng)合可以設(shè)定需兩個(gè)條件同時(shí)滿(mǎn)足時(shí),才識(shí)別為新詞條。步驟S407、判斷是否獲取完詞條庫(kù)中的所有分類(lèi),如果是,則進(jìn)入步驟S408,輸出新詞條的識(shí)別結(jié)果,否則,返回步驟S401,獲取詞條庫(kù)中下一個(gè)分類(lèi)的已有詞條集合,直至取完所有分類(lèi),輸出結(jié)果。以上是對(duì)本發(fā)明所提供的方法進(jìn)行的詳細(xì)描述,下面對(duì)本發(fā)明提供的詞條的獲取裝置進(jìn)行詳細(xì)描述。實(shí)施例三圖5是本實(shí)施例提供的詞條的獲取裝置示意圖。如圖5所示,該裝置包括:已有詞條獲取模塊501,用于獲取詞條庫(kù)中同一分類(lèi)的已有詞條集合。所述詞條庫(kù)可以是百科詞條庫(kù)、輸入法詞條庫(kù)等分類(lèi)詞條庫(kù),在本發(fā)明中以百科詞條庫(kù)為例進(jìn)行說(shuō)明。所述分類(lèi)可以采用分類(lèi)詞條庫(kù)原有的各個(gè)類(lèi)別,包括:歌曲、電影、人物、自然、文化、地理、歷史、生活、社會(huì)、藝術(shù)、經(jīng)濟(jì)、科技、體育等類(lèi)別,或者,可以對(duì)已有詞條利用現(xiàn)有的分類(lèi)或聚類(lèi)方法(如貝葉斯分類(lèi)方法、決策樹(shù)方法、支持向量機(jī)SVM等)劃分的類(lèi)別。獲取詞條庫(kù)中同一分類(lèi)的已有詞條集合,逐一將詞條庫(kù)中各個(gè)分類(lèi)的已有詞條提供給搜索模塊502和提取模塊503執(zhí)行。搜索模塊502,用于利用已有詞條獲取模塊501獲取的已有詞條集合進(jìn)行搜索,得到包含所述已有詞條的錨文本,并記錄所述已有詞條的錨文本所在的網(wǎng)頁(yè)位置。在互聯(lián)網(wǎng)網(wǎng)頁(yè)中,利用獲取的已有詞條集合進(jìn)行搜索,得到包含已有詞條的錨文本,記錄該些錨文本及錨文本所在的網(wǎng)頁(yè)位置。錨文本所在的網(wǎng)頁(yè)位置可以包括:錨文本所在的網(wǎng)頁(yè)、錨文本所在的網(wǎng)頁(yè)分塊以及錨文本在網(wǎng)頁(yè)分塊中的位置。圖2是一個(gè)網(wǎng)頁(yè)及其包含的網(wǎng)頁(yè)分塊示意圖,如圖2所示,錨文本1所在的網(wǎng)頁(yè)位置為該網(wǎng)頁(yè)的網(wǎng)頁(yè)分塊A內(nèi)的第一個(gè)位置。舉個(gè)例子,通過(guò)已有詞條獲取模塊501獲取到百科詞條中已有的歌曲分類(lèi)集合T1,該歌曲分類(lèi)集合T1中包括幾萬(wàn)個(gè)已有詞條,例如{因?yàn)閻?ài)情,愛(ài)你痛到不知痛,等等...}。通過(guò)搜索找到包含歌曲分類(lèi)集合T1中已有詞條的錨文本,例如,利用已有詞條“因?yàn)閻?ài)情”進(jìn)行搜索,在http://ting.baidu.com網(wǎng)頁(yè)中找到錨文本“因?yàn)閻?ài)情”,如圖3所示,記錄該錨文本“因?yàn)閻?ài)情”所在的網(wǎng)頁(yè)分塊以及網(wǎng)頁(yè)位置?;蛘?,在進(jìn)行搜索包含所述已有詞條的錨文本時(shí),也可以先獲取互聯(lián)網(wǎng)上每個(gè)網(wǎng)頁(yè)的所有錨文本,再利用各分類(lèi)的已有詞條集合進(jìn)行匹配,找出能夠匹配的錨文本,記錄該些錨文本所在的網(wǎng)頁(yè)、網(wǎng)頁(yè)分塊以及網(wǎng)頁(yè)位置。提取模塊503,用于根據(jù)搜索模塊502記錄的網(wǎng)頁(yè)位置,在相應(yīng)的位置提取與所述已有詞條的錨文本之間的上下文距離滿(mǎn)足預(yù)設(shè)要求的錨文本。對(duì)于所記錄的已有詞條的錨文本的網(wǎng)頁(yè)位置,提取與該網(wǎng)頁(yè)位置上下文距離滿(mǎn)足要求的錨文本作為詞條。其中,所述上下文距離滿(mǎn)足預(yù)設(shè)要求可以包括:所提取的錨文本所在的網(wǎng)頁(yè)分塊與已有詞條的錨文本所在的網(wǎng)頁(yè)分塊相同。如圖2中的錨文本1和錨文本3所在的網(wǎng)頁(yè)分塊相同,但錨文本1和錨文本5則處于不同的網(wǎng)頁(yè)分塊中。如果錨文本1為已有詞條的錨文本,則可以提取到滿(mǎn)足要求的錨文本為:錨文本2和錨文本3。具體地,可以根據(jù)頁(yè)面布局標(biāo)簽確定錨文本所在的網(wǎng)頁(yè)分塊,如頁(yè)面布局標(biāo)簽“<div></div>”和“<table></table>”等進(jìn)行判斷,確定是否處于相同的網(wǎng)頁(yè)分塊?;蛘撸部梢愿鶕?jù)網(wǎng)頁(yè)視覺(jué)分塊等來(lái)確定同一網(wǎng)頁(yè)分塊。或者,所提取的錨文本所在的網(wǎng)頁(yè)分塊與已有詞條的錨文本所在的網(wǎng)頁(yè)分塊相同,且所提取的錨文本與已有詞條的錨文本的間隔距離小于預(yù)設(shè)距離閾值。例如,圖3為利用已有詞條“因?yàn)閻?ài)情”搜索到的某個(gè)網(wǎng)頁(yè)分塊示意圖,在圖3中,“王菲”、“傷不起”、“王麟”、“最炫民族風(fēng)”、“鳳凰傳奇”、“新貴妃醉酒”、“愛(ài)的供養(yǎng)”等錨文本與已有詞條的錨文本“因?yàn)閻?ài)情”處于同一網(wǎng)頁(yè)分塊中,提取該些錨文本作為詞條。為了進(jìn)一步提高精度,在提取上下文距離滿(mǎn)足預(yù)設(shè)要求的錨文本,還對(duì)間隔距離有所限定。如果圖3中“新貴妃醉酒”、“愛(ài)的供養(yǎng)”等錨文本與已有詞條的錨文本“因?yàn)閻?ài)情”之間的間隔距離超過(guò)了預(yù)設(shè)距離閾值時(shí),則不提取該些錨文本。所述預(yù)設(shè)距離閾值根據(jù)實(shí)際需要進(jìn)行設(shè)定,比如10個(gè)字符以?xún)?nèi)。實(shí)施例四、圖6是本實(shí)施例提供的詞條的獲取裝置示意圖,如圖6所示,該裝置包括:已有詞條獲取模塊601,用于獲取詞條庫(kù)中同一分類(lèi)的已有詞條集合。搜索模塊602,用于利用已有詞條獲取模塊601獲取的已有詞條集合進(jìn)行搜索,得到包含所述已有詞條的錨文本,并記錄所述已有詞條的錨文本所在的網(wǎng)頁(yè)位置。提取模塊603,用于根據(jù)搜索模塊602記錄的網(wǎng)頁(yè)位置,在相應(yīng)的位置提取與所述已有詞條的錨文本之間的上下文距離滿(mǎn)足預(yù)設(shè)要求的錨文本。上述模塊601至603與實(shí)施例三中的501至503的配置對(duì)應(yīng)相同,于此不再贅述。已有詞條過(guò)濾模塊604,用于將所提取的錨文本與所述詞條庫(kù)進(jìn)行對(duì)比,得到未收錄的錨文本。由于提取到的錨文本很可能為已有詞條,因而,為了提高效率,對(duì)提取到的錨文本進(jìn)行過(guò)濾,將已有詞條過(guò)濾掉,以便后續(xù)僅對(duì)未收錄的錨文本進(jìn)行處理。如果圖3中的“牽手”、“背叛情歌”是已有詞條,則予以過(guò)濾掉。由于在某一個(gè)分類(lèi)下提取到的錨文本可能屬于其他分類(lèi),例如,圖3中可以提取到“王菲”、“王麟”等人物。因而,將提取到的錨文本與整個(gè)詞條庫(kù)進(jìn)行對(duì)比,去掉已存在于詞條庫(kù)中的錨文本,得到未收錄的錨文本。如果未收錄的錨文本屬于人物或其他預(yù)設(shè)相關(guān)分類(lèi)下的詞條,也予以保留,供給后續(xù)詞性過(guò)濾模塊605和新詞條識(shí)別模塊606進(jìn)一步進(jìn)行處理。所述預(yù)設(shè)相關(guān)分類(lèi)是指具有關(guān)聯(lián)關(guān)系的分類(lèi),根據(jù)經(jīng)驗(yàn)設(shè)定,例如,歌曲分類(lèi)與人物、電影、娛樂(lè)等分類(lèi)具有關(guān)聯(lián)關(guān)系。值得說(shuō)明的是,在處理效率要求不高時(shí),也可以不設(shè)置本模塊,或者,也可以在新詞條識(shí)別模塊606中得到錨文本的權(quán)重或頻度之后再利用本模塊進(jìn)行識(shí)別是否為未收錄,以確定新詞條。此時(shí),詞性過(guò)濾模塊605和新詞條識(shí)別模塊606則是對(duì)所提取的錨文本執(zhí)行。詞性過(guò)濾模塊605,用于將未收錄的錨文本中不包含指定詞性的錨文本過(guò)濾掉。對(duì)于已有詞條過(guò)濾模塊604得到的錨文本,通過(guò)分詞、詞性標(biāo)注技術(shù)過(guò)濾掉不包含指定詞性的錨文本,例如過(guò)濾掉不包含動(dòng)詞、名詞、形容詞等的錨文本。同時(shí),為了得到規(guī)范的詞條,還可以基于錨文本的長(zhǎng)度和包含的標(biāo)點(diǎn)符號(hào)進(jìn)行過(guò)濾,將不符合要求的錨文本過(guò)濾掉。當(dāng)然,本模塊也并非為必要的模塊。新詞條識(shí)別模塊606,用于根據(jù)與所述已有詞條的錨文本之間的上下文距離計(jì)算所述未收錄的錨文本的權(quán)重,統(tǒng)計(jì)所述未收錄的錨文本在當(dāng)前分類(lèi)中出現(xiàn)的頻度,將頻度或權(quán)重滿(mǎn)足預(yù)設(shè)要求的錨文本識(shí)別為新詞條。統(tǒng)計(jì)詞性過(guò)濾模塊605過(guò)濾后剩余的錨文本在當(dāng)前分類(lèi)中出現(xiàn)的頻度,即出現(xiàn)次數(shù),并計(jì)算詞性過(guò)濾模塊605過(guò)濾后剩余的錨文本的權(quán)重,具體地,根據(jù)與所述已有詞條的錨文本之間的上下文距離計(jì)算錨文本的權(quán)重,包括:距離確定單元,用于在同一網(wǎng)頁(yè)分塊中,確定所述未收錄的錨文本與已有詞條的錨文本的上下文距離。具體地,距離確定單元先確定所述未收錄的錨文本所在的網(wǎng)頁(yè)分塊中包含的已有詞條的錨文本。再計(jì)算所述未收錄的錨文本與獲取的各個(gè)已有詞條的錨文本之間的距離。其中,上下文距離d可以但不限于采用未收錄的錨文本與已有詞條之間間隔的字符串長(zhǎng)度來(lái)計(jì)算,不包括頁(yè)面布局標(biāo)簽、空格、回車(chē)等符號(hào)。最后,距離確定單元選取距離的最小值作為與已有詞條的上下文距離。例如,在同一個(gè)網(wǎng)頁(yè)分塊中有多個(gè)已有詞條的錨文本K1,K2,K3,…Kn,和多個(gè)未收錄的錨文本L1,L2,L3等,逐一對(duì)該網(wǎng)頁(yè)分塊中未收錄的錨文本,分別計(jì)算到K1~Kn的距離,將得出的距離最小值確定為該未收錄的錨文本與已有詞條的上下文距離。權(quán)重計(jì)算單元,用于利用距離確定單元確定的上下文距離,計(jì)算在對(duì)應(yīng)的網(wǎng)頁(yè)分塊中所述未收錄的錨文本的權(quán)重。權(quán)重計(jì)算單元利用未收錄的錨文本與已有詞條的上下文距離,計(jì)算該未收錄的錨文本在各個(gè)網(wǎng)頁(yè)分塊中的權(quán)重,上下文距離越近,權(quán)重越大。權(quán)重計(jì)算公式可以但不限于采用公式1進(jìn)行計(jì)算。如圖3中,在該網(wǎng)頁(yè)分塊中,利用已有詞條錨文本“因?yàn)閻?ài)情”計(jì)算未收錄錨文本“傷不起”的權(quán)重,具體為:上下文距離d=6,間隔的字符串包括“2,王麟,-,進(jìn)而得到權(quán)重為依次類(lèi)推,在記錄的各個(gè)網(wǎng)頁(yè)分塊中,計(jì)算在對(duì)應(yīng)分塊中的未收錄錨文本的權(quán)重。加權(quán)單元,用于在整個(gè)當(dāng)前分類(lèi)下,將提取到的各個(gè)網(wǎng)頁(yè)分塊中計(jì)算得到的所述未收錄的錨文本的權(quán)重進(jìn)行求和,得到未收錄的錨文本的權(quán)重。在整個(gè)當(dāng)前分類(lèi)下,將權(quán)重計(jì)算單元計(jì)算得到的在各個(gè)分塊中的未收錄錨文本的權(quán)重進(jìn)行加權(quán)求和,作為所述未收錄錨文本的權(quán)重。例如:將權(quán)重計(jì)算單元計(jì)算得到各個(gè)網(wǎng)頁(yè)分塊中“傷不起”的權(quán)重求和得到“傷不起”的權(quán)重為295.4,判斷是否大于預(yù)設(shè)權(quán)重閾值。新詞條識(shí)別模塊606統(tǒng)計(jì)得到“傷不起”在歌曲分類(lèi)中出現(xiàn)了1442次,判斷是否大于預(yù)設(shè)頻次閾值。如果權(quán)重大于預(yù)設(shè)權(quán)重閾值或者出現(xiàn)頻次大于預(yù)設(shè)頻次閾值,則將該錨文本識(shí)別為新詞條。根據(jù)實(shí)際應(yīng)用場(chǎng)合可以設(shè)定需兩個(gè)條件同時(shí)滿(mǎn)足時(shí),才識(shí)別為新詞條。判斷模塊607,用于判斷是否獲取完詞條庫(kù)中的所有分類(lèi),如果是,則進(jìn)入結(jié)果輸出模塊608,輸出新詞條的識(shí)別結(jié)果,否則,返回至已有詞條獲取模塊601,獲取詞條庫(kù)中下一個(gè)分類(lèi)的已有詞條集合,直至取完所有分類(lèi),輸出結(jié)果。本發(fā)明提供的詞條的獲取方法和裝置,用已有詞庫(kù)挖掘?qū)嶓w詞條,提供尚未創(chuàng)建的新詞條,可指導(dǎo)用戶(hù)創(chuàng)建新詞條對(duì)應(yīng)的知識(shí),解決百科數(shù)據(jù)庫(kù)中實(shí)體詞條收錄不足的問(wèn)題,有利于完善結(jié)構(gòu)化的數(shù)據(jù)資料(實(shí)體詞條-屬性名-屬性值),便于實(shí)現(xiàn)更有效的知識(shí)搜索。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。當(dāng)前第1頁(yè)1 2 3 
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1