本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,尤其涉及一種人物信息知識庫自動構(gòu)建方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)規(guī)模的越來越龐大,如今在互聯(lián)網(wǎng)上進(jìn)行信息檢索時,不再是能不能找到自己想要的內(nèi)容的問題,而是能不能快速準(zhǔn)決找到自己想要的人物的問題。
人物作為社會活動的主體,很多時候需要了解一個人物的相關(guān)信息,比如撰寫人物相關(guān)的信息。但是互聯(lián)網(wǎng)信息來源過于繁雜,個人媒體時代的爆發(fā)性增長的信息都是主觀的信息,缺乏一定的客觀公正性,準(zhǔn)確性也不能得到保障,對人物的信息準(zhǔn)確獲取形成了一定的干擾。目前搜集新聞人物相關(guān)信息主要來源于人物相關(guān)官方網(wǎng)站、相關(guān)新聞報道等,缺乏人物信息的知識庫,通過搜索引擎來進(jìn)行人物相關(guān)新聞的檢索,結(jié)果含有大量的干擾項,需要人工地在眾多匹配結(jié)果中篩選人物相關(guān)的新聞信息,效率相對低下。例如:利用百度搜索“張偉”的新聞,顯示相關(guān)新聞約有138000篇,其中前3頁共計60條記錄中,就出現(xiàn)了23個不同的人物,不僅包含了數(shù)學(xué)家“張偉”、經(jīng)濟(jì)分析師“張偉”、記者“張偉”等還包括類似“張偉麗”、“張偉華”、“大張偉”等人物的新聞。因此有必要建立一個自動化的人物資料庫,提供人物豐富的、準(zhǔn)確的信息。
目前缺少一個完善的人物信息的知識庫,對人物的認(rèn)知主要來源于百科知識庫、新聞報道以及一些自媒體平臺。在進(jìn)行人物信息的檢索時,每次都需要耗費大量的時間去搜集人物相關(guān)的資料、信息,還需要對這些搜集的內(nèi)容進(jìn)行人工審核,去除重復(fù)、可信度低、有歧義的內(nèi)容。
目前構(gòu)建比較好的人物信息知識庫主要是一些網(wǎng)絡(luò)百科知識庫,如百度百科、維基百科、互動百科等。這些百科知識庫,將人物作為一個知識詞條,由互聯(lián)網(wǎng)用戶自發(fā)參與到人物信息的編撰,完善過程中。但是這種方式主要依賴于大眾的自發(fā)參與,詞條的準(zhǔn)確度、可靠性、全面性不能保證,經(jīng)常出現(xiàn)人物關(guān)注度下降以后,這些人物的信息就會缺乏更新維護(hù)的動力停止信息更新。
目前對人物信息描述比較準(zhǔn)確的主要是各大新聞網(wǎng)站,但是這些網(wǎng)站對人物新聞信息的報道不是連續(xù)的,依賴于社會新聞關(guān)注的變化,對人物信息的內(nèi)容也會變化,一般對人物信息的內(nèi)容也不是很全面。并且很多新聞網(wǎng)站經(jīng)常對人物信息的內(nèi)容進(jìn)行交叉引用,因此會出現(xiàn)重復(fù)性的內(nèi)容。另外新聞網(wǎng)站對人物新聞的內(nèi)容描述具有時效性,很少形成人物連續(xù)的新聞報道。
技術(shù)實現(xiàn)要素:
針對上述問題中存在的不足之處,本發(fā)明提供一種人物信息知識庫自動構(gòu)建方法。
為實現(xiàn)上述目的,本發(fā)明提供一種人物信息知識庫自動構(gòu)建方法,包括:
步驟1、構(gòu)建人物信息本體:搜集數(shù)據(jù),分析人物分類、人物屬性、人物關(guān)系的特點,人物個體展示的特征,結(jié)合本體的構(gòu)建、存儲、表示方式來構(gòu)建人物信息本體框架;
步驟2、完善人物信息本體:根據(jù)需要從各類百科、新聞以及已存在的人物資源庫中抽取人物相關(guān)數(shù)據(jù),進(jìn)行解析處理后來對本體實例化,創(chuàng)建本體中的人物個體以及形成初始的人物信息本體;
步驟3、抓取外部資源解析:不斷抓取外部動態(tài)更新、可靠的數(shù)據(jù)源進(jìn)行解析,利用人物特征數(shù)據(jù)、分類數(shù)據(jù)識別與人物信息本體中人物個體相關(guān)的信息數(shù)據(jù);
步驟4、更新完善人物信息本體:利用抽取的數(shù)據(jù)進(jìn)行處理,獲取人物信息對人物信息本體進(jìn)行完善;
步驟5、提供人物信息知識服務(wù):利用不斷完善的人物信息本體來提供可靠的知識服務(wù)。
作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟2包括:
步驟21、從互聯(lián)網(wǎng)頁抓取原始數(shù)據(jù),原始數(shù)據(jù)包含網(wǎng)頁標(biāo)簽、廣告,對原始數(shù)據(jù)進(jìn)行解析處理獲取初始數(shù)據(jù);
步驟22、根據(jù)解析后的初始數(shù)據(jù)結(jié)合本體的基本結(jié)構(gòu)、網(wǎng)頁的結(jié)構(gòu)來實例化本體,創(chuàng)建本體中的人物個體;
步驟23、根據(jù)實例化的結(jié)果對本體進(jìn)行維護(hù)調(diào)整,利用構(gòu)建數(shù)據(jù),形成人物基本信息、人物信息抽取規(guī)則庫、人物特征數(shù)據(jù)和分類數(shù)據(jù)。
作為本發(fā)明的進(jìn)一步改進(jìn),在步驟23中,人物基本信息用于提供知識服務(wù),后期會進(jìn)行不斷更新完善;人物信息抽取規(guī)則庫由獲取的人物信息進(jìn)行機(jī)器學(xué)習(xí),不斷進(jìn)行學(xué)習(xí)完善,用于后續(xù)從無結(jié)構(gòu)化的文本中抽取人物基本信息;人物的特征數(shù)據(jù)用于對多個重名人物進(jìn)行消歧計算,區(qū)分重名人物;分類數(shù)據(jù)用于對后續(xù)的無分類的數(shù)據(jù)進(jìn)行歸類,輔助重名人物消歧以及后續(xù)的新創(chuàng)建的人物個體歸類。
作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟3包括:
步驟31、定時或者觸發(fā)式地抓取網(wǎng)頁數(shù)據(jù),并解析抽取其中的數(shù)據(jù);
步驟32、利用初始的人物信息本體,對定時解析抽取的數(shù)據(jù)進(jìn)行過濾,人物識別,識別出與人物信息本體有關(guān)的數(shù)據(jù)。
作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟4包括:
步驟41、對抽取的數(shù)據(jù)進(jìn)行分類、過濾、去重;
步驟42、根據(jù)已有信息和設(shè)定的數(shù)據(jù)對獲取的信息進(jìn)行評價,獲取最終的信息;
步驟43、根據(jù)評價的結(jié)果,將獲取的信息補(bǔ)充人物信息本體中,或者利用可信度評價高的信息替換掉可信度較低的信息。
作為本發(fā)明的進(jìn)一步改進(jìn),在步驟5中,可靠的知識服務(wù)包括:提供人物基本信息服務(wù),提供人物關(guān)系擴(kuò)展服務(wù),提供相似人物擴(kuò)展服務(wù),提供簡單規(guī)則查詢的知識服務(wù)和提供人物動態(tài)的時間軸。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
本發(fā)明公開的一種人物信息知識庫自動構(gòu)建方法,其主要利用現(xiàn)有的資源,結(jié)合計算機(jī)技術(shù)和本體概念構(gòu)建完善人物知識庫,從而提供人物信息的知識服務(wù),從而解決公眾人物信息檢索時遇到的人物信息不夠條理,人物新聞重復(fù)、因人名相同產(chǎn)生歧義等問題。
附圖說明
圖1為本發(fā)明一種實施例公開的人物信息知識庫自動構(gòu)建方法的流程圖;
圖2為本發(fā)明一種實施例公開的人物信息本體框架圖。
具體實施方式
為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明的一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
下面結(jié)合附圖對本發(fā)明做進(jìn)一步的詳細(xì)描述:
如圖1所示,本發(fā)明提供一種人物信息知識庫自動構(gòu)建方法,包括:
步驟1、構(gòu)建人物信息本體:需要搜集數(shù)據(jù),分析人物分類、人物屬性、人物關(guān)系的特點以及人物個體展示的特征,結(jié)合本體的構(gòu)建、存儲、表示方式來構(gòu)建人物信息本體框架,人物信息本體框架如圖2所示。
步驟2、完善人物信息本體:需要根據(jù)需要從各類百科、新聞以及已存在的人物資源庫中抽取人物相關(guān)數(shù)據(jù),對數(shù)據(jù)進(jìn)行解析處理后來對本體實例化,創(chuàng)建本體中的人物個體以及形成初始的人物信息本體;其中:
a、從比較規(guī)則的互聯(lián)網(wǎng)頁抓取的原始數(shù)據(jù),原始數(shù)據(jù)包含網(wǎng)頁標(biāo)簽、廣告等內(nèi)容,需要解析處理獲取初始數(shù)據(jù);
b、根據(jù)解析的數(shù)據(jù)結(jié)合本體的基本結(jié)構(gòu)、網(wǎng)頁的結(jié)構(gòu)來實例化本體,創(chuàng)建本體中的人物個體;
c、根據(jù)實例化的結(jié)果對本體進(jìn)行維護(hù)調(diào)整,利用構(gòu)建數(shù)據(jù),形成人物基本信息、人物信息抽取規(guī)則庫、人物特征數(shù)據(jù)、分類數(shù)據(jù)等。其中,人物的基本信息用于提供知識服務(wù),后期會進(jìn)行不斷更新完善。人物信息抽取規(guī)則庫由獲取的人物信息進(jìn)行機(jī)器學(xué)習(xí),不斷進(jìn)行學(xué)習(xí)完善,用于后續(xù)從無結(jié)構(gòu)化的文本中抽取人物基本信息。人物的特征數(shù)據(jù)用于對多個重名人物進(jìn)行消歧計算,區(qū)分重名人物。分類數(shù)據(jù)用于對后續(xù)的無分類的數(shù)據(jù)進(jìn)行歸類,輔助重名人物消歧以及后續(xù)的新創(chuàng)建的人物個體歸類。
步驟3、抓取外部資源解析:需要不斷抓取外部動態(tài)更新、可靠的數(shù)據(jù)源如新聞、認(rèn)證微博等數(shù)據(jù),進(jìn)行解析;利用人物特征數(shù)據(jù)、分類數(shù)據(jù)識別與人物信息本體中人物個體相關(guān)的信息數(shù)據(jù);其中:
a、定時或者觸發(fā)式地抓取網(wǎng)頁數(shù)據(jù),并解析抽取其中的數(shù)據(jù);
b、利用初始的人物信息本體,對定時解析抽取的數(shù)據(jù)進(jìn)行過濾,人物識別,識別出與人物信息本體有關(guān)的數(shù)據(jù)。
步驟4、更新完善人物信息本體:利用抽取的數(shù)據(jù)進(jìn)行處理,獲取人物信息對人物信息本體進(jìn)行完善;其中;
a、需要對抽取的數(shù)據(jù)進(jìn)行分類、過濾、去重;
b、需要根據(jù)已有信息和設(shè)定的數(shù)據(jù)對獲取的信息進(jìn)行評價,獲取最終的信息;
c、根據(jù)評價的結(jié)果,將獲取的信息補(bǔ)充人物信息本體中,或者利用可信度評價高的信息替換掉可信度較低的信息。
步驟5、提供人物信息知識服務(wù):利用不斷完善的人物信息本體來提供可靠的知識服務(wù);其中,可靠的知識服務(wù)包括:提供人物基本信息服務(wù),提供人物關(guān)系擴(kuò)展服務(wù),提供相似人物擴(kuò)展服務(wù),提供簡單規(guī)則查詢的知識服務(wù)和提供人物動態(tài)的時間軸。
本發(fā)明公開的一種人物信息知識庫自動構(gòu)建方法,其主要利用現(xiàn)有的資源,結(jié)合計算機(jī)技術(shù)和本體概念構(gòu)建完善人物知識庫,從而提供人物信息的知識服務(wù),從而解決公眾人物信息檢索時遇到的人物信息不夠條理,人物新聞重復(fù)、因人名相同產(chǎn)生歧義等問題。
以上僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。