1.一種人物信息知識庫自動構(gòu)建方法,其特征在于,包括:
步驟1、構(gòu)建人物信息本體:搜集數(shù)據(jù),分析人物分類、人物屬性、人物關(guān)系的特點,人物個體展示的特征,結(jié)合本體的構(gòu)建、存儲、表示方式來構(gòu)建人物信息本體框架;
步驟2、完善人物信息本體:根據(jù)需要從各類百科、新聞以及已存在的人物資源庫中抽取人物相關(guān)數(shù)據(jù),進行解析處理后來對本體實例化,創(chuàng)建本體中的人物個體以及形成初始的人物信息本體;
步驟3、抓取外部資源解析:不斷抓取外部動態(tài)更新、可靠的數(shù)據(jù)源進行解析,利用人物特征數(shù)據(jù)、分類數(shù)據(jù)識別與人物信息本體中人物個體相關(guān)的信息數(shù)據(jù);
步驟4、更新完善人物信息本體:利用抽取的數(shù)據(jù)進行處理,獲取人物信息對人物信息本體進行完善;
步驟5、提供人物信息知識服務(wù):利用不斷完善的人物信息本體來提供可靠的知識服務(wù)。
2.如權(quán)利要求1所述的人物信息知識庫自動構(gòu)建方法,其特征在于,所述步驟2包括:
步驟21、從互聯(lián)網(wǎng)頁抓取原始數(shù)據(jù),原始數(shù)據(jù)包含網(wǎng)頁標簽、廣告,對原始數(shù)據(jù)進行解析處理獲取初始數(shù)據(jù);
步驟22、根據(jù)解析后的初始數(shù)據(jù)結(jié)合本體的基本結(jié)構(gòu)、網(wǎng)頁的結(jié)構(gòu)來實例化本體,創(chuàng)建本體中的人物個體;
步驟23、根據(jù)實例化的結(jié)果對本體進行維護調(diào)整,利用構(gòu)建數(shù)據(jù),形成人物基本信息、人物信息抽取規(guī)則庫、人物特征數(shù)據(jù)和分類數(shù)據(jù)。
3.如權(quán)利要求2所述的人物信息知識庫自動構(gòu)建方法,其特征在于,在步驟23中,人物基本信息用于提供知識服務(wù),后期會進行不斷更新完善;人物信息抽取規(guī)則庫由獲取的人物信息進行機器學習,不斷進行學習完善,用于后續(xù)從無結(jié)構(gòu)化的文本中抽取人物基本信息;人物的特征數(shù)據(jù)用于對多個重名人物進行消歧計算,區(qū)分重名人物;分類數(shù)據(jù)用于對后續(xù)的無分類的數(shù)據(jù)進行歸類,輔助重名人物消歧以及后續(xù)的新創(chuàng)建的人物個體歸類。
4.如權(quán)利要求1所述的人物信息知識庫自動構(gòu)建方法,其特征在于,所述步驟3包括:
步驟31、定時或者觸發(fā)式地抓取網(wǎng)頁數(shù)據(jù),并解析抽取其中的數(shù)據(jù);
步驟32、利用初始的人物信息本體,對定時解析抽取的數(shù)據(jù)進行過濾,人物識別,識別出與人物信息本體有關(guān)的數(shù)據(jù)。
5.如權(quán)利要求1所述的人物信息知識庫自動構(gòu)建方法,其特征在于,所述步驟4包括:
步驟41、對抽取的數(shù)據(jù)進行分類、過濾、去重;
步驟42、根據(jù)已有信息和設(shè)定的數(shù)據(jù)對獲取的信息進行評價,獲取最終的信息;
步驟43、根據(jù)評價的結(jié)果,將獲取的信息補充人物信息本體中,或者利用可信度評價高的信息替換掉可信度較低的信息。
6.如權(quán)利要求1所述的人物信息知識庫自動構(gòu)建方法,其特征在于,在步驟5中,可靠的知識服務(wù)包括:提供人物基本信息服務(wù),提供人物關(guān)系擴展服務(wù),提供相似人物擴展服務(wù),提供簡單規(guī)則查詢的知識服務(wù)和提供人物動態(tài)的時間軸。