一種實體信息圖譜生成方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理技術(shù),特別涉及一種實體信息圖譜生成方法及相關(guān)的裝 置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展,人們面臨著信息爆炸,海量信息分散在互聯(lián)網(wǎng)上,具有碎 片化,多語言和國際化的性質(zhì)?;ヂ?lián)網(wǎng)實際上就像是一個巨大的圖書館,每臺連接在網(wǎng)絡(luò)上 的機算機就像一個個書柜,這個圖書館是沒有目錄,是動態(tài)的,飛速增加的。目前搜索引擎 所作的工作僅僅是按照用戶的關(guān)鍵詞給出包含用戶所查詢的關(guān)鍵詞相關(guān)書本的位置,找出 圖書館中書本的位置,人們往往被淹沒在信息的海洋之中。
[0003] 由于網(wǎng)絡(luò)的飛速發(fā)展使得互聯(lián)網(wǎng)信息的傳播速度呈現(xiàn)幾何增長,現(xiàn)有的信息搜集 手段不能滿足對于信息的需要。傳統(tǒng)的搜索引擎大致可以分為兩大類:全文搜索引擎和分 類目錄。全文搜索引擎通過Spider/crawlers的軟件,自動分析網(wǎng)絡(luò)上的各種鏈接并獲取 網(wǎng)頁信息內(nèi)容,按規(guī)則加以分析整理,記入數(shù)據(jù)庫。谷歌、百度就是比較典型的全文搜索引 擎系統(tǒng)。分類目錄則是通過人工的方式收集整理網(wǎng)站資料形成數(shù)據(jù)庫的,比如雅虎中國以 及國內(nèi)的搜狐、新浪、網(wǎng)易分類目錄。
[0004] 全文搜索引擎的使用以關(guān)鍵詞和一定的語法為特點,而分類目錄則通過建立多級 目錄對網(wǎng)站進行分類。全文搜索引擎因為依靠網(wǎng)絡(luò)機器人搜集數(shù)據(jù),所以數(shù)據(jù)庫的容量非 常龐大,但是,它的查詢結(jié)果往往不夠準確;分類目錄依靠人工收集和整理網(wǎng)站,能夠提供 更為準確的查詢結(jié)果,但收集的內(nèi)容卻非常有限,更新慢。
[0005] 具體地,現(xiàn)有的互聯(lián)網(wǎng)信息搜索技術(shù)(例如百度和谷歌)存在著以下不足:
[0006] 1.搜索引擎召回的相關(guān)信息太多,用戶很難定位到所需要的信息;
[0007] 2.以關(guān)鍵詞為基礎(chǔ)的搜索,匹配算法盡管簡單易行,但停留在語言的表層,沒有觸 及語義,很難以幾個關(guān)鍵詞的邏輯組合來表達清楚用戶的檢索意圖;
[0008] 3.既使得到了正確的結(jié)果,也僅僅是各個獨立的文章鏈接,需要用戶一一瀏覽;
[0009] 4.不能提供文章之間的實體事物關(guān)聯(lián)以及時間關(guān)聯(lián)性,揭示事物內(nèi)部聯(lián)系和關(guān) 系。
[0010] 互聯(lián)網(wǎng)的發(fā)展已經(jīng)成為一個巨大的知識庫,可是由于多數(shù)信息都是以非結(jié)構(gòu)化數(shù) 據(jù)存在,人們無法組織利用這一知識成果,所以空擁有信息,沒有知識。
[0011] 隨著信息化的飛速發(fā)展和互聯(lián)網(wǎng)接入終端的大規(guī)模普及,大量非結(jié)構(gòu)化的文本數(shù) 據(jù)充斥著互聯(lián)網(wǎng),如何從海量信息源中挖掘出有價值的信息是一個巨大的挑戰(zhàn)。
【發(fā)明內(nèi)容】
[0012] 本發(fā)明的目的在于提供一種實體信息圖譜生成方法及裝置,能更好地通過挖掘有 用信息從而形成實體信息圖譜。
[0013] 根據(jù)本發(fā)明的一個方面,提供了一種實體信息圖譜生成方法,包括:
[0014] 從本地和/或網(wǎng)絡(luò)中采集文本文件;
[0015] 根據(jù)預(yù)先定義的類別名和關(guān)系字,從所采集的各文本文件中分別抽取與各個類別 名相關(guān)的命名實體,以及與各個關(guān)系字相關(guān)的命名實體的屬性;
[0016] 根據(jù)命名實體的屬性,對所采集的各文本文件中的命名實體分別進行關(guān)聯(lián)性處 理,得到各個命名實體之間的實體關(guān)系;
[0017] 根據(jù)預(yù)定義事件名,查找與其有關(guān)的命名實體,并將預(yù)定義事件名與查找到的命 名實體進行綁定;
[0018] 以所述預(yù)定義事件名為線索,根據(jù)所抽取的命名實體以及所述實體關(guān)系,通過將 分散在所述各個文本文件中相關(guān)信息建立映射,使其聚合在一起,形成實體信息圖譜。
[0019] 優(yōu)選地,所述的根據(jù)預(yù)先定義的類別名和關(guān)系字,從所采集的各文本文件中分別 抽取與各個類別名相關(guān)的命名實體,以及與各個關(guān)系字相關(guān)的命名實體的屬性的步驟包 括:
[0020] 通過對從本地和/或網(wǎng)絡(luò)中采集的文本文件進行分解,得到文本文件的分詞及其 詞性;
[0021] 根據(jù)所得到的分詞及其詞性,從所得到的分詞中確定與預(yù)先定義的各個類別名相 關(guān)的命名實體,并確定與預(yù)先定義的各個關(guān)系字相關(guān)的所述命名實體的關(guān)系屬性;
[0022] 提取所確定的命名實體,以及命名實體的關(guān)系屬性。
[0023] 優(yōu)選地,在所述的根據(jù)預(yù)先定義的類別名和關(guān)系字,從所采集的各文本文件中分 別抽取與各個類別名相關(guān)的命名實體,以及與各個關(guān)系字相關(guān)的命名實體的屬性的步驟之 后,還包括:
[0024] 將各文本文件中分別抽取的與時間相關(guān)的命名實體進行歸一化處理,得到時間歸 一化的命名實體;
[0025] 將各文本文件中分別抽取的與地點相關(guān)的命名實體進行歸一化處理,得到地點歸 一化的命名實體。
[0026] 優(yōu)選地,所述的根據(jù)命名實體的屬性,對所采集的各文本文件中的命名實體分別 進行關(guān)聯(lián)性處理,得到各個命名實體之間的實體關(guān)系的步驟包括:
[0027] 在所采集的各文本文件中,確定命名實體及其關(guān)系屬性在文本文件中的位置;
[0028] 利用所確定的命名實體及其關(guān)系屬性在文本文件中的位置,將鄰近的命名實體進 行關(guān)聯(lián),從而得到相關(guān)聯(lián)的命名實體之間的實體關(guān)系。
[0029] 優(yōu)選地,所述的根據(jù)預(yù)定義事件名,查找與其有關(guān)的命名實體的步驟包括:
[0030] 在所采集的各文本文件中,確定預(yù)定義事件名在文本文件中的位置;
[0031] 利用所述預(yù)定義事件名在文本文件中的位置,從已抽取的命名實體中查找與所述 預(yù)定義事件名有關(guān)的命名實體。
[0032] 優(yōu)選地,所述的以預(yù)定義事件名為線索,根據(jù)所抽取的命名實體以及所述實體關(guān) 系,通過將分散在所述各個文本文件中相關(guān)信息建立映射,使其聚合在一起,形成實體信息 圖譜的步驟包括:
[0033] 根據(jù)抽取的命名實體、命名實體之間的實體關(guān)系、與命名實體綁定的預(yù)定義事件 名,將分散在同一文本文件中的相應(yīng)信息建立映射,形成同一文本文件的具有不同命名的 各個實體概覽;
[0034] 通過對各個文本文件的實體概覽進行消歧處理,將各個文本文件中的具有相同命 名的實體概覽進行合并,從而將分散在各個文本文件中的相關(guān)信息建立映射,形成跨文本 的各個全局實體概覽;
[0035] 利用所形成的跨文本的各個全局實體概覽,形成實體信息圖譜。
[0036] 優(yōu)選地,所述實體概覽包括事件類概覽和命名實體類概覽,在同一文本文件中,利 用預(yù)定義事件名與所找到的命名實體的綁定關(guān)系,形成事件類概覽,利用所述命名實體及 相應(yīng)的實體關(guān)系,形成命名實體類概覽。
[0037] 優(yōu)選地,通過確定具有相同命名的實體概覽的相似度,對各個文本文件的實體概 覽進行消歧處理。
[0038] 優(yōu)選地,通過將各個全局實體概覽的命名實體作為節(jié)點,將各個全局實體概覽的 實體關(guān)系作為邊,形成所述實體信息圖譜。
[0039] 根據(jù)本發(fā)明的另一方面,提供了一種實體信息圖譜生成裝置,包括:
[0040] 采集模塊,用于從本地和/或網(wǎng)絡(luò)中采集文本文件;
[0041] 抽取模塊,用于根據(jù)預(yù)先定義的類別名和關(guān)系字,從所采集的各文本文件中分別 抽取與各個類別名相關(guān)的命名實體,以及與各個關(guān)系字相關(guān)的命名實體的屬性;
[0042] 關(guān)聯(lián)模塊,用于根據(jù)命名實體的屬性,對所采集的各文本文件中的命名實體分別 進行關(guān)聯(lián)性處理,得到各個命名實體之間的實體關(guān)系;
[0043] 綁定模塊,用于根據(jù)預(yù)定義事件名,查找與其有關(guān)的命名實體,并將預(yù)定義事件名 與查找到的命名實體進行綁定;
[0044] 聚合模塊,用于以所述預(yù)定義事件名為線索,根據(jù)所抽取的命名實體以及所述實 體關(guān)系,通過將所分散在所述各個文本文件中相關(guān)信息建立映射,使其聚合在一起,形成實 體信息圖譜。
[0045] 與現(xiàn)有技術(shù)相比較,本發(fā)明的有益效果在于:
[0046] 本發(fā)明能夠?qū)⒎墙Y(jié)構(gòu)化文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),及時、大量、準確的獲取用戶 需