一種實體信息圖譜生成方法及裝置的制造方法

文檔序號：9708305閱讀：216來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種實體信息圖譜生成方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理技術(shù)，特別涉及一種實體信息圖譜生成方法及相關(guān)的裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展，人們面臨著信息爆炸，海量信息分散在互聯(lián)網(wǎng)上，具有碎片化，多語言和國際化的性質(zhì)?；ヂ?lián)網(wǎng)實際上就像是一個巨大的圖書館，每臺連接在網(wǎng)絡(luò)上的機算機就像一個個書柜，這個圖書館是沒有目錄，是動態(tài)的，飛速增加的。目前搜索引擎所作的工作僅僅是按照用戶的關(guān)鍵詞給出包含用戶所查詢的關(guān)鍵詞相關(guān)書本的位置，找出圖書館中書本的位置，人們往往被淹沒在信息的海洋之中。
[0003] 由于網(wǎng)絡(luò)的飛速發(fā)展使得互聯(lián)網(wǎng)信息的傳播速度呈現(xiàn)幾何增長，現(xiàn)有的信息搜集手段不能滿足對于信息的需要。傳統(tǒng)的搜索引擎大致可以分為兩大類：全文搜索引擎和分類目錄。全文搜索引擎通過Spider/crawlers的軟件，自動分析網(wǎng)絡(luò)上的各種鏈接并獲取網(wǎng)頁信息內(nèi)容，按規(guī)則加以分析整理，記入數(shù)據(jù)庫。谷歌、百度就是比較典型的全文搜索引擎系統(tǒng)。分類目錄則是通過人工的方式收集整理網(wǎng)站資料形成數(shù)據(jù)庫的，比如雅虎中國以及國內(nèi)的搜狐、新浪、網(wǎng)易分類目錄。
[0004] 全文搜索引擎的使用以關(guān)鍵詞和一定的語法為特點，而分類目錄則通過建立多級目錄對網(wǎng)站進行分類。全文搜索引擎因為依靠網(wǎng)絡(luò)機器人搜集數(shù)據(jù)，所以數(shù)據(jù)庫的容量非常龐大，但是，它的查詢結(jié)果往往不夠準確；分類目錄依靠人工收集和整理網(wǎng)站，能夠提供更為準確的查詢結(jié)果，但收集的內(nèi)容卻非常有限，更新慢。
[0005] 具體地，現(xiàn)有的互聯(lián)網(wǎng)信息搜索技術(shù)（例如百度和谷歌）存在著以下不足：
[0006] 1.搜索引擎召回的相關(guān)信息太多，用戶很難定位到所需要的信息；
[0007] 2.以關(guān)鍵詞為基礎(chǔ)的搜索，匹配算法盡管簡單易行，但停留在語言的表層，沒有觸及語義，很難以幾個關(guān)鍵詞的邏輯組合來表達清楚用戶的檢索意圖；
[0008] 3.既使得到了正確的結(jié)果，也僅僅是各個獨立的文章鏈接，需要用戶一一瀏覽；
[0009] 4.不能提供文章之間的實體事物關(guān)聯(lián)以及時間關(guān)聯(lián)性，揭示事物內(nèi)部聯(lián)系和關(guān) 系。
[0010] 互聯(lián)網(wǎng)的發(fā)展已經(jīng)成為一個巨大的知識庫，可是由于多數(shù)信息都是以非結(jié)構(gòu)化數(shù) 據(jù)存在，人們無法組織利用這一知識成果，所以空擁有信息，沒有知識。
[0011] 隨著信息化的飛速發(fā)展和互聯(lián)網(wǎng)接入終端的大規(guī)模普及，大量非結(jié)構(gòu)化的文本數(shù) 據(jù)充斥著互聯(lián)網(wǎng)，如何從海量信息源中挖掘出有價值的信息是一個巨大的挑戰(zhàn)。

【發(fā)明內(nèi)容】

[0012] 本發(fā)明的目的在于提供一種實體信息圖譜生成方法及裝置，能更好地通過挖掘有用信息從而形成實體信息圖譜。
[0013] 根據(jù)本發(fā)明的一個方面，提供了一種實體信息圖譜生成方法，包括：
[0014] 從本地和/或網(wǎng)絡(luò)中采集文本文件；
[0015] 根據(jù)預(yù)先定義的類別名和關(guān)系字，從所采集的各文本文件中分別抽取與各個類別名相關(guān)的命名實體，以及與各個關(guān)系字相關(guān)的命名實體的屬性；
[0016] 根據(jù)命名實體的屬性，對所采集的各文本文件中的命名實體分別進行關(guān)聯(lián)性處理，得到各個命名實體之間的實體關(guān)系；
[0017] 根據(jù)預(yù)定義事件名，查找與其有關(guān)的命名實體，并將預(yù)定義事件名與查找到的命名實體進行綁定；
[0018] 以所述預(yù)定義事件名為線索，根據(jù)所抽取的命名實體以及所述實體關(guān)系，通過將分散在所述各個文本文件中相關(guān)信息建立映射，使其聚合在一起，形成實體信息圖譜。
[0019] 優(yōu)選地，所述的根據(jù)預(yù)先定義的類別名和關(guān)系字，從所采集的各文本文件中分別抽取與各個類別名相關(guān)的命名實體，以及與各個關(guān)系字相關(guān)的命名實體的屬性的步驟包括：
[0020] 通過對從本地和/或網(wǎng)絡(luò)中采集的文本文件進行分解，得到文本文件的分詞及其詞性；
[0021] 根據(jù)所得到的分詞及其詞性，從所得到的分詞中確定與預(yù)先定義的各個類別名相關(guān)的命名實體，并確定與預(yù)先定義的各個關(guān)系字相關(guān)的所述命名實體的關(guān)系屬性；
[0022] 提取所確定的命名實體，以及命名實體的關(guān)系屬性。
[0023] 優(yōu)選地，在所述的根據(jù)預(yù)先定義的類別名和關(guān)系字，從所采集的各文本文件中分別抽取與各個類別名相關(guān)的命名實體，以及與各個關(guān)系字相關(guān)的命名實體的屬性的步驟之后，還包括：
[0024] 將各文本文件中分別抽取的與時間相關(guān)的命名實體進行歸一化處理，得到時間歸一化的命名實體；
[0025] 將各文本文件中分別抽取的與地點相關(guān)的命名實體進行歸一化處理，得到地點歸一化的命名實體。
[0026] 優(yōu)選地，所述的根據(jù)命名實體的屬性，對所采集的各文本文件中的命名實體分別進行關(guān)聯(lián)性處理，得到各個命名實體之間的實體關(guān)系的步驟包括：
[0027] 在所采集的各文本文件中，確定命名實體及其關(guān)系屬性在文本文件中的位置；
[0028] 利用所確定的命名實體及其關(guān)系屬性在文本文件中的位置，將鄰近的命名實體進行關(guān)聯(lián)，從而得到相關(guān)聯(lián)的命名實體之間的實體關(guān)系。
[0029] 優(yōu)選地，所述的根據(jù)預(yù)定義事件名，查找與其有關(guān)的命名實體的步驟包括：
[0030] 在所采集的各文本文件中，確定預(yù)定義事件名在文本文件中的位置；
[0031] 利用所述預(yù)定義事件名在文本文件中的位置，從已抽取的命名實體中查找與所述預(yù)定義事件名有關(guān)的命名實體。
[0032] 優(yōu)選地，所述的以預(yù)定義事件名為線索，根據(jù)所抽取的命名實體以及所述實體關(guān) 系，通過將分散在所述各個文本文件中相關(guān)信息建立映射，使其聚合在一起，形成實體信息圖譜的步驟包括：
[0033] 根據(jù)抽取的命名實體、命名實體之間的實體關(guān)系、與命名實體綁定的預(yù)定義事件名，將分散在同一文本文件中的相應(yīng)信息建立映射，形成同一文本文件的具有不同命名的各個實體概覽；
[0034] 通過對各個文本文件的實體概覽進行消歧處理，將各個文本文件中的具有相同命名的實體概覽進行合并，從而將分散在各個文本文件中的相關(guān)信息建立映射，形成跨文本的各個全局實體概覽；
[0035] 利用所形成的跨文本的各個全局實體概覽，形成實體信息圖譜。
[0036] 優(yōu)選地，所述實體概覽包括事件類概覽和命名實體類概覽，在同一文本文件中，利用預(yù)定義事件名與所找到的命名實體的綁定關(guān)系，形成事件類概覽，利用所述命名實體及相應(yīng)的實體關(guān)系，形成命名實體類概覽。
[0037] 優(yōu)選地，通過確定具有相同命名的實體概覽的相似度，對各個文本文件的實體概覽進行消歧處理。
[0038] 優(yōu)選地，通過將各個全局實體概覽的命名實體作為節(jié)點，將各個全局實體概覽的實體關(guān)系作為邊，形成所述實體信息圖譜。
[0039] 根據(jù)本發(fā)明的另一方面，提供了一種實體信息圖譜生成裝置，包括：
[0040] 采集模塊，用于從本地和/或網(wǎng)絡(luò)中采集文本文件；
[0041] 抽取模塊，用于根據(jù)預(yù)先定義的類別名和關(guān)系字，從所采集的各文本文件中分別抽取與各個類別名相關(guān)的命名實體，以及與各個關(guān)系字相關(guān)的命名實體的屬性；
[0042] 關(guān)聯(lián)模塊，用于根據(jù)命名實體的屬性，對所采集的各文本文件中的命名實體分別進行關(guān)聯(lián)性處理，得到各個命名實體之間的實體關(guān)系；
[0043] 綁定模塊，用于根據(jù)預(yù)定義事件名，查找與其有關(guān)的命名實體，并將預(yù)定義事件名與查找到的命名實體進行綁定；
[0044] 聚合模塊，用于以所述預(yù)定義事件名為線索，根據(jù)所抽取的命名實體以及所述實體關(guān)系，通過將所分散在所述各個文本文件中相關(guān)信息建立映射，使其聚合在一起，形成實體信息圖譜。
[0045] 與現(xiàn)有技術(shù)相比較，本發(fā)明的有益效果在于：
[0046] 本發(fā)明能夠?qū)⒎墙Y(jié)構(gòu)化文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)，及時、大量、準確的獲取用戶需

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3 4 5

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李曉戈;李宗海;高劍凌;
技術(shù)所有人：濟南中林信息科技有限公司;
我是此專利的發(fā)明人

上一篇：網(wǎng)頁保存的方法及裝置的制造方法
上一篇：一種終端智能調(diào)節(jié)按鍵的方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

知識圖譜實體消歧相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種實體信息圖譜生成方法及裝置的制造方法