亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于地質大數(shù)據的標引關鍵詞提取方法和系統(tǒng)的制作方法

文檔序號:9287736閱讀:817來源:國知局
一種基于地質大數(shù)據的標引關鍵詞提取方法和系統(tǒng)的制作方法
【技術領域】
[0001 ] 本發(fā)明涉及地質大數(shù)據的標引技術領域,尤其涉及一種基于地質大數(shù)據的標引關 鍵詞提取方法和系統(tǒng)。
【背景技術】
[0002] 我國地質數(shù)據主要包括地質資料、地學文獻、地質數(shù)據庫和源自網絡的地質相關 數(shù)據。全國范圍內地質資料總量43萬種,其中全國地質資料館保藏12萬8千種,覆蓋32 個省、市、自治區(qū),海域,涉及我國周邊地區(qū)(國家)、極地、遠洋等,包含1952年全國地質資 料館成立以來的區(qū)域地質資料和礦產勘查資料。全國館現(xiàn)有電子數(shù)據10萬種,電子文件 有大約400萬件,總電子數(shù)據文件數(shù)約6259萬個,保存的電子數(shù)據格式復雜,主要有:JPG、 PDF、Word、Excel、WPS、EPS、TIF、MapGIS、AutoCAD、CGIS、CorelDraw、Photoshop、Maplnfo、 SUrfer、ArCGIS等文件格式。地質圖書館目前擁有的數(shù)字資源類型包括圖書、期刊、論文等 數(shù)字化館藏文獻70多萬冊,數(shù)據總量達到105TB。
[0003] 隨著我國地質信息化的不斷深入,地質數(shù)據的數(shù)據量飛速增長,采集到到的數(shù)據 也是各種各樣,例如地形地貌、地層巖性、地質構造、以及各種物探、化探、遙感資料等,將這 些數(shù)據分類,又可以分為地理信息數(shù)據、區(qū)域地質數(shù)據、水文地質數(shù)據、工程地質數(shù)據、礦產 資源數(shù)據、地質災害數(shù)據、地球物理數(shù)據、地球化學數(shù)據、礦產勘查數(shù)據、礦產開發(fā)數(shù)據等, 如果按數(shù)據類型來分,又分為矢量圖形、屬性數(shù)據表、柵格數(shù)據、影像數(shù)據、文本數(shù)據等。地 質數(shù)據除了傳統(tǒng)的地質報告、圖件、表格外,也出現(xiàn)了大量圖片和視頻等格式的數(shù)據。數(shù)據 類型包括關系型結構化數(shù)據庫、非結構化索引文件、PDF文件、圖片、視頻等。地質數(shù)據庫已 經成為我國地質工作數(shù)據的主流,尤其是以潛力評價數(shù)據庫為代表的大型數(shù)據涉及到了區(qū) 域地質、地質礦產、物化遙等多學科多專業(yè),基本覆蓋所有開展地質工作的區(qū)域。由于地質 原始數(shù)據數(shù)量巨大、種類繁多且結構復雜,其多源性、離散性和定性特征給地質資料整理帶 來很大的困難。
[0004] 在建立地質大數(shù)據的同時,為了方便數(shù)據和文件的檢索,需要對文件建立標引關 鍵詞,傳統(tǒng)的標引方法,一般使用作者提供的關鍵詞,或者采用詞頻算法,使用頻率最高的 詞,作為標引關鍵詞。然而這兩種提供的關鍵詞中,容易出現(xiàn)幾個問題:第一、一些作者未 意識到關鍵詞標引的重要性,從文章隨意選取幾個詞語作為關鍵詞,造成關鍵詞的漏標、濫 標;第二、有的關鍵詞隨意排列,主次不分,毫無層次和邏輯性;第三、提供的關鍵詞選取沒 有獨立檢索意義的泛指詞作為關鍵詞,缺乏對文章內容的專指性;這樣提供的關鍵詞,在檢 索系統(tǒng)中,導致在進行檢索時,很難在數(shù)據庫中找出所需的準確信息。
[0005] 本發(fā)明提出一種基于地質大數(shù)據的標引關鍵詞提取方法和系統(tǒng),可以將文獻切 分、關鍵詞挖掘提煉、關鍵詞匹配關聯(lián)排除、關鍵詞排序優(yōu)化一系列的工作自動完成,為紛 繁雜亂的地質大數(shù)據的整理,提供一種快速、簡便的解決方法。該方法能考慮到文件的背景 和關聯(lián)性,盡量拋棄空泛的關鍵詞,提供比較全面地反映文獻核心內容的關鍵詞,而且按照 一定的邏輯順序排序,從而為文件檢索,提尚檢索效率提供了便利,是一種尚效的地質大 數(shù)據的標引關鍵詞提取方法。

【發(fā)明內容】

[0006] 本發(fā)明解決的問題是文獻搜索標引的關鍵詞中出現(xiàn)文獻關鍵詞漏標、濫標,關鍵 詞隨意排列毫無層次和邏輯性,或者選取的關鍵詞缺乏對文章內容的專指性等一系列問 題。
[0007] 為解決上述問題,本發(fā)明技術方案提供本發(fā)明提出一種基于地質大數(shù)據的標引關 鍵詞提取方法和系統(tǒng),可以將文獻切分、關鍵詞挖掘提煉、關鍵詞匹配關聯(lián)排除、關鍵詞排 序優(yōu)化一系列的工作自動完成,為紛繁雜亂的地質大數(shù)據的整理,提供一種快速、簡便的解 決方法。
[0008] 一、體系結構
[0009] 本發(fā)明提出一種基于地質大數(shù)據的標引關鍵詞提取方法和系統(tǒng)包括4個部分:文 件預處理模塊、關鍵詞挖掘提煉模塊、關鍵詞匹配關聯(lián)排除模塊、關鍵詞排序優(yōu)化模塊。如 圖1所示:
[0010] (1)文件預處理模塊,用于將文獻導入到系統(tǒng)中,并進行格式轉換,對標題、摘要、 正文進行句子劃分,成為獨立的語言單元,然后將切分后的語言單元進行詞性標注和位置 標記;
[0011] (2)關鍵詞挖掘提煉模塊,采用加權挖掘算法,對文獻進行關鍵詞挖掘,得到采用 加權計算法對短語的頻次、出現(xiàn)的位置、詞長等因素,對短語進行加權運算,得到各個短語 的權值,再依據權值大小,對短語進行提煉優(yōu)化,排除權值較小的短語;
[0012] (3)關鍵詞匹配關聯(lián)排除模塊,將短語與詞庫進行匹配,找出詞庫中與之匹配或較 為規(guī)范的術語,再將術語與文獻進行關聯(lián)度計算和關聯(lián)程度進行分析,確定術語與本文獻 關聯(lián)大小;
[0013] (4)關鍵詞排序優(yōu)化模塊,按照行業(yè)特點、高度相關性、特性等進行加權排序運算, 最終確定關鍵詞的次序。
[0014] 二、方法流程
[0015] 本發(fā)明提出一種一種基于地質大數(shù)據的標引關鍵詞提取方法??梢詫⑽墨I切分、 關鍵詞挖掘提煉、關鍵詞匹配關聯(lián)排除、關鍵詞排序優(yōu)化一系列的工作自動完成,為紛繁雜 亂的地質大數(shù)據的整理,提供一種快速、簡便的解決方法。該方法能考慮到文件的背景和關 聯(lián)性,盡量拋棄空泛的關鍵詞,提供比較全面地反映文獻核心內容的關鍵詞,而且按照一定 的邏輯順序排序,從而為文件檢索,提高檢索效率提供了便利,是一種高效的地質大數(shù)據 的標引關鍵詞提取方法。
[0016] 本發(fā)明提出一種基于地質大數(shù)據的標引關鍵詞提取方法,所述方法包括步驟:
[0017] 1)對文獻進行導入,地質資料格式轉換,句子劃分,詞性標注和位置標記;
[0018] 2)對切分后的文獻,賦予權重系數(shù);采用關鍵詞挖掘算法,對關鍵詞進行初步挖 掘提??;
[0019] 3)對提取出關鍵詞短語進行加權運算,得到各個短語的綜合權值;
[0020] 4)根據綜合權值大小進行初步刷選,降低待確定短語個數(shù);
[0021] 5)將短語與詞庫進行匹配,找出詞庫中與之匹配或較為規(guī)范的術語;
[0022] 6)將術語與文獻進行關聯(lián)度計算,確定術語的關聯(lián)度大小,根據關聯(lián)度大小進行 再次刷選;
[0023] 7)最后按照彳丁業(yè)特點、尚度相關性、特性等對術語進彳丁排序,最終確定關鍵詞的次 序。
[0024] 與現(xiàn)有技術相比,本發(fā)明的技術方案具有以下優(yōu)點:
[0025] 該方法能考慮到文件的背景和關聯(lián)性,盡量拋棄空泛的關鍵詞,提供比較全面地 反映文獻核心內容的關鍵詞,而且按照一定的邏輯順序排序,從而為文件檢索,提高檢索 效率提供了便利,是一種高效的地質大數(shù)據的標引關鍵詞提取方法。
【附圖說明】
[0026] 圖1是本發(fā)明實施例提供一種基于地質大數(shù)據的標引關鍵詞提取方法的流程示 意圖;
[0027] 圖2是本發(fā)明實施例提供一種基于地質大數(shù)據的標引關鍵詞提取方法和系統(tǒng)結 構示意圖。
【具體實施方式】
[0028] 應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限制本發(fā)明。
[0029] 如【背景技術】所述,本發(fā)明解決的問題是文獻搜索標引的關鍵詞中出現(xiàn)文獻關鍵詞 漏標、濫標,關鍵詞隨意排列毫無層次和邏輯性,或者選取的關鍵詞缺乏對文章內容的專指 性等一系列問題。針對上述問題,本發(fā)明技術方案提供本發(fā)明提出一種基于地質大數(shù)據的 標引關鍵詞提取方法,可以將文獻切分、關鍵詞挖掘提煉、關鍵詞匹配關聯(lián)排除、關鍵詞排 序優(yōu)化一系列的工作自動完成,為紛繁雜亂的地質大數(shù)據的整理,提供一種快速、簡便的解 決方法。
[0030] 實現(xiàn)基于地質大數(shù)據的標引關鍵詞提取方法,請參考圖1,圖1是本發(fā)明實施例提 供的基于地質大數(shù)據的標引關鍵詞提取方法流程示意圖。
[0031] 如圖1所示,首先執(zhí)行步驟S101,對文獻進行導入,地質資料格式轉換,句子劃分, 詞性標注和位置標記;
[0032] 將文獻導入,將地質資料進行格式轉換,依據標點符號對標題、摘要、正文進行句 子劃分,根據標點符、換行符將句子切分為獨立的詞語,再將切分后的語言單元進行詞性標 注和位置標記,詞性標注就是采用適當?shù)姆椒ǎ鶕渥又械纳舷挛男畔⒔o句中的每個詞 確定一個最為合適的詞性標記。漢語詞匯可分為實詞和虛詞兩大類。實詞包括:名詞(含 方位詞)、動詞、形容詞(含顏色詞)、數(shù)詞、量詞、代詞六大類。虛詞包括:副詞、介詞、連詞、 助詞、象聲詞六大類。位置標志,確定記錄位置信息的方式以及各個位置的詞在反映主題時 的相對重要性。
[0033] 如圖1所示,首先執(zhí)行步驟S102,對切分后的文獻,賦予權重系數(shù);
[0034] 對切分后的文獻,賦予權重系數(shù),根據文獻不同的位置,賦予不同的權值A;;出現(xiàn) 在標題中的詞比出現(xiàn)在段首和段尾中的詞更能反映文獻的主題,而出現(xiàn)在段首中的詞比出 現(xiàn)在段尾中的詞在反映文獻主題方面更有價值。一般標題的權值最高,關鍵字第二,摘要排 在第三,正文內容,根據文章先后,先后權值依次降低。
[0035] 如圖1所示,首先執(zhí)行步驟S103,采用關鍵詞挖掘算法,對關鍵詞進行初步挖掘提 取;
[0036] 采用關鍵詞挖掘算法,例如關聯(lián)規(guī)則、基于共現(xiàn)概率的關聯(lián)挖掘算法、詞頻-反文 檔頻率和
當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1