亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于地質(zhì)大數(shù)據(jù)的標(biāo)引關(guān)鍵詞提取方法和系統(tǒng)的制作方法_2

文檔序號:9287736閱讀:來源:國知局
交互信息測量等方法,不限于上面算法,進(jìn)行挖掘提取,從文獻(xiàn)中提取短語若干 個,個數(shù)需要合適,為后面提煉優(yōu)化預(yù)留空間。
[0037] 如圖1所示,首先執(zhí)行步驟S104,對提取出關(guān)鍵詞短語進(jìn)行加權(quán)運算,得到各個短 語的綜合權(quán)值;
[0038] 綜合考慮短語的頻次、出現(xiàn)的位置、詞長等因素,對提取出短語進(jìn)行加權(quán)運算,得 到各個短語的綜合權(quán)值 Wl。
[0039] 采用的公式:
[0040]
[0041] 其中,表示特征項t在文檔中出現(xiàn)的頻率表示包含特征項t的文檔數(shù);L為 詞長取值;N為文檔集合中的文檔數(shù)量,Ai為權(quán)重系數(shù)。
[0042] 如圖1所示,首先執(zhí)行步驟S105,根據(jù)綜合權(quán)值大小進(jìn)行初步刷選,降低待確定短 語個數(shù);
[0043] 根據(jù)計算出綜合權(quán)值Wl大小進(jìn)行刷選,然后提取權(quán)值較大的若干個短語。
[0044] 如圖1所示,首先執(zhí)行步驟S106,將短語與詞庫進(jìn)行匹配,找出詞庫中與之匹配或 較為規(guī)范的術(shù)語;
[0045] 將短語與詞庫進(jìn)行匹配,找出詞庫中與之匹配或較為規(guī)范的術(shù)語,匹配方法是按 照一定策略將待分析的漢字串與一個"充分大的"機器詞典中的詞條進(jìn)行匹配,若在詞典中 找到某個字符串,則匹配成功。
[0046] 其基本思想為:假定分詞詞典中的最長詞有i個漢字字符,則用被處理文檔的當(dāng) 前字串中的前i個字作為匹配字段,查找字典。若字典中存在這樣的一個i字詞,則匹配成 功,匹配字段被作為一個詞切分出來。如果詞典中找不到這樣的一個i字詞,則匹配失敗, 將匹配字段中的最后一個字去掉,對剩下的字串重新進(jìn)行匹配處理,如此進(jìn)行下去,直到匹 配成功,即切分出一個詞或剩余字串的長度為零為止。這樣就完成了一輪匹配,然后取下一 個i字字串進(jìn)行匹配處理,直到文檔被掃描完為止。
[0047] 如圖1所示,首先執(zhí)行步驟S107,將術(shù)語與文獻(xiàn)進(jìn)行關(guān)聯(lián)度計算,確定術(shù)語的關(guān)聯(lián) 度大小,根據(jù)關(guān)聯(lián)度大小進(jìn)行再次刷選;
[0048] 再將術(shù)語與文獻(xiàn)進(jìn)行關(guān)聯(lián)度計算和關(guān)聯(lián)程度進(jìn)行分析,確定術(shù)語與本文獻(xiàn)關(guān)聯(lián)大 小;關(guān)聯(lián)度計算采用改進(jìn)的關(guān)聯(lián)規(guī)則apriori算法對關(guān)鍵詞與文獻(xiàn)的關(guān)聯(lián)程度進(jìn)行計算分 析,關(guān)聯(lián)程度主要通過關(guān)聯(lián)度指標(biāo)來實現(xiàn)。將術(shù)語與文檔含有的詞語集合執(zhí)行關(guān)聯(lián)規(guī)則算 法,得出關(guān)鍵詞與文獻(xiàn)的關(guān)聯(lián)度。
[0049] 如圖1所示,首先執(zhí)行步驟S108,最后按照行業(yè)特點、高度相關(guān)性、特性等對術(shù)語 進(jìn)行排序,最終確定關(guān)鍵詞的次序。
[0050] 按照行業(yè)特點、高度相關(guān)性、特性等進(jìn)行加權(quán)排序運算,最終確定關(guān)鍵詞的次序
[0051] 如圖2所示,圖2為本發(fā)明一實施例中一種基于地質(zhì)大數(shù)據(jù)的標(biāo)引關(guān)鍵詞提取方 法的結(jié)構(gòu)示意圖,該實施例提到的一種基于地質(zhì)大數(shù)據(jù)的標(biāo)引關(guān)鍵詞提取方法系統(tǒng),該系 統(tǒng)具體包括:
[0052] 文件預(yù)處理模塊201,用于將文獻(xiàn)導(dǎo)入到系統(tǒng)中,并進(jìn)行格式轉(zhuǎn)換,對標(biāo)題、摘要、 正文進(jìn)行句子劃分,成為獨立的語言單元,然后將切分后的語言單元進(jìn)行詞性標(biāo)注和位置 標(biāo)記;
[0053] 關(guān)鍵詞挖掘提煉模塊202,采用加權(quán)挖掘算法,對文獻(xiàn)進(jìn)行關(guān)鍵詞挖掘,得到采用 加權(quán)計算法對短語的頻次、出現(xiàn)的位置、詞長等因素,對短語進(jìn)行加權(quán)運算,得到各個短語 的權(quán)值,再依據(jù)權(quán)值大小,對短語進(jìn)行提煉優(yōu)化,排除權(quán)值較小的短語;
[0054] 關(guān)鍵詞匹配關(guān)聯(lián)排除模塊203,將短語與詞庫進(jìn)行匹配,找出詞庫中與之匹配或較 為規(guī)范的術(shù)語,再將術(shù)語與文獻(xiàn)進(jìn)行關(guān)聯(lián)度計算和關(guān)聯(lián)程度進(jìn)行分析,確定術(shù)語與本文獻(xiàn) 關(guān)聯(lián)大小;
[0055] 關(guān)鍵詞排序優(yōu)化模塊204,按照行業(yè)特點、高度相關(guān)性、特性等進(jìn)行加權(quán)排序運算, 最終確定關(guān)鍵詞的次序。
[0056] 本實施例中,用于將文獻(xiàn)導(dǎo)入到文件預(yù)處理模塊201中,系統(tǒng)對文獻(xiàn)進(jìn)行格式轉(zhuǎn) 換,對標(biāo)題、摘要、正文進(jìn)行句子劃分,成為獨立的語言單元,然后將切分后的語言單元進(jìn)行 詞性標(biāo)注和位置標(biāo)記;然后,通過關(guān)鍵詞挖掘提煉模塊202,對文獻(xiàn)進(jìn)行關(guān)鍵詞挖掘,得到 采用加權(quán)計算法對短語的頻次、出現(xiàn)的位置、詞長等因素,對短語進(jìn)行加權(quán)運算,得到各個 短語的權(quán)值,再依據(jù)權(quán)值大小,對短語進(jìn)行提煉優(yōu)化,排除權(quán)值較小的短語;再次將短語輸 入關(guān)鍵詞匹配關(guān)聯(lián)排除模塊203,該模塊將短語與詞庫進(jìn)行匹配,找出詞庫中與之匹配或較 為規(guī)范的術(shù)語,再將術(shù)語與文獻(xiàn)進(jìn)行關(guān)聯(lián)度計算和關(guān)聯(lián)程度進(jìn)行分析,確定術(shù)語與本文獻(xiàn) 關(guān)聯(lián)大小,根據(jù)關(guān)聯(lián)度大小進(jìn)行再次刷選;關(guān)鍵詞排序優(yōu)化模塊204,按照行業(yè)特點、高度 相關(guān)性、特性等進(jìn)行加權(quán)排序運算,最終確定關(guān)鍵詞的次序。
[0057] 該方法能考慮到文件的背景和關(guān)聯(lián)性,盡量拋棄空泛的關(guān)鍵詞,提供比較全面地 反映文獻(xiàn)核心內(nèi)容的關(guān)鍵詞,而且按照一定的邏輯順序排序,從而為文件檢索,提高檢索 效率提供了便利,是一種高效的地質(zhì)大數(shù)據(jù)的標(biāo)引關(guān)鍵詞提取方法。
[0058] 本發(fā)明不局限于上述最佳實施方式,任何人在本發(fā)明的啟示下作出的結(jié)構(gòu)變化和 方法改進(jìn),凡是與本發(fā)明具有相同或相近的技術(shù)方案,均落入本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項】
1. 一種基于地質(zhì)大數(shù)據(jù)的標(biāo)引關(guān)鍵詞提取方法,其特征在于,包括: 對文獻(xiàn)進(jìn)行導(dǎo)入,地質(zhì)資料格式轉(zhuǎn)換,句子劃分,詞性標(biāo)注和位置標(biāo)記; 對切分后的文獻(xiàn),賦予權(quán)重系數(shù); 采用關(guān)鍵詞挖掘算法,對關(guān)鍵詞進(jìn)行初步挖掘提取; 對提取出關(guān)鍵詞短語進(jìn)行加權(quán)運算,得到各個短語的綜合權(quán)值; 根據(jù)綜合權(quán)值大小進(jìn)行初步刷選,降低待確定短語個數(shù); 將短語與詞庫進(jìn)行匹配,找出詞庫中與之匹配或較為規(guī)范的術(shù)語; 將術(shù)語與文獻(xiàn)進(jìn)行關(guān)聯(lián)度計算,確定術(shù)語的關(guān)聯(lián)度大小,根據(jù)關(guān)聯(lián)度大小進(jìn)行再次刷 選; 最后按照行業(yè)特點、高度相關(guān)性、特性等對術(shù)語進(jìn)行排序,最終確定關(guān)鍵詞的次序。2. 如權(quán)利要求1所述的基于地質(zhì)大數(shù)據(jù)的標(biāo)引關(guān)鍵詞提取方法,其特征在于,所述地 質(zhì)資料格式轉(zhuǎn)換,句子劃分,詞性標(biāo)注和位置標(biāo)記指將文獻(xiàn)經(jīng)過格式轉(zhuǎn)換,依據(jù)標(biāo)點符號對 標(biāo)題、摘要、正文進(jìn)行句子劃分,成為獨立的語言單元。3. 如權(quán)利要求1所述的基于地質(zhì)大數(shù)據(jù)的標(biāo)引關(guān)鍵詞提取方法,其特征在于,所述詞 性標(biāo)注指采用適當(dāng)?shù)姆椒▽ⅹ毩⒌恼Z言單元根據(jù)句子中的上下文信息給句中的每個詞確 定一個最為合適的詞性標(biāo)記,可以標(biāo)為實詞和虛詞兩大類(實詞包括:名詞(含方位詞)、動 詞、形容詞(含顏色詞)、數(shù)詞、量詞、代詞六大類,虛詞包括:副詞、介詞、連詞、助詞、象聲詞 六大類)。4. 如權(quán)利要求1所述的基于地質(zhì)大數(shù)據(jù)的標(biāo)引關(guān)鍵詞提取方法,其特征在于,所述位 置標(biāo)記指記錄位置信息的方式以及各個位置的詞在反映主題時的相對重要性。5. 如權(quán)利要求1所述的基于地質(zhì)大數(shù)據(jù)的標(biāo)引關(guān)鍵詞提取方法,其特征在于,所述對 對切分后的文獻(xiàn),賦予權(quán)重系數(shù),指對文獻(xiàn)不同的位置,賦予不同的權(quán)值。6. 如權(quán)利要求1所述的基于地質(zhì)大數(shù)據(jù)的標(biāo)引關(guān)鍵詞提取方法,其特征在于,所述采 用關(guān)鍵詞挖掘算法,對關(guān)鍵詞進(jìn)行初步挖掘提取,指通過利用關(guān)鍵詞挖掘算法,對關(guān)鍵詞進(jìn) 行初步挖掘提?。ㄋ惴òP(guān)聯(lián)規(guī)則算法、基于共現(xiàn)概率的關(guān)聯(lián)挖掘算法、詞頻-反文檔頻 率和交互信息測量等方法,不限于上面算法)。7. 如權(quán)利要求1所述的基于地質(zhì)大數(shù)據(jù)的標(biāo)引關(guān)鍵詞提取方法,其特征在于,所述對 術(shù)語與文獻(xiàn)進(jìn)行關(guān)聯(lián)度計算,是指采用改進(jìn)的關(guān)聯(lián)規(guī)則,對關(guān)鍵詞與文獻(xiàn)的關(guān)聯(lián)程度進(jìn)行 分析,確定術(shù)語與本文獻(xiàn)關(guān)聯(lián)大小。8. 如權(quán)利要求1所述的基于地質(zhì)大數(shù)據(jù)的標(biāo)引關(guān)鍵詞提取系統(tǒng),其特征在于,包括: 文件預(yù)處理模塊,用于將文獻(xiàn)導(dǎo)入到系統(tǒng)中,并進(jìn)行格式轉(zhuǎn)換,對標(biāo)題、摘要、正文進(jìn)行 句子劃分,成為獨立的語言單元,然后將切分后的語言單元進(jìn)行詞性標(biāo)注和位置標(biāo)記; 關(guān)鍵詞挖掘提煉模塊,采用加權(quán)挖掘算法,對文獻(xiàn)進(jìn)行關(guān)鍵詞挖掘,得到采用加權(quán)計算 法對短語的頻次、出現(xiàn)的位置、詞長等因素,對短語進(jìn)行加權(quán)運算,得到各個短語的權(quán)值,再 依據(jù)權(quán)值大小,對短語進(jìn)行提煉優(yōu)化,排除權(quán)值較小的短語; 關(guān)鍵詞匹配關(guān)聯(lián)排除模塊,將短語與詞庫進(jìn)行匹配,找出詞庫中與之匹配或較為規(guī)范 的術(shù)語,再將術(shù)語與文獻(xiàn)進(jìn)行關(guān)聯(lián)度計算和關(guān)聯(lián)程度進(jìn)行分析,確定術(shù)語與本文獻(xiàn)關(guān)聯(lián)大 小,根據(jù)關(guān)聯(lián)度大小進(jìn)行再次刷選; 關(guān)鍵詞排序優(yōu)化模塊,按照行業(yè)特點、高度相關(guān)性、特性等進(jìn)行加權(quán)排序運算,最終確 定關(guān)鍵詞的次序D
【專利摘要】一種基于地質(zhì)大數(shù)據(jù)的標(biāo)引關(guān)鍵詞提取方法和系統(tǒng),所述方法包括步驟:對文獻(xiàn)進(jìn)行導(dǎo)入,地質(zhì)資料格式轉(zhuǎn)換,句子劃分,詞性標(biāo)注和位置標(biāo)記;對切分后的文獻(xiàn),賦予權(quán)重系數(shù);采用關(guān)鍵詞挖掘算法,對關(guān)鍵詞進(jìn)行初步挖掘提?。粚μ崛〕鲫P(guān)鍵詞短語進(jìn)行加權(quán)運算,得到各個短語的綜合權(quán)值;根據(jù)綜合權(quán)值大小進(jìn)行初步刷選,降低待確定短語個數(shù);將短語與詞庫進(jìn)行匹配,找出詞庫中與之匹配或較為規(guī)范的術(shù)語;將術(shù)語與文獻(xiàn)進(jìn)行關(guān)聯(lián)度計算,確定術(shù)語的關(guān)聯(lián)度大小,根據(jù)關(guān)聯(lián)度大小進(jìn)行再次刷選;最后按照行業(yè)特點、高度相關(guān)性、特性等對術(shù)語進(jìn)行排序,最終確定關(guān)鍵詞的次序。該方法能考慮到文件的背景和關(guān)聯(lián)性,盡量拋棄空泛的關(guān)鍵詞,提供比較全面地反映文獻(xiàn)核心內(nèi)容的關(guān)鍵詞,而且按照一定的邏輯順序排序,從而為文件檢索,提高檢索效率提供了便利,是一種高效的地質(zhì)大數(shù)據(jù)的標(biāo)引關(guān)鍵詞提取方法。
【IPC分類】G06F17/30, G06F17/27
【公開號】CN105005556
【申請?zhí)枴緾N201510452437
【發(fā)明人】梁元, 郭科, 唐菊興
【申請人】成都理工大學(xué)
【公開日】2015年10月28日
【申請日】2015年7月29日
當(dāng)前第2頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1