基于復(fù)雜網(wǎng)絡(luò)模型并行化PageRank算法的核心藥物挖掘方法

文檔序號(hào)：6366163閱讀：644來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于復(fù)雜網(wǎng)絡(luò)模型并行化PageRank算法的核心藥物挖掘方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種中藥復(fù)雜網(wǎng)絡(luò)建模，以及在該模型上采用并行化PageRank算法挖掘中藥核心藥物的技術(shù)。
背景技術(shù)：
數(shù)據(jù)挖掘技術(shù)可以在大量數(shù)據(jù)下發(fā)現(xiàn)潛在的、有用的知識(shí)，是計(jì)算機(jī)人工智能的重要組成部分，利用數(shù)據(jù)挖掘技術(shù)可以實(shí)現(xiàn)對(duì)中藥復(fù)方數(shù)據(jù)的智能分析，發(fā)現(xiàn)潛在中藥配伍規(guī)律。常用的數(shù)據(jù)挖掘模型都是基于事務(wù)項(xiàng)的，即把復(fù)方看成由多種藥物組成的事務(wù)并儲(chǔ)存在事務(wù)數(shù)據(jù)庫(kù)中。隨著中藥復(fù)方數(shù)據(jù)規(guī)模的增加以及對(duì)更深層次挖掘的要求，傳統(tǒng)的基于事務(wù)項(xiàng)模型的中藥關(guān)聯(lián)規(guī)則、分類和聚類等算法已經(jīng)難以滿足中藥數(shù)據(jù)挖掘的需求。而將復(fù)雜網(wǎng)絡(luò)分析以及并行計(jì)算引入中藥數(shù)據(jù)挖掘中可以彌補(bǔ)傳統(tǒng)數(shù)據(jù)挖掘的缺陷，井能直觀展現(xiàn)藥物間關(guān)系，加速系統(tǒng)響應(yīng)速度，是有效的創(chuàng)新和嘗試。復(fù)雜網(wǎng)絡(luò)分析如今已經(jīng)涉及到社會(huì)關(guān)系、經(jīng)濟(jì)、交通、生命科學(xué)等多個(gè)領(lǐng)域，能夠展現(xiàn)節(jié)點(diǎn)關(guān)系拓?fù)浣Y(jié)構(gòu)、模擬信息傳播以及挖掘節(jié)點(diǎn)隱藏知識(shí)。利用中藥復(fù)方數(shù)據(jù)構(gòu)建中藥復(fù)雜網(wǎng)絡(luò)打破了傳統(tǒng)中藥數(shù)據(jù)挖掘基于事務(wù)項(xiàng)的建模模型，可以深入研究中藥配伍規(guī)律。其中利用復(fù)雜網(wǎng)絡(luò)中的PageRank算法可以挖掘中藥的核心藥物，其主要包括兩方面的應(yīng)用I)哪些藥物是治療特定病癥最常見且最關(guān)鍵的藥物，比如治療哮喘、消渴癥等給定病癥，哪些中藥材用得多并且對(duì)組方來說最為關(guān)鍵。2)哪些藥物是在大量中藥組方中常用到的關(guān)鍵藥物，可以大量隨機(jī)選取復(fù)方數(shù)據(jù)庫(kù)中的一些復(fù)方作為初始數(shù)據(jù)，研究其中關(guān)鍵的藥物有哪些。在此與第一種應(yīng)用不同的是這里并沒有給定癥狀，而僅僅是隨機(jī)選擇的大量復(fù)方數(shù)據(jù)。PageRank算法是ー種數(shù)據(jù)挖掘的方法,傳統(tǒng)的PageRank算法不能在分布式并行環(huán)境下運(yùn)行，隨著數(shù)據(jù)的激増，普通的算法不再適用于大規(guī)模數(shù)據(jù)。為了提高算法的可擴(kuò)展性以及可伸縮性，以便能在大量復(fù)方數(shù)據(jù)下快速高效運(yùn)行算法，需要用到并行計(jì)算MapReduce編程模式。該編程模式主要包括Map和Reduce兩個(gè)過程，體現(xiàn)了分治和合并的思想。實(shí)現(xiàn)MapReduce編程模式的系統(tǒng)框架有Google集群和Hadoop集群等。

發(fā)明內(nèi)容
本發(fā)明目的是解決實(shí)現(xiàn)中藥復(fù)雜網(wǎng)絡(luò)建摸，并在該模型上采用并行化PageRank算法，以快速發(fā)現(xiàn)中藥核心藥物。為解決上述問題，本發(fā)明技術(shù)方案是基于復(fù)雜網(wǎng)絡(luò)模型并行化PageRank算法的核心藥物挖掘方法，包括如下步驟I)組網(wǎng)階段
a)預(yù)處理生成中藥復(fù)方數(shù)據(jù)集，格式化為文本數(shù)據(jù)；所說的預(yù)處理為抽取中藥復(fù)方數(shù)據(jù)中所有復(fù)方的藥物組成；每個(gè)中藥復(fù)方均格式化為文本數(shù)據(jù)；b)將初始文本數(shù)據(jù)部署至Hadoop平臺(tái)，即開發(fā)分布式并行程序的平臺(tái)；所說的部署為將步驟a生成的初始文本數(shù)據(jù)上傳至Hadoop的分布式文件系統(tǒng)(HDFS)；c)并行化組建中藥藥物網(wǎng)絡(luò)TCM ;具體過程如下I)為每個(gè)中藥復(fù)方(一行文本數(shù)據(jù))設(shè)定一個(gè)唯一復(fù)方標(biāo)識(shí)ID ；2)建立從藥物到復(fù)方標(biāo)識(shí)ID之間的倒排索引；3)為每個(gè)藥物設(shè)定唯一藥物標(biāo)識(shí)id，并包含在復(fù)方中出現(xiàn)的頻次；4)再次建立倒排索引，還原中藥復(fù)方的文本數(shù)據(jù)；5)分布式并行程序的每個(gè)Map函數(shù)讀取一行文本數(shù)據(jù)，解析出中藥復(fù)方的藥物節(jié)點(diǎn)信息；6)兩兩組合原復(fù)方中的藥物，以按字典序小的藥物ID加上頻次作為Key，另一個(gè)作為Value,以鍵值對(duì)〈Key, Value〉的形式經(jīng)過shuffle & & sort (Hadoop平臺(tái)自帶的兩個(gè)步驟，主要對(duì)Key值進(jìn)行排序整理等)發(fā)送到Reduce函數(shù)；7)開發(fā)分布式并行程序的Reduce函數(shù)接收相同Key下組成的[Value]數(shù)組(即Map函數(shù)傳遞的所有在該Key下的Value,結(jié)合上文來說即藥物的ID與其出現(xiàn)頻次)，按照下式計(jì)算兩兩藥物間度量，將大于設(shè)定閾值的藥對(duì)寫入文件并保存至HDFS中
權(quán)利要求
1.基于復(fù)雜網(wǎng)絡(luò)模型并行化PageRank算法的核心藥物挖掘方法，其特征是包括如下步驟 I)組網(wǎng)階段 a)預(yù)處理生成中藥復(fù)方數(shù)據(jù)集，格式化為文本數(shù)據(jù)；所說的預(yù)處理為抽取中藥復(fù)方數(shù)據(jù)中所有復(fù)方的藥物組成；每個(gè)中藥復(fù)方均格式化為文本數(shù)據(jù)； b)將初始文本數(shù)據(jù)部署至Hadoop平臺(tái)，即開發(fā)分布式并行程序的平臺(tái)；所說的部署為將步驟a)生成的初始文本數(shù)據(jù)上傳至Hadoop的分布式文件系統(tǒng)(HDFS)； c)并行化組建中藥藥物網(wǎng)絡(luò)TCM；具體過程如下 1)為每個(gè)中藥復(fù)方(一行文本數(shù)據(jù))設(shè)定一個(gè)唯一復(fù)方標(biāo)識(shí)ID； 2)建立從藥物到復(fù)方標(biāo)識(shí)ID之間的倒排索引； 3)為每個(gè)藥物設(shè)定唯一藥物標(biāo)識(shí)id，并包含在復(fù)方中出現(xiàn)的頻次； 4)再次建立倒排索引，還原中藥復(fù)方的文本數(shù)據(jù)； 5)分布式并行程序的每個(gè)Map函數(shù)讀取一行文本數(shù)據(jù)，解析出中藥復(fù)方的藥物節(jié)點(diǎn)信息； 6)兩兩組合原復(fù)方中的藥物，以按字典序小的藥物ID加上頻次作為Key，另一個(gè)作為Value,以鍵值對(duì)〈Key, Value〉的形式經(jīng)過shuffle & & sort發(fā)送到Reduce函數(shù)；以上為Hadoop平臺(tái)自帶的兩個(gè)步驟,對(duì)Key值進(jìn)行排序整理； 7)開發(fā)分布式并行程序的Reduce函數(shù)接收相同Key下組成的[Value]數(shù)組，即Map函數(shù)傳遞的所有在該Key下的Value，按照下式計(jì)算兩兩藥物間度量，將大于設(shè)定閾值的藥對(duì)寫入文件并保存至HDFS中
全文摘要
本發(fā)明的基于復(fù)雜網(wǎng)絡(luò)模型并行化PageRank算法的核心藥物挖掘方法包括如下步驟1)組網(wǎng)階段a)預(yù)處理生成中藥數(shù)據(jù)集，格式化為文本數(shù)據(jù)；b)將初始文本數(shù)據(jù)部署至Hadoop平臺(tái)；c)并行化組建中藥藥物網(wǎng)絡(luò)TCM；d)結(jié)束。2)挖掘階段a)獲取步驟1-c處理生成的中藥藥物網(wǎng)絡(luò)文本文件；b)將藥物網(wǎng)絡(luò)文本文件部署至Hadoop平臺(tái)；c)實(shí)施并行化PageRank算法發(fā)現(xiàn)核心藥物節(jié)點(diǎn)；d)結(jié)束。本發(fā)明的基于復(fù)雜網(wǎng)絡(luò)模型并行化PageRank算法的核心藥物挖掘方法建立了中藥藥物復(fù)雜網(wǎng)絡(luò)模型，利用并行化技術(shù)提高了組網(wǎng)以及PageRank算法的可擴(kuò)展性和運(yùn)行速度，并且能有效挖掘復(fù)方中的關(guān)鍵核心藥物節(jié)點(diǎn)，研究中藥配伍規(guī)律。
文檔編號(hào)G06F19/00GK102708285SQ201210122900
公開日2012年10月3日申請(qǐng)日期2012年4月24日優(yōu)先權(quán)日2012年4月24日
發(fā)明者劉正, 吳駿, 王志堅(jiān), 許峰申請(qǐng)人:河海大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳駿;劉正;王志堅(jiān);許峰
技術(shù)所有人：河海大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

復(fù)雜網(wǎng)絡(luò)模型相關(guān)技術(shù)

復(fù)雜網(wǎng)絡(luò)演化模型相關(guān)技術(shù)

并行算法導(dǎo)論相關(guān)技術(shù)

并行算法實(shí)踐相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于復(fù)雜網(wǎng)絡(luò)模型并行化PageRank算法的核心藥物挖掘方法