專利名稱:基于復(fù)雜網(wǎng)絡(luò)模型并行化PageRank算法的核心藥物挖掘方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種中藥復(fù)雜網(wǎng)絡(luò)建模,以及在該模型上采用并行化PageRank算法挖掘中藥核心藥物的技術(shù)。
背景技術(shù):
數(shù)據(jù)挖掘技術(shù)可以在大量數(shù)據(jù)下發(fā)現(xiàn)潛在的、有用的知識(shí),是計(jì)算機(jī)人工智能的重要組成部分,利用數(shù)據(jù)挖掘技術(shù)可以實(shí)現(xiàn)對(duì)中藥復(fù)方數(shù)據(jù)的智能分析,發(fā)現(xiàn)潛在中藥配伍規(guī)律。常用的數(shù)據(jù)挖掘模型都是基于事務(wù)項(xiàng)的,即把復(fù)方看成由多種藥物組成的事務(wù)并儲(chǔ)存在事務(wù)數(shù)據(jù)庫(kù)中。隨著中藥復(fù)方數(shù)據(jù)規(guī)模的增加以及對(duì)更深層次挖掘的要求,傳統(tǒng)的基于事務(wù)項(xiàng)模型的中藥關(guān)聯(lián)規(guī)則、分類和聚類等算法已經(jīng)難以滿足中藥數(shù)據(jù)挖掘的需求。而將復(fù)雜網(wǎng)絡(luò)分析以及并行計(jì)算引入中藥數(shù)據(jù)挖掘中可以彌補(bǔ)傳統(tǒng)數(shù)據(jù)挖掘的缺陷,井能直觀展現(xiàn)藥物間關(guān)系,加速系統(tǒng)響應(yīng)速度,是有效的創(chuàng)新和嘗試。復(fù)雜網(wǎng)絡(luò)分析如今已經(jīng)涉及到社會(huì)關(guān)系、經(jīng)濟(jì)、交通、生命科學(xué)等多個(gè)領(lǐng)域,能夠展現(xiàn)節(jié)點(diǎn)關(guān)系拓?fù)浣Y(jié)構(gòu)、模擬信息傳播以及挖掘節(jié)點(diǎn)隱藏知識(shí)。利用中藥復(fù)方數(shù)據(jù)構(gòu)建中藥復(fù)雜網(wǎng)絡(luò)打破了傳統(tǒng)中藥數(shù)據(jù)挖掘基于事務(wù)項(xiàng)的建模模型,可以深入研究中藥配伍規(guī)律。其中利用復(fù)雜網(wǎng)絡(luò)中的PageRank算法可以挖掘中藥的核心藥物,其主要包括兩方面的應(yīng)用I)哪些藥物是治療特定病癥最常見且最關(guān)鍵的藥物,比如治療哮喘、消渴癥等給 定病癥,哪些中藥材用得多并且對(duì)組方來說最為關(guān)鍵。2)哪些藥物是在大量中藥組方中常用到的關(guān)鍵藥物,可以大量隨機(jī)選取復(fù)方數(shù)據(jù)庫(kù)中的一些復(fù)方作為初始數(shù)據(jù),研究其中關(guān)鍵的藥物有哪些。在此與第一種應(yīng)用不同的是這里并沒有給定癥狀,而僅僅是隨機(jī)選擇的大量復(fù)方數(shù)據(jù)。PageRank算法是ー種數(shù)據(jù)挖掘的方法,傳統(tǒng)的PageRank算法不能在分布式并行環(huán)境下運(yùn)行,隨著數(shù)據(jù)的激増,普通的算法不再適用于大規(guī)模數(shù)據(jù)。為了提高算法的可擴(kuò)展性以及可伸縮性,以便能在大量復(fù)方數(shù)據(jù)下快速高效運(yùn)行算法,需要用到并行計(jì)算MapReduce編程模式。該編程模式主要包括Map和Reduce兩個(gè)過程,體現(xiàn)了分治和合并的思想。實(shí)現(xiàn)MapReduce編程模式的系統(tǒng)框架有Google集群和Hadoop集群等。
發(fā)明內(nèi)容
本發(fā)明目的是解決實(shí)現(xiàn)中藥復(fù)雜網(wǎng)絡(luò)建摸,并在該模型上采用并行化PageRank算法,以快速發(fā)現(xiàn)中藥核心藥物。為解決上述問題,本發(fā)明技術(shù)方案是基于復(fù)雜網(wǎng)絡(luò)模型并行化PageRank算法的核心藥物挖掘方法,包括如下步驟I)組網(wǎng)階段
a)預(yù)處理生成中藥復(fù)方數(shù)據(jù)集,格式化為文本數(shù)據(jù);所說的預(yù)處理為抽取中藥復(fù)方數(shù)據(jù)中所有復(fù)方的藥物組成;每個(gè)中藥復(fù)方均格式化為文本數(shù)據(jù);b)將初始文本數(shù)據(jù)部署至Hadoop平臺(tái),即開發(fā)分布式并行程序的平臺(tái);所說的部署為將步驟a生成的初始文本數(shù)據(jù)上傳至Hadoop的分布式文件系統(tǒng)(HDFS);c)并行化組建中藥藥物網(wǎng)絡(luò)TCM ;具體過程如下I)為每個(gè)中藥復(fù)方(一行文本數(shù)據(jù))設(shè)定一個(gè)唯一復(fù)方標(biāo)識(shí)ID ;2)建立從藥物到復(fù)方標(biāo)識(shí)ID之間的倒排索引;3)為每個(gè)藥物設(shè)定唯一藥物標(biāo)識(shí)id,并包含在復(fù)方中出現(xiàn)的頻次;4)再次建立倒排索引,還原中藥復(fù)方的文本數(shù)據(jù);5)分布式并行程序的每個(gè)Map函數(shù)讀取一行文本數(shù)據(jù),解析出中藥復(fù)方的藥物節(jié)點(diǎn)信息;6)兩兩組合原復(fù)方中的藥物,以按字典序小的藥物ID加上頻次作為Key,另一個(gè)作為Value,以鍵值對(duì)〈Key, Value〉的形式經(jīng)過shuffle & & sort (Hadoop平臺(tái)自帶的兩個(gè)步驟,主要對(duì)Key值進(jìn)行排序整理等)發(fā)送到Reduce函數(shù);7)開發(fā)分布式并行程序的Reduce函數(shù)接收相同Key下組成的[Value]數(shù)組(即Map函數(shù)傳遞的所有在該Key下的Value,結(jié)合上文來說即藥物的ID與其出現(xiàn)頻次),按照下式計(jì)算兩兩藥物間度量,將大于設(shè)定閾值的藥對(duì)寫入文件并保存至HDFS中
權(quán)利要求
1.基于復(fù)雜網(wǎng)絡(luò)模型并行化PageRank算法的核心藥物挖掘方法,其特征是包括如下步驟 I)組網(wǎng)階段 a)預(yù)處理生成中藥復(fù)方數(shù)據(jù)集,格式化為文本數(shù)據(jù);所說的預(yù)處理為抽取中藥復(fù)方數(shù)據(jù)中所有復(fù)方的藥物組成;每個(gè)中藥復(fù)方均格式化為文本數(shù)據(jù); b)將初始文本數(shù)據(jù)部署至Hadoop平臺(tái),即開發(fā)分布式并行程序的平臺(tái);所說的部署為將步驟a)生成的初始文本數(shù)據(jù)上傳至Hadoop的分布式文件系統(tǒng)(HDFS); c)并行化組建中藥藥物網(wǎng)絡(luò)TCM; 具體過程如下 1)為每個(gè)中藥復(fù)方(一行文本數(shù)據(jù))設(shè)定一個(gè)唯一復(fù)方標(biāo)識(shí)ID; 2)建立從藥物到復(fù)方標(biāo)識(shí)ID之間的倒排索引; 3)為每個(gè)藥物設(shè)定唯一藥物標(biāo)識(shí)id,并包含在復(fù)方中出現(xiàn)的頻次; 4)再次建立倒排索引,還原中藥復(fù)方的文本數(shù)據(jù); 5)分布式并行程序的每個(gè)Map函數(shù)讀取一行文本數(shù)據(jù),解析出中藥復(fù)方的藥物節(jié)點(diǎn)信息; 6)兩兩組合原復(fù)方中的藥物,以按字典序小的藥物ID加上頻次作為Key,另一個(gè)作為Value,以鍵值對(duì)〈Key, Value〉的形式經(jīng)過shuffle & & sort發(fā)送到Reduce函數(shù);以上為Hadoop平臺(tái)自帶的兩個(gè)步驟,對(duì)Key值進(jìn)行排序整理; 7)開發(fā)分布式并行程序的Reduce函數(shù)接收相同Key下組成的[Value]數(shù)組,即Map函數(shù)傳遞的所有在該Key下的Value,按照下式計(jì)算兩兩藥物間度量,將大于設(shè)定閾值的藥對(duì)寫入文件并保存至HDFS中
全文摘要
本發(fā)明的基于復(fù)雜網(wǎng)絡(luò)模型并行化PageRank算法的核心藥物挖掘方法包括如下步驟1)組網(wǎng)階段a)預(yù)處理生成中藥數(shù)據(jù)集,格式化為文本數(shù)據(jù);b)將初始文本數(shù)據(jù)部署至Hadoop平臺(tái);c)并行化組建中藥藥物網(wǎng)絡(luò)TCM;d)結(jié)束。2)挖掘階段a)獲取步驟1-c處理生成的中藥藥物網(wǎng)絡(luò)文本文件;b)將藥物網(wǎng)絡(luò)文本文件部署至Hadoop平臺(tái);c)實(shí)施并行化PageRank算法發(fā)現(xiàn)核心藥物節(jié)點(diǎn);d)結(jié)束。本發(fā)明的基于復(fù)雜網(wǎng)絡(luò)模型并行化PageRank算法的核心藥物挖掘方法建立了中藥藥物復(fù)雜網(wǎng)絡(luò)模型,利用并行化技術(shù)提高了組網(wǎng)以及PageRank算法的可擴(kuò)展性和運(yùn)行速度,并且能有效挖掘復(fù)方中的關(guān)鍵核心藥物節(jié)點(diǎn),研究中藥配伍規(guī)律。
文檔編號(hào)G06F19/00GK102708285SQ201210122900
公開日2012年10月3日 申請(qǐng)日期2012年4月24日 優(yōu)先權(quán)日2012年4月24日
發(fā)明者劉正, 吳駿, 王志堅(jiān), 許峰 申請(qǐng)人:河海大學(xué)