亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種引文數(shù)據(jù)庫中主題文獻(xiàn)學(xué)術(shù)影響力的分析與排序方法與流程

文檔序號:12013451閱讀:734來源:國知局
一種引文數(shù)據(jù)庫中主題文獻(xiàn)學(xué)術(shù)影響力的分析與排序方法與流程
本發(fā)明涉及引文分析技術(shù)領(lǐng)域,尤其涉及一種引文數(shù)據(jù)庫中主題文獻(xiàn)學(xué)術(shù)影響力的分析與排序方法。

背景技術(shù):
對科技文獻(xiàn)的學(xué)術(shù)影響力(academicinfluence)進(jìn)行排序或排名(ranking),有利于科技工作者選讀高質(zhì)量文獻(xiàn)、獲取權(quán)威知識、提高科技工作效率和科研成果質(zhì)量。文獻(xiàn)學(xué)術(shù)影響力分析與評價屬于文獻(xiàn)計量學(xué)(Bibliometrics)中的引文分析(citationanalysis)技術(shù)領(lǐng)域,在圖書館與信息科學(xué)等領(lǐng)域有著廣泛的應(yīng)用??萍脊ぷ髡撸ɑ蚍Q為“用戶”)檢索文獻(xiàn)并期待獲得高學(xué)術(shù)影響力文獻(xiàn)的需求往往從該用戶的興趣主題(interestedtopic)出發(fā)。因此,在用戶興趣主題上的學(xué)術(shù)期刊文章(journalarticles)或會議論文(conferencepapers)即主題文獻(xiàn)(topicalliterature)的學(xué)術(shù)影響力排名對用戶更有意義。引文分析的基本方法是建立引文索引(citationindex),并根據(jù)被引次數(shù)(citationcounts)對文獻(xiàn)、作者、出版物進(jìn)行評價。引文分析方法源于Garfield的相關(guān)理論(參見“GarfieldE.Citationindexesforscience:anewdimensionindocumentationthroughassociationofideas[J].Science,1955,122(3159):108-111.”、“GarfieldE,MertonRK.Citationindexing:Itstheoryandapplicationinscience,technology,andhumanities[M].NewYork:Wiley,1979.”)。基于Garfield的理論,大量引文數(shù)據(jù)庫(citationdatabase)得以建立,并已提供了Web檢索平臺,如:ThomsonReuters(原ISI)WebofScience(WOS),GoogleScholar,ElsevierScopus,以及中國科學(xué)引文數(shù)據(jù)庫(ChineseScienceCitationDatabase,CSCD)等。當(dāng)前,盡管引文數(shù)據(jù)庫能向用戶提供文獻(xiàn)的主題檢索(topicalsearch)功能,即當(dāng)用戶使用興趣主題進(jìn)行檢索時,系統(tǒng)給用戶返回與檢索主題相關(guān)的文獻(xiàn)(即主題文獻(xiàn)),并能按相關(guān)性(relevance)、被引次數(shù)、出版日期、來源出版物等對檢索到的主題文獻(xiàn)進(jìn)行排序。然而,存在的問題是:1、文獻(xiàn)與檢索主題之間的相關(guān)性不能完全反映文獻(xiàn)的學(xué)術(shù)影響力;2、被引次數(shù)也無法完全體現(xiàn)文獻(xiàn)學(xué)術(shù)影響力,這是因為各個被引文獻(xiàn)的諸多施引文獻(xiàn)并不能認(rèn)為具有同等的質(zhì)量或影響力,而且發(fā)表時間長的文獻(xiàn)更容易獲得高被引次數(shù),被引次數(shù)尤其不能衡量文獻(xiàn)在特定主題上的學(xué)術(shù)影響力,因為統(tǒng)計被引次數(shù)時文獻(xiàn)引用并未區(qū)分主題;3、文獻(xiàn)來源出版物的影響力(例如,期刊影響因子等)也無法簡單地用于評價單個文獻(xiàn)的影響力。為建立更為有效的文獻(xiàn)學(xué)術(shù)影響力分析與評價方法,許多研究以文獻(xiàn)引用與被引次數(shù)為基礎(chǔ),提出了一系列改進(jìn)方法。與引文數(shù)據(jù)庫中主題檢索相類似的是萬維網(wǎng)上網(wǎng)頁的主題搜索,Web用戶在搜索引擎(如Google)中輸入感興趣的主題檢索詞后,搜索引擎給用戶返回該主題上的相關(guān)網(wǎng)頁。SergeyBrin和LawrencePage提出了用于Google搜索引擎的PageRank方法。該P(yáng)ageRank方法通過對萬維網(wǎng)上相互鏈接的網(wǎng)頁進(jìn)行鏈接分析(linkanalysis),計算出各網(wǎng)頁的權(quán)重(weighting),以度量網(wǎng)頁的相對重要性。科技文獻(xiàn)之間的引用關(guān)系類似于網(wǎng)頁間的鏈接關(guān)系,因此,理論上講,PageRank方法或其思想可運用于文獻(xiàn)的重要性或影響力排序。許多改進(jìn)方法都運用了PageRank方法或借鑒其思想,大體可分為以下三類。第一類方法:采用僅依賴于鏈接分析的技術(shù)方案,主要包括:Ma等人公開了一種直接使用PageRank方法來對科技文獻(xiàn)學(xué)術(shù)影響力進(jìn)行排序的方法(參見“MaN,GuanJ,ZhaoY.BringingPageRanktothecitationanalysis[J].InformationProcessing&Management,2008,44(2):800-810.”),主要思想是:一篇文獻(xiàn)的重要程度取決于它被多少施引文獻(xiàn)所引用及這些施引文獻(xiàn)的質(zhì)量,在隨機(jī)游走時以同等概率從施引文獻(xiàn)游走到所有被引文獻(xiàn)。然而,其主要不足是:1、文獻(xiàn)學(xué)術(shù)影響力排序與用戶的興趣主題無關(guān);2、僅考慮文獻(xiàn)引用關(guān)系的純鏈接分析并不能合理評價文獻(xiàn)的學(xué)術(shù)影響力。Zhou等人公開了一種利用作者與文獻(xiàn)關(guān)系、文獻(xiàn)間引用關(guān)系、作者合著關(guān)系三種不同類型的鏈接,采用PageRank方法思想同時對文獻(xiàn)及作者的重要性進(jìn)行排序的方法(參見“ZhouD,OrshanskiySA,ZhaH,etal.Co-rankingauthorsanddocumentsinaheterogeneousnetwork[C]//SeventhIEEEInternationalConferenceonDataMining(ICDM2007),IEEE,2007:739-744.”)。然而,其主要不足是:不支持給定用戶查詢主題的重要性排序,考慮的文獻(xiàn)學(xué)術(shù)影響力因素較為簡單。Yan等人公開了一種利用作者與文獻(xiàn)關(guān)系、文獻(xiàn)間引用關(guān)系,文獻(xiàn)與期刊關(guān)系三種不同類型的鏈接,采用PageRank方法思想同時對文獻(xiàn)、作者、期刊的學(xué)術(shù)威望進(jìn)行排序的方法(參見“YanE,DingY,SugimotoCR.P-Rank:Anindicatormeasuringprestigeinheterogeneousscholarlynetworks[J].JournaloftheAmericanSocietyforInformationScienceandTechnology,2011,62(3):467-477.”)。然而,其主要不足是:不支持給定用戶查詢主題的重要性排序,考慮的文獻(xiàn)學(xué)術(shù)影響力因素較為簡單。中國專利公開號CN102298579A,公開日2011年12月28日,名稱為“面向科技文獻(xiàn)的論文、作者和期刊排序模型及排序方法”,公開了一種包含論文(P)、作者(A)、會議或期刊(J)三種結(jié)點及相互間五種關(guān)系的有向圖模型——PAJ模型,以及基于PAJ模型的排序方法,基本原理是根據(jù)五種鏈接關(guān)系生成轉(zhuǎn)移概率矩陣,利用矩陣迭代計算結(jié)果作為排序的依據(jù)。然而,其主要不足是:1、沒有提供用戶興趣主題上的主題文獻(xiàn)排序方法;2、論文排序是僅基于鏈接分析的所謂“熱門”度排序,而非綜合考慮多種影響力因素的主題文獻(xiàn)學(xué)術(shù)影響力排序。第二類方法:采用在鏈接分析中加入其他因素的技術(shù)方案,主要包括:Krapivin等人公開了一種稱為FocusedPageRank(FPR)的基于PageRank的文獻(xiàn)排序方法(參見“KrapivinM,MarcheseM.Focusedpagerankinscientificpapersranking[C]//Proceedingsofthe11thInternationalConferenceonAsianDigitalLibraries:UniversalandUbiquitousAccesstoInformation,2008:122-153.”),基本思想是:具有較高被引次數(shù)的文獻(xiàn)更容易被人發(fā)現(xiàn)從而被人引用,在隨機(jī)游走時以更高概率游走到被引次數(shù)高的文獻(xiàn)。但其主要不足是:1、文獻(xiàn)排序與用戶興趣主題無關(guān);2、僅考慮被引次數(shù)不能產(chǎn)生合理的文獻(xiàn)學(xué)術(shù)影響力排序。Walker等人公開了一種文獻(xiàn)排序的CiteRank方法(參見“WalkerD,XieH,YanKK,etal.Rankingscientificpublicationsusingamodelofnetworktraffic[J].JournalofStatisticalMechanics:TheoryandExperiment,2007,DOI10.1088/1742-5468/2007/06/P06010.”);Li等人公開了一種文獻(xiàn)排序的TS-Rank方法(參見“LiX,LiuB,PhilipSY.Timesensitiverankingwithapplicationtopublicationsearch[M]//LinkMining:Models,Algorithms,andApplications.SpringerNewYork,2010:187209.”)。這兩種方法的共同思想是:引入一個關(guān)于文獻(xiàn)出版年的時間衰變因素,在引文網(wǎng)絡(luò)上隨機(jī)游走時以更大概率游走到較近出版的文獻(xiàn)。然而,這兩種排序方法的共同缺陷在于:1、文獻(xiàn)排序與用戶興趣主題不相關(guān);2、在文獻(xiàn)引用關(guān)系的基礎(chǔ)上,僅考慮了文獻(xiàn)出版時間因素,是一種理想化的隨機(jī)游走模型,但實際中,科技工作者在選擇文獻(xiàn)時還會同時考慮其他多種因素,如:文獻(xiàn)來源出版物的影響力、文獻(xiàn)的被引次數(shù)等。因此,這類文獻(xiàn)排序方法難以產(chǎn)生合理的文獻(xiàn)學(xué)術(shù)影響力排序。Hwang等人和Yan等人分別提出了同時將文獻(xiàn)的出版年、來源出版物兩個因素融合到PageRank方法中,以實現(xiàn)一種更精準(zhǔn)的文獻(xiàn)權(quán)威性排序的方法(參見“HwangWS,ChaeSM,KimSW,etal.Yetanotherpaperrankingalgorithmadvocatingrecentpublications[C]//Proceedingsofthe19thInternationalConferenceonWorldWideWeb,ACM,2010:11171118.”、“YanE,DingY.Weightedcitation:Anindicatorofanarticle'sprestige[J].JournaloftheAmericanSocietyforInformationScienceandTechnology,2010,61(8):1635-1643.”)。這類方法的主要思想是:在隨機(jī)游走時以更大概率游走到來源出版物學(xué)術(shù)影響力大且出版年份近的文獻(xiàn)。然而,這類改進(jìn)方法的主要不足是:未考慮文獻(xiàn)引用的主題相關(guān)性,而且不支持用戶指定主題的文獻(xiàn)學(xué)術(shù)影響力排序。Wang等人公開了綜合利用作者與文獻(xiàn)關(guān)系、文獻(xiàn)間引用關(guān)系、文獻(xiàn)與期刊關(guān)系三種不同類型的鏈接以及文獻(xiàn)的作者、來源出版物、出版年因素,實現(xiàn)一種將PageRank方法與HITS方法相結(jié)合的文獻(xiàn)排序方法(參見“WangY,TongY,ZengM.Rankingscientificarticlesbyexploitingcitations,authors,journals,andtimeinformation[C]//Twenty-SeventhAAAIConferenceonArtificialIntelligence.2013.”)。然而,其不足之處是:未考慮文獻(xiàn)引用的主題相關(guān)性,也不支持用戶指定主題的文獻(xiàn)學(xué)術(shù)影響力排序。第三類方法:采用概率主題建模與鏈接分析相結(jié)合的技術(shù)方案,主要包括:Wu等人公開了一種基于PageRank思想的主題層特征向量(Topic-leveleigenfactor,TEF)方法(參見“WuH,HeJ,PeiY.Scientificimpactatthetopiclevel:Acasestudyincomputationallinguistics[J].JournaloftheAmericanSocietyforInformationScienceandTechnology,2010,61(11):2274-2287.”)。該TEF方法的基本思想是:首先根據(jù)LDA概率主題模型自動抽取隱含在文獻(xiàn)集里的所有主題并確定所有文獻(xiàn)的主題概率分布,在隨機(jī)游走時優(yōu)先游走到主題概率高的文獻(xiàn)結(jié)點。然而,其不足之處是:1、只能在概率主題建模分析得出的主題上進(jìn)行文獻(xiàn)相對重要性排序,無法實現(xiàn)用戶給定興趣主題的文獻(xiàn)學(xué)術(shù)影響力排序;2、概率主題建模采用文本分析技術(shù),所生成的主題太多(幾百甚至幾千個)且主題往往不合理或不符合實際,難以實用;3、文獻(xiàn)重要性排序只考慮了主題相關(guān)度因素,因此排序結(jié)果不夠合理。Nallapati等人公開了一種稱為TopicFlow的文獻(xiàn)影響力分析方法(參見“NallapatiR,McfarlandDA,ManningCD.Topicflowmodel:Unsupervisedlearningoftopic-specificinfluencesofhyperlinkeddocuments[C]//InternationalConferenceonArtificialIntelligenceandStatistics.2011:543-551.”),基本思想是:結(jié)合概率主題模型(topicmodel)及網(wǎng)絡(luò)流(networkflow)思想推理出文獻(xiàn)集中隱含的主題,同時通過非監(jiān)督學(xué)習(xí)出文獻(xiàn)在隱含主題上的影響力。然而,該方法的主要缺陷是:1、只能在概率主題建模分析得到的主題上進(jìn)行文獻(xiàn)影響力排序,無法實現(xiàn)用戶給定興趣主題的文獻(xiàn)學(xué)術(shù)影響力排序;2、所考慮的影響力因素僅為文獻(xiàn)間引用關(guān)系。除了各自的不足之處外,以上列出的所有方法還有一個共同缺陷:未能充分利用現(xiàn)有引文數(shù)據(jù)庫的主題檢索功能去收集用戶興趣主題上的相關(guān)文獻(xiàn)及多種影響力因素數(shù)據(jù),并對諸多因素進(jìn)行系統(tǒng)建模與科學(xué)分析。因此,有必要提出一種更為有效的主題文獻(xiàn)學(xué)術(shù)影響力的分析與排序方法,以充分利用現(xiàn)有引文數(shù)據(jù)庫的主題檢索功能來收集用戶興趣主題上的相關(guān)文獻(xiàn)及多種影響力因素數(shù)據(jù),并利用因子圖的概率建模與推理計算功能對諸多學(xué)術(shù)影響力因素進(jìn)行系統(tǒng)建模與科學(xué)分析,從而克服現(xiàn)有文獻(xiàn)學(xué)術(shù)影響力排序方法不能針對用戶興趣主題產(chǎn)生排序結(jié)果或者因未綜合考慮多種學(xué)術(shù)影響力因素而產(chǎn)生不合理與不準(zhǔn)確排序結(jié)果的缺陷,以提高用戶的科技工作效率和科研成果質(zhì)量。

技術(shù)實現(xiàn)要素:
本發(fā)明的目的旨在提供一種引文數(shù)據(jù)庫中主題文獻(xiàn)學(xué)術(shù)影響力的分析與排序方法,能夠提高用戶給定主題上文獻(xiàn)學(xué)術(shù)影響力排序的有效性、準(zhǔn)確率,以提高用戶的科技工作效率和科研成果質(zhì)量。本發(fā)明提供一種引文數(shù)據(jù)庫中主題文獻(xiàn)學(xué)術(shù)影響力的分析與排序方法,包括:在引文數(shù)據(jù)庫中進(jìn)行主題檢索,獲取主題文獻(xiàn)元數(shù)據(jù)信息及主題文獻(xiàn)間引用關(guān)系;根據(jù)獲取的主題文獻(xiàn)元數(shù)據(jù)信息及主題文獻(xiàn)間引用關(guān)系構(gòu)建一個主題引文網(wǎng)絡(luò);基于主題引文網(wǎng)絡(luò)構(gòu)建一個包含文獻(xiàn)學(xué)術(shù)影響力多因素的因子圖(factorgraph)模型;使用循環(huán)最大和算法在因子圖上近似推理,確定因子圖中所有變量的邊緣概率值;根據(jù)邊緣概率值的降序排序結(jié)果,獲取并輸出所有主題文獻(xiàn)的學(xué)術(shù)影響力排序。本發(fā)明提出的一種引文數(shù)據(jù)庫中主題文獻(xiàn)學(xué)術(shù)影響力的分析與排序方法,能夠充分利用現(xiàn)有引文數(shù)據(jù)庫的主題檢索功能來收集用戶興趣主題上的相關(guān)文獻(xiàn)及多種學(xué)術(shù)影響力因素數(shù)據(jù),并利用因子圖的概率建模與推理計算功能對諸多學(xué)術(shù)影響力因素進(jìn)行系統(tǒng)建模與科學(xué)分析,從而可以實現(xiàn)用戶給定主題的文獻(xiàn)學(xué)術(shù)影響力排序。本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。附圖說明圖1示出了根據(jù)本發(fā)明技術(shù)方案的引文數(shù)據(jù)庫中主題文獻(xiàn)學(xué)術(shù)影響力的分析與排序方法的流程示意圖;圖2示出了根據(jù)本發(fā)明技術(shù)方案的不同范圍的文獻(xiàn)、文獻(xiàn)間引用關(guān)系及主題引文網(wǎng)絡(luò)示意圖;圖3示出了根據(jù)本發(fā)明技術(shù)方案的主題引文網(wǎng)絡(luò)中文獻(xiàn)結(jié)點的標(biāo)示信息的示意圖;圖4示出了根據(jù)本發(fā)明技術(shù)方案的引文數(shù)據(jù)庫中主題文獻(xiàn)學(xué)術(shù)影響力分析過程中的因子圖建模的示意圖。具體實施方式下面詳細(xì)描述本發(fā)明的實施方式,所述實施方式的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的概念、對象、要素等或具有相同或類似功能的概念、對象、要素等。下面通過參考附圖描述的實施方式是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(包括技術(shù)術(shù)語和科學(xué)術(shù)語)具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是,諸如通用字典中定義的那些術(shù)語應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里一樣定義,不會用理想化或過于正式的含義來解釋。本發(fā)明提出的改進(jìn)現(xiàn)有技術(shù)的基本方案是:1、充分利用引文數(shù)據(jù)庫的主題檢索功能及檢索結(jié)果;2、引入能對諸多因素進(jìn)行綜合建模與分析的模型。優(yōu)選地,本發(fā)明采用因子圖(factorgraph)模型對引文數(shù)據(jù)庫中主題文獻(xiàn)學(xué)術(shù)影響力排序進(jìn)行綜合建模與分析。因子圖作為一種新型的概率圖模型(probabilisticgraphicalmodel),已成為機(jī)器學(xué)習(xí)(machinelearning)的新方法,適合于建?,F(xiàn)實世界的復(fù)雜系統(tǒng)并導(dǎo)出相關(guān)識別與估算問題的消息傳遞(messagepassing)方法。例如,因子圖可應(yīng)用于概率建模,并可簡化貝葉斯網(wǎng)絡(luò)(Bayesiannetworks)、馬爾可夫隨機(jī)場(Markovrandomfields)等傳統(tǒng)概率圖模型的推理。數(shù)學(xué)上,因子圖是描述定義在某個變量集上的一個全局函數(shù)被因式分解為定義在該變量集的若干變量子集上的局部函數(shù)的乘積,即公式(1)表示的因式分解。其中:h(x1,...,xn)是定義在變量集{x1,...,xn}上的全局函數(shù);J是離散索引集;Xj是{x1,...,xn}的子集,即fj(Xj)是以Xj中元素為自變量的局部函數(shù)(也稱因子)。因子圖是由兩類結(jié)點構(gòu)成的二部圖(bipartitegraph):每個變量xi對應(yīng)一個變量結(jié)點(用小圓圈表示),每個局部函數(shù)fj(Xj)對應(yīng)一個因子結(jié)點(用小矩形表示),當(dāng)且僅當(dāng)xi是函數(shù)fj(Xj)的自變量時,相應(yīng)變量結(jié)點與相應(yīng)因子結(jié)點之間才有一條無向邊相連。因子圖是一種通用模型框架,在運用因子圖時,需根據(jù)特定的實際問題來確定合適的變量集、局部函數(shù)、全局函數(shù)及其因式分解,并根據(jù)因子圖中是否有環(huán)(cycles或loops)來設(shè)計合適的精確推理(exactinference)或近似推理(approximateinference)方法,尤其是確定推理方法中合適的消息傳遞規(guī)則與調(diào)度策略等。圖1示出了根據(jù)本發(fā)明一實施方式的引文數(shù)據(jù)庫中主題文獻(xiàn)學(xué)術(shù)影響力的分析與排序方法的流程示意圖。如圖1所示,本發(fā)明公開一種引文數(shù)據(jù)庫中主題文獻(xiàn)學(xué)術(shù)影響力的分析與排序方法,包括:步驟S1,在引文數(shù)據(jù)庫中進(jìn)行主題檢索,獲取主題文獻(xiàn)元數(shù)據(jù)信息及主題文獻(xiàn)間引用關(guān)系;步驟S2,根據(jù)獲取的主題文獻(xiàn)元數(shù)據(jù)信息及主題文獻(xiàn)間引用關(guān)系構(gòu)建一個主題引文網(wǎng)絡(luò);步驟S3,基于主題引文網(wǎng)絡(luò)構(gòu)建一個包含文獻(xiàn)學(xué)術(shù)影響力多因素的因子圖模型;步驟S4,使用循環(huán)最大和算法在因子圖上近似推理,確定因子圖中所有變量的邊緣概率值;步驟S5,根據(jù)邊緣概率值的降序排序結(jié)果,獲取并輸出所有主題文獻(xiàn)的學(xué)術(shù)影響力排序。進(jìn)一步地,在引文數(shù)據(jù)庫中進(jìn)行主題檢索,獲取主題文獻(xiàn)元數(shù)據(jù)信息及文獻(xiàn)間引用關(guān)系,包括:在引文數(shù)據(jù)庫中使用用戶感興趣的主題進(jìn)行主題檢索,并設(shè)置檢索結(jié)果按主題相關(guān)性降序排序;從檢索結(jié)果中獲取主題文獻(xiàn)元數(shù)據(jù)信息及主題文獻(xiàn)間引用關(guān)系。進(jìn)一步地,根據(jù)獲取的主題文獻(xiàn)元數(shù)據(jù)信息及主題文獻(xiàn)間引用關(guān)系構(gòu)建一個主題引文網(wǎng)絡(luò),包括:基于主題文獻(xiàn)間引用關(guān)系構(gòu)建一個以文獻(xiàn)為結(jié)點、文獻(xiàn)間引用為有向邊的有向無環(huán)圖(directedacyclicgraph);基于主題文獻(xiàn)元數(shù)據(jù)信息對有向無環(huán)圖的結(jié)點進(jìn)行標(biāo)示,形成一個結(jié)點標(biāo)示的有向無環(huán)圖作為主題引文網(wǎng)絡(luò)。進(jìn)一步地,基于主題引文網(wǎng)絡(luò)構(gòu)建一個包含文獻(xiàn)學(xué)術(shù)影響力多因素的因子圖模型,包括:確定因子圖的變量集;確定定義在因子圖變量集的子集上的局部函數(shù),其中:所述局部函數(shù)包括:文獻(xiàn)特征局部函數(shù)和文獻(xiàn)間引用特征局部函數(shù);用獲得的局部函數(shù)來確定因子圖全局函數(shù)的因式分解。進(jìn)一步地,確定因子圖的局部函數(shù)中的文獻(xiàn)特征局部函數(shù),包括:將文獻(xiàn)的主題相關(guān)性降序排序序號通過線性變換映射為實數(shù)閉區(qū)間上的主題相關(guān)性因素的取值;將文獻(xiàn)來源期刊的學(xué)術(shù)影響力通過線性變換映射為實數(shù)閉區(qū)間上的來源出版物學(xué)術(shù)影響力因素的取值;將文獻(xiàn)來源會議論文集的學(xué)術(shù)影響力通過線性變換映射為實數(shù)閉區(qū)間上的來源出版物學(xué)術(shù)影響力因素的取值;將文獻(xiàn)在引文數(shù)據(jù)庫內(nèi)的被引次數(shù)通過線性變換映射為實數(shù)閉區(qū)間上的被引次數(shù)因素的取值;為每個文獻(xiàn)引入一個年齡阻尼系數(shù)因素;綜合考慮以上四個因素,確定文獻(xiàn)特征局部函數(shù)。進(jìn)一步地,確定因子圖的局部函數(shù)中的文獻(xiàn)間引用特征局部函數(shù),包括:根據(jù)施引文獻(xiàn)與被引文獻(xiàn)的相關(guān)性降序排序序號線性變換映射值,確定主題上引用因素的取值;根據(jù)施引文獻(xiàn)與被引文獻(xiàn)的出版年份差進(jìn)行線性變換后映射為實數(shù)閉區(qū)間上的出版年份差因素的取值;綜合考慮以上兩個因素,確定因子圖中文獻(xiàn)間引用特征局部函數(shù)。進(jìn)一步地,用獲得的局部函數(shù)來確定因子圖全局函數(shù)的因式分解,包括:使用馬爾可夫隨機(jī)場中聯(lián)合分布的計算方法來確定因子圖全局函數(shù)被因式分解為局部函數(shù)乘積的方法。進(jìn)一步地,使用循環(huán)最大和算法在因子圖上近似推理,確定因子圖變量集中所有變量的邊緣概率值,包括:在因子圖的邊上進(jìn)行迭代式消息傳遞,直至迭代收斂或近似收斂;找到使得聯(lián)合分布值達(dá)到最大時因子圖變量集中所有變量的一個特定配置;計算聯(lián)合分布值達(dá)到最大時因子圖變量集中所有變量在所獲得的特定配置下的邊緣概率值。進(jìn)一步地,根據(jù)邊緣概率值的降序排序結(jié)果,獲取并輸出所有主題文獻(xiàn)的學(xué)術(shù)影響力排序,包括:獲得已確定的因子圖變量集特定配置下的所有變量的邊緣概率值,將各邊緣概率值進(jìn)行降序排序;排序好的因子圖變量所分別對應(yīng)的全部主題文獻(xiàn)構(gòu)成了主題文獻(xiàn)的學(xué)術(shù)影響力排名榜,將其作為結(jié)果輸出。本發(fā)明提出的一種引文數(shù)據(jù)庫中主題文獻(xiàn)學(xué)術(shù)影響力的分析與排序方法,能夠充分利用現(xiàn)有引文數(shù)據(jù)庫的主題檢索功能來收集用戶興趣主題上的相關(guān)文獻(xiàn)及多種學(xué)術(shù)影響力因素數(shù)據(jù),并利用因子圖的概率建模與推理計算功能對諸多學(xué)術(shù)影響力因素進(jìn)行系統(tǒng)建模與科學(xué)分析,從而可以實現(xiàn)用戶給定主題的文獻(xiàn)學(xué)術(shù)影響力排序。下文將對上述各步驟具體展開描述。為便于理解,如下表1中列出了各步驟統(tǒng)一使用的主要數(shù)學(xué)符號及其含義:表1:主要數(shù)學(xué)符號及其含義一覽表步驟S1,在引文數(shù)據(jù)庫中進(jìn)行主題檢索,獲取主題文獻(xiàn)元數(shù)據(jù)信息及文獻(xiàn)間引用關(guān)系,具體包括:步驟S1-1,在引文數(shù)據(jù)庫中使用用戶感興趣的主題進(jìn)行主題檢索,并設(shè)置檢索結(jié)果按主題相關(guān)性(topicrelevance)降序排序,具體如下:如圖2所示,圖中三個橢圓分別表示了不同范圍的文獻(xiàn)、文獻(xiàn)間引用關(guān)系的集合,包括:虛線橢圓表示的所有文獻(xiàn)及其引用關(guān)系、細(xì)實線橢圓表示的引文數(shù)據(jù)庫內(nèi)文獻(xiàn)及其引用關(guān)系、粗實線橢圓表示的主題引文網(wǎng)絡(luò)內(nèi)文獻(xiàn)及其引用關(guān)系。本發(fā)明的技術(shù)方案僅需要粗實線橢圓表示的主題引文網(wǎng)絡(luò)內(nèi)文獻(xiàn)及其引用關(guān)系,其中的文獻(xiàn)(即主題文獻(xiàn))來自主題檢索的結(jié)果(圖中d1,…,d7),其中的引用關(guān)系是主題文獻(xiàn)之間的引用關(guān)系(圖中d2引用d1,d2引用d3,d2引用d4,d1引用d3,d5引用d6),而不需要引文數(shù)據(jù)庫中的非主題文獻(xiàn)(圖中d8,…,d11)以及主題文獻(xiàn)與非主題文獻(xiàn)之間的引用關(guān)系(圖中d8引用d1,d2引用d9,d7引用d11)和非主題文獻(xiàn)之間的引用關(guān)系(d9引用d10)。引文數(shù)據(jù)庫不對圖中虛線表示的文獻(xiàn)及文獻(xiàn)間引用關(guān)系建立索引。步驟S1-2,從檢索結(jié)果中獲取主題文獻(xiàn)元數(shù)據(jù)信息及主題文獻(xiàn)間引用關(guān)系,具體包括:(1)主題文獻(xiàn)集{dn|n=1,…,N},其中,dn是任一主題文獻(xiàn)的標(biāo)識符,N是主題文獻(xiàn)總篇數(shù);(2)主題文獻(xiàn)的主題相關(guān)性值(如果引文數(shù)據(jù)庫向用戶提供相關(guān)性值的話)或相關(guān)性降序排序序號(如果引文數(shù)據(jù)庫不向用戶提供相關(guān)性值的話)構(gòu)成的集合{rn|n=1,…,N};(3)主題文獻(xiàn)的來源出版物(期刊或會議論文集)學(xué)術(shù)影響力構(gòu)成的集合{in|n=1,…,N};(4)主題文獻(xiàn)在引文數(shù)據(jù)庫內(nèi)的被引次數(shù)構(gòu)成的集合{cn|n=1,…,N};(5)主題文獻(xiàn)出版年構(gòu)成的集合{tn|n=1,…,N};(6)主題文獻(xiàn)間引用關(guān)系構(gòu)成的集合{eij|i,j=1,…,N且di引用dj}。步驟S2,根據(jù)獲取的主題文獻(xiàn)元數(shù)據(jù)信息及主題文獻(xiàn)間引用關(guān)系構(gòu)建一個主題引文網(wǎng)絡(luò),具體包括:步驟S2-1,基于主題文獻(xiàn)間引用關(guān)系構(gòu)建一個以文獻(xiàn)為結(jié)點、文獻(xiàn)間引用為有向邊的有向無環(huán)圖(directedacyclicgraph),如圖2(其中的粗輪廓線內(nèi)部分)所示,具體如下:有向無環(huán)圖G=(D,E),其中,D={dn|n=1,…,N}是主題文獻(xiàn)集,E={eij|i,j=1,…,N且di引用dj}是主題文獻(xiàn)間引用關(guān)系集,N是圖中結(jié)點個數(shù)(即主題文獻(xiàn)總篇數(shù))。步驟S2-2,基于主題文獻(xiàn)元數(shù)據(jù)信息對有向無環(huán)圖的結(jié)點進(jìn)行標(biāo)示,形成一個結(jié)點標(biāo)示的有向無環(huán)圖即主題引文網(wǎng)絡(luò)(topicalcitationnetwork),具體如下:主題引文網(wǎng)絡(luò)是一個結(jié)點標(biāo)示的(node-labeled)有向無環(huán)圖Gl=(D,E,R,I,C,T),標(biāo)示信息如圖3所示,其中,D={dn|n=1,…,N},E={enm|n,m=1,…,N且dn引用dm},R={rn|n=1,…,N}是主題文獻(xiàn)的主題相關(guān)性值或相關(guān)性降序排序序號,I={in|n=1,…,N}是主題文獻(xiàn)的來源出版物(期刊或會議論文集)學(xué)術(shù)影響力,C={cn|n=1,…,N}是主題文獻(xiàn)在引文數(shù)據(jù)庫內(nèi)的被引次數(shù),T={tn|n=1,…,N}是主題文獻(xiàn)出版年,rn,in,cn,tn用于標(biāo)示dn,n=1,…,N,N是圖中結(jié)點個數(shù)(即主題文獻(xiàn)總篇數(shù))。步驟S3,基于主題引文網(wǎng)絡(luò)構(gòu)建一個包含文獻(xiàn)學(xué)術(shù)影響力多因素的因子圖模型,如圖4所示,具體包括:步驟S3-1,確定因子圖的變量集,具體如下:為每篇主題文獻(xiàn)定義一個隱含變量,即為標(biāo)識全部主題文獻(xiàn)的觀察變量集{dn|n=1,…,N}定義相應(yīng)的隱含變量集{xn|xn=0或1,且n=1,…,N},作為因子圖的變量集,當(dāng)xn=0時表示文獻(xiàn)dn不是主題上的有學(xué)術(shù)影響力論文,當(dāng)xn=1時表示文獻(xiàn)dn是主題上的有學(xué)術(shù)影響力論文。步驟S3-2,確定定義在因子圖變量集的子集上的局部函數(shù),具體包括:步驟S3-2-1,確定因子圖的局部函數(shù)中的文獻(xiàn)特征局部函數(shù),具體如下:由于文獻(xiàn)與檢索主題的相關(guān)性越高就越有可能在給定主題上具有較高學(xué)術(shù)影響力,因此需要考慮文獻(xiàn)的主題相關(guān)性因素。具體計算方法是,將主題文獻(xiàn)的主題相關(guān)性值(如果引文數(shù)據(jù)庫向用戶提供相關(guān)性值的話)或相關(guān)性降序排序序號(如果引文數(shù)據(jù)庫不向用戶提供相關(guān)性值的話)r1,…,rN按公式(2)通過線性變換映射為實數(shù)閉區(qū)間[αr,βr]上的取值稱主題相關(guān)性因素,其中,常量αr和βr分別取信息檢索(informationretrieval)領(lǐng)域的搜索引擎排序算法中相關(guān)性的最小值(也稱閾值(threshold))和最大值(如:αr=0.5,βr=0.8)。由于文獻(xiàn)來源出版物(包括期刊或會議論文集)的學(xué)術(shù)影響力可以在一定程度上反映所刊發(fā)文獻(xiàn)的(平均)學(xué)術(shù)影響力,因此需要考慮文獻(xiàn)來源出版物影響力因素。當(dāng)前的引文數(shù)據(jù)庫均提供了期刊學(xué)術(shù)影響力的評價指標(biāo),例如,WOS采用期刊影響因子(impactfactor),GoogleScholar采用期刊的h5指數(shù)(h5-index),Scopus采用SJR(SCImagoJournalRank)指標(biāo)。對于學(xué)術(shù)會議,國際學(xué)術(shù)界針對不同學(xué)科領(lǐng)域提供了會議學(xué)術(shù)影響力排名,例如,MicrosoftAcademicSearch:http://academic.research.microsoft.com/和AcademicInfluenceRanking:http://137.189.97.151/。這樣,我們就可以利用期刊學(xué)術(shù)影響力評價指標(biāo)值和會議學(xué)術(shù)影響力排名來衡量文獻(xiàn)來源出版物學(xué)術(shù)影響力因素。具體計算方法是,首先,文獻(xiàn)來源期刊的學(xué)術(shù)影響力評價指標(biāo)值im,m∈{1,…,N}(注:dm的來源出版物是期刊)按公式(3a)通過線性變換映射為實數(shù)閉區(qū)間[αi,βi]上的取值m∈{1,…,N},稱來源出版物學(xué)術(shù)影響力因素,其中,常量αi和βi應(yīng)分別取變換映射后的最小值和最大值(如:αi=0.001,βi=1.0)。式中:dm的來源出版物是期刊。其次,文獻(xiàn)來源會議論文集學(xué)術(shù)影響力排名ik,k∈{1,…,N}(注:dk的來源出版物是會議論文集)按公式(3b)通過線性變換映射為實數(shù)閉區(qū)間[αi,βi]上的取值稱來源出版物學(xué)術(shù)影響力因素,其中,常量αi和βi應(yīng)分別取變換映射后的最小值和最大值(如:αi=0.001,βi=1.0)。式中:dk的來源出版物是會議論文集。一篇文獻(xiàn)的來源出版物要么是期刊,要么是會議論文集。當(dāng)文獻(xiàn)來源于期刊時,來源出版物學(xué)術(shù)影響力因素按公式(3a)計算而得;當(dāng)文獻(xiàn)來源于會議論文集時,來源出版物學(xué)術(shù)影響力因素按公式(3b)計算而得。這樣,公式(3a)和(3b)的計算結(jié)果正好確定了全部的即:且由于文獻(xiàn)被引次數(shù)是衡量文獻(xiàn)學(xué)術(shù)影響力的常用指標(biāo),引文數(shù)據(jù)庫都提供這種文獻(xiàn)評價指標(biāo),因此需要考慮文獻(xiàn)在引文數(shù)據(jù)庫內(nèi)的被引次數(shù)因素。具體計算方法是,將文獻(xiàn)在引文數(shù)據(jù)庫內(nèi)的被引次數(shù)c1,…,cN按公式(4)通過線性變換映射為實數(shù)閉區(qū)間[αc,βc]上的取值稱被引次數(shù)因素,其中,常量αc和βc應(yīng)分別取變換映射后的最小值和最大值(如:αc=0.001,βc=1.0)。由于發(fā)表年代久遠(yuǎn)的文獻(xiàn)往往比新近發(fā)表的文獻(xiàn)更有機(jī)會被別的文獻(xiàn)引用,也就是說,僅用文獻(xiàn)被引次數(shù)來衡量其學(xué)術(shù)影響力對新近發(fā)表的文獻(xiàn)很不“公平”,因此需要為每個文獻(xiàn)引入一個年齡阻尼系數(shù)(agedampingfactor)因素a1,…,aN,其計算公式(5)如下:an=exp(-agen/τ),n=1,…,N(5)式中:agen是文獻(xiàn)dn已發(fā)表的年數(shù),即主題檢索的當(dāng)年年份減去該文獻(xiàn)的出版年份tn;τ是衰變時間(decaytime),通常根據(jù)不同學(xué)科領(lǐng)域或主題的不同技術(shù)發(fā)展(或老化)速度取不同的常數(shù),例如,計算機(jī)科學(xué)學(xué)科可以取τ=4,物理學(xué)科可以取τ=8,文獻(xiàn)計量學(xué)界有大量相應(yīng)研究成果,可借鑒已有研究成果選取合適的τ值。綜合考慮以上四個因素,文獻(xiàn)特征局部函數(shù)定義公式(6)如下:式中:是歸一化常數(shù)(normalizationconstant)。步驟S3-2-2,確定因子圖的局部函數(shù)中的文獻(xiàn)間引用特征局部函數(shù),具體如下:由于對于主題引文網(wǎng)絡(luò)中的每個文獻(xiàn)引用關(guān)系,當(dāng)施引文獻(xiàn)與被引文獻(xiàn)的主題相關(guān)性差異較小且兩篇文獻(xiàn)的主題相關(guān)性均較大時,表明被引文獻(xiàn)很可能是給定主題上有影響力的文獻(xiàn),反之,當(dāng)兩篇文獻(xiàn)的主題相關(guān)性差異較大或它們的主題相關(guān)性均較小時,表明被引文獻(xiàn)不太可能是給定主題上有影響力的文獻(xiàn),因此需要引入一個主題上引用因素qnm,n,m∈{1,…,N},且enm∈E,其計算公式(7)如下:由于對于主題引文網(wǎng)絡(luò)中的每個文獻(xiàn)引用關(guān)系,當(dāng)施引文獻(xiàn)與被引文獻(xiàn)的出版年份差較大時,表明被引文獻(xiàn)的學(xué)術(shù)影響力較為持久,因此需要引入一個出版年份差因素且enm∈E。具體計算方式是:對兩篇文獻(xiàn)的出版年份差snm=tn-tm按公式(8)進(jìn)行線性變換后映射為實數(shù)閉區(qū)間[αs,βs]上的取值,稱出版年份差因素,其中,常量αs和βs分別取變換映射后的最小值和最大值(如:αs=0.001,βs=1.0)。綜合考慮以上兩個因素,文獻(xiàn)間引用特征局部函數(shù)定義公式(9)如下:式中:是歸一化常數(shù)。步驟S3-3,用獲得的局部函數(shù)來確定因子圖全局函數(shù)的因式分解,具體如下:本發(fā)明的因子圖模型所表示的是一種稱為馬爾可夫隨機(jī)場的概率圖模型,因子圖的全局函數(shù)就是馬爾可夫隨機(jī)場中的聯(lián)合分布(jointdistribution)。根據(jù)馬爾科夫隨機(jī)場中聯(lián)合分布的計算方法,聯(lián)合分布是圖中所有最大團(tuán)(maximalclique)上勢函數(shù)(potentialfunction)相乘后進(jìn)行歸一化;而最大團(tuán)上的勢函數(shù)可定義為該團(tuán)所包含的全部局部函數(shù)的乘積。因此,因子圖全局函數(shù)即聯(lián)合分布p(x1,…,xN)的因式分解公式(10)如下:式中:是歸一化常數(shù),亦稱配分函數(shù)(partitionfunction);常數(shù)可看成是定義在變量空集上的一個局部函數(shù)。步驟S4,使用循環(huán)最大和算法在因子圖上近似推理,確定因子圖變量集中所有變量的邊緣概率值,具體包括:本發(fā)明的因子圖是有環(huán)因子圖,這種因子圖上只能進(jìn)行近似推理(approximateinference),最適合使用循環(huán)最大和(loopymax-sum)推理算法。因子圖上進(jìn)行循環(huán)最大和推理的計算任務(wù)是:在因子圖的變量集配置空間(configurationspace)中找到全部變量(x1,…,xN)的一個特定配置,使得公式(10)所定義的聯(lián)合分布值達(dá)到最大,并計算此時因子圖變量集中所有變量在所獲得的特定配置下的邊緣概率值(marginalprobability)。推理計算的步驟包括:步驟S4-1,在因子圖的邊上進(jìn)行迭代式消息傳遞,直至迭代收斂或近似收斂,具體如下:首先,定義因子圖中變量結(jié)點與因子結(jié)點之間的消息傳遞規(guī)則(messagepassingrules):從變量結(jié)點到因子結(jié)點的邊上傳遞的消息由公式(11)及(12)定義:式中:ne(xn)\{f}表示變量結(jié)點xn的相鄰因子結(jié)點集去除因子f后的因子結(jié)點集;式中:ne(xn)\{g}表示變量結(jié)點xn的相鄰因子結(jié)點集去除因子g后的因子結(jié)點集。從因子結(jié)點到變量結(jié)點的邊上傳遞的消息由公式(13)及(14)定義:式中:ne(g)\{xn}表示因子結(jié)點g的相鄰變量集去除變量xn后的變量集(對于本因子圖,只剩一個變量)。從(變量或因子)葉子結(jié)點傳遞出的初始消息由公式(15)及(16)定義:然后,按串行調(diào)度(serialschedule)方式迭代傳遞消息,選擇因子圖中的任一變量結(jié)點xn作為根結(jié)點,利用公式(11)、(12)、(13)、(14)定義的消息傳遞規(guī)則,反復(fù)從葉子結(jié)點到根結(jié)點進(jìn)行消息傳遞,并按照公式(17)計算聯(lián)合分布的最大值,直到前后兩次迭代過程中所有因子圖邊上傳遞的新舊消息差均小于事先設(shè)定的很小的收斂公差(convergencetolerance)值為止(當(dāng)新舊消息差均為0時,迭代收斂;否則,迭代近似收斂)。步驟S4-2,找到使得聯(lián)合分布值達(dá)到最大時因子圖變量集中所有變量的一個特定配置,具體如下:當(dāng)推理算法(近似)收斂時,可得根結(jié)點xn在聯(lián)合分布達(dá)到最大值pmax時的一個特定配置如公式(18)所示:式中:ne(xn)表示變量結(jié)點xn的所有相鄰因子結(jié)點集。當(dāng)根結(jié)點xn的特定配置確定后,將公式(18)運用于因子圖變量集中的剩余變量,以確定它們在聯(lián)合分布達(dá)到最大值pmax時的特定配置。步驟S4-3,計算聯(lián)合分布值達(dá)到最大時因子圖變量集中所有變量在所獲得的特定配置下的邊緣概率值,具體如下:對每個變量xn,將其所有相鄰的因子結(jié)點最新傳遞到該變量上的所有消息進(jìn)行相乘,即可計算出該變量的邊緣概率值,由公式(19)定義:步驟S5,根據(jù)邊緣概率值的降序排序結(jié)果,獲取并輸出所有主題文獻(xiàn)的學(xué)術(shù)影響力排序,具體如下:獲得已確定的因子圖變量集特定配置中所有xn=1,n∈{1,…,N}的變量邊緣概率值p(xn=1),將各邊緣概率值進(jìn)行降序排序;排序好的因子圖變量所分別對應(yīng)的全部主題文獻(xiàn)構(gòu)成了主題文獻(xiàn)的學(xué)術(shù)影響力排名榜,將其作為結(jié)果輸出。由于因子圖方法具有可擴(kuò)展性,因此因子數(shù)量可以根據(jù)實際需要進(jìn)行增加或減少。本發(fā)明實施例中提出的因子及其數(shù)量基本囊括了本領(lǐng)域目前涉及的主要因素,但本發(fā)明實施例中的因子及其數(shù)量并不以此為限。下文將以湯森路透集團(tuán)(ThomsonReuters)的著名引文數(shù)據(jù)庫WebofScience(WOS)為實例,以當(dāng)前熱門研究“大數(shù)據(jù)(bigdata)”為檢索主題進(jìn)行舉例說明。需說明是,本發(fā)明的技術(shù)方案同樣也可用其他引文數(shù)據(jù)庫(如GoogleScholar、ElsevierScopus等)或其他用戶興趣主題來實施。圖1為本發(fā)明技術(shù)方案的流程圖,具體實施步驟如下:步驟S1,在引文數(shù)據(jù)庫中進(jìn)行主題檢索,獲取主題文獻(xiàn)元數(shù)據(jù)信息及文獻(xiàn)間引用關(guān)系,具體包括:步驟S1-1,在引文數(shù)據(jù)庫中使用用戶感興趣的主題進(jìn)行主題檢索,并設(shè)置檢索結(jié)果按主題相關(guān)性降序排序,具體實施方式如下:在引文數(shù)據(jù)庫WOS的“基本檢索”服務(wù)中設(shè)定檢索范圍為“主題”,在檢索式中輸入“bigdata”(帶引號)字符串,限制引文索引數(shù)據(jù)庫為ScienceCitationIndexExpanded(SCI-EXPANDED)和ConferenceProceedingsCitationIndex-Science(CPCI-S),限制時間跨度為“從1996至2013”,在檢索結(jié)果設(shè)置中選擇排序方式為“相關(guān)性”。步驟S1-2,從檢索結(jié)果中獲取主題文獻(xiàn)元數(shù)據(jù)信息及主題文獻(xiàn)間引用關(guān)系,具體實施方式如下:在以上檢索結(jié)果中下載全部608篇文獻(xiàn)的全記錄與引用的參考文獻(xiàn)(注:本實施例的檢索時間為北京時間2013年12月5日20:01),并保存為ISI格式的純文本文件作為檢索結(jié)果集文件,加上引文數(shù)據(jù)庫提供的其他必要信息以及其他必要的來源信息(見下),可提取出如下信息:(1)主題文獻(xiàn)集:直接從檢索結(jié)果集文件中提?。唬?)主題文獻(xiàn)的相關(guān)性降序排序序號構(gòu)成的集合:由于文獻(xiàn)與檢索主題的相關(guān)性值不能直接從WOS檢索結(jié)果中獲得,因此需要手工從檢索結(jié)果中獲取文獻(xiàn)的主題相關(guān)性降序排序序號;(3)主題文獻(xiàn)的來源出版物(期刊或會議論文集)學(xué)術(shù)影響力構(gòu)成的集合:從檢索結(jié)果集文件中獲取文獻(xiàn)的來源出版物名稱與類型;若來源出版物類型為期刊,則從WOS數(shù)據(jù)庫提供的《期刊引證報告(JournalCitationReports,JCR)》中獲取相關(guān)期刊的影響因子(ImpactFactor)作為主題文獻(xiàn)來源出版物的學(xué)術(shù)影響力(注:其他引文數(shù)據(jù)庫也提供了相應(yīng)的期刊學(xué)術(shù)影響力的評價指標(biāo)),若來源出版物類型為會議論文集,則從MicrosoftAcademicSearch(http://academic.research.microsoft.com/)提供的計算機(jī)科學(xué)領(lǐng)域的3521個學(xué)術(shù)會議排名中獲取相關(guān)會議的領(lǐng)域評價分(FieldRating)作為主題文獻(xiàn)來源出版物的學(xué)術(shù)影響力(注:其他評價系統(tǒng)也提供了各個學(xué)科領(lǐng)域的會議學(xué)術(shù)影響力排名);(4)主題文獻(xiàn)在引文數(shù)據(jù)庫內(nèi)的被引次數(shù)構(gòu)成的集合:直接從檢索結(jié)果集文件中提??;(5)主題文獻(xiàn)出版年構(gòu)成的集合:直接從檢索結(jié)果集文件中提?。唬?)主題文獻(xiàn)間引用關(guān)系構(gòu)成的集合:直接從檢索結(jié)果集文件中提取。步驟S2,根據(jù)獲取的主題文獻(xiàn)元數(shù)據(jù)信息及主題文獻(xiàn)間引用關(guān)系構(gòu)建一個主題引文網(wǎng)絡(luò),具體包括:步驟S2-1,基于主題文獻(xiàn)間引用關(guān)系構(gòu)建一個以文獻(xiàn)為結(jié)點、文獻(xiàn)間引用為有向邊的有向無環(huán)圖,具體實施方式如下:首先,將所保存的ISI格式純文本文件導(dǎo)入到美國Indiana大學(xué)Katy團(tuán)隊開發(fā)的Sci2工具(參見“Sci2Team:ScienceofScience(Sci2)Tool[EB/OL].IndianaUniversityandSciTechStrategies,http://sci2.cns.iu.edu,2009.”)中,生成一個以以上608篇主題文獻(xiàn)以及這些文獻(xiàn)所引用的WOS數(shù)據(jù)庫內(nèi)的參考文獻(xiàn)為結(jié)點、以結(jié)點文獻(xiàn)之間的引用關(guān)系為邊的有向無環(huán)圖;然后,再從該圖中刪除非主題文獻(xiàn)結(jié)點以及主題文獻(xiàn)與非主題文獻(xiàn)之間的引用關(guān)系,得到一個以608篇主題文獻(xiàn)為結(jié)點,以這些文獻(xiàn)之間的97個引用關(guān)系為邊的有向無環(huán)圖(注:其他構(gòu)建引文網(wǎng)絡(luò)的類似軟件工具也可用于實施本步驟)。步驟S2-2,基于主題文獻(xiàn)元數(shù)據(jù)信息對有向無環(huán)圖的結(jié)點進(jìn)行標(biāo)示,形成一個結(jié)點標(biāo)示的有向無環(huán)圖即主題引文網(wǎng)絡(luò),具體實施方式如下:用步驟S1-2獲取的主題文獻(xiàn)元數(shù)據(jù)信息及主題文獻(xiàn)間引用關(guān)系對步驟S2-1構(gòu)建的有向無環(huán)圖的結(jié)點進(jìn)行標(biāo)示(結(jié)點標(biāo)示信息的示意見圖2所示),形成“bigdata”主題引文網(wǎng)絡(luò)。步驟S3,基于主題引文網(wǎng)絡(luò)構(gòu)建一個包含文獻(xiàn)學(xué)術(shù)影響力多因素的因子圖模型,具體包括:步驟S3-1,確定因子圖的變量集,具體實施方式如下:為步驟S2-2形成的主題引文網(wǎng)絡(luò)中608篇主題文獻(xiàn)結(jié)點定義相應(yīng)的608個隱含變量,作為因子圖的變量集。步驟S3-2,確定定義在因子圖變量集的子集上的局部函數(shù),具體包括:步驟S3-2-1,確定因子圖的局部函數(shù)中的文獻(xiàn)特征局部函數(shù),具體實施方式如下:將文獻(xiàn)的主題相關(guān)性降序排序序號按公式(2)通過線性變換映射為實數(shù)閉區(qū)間[0.5,0.8]上的主題相關(guān)性因素的取值。將文獻(xiàn)來源期刊的學(xué)術(shù)影響力按公式(3a)通過線性變換映射為實數(shù)閉區(qū)間[0.001,1.0]上的來源出版物學(xué)術(shù)影響力因素的取值;將文獻(xiàn)來源會議論文集的學(xué)術(shù)影響力按公式(3b)通過線性變換映射為實數(shù)閉區(qū)間[0.001,1.0]上的來源出版物學(xué)術(shù)影響力因素的取值。將文獻(xiàn)在引文數(shù)據(jù)庫WOS內(nèi)的被引次數(shù)按公式(4)通過線性變換映射為實數(shù)閉區(qū)間[0.001,1.0]上的被引次數(shù)因素的取值。設(shè)置衰變時間τ=4,計算agen=2013-文獻(xiàn)出版年份,n=1,…,608,按公式(5)計算文獻(xiàn)的年齡阻尼系數(shù)因素。綜合考慮以上四個因素,按公式(6)確定因子圖中608個文獻(xiàn)特征局部函數(shù)。步驟S3-2-2,確定因子圖的局部函數(shù)中的文獻(xiàn)間引用特征局部函數(shù),具體實施方式如下:根據(jù)施引文獻(xiàn)與被引文獻(xiàn)的相關(guān)性降序排序序號線性變換映射值,按公式(7)計算主題上引用因素的取值。根據(jù)施引文獻(xiàn)與被引文獻(xiàn)的出版年份差,按公式(8)計算出版年份差因素的取值。綜合考慮以上兩個因素,按公式(9)確定因子圖中97個文獻(xiàn)間引用特征局部函數(shù)。步驟S3-3,用獲得的局部函數(shù)來確定因子圖全局函數(shù)的因式分解,具體實施方式如下:按公式(10)確定聯(lián)合分布即因子圖全局函數(shù)的因式分解。步驟S4,使用循環(huán)最大和算法在因子圖上近似推理,確定因子圖變量集中所有變量的邊緣概率值,具體包括:本發(fā)明的因子圖是有環(huán)因子圖,使用循環(huán)最大和(loopymax-sum)算法進(jìn)行近似推理。因子圖上近似推理及因子圖變量的邊緣概率值計算(即以下步驟S4-1、4-2、4-3)可全部借助libDAI軟件包(參見“MooijJM:libDAI:AfreeandopensourceC++libraryfordiscreteapproximateinferenceingraphicalmodels[J].TheJournalofMachineLearningResearch,2010,11:2169–2173.”)來實現(xiàn)(注:其他能進(jìn)行因子圖上循環(huán)最大和推理的軟件包也可實施本步驟)。步驟S4-1,在因子圖的邊上進(jìn)行迭代式消息傳遞,直至迭代收斂或近似收斂,具體實施方式如下:首先,準(zhǔn)備滿足libDAI軟件包格式的因子圖文件輸入,設(shè)置libDAI軟件包中的迭代傳遞消息方式為串行調(diào)度,迭代收斂公差為1E-9;然后,運行l(wèi)ibDAI軟件包中的循環(huán)最大和近似推理模塊。該libDAI推理模塊能根據(jù)已輸入因子圖文件自動按公式(15)、(16)進(jìn)行消息初始化,并按公式(11)、(12)、(13)、(14)定義的消息傳遞規(guī)則在因子圖的邊上進(jìn)行迭代式消息傳遞,同時按公式(17)計算聯(lián)合分布的最大值,直至迭代收斂。步驟S4-2,找到使得聯(lián)合分布值達(dá)到最大時因子圖變量集中所有變量的一個特定配置,具體實施方式如下:以上libDAI推理模塊能自動按公式(18)找到使得聯(lián)合分布值達(dá)到最大時因子圖變量集中所有變量的一個特定配置。步驟S4-3,計算聯(lián)合分布值達(dá)到最大時因子圖變量集中所有變量在所獲得的特定配置下的邊緣概率值,具體實施方式如下:以上libDAI推理模塊能自動按公式(19)計算聯(lián)合分布值達(dá)到最大時因子圖變量集中所有變量在所獲得的特定配置下的邊緣概率值。步驟S5,根據(jù)邊緣概率值的降序排序結(jié)果,獲取并輸出所有主題文獻(xiàn)的學(xué)術(shù)影響力排序,具體實施方式如下:從以上libDAI推理模塊的運行結(jié)果中獲得已確定的因子圖變量集配置中取值為1的所有變量的邊緣概率值,將這些變量的邊緣概率值進(jìn)行降序排序;根據(jù)步驟S3-1中定義的因子圖變量與文獻(xiàn)的對應(yīng)關(guān)系以及步驟S1-2中獲得的檢索結(jié)果集文件,生成“bigdata”主題文獻(xiàn)的學(xué)術(shù)影響力排名榜,將其作為結(jié)果輸出。表2為從輸出結(jié)果中選取的“bigdata”主題文獻(xiàn)學(xué)術(shù)影響力排序前15的文獻(xiàn)清單(限于篇幅,這里僅給出排序位于前15位的文獻(xiàn))。本實施例的輸出結(jié)果表明,本發(fā)明的技術(shù)方案是可實施的;從表2給出的實施結(jié)果中可看出,本發(fā)明的方法顯著改進(jìn)了WOS中僅以“被引次數(shù)”來衡量主題文獻(xiàn)學(xué)術(shù)影響力的不合理結(jié)果。表2:產(chǎn)生的“bigdata”主題文獻(xiàn)學(xué)術(shù)影響力排序(前15)本發(fā)明充分利用了現(xiàn)有引文數(shù)據(jù)庫提供的主題檢索功能及檢索結(jié)果,能方便有效地收集用戶興趣主題上的相關(guān)科技文獻(xiàn)、文獻(xiàn)間引用關(guān)系、以及多種學(xué)術(shù)影響力因素數(shù)據(jù)進(jìn)行分析,從而提高了主題文獻(xiàn)學(xué)術(shù)影響力的排序方法的有效性與實用性。進(jìn)一步地,本發(fā)明通過構(gòu)建一種結(jié)點標(biāo)示有向無環(huán)圖的主題引文網(wǎng)絡(luò),并據(jù)此采用因子圖對文獻(xiàn)的主題相關(guān)性、文獻(xiàn)來源出版物學(xué)術(shù)影響力、文獻(xiàn)被引次數(shù)、文獻(xiàn)年齡阻尼系數(shù)、施引文獻(xiàn)與被引文獻(xiàn)的主題相關(guān)性關(guān)系以及出版年份差等反映文獻(xiàn)學(xué)術(shù)影響力的諸多因素及其復(fù)雜關(guān)系進(jìn)行綜合建模,并發(fā)揮因子圖簡化概率建模及推理求解的優(yōu)勢,從而增強(qiáng)了主題文獻(xiàn)學(xué)術(shù)影響力排序結(jié)果的客觀性與合理性。本技術(shù)領(lǐng)域技術(shù)人員可以理解,本發(fā)明可以涉及用于執(zhí)行本申請中所述操作中的一項或多項操作的設(shè)備。所述設(shè)備可以為所需的目的而專門設(shè)計和制造,或者也可以包括通用計算機(jī)中的已知設(shè)備,所述通用計算機(jī)有存儲在其內(nèi)的程序選擇性地激活或重構(gòu)。這樣的計算機(jī)程序可以被存儲在設(shè)備(例如,計算機(jī))可讀介質(zhì)中或者存儲在適于存儲電子指令并分別耦聯(lián)到總線的任何類型的介質(zhì)中,所述計算機(jī)可讀介質(zhì)包括但不限于任何類型的盤(包括軟盤、硬盤、光盤、CD-ROM、和磁光盤)、隨即存儲器(RAM)、只讀存儲器(ROM)、電可編程ROM、電可擦ROM(EPROM)、電可擦除可編程ROM(EEPROM)、閃存、磁性卡片或光線卡片。可讀介質(zhì)包括用于以由設(shè)備(例如,計算機(jī))可讀的形式存儲或傳輸信息的任何機(jī)構(gòu)。例如,可讀介質(zhì)包括隨即存儲器(RAM)、只讀存儲器(ROM)、磁盤存儲介質(zhì)、光學(xué)存儲介質(zhì)、閃存裝置、以電的、光的、聲的或其他的形式傳播的信號(例如載波、紅外信號、數(shù)字信號)等。本技術(shù)領(lǐng)域技術(shù)人員可以理解,可以用計算機(jī)程序指令來實現(xiàn)這些結(jié)構(gòu)圖和/或框圖和/或流圖中的每個框以及這些結(jié)構(gòu)圖和/或框圖和/或流圖中的框的組合。可以將這些計算機(jī)程序指令提供給通用計算機(jī)、專業(yè)計算機(jī)或其他可編程數(shù)據(jù)處理方法的處理器來生成機(jī)器,從而通過計算機(jī)或其他可編程數(shù)據(jù)處理方法的處理器來執(zhí)行的指令創(chuàng)建了用于實現(xiàn)結(jié)構(gòu)圖和/或框圖和/或流圖的框或多個框中指定的方法。本技術(shù)領(lǐng)域技術(shù)人員可以理解,本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的步驟、措施、方案可以被交替、更改、組合或刪除。進(jìn)一步地,具有本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的其他步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。進(jìn)一步地,現(xiàn)有技術(shù)中的具有與本發(fā)明中公開的各種操作、方法、流程中的步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。以上所述僅是本發(fā)明的部分實施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1