亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種主題自適應(yīng)的學(xué)術(shù)會(huì)議搜索系統(tǒng)的制作方法

文檔序號(hào):6581606閱讀:309來(lái)源:國(guó)知局
專利名稱:一種主題自適應(yīng)的學(xué)術(shù)會(huì)議搜索系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明屬于信息檢索、信息抽取、文本挖掘領(lǐng)域,更具體地,涉及一種主題自適應(yīng)的學(xué)術(shù)會(huì)議搜索系統(tǒng)。
背景技術(shù)
隨著學(xué)術(shù)交流的舉辦愈加頻繁,全球?qū)W術(shù)會(huì)議及學(xué)術(shù)期刊的數(shù)量逐年激增。對(duì)于科研工作者而言,如何方便快捷地從眾多的學(xué)術(shù)會(huì)議和學(xué)術(shù)期刊中找到與自己的研究領(lǐng)域相吻合的會(huì)議或期刊,進(jìn)而查閱相關(guān)的文獻(xiàn)用以參考;又或者如何從海量的學(xué)術(shù)會(huì)議及學(xué)術(shù)期刊中選擇適合自己論文投稿的會(huì)議或期刊,以增加錄用的概率,已然成為科研工作者十分關(guān)心的問(wèn)題?,F(xiàn)有的科技文獻(xiàn)檢索引擎基本上采用的都是基于關(guān)鍵字的全文檢索方式來(lái)響應(yīng)用戶的查詢請(qǐng)求,而且其主要檢索對(duì)象大部分都是定位在科技文獻(xiàn)上,對(duì)于學(xué)術(shù)會(huì)議的檢索支持很少甚至沒(méi)有。例如,Google Scholar、ACM數(shù)據(jù)庫(kù)、IEEE數(shù)字圖書館、中國(guó)知識(shí)資源總庫(kù)CNKI,大多沒(méi)有專門針對(duì)學(xué)術(shù)會(huì)議提供檢索服務(wù),更沒(méi)有對(duì)學(xué)術(shù)會(huì)議的主題信息進(jìn)行深度挖掘。此外,通過(guò)對(duì)科研工作者的論文進(jìn)行文本挖掘進(jìn)而達(dá)到主題發(fā)現(xiàn)的目的,以實(shí)現(xiàn)主題自適應(yīng)的投稿推薦服務(wù)在現(xiàn)有的科技文獻(xiàn)平臺(tái)中還鮮有見過(guò)。

發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)的缺陷,本發(fā)明的目的在于提供一種主題自適應(yīng)的學(xué)術(shù)會(huì)議搜索系統(tǒng),該系統(tǒng)可以為用戶提供主題自適應(yīng)的學(xué)術(shù)會(huì)議檢索服務(wù)以及主題自適應(yīng)的個(gè)性化投稿推薦服務(wù),以解決現(xiàn)有科技文獻(xiàn)檢索引擎存在的弊端,如檢索不靈活,只能按關(guān)鍵字匹配等,在主題自適應(yīng)的學(xué)術(shù)會(huì)議檢索服務(wù)中,用戶可以通過(guò)研究領(lǐng)域主題關(guān)鍵字來(lái)檢索到相關(guān)的學(xué)術(shù)會(huì)議,與傳統(tǒng)的科技文獻(xiàn)檢索引擎相比,該系統(tǒng)可以根據(jù)關(guān)鍵詞進(jìn)行主題自適應(yīng)的相關(guān)性判定過(guò)程,并且具有更強(qiáng)的專業(yè)性、更高的精確性和權(quán)威性。為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種主題自適應(yīng)的學(xué)術(shù)會(huì)議搜索系統(tǒng),包括數(shù)據(jù)采集模塊、主題發(fā)現(xiàn)模塊、數(shù)據(jù)處理模塊以及用戶接口模塊,用戶接口模塊包括學(xué)術(shù)會(huì)議搜索接口子模塊以及個(gè)性化投稿推薦接口子模塊,數(shù)據(jù)采集模塊包括網(wǎng)絡(luò)爬蟲子模塊和數(shù)據(jù)存儲(chǔ)子模塊,主題發(fā)現(xiàn)模塊包括網(wǎng)頁(yè)信息抽取子模塊、文本抽取子模塊以及文本挖掘子模塊,數(shù)據(jù)處理模塊包括數(shù)據(jù)庫(kù)子模塊、索引子模塊、學(xué)術(shù)會(huì)議評(píng)價(jià)子模塊以及檢索子模塊,網(wǎng)絡(luò)爬蟲子模塊用于從公開免費(fèi)的信息源爬取包含學(xué)術(shù)會(huì)議和/或期刊信息的網(wǎng)頁(yè),數(shù)據(jù)存儲(chǔ)子模塊用于將網(wǎng)絡(luò)爬蟲子模塊爬取的網(wǎng)頁(yè)以文件的形式存儲(chǔ)在本地,網(wǎng)頁(yè)信息抽取子模塊用于從爬取的網(wǎng)頁(yè)中抽取出學(xué)術(shù)會(huì)議和/或期刊的信息并存儲(chǔ)在文件中,個(gè)性化投稿推薦接口子模塊用于接收用戶上傳的論文文檔,并將其傳遞給文本抽取子模塊,文本抽取子模塊用于解析來(lái)自個(gè)性化投稿推薦接口子模塊的論文文檔,以獲取文檔內(nèi)容的文本信息,并將文本信息傳遞給文本挖掘子模塊,文本挖掘子模塊用于對(duì)文本抽取子模塊獲取的文本信息進(jìn)行文本挖掘,以獲取主題信息,并將主題信息傳給檢索子模塊,數(shù)據(jù)庫(kù)子模塊用于將網(wǎng)頁(yè)信息抽取子模塊抽取到的學(xué)術(shù)會(huì)議和/或期刊信息存儲(chǔ)到數(shù)據(jù)庫(kù)中,索引子模塊用于利用開源全文檢索引擎工具包為存儲(chǔ)在數(shù)據(jù)庫(kù)中的學(xué)術(shù)會(huì)議和/或期刊信息構(gòu)建索弓I,學(xué)術(shù)會(huì)議評(píng)價(jià)子模塊用于計(jì)算學(xué)術(shù)會(huì)議和/或期刊的等級(jí)值,學(xué)術(shù)會(huì)議搜索接口子模塊用于接收用戶輸入的搜索關(guān)鍵詞,并將其傳遞給檢索子模塊,檢索子模塊用于從學(xué)術(shù)會(huì)議搜索接口子模塊接收搜索關(guān)鍵詞,利用開源全文檢索引擎工具包對(duì)該搜索關(guān)鍵詞進(jìn)行解析,根據(jù)解析結(jié)果在索引子模塊構(gòu)建的索引中進(jìn)行檢索以獲取對(duì)應(yīng)的學(xué)術(shù)會(huì)議和/或期刊信息作為檢索結(jié)果,根據(jù)學(xué)術(shù)會(huì)議評(píng)價(jià)子模塊計(jì)算的等級(jí)值對(duì)檢索結(jié)果進(jìn)行排序,并將排序結(jié)果傳送給學(xué)術(shù)會(huì)議搜索接口子模塊,檢索子模塊還用于接收來(lái)自文本挖掘子模塊的主題信息,利用開源全文檢索引擎工具包對(duì)該主題信息進(jìn)行解析,根據(jù)解析結(jié)果在索引子模塊構(gòu)建的索引中進(jìn)行檢索以獲取對(duì)應(yīng)的學(xué)術(shù)會(huì)議和/或期刊信息作為檢索結(jié)果,根據(jù)學(xué)術(shù)會(huì)議評(píng)價(jià)子模塊計(jì)算的等級(jí)值對(duì)檢索結(jié)果進(jìn)行排序,并將排序結(jié)果傳送給個(gè)性化投稿推薦接口子模塊,學(xué)術(shù)會(huì)議搜索接口子模塊還用于將來(lái)自于檢索子模塊的排序結(jié)果以可視化的形式呈現(xiàn)在Web頁(yè)面上,供用戶查閱,個(gè)性化投稿推薦接口子模塊還用于將來(lái)自于檢索子模塊的排序結(jié)果以可視化的形式呈現(xiàn)在Web頁(yè)面上,供用戶查閱。網(wǎng)絡(luò)爬蟲子模塊利用HttpClient開源Jar包實(shí)現(xiàn)對(duì)信息源的統(tǒng)一資源標(biāo)識(shí)符進(jìn)行特征分析,以判斷該信息源中是否包括學(xué)術(shù)會(huì)議和/或期刊信息。網(wǎng)頁(yè)信息抽取子模塊利用HtmlParser開源Jar包實(shí)現(xiàn)信息的抽取,信息具體包括標(biāo)題、舉辦時(shí)間、舉辦地點(diǎn)、投稿日期、會(huì)議主題。網(wǎng)頁(yè)信息抽取子模塊首先構(gòu)建節(jié)點(diǎn)過(guò)濾器對(duì)包含學(xué)術(shù)會(huì)議和/或期刊信息的網(wǎng)頁(yè)進(jìn)行解析,得到節(jié)點(diǎn)隊(duì)列,并進(jìn)一步通過(guò)解析器解析出屬性節(jié)點(diǎn),再通過(guò)正則表達(dá)式或條件隨機(jī)場(chǎng)的方法解析出屬性值,最后將屬性值分類并存儲(chǔ)在文件中。文本挖掘子模塊是通過(guò)機(jī)器學(xué)習(xí)、文本聚類等方法實(shí)現(xiàn)文本挖掘,具體為對(duì)文本抽取子模塊獲取的文本信息進(jìn)行文本預(yù)處理,包括特征提取、特征選擇,然后進(jìn)行文本抽取,抽取的信息包括術(shù)語(yǔ)、主題詞、關(guān)鍵詞等,最后通過(guò)聚類分析和主題聚類發(fā)現(xiàn)主題信息。數(shù)據(jù)庫(kù)子模塊采用JDBC、ODBC、ADO、OLE DB、JDBC-0DBC橋的連接方式將抽取到的學(xué)術(shù)會(huì)議和/或期刊信息存儲(chǔ)到數(shù)據(jù)庫(kù)中。數(shù)據(jù)庫(kù)包括Access、MySQL、Microsoft SQL Server、DB2、Oracle。索引子模塊創(chuàng)建索引的域,包括索引的時(shí)間、學(xué)術(shù)會(huì)議和/或期刊的簡(jiǎn)稱、全稱、時(shí)間、地點(diǎn)、摘要注冊(cè)截止日期、等級(jí)、主題屬性,將相關(guān)屬性值保存在索引文件中,并對(duì)其中的全稱域和主題域進(jìn)行分詞索引。學(xué)術(shù)會(huì)議評(píng)價(jià)子模塊采用以下公式計(jì)算學(xué)術(shù)會(huì)議和/或期刊的等級(jí)值
權(quán)利要求
1.一種主題自適應(yīng)的學(xué)術(shù)會(huì)議搜索系統(tǒng),包括數(shù)據(jù)采集模塊、主題發(fā)現(xiàn)模塊、數(shù)據(jù)處理模塊以及用戶接口模塊,其特征在于, 用戶接口模塊包括學(xué)術(shù)會(huì)議搜索接口子模塊以及個(gè)性化投稿推薦接口子模塊; 數(shù)據(jù)采集模塊包括網(wǎng)絡(luò)爬蟲子模塊和數(shù)據(jù)存儲(chǔ)子模塊; 主題發(fā)現(xiàn)模塊包括網(wǎng)頁(yè)信息抽取子模塊、文本抽取子模塊以及文本挖掘子模塊; 數(shù)據(jù)處理模塊包括數(shù)據(jù)庫(kù)子模塊、索引子模塊、學(xué)術(shù)會(huì)議評(píng)價(jià)子模塊以及檢索子模塊; 網(wǎng)絡(luò)爬蟲子模塊用于從公開免費(fèi)的信息源爬取包含學(xué)術(shù)會(huì)議和/或期刊信息的網(wǎng)頁(yè); 數(shù)據(jù)存儲(chǔ)子模塊用于將網(wǎng)絡(luò)爬蟲子模塊爬取的網(wǎng)頁(yè)以文件的形式存儲(chǔ)在本地; 網(wǎng)頁(yè)信息抽取子模塊用于從爬取的網(wǎng)頁(yè)中抽取出學(xué)術(shù)會(huì)議和/或期刊的信息并存儲(chǔ)在文件中; 個(gè)性化投稿推薦接口子模塊用于接收用戶上傳的論文文檔,并將其傳遞給文本抽取子模塊; 文本抽取子模塊用于解析來(lái)自個(gè)性化投稿推薦接口子模塊的論文文檔,以獲取文檔內(nèi)容的文本信息,并將文本信息傳遞給文本挖掘子模塊; 文本挖掘子模塊用于對(duì)文本抽取子模塊獲取的文本信息進(jìn)行文本挖掘,以獲取主題信息,并將主題信息傳給檢索子模塊; 數(shù)據(jù)庫(kù)子模塊用于將網(wǎng)頁(yè)信息抽取子模塊抽取到的學(xué)術(shù)會(huì)議和/或期刊信息存儲(chǔ)到數(shù)據(jù)庫(kù)中; 索引子模塊用于利用開源全文檢索引擎工具包為存儲(chǔ)在數(shù)據(jù)庫(kù)中的學(xué)術(shù)會(huì)議和/或期刊信息構(gòu)建索引; 學(xué)術(shù)會(huì)議評(píng)價(jià)子模塊用于計(jì)算學(xué)術(shù)會(huì)議和/或期刊的等級(jí)值; 學(xué)術(shù)會(huì)議搜索接口子模塊用于接收用戶輸入的搜索關(guān)鍵詞,并將其傳遞給檢索子模塊; 檢索子模塊用于從學(xué)術(shù)會(huì)議搜索接口子模塊接收搜索關(guān)鍵詞,利用開源全文檢索引擎工具包對(duì)該搜索關(guān)鍵詞進(jìn)行解析,根據(jù)解析結(jié)果在索引子模塊構(gòu)建的索引中進(jìn)行檢索以獲取對(duì)應(yīng)的學(xué)術(shù)會(huì)議和/或期刊信息作為檢索結(jié)果,根據(jù)學(xué)術(shù)會(huì)議評(píng)價(jià)子模塊計(jì)算的等級(jí)值對(duì)檢索結(jié)果進(jìn)行排序,并將排序結(jié)果傳送給學(xué)術(shù)會(huì)議搜索接口子模塊; 檢索子模塊還用于接收來(lái)自文本挖掘子模塊的主題信息,利用開源全文檢索引擎工具包對(duì)該主題信息進(jìn)行解析,根據(jù)解析結(jié)果在索引子模塊構(gòu)建的索引中進(jìn)行檢索以獲取對(duì)應(yīng)的學(xué)術(shù)會(huì)議和/或期刊信息作為檢索結(jié)果,根據(jù)學(xué)術(shù)會(huì)議評(píng)價(jià)子模塊計(jì)算的等級(jí)值對(duì)檢索結(jié)果進(jìn)行排序,并將排序結(jié)果傳送給個(gè)性化投稿推薦接口子模塊; 學(xué)術(shù)會(huì)議搜索接口子模塊還用于將來(lái)自于檢索子模塊的排序結(jié)果以可視化的形式呈現(xiàn)在Web頁(yè)面上,供用戶查閱; 個(gè)性化投稿推薦接口子模塊還用于將來(lái)自于檢索子模塊的排序結(jié)果以可視化的形式呈現(xiàn)在Web頁(yè)面上,供用戶查閱。
2.根據(jù)權(quán)利要求1所述的學(xué)術(shù)會(huì)議檢索系統(tǒng),其特征在于,網(wǎng)絡(luò)爬蟲子模塊利用HttpClient開源Jar包實(shí)現(xiàn)對(duì)信息源的統(tǒng)一資源標(biāo)識(shí)符進(jìn)行特征分析,以判斷該信息源中是否包括學(xué)術(shù)會(huì)議和/或期刊信息。
3.根據(jù)權(quán)利要求1所述的學(xué)術(shù)會(huì)議檢索系統(tǒng),其特征在于,網(wǎng)頁(yè)信息抽取子模塊利用HtmlParser開源Jar包實(shí)現(xiàn)信息的抽取,信息具體包括標(biāo)題、舉辦時(shí)間、舉辦地點(diǎn)、投稿日期、會(huì)議主題。
4.根據(jù)權(quán)利要求3所述的學(xué)術(shù)會(huì)議檢索系統(tǒng),其特征在于,網(wǎng)頁(yè)信息抽取子模塊首先構(gòu)建節(jié)點(diǎn)過(guò)濾器對(duì)包含學(xué)術(shù)會(huì)議和/或期刊信息的網(wǎng)頁(yè)進(jìn)行解析,得到節(jié)點(diǎn)隊(duì)列,并進(jìn)一步通過(guò)解析器解析出屬性節(jié)點(diǎn),再通過(guò)正則表達(dá)式或條件隨機(jī)場(chǎng)的方法解析出屬性值,最后將屬性值分類并存儲(chǔ)在文件中。
5.根據(jù)權(quán)利要求1所述的學(xué)術(shù)會(huì)議檢索系統(tǒng),其特征在于,文本挖掘子模塊是通過(guò)機(jī)器學(xué)習(xí)、文本聚類等方法實(shí)現(xiàn)文本挖掘,具體為對(duì)文本抽取子模塊獲取的文本信息進(jìn)行文本預(yù)處理,包括特征提取、特征選擇,然后進(jìn)行文本抽取,抽取的信息包括術(shù)語(yǔ)、主題詞、關(guān)鍵詞等,最后通過(guò)聚類分析和主題聚類發(fā)現(xiàn)主題信息。
6.根據(jù)權(quán)利要求1所述的學(xué)術(shù)會(huì)議檢索系統(tǒng),其特征在于,數(shù)據(jù)庫(kù)子模塊采用JDBC、ODBC,ADO,OLE DB、JDBC-0DBC橋的連接方式將抽取到的學(xué)術(shù)會(huì)議和/或期刊信息存儲(chǔ)到數(shù)據(jù)庫(kù)中; 數(shù)據(jù)庫(kù)包括 Access、MySQL、Microsoft SQL Server、DB2、Oracle。
7.根據(jù)權(quán)利要求1所述的學(xué)術(shù)會(huì)議檢索系統(tǒng),其特征在于,索引子模塊創(chuàng)建索引的域,包括索引的時(shí)間、學(xué)術(shù)會(huì)議和/或期刊的簡(jiǎn)稱、全稱、時(shí)間、地點(diǎn)、摘要注冊(cè)截止日期、等級(jí)、主題屬性,將相關(guān)屬性值保存在索引文件中,并對(duì)其中的全稱域和主題域進(jìn)行分詞索引。
8.根據(jù)權(quán)利要求1所述的學(xué)術(shù)會(huì)議檢索系統(tǒng),其特征在于,學(xué)術(shù)會(huì)議評(píng)價(jià)子模塊采用以下公式計(jì)算學(xué)術(shù)會(huì)議和/或期刊的等級(jí)值
全文摘要
本發(fā)明公開了一種主題自適應(yīng)的學(xué)術(shù)會(huì)議搜索系統(tǒng),包括數(shù)據(jù)采集模塊、主題發(fā)現(xiàn)模塊以及數(shù)據(jù)處理模塊,數(shù)據(jù)采集模塊包括網(wǎng)絡(luò)爬蟲子模塊和數(shù)據(jù)存儲(chǔ)子模塊,主題發(fā)現(xiàn)模塊包括網(wǎng)頁(yè)信息抽取子模塊、文本抽取子模塊以及文本挖掘子模塊,數(shù)據(jù)處理模塊包括數(shù)據(jù)庫(kù)子模塊、索引子模塊、學(xué)術(shù)會(huì)議評(píng)價(jià)子模塊以及檢索子模塊,網(wǎng)絡(luò)爬蟲子模塊用于從公開免費(fèi)的信息源爬取包含學(xué)術(shù)會(huì)議和/或期刊信息的網(wǎng)頁(yè),數(shù)據(jù)存儲(chǔ)子模塊用于將網(wǎng)絡(luò)爬蟲子模塊爬取的網(wǎng)頁(yè)以文件的形式存儲(chǔ)在本地,網(wǎng)頁(yè)信息抽取子模塊用于從爬取的網(wǎng)頁(yè)中抽取出學(xué)術(shù)會(huì)議和/或期刊的信息并存儲(chǔ)在文件中。本發(fā)明可根據(jù)關(guān)鍵詞進(jìn)行主題自適應(yīng)的相關(guān)性判定過(guò)程,并具有很強(qiáng)的專業(yè)性、高精確性和權(quán)威性。
文檔編號(hào)G06F17/30GK103049575SQ201310003000
公開日2013年4月17日 申請(qǐng)日期2013年1月5日 優(yōu)先權(quán)日2013年1月5日
發(fā)明者金海 , 趙峰, 孫正, 聶昶 申請(qǐng)人:華中科技大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1