本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體是一種基于網(wǎng)頁的文獻批量下載的方法。
背景技術(shù):
文件下載領(lǐng)域已經(jīng)很成熟了,但是基于PDF/CAJ/專利等學(xué)術(shù)文獻及科技成果的下載領(lǐng)域魚龍混雜,在學(xué)術(shù)出版領(lǐng)域,中國知網(wǎng)有著自己的數(shù)據(jù)庫檢索以及下載技術(shù),
現(xiàn)有專利提供的方法對服務(wù)器壓力大容易斷鏈,以往文獻下載方法都是單片下載,而無論是畢業(yè)生寫論文或者是科研工作者搞科研都是需要下載大量文獻來閱讀和使用,單篇下載文獻比較麻煩;另外文獻下載下來之后很多時候并不是每一篇都有用處,有些文獻其實通過看題錄信息就可以排除,而沒有通過題錄信息排除法就下載下來,造成了不必要的資源浪費,畢竟文獻還是比較貴的。
現(xiàn)有專利CN201210473807.8提供了一種批量下載錄音文件的方法,而不能應(yīng)用在格式比較特殊的文獻等學(xué)術(shù)類型的批量下載中,而本文提供的方法可以彌補這個缺點。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種減少下載量、提高效率的基于網(wǎng)頁的文獻批量下載的方法,以解決上述背景技術(shù)中提出的問題。
為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
一種基于網(wǎng)頁的文獻批量下載的方法,步驟如下:
1)在Web端檢索文獻,選中所選文獻,導(dǎo)出分析文獻;
2)保存所選文獻的題錄信息到本地;以文獻的題錄信息為種子,在Web端向K-base數(shù)據(jù)庫發(fā)出請求,
3)題錄從K-base數(shù)據(jù)庫中調(diào)出數(shù)據(jù)并通過數(shù)字化學(xué)習(xí)平臺CNKI E-Study端打開,
4)在數(shù)字化學(xué)習(xí)平臺CNKI E-Study端選中需要下載的文獻,向K-base數(shù)據(jù)庫發(fā)出請求,批量下載文獻。
作為本發(fā)明進一步的方案:在步驟4)中,在數(shù)字化學(xué)習(xí)平臺CNKI E-Study端選批量 下載文獻的具體步驟如下所述:
a)選中需要下載的文獻后,數(shù)字化學(xué)習(xí)平臺CNKI E-Study端判斷是否達到最大數(shù)量,如果是,則結(jié)束下載;如果不是,則解析鏈接地址;
b)判斷鏈接地址是否正確,如果不正確,則更新題錄,并返回步驟a),如果正確,則進行下一步;
c)下載次數(shù)是否小于2,如果下載次數(shù)不是小于2,則判斷前兩次下載是否IP下載,如果前兩次下載是IP下載,則獲取賬號,并判斷賬號是否為空,如果是空,則進行IP下載,如果賬號不為空,則進行賬號下載;如果前兩次下載不是IP下載,則進行IP下載;如果下載次數(shù)小于2,則獲取系統(tǒng)下載設(shè)置,并進行下一步;
d)判斷是否是初次下載,如果是初次下載,則獲取系統(tǒng)文獻下載格式,并構(gòu)造下載鏈接,開始下載;如果不是初次下載,則判斷是否選擇PDF下載,如果是選擇PDF下載,并構(gòu)造下載鏈接,開始下載;如果不是選擇PDF下載,則進行CAJ格式下載,并構(gòu)造下載鏈接,開始下載;
e)在下載的過程中,如果存在網(wǎng)頁錯誤,則獲取賬戶信息,判斷其余額是否充足、是否需要購買,如果余額充足,則付費下載至下載結(jié)束;如果余額不足且不購買,則獲取錯誤信息并結(jié)束下載;如果不存在網(wǎng)頁錯誤,則進行下載至下載結(jié)束。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本文提供的方法是利用網(wǎng)頁技術(shù)下載題錄信息排除不需要的文獻,之后利用數(shù)字化學(xué)習(xí)平臺CNKI E-Study端批量下載文獻的方法。網(wǎng)頁技術(shù)是利用網(wǎng)絡(luò)協(xié)議及服務(wù)器等下載文獻的技術(shù)。本文提供的方法是根據(jù)題錄信息點對點的向服務(wù)器提出申請,可以提高獲取文獻信息的準(zhǔn)確性和穩(wěn)定性;一個是減少了下載的工作量,批量下載大量文獻;二是可以先下載題錄信息,在通過閱讀題錄信息排除了不需要的文獻之后再進行下載,這樣提高了科研效率。
附圖說明
圖1是本發(fā)明的整體流程圖;
圖2是利用網(wǎng)頁下載文獻題錄及全文的方法結(jié)構(gòu)圖。
圖3是在數(shù)字化學(xué)習(xí)平臺CNKI E-Study端批量下載文獻部分的流程圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
實施例1
本發(fā)明實施例中,本發(fā)明的整體流程圖如圖1所示。文獻的批量下載技術(shù)在業(yè)內(nèi)是首先提出的,本專利中提出的技術(shù)是以文獻的題錄信息為種子,在數(shù)字化學(xué)習(xí)平臺CNKI E-Study向K-base數(shù)據(jù)庫發(fā)出請求,批量從服務(wù)器獲取文獻的一種方法。(所述的題錄信息指每篇文獻的篇名、作者、摘要等信息)
一種基于網(wǎng)頁的文獻批量下載的方法,步驟如下:
1)在Web端檢索文獻,選中所選多篇文獻,導(dǎo)出分析文獻;
2)保存所選文獻的題錄信息到本地;以文獻的題錄信息為種子,在Web端向K-base數(shù)據(jù)庫發(fā)出請求,
3)題錄從K-base數(shù)據(jù)庫中調(diào)出數(shù)據(jù)并通過數(shù)字化學(xué)習(xí)平臺CNKI E-Study端打開,
4)在數(shù)字化學(xué)習(xí)平臺CNKI E-Study端選中需要下載的文獻,向K-base數(shù)據(jù)庫發(fā)出請求,批量下載文獻。
利用網(wǎng)頁下載文獻題錄及全文的方法結(jié)構(gòu)圖如圖2所示。用戶通過計算機在Web端進行檢索,通過Web服務(wù)器向K-base數(shù)據(jù)庫進行請求,K-base數(shù)據(jù)庫通過IP-SAN交換機向存儲數(shù)據(jù)的IP-SAN磁盤陣列中調(diào)取數(shù)據(jù),并通過K-base跨庫檢索服務(wù)器、Web服務(wù)器、電子商務(wù)服務(wù)器、全文下載服務(wù)器將所需文獻下載題錄及全文至計算機。
在數(shù)字化學(xué)習(xí)平臺CNKIE-Study端批量下載文獻部分的流程圖如圖3所示。在步驟4)中,具體步驟如下所述:
a)選中需要下載的文獻后,數(shù)字化學(xué)習(xí)平臺CNKI E-Study端判斷是否達到最大數(shù)量,如果是,則結(jié)束下載;如果不是,則解析鏈接地址;
b)判斷鏈接地址是否正確,如果不正確,則更新題錄,并返回步驟a),如果正確,則進行下一步;
c)下載次數(shù)是否小于2,如果下載次數(shù)不是小于2,則判斷前兩次下載是否IP下載,如果前兩次下載是IP下載,則獲取賬號,并判斷賬號是否為空,如果是空,則進行IP下載,如果賬號不為空,則進行賬號下載;如果前兩次下載不是IP下載,則進行IP下載;如果下載次數(shù)小于2,則獲取系統(tǒng)下載設(shè)置,并進行下一步;
d)判斷是否是初次下載,如果是初次下載,則獲取系統(tǒng)文獻下載格式,并構(gòu)造下載鏈接,開始下載;如果不是初次下載,則判斷是否選擇PDF下載,如果是選擇PDF下載,并構(gòu)造下載鏈接,開始下載;如果不是選擇PDF下載,則進行CAJ格式下載,并構(gòu)造下載鏈接,開始下載;
e)在下載的過程中,如果存在網(wǎng)頁錯誤,則獲取賬戶信息,判斷其余額是否充足、是否需要購買,如果余額充足,則付費下載至下載結(jié)束;如果余額不足且不購買,則獲取錯誤信息并結(jié)束下載;如果不存在網(wǎng)頁錯誤,則進行下載至下載結(jié)束。
對于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實現(xiàn)本發(fā)明。因此,無論從哪一點來看,均應(yīng)將實施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化囊括在本發(fā)明內(nèi)。
此外,應(yīng)當(dāng)理解,雖然本說明書按照實施方式加以描述,但并非每個實施方式僅包含一個獨立的技術(shù)方案,說明書的這種敘述方式僅僅是為清楚起見,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)將說明書作為一個整體,各實施例中的技術(shù)方案也可以經(jīng)適當(dāng)組合,形成本領(lǐng)域技術(shù)人員可以理解的其他實施方式。