本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種基于大數(shù)據(jù)的專利文章整合系統(tǒng)和方法。
背景技術(shù):
隨著時(shí)代的發(fā)展,科技的進(jìn)步,截至2014年,我國(guó)知識(shí)產(chǎn)權(quán)總體發(fā)展?fàn)顩r在全世界40個(gè)主要國(guó)家中居第8位,總體實(shí)力與世界一流知識(shí)產(chǎn)權(quán)強(qiáng)國(guó)的距離進(jìn)一步縮小,由此專利領(lǐng)域的技術(shù)的文章數(shù)據(jù)的產(chǎn)出速度變得很快,專利信息已經(jīng)正式進(jìn)入大數(shù)據(jù)時(shí)代。但是一般非專利領(lǐng)域的人員在互聯(lián)網(wǎng)上搜索專利非常困難,當(dāng)他們想要進(jìn)行專利的申請(qǐng)或檢索時(shí)卻無(wú)從下手,一些檢索平臺(tái)網(wǎng)上瀏覽和自主下載會(huì)浪費(fèi)大量的時(shí)間,其次,隨著互聯(lián)網(wǎng)的發(fā)展,文章中總是出現(xiàn)大量廣告、鏈接等無(wú)用信息,這給人們閱讀和使用時(shí)產(chǎn)生很大的困擾,降低人們的使用體驗(yàn)。
技術(shù)實(shí)現(xiàn)要素:
基于背景技術(shù)存在的技術(shù)問(wèn)題,本發(fā)明提出了一種基于大數(shù)據(jù)的專利文章整合系統(tǒng)和方法;
本發(fā)明提出的一種基于大數(shù)據(jù)的專利文章整合系統(tǒng),包括:
數(shù)據(jù)獲取模塊,用于從網(wǎng)絡(luò)大數(shù)據(jù)的數(shù)據(jù)庫(kù)中下載專利領(lǐng)域的文章,得到專利文章集合ai;
廣告隱藏模塊,用于隱藏ai中的廣告信息,得到有效專利文章集合bi;
數(shù)據(jù)篩選模塊,用于將bi中的有效專利文章與本地?cái)?shù)據(jù)庫(kù)中文章進(jìn)行重合度比較,刪除bi中有效專利文章的重合度值大于預(yù)設(shè)閾值的有效專利文章,得到目標(biāo)專利文章集合cj,將cj中目標(biāo)專利文章存入本地?cái)?shù)據(jù)庫(kù);
數(shù)據(jù)檢索模塊,用于向用戶提供本地?cái)?shù)據(jù)庫(kù)檢索界面,并向用戶展示通過(guò)檢索條件檢索到的目標(biāo)專利文章。
優(yōu)選地,所述數(shù)據(jù)獲取模塊,具體用于:通過(guò)互聯(lián)網(wǎng)爬蟲從網(wǎng)絡(luò)大數(shù)據(jù)的數(shù)據(jù)庫(kù)中下載專利文章。
優(yōu)選地,所述廣告隱藏模塊,具體用于:
提取ai中一篇專利文章的句子,得到所述專利文章的句子集合dm;
將dm中各句子進(jìn)行相互間相似度比較,隱藏所述專利文章中相似度低于預(yù)設(shè)相似度值的句子;
當(dāng)ai中所有專利文章均進(jìn)行相互間相似度比較和隱藏操作后,得到有效專利文章集合bi。
優(yōu)選地,所述數(shù)據(jù)篩選模塊,還用于:在將cj中目標(biāo)專利文章存入本地?cái)?shù)據(jù)庫(kù)之前,將cj中各目標(biāo)專利文章按照文章標(biāo)題建立索引;和/或,在將cj中目標(biāo)專利文章存入本地?cái)?shù)據(jù)庫(kù)之前,將cj中各目標(biāo)專利文章按照技術(shù)領(lǐng)域建立索引。
優(yōu)選地,還包括任務(wù)分配模塊,與數(shù)據(jù)獲取模塊連接,用于當(dāng)?shù)竭_(dá)預(yù)設(shè)時(shí)間點(diǎn)時(shí),啟動(dòng)數(shù)據(jù)獲取模塊開(kāi)始工作。
一種基于大數(shù)據(jù)的專利文章整合方法,包括:
s1、從網(wǎng)絡(luò)大數(shù)據(jù)的數(shù)據(jù)庫(kù)中下載專利領(lǐng)域的文章,得到專利文章集合ai;
s2、隱藏ai中下載的專利文章中的廣告信息,得到有效專利文章集合bi;
s3、將bi中的有效專利文章與本地?cái)?shù)據(jù)庫(kù)中文章進(jìn)行重合度比較,刪除bi中有效專利文章的重合度值大于預(yù)設(shè)閾值的有效專利文章,得到目標(biāo)專利文章集合cj,將cj中目標(biāo)專利文章存入本地?cái)?shù)據(jù)庫(kù);
s4、向用戶提供本地?cái)?shù)據(jù)庫(kù)檢索界面,并向用戶展示通過(guò)檢索條件檢索到的目標(biāo)專利文章。
優(yōu)選地,步驟s1,具體包括:通過(guò)互聯(lián)網(wǎng)爬蟲從網(wǎng)絡(luò)大數(shù)據(jù)的數(shù)據(jù)庫(kù)中下載專利文章。
優(yōu)選地,步驟s2,具體包括:
s21、提取ai中一篇專利文章的句子,得到所述專利文章的句子集合dm;
s22、將dm中各句子進(jìn)行相互間相似度比較,隱藏所述專利文章中相似度低于預(yù)設(shè)相似度值的句子;
s23、在ai中所有專利文章均進(jìn)行步驟s21、s22操作后,得到有效專利文章集合bi。
優(yōu)選地,步驟s3中,在將cj中目標(biāo)專利文章存入本地?cái)?shù)據(jù)庫(kù)之前,將cj中各目標(biāo)專利文章按照文章標(biāo)題建立索引;和/或,步驟s3中,在將cj中目標(biāo)專利文章存入本地?cái)?shù)據(jù)庫(kù)之前,將cj中各目標(biāo)專利文章按照技術(shù)領(lǐng)域建立索引。
優(yōu)選地,步驟s1,還包括:當(dāng)?shù)竭_(dá)預(yù)設(shè)時(shí)間點(diǎn)時(shí),從網(wǎng)絡(luò)大數(shù)據(jù)的數(shù)據(jù)庫(kù)中下載專利領(lǐng)域的文章。
本發(fā)明從網(wǎng)絡(luò)大數(shù)據(jù)的數(shù)據(jù)庫(kù)中下載專利領(lǐng)域的文章,再隱藏文章中的無(wú)用廣告信息,得到有效專利文章,將有效專利文章與本地?cái)?shù)據(jù)庫(kù)中文章進(jìn)行重合度比較,刪除重合度值大于預(yù)設(shè)閾值的有效專利文章,得到目標(biāo)專利文章集合存入本地?cái)?shù)據(jù)庫(kù),同時(shí)用戶提供本地?cái)?shù)據(jù)庫(kù)檢索界面,并向用戶展示通過(guò)檢索條件檢索到的目標(biāo)專利文章。如此,對(duì)下載的專利文章的進(jìn)行廣告隱藏,查重、整合、建立索引操作,使得用戶可以在本地?cái)?shù)據(jù)庫(kù)中進(jìn)行文章的檢索和閱讀,方便用戶使用,提高用戶的使用體驗(yàn),其次,便于專利公開(kāi)數(shù)據(jù)的利用和研究。
附圖說(shuō)明
圖1為本發(fā)明提出的一種基于大數(shù)據(jù)的專利文章整合系統(tǒng)的模塊示意圖;
圖2為本發(fā)明提出的一種基于大數(shù)據(jù)的專利文章整合方法的流程示意圖。
具體實(shí)施方式
參照?qǐng)D1,本發(fā)明提出的一種基于大數(shù)據(jù)的專利文章整合系統(tǒng),包括:
數(shù)據(jù)獲取模塊,用于從網(wǎng)絡(luò)大數(shù)據(jù)的數(shù)據(jù)庫(kù)中下載專利領(lǐng)域的文章,得到專利文章集合ai。
在具體方案中,數(shù)據(jù)獲取模塊通過(guò)互聯(lián)網(wǎng)爬蟲從網(wǎng)絡(luò)大數(shù)據(jù)的數(shù)據(jù)庫(kù)中下載專利文章,根據(jù)預(yù)的設(shè)情報(bào)搜集目標(biāo)與分析目標(biāo),采集專利領(lǐng)域的文章信息,得到專利文章集合ai。
廣告隱藏模塊,與數(shù)據(jù)獲取模塊連接,用于隱藏ai中的廣告信息,得到有效專利文章集合bi,具體用于:提取ai中一篇專利文章中的句子,得到句子集合dm;將dm中各句子進(jìn)行相互間相似度比較,隱藏所述專利文章中相似度低于預(yù)設(shè)相似度值的句子;在ai中所有專利文章均進(jìn)行相互間相似度比較和隱藏操作后,得到有效專利文章集合bi。
在具體方案中,提取ai中任一篇專利文章中所有的句子,將這些句子集合進(jìn)行相互間相似度比較,判斷相似度低于預(yù)設(shè)相似度值的句子為廣告信息,隱藏所述廣告信息,得到有效專利文章,當(dāng)ai中所有專利文章均進(jìn)行相似度比較和隱藏操作后,得到有效專利文章集合bi:如此,隱藏文章中無(wú)用的廣告信息和鏈接,方便用戶的閱讀和使用,進(jìn)一步的,用戶可顯示隱藏的句子。
數(shù)據(jù)篩選模塊,與廣告隱藏模塊連接,用于將bi中的有效專利文章與本地?cái)?shù)據(jù)庫(kù)中文章進(jìn)行重合度比較,刪除bi中有效專利文章的重合度值大于預(yù)設(shè)閾值的有效專利文章,得到目標(biāo)專利文章集合cj,將cj中目標(biāo)專利文章存入本地?cái)?shù)據(jù)庫(kù)。
在具體方案中,在將cj中目標(biāo)專利文章存入本地?cái)?shù)據(jù)庫(kù)之前,將cj中各目標(biāo)專利文章按照文章標(biāo)題建立索引;和/或,在將cj中目標(biāo)專利文章存入本地?cái)?shù)據(jù)庫(kù)之前,將cj中各目標(biāo)專利文章按照文章技術(shù)領(lǐng)域建立索引,建立索引的目的是方便用戶快速查找相關(guān)文章信息,大多數(shù)用戶一般通過(guò)文章標(biāo)題或技術(shù)領(lǐng)域作為關(guān)鍵字進(jìn)行檢索。
數(shù)據(jù)檢索模塊,與廣告隱藏模塊連接,用于向用戶提供本地?cái)?shù)據(jù)庫(kù)檢索界面,并向用戶展示通過(guò)檢索條件檢索到的目標(biāo)專利文章。
在具體方案中,用戶可通過(guò)本地?cái)?shù)據(jù)庫(kù)檢索界面進(jìn)行目標(biāo)專利文章的檢索,檢索方法可以采用現(xiàn)有的從文章的檢索方法,具體檢索過(guò)程此處不再贅述。
任務(wù)分配模塊,與數(shù)據(jù)獲取模塊連接,用于當(dāng)?shù)竭_(dá)預(yù)設(shè)時(shí)間點(diǎn)時(shí),啟動(dòng)數(shù)據(jù)獲取模塊開(kāi)始工作。
參照?qǐng)D2,本發(fā)明提出的一種基于大數(shù)據(jù)的專利文章整合方法,包括:
s1、從網(wǎng)絡(luò)大數(shù)據(jù)的數(shù)據(jù)庫(kù)中下載專利領(lǐng)域的文章,得到專利文章集合ai;本步驟中,當(dāng)?shù)竭_(dá)用戶預(yù)設(shè)的時(shí)間點(diǎn)時(shí),通過(guò)互聯(lián)網(wǎng)爬蟲從網(wǎng)絡(luò)大數(shù)據(jù)的數(shù)據(jù)庫(kù)中下載專利文章。
在具體方案中,在到達(dá)用戶預(yù)設(shè)的時(shí)間點(diǎn)時(shí),通過(guò)互聯(lián)網(wǎng)爬蟲從網(wǎng)絡(luò)大數(shù)據(jù)的數(shù)據(jù)庫(kù)中下載專利文章,根據(jù)預(yù)的設(shè)情報(bào)搜集目標(biāo)與分析目標(biāo),采集專利領(lǐng)域的文章信息,得到專利文章集合ai。
s2、隱藏ai中下載的專利文章中的廣告信息,得到有效專利文章集合bi;本步驟具體包括:s21、提取ai中一篇專利文章中文字信息的句子,得到文字信息的句子集合dm;s22、將dm中各句子進(jìn)行相互間相似度比較,隱藏所述專利文章中相似度低于預(yù)設(shè)相似度值的句子;s23、在ai中所有專利文章均進(jìn)行步驟s21、s22操作后,得到有效專利文章集合bi。
在具體方案中,提取ai中任一篇專利文章中所有的句子,將這些句子集合進(jìn)行相互間相似度比較,判斷相似度低于預(yù)設(shè)相似度值的句子為廣告信息,隱藏所述廣告信息,得到有效專利文章,當(dāng)ai中所有專利文章均進(jìn)行相似度比較和隱藏操作后,得到有效專利文章集合bi:如此,隱藏文章中無(wú)用的廣告信息和鏈接,方便用戶的閱讀和使用,進(jìn)一步的,用戶可顯示隱藏的句子。
s3、將bi中的有效專利文章與本地?cái)?shù)據(jù)庫(kù)中文章進(jìn)行重合度比較,刪除bi中有效專利文章的重合度值大于預(yù)設(shè)閾值的有效專利文章,得到目標(biāo)專利文章集合cj,將cj中目標(biāo)專利文章存入本地?cái)?shù)據(jù)庫(kù);
本步驟中,在將cj中目標(biāo)專利文章存入本地?cái)?shù)據(jù)庫(kù)之前,將cj中各目標(biāo)專利文章按照文章標(biāo)題建立索引;和/或,步驟s3中,在將cj中目標(biāo)專利文章存入本地?cái)?shù)據(jù)庫(kù)之前,將cj中各目標(biāo)專利文章按照文章技術(shù)領(lǐng)域建立索引。
在具體方案中,在將cj中目標(biāo)專利文章存入本地?cái)?shù)據(jù)庫(kù)之前,將cj中各目標(biāo)專利文章按照文章標(biāo)題和/或文章技術(shù)領(lǐng)域建立索引,建立索引的目的是方便用戶快速查找相關(guān)文章信息,大多數(shù)用戶一般通過(guò)文章標(biāo)題或技術(shù)領(lǐng)域作為關(guān)鍵字進(jìn)行檢索。
s4、向用戶提供本地?cái)?shù)據(jù)庫(kù)檢索界面,并向用戶展示通過(guò)檢索條件檢索到的目標(biāo)專利文章;
在具體方案中,用戶可通過(guò)本地?cái)?shù)據(jù)庫(kù)檢索界面進(jìn)行目標(biāo)專利文章的檢索,檢索方法可以采用現(xiàn)有的從文章的檢索方法,具體檢索過(guò)程此處不再贅述。本實(shí)施方式從網(wǎng)絡(luò)大數(shù)據(jù)的數(shù)據(jù)庫(kù)中下載專利領(lǐng)域的文章,再隱藏文章中的無(wú)用廣告信息,得到有效專利文章,將有效專利文章與本地?cái)?shù)據(jù)庫(kù)中文章進(jìn)行重合度比較,刪除重合度值大于預(yù)設(shè)閾值的有效專利文章,得到目標(biāo)專利文章集合存入本地?cái)?shù)據(jù)庫(kù),同時(shí)用戶提供本地?cái)?shù)據(jù)庫(kù)檢索界面,并向用戶展示通過(guò)檢索條件檢索到的目標(biāo)專利文章。如此,對(duì)下載的專利文章的進(jìn)行廣告隱藏,查重、整合、建立索引操作,使得用戶可以在本地?cái)?shù)據(jù)庫(kù)中進(jìn)行文章的檢索和閱讀,方便用戶使用,提高用戶的使用體驗(yàn),其次,便于專利公開(kāi)數(shù)據(jù)的利用和研究。
以上所述,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。