專利名稱:一種網(wǎng)絡(luò)內(nèi)容引用自動發(fā)現(xiàn)的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于智能信息處理技術(shù),具體涉及的是一種網(wǎng)絡(luò)內(nèi)容引用自動發(fā)現(xiàn)的方法。
背景技術(shù):
目前,互聯(lián)網(wǎng)上網(wǎng)絡(luò)內(nèi)容之間互相引用的問題非常突出,其中大部分都是未取得授權(quán)的非法引用或抄襲,這些行為嚴重侵犯了相關(guān)版權(quán)人的知識產(chǎn)權(quán)。但是,現(xiàn)在還沒有一種自動發(fā)現(xiàn)網(wǎng)絡(luò)內(nèi)容引用的方法,人們不得不采用人工方法。人工發(fā)現(xiàn)特定的網(wǎng)站內(nèi)容被引用的方法主要有如下一些1、網(wǎng)站瀏覽方式。到相關(guān)的網(wǎng)站上瀏覽,查看是否有對這些內(nèi)容的引用。由于網(wǎng)站數(shù)量多、內(nèi)容豐富、時常更新等,使得這種方式不僅需要花費大量的人力,而且難免遺漏。
2、網(wǎng)絡(luò)搜索方式。利用網(wǎng)絡(luò)搜索引擎,通過網(wǎng)絡(luò)搜索來發(fā)現(xiàn)特定網(wǎng)絡(luò)內(nèi)容是否被引用。由于搜索引擎只能接受查詢詞方式的搜索條件,這種方法需要人工進行查詢條件的構(gòu)造,并對檢索結(jié)果進行人工挑選確認。這種方式需要操作者具有一定的專業(yè)知識,特別是構(gòu)造好的查詢條件,否則要么檢索結(jié)果中無關(guān)信息太多,要么待發(fā)現(xiàn)的目標被遺漏。由于網(wǎng)絡(luò)內(nèi)容異常豐富,據(jù)Google數(shù)據(jù),2005年8月互聯(lián)網(wǎng)上網(wǎng)頁數(shù)量已超過80億,所以這種方式的計算代價非常大,難以在短時間內(nèi)完成。假設(shè)非常高配置的機器每秒鐘能完成1千篇文檔的比較判斷,將一個指定的網(wǎng)頁內(nèi)容與網(wǎng)上所有內(nèi)容進行比較的話也將需要90天以上。
3、人工舉報方式。通過一些激勵手段,鼓勵大眾發(fā)現(xiàn)內(nèi)容引用時進行舉報。除非特殊情況,這種方式使用少。
由于當前沒有自動發(fā)現(xiàn)網(wǎng)絡(luò)內(nèi)容引用的方法,而采用人工發(fā)現(xiàn)的方法需要花費大量人力物力,成本太高導(dǎo)致未經(jīng)授權(quán)的網(wǎng)絡(luò)內(nèi)容引用轉(zhuǎn)載大量存在,網(wǎng)絡(luò)內(nèi)容同質(zhì)化問題非常嚴重。沒有授權(quán)的內(nèi)容轉(zhuǎn)載如同盜印是應(yīng)該制止的盜版行為,內(nèi)容版權(quán)人的合法權(quán)益應(yīng)該獲得保護。發(fā)現(xiàn)網(wǎng)絡(luò)內(nèi)容引用轉(zhuǎn)載是實現(xiàn)內(nèi)容版權(quán)保護的基礎(chǔ)。
本發(fā)明是基于如下兩項現(xiàn)有的基本技術(shù)1、計算機可自動判斷兩個網(wǎng)站內(nèi)容(如網(wǎng)頁)是否存在引用關(guān)系,這種引用關(guān)系包括內(nèi)容完全相同和內(nèi)容部分相同等情況;
2、可通過網(wǎng)絡(luò)爬蟲技術(shù)獲得當前網(wǎng)絡(luò)中的幾乎全部的內(nèi)容,這是當前的成熟技術(shù),已被網(wǎng)絡(luò)搜索引擎等系統(tǒng)廣泛使用。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明的目的是提出一種自動發(fā)現(xiàn)網(wǎng)絡(luò)內(nèi)容引用的方法,該方法能夠替代人工進行網(wǎng)絡(luò)內(nèi)容的發(fā)現(xiàn)。在此方法基礎(chǔ)上結(jié)合一些界定盜版的原則,可成為實現(xiàn)網(wǎng)絡(luò)內(nèi)容的數(shù)字版權(quán)保護的重要技術(shù)手段。
為了實現(xiàn)上述發(fā)明目的,本發(fā)明采用的技術(shù)方案是一種網(wǎng)絡(luò)內(nèi)容引用自動發(fā)現(xiàn)方法,包括以下步驟1)內(nèi)容讀取讀取指定的待發(fā)現(xiàn)是否被引用的網(wǎng)站內(nèi)容;2)內(nèi)容抓取利用網(wǎng)絡(luò)爬蟲技術(shù)將網(wǎng)絡(luò)中的全部或部分內(nèi)容抓取過來;3)引用分析抓取的網(wǎng)絡(luò)內(nèi)容與指定的網(wǎng)絡(luò)內(nèi)容進行對比分析,判斷是否存在引用關(guān)系。
進一步,如存在引用關(guān)系,則輸出引用指定內(nèi)容的網(wǎng)絡(luò)內(nèi)容列表。
進一步,步驟3中所述的引用分析方法包括將待發(fā)現(xiàn)是否被引用的網(wǎng)站內(nèi)容按段落或按子主題或按句子進行分析,以便檢測出部分引用的情況。
步驟3中的分析判斷過程分為兩步(1)先根據(jù)待發(fā)現(xiàn)是否被引用的網(wǎng)站內(nèi)容的特征對步驟2中抓取的所有內(nèi)容進行快速分析,獲得一個小的結(jié)果集;(2)在小的結(jié)果集上,采用逐個分析判斷的方法發(fā)現(xiàn)是否存在引用關(guān)系。
進一步,步驟3中對抓取的網(wǎng)絡(luò)內(nèi)容采用索引技術(shù)建立內(nèi)容索引,以便加快對內(nèi)容進行第一次分析搜索。索引可以是多種類型的索引,包括倒排索引、高維索引或其它的索引類型。步驟2中對網(wǎng)絡(luò)內(nèi)容抓取及步驟3中對抓取的網(wǎng)絡(luò)內(nèi)容建立索引的過程直接利用搜索引擎網(wǎng)站提供的服務(wù)替代完成。常用的搜索引擎網(wǎng)站如Google,百度等。
進一步,在步驟2使用搜索引擎網(wǎng)站的服務(wù)前對指定的待發(fā)現(xiàn)是否被引用的網(wǎng)站內(nèi)容進行特征分析并形成符合搜索引擎檢索條件格式要求的檢索條件。
進一步,采用特征詞提取技術(shù)對待發(fā)現(xiàn)是否被引用的網(wǎng)站內(nèi)容進行特征分析獲得特征詞及其權(quán)重。將這些詞組成檢索條件項利用內(nèi)容索引實現(xiàn)快速檢索獲得小的結(jié)果集。
再進一步,使用搜索引擎網(wǎng)站的服務(wù)時,使用單個搜索引擎網(wǎng)站的服務(wù),或者是綜合多個搜索引擎網(wǎng)站提供的服務(wù)。
本發(fā)明的效果在于采用本發(fā)明所述的方法,可以通過計算機自動發(fā)現(xiàn)網(wǎng)頁內(nèi)容被引用的情況,替代了現(xiàn)有技術(shù)中人工檢索的手段,從而為網(wǎng)頁內(nèi)容的知識產(chǎn)權(quán)保護或相關(guān)數(shù)據(jù)(如被引用的次數(shù)等)的統(tǒng)計提供了一種高效的技術(shù)手段。
本發(fā)明之所以具有上述顯著的效果,其原因在于由于本發(fā)明將引用分析過程分成了兩步,特別是引入了第一步預(yù)搜索過程,不但極大地加快了自動發(fā)現(xiàn)的過程,使得自動發(fā)現(xiàn)成為可能;進一步可利用Google等搜索引擎網(wǎng)站提供的檢索服務(wù),免除開銷巨大的網(wǎng)頁抓取與建立內(nèi)容索引等工作,使得網(wǎng)站內(nèi)容引用自動發(fā)現(xiàn)系統(tǒng)的硬件條件要求低,速度快。實驗表明,本發(fā)明在普通PC機的條件及網(wǎng)絡(luò)帶寬下,針對任何一個網(wǎng)頁,10秒以內(nèi)(通常是2-3秒)就可以自動發(fā)現(xiàn)互聯(lián)網(wǎng)上是否有對該網(wǎng)頁內(nèi)容的引用。
圖1是本發(fā)明所述方法的流程圖。
具體實施例方式
下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步地描述。
本發(fā)明在普通PC上進行實驗,CPU為P4 2.0GHz,內(nèi)存為512MB,Windows2000操作系統(tǒng)。如圖1所示,一種網(wǎng)絡(luò)內(nèi)容引用自動發(fā)現(xiàn)方法,包括以下步驟1)內(nèi)容讀取讀取指定的待發(fā)現(xiàn)是否被引用的網(wǎng)站內(nèi)容;2)特征分析首先進行分詞,采用關(guān)鍵詞提取技術(shù)根據(jù)文檔中各詞出現(xiàn)的頻度、位置、詞性、詞長度、是否常用詞等信息對各詞計算權(quán)重評分,然后選取權(quán)重高的10個詞作為特征詞;3)搜索條件根據(jù)搜索引擎網(wǎng)站提供的檢索格式要求將內(nèi)容特征形成搜索條件,本實施例中根據(jù)Google的檢索格式要求,將特征詞按權(quán)重由大到小的順序以空格分開形成一個字符串作為搜索條件;4)內(nèi)容檢索將搜索條件通過網(wǎng)絡(luò)訪問方式提交給Google獲得檢索結(jié)果,查詢提交的方式既可以是“http”的方式,也可以使用Google提供的WEB服務(wù)開發(fā)包。本實施例中通過程序模擬人工在表單的查詢條件框中填寫步驟3所形成的搜索條件并向Google站點發(fā)送。
5)引用檢測將檢索結(jié)果集的每個網(wǎng)頁與指定用于發(fā)現(xiàn)是否被引用的網(wǎng)站內(nèi)容比較,檢測是否有被引用的情況;本實施例中將返回的網(wǎng)頁按條目方式逐條分析并根據(jù)各條結(jié)果的URL將實際網(wǎng)頁抓取來,并分析其內(nèi)容,并與指定的待發(fā)現(xiàn)是否被引用的網(wǎng)站內(nèi)容進行比較,判斷是否存在引用關(guān)系,本實施例中以文本段為單位,以文本分析中常用的向量空間模型中的文本向量夾角余弦值來度量兩文本段之間的相似度,當兩文本段之間的相似度大于0.8時,則認為它們之間可能存在引用關(guān)系,并將相似度值看作存在引用關(guān)系的可信度。
6)輸出結(jié)果根據(jù)引用關(guān)系的可信度輸出引用發(fā)現(xiàn)的結(jié)果,結(jié)束發(fā)現(xiàn)過程。
實驗表明,本發(fā)明在上述實驗條件下,針對任何一個網(wǎng)頁,10秒以內(nèi)(通常是2-3秒)就可以自動發(fā)現(xiàn)互聯(lián)網(wǎng)上是否有對該網(wǎng)頁內(nèi)容的引用。
綜上,本發(fā)明針對現(xiàn)有技術(shù)中所存在的問題,以網(wǎng)絡(luò)搜索技術(shù)與智能分析技術(shù)及自然語言理解技術(shù)為基礎(chǔ),對指定的用于發(fā)現(xiàn)是否被引用的網(wǎng)站內(nèi)容進行智能分析,獲得這些內(nèi)容的特征性的信息,并利用這些信息通過快速搜索技術(shù)獲得一個相對較小的結(jié)果集,該結(jié)果集是與指定的網(wǎng)站內(nèi)容存在相關(guān)性的網(wǎng)絡(luò)內(nèi)容,最后將指定的網(wǎng)站內(nèi)容與該結(jié)果集的內(nèi)容進行逐一對比,判斷結(jié)果集中的內(nèi)容與指定的網(wǎng)絡(luò)內(nèi)容是否存在引用關(guān)系。因此,本發(fā)明相對于現(xiàn)有技術(shù)來說是具有顯著的效果的。
本發(fā)明所述的方法并不限于具體實施方式
中所述的實施例,本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出其他的實施方式,同樣屬于本發(fā)明的技術(shù)創(chuàng)新范圍。
權(quán)利要求
1.一種網(wǎng)絡(luò)內(nèi)容引用自動發(fā)現(xiàn)的方法,包括以下步驟1)內(nèi)容讀取讀取指定的待發(fā)現(xiàn)是否被引用的網(wǎng)絡(luò)內(nèi)容;2)內(nèi)容抓取利用網(wǎng)絡(luò)爬蟲技術(shù)將網(wǎng)絡(luò)中的全部或部分內(nèi)容抓取過來;3)引用分析抓取的網(wǎng)絡(luò)內(nèi)容與指定的網(wǎng)絡(luò)內(nèi)容進行對比分析,判斷是否存在引用關(guān)系。
2.如權(quán)利要求1所述的一種網(wǎng)絡(luò)內(nèi)容引用自動發(fā)現(xiàn)的方法,其特征在于如存在引用關(guān)系,則輸出引用指定內(nèi)容的網(wǎng)絡(luò)內(nèi)容列表。
3.如權(quán)利要求1或2所述的一種網(wǎng)絡(luò)內(nèi)容引用自動發(fā)現(xiàn)的方法,其特征在于步驟3中所述的引用分析方法包括將待發(fā)現(xiàn)是否被引用的網(wǎng)站內(nèi)容按段落或按子主題或按句子進行分析,以便檢測出部分引用的情況。
4.如權(quán)利要求3所述的一種網(wǎng)絡(luò)內(nèi)容引用自動發(fā)現(xiàn)的方法,其特征在于步驟3中的分析判斷過程分為兩步(1)先根據(jù)待發(fā)現(xiàn)是否被引用的網(wǎng)站內(nèi)容的特征對步驟2中抓取的所有內(nèi)容進行快速分析,獲得一個小的結(jié)果集;(2)在小的結(jié)果集上,采用逐個比較判斷的方法發(fā)現(xiàn)是否存在引用關(guān)系。
5.如權(quán)利要求4所述的一種網(wǎng)絡(luò)內(nèi)容引用自動發(fā)現(xiàn)的方法,其特征在于步驟(1)中為實現(xiàn)快速分析先對抓取的網(wǎng)絡(luò)內(nèi)容建立索引。
6.如權(quán)利要求5所述的一種網(wǎng)絡(luò)內(nèi)容引用自動發(fā)現(xiàn)的方法,其特征在于步驟(1)中對抓取的網(wǎng)絡(luò)內(nèi)容建立的索引是倒排索引、高維索引或多重索引。
7.如權(quán)利要求1或4所述的一種網(wǎng)絡(luò)內(nèi)容引用自動發(fā)現(xiàn)的方法,其特征在于步驟2中對網(wǎng)絡(luò)內(nèi)容抓取及步驟3中對抓取的網(wǎng)絡(luò)內(nèi)容建立索引的過程直接利用搜索引擎網(wǎng)站提供的服務(wù)替代完成。
8.如權(quán)利要求7所述的一種網(wǎng)絡(luò)內(nèi)容引用自動發(fā)現(xiàn)的方法,其特征在于使用搜索引擎網(wǎng)站的服務(wù)前對待發(fā)現(xiàn)是否被引用的網(wǎng)站內(nèi)容進行特征分析并形成符合搜索引擎檢索條件格式要求的檢索條件。
9.如權(quán)利要求8所述的一種網(wǎng)絡(luò)內(nèi)容引用自動發(fā)現(xiàn)的方法,其特征在于采用特征詞提取技術(shù)對待發(fā)現(xiàn)是否被引用的網(wǎng)站內(nèi)容進行特征分析獲得特征詞及其權(quán)重。
10.如權(quán)利要求7所述的一種網(wǎng)絡(luò)內(nèi)容引用自動發(fā)現(xiàn)的方法,其特征在于使用搜索引擎網(wǎng)站的服務(wù)時,使用單個搜索引擎網(wǎng)站的服務(wù),或者是綜合多個搜索引擎網(wǎng)站提供的服務(wù)。
全文摘要
本發(fā)明涉及一種網(wǎng)絡(luò)內(nèi)容引用自動發(fā)現(xiàn)的方法,屬于智能信息處理技術(shù)。現(xiàn)有技術(shù)中,由于沒有自動發(fā)現(xiàn)網(wǎng)絡(luò)內(nèi)容引用的方法,使得網(wǎng)絡(luò)內(nèi)容同質(zhì)化問題非常嚴重,沒有授權(quán)的內(nèi)容引用轉(zhuǎn)載隨處可見。本發(fā)明以網(wǎng)絡(luò)搜索技術(shù)與智能分析技術(shù)及自然語言理解技術(shù)為基礎(chǔ),提出一種自動發(fā)現(xiàn)網(wǎng)絡(luò)內(nèi)容引用的方法,該方法將引用分析過程分成了兩步,引入了預(yù)搜索過程,不但極大地加快了自動發(fā)現(xiàn)的過程,而且可利用搜索引擎網(wǎng)站提供的檢索服務(wù),免除開銷巨大的網(wǎng)頁抓取與建立內(nèi)容索引等工作。本發(fā)明方法不僅使得自動發(fā)現(xiàn)網(wǎng)站內(nèi)容引用成為可能,而且使得系統(tǒng)所需硬件條件要求低,速度快,對保護網(wǎng)絡(luò)內(nèi)容的知識產(chǎn)權(quán)具有重要的實用價值。
文檔編號G06F17/30GK1770159SQ200510109600
公開日2006年5月10日 申請日期2005年10月28日 優(yōu)先權(quán)日2005年10月28日
發(fā)明者楊建武, 陳曉鷗, 吳於茜 申請人:北大方正集團有限公司, 北京北大方正技術(shù)研究院有限公司, 北京大學(xué)