亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文本相似度檢測(cè)方法

文檔序號(hào):8361422閱讀:1469來(lái)源:國(guó)知局
一種文本相似度檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,更具體涉及一種文本相似度檢測(cè)方法。
【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展和互聯(lián)網(wǎng)的快速普及,人類(lèi)的信息交流變得越來(lái)越方 便快捷,這為一些人的剽竊、抄襲等不道德的行為提供了很大的便利條件。特別地,在高校 中,由于教師沒(méi)有足夠的時(shí)間和精力對(duì)論文式作業(yè)進(jìn)行抄襲檢查,同時(shí)又缺乏有效的抄襲 自動(dòng)檢測(cè)工具,所以學(xué)生抄襲現(xiàn)象越來(lái)越嚴(yán)重。針對(duì)這一問(wèn)題,本發(fā)明進(jìn)行中文論文式作業(yè) (簡(jiǎn)稱(chēng)"中文論文")的抄襲自動(dòng)檢測(cè)技術(shù)研宄。
[0003] 其實(shí),論文抄襲檢測(cè)是一個(gè)文檔相似度檢測(cè)問(wèn)題,即檢測(cè)兩篇文檔的相似度,如果 相似度足夠高,可以視之為抄襲。目前,針對(duì)論文抄襲的文檔相似度計(jì)算和檢測(cè)方法可以分 為兩大類(lèi):基于數(shù)字指紋的和基于詞頻統(tǒng)計(jì)的。前者適合全文抄襲即"一字不漏"的復(fù)制, 計(jì)算量比較小;后者適合帶有增刪改等操作的復(fù)雜式抄襲,計(jì)算量比較大。目前,隨著防抄 襲軟件的日益流行,為避免被識(shí)破,抄襲者往往合成多個(gè)論文,并在原文基礎(chǔ)上進(jìn)行一定程 度的修改。針對(duì)這種現(xiàn)象,本發(fā)明重點(diǎn)研宄基于詞頻統(tǒng)計(jì)的文檔相似度計(jì)算方法,提高對(duì)復(fù) 雜式抄襲的自動(dòng)檢測(cè)效果。
[0004] 目前,大部分文檔相似度計(jì)算技術(shù)都是針對(duì)英文展開(kāi),特別是著名的國(guó)際評(píng)測(cè) SemanticTextualSimilarity(STS)。STS是專(zhuān)門(mén)針對(duì)英文文檔相似度計(jì)算舉辦的一個(gè)評(píng) 測(cè),其極大地匯集了各種文檔相似度計(jì)算技術(shù),有效地推動(dòng)了文檔相似度計(jì)算的研宄。相對(duì) 英文,中文存在分詞、資源相對(duì)比較缺乏等問(wèn)題。首先,中文分詞錯(cuò)誤還直接影響后續(xù)的相 似度計(jì)算效果。其次,由于缺乏像英文WordNet這樣大規(guī)模的詞典,基于詞典的詞相似計(jì)算 在中文論文抄襲自動(dòng)檢測(cè)中往往應(yīng)用不夠廣泛或?qū)嶋H效果不好,這導(dǎo)致目前的中文論文抄 襲自動(dòng)檢測(cè)裝置或方法不能很好地檢測(cè)到哪些專(zhuān)業(yè)論文的抄襲現(xiàn)象,而高校論文往往具有 很強(qiáng)的專(zhuān)業(yè)性、領(lǐng)域性。因此,需要開(kāi)發(fā)針對(duì)專(zhuān)業(yè)論文的中文論文抄襲自動(dòng)檢測(cè)方法。

【發(fā)明內(nèi)容】

[0005] (一)要解決的技術(shù)問(wèn)題
[0006] 本發(fā)明要解決的技術(shù)問(wèn)題是提出一種文本相似度檢測(cè)方法,能夠根據(jù)不同的領(lǐng) 域,采用不同策略對(duì)相似度進(jìn)行自動(dòng)檢測(cè)和判斷,同時(shí)節(jié)省人力資源,提高計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng) 對(duì)中文的判別準(zhǔn)確度和判別速度。
[0007] (二)技術(shù)方案
[0008] 為了解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種文本相似度檢測(cè)方法,所述方法包括 以下步驟:
[0009] S1、根據(jù)百度百科詞條的分類(lèi)標(biāo)簽構(gòu)建類(lèi)詞典;
[0010] S2、輸入需要對(duì)比的兩篇中文文獻(xiàn),并分別對(duì)兩篇中文文獻(xiàn)進(jìn)行預(yù)處理;
[0011] S3、將兩篇所述中文文獻(xiàn)中的詞語(yǔ)進(jìn)行過(guò)濾,去除重復(fù)詞語(yǔ),生成詞項(xiàng)集,并將所 述詞項(xiàng)集中的詞項(xiàng)分為專(zhuān)業(yè)詞匯集和普通詞匯集;
[0012] S4、將兩篇所述中文文獻(xiàn)的中的兩個(gè)句子中的專(zhuān)業(yè)詞匯對(duì)齊,并且將兩個(gè)句子中 的普通詞匯對(duì)齊,并分別計(jì)算各個(gè)詞匯相對(duì)于其對(duì)應(yīng)性質(zhì)的詞匯的相似度;
[0013] S5、計(jì)算兩篇所述中文文獻(xiàn)中各個(gè)句子的相似度。
[0014] 優(yōu)選地,所述步驟Sl中,采用迭代的方法提取每一個(gè)詞條的所有的祖先節(jié)點(diǎn)以及 權(quán)重,所述祖先節(jié)點(diǎn)為對(duì)應(yīng)詞條的上位詞,對(duì)應(yīng)的所述權(quán)重反應(yīng)了所述詞條與其祖先節(jié)點(diǎn) 的語(yǔ)義關(guān)系:權(quán)重越大,對(duì)應(yīng)的空間距離越小,語(yǔ)義越相近。
[0015] 優(yōu)選地,所述步驟S2中,對(duì)中文文獻(xiàn)進(jìn)行預(yù)處理具體包括:
[0016] 將所述中文文獻(xiàn)按標(biāo)點(diǎn)符號(hào)進(jìn)行分句;對(duì)所有的句子進(jìn)行分詞,同時(shí)去除其中的 停用詞、單字和標(biāo)點(diǎn)符號(hào)。
[0017] 優(yōu)選地,將所述詞項(xiàng)集分為專(zhuān)業(yè)詞匯集和普通詞匯集具體包括以下步驟:
[0018] S31、如果詞項(xiàng)是百度百科詞條,并且所述詞條的分類(lèi)標(biāo)簽將其標(biāo)注為通用詞典的 常用詞,則所述詞項(xiàng)為普通詞匯,否則進(jìn)行步驟S32 ;
[0019] S32、如果詞項(xiàng)出現(xiàn)在美國(guó)賓州樹(shù)庫(kù)資源庫(kù)中,結(jié)合所述詞項(xiàng)在美國(guó)賓州樹(shù)庫(kù)資源 庫(kù)中的詞性標(biāo)簽POS和如下規(guī)則判斷其是否為普通詞匯:若所述詞項(xiàng)不出現(xiàn)在類(lèi)詞典中, 則所屬詞項(xiàng)為普通詞匯;若所述詞項(xiàng)出現(xiàn)在類(lèi)詞典中,并且所述詞項(xiàng)的前k個(gè)按照權(quán)重排 序的祖先節(jié)點(diǎn)均不含中文文獻(xiàn)所屬領(lǐng)域的代表詞匯,則該詞項(xiàng)為普通詞匯,否則為專(zhuān)業(yè)詞 匯,其中k> 1 ;
[0020] S33、由普通詞匯構(gòu)成普通詞匯集,由專(zhuān)業(yè)詞匯構(gòu)成專(zhuān)業(yè)詞匯集。
[0021] 優(yōu)選地,所述步驟S4中計(jì)算各個(gè)詞匯相對(duì)于其對(duì)應(yīng)性質(zhì)的詞匯的相似度具體包 括:
[0022] 對(duì)于所述普通詞匯的相似度的計(jì)算:一個(gè)句子中的普通詞匯,通過(guò)采用基于潛在 語(yǔ)義分析LSA算法,分別計(jì)算其與另一句子中各個(gè)普通詞匯的相似度,并選擇得到的多個(gè) 相似度值中的最大值作為所述普通詞匯對(duì)應(yīng)的相似度的值;
[0023] 對(duì)于所述專(zhuān)業(yè)詞匯的相似度的計(jì)算:一個(gè)句子中的專(zhuān)業(yè)詞匯,通過(guò)采用基于類(lèi)詞 典的詞相似度計(jì)算方法,分別計(jì)算其與另一句子中各個(gè)專(zhuān)業(yè)詞匯的相似度,并選擇得到的 多個(gè)相似度值中的最大值作為所述專(zhuān)業(yè)詞匯對(duì)應(yīng)的相似度的值。
[0024] 優(yōu)選地,所述基于類(lèi)詞典的詞相似度計(jì)算中,對(duì)于每個(gè)詞項(xiàng),其在類(lèi)詞典中的祖先 節(jié)點(diǎn)和權(quán)重構(gòu)成一個(gè)向量,詞項(xiàng)用向量來(lái)表示,詞相似度計(jì)算轉(zhuǎn)化成向量相似度計(jì)算。
[0025] 優(yōu)選地,所述步驟S5具體為:
[0026] 對(duì)于兩篇所述中文文獻(xiàn)中的各個(gè)句子,分別計(jì)算其包含的各個(gè)詞匯的相似度的平 均值,作為對(duì)應(yīng)句子的相似度。
[0027] 優(yōu)選地,所述方法還包括以下步驟:
[0028] S7、把句子相似度的計(jì)算結(jié)果傳遞給計(jì)算機(jī)客戶(hù)端,并進(jìn)行可視化展示。
[0029] (三)有益效果
[0030] 本發(fā)明提供了一種文本相似度檢測(cè)方法,本發(fā)明提供的方法根據(jù)詞匯類(lèi)型(專(zhuān)業(yè) 詞匯和普通詞匯)采用不同策略對(duì)詞相似度進(jìn)行自動(dòng)檢測(cè)和判斷,很大程度上節(jié)省了人力 資源,提高了計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)對(duì)中文的判別準(zhǔn)確度和判別速度;本發(fā)明的方法不僅可以應(yīng) 用于中文論文查重,也可以用于其它的中文專(zhuān)利文獻(xiàn)和非專(zhuān)利文獻(xiàn)的自動(dòng)檢測(cè)。
【附圖說(shuō)明】
[0031] 圖1為本發(fā)明的一種文本相似度檢測(cè)方法流程圖;
[0032] 圖2為本發(fā)明的一個(gè)較佳實(shí)施例的一種文本相似度檢測(cè)方法流程圖。
【具體實(shí)施方式】
[0033] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0034] 圖1為本發(fā)明的一種文本相似度檢測(cè)方法流程圖;所述方法包括以下步驟:
[0035] S1、根據(jù)百度百科詞條的分類(lèi)標(biāo)簽構(gòu)建類(lèi)詞典;
[0036] S2、輸入需要對(duì)比的兩篇中文文獻(xiàn),并分別對(duì)兩篇中文文獻(xiàn)進(jìn)行預(yù)處理;
[0037] S3、將兩篇所述中文文獻(xiàn)中的詞語(yǔ)進(jìn)行過(guò)濾,去除重復(fù)詞語(yǔ),生成詞項(xiàng)集,并將所 述詞項(xiàng)集中的詞項(xiàng)分為專(zhuān)業(yè)詞匯集和普通詞匯集;
[0038] S4、將兩篇所述中文文獻(xiàn)的中的兩個(gè)句子中的專(zhuān)業(yè)詞匯對(duì)齊,并且將兩個(gè)句子中 的普通詞匯對(duì)齊,并分別計(jì)算各個(gè)詞匯相對(duì)于其對(duì)應(yīng)性質(zhì)的詞匯的相似度;
[0039] S5、計(jì)算兩篇所述中文文獻(xiàn)中各個(gè)句子的相似度。
[0040] 所述步驟Sl中,采用迭代的方法提取每一個(gè)詞條的所有的祖先節(jié)點(diǎn)以及權(quán)重,所 述祖先節(jié)點(diǎn)為對(duì)應(yīng)詞條的上位詞,對(duì)應(yīng)的所述權(quán)重反應(yīng)了所述詞條與其祖先節(jié)點(diǎn)在真實(shí)本 體中的相對(duì)關(guān)系(即對(duì)應(yīng)的所述權(quán)重反應(yīng)了所述詞條與其祖先節(jié)點(diǎn)的語(yǔ)義關(guān)系):權(quán)重越 大,對(duì)應(yīng)的空間距離越小,語(yǔ)義越接近。
[0041] 所述步驟S2中,對(duì)中文文獻(xiàn)進(jìn)行預(yù)處理具體包括:將所述中文文獻(xiàn)按標(biāo)點(diǎn)符號(hào)進(jìn) 行分句;對(duì)所有的句子進(jìn)行分詞,同時(shí)去除其中的停用詞、單字和標(biāo)點(diǎn)符號(hào)。
[0042] 將所述詞項(xiàng)集分為專(zhuān)業(yè)詞匯集和普通詞匯集具體包括以下步驟:
[0043] S31、如果詞項(xiàng)是百度百科詞條,并且所述詞條的分類(lèi)標(biāo)簽將其標(biāo)注為通用詞典的 常用詞(例如,"詞語(yǔ)"、"詞匯"、"詞典"、"漢語(yǔ)"等),,則所述詞項(xiàng)為普通詞匯,否則進(jìn)行步 驟S32 ;
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1