一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域,特別涉及一種應(yīng)用于英語(yǔ)句子匹配的方法,尤其是 考慮了語(yǔ)法不規(guī)范句子的匹配方法。
【背景技術(shù)】
[0002] 語(yǔ)句相似度在雙語(yǔ)翻譯、自動(dòng)問答、論文查重等領(lǐng)域有重要的應(yīng)用價(jià)值。語(yǔ)句相似 度的計(jì)算方法有很多,不同應(yīng)用領(lǐng)域的側(cè)重點(diǎn)不同,有的偏重于文本表層內(nèi)容的匹配度,如 論文查重等;有的則偏重于語(yǔ)句包含的內(nèi)在語(yǔ)義的相似度,如雙語(yǔ)翻譯和自動(dòng)問答等。以論 文查重為例進(jìn)行簡(jiǎn)要說明:論文查重包含的數(shù)據(jù)庫(kù)主要為已發(fā)表的文獻(xiàn)、專利、著作、網(wǎng)頁(yè) 等,并且必須盡可能的包含所有文獻(xiàn)資料,以確保查重結(jié)果的可靠性。論文查重的句子相似 度評(píng)價(jià)標(biāo)準(zhǔn)需要考慮文字在句子中的出現(xiàn)順序,以及多個(gè)連續(xù)文字的匹配程度,當(dāng)文字匹 配的個(gè)數(shù)超過規(guī)定的數(shù)量時(shí)則認(rèn)為該句子抄襲了原有句子。句子之間的匹配算法在計(jì)算機(jī) 技術(shù)研究領(lǐng)域已經(jīng)有大量的研究,此處不再贅述。國(guó)內(nèi)外大量從事科研工作的研究人員、學(xué) 生等群體經(jīng)常需要寫作英文科技文獻(xiàn),如發(fā)表論文、申請(qǐng)專利、撰寫畢業(yè)論文等。對(duì)于非英 語(yǔ)母語(yǔ)國(guó)家的科研人員來說,寫出一篇能夠完全表達(dá)自己意思,并且語(yǔ)法規(guī)范、語(yǔ)句流暢的 文章通常是一件比較困難的事情。研究人員即使有一定的英語(yǔ)寫作能力,而寫出的文章中 卻包含有一定的語(yǔ)法錯(cuò)誤、語(yǔ)義模糊甚至出現(xiàn)歧義。為了能夠改善這種現(xiàn)象,研究人員通常 的做法是在自己閱讀過的大量外文文獻(xiàn)中尋找與自己表達(dá)意思相近的句子,并在此基礎(chǔ)上 根據(jù)自己的英語(yǔ)知識(shí)進(jìn)行一定的修改,從而形成一個(gè)完整表達(dá)自己意思的、沒有語(yǔ)法錯(cuò)誤 的并且和原句有一定差異的句子。由于科技論文中的內(nèi)容主要是作者自己的創(chuàng)新性工作, 因此完全與原句重合的概率很小。對(duì)于研究人員來說想要在自己閱讀的外文文獻(xiàn)中找到所 有能夠表達(dá)自己意思的句子是很困難的,并且該過程也是一項(xiàng)非常費(fèi)時(shí)費(fèi)力的工作。如何 通過現(xiàn)代電子計(jì)算機(jī)技術(shù),如語(yǔ)句相似度計(jì)算技術(shù),實(shí)現(xiàn)非常方便和快捷地查找與作者想 要表達(dá)意思相近的、沒有語(yǔ)法錯(cuò)誤的甚至具有一定寫作技巧的英文語(yǔ)句是一項(xiàng)亟待解決的 重要問題。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的是提供一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法。該 方法能夠利用用戶輸入的、語(yǔ)法可能不完全正確的英語(yǔ)句子搜索到與用戶意思相同或相近 的、語(yǔ)義清晰的英語(yǔ)句子,為用戶提供參考。該方法解決了非英語(yǔ)母語(yǔ)科研人員、學(xué)生等在 寫作科技文獻(xiàn)時(shí),難以專業(yè)表達(dá)想法或者無法確定句子語(yǔ)法規(guī)范的問題。
[0004] 本發(fā)明的具體技術(shù)方案是:一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方 法,包括以下幾個(gè)步驟: A. 將已建立的英語(yǔ)文獻(xiàn)數(shù)據(jù)庫(kù)中所有文獻(xiàn)的關(guān)鍵詞、第一作者或通訊作者所在國(guó)家 提取出來,并與相應(yīng)文獻(xiàn)建立對(duì)應(yīng)關(guān)系; B. 對(duì)所述英語(yǔ)文獻(xiàn)數(shù)據(jù)庫(kù)中所有文獻(xiàn)的摘要和正文文本以句子為單位進(jìn)行劃分,提 取句子的主要成份,并與原句建立對(duì)應(yīng)關(guān)系; C. 用戶輸入所要匹配句子所屬的學(xué)科、領(lǐng)域或者研究方向的一個(gè)或多個(gè)關(guān)鍵詞; D. 用戶輸入所需匹配的英語(yǔ)句子,對(duì)該句子的主要成份進(jìn)行提取,并與英語(yǔ)文獻(xiàn)數(shù)據(jù) 庫(kù)中所有句子的主要成份按照詞性相似度和語(yǔ)法相似度兩個(gè)方面進(jìn)行相似度計(jì)算; E. 將用戶輸入的關(guān)鍵詞與文獻(xiàn)關(guān)鍵詞進(jìn)行比較,并設(shè)定每篇文獻(xiàn)的關(guān)鍵詞權(quán)值,根據(jù) 第一作者或通訊作者所在國(guó)家,設(shè)定每篇文獻(xiàn)第一作者或通訊作者的英語(yǔ)熟練度權(quán)值; F. 綜合考慮句子主要成份相似度、文獻(xiàn)關(guān)鍵詞權(quán)值、文獻(xiàn)作者英語(yǔ)熟練度權(quán)值計(jì)算兩 個(gè)句子的最終相似度,按照最終相似度的高低進(jìn)行排序,并反饋給用戶相似度最高的一個(gè) 或幾個(gè)英文原句及其文獻(xiàn)出處。
[0005] 較佳的,前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法,所述步驟A 中,英語(yǔ)文獻(xiàn)數(shù)據(jù)庫(kù)指的是包含有已公開發(fā)表的、獲得出版方授權(quán)使用的英語(yǔ)學(xué)術(shù)論文的 數(shù)據(jù)庫(kù)。
[0006] 較佳的,前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法,所述步驟A 中,對(duì)沒有關(guān)鍵詞的文獻(xiàn)將文獻(xiàn)的標(biāo)題進(jìn)行分解,將名詞作為該文獻(xiàn)的關(guān)鍵詞。
[0007] 較佳的,前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法,所述步驟A 中,第一作者或通訊作者所在國(guó)家指的是文獻(xiàn)中第一作者或通訊作者的通信地址或服務(wù)機(jī) 構(gòu)中給出的國(guó)家,所述第一作者或通訊作者是該國(guó)國(guó)籍的公民,或在該國(guó)從事研究的外籍 人員。
[0008] 較佳的,前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法,所述步驟B 和D中,句子的主要成份包括語(yǔ)法主要成份,指的是劃分句子的主語(yǔ)、謂語(yǔ)、賓語(yǔ)、定語(yǔ)和狀 語(yǔ),并將介詞、冠詞、數(shù)詞去掉,保留名詞、動(dòng)詞、形容詞、副詞。
[0009] 較佳的,前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法,所述步驟B 和D中,句子的主要成份還包括詞性主要成份,指的是略去句中不影響主要詞義匹配的介 詞、冠詞、數(shù)詞,保留名詞、動(dòng)詞、形容詞、副詞。
[0010] 較佳的,前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法,所述步驟D 中,句子主要成份相似度_為: Qs 二心卞 Qs:, 其中,QSl為句子語(yǔ)法結(jié)構(gòu)相似度,Qs 2為句子詞性結(jié)構(gòu)相似度, 所述句子語(yǔ)法結(jié)構(gòu)相似度是將用戶輸入句子和文獻(xiàn)句子中的主語(yǔ)、謂語(yǔ)、賓語(yǔ)、定語(yǔ)和 狀語(yǔ)分別進(jìn)行比較,計(jì)算兩個(gè)詞之間的相似度,并和該詞的權(quán)值一起作為兩個(gè)詞之間的匹 配度,該句子語(yǔ)法結(jié)構(gòu)相似度QSlS : 其中,Qsubi為主語(yǔ)中第i個(gè)詞的相似度,
Qprej為謂語(yǔ)中第j個(gè)詞的相似度,Qobjk為 賓語(yǔ)中第k個(gè)詞的相似度,Qattl為定語(yǔ)中第1個(gè)詞的相似度,Qamz為狀語(yǔ)中第z個(gè)詞的相 似度;Ml為主語(yǔ)中詞的個(gè)數(shù),M2為謂語(yǔ)中詞的個(gè)數(shù),M3為賓語(yǔ)中詞的個(gè)數(shù),M4為定語(yǔ)中詞 的個(gè)數(shù),M5為狀語(yǔ)中詞的個(gè)數(shù);111、112、113、114、115分別表示主語(yǔ)、謂語(yǔ)、賓語(yǔ)、定語(yǔ)和狀語(yǔ)的 權(quán)值,nl、n2、n3、n4、n5的取值范圍是(0,1); 所述句子詞性結(jié)構(gòu)相似度是將用戶輸入句子和文獻(xiàn)句子中的名詞、動(dòng)詞、形容詞和副 詞分別進(jìn)行比較,計(jì)算兩個(gè)詞之間的相似度,并和該詞的權(quán)值一起作為兩個(gè)詞之間的匹配 度,該句子詞性結(jié)構(gòu)相似度如2為:
其中,Qnouni為第i個(gè)名詞相似度,Qverbj為第j個(gè)動(dòng)詞相似度,Qadjk為第k個(gè)形容 詞相似度,Qadvl為第1個(gè)副詞相似度;N1為名詞的個(gè)數(shù),N2為動(dòng)詞的個(gè)數(shù),N3為形容詞的 個(gè)數(shù),N4為副詞的個(gè)數(shù);ml、m2、m3、m4分別為名詞、動(dòng)詞、形容詞、副詞的權(quán)值,ml、m2、m3、 m4的取值范圍是(0,1)。
[0011] 較佳的,前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法,如果用戶 輸入句子中的主語(yǔ)、謂語(yǔ)、賓語(yǔ)、定語(yǔ)和狀語(yǔ)中不止一個(gè)詞,則將每個(gè)詞和文獻(xiàn)句子中對(duì)應(yīng) 語(yǔ)法結(jié)構(gòu)中所有詞進(jìn)行相似度計(jì)算,選取相似度最大的兩個(gè)詞認(rèn)為是相互匹配的詞,當(dāng)用 戶輸入句子和文獻(xiàn)句子中出現(xiàn)多個(gè)相同的詞時(shí),每個(gè)詞僅進(jìn)行一次相似度計(jì)算。
[0012] 較佳的,前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法,如果用戶 輸入句子中出現(xiàn)多個(gè)名詞、動(dòng)詞、形容詞和副詞,需要分別計(jì)算每個(gè)詞和文獻(xiàn)句子中相應(yīng)詞 的相似度,選取相似度最大的兩個(gè)詞認(rèn)為是相互匹配的詞,當(dāng)用戶輸入句子和文獻(xiàn)句子中 出現(xiàn)多個(gè)相同的詞時(shí),每個(gè)詞僅進(jìn)行一次相似度計(jì)算。
[0013] 較佳的,前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法,所述兩個(gè) 詞之間的相似度為:如果用戶輸入句子和文獻(xiàn)句子中的詞完全相同,則所述兩個(gè)詞之間的 相似度為1 ;如果用戶輸入句子和文獻(xiàn)句子中的詞不相同,即是差異詞,對(duì)差異詞進(jìn)行擴(kuò) 展,并比較擴(kuò)展后的差異詞與用戶輸入句子中的詞之間的相似度,其取值范圍為0 < Qi〈l, Qi為兩個(gè)詞之間的相似度。
[0014] 較佳的,前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法,所述對(duì)差 異詞進(jìn)行擴(kuò)展是對(duì)該差異詞進(jìn)行詞匯變換,包括同義詞變換、單復(fù)數(shù)變換、時(shí)態(tài)變換以及反 義詞變換。
[0015] 較佳的,前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法,所述擴(kuò)展 后的差異詞與用戶輸入句子中的詞之間的相似度為:如果擴(kuò)展后的差異詞屬于用戶輸入句 子中的詞的同義詞,則相似度為〇. 2 < Qi〈0. 9 ;如果擴(kuò)展后的差異詞和用戶輸入句子中的 詞屬于單復(fù)數(shù)關(guān)系,則相似度為〇. 2 < Qi〈0. 9 ;如果擴(kuò)展后的差異詞和用戶輸入句子中的 詞之間能夠進(jìn)行時(shí)態(tài)變換,則相似度為0. 2 < Qi〈0. 9 ;如果擴(kuò)展后的差異詞和用戶輸入句 子中的詞屬于反義詞關(guān)系,則相似度為〇彡Qi〈〇. 6。
[0016] 較佳的,前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法,所述步驟E 中,英語(yǔ)熟練度權(quán)值是根據(jù)文獻(xiàn)第一作者或通訊作者所在國(guó)家不同,為文獻(xiàn)設(shè)定不同的權(quán) 值,英語(yǔ)母語(yǔ)國(guó)家的第一作者或通訊作者英語(yǔ)熟練度權(quán)值Qc =1,非英語(yǔ)母語(yǔ)國(guó)家的第一作 者或通訊作者英語(yǔ)熟練度權(quán)值設(shè)定為0-1之間的數(shù)值。
[0017] 較佳的,前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法,所述步 驟E中,根據(jù)用戶輸入的關(guān)鍵詞,計(jì)算機(jī)對(duì)文獻(xiàn)的關(guān)鍵詞進(jìn)行匹配,根據(jù)關(guān)鍵詞的匹配程 度設(shè)定該文獻(xiàn)的關(guān)鍵詞權(quán)值,如果用戶輸入的關(guān)鍵詞全部被文獻(xiàn)的關(guān)鍵詞包含,則是完全 匹配,匹配權(quán)值為1,匹配到關(guān)鍵詞的數(shù)量越少,則權(quán)值越低,關(guān)鍵詞權(quán)值_為:% = 擇 % = T/M,其中,N為用戶輸入的關(guān)鍵詞個(gè)數(shù),T為文獻(xiàn)關(guān)鍵詞包含用戶關(guān)鍵詞的個(gè)數(shù),Qg為 文獻(xiàn)關(guān)鍵詞權(quán)值。
[0018] 較佳的,前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法,所述步驟F 中,兩個(gè)句子最終的相似度Q為:_=美::《鳥彥__;§灣^ 似度Qs在最終相似度Q計(jì)算中占的權(quán)值,0〈fs〈l ;fg為關(guān)鍵詞權(quán)值Qg在最終相似度Q計(jì) 算中占的權(quán)值,〇〈fg〈l ;fc為第一作者或通訊作者英語(yǔ)熟練度權(quán)值Qc在最終相似度Q計(jì)算 中占的權(quán)值,〇〈fc〈l。
[0019] 較佳的,前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法,所述步驟D 中,用戶輸入的句子是語(yǔ)法正確的,或語(yǔ)法不正確的。
[0020] 本發(fā)明