一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法

文檔序號(hào)：9911001閱讀：976來源：國(guó)知局

一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域，特別涉及一種應(yīng)用于英語(yǔ)句子匹配的方法，尤其是考慮了語(yǔ)法不規(guī)范句子的匹配方法。
【背景技術(shù)】
[0002] 語(yǔ)句相似度在雙語(yǔ)翻譯、自動(dòng)問答、論文查重等領(lǐng)域有重要的應(yīng)用價(jià)值。語(yǔ)句相似度的計(jì)算方法有很多，不同應(yīng)用領(lǐng)域的側(cè)重點(diǎn)不同，有的偏重于文本表層內(nèi)容的匹配度，如論文查重等；有的則偏重于語(yǔ)句包含的內(nèi)在語(yǔ)義的相似度，如雙語(yǔ)翻譯和自動(dòng)問答等。以論文查重為例進(jìn)行簡(jiǎn)要說明：論文查重包含的數(shù)據(jù)庫(kù)主要為已發(fā)表的文獻(xiàn)、專利、著作、網(wǎng)頁(yè) 等，并且必須盡可能的包含所有文獻(xiàn)資料，以確保查重結(jié)果的可靠性。論文查重的句子相似度評(píng)價(jià)標(biāo)準(zhǔn)需要考慮文字在句子中的出現(xiàn)順序，以及多個(gè)連續(xù)文字的匹配程度，當(dāng)文字匹配的個(gè)數(shù)超過規(guī)定的數(shù)量時(shí)則認(rèn)為該句子抄襲了原有句子。句子之間的匹配算法在計(jì)算機(jī) 技術(shù)研究領(lǐng)域已經(jīng)有大量的研究，此處不再贅述。國(guó)內(nèi)外大量從事科研工作的研究人員、學(xué) 生等群體經(jīng)常需要寫作英文科技文獻(xiàn)，如發(fā)表論文、申請(qǐng)專利、撰寫畢業(yè)論文等。對(duì)于非英語(yǔ)母語(yǔ)國(guó)家的科研人員來說，寫出一篇能夠完全表達(dá)自己意思，并且語(yǔ)法規(guī)范、語(yǔ)句流暢的文章通常是一件比較困難的事情。研究人員即使有一定的英語(yǔ)寫作能力，而寫出的文章中卻包含有一定的語(yǔ)法錯(cuò)誤、語(yǔ)義模糊甚至出現(xiàn)歧義。為了能夠改善這種現(xiàn)象，研究人員通常的做法是在自己閱讀過的大量外文文獻(xiàn)中尋找與自己表達(dá)意思相近的句子，并在此基礎(chǔ)上根據(jù)自己的英語(yǔ)知識(shí)進(jìn)行一定的修改，從而形成一個(gè)完整表達(dá)自己意思的、沒有語(yǔ)法錯(cuò)誤的并且和原句有一定差異的句子。由于科技論文中的內(nèi)容主要是作者自己的創(chuàng)新性工作，因此完全與原句重合的概率很小。對(duì)于研究人員來說想要在自己閱讀的外文文獻(xiàn)中找到所有能夠表達(dá)自己意思的句子是很困難的，并且該過程也是一項(xiàng)非常費(fèi)時(shí)費(fèi)力的工作。如何通過現(xiàn)代電子計(jì)算機(jī)技術(shù)，如語(yǔ)句相似度計(jì)算技術(shù)，實(shí)現(xiàn)非常方便和快捷地查找與作者想要表達(dá)意思相近的、沒有語(yǔ)法錯(cuò)誤的甚至具有一定寫作技巧的英文語(yǔ)句是一項(xiàng)亟待解決的重要問題。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明的目的是提供一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法。該方法能夠利用用戶輸入的、語(yǔ)法可能不完全正確的英語(yǔ)句子搜索到與用戶意思相同或相近的、語(yǔ)義清晰的英語(yǔ)句子，為用戶提供參考。該方法解決了非英語(yǔ)母語(yǔ)科研人員、學(xué)生等在寫作科技文獻(xiàn)時(shí)，難以專業(yè)表達(dá)想法或者無法確定句子語(yǔ)法規(guī)范的問題。
[0004] 本發(fā)明的具體技術(shù)方案是：一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法，包括以下幾個(gè)步驟： A. 將已建立的英語(yǔ)文獻(xiàn)數(shù)據(jù)庫(kù)中所有文獻(xiàn)的關(guān)鍵詞、第一作者或通訊作者所在國(guó)家提取出來，并與相應(yīng)文獻(xiàn)建立對(duì)應(yīng)關(guān)系； B. 對(duì)所述英語(yǔ)文獻(xiàn)數(shù)據(jù)庫(kù)中所有文獻(xiàn)的摘要和正文文本以句子為單位進(jìn)行劃分，提取句子的主要成份，并與原句建立對(duì)應(yīng)關(guān)系； C. 用戶輸入所要匹配句子所屬的學(xué)科、領(lǐng)域或者研究方向的一個(gè)或多個(gè)關(guān)鍵詞； D. 用戶輸入所需匹配的英語(yǔ)句子，對(duì)該句子的主要成份進(jìn)行提取，并與英語(yǔ)文獻(xiàn)數(shù)據(jù) 庫(kù)中所有句子的主要成份按照詞性相似度和語(yǔ)法相似度兩個(gè)方面進(jìn)行相似度計(jì)算； E. 將用戶輸入的關(guān)鍵詞與文獻(xiàn)關(guān)鍵詞進(jìn)行比較，并設(shè)定每篇文獻(xiàn)的關(guān)鍵詞權(quán)值，根據(jù) 第一作者或通訊作者所在國(guó)家，設(shè)定每篇文獻(xiàn)第一作者或通訊作者的英語(yǔ)熟練度權(quán)值； F. 綜合考慮句子主要成份相似度、文獻(xiàn)關(guān)鍵詞權(quán)值、文獻(xiàn)作者英語(yǔ)熟練度權(quán)值計(jì)算兩個(gè)句子的最終相似度，按照最終相似度的高低進(jìn)行排序，并反饋給用戶相似度最高的一個(gè) 或幾個(gè)英文原句及其文獻(xiàn)出處。
[0005] 較佳的，前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法，所述步驟A 中，英語(yǔ)文獻(xiàn)數(shù)據(jù)庫(kù)指的是包含有已公開發(fā)表的、獲得出版方授權(quán)使用的英語(yǔ)學(xué)術(shù)論文的數(shù)據(jù)庫(kù)。
[0006] 較佳的，前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法，所述步驟A 中，對(duì)沒有關(guān)鍵詞的文獻(xiàn)將文獻(xiàn)的標(biāo)題進(jìn)行分解，將名詞作為該文獻(xiàn)的關(guān)鍵詞。
[0007] 較佳的，前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法，所述步驟A 中，第一作者或通訊作者所在國(guó)家指的是文獻(xiàn)中第一作者或通訊作者的通信地址或服務(wù)機(jī) 構(gòu)中給出的國(guó)家，所述第一作者或通訊作者是該國(guó)國(guó)籍的公民，或在該國(guó)從事研究的外籍人員。
[0008] 較佳的，前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法，所述步驟B 和D中，句子的主要成份包括語(yǔ)法主要成份，指的是劃分句子的主語(yǔ)、謂語(yǔ)、賓語(yǔ)、定語(yǔ)和狀語(yǔ)，并將介詞、冠詞、數(shù)詞去掉，保留名詞、動(dòng)詞、形容詞、副詞。
[0009] 較佳的，前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法，所述步驟B 和D中，句子的主要成份還包括詞性主要成份，指的是略去句中不影響主要詞義匹配的介詞、冠詞、數(shù)詞，保留名詞、動(dòng)詞、形容詞、副詞。
[0010] 較佳的，前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法，所述步驟D 中，句子主要成份相似度_為： Qs 二心卞 Qs:，其中，QSl為句子語(yǔ)法結(jié)構(gòu)相似度，Qs 2為句子詞性結(jié)構(gòu)相似度，所述句子語(yǔ)法結(jié)構(gòu)相似度是將用戶輸入句子和文獻(xiàn)句子中的主語(yǔ)、謂語(yǔ)、賓語(yǔ)、定語(yǔ)和狀語(yǔ)分別進(jìn)行比較，計(jì)算兩個(gè)詞之間的相似度，并和該詞的權(quán)值一起作為兩個(gè)詞之間的匹配度，該句子語(yǔ)法結(jié)構(gòu)相似度QSlS : 其中，Qsubi為主語(yǔ)中第i個(gè)詞的相似度，
Qprej為謂語(yǔ)中第j個(gè)詞的相似度，Qobjk為賓語(yǔ)中第k個(gè)詞的相似度，Qattl為定語(yǔ)中第1個(gè)詞的相似度，Qamz為狀語(yǔ)中第z個(gè)詞的相似度；Ml為主語(yǔ)中詞的個(gè)數(shù)，M2為謂語(yǔ)中詞的個(gè)數(shù)，M3為賓語(yǔ)中詞的個(gè)數(shù)，M4為定語(yǔ)中詞的個(gè)數(shù)，M5為狀語(yǔ)中詞的個(gè)數(shù)；111、112、113、114、115分別表示主語(yǔ)、謂語(yǔ)、賓語(yǔ)、定語(yǔ)和狀語(yǔ)的權(quán)值，nl、n2、n3、n4、n5的取值范圍是（0，1); 所述句子詞性結(jié)構(gòu)相似度是將用戶輸入句子和文獻(xiàn)句子中的名詞、動(dòng)詞、形容詞和副詞分別進(jìn)行比較，計(jì)算兩個(gè)詞之間的相似度，并和該詞的權(quán)值一起作為兩個(gè)詞之間的匹配度，該句子詞性結(jié)構(gòu)相似度如2為：
其中，Qnouni為第i個(gè)名詞相似度，Qverbj為第j個(gè)動(dòng)詞相似度，Qadjk為第k個(gè)形容詞相似度，Qadvl為第1個(gè)副詞相似度；N1為名詞的個(gè)數(shù)，N2為動(dòng)詞的個(gè)數(shù)，N3為形容詞的個(gè)數(shù)，N4為副詞的個(gè)數(shù)；ml、m2、m3、m4分別為名詞、動(dòng)詞、形容詞、副詞的權(quán)值，ml、m2、m3、 m4的取值范圍是（0，1)。
[0011] 較佳的，前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法，如果用戶輸入句子中的主語(yǔ)、謂語(yǔ)、賓語(yǔ)、定語(yǔ)和狀語(yǔ)中不止一個(gè)詞，則將每個(gè)詞和文獻(xiàn)句子中對(duì)應(yīng) 語(yǔ)法結(jié)構(gòu)中所有詞進(jìn)行相似度計(jì)算，選取相似度最大的兩個(gè)詞認(rèn)為是相互匹配的詞，當(dāng)用戶輸入句子和文獻(xiàn)句子中出現(xiàn)多個(gè)相同的詞時(shí)，每個(gè)詞僅進(jìn)行一次相似度計(jì)算。
[0012] 較佳的，前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法，如果用戶輸入句子中出現(xiàn)多個(gè)名詞、動(dòng)詞、形容詞和副詞，需要分別計(jì)算每個(gè)詞和文獻(xiàn)句子中相應(yīng)詞的相似度，選取相似度最大的兩個(gè)詞認(rèn)為是相互匹配的詞，當(dāng)用戶輸入句子和文獻(xiàn)句子中出現(xiàn)多個(gè)相同的詞時(shí)，每個(gè)詞僅進(jìn)行一次相似度計(jì)算。
[0013] 較佳的，前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法，所述兩個(gè) 詞之間的相似度為：如果用戶輸入句子和文獻(xiàn)句子中的詞完全相同，則所述兩個(gè)詞之間的相似度為1 ;如果用戶輸入句子和文獻(xiàn)句子中的詞不相同，即是差異詞，對(duì)差異詞進(jìn)行擴(kuò) 展，并比較擴(kuò)展后的差異詞與用戶輸入句子中的詞之間的相似度，其取值范圍為0 < Qi〈l， Qi為兩個(gè)詞之間的相似度。
[0014] 較佳的，前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法，所述對(duì)差異詞進(jìn)行擴(kuò)展是對(duì)該差異詞進(jìn)行詞匯變換，包括同義詞變換、單復(fù)數(shù)變換、時(shí)態(tài)變換以及反義詞變換。
[0015] 較佳的，前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法，所述擴(kuò)展后的差異詞與用戶輸入句子中的詞之間的相似度為：如果擴(kuò)展后的差異詞屬于用戶輸入句子中的詞的同義詞，則相似度為〇. 2 < Qi〈0. 9 ;如果擴(kuò)展后的差異詞和用戶輸入句子中的詞屬于單復(fù)數(shù)關(guān)系，則相似度為〇. 2 < Qi〈0. 9 ;如果擴(kuò)展后的差異詞和用戶輸入句子中的詞之間能夠進(jìn)行時(shí)態(tài)變換，則相似度為0. 2 < Qi〈0. 9 ;如果擴(kuò)展后的差異詞和用戶輸入句子中的詞屬于反義詞關(guān)系，則相似度為〇彡Qi〈〇. 6。
[0016] 較佳的，前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法，所述步驟E 中，英語(yǔ)熟練度權(quán)值是根據(jù)文獻(xiàn)第一作者或通訊作者所在國(guó)家不同，為文獻(xiàn)設(shè)定不同的權(quán) 值，英語(yǔ)母語(yǔ)國(guó)家的第一作者或通訊作者英語(yǔ)熟練度權(quán)值Qc =1，非英語(yǔ)母語(yǔ)國(guó)家的第一作者或通訊作者英語(yǔ)熟練度權(quán)值設(shè)定為0-1之間的數(shù)值。
[0017] 較佳的，前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法，所述步驟E中，根據(jù)用戶輸入的關(guān)鍵詞，計(jì)算機(jī)對(duì)文獻(xiàn)的關(guān)鍵詞進(jìn)行匹配，根據(jù)關(guān)鍵詞的匹配程度設(shè)定該文獻(xiàn)的關(guān)鍵詞權(quán)值，如果用戶輸入的關(guān)鍵詞全部被文獻(xiàn)的關(guān)鍵詞包含，則是完全匹配，匹配權(quán)值為1，匹配到關(guān)鍵詞的數(shù)量越少，則權(quán)值越低，關(guān)鍵詞權(quán)值_為：％ = 擇 % = T/M，其中，N為用戶輸入的關(guān)鍵詞個(gè)數(shù)，T為文獻(xiàn)關(guān)鍵詞包含用戶關(guān)鍵詞的個(gè)數(shù)，Qg為文獻(xiàn)關(guān)鍵詞權(quán)值。
[0018] 較佳的，前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法，所述步驟F 中，兩個(gè)句子最終的相似度Q為：_=美::《鳥彥__;§灣^ 似度Qs在最終相似度Q計(jì)算中占的權(quán)值，0〈fs〈l ;fg為關(guān)鍵詞權(quán)值Qg在最終相似度Q計(jì) 算中占的權(quán)值，〇〈fg〈l ;fc為第一作者或通訊作者英語(yǔ)熟練度權(quán)值Qc在最終相似度Q計(jì)算中占的權(quán)值，〇〈fc〈l。
[0019] 較佳的，前述一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法，所述步驟D 中，用戶輸入的句子是語(yǔ)法正確的，或語(yǔ)法不正確的。
[0020] 本發(fā)明

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫維國(guó);李墨;
技術(shù)所有人：孫維國(guó);李墨;
我是此專利的發(fā)明人

上一篇：用于自然語(yǔ)言交互的方法、設(shè)備及系統(tǒng)的制作方法
上一篇：詞語(yǔ)聯(lián)想方法及裝置的制造方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種從學(xué)術(shù)文獻(xiàn)中提取語(yǔ)義相似且語(yǔ)法規(guī)范句子的方法