亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

句子相似度計(jì)算方法及裝置的制造方法

文檔序號(hào):9432535閱讀:296來源:國知局
句子相似度計(jì)算方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自動(dòng)批改技術(shù)領(lǐng)域,特別涉及一種句子相似度計(jì)算方法及裝置。
【背景技術(shù)】
[0002]在英語作文自動(dòng)批改中,有一項(xiàng)重要因素是計(jì)算作文的切題程度?,F(xiàn)有的技術(shù)方法主要是通過作文各段的主旨句和作文的題目進(jìn)行英文字符的匹配,出現(xiàn)相同英文字符的多少反映了主旨句和題目的近似程度的大小,從而反映了作文切題程度的大小。但統(tǒng)計(jì)相同英文字符不具有一般性,同一種語義可以用不同的詞語來表達(dá),因此現(xiàn)在更前沿的方法是建立近義詞表,結(jié)合近義詞表進(jìn)行匹配。
[0003]但現(xiàn)有技術(shù)中,句子之間的匹配是把句子看作孤立詞的單詞來進(jìn)行匹配的,沒有考慮到句子結(jié)構(gòu),這導(dǎo)致對(duì)句子的語義的把握不準(zhǔn)確。例如:英文句子“My mother has acat with four legs.”(句子 I)和“My mother has four legs.”(句子 2)。如果不考慮句子結(jié)構(gòu),從孤立的單詞來比較,兩個(gè)句子只差兩個(gè)重要單詞“with”和“cat”,但是從實(shí)際語義來看,兩個(gè)句子相差很大,導(dǎo)致句子相似度準(zhǔn)確率過低。

【發(fā)明內(nèi)容】

[0004]為提高計(jì)算句子相似度的準(zhǔn)確率,本發(fā)明提供了一種句子相似度計(jì)算方法,所述方法包括:
[0005]獲取各詞語對(duì)應(yīng)的向量;
[0006]對(duì)待比較的兩個(gè)句子進(jìn)行句法分析,以獲得所述兩個(gè)句子中組成各成分的詞語;
[0007]計(jì)算所述兩個(gè)句子中組成相應(yīng)成分的詞語對(duì)應(yīng)向量之間的第一余弦距離;
[0008]根據(jù)所述第一余弦距離確定所述兩個(gè)句子之間的相似度。
[0009]其中,所述獲取各詞語對(duì)應(yīng)的向量,進(jìn)一步包括:
[0010]對(duì)自然語言語料通過詞向量工具進(jìn)行訓(xùn)練,以獲取各詞語對(duì)應(yīng)的向量。
[0011]其中,所述對(duì)自然語言語料通過詞向量工具進(jìn)行訓(xùn)練,進(jìn)一步包括:
[0012]對(duì)自然語言語料通過詞向量工具采用三層神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。
[0013]其中,所述對(duì)待比較的兩個(gè)句子進(jìn)行句法分析,以獲得所述兩個(gè)句子組成各成分的詞語,進(jìn)一步包括:
[0014]對(duì)所述兩個(gè)句子進(jìn)行句法分析,以獲得所述兩個(gè)句子的句法樹,所述句法樹包括句子中組成各成分的詞語。
[0015]其中,所述根據(jù)所述第一余弦距離確定所述兩個(gè)句子之間的相似度,進(jìn)一步包括:
[0016]將所述第一余弦距離進(jìn)行加權(quán)平均,以獲得第二余弦距離,將所述第二余弦距離作為所述兩個(gè)句子之間的相似度。
[0017]本發(fā)明還公開了一種句子相似度計(jì)算裝置,所述裝置包括:
[0018]向量獲取單元,用于獲取各詞語對(duì)應(yīng)的向量;
[0019]句法分析單元,用于對(duì)待比較的兩個(gè)句子進(jìn)行句法分析,以獲得所述兩個(gè)句子中組成各成分的詞語;
[0020]距離計(jì)算單元,用于計(jì)算所述兩個(gè)句子中組成相應(yīng)成分的詞語對(duì)應(yīng)向量之間的第一余弦距離;
[0021]相似度確定單元,用于根據(jù)所述第一余弦距離確定所述兩個(gè)句子之間的相似度。
[0022]其中,所述向量獲取單元,進(jìn)一步用于對(duì)自然語言語料通過詞向量工具進(jìn)行訓(xùn)練,以獲取各詞語對(duì)應(yīng)的向量。
[0023]其中,所述向量獲取單元,進(jìn)一步用于對(duì)自然語言語料通過詞向量工具采用三層神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。
[0024]其中,所述句法分析單元,進(jìn)一步用于對(duì)所述兩個(gè)句子進(jìn)行句法分析,以獲得所述兩個(gè)句子的句法樹,所述句法樹包括句子中組成各成分的詞語。
[0025]其中,所述相似度確定單元,進(jìn)一步用于將所述第一余弦距離進(jìn)行加權(quán)平均,以獲得第二余弦距離,將所述第二余弦距離作為所述兩個(gè)句子之間的相似度。
[0026]本發(fā)明通過對(duì)句子進(jìn)行句法分析,從結(jié)構(gòu)方面把握句子的語義,從而更加準(zhǔn)確地計(jì)算句子之間的近似度,另外,采用了基于神經(jīng)網(wǎng)絡(luò)模型的詞向量來表示詞語,從而更加準(zhǔn)確計(jì)算詞語之間的近似程度,而且擺脫了近義詞字典的限制。
【附圖說明】
[0027]圖1是本發(fā)明一種實(shí)施方式的句子相似度計(jì)算方法的流程圖;
[0028]圖2是兩個(gè)英語句子的句法樹的結(jié)構(gòu)示意圖;
[0029]圖3是本發(fā)明一種實(shí)施方式的句子相似度計(jì)算裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0030]下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的【具體實(shí)施方式】作進(jìn)一步詳細(xì)描述。以下實(shí)施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
[0031]圖1是本發(fā)明一種實(shí)施方式的句子相似度計(jì)算方法的流程圖;參照?qǐng)D1,所述方法包括:
[0032]SlOl:獲取各詞語對(duì)應(yīng)的向量;
[0033]在現(xiàn)有技術(shù)中,近義詞表的建立基本是靠字典進(jìn)行手工整理,工作量大,而且存在覆蓋面不廣的問題,詞語之間的近似程度也很難量化,為克服該問題,并快速獲取各詞語對(duì)應(yīng)的向量,從而便于通過詞語對(duì)應(yīng)向量之間的余弦距離來反映詞語之間的近似程度,本實(shí)施方式中,可對(duì)自然語言語料通過詞向量工具(例如:w0rd2VeC等工具)進(jìn)行訓(xùn)練,以獲取各詞語對(duì)應(yīng)的向量。
[0034]在訓(xùn)練后訓(xùn)練之后,每個(gè)詞語可以用一個(gè)向量來表示(通常為50維),兩個(gè)詞語之間的近似程度通過對(duì)應(yīng)的向量之間的余弦距離來衡量。余弦距離越小,代表兩個(gè)詞語近似程度越小;余弦距離越大,代表兩個(gè)詞語近似程度越大。
[0035]為了保證詞語對(duì)應(yīng)的向量的準(zhǔn)確性,所述詞向量工具可采用三層神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,當(dāng)然,還可采用其他模型進(jìn)行訓(xùn)練,本實(shí)施方式對(duì)此不加以限制。
[0036]S102:對(duì)待比較的兩個(gè)句子進(jìn)行句法分析,以獲得所述兩個(gè)句子中組成各成分的詞語;
[0037]為便于比較這兩個(gè)句子,可對(duì)所述兩個(gè)句子進(jìn)行句法分析,以獲得所述兩個(gè)句子的句法樹,所述句法樹包括句子中組成各成分(即主語、謂語、賓語、從句等成分)的詞語,參照?qǐng)D 2,以英文句子 “My mother has a cat with four legs”(句子 I)和 “My motherhas four legs”(句子2)為例可知;
[0038]句子I中組成各成分的詞語為:組成主語(SBJ)的詞語為my mother,組成謂語(VB)的詞語為has,組成賓語(OBJ)的詞語為a cat,以及賓語補(bǔ)足語(NC)的詞語為fourlegs ;
[0039]句子2中組成各成分的詞語為:組成主語(SBJ)的詞語為m
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1