亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

維吾爾語(yǔ)句子相似度計(jì)算方法

文檔序號(hào):6493955閱讀:337來(lái)源:國(guó)知局
維吾爾語(yǔ)句子相似度計(jì)算方法
【專利摘要】本發(fā)明公開(kāi)了維吾爾語(yǔ)句子相似度計(jì)算方法,1.建立維吾爾語(yǔ)倒排索引的;2.對(duì)輸入維吾爾語(yǔ)句子進(jìn)行粗選;3.計(jì)算基于詞的維吾爾語(yǔ)句子相似度;4.計(jì)算維吾爾語(yǔ)簡(jiǎn)單結(jié)構(gòu)相似度;5.計(jì)算維吾爾語(yǔ)句子綜合相似度。本發(fā)明實(shí)現(xiàn)了維吾爾語(yǔ)句子相似度計(jì)算功能,為基于實(shí)例的維吾爾語(yǔ)漢語(yǔ)機(jī)器翻譯系統(tǒng)提供了幫助;為維吾爾語(yǔ)文本分類系統(tǒng)、維吾爾語(yǔ)問(wèn)答系統(tǒng)、維吾爾語(yǔ)摘要自動(dòng)生成系統(tǒng)、維吾爾語(yǔ)搜索引擎等系統(tǒng)的開(kāi)發(fā)打下了堅(jiān)實(shí)的基礎(chǔ)。
【專利說(shuō)明】維吾爾語(yǔ)句子相似度計(jì)算方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語(yǔ)言信息處理技術(shù),特別是維吾爾語(yǔ)句子相似度計(jì)算方法。
【背景技術(shù)】
[0002]近年來(lái),隨著少數(shù)民族信息化領(lǐng)域的發(fā)展,在新疆的少數(shù)民族語(yǔ)言信息處理也有了比較大的發(fā)展,特別是維吾爾語(yǔ)信息處理方面詞法分析、詞性標(biāo)注等基礎(chǔ)工作有了較好的研究成果和已實(shí)現(xiàn)的系統(tǒng)。這些技術(shù)為維吾爾語(yǔ)漢語(yǔ)機(jī)器翻譯系統(tǒng)的實(shí)現(xiàn)打下了堅(jiān)實(shí)的基礎(chǔ)。
[0003]計(jì)算句子相似度在基于實(shí)例的機(jī)器翻譯(Example Based Machine Translation,EBMT)中起到重要的作用。自從基于實(shí)例的翻譯方法提出以來(lái),句子相似度計(jì)算已經(jīng)成為該方法的一個(gè)研究重點(diǎn)。維吾爾語(yǔ)漢語(yǔ)基于實(shí)例的機(jī)器翻譯中維吾爾語(yǔ)句子的相似度計(jì)算也是一個(gè)難點(diǎn)。維吾爾語(yǔ)屬于阿爾泰語(yǔ)系突厥語(yǔ)族西匈語(yǔ)支,在結(jié)構(gòu)特點(diǎn)上,屬于黏著語(yǔ)。它是通過(guò)在詞干上附加各種構(gòu)詞和構(gòu)形詞綴而改變?cè)~匯意義和語(yǔ)法意義的一種語(yǔ)言。這種特點(diǎn)對(duì)于維吾爾語(yǔ)句子相似度計(jì)算帶來(lái)了一定的困難。到目前為止還沒(méi)有有關(guān)對(duì)維吾爾語(yǔ)句子相似度計(jì)算系統(tǒng),其研究也處于試探階段。
[0004]維吾爾語(yǔ)句子相似度系統(tǒng)就是在上述背景下提出的,該系統(tǒng)解決了計(jì)算維吾爾語(yǔ)相似度難,且計(jì)算結(jié)果不符合維吾爾語(yǔ)實(shí)際相似性的問(wèn)題,為實(shí)現(xiàn)基于實(shí)例的維吾爾語(yǔ)漢語(yǔ)機(jī)器翻譯系統(tǒng)打下了良好的基礎(chǔ)。該系統(tǒng)及其方法也可用于維吾爾語(yǔ)文本分類系統(tǒng)、維吾爾語(yǔ)問(wèn)答系統(tǒng)、維吾爾語(yǔ)摘要自動(dòng)生成系統(tǒng)、維吾爾語(yǔ)搜索引擎等系統(tǒng)。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的目的在于提供一種維吾爾語(yǔ)句子相似度計(jì)算方法,實(shí)現(xiàn)維吾爾語(yǔ)句子相似度計(jì)算功能,為基于實(shí)例的維吾爾語(yǔ)漢語(yǔ)機(jī)器翻譯系統(tǒng)提供幫助;為維吾爾語(yǔ)文本分類系統(tǒng)、維吾爾語(yǔ)問(wèn)答系統(tǒng)、維吾爾語(yǔ)摘要自動(dòng)生成系統(tǒng)、維吾爾語(yǔ)搜索引擎等系統(tǒng)的開(kāi)發(fā)打下堅(jiān)實(shí)的基礎(chǔ)。
[0006]本發(fā)明的目的是這樣實(shí)現(xiàn)的:一種維吾爾語(yǔ)句子相似度計(jì)算方法,1.維吾爾語(yǔ)倒排索引的建立:為有效的查找相似句子且計(jì)算其值對(duì)語(yǔ)料建立倒排索引,建立倒排索引時(shí)對(duì)維吾爾語(yǔ)句子的每一個(gè)單詞進(jìn)行詞干提取;2.對(duì)輸入維吾爾語(yǔ)句子進(jìn)行粗選:根據(jù)倒排索引查找的偽相似句子會(huì)很多,為提高維吾爾語(yǔ)句子相似度計(jì)算效率,需要排除相似度低的句子,因此對(duì)根據(jù)倒排索引查找的輸入維吾爾語(yǔ)句子進(jìn)行粗選;3.基于詞的維吾爾語(yǔ)句子相似度計(jì)算:對(duì)粗選的相似句子集進(jìn)行基于詞的維吾爾語(yǔ)句子相似度計(jì)算;4.維吾爾語(yǔ)簡(jiǎn)單結(jié)構(gòu)相似度計(jì)算:通過(guò)該方法彌補(bǔ)因?yàn)榫S吾爾語(yǔ)句法分析沒(méi)有實(shí)際應(yīng)用而無(wú)法進(jìn)行結(jié)構(gòu)相似度計(jì)算的空白;5.維吾爾語(yǔ)句子綜合相似度計(jì)算:有效的結(jié)合維吾爾語(yǔ)的基于詞的相似度計(jì)算和維吾爾語(yǔ)簡(jiǎn)單結(jié)構(gòu)相似度計(jì)算,綜合的相似度計(jì)算值更接近人工評(píng)價(jià)的相似度值。
[0007]本發(fā)明的有益效果是:實(shí)現(xiàn)了維吾爾語(yǔ)句子相似度計(jì)算功能,為基于實(shí)例的維吾爾語(yǔ)漢語(yǔ)機(jī)器翻譯系統(tǒng)提供了幫助;為維吾爾語(yǔ)文本分類系統(tǒng)、維吾爾語(yǔ)問(wèn)答系統(tǒng)、維吾爾語(yǔ)摘要自動(dòng)生成系統(tǒng)、維吾爾語(yǔ)搜索引擎等系統(tǒng)的開(kāi)發(fā)打下了堅(jiān)實(shí)的基礎(chǔ)。
[0008]本發(fā)明涉及維吾爾語(yǔ)句子相似度計(jì)算,其包含維吾爾語(yǔ)倒排索引的建立、對(duì)維吾爾語(yǔ)相似句子進(jìn)行粗選、維吾爾語(yǔ)相似句子的排序、基于詞的維吾爾語(yǔ)句子相似度計(jì)算、維吾爾語(yǔ)句子簡(jiǎn)單結(jié)構(gòu)相似度計(jì)算和維吾爾語(yǔ)句子綜合相似度計(jì)算,屬于自然語(yǔ)言處理中的基于實(shí)例的機(jī)器翻譯【技術(shù)領(lǐng)域】。
[0009]本發(fā)明不僅考慮了維吾爾語(yǔ)單詞詞頻特征對(duì)不同的單詞給予不同的權(quán)值,且考慮了維吾爾語(yǔ)的黏著性,即對(duì)維吾爾語(yǔ)單詞進(jìn)行詞干提取,這樣可以消除較長(zhǎng)的句子或組成詞頻低的句子相似度計(jì)算產(chǎn)生的與實(shí)際相似度較大的偏差,且鑒于維吾爾語(yǔ)句法分析研究的還沒(méi)有出現(xiàn)實(shí)用性的成果,提出了維吾爾語(yǔ)句子簡(jiǎn)單結(jié)構(gòu)相似度計(jì)算功能和方法、且提出了符合維吾爾語(yǔ)獨(dú)特語(yǔ)言特征的維吾爾語(yǔ)倒排索引建立功能和方法、對(duì)維吾爾語(yǔ)相似句子進(jìn)行粗選功能和方法、基于詞的維吾爾語(yǔ)句子相似度計(jì)算功能和方法,維吾爾語(yǔ)綜合相似度計(jì)算功能和方法為實(shí)現(xiàn)基于實(shí)例的維吾爾語(yǔ)漢語(yǔ)機(jī)器翻譯系統(tǒng)并提高其翻譯質(zhì)量提供了良好的基礎(chǔ)。
【專利附圖】

【附圖說(shuō)明】
[0010]下面將結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步說(shuō)明。
[0011]圖1是本發(fā)明維吾爾語(yǔ)句子相似度計(jì)算的總流程圖;
[0012]圖2是本發(fā)明維吾爾語(yǔ)句子相似度計(jì)算流程圖;
[0013]圖3是本發(fā)明維吾爾語(yǔ)句子簡(jiǎn)單結(jié)構(gòu)相似度計(jì)算流程圖;
[0014]圖4是本發(fā)明基于單詞的維吾爾語(yǔ)句子相似度計(jì)算流程圖;
[0015]圖5是本發(fā)明建立維吾爾語(yǔ)倒排索引文件流程圖。
【具體實(shí)施方式】
[0016]一種維吾爾語(yǔ)句子相似度計(jì)算方法,1.維吾爾語(yǔ)倒排索引的建立:為有效的查找相似句子且計(jì)算其值對(duì)語(yǔ)料建立倒排索引,建立倒排索引時(shí)對(duì)維吾爾語(yǔ)句子的每一個(gè)單詞進(jìn)行詞干提??;2.對(duì)輸入維吾爾語(yǔ)句子進(jìn)行粗選:根據(jù)倒排索引查找的偽相似句子會(huì)很多,為提高維吾爾語(yǔ)句子相似度計(jì)算效率,需要排除相似度低的句子,因此對(duì)根據(jù)倒排索引查找的輸入維吾爾語(yǔ)句子進(jìn)行粗選;3.基于詞的維吾爾語(yǔ)句子相似度計(jì)算:對(duì)粗選的相似句子集進(jìn)行基于詞的維吾爾語(yǔ)句子相似度計(jì)算;4.維吾爾語(yǔ)簡(jiǎn)單結(jié)構(gòu)相似度計(jì)算:通過(guò)該方法彌補(bǔ)因?yàn)榫S吾爾語(yǔ)句法分析沒(méi)有實(shí)際應(yīng)用而無(wú)法進(jìn)行結(jié)構(gòu)相似度計(jì)算的空白;5.維吾爾語(yǔ)句子綜合相似度計(jì)算:有效的結(jié)合維吾爾語(yǔ)的基于詞的相似度計(jì)算和維吾爾語(yǔ)簡(jiǎn)單結(jié)構(gòu)相似度計(jì)算,綜合的相似度計(jì)算值更接近人工評(píng)價(jià)的相似度值。
[0017]如圖1所示,首先,對(duì)輸入維吾爾語(yǔ)句子的每一個(gè)單詞進(jìn)行詞干提取,對(duì)維吾爾語(yǔ)相似句子進(jìn)行粗選,即讀維吾爾語(yǔ)倒排索引文件對(duì)應(yīng)的每一個(gè)單詞的句子編號(hào),并對(duì)η個(gè)(可以自定義具體數(shù)目)句子編號(hào)根據(jù)相同單詞數(shù)量進(jìn)行排序。然后根據(jù)句子編號(hào)從維吾爾語(yǔ)句子內(nèi)容文件中讀取相應(yīng)的維吾爾語(yǔ)句子內(nèi)容。最后從維吾爾語(yǔ)句子內(nèi)容文件中讀取的η個(gè)句子和維吾爾語(yǔ)輸入 句子進(jìn)行相似度計(jì)算。維吾爾語(yǔ)相似度計(jì)算具體步驟在圖2中描述。[0018]如圖2所示,首先,對(duì)沒(méi)有維吾爾語(yǔ)詞干提取的句子進(jìn)行詞干提取,根據(jù)為選供給的三種計(jì)算維吾爾語(yǔ)句子相似度方法中的某一個(gè)流程走下一步驟。如果選為基于詞的維吾爾語(yǔ)句子相似度計(jì)算,則通過(guò)該方法計(jì)算相似度并輸出最后結(jié)果。如果選為維吾爾語(yǔ)句子簡(jiǎn)單結(jié)構(gòu)相似度計(jì)算方法,則通過(guò)該方法計(jì)算相似度(具體步驟在圖3中描述)并輸出最后結(jié)果,如果選為維吾爾語(yǔ)句子綜合相似度計(jì)算方法,則同時(shí)通過(guò)前兩種方法(即基于詞的維吾爾語(yǔ)句子相似度計(jì)算方法和維吾爾語(yǔ)句子簡(jiǎn)單結(jié)構(gòu)相似度計(jì)算方法)計(jì)算相似度并根據(jù)權(quán)重參數(shù)計(jì)算維吾爾語(yǔ)句子綜合相似度。
[0019]如圖3所示,首先,對(duì)輸入維吾爾語(yǔ)句子進(jìn)行詞性標(biāo)注,然后同時(shí)對(duì)維吾爾語(yǔ)句子的詞性標(biāo)注計(jì)算詞性標(biāo)注的詞形相似度、詞形標(biāo)注的詞序相似度、詞形標(biāo)注的夾角和詞形標(biāo)注的句長(zhǎng)相似度。最后根據(jù)權(quán)重參數(shù)輸出最終的維吾爾語(yǔ)句子簡(jiǎn)單結(jié)構(gòu)相似度。
[0020]如圖4所示,首先,對(duì)已經(jīng)詞干提取的維吾爾語(yǔ)單詞進(jìn)行詞形相似度計(jì)算,然后對(duì)維吾爾語(yǔ)句子同時(shí)進(jìn)行詞序相似度計(jì)算、夾角計(jì)算和句長(zhǎng)相似度計(jì)算。最后根據(jù)基于單詞的維吾爾語(yǔ)句子相似度的權(quán)重參數(shù)輸出最終的基于單詞的維吾爾語(yǔ)句子相似度計(jì)算結(jié)果。
[0021]如圖5所示,首先,從維吾爾語(yǔ)句子內(nèi)容文件中讀取一個(gè)句子,對(duì)該句子的每一個(gè)單詞進(jìn)行維吾爾語(yǔ)詞干提取,然后對(duì)其按維吾爾語(yǔ)字母順序進(jìn)行排序,排序過(guò)程當(dāng)中紀(jì)錄重復(fù)單詞的數(shù)量,直到讀完維吾爾語(yǔ)句子內(nèi)容文件的全部?jī)?nèi)容,最后輸出維吾爾語(yǔ)倒排索引文件。
[0022]如圖5所示,倒排索引文件有維吾爾語(yǔ)詞干、維吾爾語(yǔ)詞干頻率和對(duì)應(yīng)該詞干的維吾爾語(yǔ)句子編號(hào)集。
[0023]下述表格及例句是本發(fā)明建立維吾爾語(yǔ)倒排索引文件的格式。
【權(quán)利要求】
1.一種維吾爾語(yǔ)句子相似度計(jì)算方法,其特征是:1.維吾爾語(yǔ)倒排索引的建立:為有效的查找相似句子且計(jì)算其值對(duì)語(yǔ)料建立倒排索引,建立倒排索引時(shí)對(duì)維吾爾語(yǔ)句子的每一個(gè)單詞進(jìn)行詞干提??;2.對(duì)輸入維吾爾語(yǔ)句子進(jìn)行粗選:根據(jù)倒排索引查找的偽相似句子會(huì)很多,為提高維吾爾語(yǔ)句子相似度計(jì)算效率,需要排除相似度低的句子;3.基于詞的維吾爾語(yǔ)句子相似度計(jì)算:對(duì)粗選的相似句子集進(jìn)行基于詞的維吾爾語(yǔ)句子相似度計(jì)算;4.維吾爾語(yǔ)簡(jiǎn)單結(jié)構(gòu)相似度計(jì)算:通過(guò)該方法彌補(bǔ)因?yàn)榫S吾爾語(yǔ)句法分析沒(méi)有實(shí)際應(yīng)用而無(wú)法進(jìn)行結(jié)構(gòu)相似度計(jì)算的空白;5.維吾爾語(yǔ)句子綜合相似度計(jì)算:有效的結(jié)合維吾爾語(yǔ)的基于詞的相似度計(jì)算和維吾爾語(yǔ)簡(jiǎn)單結(jié)構(gòu)相似度計(jì)算。
【文檔編號(hào)】G06F17/27GK103902523SQ201210579445
【公開(kāi)日】2014年7月2日 申請(qǐng)日期:2012年12月28日 優(yōu)先權(quán)日:2012年12月28日
【發(fā)明者】尼加提·納吉米, 買(mǎi)合木提·買(mǎi)買(mǎi)提, 帕肉克·司地克, 馬斌 申請(qǐng)人:新疆電力信息通信有限責(zé)任公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1