亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于啟發(fā)式算法的模糊英文長句分詞方法與流程

文檔序號(hào):12719580閱讀:694來源:國知局
一種基于啟發(fā)式算法的模糊英文長句分詞方法與流程

本發(fā)明涉及一種涉及人工智能和自然語言處理的分詞技術(shù),尤其是一種基于啟發(fā)式算法的模糊英文長句分詞方法。



背景技術(shù):

在當(dāng)今的信息社會(huì)中,人工智能和自然語言處理相關(guān)的研究和技術(shù)飛速發(fā)展,應(yīng)用的范圍也越來越廣,本發(fā)明是考慮到一些特定的場(chǎng)景,例如,一般會(huì)議的記錄都是人工記錄,同時(shí)輔助以錄音進(jìn)行整理,對(duì)于會(huì)議報(bào)道和記錄人員來說就不得不將大量的時(shí)間花費(fèi)在整理會(huì)議相關(guān)發(fā)言上。如果采用更加智能的方法來代替人工,對(duì)會(huì)議發(fā)言進(jìn)行整理,就需要讓機(jī)器能夠識(shí)別出一段口語中是如何進(jìn)行分詞的。

自然語言處理中,分詞主要面向的是類似漢語這樣的象形文字,這些文字在組成句子時(shí)沒有語法上的分割;對(duì)于類似于英語這樣的拼音文字,通常不存在分詞的問題。但是一旦遇到上述問題,往往解決的方法比較少。



技術(shù)實(shí)現(xiàn)要素:

技術(shù)問題:本發(fā)明提供一種應(yīng)對(duì)英文文本單詞之間間隙不清或者難以識(shí)別的情況,減少了整理和編寫語料庫的復(fù)雜工作的基于啟發(fā)式算法的模糊英文長句分詞方法。

技術(shù)方案:本發(fā)明的基于啟發(fā)式算法的模糊英文長句分詞方法,在某些特定的情況下,英文長句詞與詞之間的間隙不明顯,需要進(jìn)行長句分詞,減少閱讀的障礙。模糊英文長句分詞方法是典型的NP-hard問題,適用于采用啟發(fā)式算法來進(jìn)行分詞操作。使用啟發(fā)式算法進(jìn)行模糊英文長句分詞之后,可閱讀性得到顯著提高。

所述的基于啟發(fā)式算法的模糊英文長句分詞方法,所述的英文長句詞與詞之間的間隙不明顯的特定情況包括:通過機(jī)器識(shí)別聲音時(shí),只能根據(jù)聲音的停頓來區(qū)分單詞,對(duì)于連詞無法進(jìn)行分詞。

本發(fā)明的基于啟發(fā)式算法的模糊英文長句分詞方法,包括以下步驟:

1)對(duì)待分詞的英文長句進(jìn)行編碼,編碼后的文本作為啟發(fā)式算法的輸入;

2)通過啟發(fā)式算法對(duì)編碼后的文本進(jìn)行迭代計(jì)算,獲得使得評(píng)價(jià)函數(shù)值達(dá)到最優(yōu)的解;

3)對(duì)所述步驟2)中啟發(fā)式算法得出的解,恢復(fù)出新分詞結(jié)果后的英文長句,并對(duì)恢復(fù)出的英文長句進(jìn)行可閱讀性計(jì)算。

進(jìn)一步的,本發(fā)明方法中,步驟1)中的對(duì)待分詞的英文長句進(jìn)行編碼的具體方式為:采用對(duì)每個(gè)單詞字符進(jìn)行01編碼的方式進(jìn)行問題的抽象,‘0’表示該句子在當(dāng)前位置沒有進(jìn)行分詞,‘1’表示該句子在當(dāng)前位置進(jìn)行分詞,通過這樣的方法將原英文長句編碼為01文本。

進(jìn)一步的,本發(fā)明方法中,步驟2)中的啟發(fā)式算法采用模擬退火算法。

進(jìn)一步的,本發(fā)明方法中,模擬退火算法包括以下步驟:

(1)解空間的搜索:使用模擬退火算法的非確定性搜索,隨機(jī)擾動(dòng)‘0’和‘1’,即以隨機(jī)的概率將‘0’變?yōu)椤?’或者將‘1’變?yōu)椤?’,這種擾動(dòng)是與當(dāng)前的溫度成正比,每次迭代的過程中,隨著溫度的降低,擾動(dòng)的邊界會(huì)逐漸縮??;

(2)評(píng)價(jià)函數(shù)的設(shè)計(jì):用分詞結(jié)果的分詞得分和分塊得分的和作為評(píng)價(jià)函數(shù),所述分詞得分是指對(duì)分詞結(jié)果中每個(gè)唯一的詞算分的結(jié)果;所述分塊得分是指每個(gè)分塊中包含單詞的數(shù)量;

(3)接受準(zhǔn)則:若當(dāng)前解小于原始解,則接受當(dāng)前解并進(jìn)入下一次的迭代;若當(dāng)前解大于原始解則以的概率接受當(dāng)前解,T表示這次迭代的溫度;

(4)退火方式:用作為收斂函數(shù),其中T0表示初始溫度,t表示當(dāng)前溫度。

本發(fā)明方法對(duì)恢復(fù)后的英文長句進(jìn)行可閱讀性計(jì)算,通過每個(gè)分塊中包含單詞數(shù)量與錯(cuò)誤單詞數(shù)量的加權(quán)和來進(jìn)行衡量,以判斷經(jīng)過啟發(fā)式算法之后的分詞結(jié)果與完全正確的分詞結(jié)果之間的吻合程度。引入可閱讀性計(jì)算的目的是判斷,經(jīng)過啟發(fā)式算法分詞得出的結(jié)果與完全正確的分詞結(jié)果之間的吻合度。非人工的分詞方法目前還不能達(dá)到完全正確的結(jié)果。通過可閱讀性計(jì)算,可以判斷某一分詞方式與完全正確的分詞結(jié)果之間的相似程度,以判斷這一分詞方法的好壞程度。

進(jìn)一步的,本發(fā)明方法中,步驟3)中按照下式計(jì)算對(duì)恢復(fù)出的英文長句的可閱讀性進(jìn)行計(jì)算:

其中readability為恢復(fù)出的英文長句的可閱讀性,block_num表示分塊的數(shù)量,即改英文長句分成多少個(gè)單詞,word_num表示該英文長句中按完全正確的方式進(jìn)行分詞包含的單詞數(shù)量,blockvalue表示每一分塊的可閱讀性,其計(jì)算公式為;

其中,incorrect_num表示錯(cuò)誤字符的數(shù)量,即這一個(gè)分塊中不正確的字母的數(shù)量。

有益效果:本發(fā)明與現(xiàn)有技術(shù)相比,具有以下優(yōu)點(diǎn):

本發(fā)明有兩個(gè)方面的優(yōu)勢(shì),第一,傳統(tǒng)的對(duì)于英文的分詞研究較少,并且僅能夠做到斷句和去除停詞等基本工作,而本方法實(shí)現(xiàn)了英文的分詞。第二,傳統(tǒng)的分詞方法是基于詞庫和語料庫的,比如斯坦福大學(xué)提供的分詞工具NLTK,而本方法不依賴于任何的前期工作,僅從待分詞的文本出發(fā),減少了整理和編寫語料庫的復(fù)雜工作。

附圖說明

圖1是本發(fā)明分詞操作的流程圖。

圖2是本發(fā)明中模擬退火算法的算法應(yīng)用框架圖。

圖3是本發(fā)明評(píng)價(jià)函數(shù)模型示意圖。

具體實(shí)施方式

下面結(jié)合實(shí)施例和說明書附圖對(duì)本發(fā)明作進(jìn)一步的說明。

請(qǐng)參考圖1,其示出了本發(fā)明進(jìn)行分詞操作的基本流程圖。首先,根據(jù)輸入的模糊英文長句文本,對(duì)其進(jìn)行01編碼并且計(jì)算當(dāng)前解的評(píng)價(jià)函數(shù)值。隨機(jī)擾動(dòng)編碼后文檔中‘0’和‘1’的值,獲得新的當(dāng)前解,并計(jì)算當(dāng)前解的評(píng)價(jià)函數(shù)值。將當(dāng)前解的評(píng)價(jià)函數(shù)值和原解的評(píng)價(jià)函數(shù)值進(jìn)行對(duì)比,如果當(dāng)前解的評(píng)價(jià)函數(shù)值小于原解,說明當(dāng)前解的分詞效果更優(yōu),接納當(dāng)前解為最優(yōu)解;如果當(dāng)前解的評(píng)價(jià)函數(shù)值大于原解的評(píng)價(jià)函數(shù)值,以的概率接受當(dāng)前解為最優(yōu)解。之后判斷是否達(dá)到每一溫度下的迭代次數(shù),如果未達(dá)到當(dāng)前的迭代次數(shù),重新進(jìn)行解空間的搜索。否則判斷是否達(dá)到了整個(gè)分詞的終止條件,即當(dāng)前的溫度已經(jīng)到達(dá)臨界溫度,則輸出當(dāng)前的最優(yōu)解即為分詞的最優(yōu)解;否則執(zhí)行收斂函數(shù),改變溫度值重新進(jìn)行解空間的搜索以獲得更優(yōu)的解。最后通過本方法中的可閱讀性度量來判斷當(dāng)前最優(yōu)解是否能夠滿足正常人類閱讀。

請(qǐng)參考圖2,其示出了本發(fā)明模擬退火算法的算法應(yīng)用框架圖。本發(fā)明中函數(shù)evaluate作為評(píng)價(jià)函數(shù)來計(jì)算分詞的效果,函數(shù)flip_n用來搜索解空間以使得評(píng)價(jià)函數(shù)得到最優(yōu),如果當(dāng)前解優(yōu)于原解,則接受當(dāng)前解;如果當(dāng)前解的

評(píng)價(jià)函數(shù)值大于原解的評(píng)價(jià)函數(shù),則以概率來接受當(dāng)前解從而避免局部?jī)?yōu)化。

初始解由待分詞的模擬錄音的文本根據(jù)‘01’編碼之后產(chǎn)生。搜索解空間的目的是為了尋找使得評(píng)價(jià)函數(shù)能夠達(dá)到最優(yōu)情況下,‘0’,‘1’編碼的排列方式。針對(duì)某一短語,如a:doyouseethekitty(對(duì)應(yīng)的編碼:a:0000000000000001),我們沒有可以參考的詞典來輔助得到應(yīng)當(dāng)將這個(gè)短語從某一位置斷開。使用模擬退火算法的非確定性搜索,即隨機(jī)搜索的方法,隨機(jī)擾動(dòng)‘0’和‘1’,并且這種擾動(dòng)是與當(dāng)前的“溫度T”成正比,每次迭代的過程中,隨著溫度的降低,擾動(dòng)的邊界會(huì)逐漸縮小。請(qǐng)參考圖3,其示出了本發(fā)明評(píng)價(jià)函數(shù)模型示意圖。SEGMENTATION表示的是一個(gè)分詞的結(jié)果。在這個(gè)分詞結(jié)果中唯一的詞在LEXICON表中列出,并對(duì)每一個(gè)詞進(jìn)行算分,得分存在LEXICON中,DERIVATION是分塊得分,其值為所有分塊中包含的單詞的數(shù)量之和。兩者相加即為總得目標(biāo)得分,該目標(biāo)得分越小則分詞效果就越好,也就越接近我們?nèi)斯ぷR(shí)別的目標(biāo)。如‘doyou’的分詞得分為單詞長度5加上邊界1即為6,其他詞計(jì)算方法類似;分塊得分就是每個(gè)塊包含的單詞數(shù)量,如第一個(gè)1|2|4|6,其得分為4,依次類推,最終得到分詞得分為33,分塊得分為14,兩者相加即為總得目標(biāo)得分,該目標(biāo)得分越小則分詞效果就越好,也就越接近我們?nèi)斯ぷR(shí)別的目標(biāo)。

上述實(shí)施例僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出:對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和等同替換,這些對(duì)本發(fā)明權(quán)利要求進(jìn)行改進(jìn)和等同替換后的技術(shù)方案,均落入本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1