本發(fā)明實(shí)施例涉及分詞技術(shù)領(lǐng)域,尤其涉及一種基于人工智能的分詞方法、裝置、服務(wù)器和存儲介質(zhì)。
背景技術(shù):
人工智能(artificialintelligence),英文縮寫為ai。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。
中文分詞指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。中文分詞是文本挖掘的基礎(chǔ),對于輸入的一段中文,成功的進(jìn)行中文分詞,可以達(dá)到電腦自動識別語句含義的效果。
現(xiàn)有的中文分詞模型一般都是通用分詞模型,無法針對專業(yè)領(lǐng)域或特定場景對文本進(jìn)行準(zhǔn)確的分詞?,F(xiàn)有技術(shù)中一般通過對通用分詞模型的分詞結(jié)果進(jìn)行后處理來實(shí)現(xiàn)針對專業(yè)領(lǐng)域或特定場景對文本進(jìn)行準(zhǔn)確分詞,或者是通過使用專業(yè)領(lǐng)域或特定場景的分詞訓(xùn)練語料重新訓(xùn)練現(xiàn)有的通用分詞模型,得到專業(yè)領(lǐng)域或特定場景對應(yīng)的分詞模型。
上述兩種方法中,對于第一種方法來說,由于詞組之間存在交疊現(xiàn)象,因此會導(dǎo)致分詞結(jié)果錯(cuò)誤,對于第二種方法來說,重新訓(xùn)練分詞模型費(fèi)時(shí)費(fèi)力,且難易保證分詞質(zhì)量。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明實(shí)施例提供了一種基于人工智能的分詞方法、裝置、服務(wù)器和存儲介質(zhì),以解決現(xiàn)有技術(shù)中針對專業(yè)領(lǐng)域或特定場景,對文本進(jìn)行分詞的過程繁瑣以及準(zhǔn)確度低的技術(shù)缺陷。
在第一方面,本發(fā)明實(shí)施例提供了一種基于人工智能的分詞方法,包括:
獲取待分詞語料以及與設(shè)定分詞模板對應(yīng)的分詞模型;
根據(jù)設(shè)定匹配算法,匹配所述待分詞語料與所述分詞模型,獲取所述待分詞語料中滿足第一設(shè)定規(guī)則的目標(biāo)詞組;
根據(jù)所述目標(biāo)詞組修正與所述分詞模型和所述待分詞語料對應(yīng)的發(fā)射矩陣;
根據(jù)修正后的發(fā)射矩陣對所述待分詞語料進(jìn)行分詞處理,得到第一分詞結(jié)果。
在第二方面,本發(fā)明實(shí)施例提供了一種基于人工智能的分詞裝置,包括:
模型獲取模塊,用于獲取待分詞語料以及與設(shè)定分詞模板對應(yīng)的分詞模型;
詞組獲取模塊,用于根據(jù)設(shè)定匹配算法,匹配所述待分詞語料與所述分詞模型,獲取所述待分詞語料中滿足第一設(shè)定規(guī)則的目標(biāo)詞組;
矩陣修正模塊,用于根據(jù)所述目標(biāo)詞組修正與所述分詞模型和所述待分詞語料對應(yīng)的發(fā)射矩陣;
分詞處理模塊,用于根據(jù)修正后的發(fā)射矩陣對所述待分詞語料進(jìn)行分詞處理,得到第一分詞結(jié)果。
在第三方面,本發(fā)明實(shí)施例提供了一種服務(wù)器,所述服務(wù)器包括:
一個(gè)或多個(gè)處理器;
存儲裝置,用于存儲一個(gè)或多個(gè)程序,
當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)本發(fā)明實(shí)施例所述的基于人工智能的分詞方法。
在第四方面,本發(fā)明實(shí)施例提供了一種包含計(jì)算機(jī)可執(zhí)行指令的存儲介質(zhì),所述計(jì)算機(jī)可執(zhí)行指令在由計(jì)算機(jī)處理器執(zhí)行時(shí)用于執(zhí)行本發(fā)明實(shí)施例所述的基于人工智能的分詞方法。
本發(fā)明實(shí)施例提供了一種基于人工智能的分詞方法、裝置、服務(wù)器和存儲介質(zhì),通過先獲取待分詞語料以及與設(shè)定分詞模板對應(yīng)的分詞模型,然后根據(jù)設(shè)定匹配算法,匹配待分詞語料與分詞模型,獲取待分詞語料中滿足第一設(shè)定規(guī)則的目標(biāo)詞組,再根據(jù)目標(biāo)詞組修正與分詞模型和待分詞語料對應(yīng)的發(fā)射矩陣,最后根據(jù)修正后的發(fā)射矩陣對待分詞語料進(jìn)行分詞處理,得到第一分詞結(jié)果,解決了現(xiàn)有技術(shù)中針對專業(yè)領(lǐng)域或特定場景,對文本進(jìn)行分詞的過程繁瑣以及準(zhǔn)確度低的技術(shù)缺陷,實(shí)現(xiàn)了快速、簡單以及準(zhǔn)確地針對專業(yè)領(lǐng)域或特定場景對文本進(jìn)行分詞。
附圖說明
圖1是本發(fā)明實(shí)施例一提供的一種基于人工智能的分詞方法的流程圖;
圖2是本發(fā)明實(shí)施例二提供的一種基于人工智能的分詞方法的流程圖;
圖3是本發(fā)明實(shí)施例三提供的一種基于人工智能的分詞方法的流程圖;
圖4是本發(fā)明實(shí)施例四提供的一種基于人工智能的分詞裝置的結(jié)構(gòu)圖;
圖5是本發(fā)明實(shí)施例五中的一種服務(wù)器的結(jié)構(gòu)圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對本發(fā)明具體實(shí)施例作進(jìn)一步的詳細(xì)描述。可以理解的是,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。
另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。在更加詳細(xì)地討論示例性實(shí)施例之前應(yīng)當(dāng)提到的是,一些示例性實(shí)施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項(xiàng)操作(或步驟)描述成順序的處理,但是其中的許多操作可以被并行地、并發(fā)地或者同時(shí)實(shí)施。此外,各項(xiàng)操作的順序可以被重新安排。當(dāng)其操作完成時(shí)所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。所述處理可以對應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。
實(shí)施例一
圖1為本發(fā)明實(shí)施例一提供的一種基于人工智能的分詞方法的流程圖,本實(shí)施例的方法可以由基于人工智能的分詞裝置來執(zhí)行,該裝置可通過硬件和/或軟件的方式實(shí)現(xiàn),并一般可集成于提供分詞服務(wù)的服務(wù)器中。本實(shí)施例的方法具體包括:
110、獲取待分詞語料以及與設(shè)定分詞模板對應(yīng)的分詞模型。
在本實(shí)施例中,設(shè)定分詞模板具體是指分詞方法符合專業(yè)領(lǐng)域要求或是特定場景要求的已分詞語料。
本領(lǐng)域技術(shù)人員可以理解的是,現(xiàn)有的分詞模型一般都是通用分詞模型,通用分詞模型對日常用語,常用詞組等內(nèi)容的分詞結(jié)果較為準(zhǔn)確,但是,對于專業(yè)領(lǐng)域的專業(yè)詞組以及某些特定場景下的特有分詞難以進(jìn)行準(zhǔn)確地劃分,因此,本實(shí)施例中使用了與設(shè)定分詞模板對應(yīng)的分詞模型對待分詞語料進(jìn)行分詞處理,以使分詞結(jié)果與設(shè)定分詞模板一致。
在本實(shí)施例中,設(shè)定分詞模板對應(yīng)的分詞模型具體是指根據(jù)設(shè)定分詞模板的分詞方法對現(xiàn)有分詞模型的模型參數(shù)進(jìn)行修正后得到的分詞模型,其中,分詞模型的模型參數(shù)的修正方法典型的可以是:增量訓(xùn)練法等修正方法。
在本實(shí)施例中,待分詞語料具體可以是演講稿、論文或會議資料等,本實(shí)施例對此不進(jìn)行限制。獲取待分詞語料的方法具體可以是用戶直接輸入待分詞語料,還可以是根據(jù)用戶輸入的鏈接地址從相應(yīng)的服務(wù)器中下載待分詞語料等,本實(shí)施例對此不進(jìn)行限制。
120、根據(jù)設(shè)定匹配算法,匹配待分詞語料與分詞模型,獲取待分詞語料中滿足第一設(shè)定規(guī)則的目標(biāo)詞組。
在本實(shí)施例中,匹配待分詞語料與分詞模型實(shí)際上是將待分詞語料與設(shè)定分詞模板進(jìn)行匹配,由于分詞模型的模型參數(shù)中體現(xiàn)了設(shè)定分詞模板的全部分詞方法,所以,可以通過匹配待分詞語料與分詞模型,實(shí)現(xiàn)待分詞語料與設(shè)定分詞模板的匹配。
在本實(shí)施例中,設(shè)定匹配算法具體可以是正向最大匹配算法、逆向最大匹配算法或雙向匹配算法等,本實(shí)施例對此不進(jìn)行限制。第一設(shè)定規(guī)則具體是指目標(biāo)詞組包含漢字的個(gè)數(shù)的取值范圍,典型的可以是:包含的漢字個(gè)數(shù)應(yīng)大于等于4等。
本領(lǐng)域技術(shù)人員可以理解的是,一般來說,針對專業(yè)領(lǐng)域或特定場景的分詞方式與常用的分詞方式的區(qū)別主要體現(xiàn)在一些多字詞組的劃分上,因此,在本實(shí)施例中,并不獲取待分詞語料中所有與設(shè)定分詞模版相匹配的詞組,而是只獲取待分詞語料中與設(shè)定分詞模版相匹配的,且滿足第一設(shè)定規(guī)則的詞組,即目標(biāo)詞組。
在一個(gè)具體的例子中,設(shè)定分詞模板為生物詞典,分詞模型為與生物詞典對應(yīng)的分詞模型,待分詞語料為一份與生物演化相關(guān)的演講稿,根據(jù)正向最大匹配算法,將該演講稿與分詞模型進(jìn)行匹配,獲取該演講稿中與生物詞典中的詞組一致的,且包含的字?jǐn)?shù)大于4的詞組。
另外,當(dāng)?shù)谝辉O(shè)定規(guī)則為目標(biāo)詞組為所包含的漢字個(gè)數(shù)最多的詞組,也就是說,根據(jù)設(shè)定匹配算法匹配待分詞語料和設(shè)定分詞模板所獲得的匹配結(jié)果中,選取包含漢字個(gè)數(shù)最多的詞組作為目標(biāo)詞組。一般來說,詞組與詞組之間存在有交疊現(xiàn)象,因此,在分詞過程中會存在分詞沖突的問題,如果將第一設(shè)定規(guī)則設(shè)置為目標(biāo)詞組為所包含的漢字個(gè)數(shù)最多的詞組,則在對待分詞語料進(jìn)行分詞時(shí),所使用的馬爾可夫解碼的過程可以根據(jù)矩陣權(quán)值解出最優(yōu)序列,從而解決沖突問題。
130、根據(jù)目標(biāo)詞組修正與分詞模型和待分詞語料對應(yīng)的發(fā)射矩陣。
在本實(shí)施例中,在獲取待分詞語料和分詞模型之后,首先會生成一個(gè)與待分詞語料和分詞模型對應(yīng)的發(fā)射矩陣,然后,對目標(biāo)詞組在發(fā)射矩陣中的對應(yīng)權(quán)值進(jìn)行修正。
一般來說,使用與設(shè)定分詞模板對應(yīng)的分詞模型進(jìn)行分詞處理后,所得到的分詞結(jié)果與設(shè)定分詞模板具有較高的一致性,但是對于包含字?jǐn)?shù)較多的詞組也可能出現(xiàn)分詞錯(cuò)誤的現(xiàn)象,因此,在本實(shí)施例中,根據(jù)目標(biāo)詞組對發(fā)射矩陣進(jìn)行修正,以提高分詞結(jié)果的準(zhǔn)確度。
本領(lǐng)域技術(shù)人員可以理解的是,在使用分詞模型對待分詞語句進(jìn)行分詞處理的過程中,所生成的發(fā)射矩陣的行數(shù)一般為4行,分別對應(yīng)字的4個(gè)標(biāo)簽,即開頭、中間、結(jié)尾和單字詞,列數(shù)一般為待分詞語句所包含的漢字的個(gè)數(shù),在本實(shí)施例中,發(fā)射矩陣的屬性與此相同。
在本實(shí)施例中,根據(jù)目標(biāo)詞組修正發(fā)射矩陣的具體過程可以是:確定目標(biāo)詞組中各漢字的標(biāo)簽,即判斷各漢字是目標(biāo)詞組的開頭字、中間字、結(jié)束字還是其本身就是一個(gè)詞組,然后將發(fā)射矩陣中與各漢字的標(biāo)簽對應(yīng)的權(quán)值進(jìn)行修改。
進(jìn)一步地,一般來說,為了獲取更加準(zhǔn)確的分詞結(jié)果,對發(fā)射矩陣中的權(quán)值進(jìn)行修正時(shí),單次修正的數(shù)值一般不會很大,一般為1、2或3,但是,在本實(shí)施例中,為了對包含字?jǐn)?shù)較多的詞組進(jìn)行準(zhǔn)確的分詞,可以加大權(quán)值的單次修正數(shù)值,可以是50、100等。
在一個(gè)具體的例子中,待分詞語句為“一心一意做事”,那么,發(fā)射矩陣具體為如下形式:
140、根據(jù)修正后的發(fā)射矩陣對待分詞語料進(jìn)行分詞處理,得到第一分詞結(jié)果。
在本實(shí)施例中,對發(fā)射矩陣修正后,會根據(jù)分詞模型的模型參數(shù)得到該分詞模型的轉(zhuǎn)移矩陣,然后根據(jù)修正后的發(fā)射矩陣和轉(zhuǎn)移矩陣對待分詞語料進(jìn)行分詞處理,得到第一分詞結(jié)果。具體而言,可以是對修正后的發(fā)射矩陣和轉(zhuǎn)移矩陣進(jìn)行馬爾可夫操作,并使用維特比算法對操作結(jié)果進(jìn)行處理,得到第一分詞結(jié)果。
本發(fā)明實(shí)施例一提供了一種基于人工智能的分詞方法,通過先獲取待分詞語料以及與設(shè)定分詞模板對應(yīng)的分詞模型,然后根據(jù)設(shè)定匹配算法,匹配待分詞語料與分詞模型,獲取待分詞語料中滿足第一設(shè)定規(guī)則的目標(biāo)詞組,再根據(jù)目標(biāo)詞組修正與分詞模型和待分詞語料對應(yīng)的發(fā)射矩陣,最后根據(jù)修正后的發(fā)射矩陣對待分詞語料進(jìn)行分詞處理,得到第一分詞結(jié)果,解決了現(xiàn)有技術(shù)中針對專業(yè)領(lǐng)域或特定場景,對文本進(jìn)行分詞的過程繁瑣以及準(zhǔn)確度低的技術(shù)缺陷,實(shí)現(xiàn)了快速、簡單以及準(zhǔn)確地針對專業(yè)領(lǐng)域或特定場景對文本進(jìn)行分詞。
實(shí)施例二
圖2是本發(fā)明實(shí)施例二提供的一種基于人工智能的分詞方法的流程圖。本實(shí)施例以上述實(shí)施例為基礎(chǔ)進(jìn)行優(yōu)化,在本實(shí)施例中,將根據(jù)目標(biāo)詞組修正與分詞模型和待分詞語料對應(yīng)的發(fā)射矩陣,具體化為:獲取與分詞模型和待分詞語料對應(yīng)的發(fā)射矩陣;確定目標(biāo)詞組中各漢字對應(yīng)的修正參數(shù);根據(jù)修正參數(shù)修正發(fā)射矩陣中各漢字對應(yīng)的權(quán)值。
進(jìn)一步地,將確定目標(biāo)詞組中各漢字對應(yīng)的修正參數(shù),具體化為:根據(jù)目標(biāo)詞組中各漢字在目標(biāo)詞組中的位置,確定各漢字對應(yīng)的修正參數(shù)的標(biāo)簽,其中,標(biāo)簽包括開頭、中間、結(jié)尾和單字詞組;根據(jù)設(shè)定數(shù)值確定各漢字對應(yīng)的修正參數(shù)的數(shù)值。
進(jìn)一步地,將根據(jù)修正參數(shù)修正發(fā)射矩陣中與各漢字對應(yīng)的權(quán)值,具體化為:根據(jù)標(biāo)簽確定發(fā)射矩陣中各漢字的待修正權(quán)值;根據(jù)修正參數(shù)的數(shù)值修正待修正權(quán)值。
進(jìn)一步地,將根據(jù)修正參數(shù)的數(shù)值修正待修正權(quán)值,具體化為:對修正參數(shù)的數(shù)值與待修正權(quán)值的數(shù)值求和,將求和結(jié)果作為待修正權(quán)值修正后的數(shù)值。
相應(yīng)的,本實(shí)施例的方法具體包括:
210、獲取待分詞語料以及與設(shè)定分詞模板對應(yīng)的分詞模型。
220、根據(jù)設(shè)定匹配算法,匹配待分詞語料與分詞模型,獲取待分詞語料中滿足第一設(shè)定規(guī)則的目標(biāo)詞組。
230、獲取與分詞模型和待分詞語料對應(yīng)的發(fā)射矩陣。
在本實(shí)施例中,發(fā)射矩陣的行數(shù)為4行,分別對應(yīng)字的4個(gè)標(biāo)簽,即開頭、中間、結(jié)尾和單字詞,列數(shù)為待分詞語料中的語句(不是全部的待分詞語料)所包含的漢字的個(gè)數(shù)。
一般來說,分詞模型在對待分詞語料進(jìn)行分詞的過程中,不是一次將所有內(nèi)容進(jìn)行分詞處理的,而是分多次進(jìn)行分詞處理的,這樣可以減少分詞過程中發(fā)射矩陣包含的數(shù)據(jù)量,進(jìn)而減少內(nèi)存的占用空間,比如每一次可以對待分詞語料中的一行文字或多行文字進(jìn)行分詞處理。
240、根據(jù)目標(biāo)詞組中各漢字在目標(biāo)詞組中的位置,確定各漢字對應(yīng)的修正參數(shù)的標(biāo)簽。
在本實(shí)施例中,各漢字在目標(biāo)詞組中的位置具體是指字的標(biāo)簽,即開頭、中間、結(jié)尾或單字詞,可以理解的是,當(dāng)漢字是單字成詞時(shí),那么,該漢字在詞組中的位置又是開頭,又是中間同時(shí)也是結(jié)尾,因此,將此種情況進(jìn)行了單獨(dú)處理,增加了“單字詞”標(biāo)簽。
在本實(shí)施例中,修正參數(shù)具體是指用于對各漢字在發(fā)射矩陣中對應(yīng)的權(quán)值進(jìn)行修正的數(shù)據(jù)。修正參數(shù)的標(biāo)簽具體可以是開頭、中間、結(jié)尾或單字詞,其與待修正漢字的標(biāo)簽一致,
250、根據(jù)設(shè)定數(shù)值確定各漢字對應(yīng)的修正參數(shù)的數(shù)值。
在本實(shí)施例中,設(shè)定數(shù)值具體可以是50、80或100等,對于權(quán)值的修正數(shù)值來說,應(yīng)是一個(gè)較大的數(shù)值,以確保目標(biāo)詞組被準(zhǔn)確進(jìn)行分詞。
260、根據(jù)標(biāo)簽確定發(fā)射矩陣中各漢字的待修正權(quán)值。
在本實(shí)施例中,各漢字的待修正權(quán)值具體是指發(fā)射矩陣中,各漢字所在列中,屬性與該漢字的標(biāo)簽一致的數(shù)據(jù)。
270、對修正參數(shù)的數(shù)值與待修正權(quán)值的數(shù)值求和,將求和結(jié)果作為待修正權(quán)值修正后的數(shù)值。
在本實(shí)施例中,在確定發(fā)射矩陣中各漢字的待修正權(quán)值,將修正參數(shù)的數(shù)值與待修正權(quán)值的數(shù)值相加,將求和結(jié)果作為待修正權(quán)值的數(shù)值。
280、根據(jù)修正后的發(fā)射矩陣對待分詞語料進(jìn)行分詞處理,得到第一分詞結(jié)果。
本發(fā)明實(shí)施例二提供了一種基于人工智能的分詞方法,具體化了發(fā)射矩陣的修正方法,將發(fā)射矩陣中與目標(biāo)詞組中各漢字的標(biāo)簽對應(yīng)的權(quán)值進(jìn)行大幅度的增加,得到了分詞準(zhǔn)確度更高的發(fā)射矩陣。利用該方法可以得到權(quán)值能夠顯著反應(yīng)漢字及其所在詞組與設(shè)定分詞模型的相關(guān)性的發(fā)射矩陣,由此,使得分詞結(jié)果與設(shè)定分詞模板高度一致,提高了專業(yè)領(lǐng)域或特定場景下分詞的準(zhǔn)確度,另外,由于是通過干預(yù)發(fā)射矩陣的權(quán)值影響分詞結(jié)果,而不是通過對分詞結(jié)果進(jìn)行后處理,所以大部分的分詞邊界和分詞結(jié)果不受影響,提高了分詞的穩(wěn)定性。
實(shí)施例三
圖3是本發(fā)明實(shí)施例三提供的一種基于人工智能的分詞方法的流程圖。本實(shí)施例以上述實(shí)施例為基礎(chǔ)進(jìn)行優(yōu)化,在本實(shí)施例中,在獲取待分詞語料以及與設(shè)定分詞模板對應(yīng)的分詞模型之前,具體化為:使用分詞模型對設(shè)定分詞模板進(jìn)行分詞處理,得到第二分詞結(jié)果;根據(jù)第二設(shè)定規(guī)則比較第二分詞結(jié)果和設(shè)定分詞模板,獲取更新參數(shù);根據(jù)更新參數(shù),修正分詞模型;根據(jù)修正后的分詞模型和設(shè)定分詞模板生成與設(shè)定分詞模板對應(yīng)的分詞模型。
進(jìn)一步地,將根據(jù)修正后的發(fā)射矩陣對待分詞語料進(jìn)行分詞處理,得到第一分詞結(jié)果,具體化為:獲取分詞模型對應(yīng)的轉(zhuǎn)移矩陣;對轉(zhuǎn)移矩陣和修正后的發(fā)射矩陣進(jìn)行馬爾可夫解碼,得到第一分詞結(jié)果。
相應(yīng)的,本實(shí)施例的方法具體包括:
310、使用分詞模型對設(shè)定分詞模板進(jìn)行分詞處理,得到第二分詞結(jié)果。
在本實(shí)施例中,與設(shè)定分詞模板對應(yīng)的分詞模型的獲取方式為,首先,使用原有的分詞模型對設(shè)定分詞模型進(jìn)行分詞處理,進(jìn)而得到第二分詞結(jié)果。
在本實(shí)施例中,使用分詞模型對設(shè)定分詞模板進(jìn)行分詞處理的方法可以是:首先根據(jù)分詞模型和設(shè)定分詞模板獲取發(fā)射矩陣和轉(zhuǎn)移矩陣,然后,對發(fā)射矩陣和轉(zhuǎn)移矩陣進(jìn)行馬爾可夫解碼,進(jìn)而獲得第二分詞結(jié)果。
320、根據(jù)第二設(shè)定規(guī)則比較第二分詞結(jié)果和設(shè)定分詞模板,獲取更新參數(shù)。
在本實(shí)施例中,第二設(shè)定規(guī)則具體可以是隨機(jī)梯度下降法等。更新參數(shù)具體是指分詞模型的各個(gè)模型參數(shù)需要更正的數(shù)值。
330、根據(jù)更新參數(shù),修正分詞模型。
在本實(shí)施例中,在獲取更新參數(shù)之后,會根據(jù)更新參數(shù)對分詞模型的模型參數(shù)進(jìn)行修正,實(shí)現(xiàn)對分詞模型的修正,修正后的分詞模型不但可以實(shí)現(xiàn)原有分詞模型的分詞效果,同時(shí)還可以實(shí)現(xiàn)對設(shè)定分詞模板中的詞組的準(zhǔn)確分詞。
340、根據(jù)修正后的分詞模型和設(shè)定分詞模板生成與設(shè)定分詞模板對應(yīng)的分詞模型。
在本實(shí)施例中,生成與設(shè)定分詞模板對應(yīng)的分詞模型的方法具體可以是將設(shè)定分詞模板的特征權(quán)值與修正后的分詞模板的模型參數(shù)合并,但是各自的數(shù)值不做任何改變,由此獲得與設(shè)定分詞模板對應(yīng)的分詞模型的模型參數(shù),根據(jù)該模型參數(shù)可進(jìn)而獲得與設(shè)定分詞模板對應(yīng)的分詞模型。
其中,設(shè)定分詞模板的特征權(quán)值具體可以是在步驟310中獲取的,當(dāng)需要根據(jù)分詞模型和設(shè)定分詞模板獲取發(fā)射矩陣和轉(zhuǎn)移矩陣時(shí),首先需要獲取設(shè)定分詞模板的特征權(quán)值,根據(jù)設(shè)定分詞模板的特征權(quán)值才可生成發(fā)射矩陣。
在一個(gè)具體的例子中,設(shè)定分詞模板的特征權(quán)值用矩陣
350、獲取待分詞語料以及與設(shè)定分詞模板對應(yīng)的分詞模型。
360、根據(jù)設(shè)定匹配算法,匹配待分詞語料與分詞模型,獲取待分詞語料中滿足第一設(shè)定規(guī)則的目標(biāo)詞組。
370、根據(jù)目標(biāo)詞組修正與分詞模型和待分詞語料對應(yīng)的發(fā)射矩陣。
380、獲取分詞模型對應(yīng)的轉(zhuǎn)移矩陣。
在本實(shí)施例中,轉(zhuǎn)移矩陣具體是指根據(jù)分詞模型的模型參數(shù)得到的,用于與發(fā)射矩陣共同對待分詞語料進(jìn)行分詞處理的概率矩陣。轉(zhuǎn)移矩陣表示了各個(gè)漢字的標(biāo)簽轉(zhuǎn)化概率以及各個(gè)漢字的標(biāo)簽概率,具體而言,各個(gè)漢字的標(biāo)簽轉(zhuǎn)化概率具體是指漢字的標(biāo)簽從開頭轉(zhuǎn)化為中間的概率、從中間轉(zhuǎn)化為結(jié)尾的概率、從結(jié)尾轉(zhuǎn)化為中間的概率以及從開頭轉(zhuǎn)化為單字詞的概率等,各個(gè)漢字的標(biāo)簽概率具體是指各漢字的標(biāo)簽為開頭的概率、標(biāo)簽為中間的概率、標(biāo)簽為結(jié)尾份概率以及標(biāo)簽為單字詞的概率。
390、對轉(zhuǎn)移矩陣和修正后的發(fā)射矩陣進(jìn)行馬爾可夫解碼,得到第一分詞結(jié)果。
在本實(shí)施例中,對轉(zhuǎn)移矩陣和修正后的發(fā)射矩陣進(jìn)行馬爾可夫解碼具體可以是利用維特比解碼算法,從發(fā)射矩陣和轉(zhuǎn)移矩陣中解碼出漢字的最優(yōu)序列,得到第一分詞結(jié)果。
本發(fā)明實(shí)施例三提供了一種基于人工智能的分詞方法,具體化了與設(shè)定分詞模板對應(yīng)的分詞模型的獲取方法,利用增量訓(xùn)練的方法增加了分詞模型中與設(shè)定分詞模板一致的詞組的泛化能力,快速、簡便地得到了與設(shè)定分詞模板對應(yīng)的分詞模型,同時(shí),還具體化了第一分詞結(jié)果的獲取方法,使用馬爾可夫解碼可以準(zhǔn)確地獲取分詞結(jié)果。利用該方法無需使用大量訓(xùn)練語料對通用分詞模型進(jìn)行重新訓(xùn)練,而是通過增量訓(xùn)練即可快速地得到符合專業(yè)領(lǐng)域或特定場景的分詞需求的通用分詞模型,且后續(xù)配合使用對發(fā)射矩陣的權(quán)值干預(yù),因此分詞結(jié)果的準(zhǔn)確度還會高于通過重新訓(xùn)練得到的分詞模型的分詞準(zhǔn)確度。
實(shí)施例四
圖4是本發(fā)明實(shí)施例四提供的一種基于人工智能的分詞裝置的結(jié)構(gòu)圖。如圖4所示,所述裝置包括:模型獲取模塊401、詞組獲取模塊402、矩陣修正模塊403和分詞處理模塊404。其中:
模型獲取模塊401,用于獲取待分詞語料以及與設(shè)定分詞模板對應(yīng)的分詞模型;
詞組獲取模塊402,用于根據(jù)設(shè)定匹配算法,匹配待分詞語料與分詞模型,獲取待分詞語料中滿足第一設(shè)定規(guī)則的目標(biāo)詞組;
矩陣修正模塊403,用于根據(jù)目標(biāo)詞組修正與分詞模型和待分詞語料對應(yīng)的發(fā)射矩陣;
分詞處理模塊404,用于根據(jù)修正后的發(fā)射矩陣對待分詞語料進(jìn)行分詞處理,得到第一分詞結(jié)果。
本發(fā)明實(shí)施例四提供了一種基于人工智能的分詞裝置,通過先獲取待分詞語料以及與設(shè)定分詞模板對應(yīng)的分詞模型,然后根據(jù)設(shè)定匹配算法,匹配待分詞語料與分詞模型,獲取待分詞語料中滿足第一設(shè)定規(guī)則的目標(biāo)詞組,再根據(jù)目標(biāo)詞組修正與分詞模型和待分詞語料對應(yīng)的發(fā)射矩陣,最后根據(jù)修正后的發(fā)射矩陣對待分詞語料進(jìn)行分詞處理,得到第一分詞結(jié)果,解決了現(xiàn)有技術(shù)中針對專業(yè)領(lǐng)域或特定場景,對文本進(jìn)行分詞的過程繁瑣以及準(zhǔn)確度低的技術(shù)缺陷,實(shí)現(xiàn)了快速、簡單以及準(zhǔn)確地針對專業(yè)領(lǐng)域或特定場景對文本進(jìn)行分詞。
在上述各實(shí)施例的基礎(chǔ)上,矩陣修正模塊可以包括:
發(fā)射矩陣獲取單元,用于獲取與分詞模型和待分詞語料對應(yīng)的發(fā)射矩陣;
修正參數(shù)確定單元,用于確定目標(biāo)詞組中各漢字對應(yīng)的修正參數(shù);
權(quán)值修正單元,用于根據(jù)修正參數(shù)修正發(fā)射矩陣中各漢字對應(yīng)的權(quán)值。
在上述各實(shí)施例的基礎(chǔ)上,修正參數(shù)確定單元可以包括:
標(biāo)簽確定子單元,用于根據(jù)目標(biāo)詞組中各漢字在目標(biāo)詞組中的位置,確定各漢字對應(yīng)的修正參數(shù)的標(biāo)簽,其中,標(biāo)簽包括開頭、中間、結(jié)尾和單字詞組;
數(shù)值確定子單元,用于根據(jù)設(shè)定數(shù)值確定各漢字對應(yīng)的修正參數(shù)的數(shù)值。
在上述各實(shí)施例的基礎(chǔ)上,權(quán)值修正單元可以包括:
待修正權(quán)值確定子單元,用于根據(jù)標(biāo)簽確定發(fā)射矩陣中各漢字的待修正權(quán)值;
修正權(quán)值子單元,用于根據(jù)修正參數(shù)的數(shù)值修正待修正權(quán)值。
在上述各實(shí)施例的基礎(chǔ)上,修正權(quán)值子單元具體可以用于:
對修正參數(shù)的數(shù)值與待修正權(quán)值的數(shù)值求和,將求和結(jié)果作為待修正權(quán)值修正后的數(shù)值。
在上述各實(shí)施例的基礎(chǔ)上,還可以包括:
第二分詞結(jié)果獲取模塊,用于在獲取待分詞語料以及與設(shè)定分詞模板對應(yīng)的分詞模型之前,使用分詞模型對設(shè)定分詞模板進(jìn)行分詞處理,得到第二分詞結(jié)果;
更新參數(shù)獲取模塊,用于根據(jù)第二設(shè)定規(guī)則比較第二分詞結(jié)果和設(shè)定分詞模板,獲取更新參數(shù);
模型更新模塊,用于根據(jù)更新參數(shù),修正分詞模型;
分詞模型生成模塊,用于根據(jù)修正后的分詞模型和設(shè)定分詞模板生成與設(shè)定分詞模板對應(yīng)的分詞模型。
在上述各實(shí)施例的基礎(chǔ)上,分詞處理模塊可以包括:
轉(zhuǎn)移矩陣獲取單元,用于獲取分詞模型對應(yīng)的轉(zhuǎn)移矩陣;
第一分詞結(jié)果獲取單元,用于對轉(zhuǎn)移矩陣和修正后的發(fā)射矩陣進(jìn)行馬爾可夫解碼,得到第一分詞結(jié)果。
本發(fā)明實(shí)施例所提供的基于人工智能的分詞裝置可用于執(zhí)行本發(fā)明任意實(shí)施例提供的基于人工智能的分詞方法,具備相應(yīng)的功能模塊,實(shí)現(xiàn)相同的有益效果。
實(shí)施例五
圖5為本發(fā)明實(shí)施例五提供的一種服務(wù)器的結(jié)構(gòu)示意圖。圖5示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性服務(wù)器12的框圖。圖5顯示的服務(wù)器12僅僅是一個(gè)示例,不應(yīng)對本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。
如圖5所示,服務(wù)器12以通用計(jì)算設(shè)備的形式表現(xiàn)。服務(wù)器12的組件可以包括但不限于:一個(gè)或者多個(gè)處理器或者處理單元16,系統(tǒng)存儲器28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲器28和處理單元16)的總線18。
總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(isa)總線,微通道體系結(jié)構(gòu)(mac)總線,增強(qiáng)型isa總線、視頻電子標(biāo)準(zhǔn)協(xié)會(vesa)局域總線以及外圍組件互連(pci)總線。
服務(wù)器12典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被服務(wù)器12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動的和不可移動的介質(zhì)。
系統(tǒng)存儲器28可以包括易失性存儲器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲器(ram)30和/或高速緩存存儲器32。服務(wù)器12可以進(jìn)一步包括其它可移動/不可移動的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲介質(zhì)。僅作為舉例,存儲系統(tǒng)34可以用于讀寫不可移動的、非易失性磁介質(zhì)(圖5未顯示,通常稱為“硬盤驅(qū)動器”)。盡管圖5中未示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動器,以及對可移動非易失性光盤(例如cd-rom,dvd-rom或者其它光介質(zhì))讀寫的光盤驅(qū)動器。在這些情況下,每個(gè)驅(qū)動器可以通過一個(gè)或者多個(gè)數(shù)據(jù)介質(zhì)接口與總線18相連。存儲器28可以包括至少一個(gè)程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個(gè))程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實(shí)施例的功能。
具有一組(至少一個(gè))程序模塊42的程序/實(shí)用工具40,可以存儲在例如存儲器28中,這樣的程序模塊42包括但不限于操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實(shí)施例中的功能和/或方法。
服務(wù)器12也可以與一個(gè)或多個(gè)外部設(shè)備14(例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個(gè)或者多個(gè)使得用戶能與該服務(wù)器12交互的設(shè)備通信,和/或與使得該服務(wù)器12能與一個(gè)或多個(gè)其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口22進(jìn)行。并且,服務(wù)器12還可以通過網(wǎng)絡(luò)適配器20與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20通過總線18與服務(wù)器12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合服務(wù)器12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動器、冗余處理單元、外部磁盤驅(qū)動陣列、raid系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。
處理單元16通過運(yùn)行存儲在系統(tǒng)存儲器28中的程序,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,例如實(shí)現(xiàn)本發(fā)明實(shí)施例所提供的基于人工智能的分詞方法,所述基于人工智能的分詞方法包括:
獲取待分詞語料以及與設(shè)定分詞模板對應(yīng)的分詞模型;
根據(jù)設(shè)定匹配算法,匹配所述待分詞語料與所述分詞模型,獲取所述待分詞語料中滿足第一設(shè)定規(guī)則的目標(biāo)詞組;
根據(jù)所述目標(biāo)詞組修正與所述分詞模型和所述待分詞語料對應(yīng)的發(fā)射矩陣;
根據(jù)修正后的發(fā)射矩陣對所述待分詞語料進(jìn)行分詞處理,得到第一分詞結(jié)果。
實(shí)施例六
本發(fā)明實(shí)施例六還提供了一種包含計(jì)算機(jī)可執(zhí)行指令的存儲介質(zhì),所述計(jì)算機(jī)可執(zhí)行指令在由計(jì)算機(jī)處理器執(zhí)行時(shí)用于執(zhí)行本發(fā)明實(shí)施例所述的基于人工智能的分詞方法,所述基于人工智能的分詞方法包括:
獲取待分詞語料以及與設(shè)定分詞模板對應(yīng)的分詞模型;
根據(jù)設(shè)定匹配算法,匹配所述待分詞語料與所述分詞模型,獲取所述待分詞語料中滿足第一設(shè)定規(guī)則的目標(biāo)詞組;
根據(jù)所述目標(biāo)詞組修正與所述分詞模型和所述待分詞語料對應(yīng)的發(fā)射矩陣;
根據(jù)修正后的發(fā)射矩陣對所述待分詞語料進(jìn)行分詞處理,得到第一分詞結(jié)果。
本發(fā)明實(shí)施例的計(jì)算機(jī)存儲介質(zhì),可以采用一個(gè)或多個(gè)計(jì)算機(jī)可讀的介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號介質(zhì)或者計(jì)算機(jī)可讀存儲介質(zhì)。計(jì)算機(jī)可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
計(jì)算機(jī)可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。計(jì)算機(jī)可讀的信號介質(zhì)還可以是計(jì)算機(jī)可讀存儲介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括——但不限于無線、電線、光纜、rf等等,或者上述的任意合適的組合。
可以以一種或多種程序設(shè)計(jì)語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言—諸如java、smalltalk、c++,還包括常規(guī)的過程式程序設(shè)計(jì)語言—諸如”c”語言或類似的程序設(shè)計(jì)語言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過任意種類的網(wǎng)絡(luò)——包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)—連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。
注意,上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會理解,本發(fā)明不限于這里所述的特定實(shí)施例,對本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會脫離本發(fā)明的保護(hù)范圍。因此,雖然通過以上實(shí)施例對本發(fā)明進(jìn)行了較為詳細(xì)的說明,但是本發(fā)明不僅僅限于以上實(shí)施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實(shí)施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。