本發(fā)明涉及機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,特別涉及一種獲取文本提取模型的方法及裝置。
背景技術(shù):
機(jī)器學(xué)習(xí)技術(shù)是指計(jì)算機(jī)通過歸納文本或圖片等數(shù)據(jù)改善性能的技術(shù),廣泛地應(yīng)用于數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語(yǔ)言處理和機(jī)器人等方面。例如,為使聊天機(jī)器人能夠理解自然語(yǔ)言的意義,從而與用戶之間進(jìn)行交互,通常利用機(jī)器學(xué)習(xí)技術(shù)獲取文本提取模型,并將文本提取模型應(yīng)用于聊天機(jī)器人,使得聊天機(jī)器人從與用戶的語(yǔ)料中提取出表達(dá)用戶需求的文本,并對(duì)應(yīng)該文本進(jìn)行應(yīng)答。
一般地,在獲取文本提取模型時(shí),需要獲取大量語(yǔ)料,并人工地從每個(gè)語(yǔ)料中標(biāo)注出表達(dá)用戶需求的文本,將大量語(yǔ)料和對(duì)應(yīng)標(biāo)注出的文本作為訓(xùn)練文本集合,進(jìn)而對(duì)訓(xùn)練文本集合進(jìn)行訓(xùn)練,從而基于標(biāo)注出的文本在語(yǔ)料中的上下文等特征得到文本提取模型。其中,人工標(biāo)注出的文本一般與聊天機(jī)器人所提供的服務(wù)的相關(guān),例如,聊天機(jī)器人可提供票務(wù)服務(wù),某個(gè)語(yǔ)料為“我要購(gòu)買火車票”,則人工標(biāo)注的文本為“火車票”。
在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:
訓(xùn)練文本集合完全由人工標(biāo)注的方式得到,由于獲取文本提取模型所需的語(yǔ)料數(shù)據(jù)量龐大、人工標(biāo)注的效率低,導(dǎo)致文本提取模型的訓(xùn)練過程會(huì)消耗大量人力成本和時(shí)間成本。
技術(shù)實(shí)現(xiàn)要素:
為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實(shí)施例提供了一種獲取文本提取模型的方法及裝置。所述技術(shù)方案如下:
一方面,提供了一種獲取文本提取模型的方法,所述方法包括:
獲取第一文本提取模型,所述第一文本提取模型根據(jù)人工標(biāo)注的第一訓(xùn)練文本集合得到;
如果所述第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值,獲取第二訓(xùn)練文本集合,所述第二訓(xùn)練文本集合包括多個(gè)第一訓(xùn)練語(yǔ)料和通過所述第一文本提取模型從所述多個(gè)第一訓(xùn)練語(yǔ)料中提取的多個(gè)第一目標(biāo)文本;
根據(jù)所述第一訓(xùn)練文本集合和所述第二訓(xùn)練文本集合,獲取第二文本提取模型。
另一方面,提供了一種獲取文本提取模型的裝置,所述裝置包括:
模型獲取模塊,用于獲取第一文本提取模型,所述第一文本提取模型根據(jù)人工標(biāo)注的第一訓(xùn)練文本集合得到;
訓(xùn)練文本集合獲取模塊,用于如果所述第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值,獲取第二訓(xùn)練文本集合,所述第二訓(xùn)練文本集合包括多個(gè)第一訓(xùn)練語(yǔ)料和通過所述第一文本提取模型從所述多個(gè)第一訓(xùn)練語(yǔ)料中提取的多個(gè)第一目標(biāo)文本;
所述模型獲取模塊,用于根據(jù)所述第一訓(xùn)練文本集合和所述第二訓(xùn)練文本集合,獲取第二文本提取模型。
本發(fā)明實(shí)施例通過獲取第一文本提取模型,在第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值時(shí),獲取第二訓(xùn)練文本集合,該第二訓(xùn)練文本集合包括多個(gè)第一訓(xùn)練語(yǔ)料和通過第一文本提取模型從多個(gè)第一訓(xùn)練語(yǔ)料中提取的多個(gè)第一目標(biāo)文本,從而通過已獲取的第一文本提取模型得到第二訓(xùn)練文本集合,而無(wú)需人工標(biāo)注,進(jìn)一步地,根據(jù)第一訓(xùn)練文本集合和第二訓(xùn)練文本集合,獲取第二文本提取模型,使得獲取文本提取模型的過程趨于自動(dòng)化,由于通過模型獲取訓(xùn)練文本集合的效率遠(yuǎn)高于人工標(biāo)注的效率,因此采用本發(fā)明的獲取方法可以大大減少人力成本和時(shí)間成本。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實(shí)施例提供的一種獲取文本提取模型的實(shí)施環(huán)境示意圖;
圖2是本發(fā)明實(shí)施例提供的一種獲取文本提取模型的方法流程圖;
圖3是本發(fā)明實(shí)施例提供的一種獲取訓(xùn)練文本的流程圖;
圖4是本發(fā)明實(shí)施例提供的一種獲取迭代模型的流程圖;
圖5是本發(fā)明實(shí)施例提供的一種獲取文本提取模型的裝置框圖;
圖6是本發(fā)明實(shí)施例提供的一種獲取文本提取模型的裝置框圖;
圖7是本發(fā)明實(shí)施例提供的一種獲取文本提取模型的裝置700的框圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
圖1是本發(fā)明實(shí)施例提供的一種獲取文本提取模型的實(shí)施環(huán)境示意圖。參見圖1,該實(shí)施環(huán)境中包括:
至少一個(gè)服務(wù)器101,至少一個(gè)聊天機(jī)器人102,至少一個(gè)終端103(如,移動(dòng)終端和臺(tái)式電腦)。其中,服務(wù)器101用于獲取第一文本提取模型,如果第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值,則獲取第二訓(xùn)練文本集合,根據(jù)已獲取的訓(xùn)練文本集合獲取第二文本提取模型,將獲取的文本提取模型應(yīng)用于聊天機(jī)器人102或終端103。該聊天機(jī)器人102用于根據(jù)服務(wù)器101的控制獲取或更新文本提取模型,并基于服務(wù)器101的控制為用戶提供各種服務(wù),如,聊天服務(wù)。終端103上安裝有服務(wù)器101所提供的智能聊天應(yīng)用,并根據(jù)服務(wù)器101的控制獲取或更新文本提取模型。
另外,該服務(wù)器101還可以配置至少一個(gè)數(shù)據(jù)庫(kù),如,聊天數(shù)據(jù)庫(kù)、用戶數(shù)據(jù)庫(kù)的用戶認(rèn)證數(shù)據(jù)庫(kù)等等。該聊天數(shù)據(jù)庫(kù)用于存儲(chǔ)用戶與聊天機(jī)器人(或者智能聊天應(yīng)用)之間的對(duì)話語(yǔ)料,該對(duì)話語(yǔ)料可以標(biāo)識(shí)有本次對(duì)話的時(shí)間戳,或者本次對(duì)話的服務(wù)記錄等數(shù)據(jù);用戶數(shù)據(jù)庫(kù)用于存儲(chǔ)用戶行為數(shù)據(jù),如用戶發(fā)表的日志和評(píng)論,用戶的點(diǎn)贊行為和評(píng)分行為等;該用戶認(rèn)證數(shù)據(jù)庫(kù)用于存儲(chǔ)用戶的用戶名和用戶密碼。
圖2是本發(fā)明實(shí)施例提供的一種獲取文本提取模型的方法流程圖。參見圖2,該方法可以應(yīng)用于任一設(shè)備,且該設(shè)備至少具有處理器和存儲(chǔ)器,可以通過處理器處理存儲(chǔ)器中的訓(xùn)練樣本集合,得到文本提取模型。該方法具體包括:
201、服務(wù)器獲取第一文本提取模型,第一文本提取模型根據(jù)人工標(biāo)注的第一訓(xùn)練文本集合得到。
第一訓(xùn)練文本集合用于生成文本提取模型,該第一訓(xùn)練文本集合包括多個(gè)訓(xùn)練語(yǔ)料和人工對(duì)多個(gè)訓(xùn)練語(yǔ)料標(biāo)注的正確文本,一個(gè)訓(xùn)練語(yǔ)料和從中標(biāo)注出的正確文本構(gòu)成一對(duì)訓(xùn)練文本。其中,本發(fā)明實(shí)施例對(duì)訓(xùn)練語(yǔ)料的形式不做限定。例如,該訓(xùn)練語(yǔ)料可以是單句形式,或者對(duì)話形式。而且,從一個(gè)訓(xùn)練語(yǔ)料中標(biāo)注出的正確文本可以是一個(gè)或多個(gè),一般與應(yīng)用該文本提取模型的聊天機(jī)器人(或智能聊天應(yīng)用)所提供的服務(wù)相關(guān),例如,訓(xùn)練語(yǔ)料為“怎么去杭州”,標(biāo)注出的正確文本可以為“杭州”;訓(xùn)練語(yǔ)料為“我要買到天津的機(jī)票”,標(biāo)注出的正確文本可以為“天津”和“機(jī)票”。
該步驟中,服務(wù)器可以從自身的數(shù)據(jù)庫(kù)或網(wǎng)絡(luò)獲取多個(gè)訓(xùn)練語(yǔ)料,并獲取人工從多個(gè)訓(xùn)練語(yǔ)料中標(biāo)注出的正確文本,從而獲取到第一訓(xùn)練文本集合,進(jìn)而,服務(wù)器對(duì)第一訓(xùn)練文本集合進(jìn)行訓(xùn)練,也即是,提取每對(duì)訓(xùn)練文本的特征(如,上下文特征),根據(jù)提取的特征確定初始提取模型的各個(gè)參數(shù)的取值,得到已知參數(shù)的第一文本提取模型。其中,該初始提取模型不限于CRF(Conditional Random Field algorithm,條件隨機(jī)場(chǎng))模型或HMM(Hidden Markov Model,隱馬爾可夫模型)。
事實(shí)上,人工也可能從某些訓(xùn)練語(yǔ)料中不能標(biāo)注出文本,這些訓(xùn)練語(yǔ)料如“怎么了”、“為什么”,該情況下,本發(fā)明實(shí)施例對(duì)處理這些訓(xùn)練語(yǔ)料的方式不做限定,例如,直接丟棄該訓(xùn)練語(yǔ)料,不對(duì)它進(jìn)行標(biāo)注;又例如,人工對(duì)不能標(biāo)注出文本的訓(xùn)練語(yǔ)料統(tǒng)一添加默認(rèn)標(biāo)簽,該默認(rèn)標(biāo)簽用于標(biāo)記不能標(biāo)注出文本的訓(xùn)練語(yǔ)料,默認(rèn)標(biāo)簽如“無(wú)”。進(jìn)一步地,為了方便后續(xù)人工標(biāo)注的過程,提高人工標(biāo)注的效率,服務(wù)器可以將被丟棄的訓(xùn)練語(yǔ)料或者被添加了默認(rèn)標(biāo)簽的訓(xùn)練語(yǔ)料存儲(chǔ)為待篩選參考語(yǔ)料;后續(xù)在獲取到初始訓(xùn)練語(yǔ)料之后,服務(wù)器可以篩選掉與待篩選參考語(yǔ)料相同的初始訓(xùn)練語(yǔ)料,得到篩選后的訓(xùn)練語(yǔ)料。
需要說明的是,在訓(xùn)練過程之前,還可以將初始提取模型的各個(gè)參數(shù)進(jìn)行初始化,而在訓(xùn)練過程中,還可使用隨機(jī)梯度下降和前向后向傳播方法等來優(yōu)化文本提取模型中的各個(gè)參數(shù),以盡可能地減少文本提取模型的誤差。
另外需要說明的是,本發(fā)明實(shí)施例為了減少人工標(biāo)注的成本,相較于現(xiàn)有技術(shù)中獲取文本提取模型所需的訓(xùn)練文本的數(shù)量,該第一訓(xùn)練文本集合中的訓(xùn)練文本的數(shù)量會(huì)更少,如,現(xiàn)有技術(shù)所需的訓(xùn)練文本的數(shù)量為X,本發(fā)明實(shí)施例所需的訓(xùn)練文本的數(shù)量可以為50%*X。
202、如果第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值,服務(wù)器獲取第二訓(xùn)練文本集合,第二訓(xùn)練文本集合包括多個(gè)第一訓(xùn)練語(yǔ)料和通過第一文本提取模型從多個(gè)第一訓(xùn)練語(yǔ)料中提取的多個(gè)第一目標(biāo)文本。
其中,由于通過第一文本提取模型所提取的文本可能是正確的,也可能是錯(cuò)誤的,而為了保證根據(jù)該第二訓(xùn)練文本集合得到的文本提取模型的提取準(zhǔn)確度更高,本發(fā)明實(shí)施例所中的第一目標(biāo)文本是指應(yīng)該從第一訓(xùn)練語(yǔ)料中提取出的正確文本。該步驟中,服務(wù)器確定第一文本提取模型的提取準(zhǔn)確度,并判斷該提取準(zhǔn)確度是否低于預(yù)設(shè)閾值,如果是,則獲取第二訓(xùn)練文本集合,否則,確定該第一文本提取模型可使用。本發(fā)明實(shí)施例對(duì)預(yù)設(shè)閾值不做限定。該預(yù)設(shè)閾值如80%。事實(shí)上,即使該第一文本提取模型的提取準(zhǔn)確度不低于預(yù)設(shè)閾值,為了進(jìn)一步提高第一文本提取模型的準(zhǔn)確度,服務(wù)器也可以繼續(xù)獲取第二訓(xùn)練文本集合,該情況下,服務(wù)器既可以獲取第一訓(xùn)練語(yǔ)料后,直接獲取第一文本提取模型所提取出的文本作為第一目標(biāo)文本,也可以參照以下獲取第二訓(xùn)練文本集合的具體過程,以人工確認(rèn)的方式進(jìn)行獲取。
在確定提取準(zhǔn)確度時(shí),本發(fā)明實(shí)施例對(duì)具體的確定方法不做限定。例如,服務(wù)器可以采用以下步驟(1)-(3)進(jìn)行確定:
(1)、服務(wù)器獲取測(cè)試文本集合,測(cè)試文本集合包括多個(gè)測(cè)試語(yǔ)料和人工從多個(gè)測(cè)試語(yǔ)料中標(biāo)注出的多個(gè)正確文本。
該測(cè)試文本集合的獲取過程與第一訓(xùn)練文本集合的獲取過程同理,但該測(cè)試文本集合用于測(cè)試第一文本提取模型的提取準(zhǔn)確度。
(2)、對(duì)于多個(gè)測(cè)試語(yǔ)料中的每個(gè)測(cè)試語(yǔ)料,服務(wù)器通過第一文本提取模型從測(cè)試語(yǔ)料中提取出第二文本。
該步驟(2)中,服務(wù)器將每個(gè)測(cè)試語(yǔ)料輸入第一文本提取模型,并將第一文本提取模型對(duì)應(yīng)該測(cè)試語(yǔ)料輸出的文本作為第二文本。
(3)、服務(wù)器將與任一正確文本相同的第二文本和多個(gè)正確文本的數(shù)量比例確定為第一文本提取模型的提取準(zhǔn)確度。
該步驟(3)中,服務(wù)器可以確定多個(gè)正確文本的數(shù)量A(也等價(jià)于多個(gè)測(cè)試語(yǔ)料的數(shù)量),并確定每個(gè)測(cè)試語(yǔ)料對(duì)應(yīng)提取的第二文本與該測(cè)試語(yǔ)料對(duì)應(yīng)標(biāo)注出的正確文本是否相同,如果相同,則進(jìn)行計(jì)數(shù),否則,忽略不計(jì);進(jìn)而,服務(wù)器可以確定與任一正確文本相同的第二文本的數(shù)量B,并將B與A的比例確定為第一文本提取模型的提取準(zhǔn)確度。
該步驟202中,服務(wù)器獲取第二訓(xùn)練文本集合的過程可以具體為:如果第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值,服務(wù)器獲取多個(gè)第一訓(xùn)練語(yǔ)料;對(duì)于多個(gè)第一訓(xùn)練語(yǔ)料中的每個(gè)第一訓(xùn)練語(yǔ)料,服務(wù)器通過第一文本提取模型從第一訓(xùn)練語(yǔ)料中提取出第一文本;如果第一文本正確,將第一訓(xùn)練語(yǔ)料和第一文本作為第二訓(xùn)練文本集合中的一對(duì)訓(xùn)練文本;如果第一文本錯(cuò)誤,將第一訓(xùn)練語(yǔ)料和人工修正的文本作為第二訓(xùn)練文本集合中的一對(duì)訓(xùn)練文本。
以上具體過程參見圖3所示的獲取訓(xùn)練文本的流程圖,該具體過程中,服務(wù)器可以將每個(gè)第一訓(xùn)練語(yǔ)料輸入第一文本提取模型,并獲取該訓(xùn)練語(yǔ)料對(duì)應(yīng)輸出的文本作為第一文本,進(jìn)而,可以獲取人工對(duì)該第一文本添加的判斷信息,該判斷信息用于指示第一文本是否正確,如果獲取的判斷信息指示第一文本正確,服務(wù)器可以直接將第一訓(xùn)練語(yǔ)料和第一文本作為第二訓(xùn)練文本集合中的一對(duì)訓(xùn)練文本;如果獲取的判斷信息指示第一文本錯(cuò)誤,服務(wù)器可以獲取判斷信息中攜帶的人工修正的文本,并將第一訓(xùn)練語(yǔ)料和人工修正的文本作為第二訓(xùn)練文本集合中的一對(duì)文本。
事實(shí)上,為了提高獲取文本提取模型的效率,在判斷第一文本是否正確時(shí),人工可以不必對(duì)每個(gè)第一文本進(jìn)行操作,而是直接對(duì)錯(cuò)誤的第一文本進(jìn)行修正,使得服務(wù)器獲取人工修正的文本和對(duì)應(yīng)的第一訓(xùn)練語(yǔ)料,并直接獲取剩余未操作的第一文本和對(duì)應(yīng)的第一訓(xùn)練語(yǔ)料即可。
需要說明的是,本發(fā)明實(shí)施例對(duì)獲取第一訓(xùn)練語(yǔ)料的方式不做限定。例如,服務(wù)器可以從網(wǎng)絡(luò)或自身的數(shù)據(jù)庫(kù)進(jìn)行獲取,如,為了更深入地了解用戶需求,該數(shù)據(jù)庫(kù)可以為用戶數(shù)據(jù)庫(kù),或者,為使訓(xùn)練語(yǔ)料更貼近文本提取模型的實(shí)際的應(yīng)用環(huán)境,從而提高文本提取模型在應(yīng)用時(shí)對(duì)用戶的語(yǔ)料命中率,該數(shù)據(jù)庫(kù)可以為聊天數(shù)據(jù)庫(kù)等。以從聊天數(shù)據(jù)庫(kù)中獲取第一訓(xùn)練語(yǔ)料為例,服務(wù)器可以采用以下至少兩種獲取方式:
獲取方式1、如果第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值,服務(wù)器從聊天數(shù)據(jù)庫(kù)中獲取預(yù)設(shè)時(shí)段內(nèi)的對(duì)話語(yǔ)料,將預(yù)設(shè)時(shí)段內(nèi)的對(duì)話預(yù)料作為多個(gè)第一訓(xùn)練語(yǔ)料。
為了有針對(duì)性地獲取第一訓(xùn)練語(yǔ)料,服務(wù)器可以獲取預(yù)設(shè)時(shí)段內(nèi)的對(duì)話語(yǔ)料。本發(fā)明實(shí)施例對(duì)預(yù)設(shè)時(shí)段不做具體限定。例如,為使第一訓(xùn)練語(yǔ)料更貼近當(dāng)前用戶的表達(dá)方式,使得獲取的文本提取模型在應(yīng)用時(shí)的提取準(zhǔn)確度更高,該預(yù)設(shè)時(shí)段可以為最近一個(gè)月。又例如,為使第一訓(xùn)練語(yǔ)料更吻合聊天機(jī)器人所提供的不同服務(wù),從而提高文本提取模型的提取準(zhǔn)確度,該預(yù)設(shè)時(shí)段可以與提供服務(wù)的時(shí)段匹配,且每個(gè)時(shí)段單獨(dú)獲取對(duì)話語(yǔ)料并對(duì)應(yīng)文本提取模型,該服務(wù)時(shí)段的劃分如:售票服務(wù)的時(shí)段為白天,票務(wù)咨詢服務(wù)的時(shí)段為夜間。
該獲取方式1中,服務(wù)器可以根據(jù)預(yù)設(shè)時(shí)段,在聊天數(shù)據(jù)庫(kù)中查詢與預(yù)設(shè)時(shí)段具有相同時(shí)間戳的對(duì)話語(yǔ)料,并將查詢到的多個(gè)對(duì)話語(yǔ)料作為多個(gè)第一訓(xùn)練語(yǔ)料。
獲取方式2、如果第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值,服務(wù)器從聊天數(shù)據(jù)庫(kù)中篩選出對(duì)話成功的對(duì)話語(yǔ)料,將對(duì)話成功的對(duì)話預(yù)料作為多個(gè)第一訓(xùn)練語(yǔ)料,對(duì)話成功的對(duì)話語(yǔ)料是指聊天機(jī)器人成功為用戶提供服務(wù)的對(duì)話語(yǔ)料。
為使第一訓(xùn)練語(yǔ)料具有更強(qiáng)的參考性,可以獲取對(duì)話成功的對(duì)話語(yǔ)料作為第一訓(xùn)練語(yǔ)料。其中,對(duì)話成功的對(duì)話語(yǔ)料的確定方式可以有多種。例如,服務(wù)器至少可以采用以下三種確定方式進(jìn)行確定:
判斷方式1、當(dāng)任一對(duì)話語(yǔ)料中存在對(duì)話成功的關(guān)鍵詞時(shí),服務(wù)器將該對(duì)話語(yǔ)料確定為對(duì)話成功的對(duì)話語(yǔ)料。
其中,本發(fā)明實(shí)施例對(duì)對(duì)話成功的關(guān)鍵詞不做限定。例如,考慮到對(duì)話成功時(shí),用戶通常會(huì)表達(dá)謝意,因此該對(duì)話成功的關(guān)鍵詞可以為:好的、謝謝。又例如,在對(duì)話成功時(shí)聊天機(jī)器人的答復(fù)也可能包括一些對(duì)話成功的關(guān)鍵詞,如:沒問題,不用謝。
判斷方式2,當(dāng)任一對(duì)話語(yǔ)料中存在對(duì)話失敗的關(guān)鍵詞時(shí),服務(wù)器篩選掉該對(duì)話語(yǔ)料,并確定剩余的對(duì)話語(yǔ)料為對(duì)話成功的對(duì)話語(yǔ)料。
其中,本發(fā)明實(shí)施例對(duì)對(duì)話失敗的關(guān)鍵詞不做限定。例如,考慮到對(duì)話失敗時(shí)用戶可能會(huì)提醒聊天機(jī)器人理解錯(cuò)誤,則該對(duì)話失敗的關(guān)鍵詞可以為:你錯(cuò)了,不是這個(gè)意思。又例如,對(duì)話失敗時(shí)聊天機(jī)器人的答復(fù)也可能包括一些對(duì)話成功的關(guān)鍵詞,如:別介意,沒有理解您的意思,請(qǐng)?jiān)僬f一遍。
判斷方式3,當(dāng)任一對(duì)話預(yù)料存在對(duì)應(yīng)的服務(wù)記錄時(shí),服務(wù)器將該對(duì)話語(yǔ)料確定為對(duì)話成功的對(duì)話語(yǔ)料。
考慮到當(dāng)某一對(duì)話語(yǔ)料存在對(duì)應(yīng)的服務(wù)記錄時(shí),說明通過本次對(duì)話成功地為用戶提供了一次服務(wù),因此,可以將對(duì)應(yīng)存在服務(wù)記錄的對(duì)話語(yǔ)料作為對(duì)話成功的對(duì)話語(yǔ)料。
203、服務(wù)器根據(jù)第一訓(xùn)練文本集合和第二訓(xùn)練文本集合,獲取第二文本提取模型。
基于第一訓(xùn)練文本集合和第二訓(xùn)練文本集合,服務(wù)器可以將這兩個(gè)訓(xùn)練文本集合重新進(jìn)行訓(xùn)練,得到第二文本提取模型。
事實(shí)上,如果當(dāng)前的文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值,服務(wù)器還可以繼續(xù)獲取訓(xùn)練文本集合,并基于已獲取的各個(gè)訓(xùn)練文本集合進(jìn)行訓(xùn)練,直到訓(xùn)練得到的文本提取模型的提取準(zhǔn)確度不低于預(yù)設(shè)閾值,該訓(xùn)練文本集合包括多個(gè)第二訓(xùn)練語(yǔ)料和通過當(dāng)前的文本提取模型從多個(gè)第二訓(xùn)練語(yǔ)料中提取的多個(gè)第二目標(biāo)文本。
例如,圖4是本發(fā)明實(shí)施例提供的一種迭代模型的流程圖,參見圖4,服務(wù)器可以根據(jù)步驟202中確定提取準(zhǔn)確度的方法來確定第二文本提取模型的提取準(zhǔn)確度,如果確定的提取準(zhǔn)確度不低于預(yù)設(shè)閾值,則確定該第二文本提取模型可使用,如果確定的提取準(zhǔn)確度低于預(yù)設(shè)閾值,則繼續(xù)獲取訓(xùn)練文本集合,該訓(xùn)練文本集合的具體獲取過程與第二訓(xùn)練文本集合的具體獲取過程同理,并基于已獲取的第一訓(xùn)練文本集合、第二訓(xùn)練文本集合和該訓(xùn)練文本集合進(jìn)行訓(xùn)練,從而得到一個(gè)準(zhǔn)確度更高的文本提取模型,并再次確認(rèn)該文本提取模型的提取準(zhǔn)確度,如果該文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值,則繼續(xù)獲取訓(xùn)練文本集合,直到通過迭代的方式得到的文本提取模型的提取準(zhǔn)確度不低于預(yù)設(shè)閾值為止。
需要說明的是,在服務(wù)器獲取到最終的文本提取模型之后,既可以暫存該文本提取模型、等待應(yīng)用該文本提取模型的指令,也可以直接應(yīng)用將該文本提取模型,如,將該文本提取模型應(yīng)用于聊天機(jī)器人,或者,將該文本提取模型更新至用戶所在終端上的智能聊天應(yīng)用。
本發(fā)明實(shí)施例通過獲取第一文本提取模型,在第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值時(shí),獲取第二訓(xùn)練文本集合,該第二訓(xùn)練文本集合包括多個(gè)第一訓(xùn)練語(yǔ)料和通過第一文本提取模型從多個(gè)第一訓(xùn)練語(yǔ)料中提取的多個(gè)第一目標(biāo)文本,從而通過已獲取的第一文本提取模型得到第二訓(xùn)練文本集合,而無(wú)需人工標(biāo)注,進(jìn)一步地,根據(jù)第一訓(xùn)練文本集合和第二訓(xùn)練文本集合,獲取第二文本提取模型,使得獲取文本提取模型的過程趨于自動(dòng)化,由于通過模型獲取訓(xùn)練文本集合的效率遠(yuǎn)高于人工標(biāo)注的效率,因此采用本發(fā)明的獲取方法可以大大減少人力成本和時(shí)間成本。
另外,提供了獲取第二訓(xùn)練文本集合的具體方法,通過獲取第一訓(xùn)練語(yǔ)料,并通過第一文本提取模型從第一訓(xùn)練語(yǔ)料中提取出第一文本,如果第一文本正確,則直接將第一訓(xùn)練語(yǔ)料和第一文本作為第二訓(xùn)練文本集合中的一對(duì)訓(xùn)練文本,如果第一文本錯(cuò)誤,則將人工修正的文本和第一訓(xùn)練語(yǔ)料獲取為第二訓(xùn)練文本集合中的一對(duì)訓(xùn)練文本,由于第二訓(xùn)練文本集合通過第一文本提取模型得到、且人工進(jìn)行確認(rèn),因此在保證了第二訓(xùn)練文本集合的獲取效率的同時(shí),也保證了第二訓(xùn)練文本集合的準(zhǔn)確性。
另外,提供了至少兩種獲取第一訓(xùn)練語(yǔ)料的具體方法,如,為了保證對(duì)話語(yǔ)料的有效性,可以從聊天數(shù)據(jù)庫(kù)中獲取預(yù)設(shè)時(shí)段內(nèi)的對(duì)話語(yǔ)料,或者,為使第一訓(xùn)練語(yǔ)料具有更強(qiáng)的參考性,可以獲取聊天數(shù)據(jù)庫(kù)中對(duì)話成功的對(duì)話語(yǔ)料。
另外,提供了確定提取準(zhǔn)確度的具體方法,通過獲取測(cè)試文本集合,通過第一文本提取模型從測(cè)試語(yǔ)料中提取出第二文本,并確定與任一正確文本相同的第二文本的數(shù)量,和多個(gè)正確文本的數(shù)量,將前者與后者的比例確定為第一文本提取模型的提取準(zhǔn)確度,從而提供了測(cè)試第一文本提取模型是否達(dá)標(biāo)的具體方法。
另外,在獲取第二文本提取模型之后,還可以確定當(dāng)前的文本提取模型的提取準(zhǔn)確度,如果當(dāng)前的文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值,則繼續(xù)獲取訓(xùn)練文本集合,并基于以獲取的各個(gè)訓(xùn)練文本集合進(jìn)行訓(xùn)練,直到訓(xùn)練得到的文本提取模型的提取度不低于預(yù)設(shè)閾值,從而通過迭代的方式不斷優(yōu)化已獲取的文本提取模型,以最終得到一個(gè)提取準(zhǔn)確度較高的文本提取模型。
圖5是本發(fā)明實(shí)施例提供的一種獲取文本提取模型的裝置框圖。參見圖5,該裝置具體包括:
模型獲取模塊501,用于獲取第一文本提取模型,第一文本提取模型根據(jù)人工標(biāo)注的第一訓(xùn)練文本集合得到;
訓(xùn)練文本集合獲取模塊502,用于如果第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值,獲取第二訓(xùn)練文本集合,第二訓(xùn)練文本集合包括多個(gè)第一訓(xùn)練語(yǔ)料和通過第一文本提取模型從多個(gè)第一訓(xùn)練語(yǔ)料中提取的多個(gè)第一目標(biāo)文本;
模型獲取模塊501,還用于根據(jù)第一訓(xùn)練文本集合和第二訓(xùn)練文本集合,獲取第二文本提取模型。
本發(fā)明實(shí)施例通過獲取第一文本提取模型,在第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值時(shí),獲取第二訓(xùn)練文本集合,該第二訓(xùn)練文本集合包括多個(gè)第一訓(xùn)練語(yǔ)料和通過第一文本提取模型從多個(gè)第一訓(xùn)練語(yǔ)料中提取的多個(gè)第一目標(biāo)文本,從而通過已獲取的第一文本提取模型得到第二訓(xùn)練文本集合,而無(wú)需人工標(biāo)注,進(jìn)一步地,根據(jù)第一訓(xùn)練文本集合和第二訓(xùn)練文本集合,獲取第二文本提取模型,使得獲取文本提取模型的過程趨于自動(dòng)化,由于通過模型獲取訓(xùn)練文本集合的效率遠(yuǎn)高于人工標(biāo)注的效率,因此采用本發(fā)明的獲取方法可以大大減少人力成本和時(shí)間成本。
在一種可能實(shí)現(xiàn)方式中,該訓(xùn)練文本集合獲取模塊502用于:
如果第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值,獲取多個(gè)第一訓(xùn)練語(yǔ)料;對(duì)于多個(gè)第一訓(xùn)練語(yǔ)料中的每個(gè)第一訓(xùn)練語(yǔ)料,通過第一文本提取模型從第一訓(xùn)練語(yǔ)料中提取出第一文本;如果第一文本正確,將第一訓(xùn)練語(yǔ)料和第一文本作為第二訓(xùn)練文本集合中的一對(duì)訓(xùn)練文本;如果第一文本錯(cuò)誤,將第一訓(xùn)練語(yǔ)料和人工修正的文本作為第二訓(xùn)練文本集合中的一對(duì)訓(xùn)練文本。
在一種可能實(shí)現(xiàn)方式中,該訓(xùn)練文本集合獲取模塊502用于:
如果第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值,從聊天數(shù)據(jù)庫(kù)中獲取預(yù)設(shè)時(shí)段內(nèi)的對(duì)話語(yǔ)料,將預(yù)設(shè)時(shí)段內(nèi)的對(duì)話預(yù)料作為多個(gè)第一訓(xùn)練語(yǔ)料,聊天數(shù)據(jù)庫(kù)用于存儲(chǔ)用戶與聊天機(jī)器人之間的對(duì)話語(yǔ)料。
在一種可能實(shí)現(xiàn)方式中,該訓(xùn)練文本集合獲取模塊502用于:
如果第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值,從聊天數(shù)據(jù)庫(kù)中篩選出對(duì)話成功的對(duì)話語(yǔ)料,將對(duì)話成功的對(duì)話預(yù)料作為多個(gè)第一訓(xùn)練語(yǔ)料,聊天數(shù)據(jù)庫(kù)用于存儲(chǔ)用戶與聊天機(jī)器人之間的對(duì)話語(yǔ)料,對(duì)話成功的對(duì)話語(yǔ)料是指聊天機(jī)器人成功為用戶提供服務(wù)的對(duì)話語(yǔ)料。
在一種可能實(shí)現(xiàn)方式中,基于圖5的裝置組成,參見圖6,該裝置還包括:
測(cè)試文本集合獲取模塊503,用于獲取測(cè)試文本集合,測(cè)試文本集合包括多個(gè)測(cè)試語(yǔ)料和人工從多個(gè)測(cè)試語(yǔ)料中標(biāo)注出的多個(gè)正確文本;
提取模塊504,用于對(duì)于多個(gè)測(cè)試語(yǔ)料中的每個(gè)測(cè)試語(yǔ)料,通過第一文本提取模型從測(cè)試語(yǔ)料中提取出第二文本;
確定模塊505,用于將與任一正確文本相同的第二文本和多個(gè)正確文本的數(shù)量比例確定為第一文本提取模型的提取準(zhǔn)確度。
在一種可能實(shí)現(xiàn)方式中,該訓(xùn)練文本集合獲取模塊502,還用于如果當(dāng)前的文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值,繼續(xù)獲取訓(xùn)練文本集合;
該模型獲取模塊501,還用于基于已獲取的各個(gè)訓(xùn)練文本集合進(jìn)行訓(xùn)練,直到訓(xùn)練得到的文本提取模型的提取準(zhǔn)確度不低于預(yù)設(shè)閾值,訓(xùn)練文本集合包括多個(gè)第二訓(xùn)練語(yǔ)料和通過當(dāng)前的文本提取模型從多個(gè)第二訓(xùn)練語(yǔ)料中提取的多個(gè)第二目標(biāo)文本。
上述所有可選技術(shù)方案,可以采用任意結(jié)合形成本發(fā)明的可選實(shí)施例,在此不再一一贅述。
需要說明的是:上述實(shí)施例提供的獲取文本提取模型的裝置在獲取文本提取模型時(shí),僅以上述各功能模塊的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實(shí)施例提供的獲取文本提取模型的裝置與獲取文本提取模型的方法實(shí)施例屬于同一構(gòu)思,其具體實(shí)現(xiàn)過程詳見方法實(shí)施例,這里不再贅述。
圖7是本發(fā)明實(shí)施例提供的一種獲取文本提取模型的裝置700的框圖。例如,裝置700可以被提供為一服務(wù)器。參照?qǐng)D7,裝置700包括處理組件722,其進(jìn)一步包括一個(gè)或多個(gè)處理器,以及由存儲(chǔ)器732所代表的存儲(chǔ)器資源,用于存儲(chǔ)可由處理部件722的執(zhí)行的指令,例如應(yīng)用程序。存儲(chǔ)器732中存儲(chǔ)的應(yīng)用程序可以包括一個(gè)或一個(gè)以上的每一個(gè)對(duì)應(yīng)于一組指令的模塊。此外,處理組件722被配置為執(zhí)行指令,以執(zhí)行上述圖2所示實(shí)施例中獲取文本提取模型的方法。
裝置700還可以包括一個(gè)電源組件726被配置為執(zhí)行裝置700的電源管理,一個(gè)有線或無(wú)線網(wǎng)絡(luò)接口750被配置為將裝置700連接到網(wǎng)絡(luò),和一個(gè)輸入輸出(I/O)接口758。裝置700可以操作基于存儲(chǔ)在存儲(chǔ)器732的操作系統(tǒng),例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,F(xiàn)reeBSDTM或類似。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤或光盤等。
以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。