獲取文本提取模型的方法及裝置與流程

文檔序號(hào)：12786500閱讀：351來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域，特別涉及一種獲取文本提取模型的方法及裝置。

背景技術(shù)：

機(jī)器學(xué)習(xí)技術(shù)是指計(jì)算機(jī)通過歸納文本或圖片等數(shù)據(jù)改善性能的技術(shù)，廣泛地應(yīng)用于數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語(yǔ)言處理和機(jī)器人等方面。例如，為使聊天機(jī)器人能夠理解自然語(yǔ)言的意義，從而與用戶之間進(jìn)行交互，通常利用機(jī)器學(xué)習(xí)技術(shù)獲取文本提取模型，并將文本提取模型應(yīng)用于聊天機(jī)器人，使得聊天機(jī)器人從與用戶的語(yǔ)料中提取出表達(dá)用戶需求的文本，并對(duì)應(yīng)該文本進(jìn)行應(yīng)答。

一般地，在獲取文本提取模型時(shí)，需要獲取大量語(yǔ)料，并人工地從每個(gè)語(yǔ)料中標(biāo)注出表達(dá)用戶需求的文本，將大量語(yǔ)料和對(duì)應(yīng)標(biāo)注出的文本作為訓(xùn)練文本集合，進(jìn)而對(duì)訓(xùn)練文本集合進(jìn)行訓(xùn)練，從而基于標(biāo)注出的文本在語(yǔ)料中的上下文等特征得到文本提取模型。其中，人工標(biāo)注出的文本一般與聊天機(jī)器人所提供的服務(wù)的相關(guān)，例如，聊天機(jī)器人可提供票務(wù)服務(wù)，某個(gè)語(yǔ)料為“我要購(gòu)買火車票”，則人工標(biāo)注的文本為“火車票”。

在實(shí)現(xiàn)本發(fā)明的過程中，發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題：

訓(xùn)練文本集合完全由人工標(biāo)注的方式得到，由于獲取文本提取模型所需的語(yǔ)料數(shù)據(jù)量龐大、人工標(biāo)注的效率低，導(dǎo)致文本提取模型的訓(xùn)練過程會(huì)消耗大量人力成本和時(shí)間成本。

技術(shù)實(shí)現(xiàn)要素：

為了解決現(xiàn)有技術(shù)的問題，本發(fā)明實(shí)施例提供了一種獲取文本提取模型的方法及裝置。所述技術(shù)方案如下：

一方面，提供了一種獲取文本提取模型的方法，所述方法包括：

獲取第一文本提取模型，所述第一文本提取模型根據(jù)人工標(biāo)注的第一訓(xùn)練文本集合得到；

如果所述第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值，獲取第二訓(xùn)練文本集合，所述第二訓(xùn)練文本集合包括多個(gè)第一訓(xùn)練語(yǔ)料和通過所述第一文本提取模型從所述多個(gè)第一訓(xùn)練語(yǔ)料中提取的多個(gè)第一目標(biāo)文本；

根據(jù)所述第一訓(xùn)練文本集合和所述第二訓(xùn)練文本集合，獲取第二文本提取模型。

另一方面，提供了一種獲取文本提取模型的裝置，所述裝置包括：

模型獲取模塊，用于獲取第一文本提取模型，所述第一文本提取模型根據(jù)人工標(biāo)注的第一訓(xùn)練文本集合得到；

訓(xùn)練文本集合獲取模塊，用于如果所述第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值，獲取第二訓(xùn)練文本集合，所述第二訓(xùn)練文本集合包括多個(gè)第一訓(xùn)練語(yǔ)料和通過所述第一文本提取模型從所述多個(gè)第一訓(xùn)練語(yǔ)料中提取的多個(gè)第一目標(biāo)文本；

所述模型獲取模塊，用于根據(jù)所述第一訓(xùn)練文本集合和所述第二訓(xùn)練文本集合，獲取第二文本提取模型。

本發(fā)明實(shí)施例通過獲取第一文本提取模型，在第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值時(shí)，獲取第二訓(xùn)練文本集合，該第二訓(xùn)練文本集合包括多個(gè)第一訓(xùn)練語(yǔ)料和通過第一文本提取模型從多個(gè)第一訓(xùn)練語(yǔ)料中提取的多個(gè)第一目標(biāo)文本，從而通過已獲取的第一文本提取模型得到第二訓(xùn)練文本集合，而無(wú)需人工標(biāo)注，進(jìn)一步地，根據(jù)第一訓(xùn)練文本集合和第二訓(xùn)練文本集合，獲取第二文本提取模型，使得獲取文本提取模型的過程趨于自動(dòng)化，由于通過模型獲取訓(xùn)練文本集合的效率遠(yuǎn)高于人工標(biāo)注的效率，因此采用本發(fā)明的獲取方法可以大大減少人力成本和時(shí)間成本。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案，下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1是本發(fā)明實(shí)施例提供的一種獲取文本提取模型的實(shí)施環(huán)境示意圖；

圖2是本發(fā)明實(shí)施例提供的一種獲取文本提取模型的方法流程圖；

圖3是本發(fā)明實(shí)施例提供的一種獲取訓(xùn)練文本的流程圖；

圖4是本發(fā)明實(shí)施例提供的一種獲取迭代模型的流程圖；

圖5是本發(fā)明實(shí)施例提供的一種獲取文本提取模型的裝置框圖；

圖6是本發(fā)明實(shí)施例提供的一種獲取文本提取模型的裝置框圖；

圖7是本發(fā)明實(shí)施例提供的一種獲取文本提取模型的裝置700的框圖。

具體實(shí)施方式

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。

圖1是本發(fā)明實(shí)施例提供的一種獲取文本提取模型的實(shí)施環(huán)境示意圖。參見圖1，該實(shí)施環(huán)境中包括：

至少一個(gè)服務(wù)器101，至少一個(gè)聊天機(jī)器人102，至少一個(gè)終端103(如，移動(dòng)終端和臺(tái)式電腦)。其中，服務(wù)器101用于獲取第一文本提取模型，如果第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值，則獲取第二訓(xùn)練文本集合，根據(jù)已獲取的訓(xùn)練文本集合獲取第二文本提取模型，將獲取的文本提取模型應(yīng)用于聊天機(jī)器人102或終端103。該聊天機(jī)器人102用于根據(jù)服務(wù)器101的控制獲取或更新文本提取模型，并基于服務(wù)器101的控制為用戶提供各種服務(wù)，如，聊天服務(wù)。終端103上安裝有服務(wù)器101所提供的智能聊天應(yīng)用，并根據(jù)服務(wù)器101的控制獲取或更新文本提取模型。

另外，該服務(wù)器101還可以配置至少一個(gè)數(shù)據(jù)庫(kù)，如，聊天數(shù)據(jù)庫(kù)、用戶數(shù)據(jù)庫(kù)的用戶認(rèn)證數(shù)據(jù)庫(kù)等等。該聊天數(shù)據(jù)庫(kù)用于存儲(chǔ)用戶與聊天機(jī)器人(或者智能聊天應(yīng)用)之間的對(duì)話語(yǔ)料，該對(duì)話語(yǔ)料可以標(biāo)識(shí)有本次對(duì)話的時(shí)間戳，或者本次對(duì)話的服務(wù)記錄等數(shù)據(jù)；用戶數(shù)據(jù)庫(kù)用于存儲(chǔ)用戶行為數(shù)據(jù)，如用戶發(fā)表的日志和評(píng)論，用戶的點(diǎn)贊行為和評(píng)分行為等；該用戶認(rèn)證數(shù)據(jù)庫(kù)用于存儲(chǔ)用戶的用戶名和用戶密碼。

圖2是本發(fā)明實(shí)施例提供的一種獲取文本提取模型的方法流程圖。參見圖2，該方法可以應(yīng)用于任一設(shè)備，且該設(shè)備至少具有處理器和存儲(chǔ)器，可以通過處理器處理存儲(chǔ)器中的訓(xùn)練樣本集合，得到文本提取模型。該方法具體包括：

201、服務(wù)器獲取第一文本提取模型，第一文本提取模型根據(jù)人工標(biāo)注的第一訓(xùn)練文本集合得到。

第一訓(xùn)練文本集合用于生成文本提取模型，該第一訓(xùn)練文本集合包括多個(gè)訓(xùn)練語(yǔ)料和人工對(duì)多個(gè)訓(xùn)練語(yǔ)料標(biāo)注的正確文本，一個(gè)訓(xùn)練語(yǔ)料和從中標(biāo)注出的正確文本構(gòu)成一對(duì)訓(xùn)練文本。其中，本發(fā)明實(shí)施例對(duì)訓(xùn)練語(yǔ)料的形式不做限定。例如，該訓(xùn)練語(yǔ)料可以是單句形式，或者對(duì)話形式。而且，從一個(gè)訓(xùn)練語(yǔ)料中標(biāo)注出的正確文本可以是一個(gè)或多個(gè)，一般與應(yīng)用該文本提取模型的聊天機(jī)器人(或智能聊天應(yīng)用)所提供的服務(wù)相關(guān)，例如，訓(xùn)練語(yǔ)料為“怎么去杭州”，標(biāo)注出的正確文本可以為“杭州”；訓(xùn)練語(yǔ)料為“我要買到天津的機(jī)票”，標(biāo)注出的正確文本可以為“天津”和“機(jī)票”。

該步驟中，服務(wù)器可以從自身的數(shù)據(jù)庫(kù)或網(wǎng)絡(luò)獲取多個(gè)訓(xùn)練語(yǔ)料，并獲取人工從多個(gè)訓(xùn)練語(yǔ)料中標(biāo)注出的正確文本，從而獲取到第一訓(xùn)練文本集合，進(jìn)而，服務(wù)器對(duì)第一訓(xùn)練文本集合進(jìn)行訓(xùn)練，也即是，提取每對(duì)訓(xùn)練文本的特征(如，上下文特征)，根據(jù)提取的特征確定初始提取模型的各個(gè)參數(shù)的取值，得到已知參數(shù)的第一文本提取模型。其中，該初始提取模型不限于CRF(Conditional Random Field algorithm，條件隨機(jī)場(chǎng))模型或HMM(Hidden Markov Model，隱馬爾可夫模型)。

事實(shí)上，人工也可能從某些訓(xùn)練語(yǔ)料中不能標(biāo)注出文本，這些訓(xùn)練語(yǔ)料如“怎么了”、“為什么”，該情況下，本發(fā)明實(shí)施例對(duì)處理這些訓(xùn)練語(yǔ)料的方式不做限定，例如，直接丟棄該訓(xùn)練語(yǔ)料，不對(duì)它進(jìn)行標(biāo)注；又例如，人工對(duì)不能標(biāo)注出文本的訓(xùn)練語(yǔ)料統(tǒng)一添加默認(rèn)標(biāo)簽，該默認(rèn)標(biāo)簽用于標(biāo)記不能標(biāo)注出文本的訓(xùn)練語(yǔ)料，默認(rèn)標(biāo)簽如“無(wú)”。進(jìn)一步地，為了方便后續(xù)人工標(biāo)注的過程，提高人工標(biāo)注的效率，服務(wù)器可以將被丟棄的訓(xùn)練語(yǔ)料或者被添加了默認(rèn)標(biāo)簽的訓(xùn)練語(yǔ)料存儲(chǔ)為待篩選參考語(yǔ)料；后續(xù)在獲取到初始訓(xùn)練語(yǔ)料之后，服務(wù)器可以篩選掉與待篩選參考語(yǔ)料相同的初始訓(xùn)練語(yǔ)料，得到篩選后的訓(xùn)練語(yǔ)料。

需要說明的是，在訓(xùn)練過程之前，還可以將初始提取模型的各個(gè)參數(shù)進(jìn)行初始化，而在訓(xùn)練過程中，還可使用隨機(jī)梯度下降和前向后向傳播方法等來優(yōu)化文本提取模型中的各個(gè)參數(shù)，以盡可能地減少文本提取模型的誤差。

另外需要說明的是，本發(fā)明實(shí)施例為了減少人工標(biāo)注的成本，相較于現(xiàn)有技術(shù)中獲取文本提取模型所需的訓(xùn)練文本的數(shù)量，該第一訓(xùn)練文本集合中的訓(xùn)練文本的數(shù)量會(huì)更少，如，現(xiàn)有技術(shù)所需的訓(xùn)練文本的數(shù)量為X，本發(fā)明實(shí)施例所需的訓(xùn)練文本的數(shù)量可以為50％*X。

202、如果第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值，服務(wù)器獲取第二訓(xùn)練文本集合，第二訓(xùn)練文本集合包括多個(gè)第一訓(xùn)練語(yǔ)料和通過第一文本提取模型從多個(gè)第一訓(xùn)練語(yǔ)料中提取的多個(gè)第一目標(biāo)文本。

其中，由于通過第一文本提取模型所提取的文本可能是正確的，也可能是錯(cuò)誤的，而為了保證根據(jù)該第二訓(xùn)練文本集合得到的文本提取模型的提取準(zhǔn)確度更高，本發(fā)明實(shí)施例所中的第一目標(biāo)文本是指應(yīng)該從第一訓(xùn)練語(yǔ)料中提取出的正確文本。該步驟中，服務(wù)器確定第一文本提取模型的提取準(zhǔn)確度，并判斷該提取準(zhǔn)確度是否低于預(yù)設(shè)閾值，如果是，則獲取第二訓(xùn)練文本集合，否則，確定該第一文本提取模型可使用。本發(fā)明實(shí)施例對(duì)預(yù)設(shè)閾值不做限定。該預(yù)設(shè)閾值如80％。事實(shí)上，即使該第一文本提取模型的提取準(zhǔn)確度不低于預(yù)設(shè)閾值，為了進(jìn)一步提高第一文本提取模型的準(zhǔn)確度，服務(wù)器也可以繼續(xù)獲取第二訓(xùn)練文本集合，該情況下，服務(wù)器既可以獲取第一訓(xùn)練語(yǔ)料后，直接獲取第一文本提取模型所提取出的文本作為第一目標(biāo)文本，也可以參照以下獲取第二訓(xùn)練文本集合的具體過程，以人工確認(rèn)的方式進(jìn)行獲取。

在確定提取準(zhǔn)確度時(shí)，本發(fā)明實(shí)施例對(duì)具體的確定方法不做限定。例如，服務(wù)器可以采用以下步驟(1)-(3)進(jìn)行確定：

(1)、服務(wù)器獲取測(cè)試文本集合，測(cè)試文本集合包括多個(gè)測(cè)試語(yǔ)料和人工從多個(gè)測(cè)試語(yǔ)料中標(biāo)注出的多個(gè)正確文本。

該測(cè)試文本集合的獲取過程與第一訓(xùn)練文本集合的獲取過程同理，但該測(cè)試文本集合用于測(cè)試第一文本提取模型的提取準(zhǔn)確度。

(2)、對(duì)于多個(gè)測(cè)試語(yǔ)料中的每個(gè)測(cè)試語(yǔ)料，服務(wù)器通過第一文本提取模型從測(cè)試語(yǔ)料中提取出第二文本。

該步驟(2)中，服務(wù)器將每個(gè)測(cè)試語(yǔ)料輸入第一文本提取模型，并將第一文本提取模型對(duì)應(yīng)該測(cè)試語(yǔ)料輸出的文本作為第二文本。

(3)、服務(wù)器將與任一正確文本相同的第二文本和多個(gè)正確文本的數(shù)量比例確定為第一文本提取模型的提取準(zhǔn)確度。

該步驟(3)中，服務(wù)器可以確定多個(gè)正確文本的數(shù)量A(也等價(jià)于多個(gè)測(cè)試語(yǔ)料的數(shù)量)，并確定每個(gè)測(cè)試語(yǔ)料對(duì)應(yīng)提取的第二文本與該測(cè)試語(yǔ)料對(duì)應(yīng)標(biāo)注出的正確文本是否相同，如果相同，則進(jìn)行計(jì)數(shù)，否則，忽略不計(jì)；進(jìn)而，服務(wù)器可以確定與任一正確文本相同的第二文本的數(shù)量B，并將B與A的比例確定為第一文本提取模型的提取準(zhǔn)確度。

該步驟202中，服務(wù)器獲取第二訓(xùn)練文本集合的過程可以具體為：如果第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值，服務(wù)器獲取多個(gè)第一訓(xùn)練語(yǔ)料；對(duì)于多個(gè)第一訓(xùn)練語(yǔ)料中的每個(gè)第一訓(xùn)練語(yǔ)料，服務(wù)器通過第一文本提取模型從第一訓(xùn)練語(yǔ)料中提取出第一文本；如果第一文本正確，將第一訓(xùn)練語(yǔ)料和第一文本作為第二訓(xùn)練文本集合中的一對(duì)訓(xùn)練文本；如果第一文本錯(cuò)誤，將第一訓(xùn)練語(yǔ)料和人工修正的文本作為第二訓(xùn)練文本集合中的一對(duì)訓(xùn)練文本。

以上具體過程參見圖3所示的獲取訓(xùn)練文本的流程圖，該具體過程中，服務(wù)器可以將每個(gè)第一訓(xùn)練語(yǔ)料輸入第一文本提取模型，并獲取該訓(xùn)練語(yǔ)料對(duì)應(yīng)輸出的文本作為第一文本，進(jìn)而，可以獲取人工對(duì)該第一文本添加的判斷信息，該判斷信息用于指示第一文本是否正確，如果獲取的判斷信息指示第一文本正確，服務(wù)器可以直接將第一訓(xùn)練語(yǔ)料和第一文本作為第二訓(xùn)練文本集合中的一對(duì)訓(xùn)練文本；如果獲取的判斷信息指示第一文本錯(cuò)誤，服務(wù)器可以獲取判斷信息中攜帶的人工修正的文本，并將第一訓(xùn)練語(yǔ)料和人工修正的文本作為第二訓(xùn)練文本集合中的一對(duì)文本。

事實(shí)上，為了提高獲取文本提取模型的效率，在判斷第一文本是否正確時(shí)，人工可以不必對(duì)每個(gè)第一文本進(jìn)行操作，而是直接對(duì)錯(cuò)誤的第一文本進(jìn)行修正，使得服務(wù)器獲取人工修正的文本和對(duì)應(yīng)的第一訓(xùn)練語(yǔ)料，并直接獲取剩余未操作的第一文本和對(duì)應(yīng)的第一訓(xùn)練語(yǔ)料即可。

需要說明的是，本發(fā)明實(shí)施例對(duì)獲取第一訓(xùn)練語(yǔ)料的方式不做限定。例如，服務(wù)器可以從網(wǎng)絡(luò)或自身的數(shù)據(jù)庫(kù)進(jìn)行獲取，如，為了更深入地了解用戶需求，該數(shù)據(jù)庫(kù)可以為用戶數(shù)據(jù)庫(kù)，或者，為使訓(xùn)練語(yǔ)料更貼近文本提取模型的實(shí)際的應(yīng)用環(huán)境，從而提高文本提取模型在應(yīng)用時(shí)對(duì)用戶的語(yǔ)料命中率，該數(shù)據(jù)庫(kù)可以為聊天數(shù)據(jù)庫(kù)等。以從聊天數(shù)據(jù)庫(kù)中獲取第一訓(xùn)練語(yǔ)料為例，服務(wù)器可以采用以下至少兩種獲取方式：

獲取方式1、如果第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值，服務(wù)器從聊天數(shù)據(jù)庫(kù)中獲取預(yù)設(shè)時(shí)段內(nèi)的對(duì)話語(yǔ)料，將預(yù)設(shè)時(shí)段內(nèi)的對(duì)話預(yù)料作為多個(gè)第一訓(xùn)練語(yǔ)料。

為了有針對(duì)性地獲取第一訓(xùn)練語(yǔ)料，服務(wù)器可以獲取預(yù)設(shè)時(shí)段內(nèi)的對(duì)話語(yǔ)料。本發(fā)明實(shí)施例對(duì)預(yù)設(shè)時(shí)段不做具體限定。例如，為使第一訓(xùn)練語(yǔ)料更貼近當(dāng)前用戶的表達(dá)方式，使得獲取的文本提取模型在應(yīng)用時(shí)的提取準(zhǔn)確度更高，該預(yù)設(shè)時(shí)段可以為最近一個(gè)月。又例如，為使第一訓(xùn)練語(yǔ)料更吻合聊天機(jī)器人所提供的不同服務(wù)，從而提高文本提取模型的提取準(zhǔn)確度，該預(yù)設(shè)時(shí)段可以與提供服務(wù)的時(shí)段匹配，且每個(gè)時(shí)段單獨(dú)獲取對(duì)話語(yǔ)料并對(duì)應(yīng)文本提取模型，該服務(wù)時(shí)段的劃分如：售票服務(wù)的時(shí)段為白天，票務(wù)咨詢服務(wù)的時(shí)段為夜間。

該獲取方式1中，服務(wù)器可以根據(jù)預(yù)設(shè)時(shí)段，在聊天數(shù)據(jù)庫(kù)中查詢與預(yù)設(shè)時(shí)段具有相同時(shí)間戳的對(duì)話語(yǔ)料，并將查詢到的多個(gè)對(duì)話語(yǔ)料作為多個(gè)第一訓(xùn)練語(yǔ)料。

獲取方式2、如果第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值，服務(wù)器從聊天數(shù)據(jù)庫(kù)中篩選出對(duì)話成功的對(duì)話語(yǔ)料，將對(duì)話成功的對(duì)話預(yù)料作為多個(gè)第一訓(xùn)練語(yǔ)料，對(duì)話成功的對(duì)話語(yǔ)料是指聊天機(jī)器人成功為用戶提供服務(wù)的對(duì)話語(yǔ)料。

為使第一訓(xùn)練語(yǔ)料具有更強(qiáng)的參考性，可以獲取對(duì)話成功的對(duì)話語(yǔ)料作為第一訓(xùn)練語(yǔ)料。其中，對(duì)話成功的對(duì)話語(yǔ)料的確定方式可以有多種。例如，服務(wù)器至少可以采用以下三種確定方式進(jìn)行確定：

判斷方式1、當(dāng)任一對(duì)話語(yǔ)料中存在對(duì)話成功的關(guān)鍵詞時(shí)，服務(wù)器將該對(duì)話語(yǔ)料確定為對(duì)話成功的對(duì)話語(yǔ)料。

其中，本發(fā)明實(shí)施例對(duì)對(duì)話成功的關(guān)鍵詞不做限定。例如，考慮到對(duì)話成功時(shí)，用戶通常會(huì)表達(dá)謝意，因此該對(duì)話成功的關(guān)鍵詞可以為：好的、謝謝。又例如，在對(duì)話成功時(shí)聊天機(jī)器人的答復(fù)也可能包括一些對(duì)話成功的關(guān)鍵詞，如：沒問題，不用謝。

判斷方式2，當(dāng)任一對(duì)話語(yǔ)料中存在對(duì)話失敗的關(guān)鍵詞時(shí)，服務(wù)器篩選掉該對(duì)話語(yǔ)料，并確定剩余的對(duì)話語(yǔ)料為對(duì)話成功的對(duì)話語(yǔ)料。

其中，本發(fā)明實(shí)施例對(duì)對(duì)話失敗的關(guān)鍵詞不做限定。例如，考慮到對(duì)話失敗時(shí)用戶可能會(huì)提醒聊天機(jī)器人理解錯(cuò)誤，則該對(duì)話失敗的關(guān)鍵詞可以為：你錯(cuò)了，不是這個(gè)意思。又例如，對(duì)話失敗時(shí)聊天機(jī)器人的答復(fù)也可能包括一些對(duì)話成功的關(guān)鍵詞，如：別介意，沒有理解您的意思，請(qǐng)?jiān)僬f一遍。

判斷方式3，當(dāng)任一對(duì)話預(yù)料存在對(duì)應(yīng)的服務(wù)記錄時(shí)，服務(wù)器將該對(duì)話語(yǔ)料確定為對(duì)話成功的對(duì)話語(yǔ)料。

考慮到當(dāng)某一對(duì)話語(yǔ)料存在對(duì)應(yīng)的服務(wù)記錄時(shí)，說明通過本次對(duì)話成功地為用戶提供了一次服務(wù)，因此，可以將對(duì)應(yīng)存在服務(wù)記錄的對(duì)話語(yǔ)料作為對(duì)話成功的對(duì)話語(yǔ)料。

203、服務(wù)器根據(jù)第一訓(xùn)練文本集合和第二訓(xùn)練文本集合，獲取第二文本提取模型。

基于第一訓(xùn)練文本集合和第二訓(xùn)練文本集合，服務(wù)器可以將這兩個(gè)訓(xùn)練文本集合重新進(jìn)行訓(xùn)練，得到第二文本提取模型。

事實(shí)上，如果當(dāng)前的文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值，服務(wù)器還可以繼續(xù)獲取訓(xùn)練文本集合，并基于已獲取的各個(gè)訓(xùn)練文本集合進(jìn)行訓(xùn)練，直到訓(xùn)練得到的文本提取模型的提取準(zhǔn)確度不低于預(yù)設(shè)閾值，該訓(xùn)練文本集合包括多個(gè)第二訓(xùn)練語(yǔ)料和通過當(dāng)前的文本提取模型從多個(gè)第二訓(xùn)練語(yǔ)料中提取的多個(gè)第二目標(biāo)文本。

例如，圖4是本發(fā)明實(shí)施例提供的一種迭代模型的流程圖，參見圖4，服務(wù)器可以根據(jù)步驟202中確定提取準(zhǔn)確度的方法來確定第二文本提取模型的提取準(zhǔn)確度，如果確定的提取準(zhǔn)確度不低于預(yù)設(shè)閾值，則確定該第二文本提取模型可使用，如果確定的提取準(zhǔn)確度低于預(yù)設(shè)閾值，則繼續(xù)獲取訓(xùn)練文本集合，該訓(xùn)練文本集合的具體獲取過程與第二訓(xùn)練文本集合的具體獲取過程同理，并基于已獲取的第一訓(xùn)練文本集合、第二訓(xùn)練文本集合和該訓(xùn)練文本集合進(jìn)行訓(xùn)練，從而得到一個(gè)準(zhǔn)確度更高的文本提取模型，并再次確認(rèn)該文本提取模型的提取準(zhǔn)確度，如果該文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值，則繼續(xù)獲取訓(xùn)練文本集合，直到通過迭代的方式得到的文本提取模型的提取準(zhǔn)確度不低于預(yù)設(shè)閾值為止。

需要說明的是，在服務(wù)器獲取到最終的文本提取模型之后，既可以暫存該文本提取模型、等待應(yīng)用該文本提取模型的指令，也可以直接應(yīng)用將該文本提取模型，如，將該文本提取模型應(yīng)用于聊天機(jī)器人，或者，將該文本提取模型更新至用戶所在終端上的智能聊天應(yīng)用。

另外，提供了獲取第二訓(xùn)練文本集合的具體方法，通過獲取第一訓(xùn)練語(yǔ)料，并通過第一文本提取模型從第一訓(xùn)練語(yǔ)料中提取出第一文本，如果第一文本正確，則直接將第一訓(xùn)練語(yǔ)料和第一文本作為第二訓(xùn)練文本集合中的一對(duì)訓(xùn)練文本，如果第一文本錯(cuò)誤，則將人工修正的文本和第一訓(xùn)練語(yǔ)料獲取為第二訓(xùn)練文本集合中的一對(duì)訓(xùn)練文本，由于第二訓(xùn)練文本集合通過第一文本提取模型得到、且人工進(jìn)行確認(rèn)，因此在保證了第二訓(xùn)練文本集合的獲取效率的同時(shí)，也保證了第二訓(xùn)練文本集合的準(zhǔn)確性。

另外，提供了至少兩種獲取第一訓(xùn)練語(yǔ)料的具體方法，如，為了保證對(duì)話語(yǔ)料的有效性，可以從聊天數(shù)據(jù)庫(kù)中獲取預(yù)設(shè)時(shí)段內(nèi)的對(duì)話語(yǔ)料，或者，為使第一訓(xùn)練語(yǔ)料具有更強(qiáng)的參考性，可以獲取聊天數(shù)據(jù)庫(kù)中對(duì)話成功的對(duì)話語(yǔ)料。

另外，提供了確定提取準(zhǔn)確度的具體方法，通過獲取測(cè)試文本集合，通過第一文本提取模型從測(cè)試語(yǔ)料中提取出第二文本，并確定與任一正確文本相同的第二文本的數(shù)量，和多個(gè)正確文本的數(shù)量，將前者與后者的比例確定為第一文本提取模型的提取準(zhǔn)確度，從而提供了測(cè)試第一文本提取模型是否達(dá)標(biāo)的具體方法。

另外，在獲取第二文本提取模型之后，還可以確定當(dāng)前的文本提取模型的提取準(zhǔn)確度，如果當(dāng)前的文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值，則繼續(xù)獲取訓(xùn)練文本集合，并基于以獲取的各個(gè)訓(xùn)練文本集合進(jìn)行訓(xùn)練，直到訓(xùn)練得到的文本提取模型的提取度不低于預(yù)設(shè)閾值，從而通過迭代的方式不斷優(yōu)化已獲取的文本提取模型，以最終得到一個(gè)提取準(zhǔn)確度較高的文本提取模型。

圖5是本發(fā)明實(shí)施例提供的一種獲取文本提取模型的裝置框圖。參見圖5，該裝置具體包括：

模型獲取模塊501，用于獲取第一文本提取模型，第一文本提取模型根據(jù)人工標(biāo)注的第一訓(xùn)練文本集合得到；

訓(xùn)練文本集合獲取模塊502，用于如果第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值，獲取第二訓(xùn)練文本集合，第二訓(xùn)練文本集合包括多個(gè)第一訓(xùn)練語(yǔ)料和通過第一文本提取模型從多個(gè)第一訓(xùn)練語(yǔ)料中提取的多個(gè)第一目標(biāo)文本；

模型獲取模塊501，還用于根據(jù)第一訓(xùn)練文本集合和第二訓(xùn)練文本集合，獲取第二文本提取模型。

在一種可能實(shí)現(xiàn)方式中，該訓(xùn)練文本集合獲取模塊502用于：

如果第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值，獲取多個(gè)第一訓(xùn)練語(yǔ)料；對(duì)于多個(gè)第一訓(xùn)練語(yǔ)料中的每個(gè)第一訓(xùn)練語(yǔ)料，通過第一文本提取模型從第一訓(xùn)練語(yǔ)料中提取出第一文本；如果第一文本正確，將第一訓(xùn)練語(yǔ)料和第一文本作為第二訓(xùn)練文本集合中的一對(duì)訓(xùn)練文本；如果第一文本錯(cuò)誤，將第一訓(xùn)練語(yǔ)料和人工修正的文本作為第二訓(xùn)練文本集合中的一對(duì)訓(xùn)練文本。

在一種可能實(shí)現(xiàn)方式中，該訓(xùn)練文本集合獲取模塊502用于：

如果第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值，從聊天數(shù)據(jù)庫(kù)中獲取預(yù)設(shè)時(shí)段內(nèi)的對(duì)話語(yǔ)料，將預(yù)設(shè)時(shí)段內(nèi)的對(duì)話預(yù)料作為多個(gè)第一訓(xùn)練語(yǔ)料，聊天數(shù)據(jù)庫(kù)用于存儲(chǔ)用戶與聊天機(jī)器人之間的對(duì)話語(yǔ)料。

在一種可能實(shí)現(xiàn)方式中，該訓(xùn)練文本集合獲取模塊502用于：

如果第一文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值，從聊天數(shù)據(jù)庫(kù)中篩選出對(duì)話成功的對(duì)話語(yǔ)料，將對(duì)話成功的對(duì)話預(yù)料作為多個(gè)第一訓(xùn)練語(yǔ)料，聊天數(shù)據(jù)庫(kù)用于存儲(chǔ)用戶與聊天機(jī)器人之間的對(duì)話語(yǔ)料，對(duì)話成功的對(duì)話語(yǔ)料是指聊天機(jī)器人成功為用戶提供服務(wù)的對(duì)話語(yǔ)料。

在一種可能實(shí)現(xiàn)方式中，基于圖5的裝置組成，參見圖6，該裝置還包括：

測(cè)試文本集合獲取模塊503，用于獲取測(cè)試文本集合，測(cè)試文本集合包括多個(gè)測(cè)試語(yǔ)料和人工從多個(gè)測(cè)試語(yǔ)料中標(biāo)注出的多個(gè)正確文本；

提取模塊504，用于對(duì)于多個(gè)測(cè)試語(yǔ)料中的每個(gè)測(cè)試語(yǔ)料，通過第一文本提取模型從測(cè)試語(yǔ)料中提取出第二文本；

確定模塊505，用于將與任一正確文本相同的第二文本和多個(gè)正確文本的數(shù)量比例確定為第一文本提取模型的提取準(zhǔn)確度。

在一種可能實(shí)現(xiàn)方式中，該訓(xùn)練文本集合獲取模塊502，還用于如果當(dāng)前的文本提取模型的提取準(zhǔn)確度低于預(yù)設(shè)閾值，繼續(xù)獲取訓(xùn)練文本集合；

該模型獲取模塊501，還用于基于已獲取的各個(gè)訓(xùn)練文本集合進(jìn)行訓(xùn)練，直到訓(xùn)練得到的文本提取模型的提取準(zhǔn)確度不低于預(yù)設(shè)閾值，訓(xùn)練文本集合包括多個(gè)第二訓(xùn)練語(yǔ)料和通過當(dāng)前的文本提取模型從多個(gè)第二訓(xùn)練語(yǔ)料中提取的多個(gè)第二目標(biāo)文本。

上述所有可選技術(shù)方案，可以采用任意結(jié)合形成本發(fā)明的可選實(shí)施例，在此不再一一贅述。

需要說明的是：上述實(shí)施例提供的獲取文本提取模型的裝置在獲取文本提取模型時(shí)，僅以上述各功能模塊的劃分進(jìn)行舉例說明，實(shí)際應(yīng)用中，可以根據(jù)需要而將上述功能分配由不同的功能模塊完成，即將裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊，以完成以上描述的全部或者部分功能。另外，上述實(shí)施例提供的獲取文本提取模型的裝置與獲取文本提取模型的方法實(shí)施例屬于同一構(gòu)思，其具體實(shí)現(xiàn)過程詳見方法實(shí)施例，這里不再贅述。

圖7是本發(fā)明實(shí)施例提供的一種獲取文本提取模型的裝置700的框圖。例如，裝置700可以被提供為一服務(wù)器。參照?qǐng)D7，裝置700包括處理組件722，其進(jìn)一步包括一個(gè)或多個(gè)處理器，以及由存儲(chǔ)器732所代表的存儲(chǔ)器資源，用于存儲(chǔ)可由處理部件722的執(zhí)行的指令，例如應(yīng)用程序。存儲(chǔ)器732中存儲(chǔ)的應(yīng)用程序可以包括一個(gè)或一個(gè)以上的每一個(gè)對(duì)應(yīng)于一組指令的模塊。此外，處理組件722被配置為執(zhí)行指令，以執(zhí)行上述圖2所示實(shí)施例中獲取文本提取模型的方法。

裝置700還可以包括一個(gè)電源組件726被配置為執(zhí)行裝置700的電源管理，一個(gè)有線或無(wú)線網(wǎng)絡(luò)接口750被配置為將裝置700連接到網(wǎng)絡(luò)，和一個(gè)輸入輸出(I/O)接口758。裝置700可以操作基于存儲(chǔ)在存儲(chǔ)器732的操作系統(tǒng)，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，F(xiàn)reeBSD^TM或類似。

本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可以通過硬件來完成，也可以通過程序來指令相關(guān)的硬件完成，所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中，上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器，磁盤或光盤等。

以上所述僅為本發(fā)明的較佳實(shí)施例，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳益
技術(shù)所有人：騰訊科技（深圳）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

自動(dòng)更換砂紙裝置模型相關(guān)技術(shù)

倫琴射線管裝置模型相關(guān)技術(shù)

文本表示模型相關(guān)技術(shù)

3d化工裝置模型相關(guān)技術(shù)

文本主題模型相關(guān)技術(shù)

文本向量空間模型相關(guān)技術(shù)

文本分類模型相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

獲取文本提取模型的方法及裝置與流程