訓練語料擴充裝置和訓練語料擴充方法
【專利摘要】本發(fā)明提供了一種訓練語料擴充裝置,包括:篩選單元,根據(jù)預設的語料篩選條件篩選出初始語料樣本;擴充單元,按照所述初始語料樣本和擴充策略對被收集的語料進行標識,得到擴充語料樣本,以及基于所述擴充語料樣本和所述擴充策略再次進行語料擴充。相應地,本發(fā)明還提供了一種訓練語料擴充方法,通過本發(fā)明的技術方案,可以通過自動化的方式對大規(guī)模的訓練語料進行機器標注,從而大大節(jié)省制作大規(guī)模訓練語料的時間周期和成本,并且可提高標注準確率。
【專利說明】訓練語料擴充裝置和訓練語料擴充方法
【技術領域】
[0001]本發(fā)明涉及語料處理【技術領域】,具體而言,涉及一種訓練語料擴充裝置和一種訓練語料擴充方法。
【背景技術】
[0002]在文本挖掘分類系統(tǒng)中,需要事先采集一定量的觀測數(shù)據(jù)作為樣本,用于訓練機器學習的模型,在有些應用場景下,例如大規(guī)模文本分類系統(tǒng),需要的樣本數(shù)據(jù)量龐大。
[0003]由于大規(guī)模文本分類系統(tǒng)需要的訓練樣本數(shù)據(jù)量龐大,為了加大數(shù)據(jù)量,通常采用人工標注的辦法進行加工,而人工標注的方法需要相當長的加工周期和巨大的加工成本。
[0004]因此需要一種新的語料標注方案,可以通過自動化的方式對大規(guī)模的訓練語料進行機器標注,從而大大節(jié)省制作大規(guī)模訓練語料的時間周期和成本。
【發(fā)明內(nèi)容】
[0005]本發(fā)明正是基于上述問題,提出了一種新的語料標注技術,可以通過自動化的方式對大規(guī)模的訓練語料進行機器標注,從而大大節(jié)省制作大規(guī)模訓練語料的時間周期和成本。
[0006]有鑒于此,本發(fā)明提出了一種訓練語料擴充裝置,包括:篩選單元,根據(jù)預設的語料篩選條件篩選出初始語料樣本;擴充單元,按照所述初始語料樣本和擴充策略對被收集的語料進行標識,得到擴充語料樣本,以及基于所述擴充語料樣本和所述擴充策略再次進行語料擴充。
[0007]在該技術方案中,根據(jù)篩選出的初始語料樣本,可以對語料進行擴充,從而不需要人工閱讀后再一一標注語料,直接可以自動擴充語料,同時,擴充后得到的擴充語料樣本可以再次使用擴充策略進行擴充,從而能夠基于小量的語料獲取大規(guī)模的語料,這樣大大節(jié)省了制作大規(guī)模語料的時間周期和成本。
[0008]根據(jù)本發(fā)明的又一方面,還提供了一種訓練語料擴充方法,包括:步驟202,根據(jù)預設的語料篩選條件篩選出初始語料樣本;步驟204,按照所述初始語料樣本和擴充策略對被收集的語料進行標識,得到擴充語料樣本;步驟206,基于所述擴充語料樣本和所述擴充策略再次進行語料擴充。
[0009]在該技術方案中,根據(jù)篩選出的初始語料樣本,可以對語料進行擴充,從而不需要人工閱讀后再一一標注語料,直接可以自動擴充語料,同時,擴充后得到的擴充語料樣本可以再次使用擴充策略進行擴充,從而能夠基于小量的語料獲取大規(guī)模的語料,這樣大大節(jié)省了制作大規(guī)模語料的時間周期和成本。
【專利附圖】
【附圖說明】
[0010]圖1示出了根據(jù)本發(fā)明的實施例的訓練語料擴充裝置的框圖;
[0011]圖2示出了根據(jù)本發(fā)明的實施例的訓練語料擴充方法的流程圖;
[0012]圖3示出了根據(jù)本發(fā)明的實施例的訓練語料擴充方法的具體流程圖。
【具體實施方式】
[0013]為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點,下面結合附圖和【具體實施方式】對本發(fā)明進行進一步的詳細描述。需要說明的是,在不沖突的情況下,本申請的實施例及實施例中的特征可以相互組合。
[0014]在下面的描述中闡述了很多具體細節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的其他方式來實施,因此,本發(fā)明的保護范圍并不受下面公開的具體實施例的限制。
[0015]在詳細說明根據(jù)本發(fā)明的實施例之前,對實施例中涉及的名詞做一些簡單地解釋:
[0016]篩選條件,在獲取初始語料樣本時,可理解為設定的檢索條件,例如兩個檢索關鍵詞組成的檢索條件“2008”、“北京奧運”。
[0017]初始語料樣本,為獲得大規(guī)模的語料樣本首先需要獲取初始語料樣本并將其作為擴充的基礎條件,該初始語料樣本可以是根據(jù)檢索條件檢索出的文檔集合、語句集合或詞隹A
口 O
[0018]擴充策略,在獲取初始語料樣本后,需按照一定的擴充策略來獲取大量的語料樣本,該擴充策略可以是刪除錯誤的語料樣本或某特定算法。
[0019]圖1示出了根據(jù)本發(fā)明的實施例的訓練語料擴充裝置的框圖。
[0020]如圖1所示,根據(jù)本發(fā)明的實施例的訓練語料擴充裝置100,包括:篩選單元102,根據(jù)預設的語料篩選條件篩選出初始語料樣本;擴充單元104,按照所述初始語料樣本和擴充策略對被收集的語料進行標識,得到擴充語料樣本,以及基于所述擴充語料樣本和所述擴充策略再次進行語料擴充。
[0021 ] 在該技術方案中,根據(jù)篩選出的初始語料樣本,可以對語料進行擴充,從而不需要人工閱讀后再一一標注語料,直接可以自動擴充語料,同時,擴充后得到的擴充語料樣本可以再次使用擴充策略進行擴充,從而能夠基于小量的語料獲取大規(guī)模的語料,這樣大大節(jié)省了制作大規(guī)模語料的時間周期和成本。
[0022]在上述技術方案中,優(yōu)選地,所述擴充單元104還用于將所述擴充語料樣本作為邏輯回歸的輸入語料,其中所述擴充策略為邏輯回歸算法。
[0023]在該技術方案中,擴充策略為邏輯回歸算法,那么將初始語料樣本作為邏輯回歸算法的輸入,最后可以標識得到擴充語料樣本,而得到的擴充語料樣本,可以繼續(xù)作為邏輯回歸算法的輸入,再得到更多的擴充語料樣本,這樣不斷重復上述步驟,即可得到需求數(shù)量的語料。
[0024]在上述技術方案中,優(yōu)選地,所述擴充單元104還用于根據(jù)所述擴充語料樣本建立語料擴充模型,基于所述語料擴充模型在被收集的語料中進行標識,得到新的擴充語料樣本。
[0025]在該技術方案中,將擴充語料樣本作為邏輯回歸算法的輸入,這樣可以得到語料擴充模型,根據(jù)語料擴充模型即可以在被收集的語料中標識出更多的新的擴充語料,而擴充語料樣本不同,即邏輯回歸算法的輸入不同,其輸出也必然不同,這樣,隨著擴充語料樣本的變化,得到的新的擴充語料也會有所變化,從而得到更多數(shù)量的擴充語料。
[0026]在上述技術方案中,優(yōu)選地,還可以包括:計算單元106,采用貝葉斯算法計算出所述擴充語料樣本中每個分類語料樣本的準確率和整體樣本的準確率;判斷單元108,將所述整體樣本的準確率與預設準確率進行比較,在所述整體樣本的準確率小于所述第一預設準確率時,判定準確率小于第二預設準確率的分類語料樣本;所述擴充單元104對準確率小于所述第二預設準確率的分類語料樣本中每一子分類語料樣本進行重新標識,得到校驗后的擴充語料樣本。
[0027]在該技術方案中,在獲取擴充語料樣本后,需對該擴充語料樣本進行質量驗證,若不達標,則對擴充語料樣本進行校正,從而可以保證后續(xù)獲得的大規(guī)模語料樣本的準確性。擴充語料樣本中可能包含不同分類的語料樣本,而在每個分類語料樣本中,又可能存在多個子分類語料樣本(如在擴充語料樣本中,可能包含體育、音樂、軍事等分類語料樣本,而在每個分類語料樣本中,如在體育分類語料樣本中,又可能包含球類、田徑類等子分類語料樣本)。因此,為了保證得到的擴充語料的準確率,需要對得到的擴充語料樣本進行校驗,根據(jù)貝葉斯算法計算出每個分類語料樣本的準確率和整體樣本的準確率,并將其與預設準確度進行比較,判斷出哪些擴充語料可以保留,哪些擴充語料應該被刪除,并刪除需要刪除的語料。
[0028]在上述技術方案中,優(yōu)選地,還可以包括:統(tǒng)計單元110,統(tǒng)計所述擴充單元得到的所述擴充語料樣本的數(shù)量,在所述數(shù)量達到預設數(shù)量時,停止擴充語料樣本。
[0029]在該技術方案中,用戶可以預設擴充語料樣本的數(shù)量,例如用戶預設數(shù)量是1000,那么在擴充語料樣本的數(shù)量未達到1000時,系統(tǒng)會不斷對語料進行擴充,但是當擴充語料樣本的數(shù)量達到1000時,就會停止擴充,這樣,可以自動得到用戶需求的數(shù)量的擴充語料,而不需要人工進行語料的標注。
[0030]圖2示出了根據(jù)本發(fā)明的實施例的訓練語料擴充方法的流程圖。
[0031]如圖2所示,根據(jù)本發(fā)明的實施例的訓練語料擴充方法,包括:步驟202,根據(jù)預設的語料篩選條件篩選出初始語料樣本;步驟204,按照所述初始語料樣本和擴充策略對被收集的語料進行標識,得到擴充語料樣本;步驟206,基于所述擴充語料樣本和所述擴充策略再次進行語料擴充。
[0032]在該技術方案中,根據(jù)篩選出的初始語料樣本,可以對語料進行擴充,從而不需要人工閱讀后再一一標注語料,直接可以自動擴充語料,同時,擴充后得到的擴充語料樣本可以再次使用擴充策略進行擴充,從而能夠基于小量的語料獲取大規(guī)模的語料,這樣大大節(jié)省了制作大規(guī)模語料的時間周期和成本。
[0033]在上述技術方案中,優(yōu)選地,所述步驟206具體包括:所述擴充策略為邏輯回歸算法;將所述擴充語料樣本作為邏輯回歸的輸入語料。
[0034]在該技術方案中,擴充策略為邏輯回歸算法,那么將初始語料樣本作為邏輯回歸算法的輸入,最后可以標識得到擴充語料樣本,而得到的擴充語料樣本,可以繼續(xù)作為邏輯回歸算法的輸入,再得到更多的擴充語料樣本,這樣不斷重復上述步驟,即可得到需求數(shù)量的語料。
[0035]在上述技術方案中,優(yōu)選地,根據(jù)所述擴充語料樣本建立語料擴充模型,基于所述語料擴充模型在被收集的語料中進行標識,得到新的擴充語料樣本。
[0036]在該技術方案中,將擴充語料樣本作為邏輯回歸算法的輸入,這樣可以得到語料擴充模型,根據(jù)語料擴充模型即可以在被收集的語料中標識出更多的新的擴充語料,而擴充語料樣本不同,即邏輯回歸算法的輸入不同,其輸出也必然不同,這樣,隨著擴充語料樣本的變化,得到的新的擴充語料也會有所變化,從而得到更多數(shù)量的擴充語料。
[0037]在上述技術方案中,優(yōu)選地,所述步驟204還可以包括:采用貝葉斯算法計算出所述擴充語料樣本中每個分類語料樣本的準確率和整體樣本的準確率;將所述整體樣本的準確率與預設準確率進行比較,在所述整體樣本的準確率小于所述第一預設準確率時,判定準確率小于第二預設準確率的分類語料樣本;對準確率小于所述第二預設準確率的分類語料樣本中每一子分類語料樣本進行重新標識,得到校驗后的擴充語料樣本。
[0038]在該技術方案中,擴充語料樣本中可能包含不同分類的語料樣本,而在每個分類語料樣本中,又可能存在多個子分類語料樣本(如在擴充語料樣本中,可能包含體育、音樂、軍事等分類語料樣本,而在每個分類語料樣本中,如在體育分類語料樣本中,又可能包含球類、田徑類等子分類語料樣本)。因此,為了保證得到的擴充語料的準確率,需要對得到的擴充語料樣本進行校驗,根據(jù)貝葉斯算法計算出每個分類語料樣本的準確率和整體樣本的準確率,并將其與預設準確度進行比較,判斷出哪些擴充語料可以保留,哪些擴充語料應該被刪除,并刪除需要刪除的語料。
[0039]在上述技術方案中,優(yōu)選地,還包括:步驟208,統(tǒng)計得到的所述擴充語料樣本的數(shù)量,在所述數(shù)量達到預設數(shù)量時,停止擴充語料樣本。
[0040]在該技術方案中,用戶可以預設擴充語料樣本的數(shù)量,比如用戶預設數(shù)量是1000,那么在擴充語料樣本的數(shù)量未達到1000時,系統(tǒng)會不斷對語料進行擴充,但是當擴充語料樣本的數(shù)量達到1000時,就會停止擴充,這樣,可以自動得到用戶需求的數(shù)量的擴充語料,而不需要人工進行語料的標注。
[0041]圖3示出了根據(jù)本發(fā)明的實施例的訓練語料擴充方法的流程圖。
[0042]如圖3所示,根據(jù)本發(fā)明的實施例的訓練語料擴充方法的流程如下:
[0043]步驟302,編寫規(guī)則生成器,提取少量的訓練語料。通過編寫基本的規(guī)則使用文本匹配的辦法制作出最初的原始文檔集合。規(guī)則可以通過編寫關鍵字檢索的方式生成,例如同時出現(xiàn)“北京奧運”和“20080808”兩個詞,就是一個基本規(guī)則,這個規(guī)則用于判定屬于2008年北京奧運會分類的文檔。通過編寫規(guī)則生成器降低人工標注的工作時間和人力成本。
[0044]步驟304,對提取的少量的訓練語料進行再次判斷,剔除錯誤的訓練語料。
[0045]對于訓練語料的判斷,可以使用機器通過判斷條件自動判斷,當然,如果不放心機器的判斷結果,也可以人工進行判斷,例如,專業(yè)領域的研究人員根據(jù)自身的經(jīng)驗和知識判定在上述規(guī)則生成的文檔是否屬于某個分類,如果判定為否,則將文檔剔除出此分類。這樣可以保證所制作的小規(guī)模語料的精確度。
[0046]步驟306,使用邏輯回歸算法將步驟304得到的訓練語料進行處理并得到標識模型。使用邏輯回歸算法分類器在小規(guī)模訓練語料上進行建模,將上述挑選的少量訓練語料作為邏輯回歸算法分類器的輸入,從而輸出訓練語料的標識模型。
[0047]步驟308,利用標識模型在大量的文檔中進行標識,得到更多的文檔語料集合。
[0048]步驟310,使用貝葉斯算法對得到的大規(guī)模訓練語料進行驗證。利用貝葉斯算法的偏歧性,通過計算標識模型測算結果的錯誤率,可以得到整體模型的錯誤率以及大規(guī)模訓練預料中每個分類的準確率。如果某個分類的準確率低于閥值,則說明此分類的文檔需要進一步的篩選。
[0049]為了保證訓練語料的準確性,對訓練語料進行驗證后,根據(jù)驗證結果來剔除錯誤的訓練語料。
[0050]步驟312,對進行剔除處理后得到的訓練語料的數(shù)量進行統(tǒng)計,如果訓練語料的數(shù)量達到預設數(shù)量,則將這些訓練語料作為規(guī)模語料。
[0051]如果訓練語料的數(shù)量未達到預設數(shù)量,則繼續(xù)回到步驟306,使用邏輯回歸算法對進驗證處理后得到的訓練語料進行處理,得到新的標識模型,通過新的標識模型標記更大規(guī)模的訓練語料。這樣重復上述的步驟,直到訓練語料的數(shù)量達到預設的數(shù)量為止。
[0052]以上結合附圖詳細說明了本發(fā)明的技術方案,通過本發(fā)明的技術方案,能夠以較低的成本方便地從電子資源中自動擴充訓練語料,提高訓練語料的數(shù)據(jù)規(guī)模,并且采用貝葉斯算法對獲取的擴充樣本進行校驗,基于校驗后的擴充樣本繼續(xù)進行語料獲取,從而提高了所擴充的訓練語料的準確率。
[0053]本領域內(nèi)的技術人員應明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產(chǎn)品的形式。
[0054]本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0055]這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0056]這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設備上,使得在計算機或其他可編程設備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0057]盡管已描述了本發(fā)明的優(yōu)選實施例,但本領域內(nèi)的技術人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。
[0058]以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領域的技術人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
【權利要求】
1.一種訓練語料擴充裝置,其特征在于,包括: 篩選單元,根據(jù)預設的語料篩選條件篩選出初始語料樣本; 擴充單元,按照所述初始語料樣本和擴充策略對被收集的語料進行標識,得到擴充語料樣本,以及基于所述擴充語料樣本和所述擴充策略再次進行語料擴充。
2.根據(jù)權利要求1所述的訓練語料擴充裝置,其特征在于,所述擴充單元還用于將所述擴充語料樣本作為邏輯回歸的輸入語料,其中所述擴充策略為邏輯回歸算法。
3.根據(jù)權利要求2所述的訓練語料擴充裝置,其特征在于,所述擴充單元還用于根據(jù)所述擴充語料樣本建立語料擴充模型,基于所述語料擴充模型在被收集的語料中進行標識,得到新的擴充語料樣本。
4.根據(jù)權利要求1所述的訓練語料擴充裝置,其特征在于,還包括: 計算單元,采用貝葉斯算法計算出所述擴充語料樣本中每個分類語料樣本的準確率和整體樣本的準確率; 判斷單元,將所述整體樣本的準確率與預設準確率進行比較,在所述整體樣本的準確率小于所述第一預設準確率時,判定準確率小于第二預設準確率的分類語料樣本; 所述擴充單元對準確率小于所述第二預設準確率的分類語料樣本中每一子分類語料樣本進行重新標識,得到校驗后的擴充語料樣本。
5.根據(jù)權利要求1至4中任一項所述的訓練語料擴充裝置,其特征在于,還包括: 統(tǒng)計單元,統(tǒng)計所述擴充單元得到的所述擴充語料樣本的數(shù)量,在所述數(shù)量達到預設數(shù)量時,停止擴充語料樣本。
6.一種訓練語料擴充方法,其特征在于,包括: 步驟202,根據(jù)預設的語料篩選條件篩選出初始語料樣本; 步驟204,按照所述初始語料樣本和擴充策略對被收集的語料進行標識,得到擴充語料樣本; 步驟206,基于所述擴充語料樣本和所述擴充策略再次進行語料擴充。
7.根據(jù)權利要求6所述的訓練語料擴充方法,其特征在于,所述步驟206具體包括: 所述擴充策略為邏輯回歸算法; 將所述擴充語料樣本作為邏輯回歸的輸入語料。
8.根據(jù)權利要求7所述的訓練語料擴充方法,其特征在于,根據(jù)所述擴充語料樣本建立語料擴充模型,基于所述語料擴充模型在被收集的語料中進行標識,得到新的擴充語料樣本。
9.根據(jù)權利要求6所述的訓練語料擴充方法,其特征在于,所述步驟204還包括: 采用貝葉斯算法計算出所述擴充語料樣本中每個分類語料樣本的準確率和整體樣本的準確率; 將所述整體樣本的準確率與預設準確率進行比較,在所述整體樣本的準確率小于所述第一預設準確率時,判定準確率小于第二預設準確率的分類語料樣本; 對準確率小于所述第二預設準確率的分類語料樣本中每一子分類語料樣本進行重新標識,得到校驗后的擴充語料樣本。
10.根據(jù)權利要求6至9中任一項所述的訓練語料擴充方法,其特征在于,還包括: 步驟208,統(tǒng)計得到的所述擴充語料樣本的數(shù)量,在所述數(shù)量達到預設數(shù)量時,停止擴充語料樣本。
【文檔編號】G06F17/27GK104346406SQ201310344326
【公開日】2015年2月11日 申請日期:2013年8月8日 優(yōu)先權日:2013年8月8日
【發(fā)明者】赫亮, 董寧, 葉茂 申請人:北大方正集團有限公司, 北京方正阿帕比技術有限公司