專利名稱:漢語作文自動測試方法及系統(tǒng)的制作方法
技術(shù)領域:
本發(fā)明涉及電子信息行業(yè)人工智能技術(shù)領域,尤其涉及一種漢語作文自動測試方法及系統(tǒng)。
背景技術(shù):
近年來,隨著學習漢語的不斷流行,漢語水平測試在已經(jīng)受到了普遍的重視,在漢語水平測試中寫作水平測試是測試語言學習效果的最有效的方法。傳統(tǒng)的漢語作文測試評分基本采用人工對作文進行評閱,得到考生的作文評分,這種方法存在以下缺點1)人工閱卷評分面臨著巨大的人力和財力投入;幻人工閱卷評分尺度不統(tǒng)一,主觀性強。計算機應用、人工智能應用、自然語言處理等技術(shù)的發(fā)展,為實現(xiàn)語言測試自動化提供了技術(shù)方面的支持。目前,國外已有較為成熟的英語作文自動測試系統(tǒng),其基本的思路無外乎通過各種自然語言技術(shù)提取文本特征,用人工評分以及高效的機器學習與人工智能方法,對特征與分數(shù)之間的關系進行學習,通過所得的特征與評分的關系進行自動的作文評分。而國內(nèi),針對漢語的作文測試系統(tǒng)還處于起步的研究狀態(tài)中,未能有深入而系統(tǒng)的研在中國少數(shù)民族漢語水平等級考試(MHK)的作文測試評分中,評分標準從作文的內(nèi)容、條理和語言三個方面來評價的。作文的內(nèi)容評價方面指的是考生作文的寫作內(nèi)容是否完整、充實,是否與題目要求的中心思想密切聯(lián)系;作文的條理評價方面指的是考生作文的寫作條理是否清晰,前后是否緊密連貫,句意轉(zhuǎn)換是否自然、流暢;作文的語言評價方面指的是考生作文的寫作語言是否自然、流暢,句式是否多樣化,遣詞造句是否恰當。評卷老師通過三個方面的綜合評定來給出最終的作文評分。在實現(xiàn)本發(fā)明的過程中,申請人意識到現(xiàn)有技術(shù)存在如下技術(shù)缺陷現(xiàn)有漢語作文自動評分研究的做法目前較為單一,僅僅統(tǒng)計了一些淺表統(tǒng)計特征,和零星的部分語言特征,缺乏對這三方面特征有一個系統(tǒng)的規(guī)劃。
發(fā)明內(nèi)容
(一)要解決的技術(shù)問題為解決上述缺陷,本發(fā)明提供了一種漢語作文自動測試方法及系統(tǒng),以克服現(xiàn)有漢語作文自動評分研究的做法目前較為單一,缺乏對這三方面特征有一個系統(tǒng)的規(guī)劃的缺陷。( 二 )技術(shù)方案根據(jù)本發(fā)明的一個方面,提供了一種漢語作文自動測試方法。該方法包括步驟 A 輸入作文文本待評語料,對作文文本待評語料進行預處理;步驟B 通過主題內(nèi)容模型、 條理結(jié)構(gòu)模型和語言表達特征模型對預處理后的作文文本待評語料提取主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達特征;步驟C 對所提取的主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達特征用評分方程進行計算,獲得漢語作文的自動評分結(jié)果。
優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟A之前還包括步驟A'輸入作文文本訓練語料,對作文文本訓練語料進行預處理,預處理的步驟與步驟A中預處理的步驟相同;步驟B'建立主題內(nèi)容模型、條理結(jié)構(gòu)模型、語言表達特征模型;并通過三個模型對預處理后的作文文本訓練語料進行主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達特征的提取,特征提取的步驟與步驟B中特征提取的步驟相同;步驟C'依據(jù)對作文文本訓練語料所提取的特征和其人工評分進行評分的線性擬合,得到評分方程。優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟A和步驟A'中對作文文本語料進行預處理包括步驟Al 對作文文本語料進行非標準字符集的修改和去除;步驟A2 對作文文本語料中無意義的符號進行去除;步驟A3 對作文文本語料中無意義的漢字亂碼進行去除;步驟A4 對作文文本語料進行漢字分詞處理,其中作文文本語料在步驟A'中為作文文本訓練語料;在步驟A中為作文文本待評語料。優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟B和步驟B'中通過主題內(nèi)容模型對預處理后的作文文本語料提取主題內(nèi)容特征包括步驟Bla 用預處理后作文文本語料進行潛在語義分析空間訓練;步驟Blb 將潛在語義分析空間訓練后的作文文本語料映射到潛在語義空間中,映射的方式為以下方式其中之一 1、潛在語義分析中以全文為文檔單元的方式;或2、基于序列潛在語義分析的以小于全文為文檔單元的方式;步驟Blc 對同主題作文文本語料映射得到的潛在語義向量與對應的人工文本打分進行支持向量回歸分析, 得到主題內(nèi)容模型;步驟Bld 用此主題內(nèi)容模型對作文文本語料進行主題內(nèi)容模型特征的提取,得到主題內(nèi)容特征;其中作文文本語料在步驟B'中為作文文本訓練語料;在步驟B中為作文文本待評語料。優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟Blb中采用映射方式2將同主題作文文本語料映射到潛在語義空間包括Blbl 將單篇的作文文本語料文本切分為η份,每一份分別映射到潛在語義空間中;Blb2 將得到的映射向量進行原順序的重組合,得到此篇作文文本保留序列信息的潛在語義向量。優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟Blc中對得到的潛在語義向量與對應的作文文本語料的人工評分進行支持向量回歸分析,得到主題內(nèi)容模型,包括=Blcl 支持向量回歸分析的核函數(shù)選用徑向基核函數(shù),對訓練語料進行交叉驗證實驗,得到最優(yōu)的支持向量回歸分析參數(shù);Blc2 將所得參數(shù)用于主題內(nèi)容模型中。優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟B和步驟B'中通過條理結(jié)構(gòu)模型提取預處理后的作文文本語料的條理結(jié)構(gòu)特征包括步驟B2a 提取預處理后的作文文本語料的長度;步驟B2b 提取預處理后的作文文本語料的句子數(shù);步驟B2c 提取預處理后的作文文本語料的段落數(shù);步驟B2d 提取預處理后的作文文本語料的平均句長;步驟B2e 提取預處理后的作文文本語料的變化度;步驟B2f 提取預處理后的作文文本語料的平均段長;步驟B2e 提取預處理后的作文文本語料的段長變化度,其中,條理結(jié)構(gòu)特征模型即為基于統(tǒng)計的方法提取以上各種特征的模型,而這些特征也即構(gòu)成了條理結(jié)構(gòu)特征;作文文本語料在步驟B'中為作文文本訓練語料;在步驟B中為作文文本待評語料。優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟B和步驟B'中通過語言表達特征模型提取預處理后的作文文本語料的語言表達特征中,語言表達特征模型包括以下兩個模型B3,基于淺表統(tǒng)計的語言表達特征模型;和B3',基于詞匯評分的語言表達特征模型;其中,作文文本語料在步驟B'中為作文文本訓練語料;在步驟B中為作文文本待評語料。優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟B和步驟B'中通過語言表達特征模型提取預處理后的作文文本訓練語料的語言表達特征包括步驟B3a 對預處理后的作文文本訓練語料進行用詞詞匯豐富度的統(tǒng)計,詞匯豐富度是指單篇作文中采用的不同詞匯數(shù)目;步驟B3b 對預處理后的作文文本訓練語料統(tǒng)計其中各類詞性所包含的詞匯的數(shù)目、 統(tǒng)計詞匯中各類詞性所包含的不同詞匯的數(shù)目;步驟B3c 在作文文本訓練語料中采用交叉驗證的方式,計算以上所得特征與人工評分相關度,保留相關度較大的特征,作為當前模型所提取的特征,其中,基于淺表統(tǒng)計的語言表達特征模型即為通過特征選擇方法統(tǒng)計和選擇以上各個特征的模型,而最終選取的特征即為此模型所提取的語言表達特征;作文文本語料在步驟B'中為作文文本訓練語料;在步驟B中為作文文本待評語料。優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟B和步驟B'中通過語言表達特征模型提取預處理后的作文文本訓練語料的語言表達特征包括步驟B3' a 通過人工評分的訓練語料估計每個詞匯的評分,得到基于詞匯評分的語言表達特征模型;步驟B3' b 通過每個詞匯的估計評分,對待評作文的每個詞匯評分進行線性加權(quán),得到基于詞匯評分的語言表達特征;其中,作文文本語料在步驟B'中為作文文本訓練語料;在步驟B中為作文文本待評語料。優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟C'包括依據(jù)對作文文本訓練語料所提取的特征和其人工評分進行最小二乘法的線性擬合,得到對于主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達特征的評分方程。優(yōu)選地,本發(fā)明漢語作文自動測試方法中,步驟A'和步驟A中的作文文本訓練語料和作文文本待評語料均為同一主題語料。根據(jù)本發(fā)明的另一個方面,還提供了一種漢語作文自動測試系統(tǒng)。該系統(tǒng)包括預處理裝置,用于對輸入的作文文本待評語料進行預處理;特征提取裝置,用于通過預設的主題內(nèi)容模型、條理結(jié)構(gòu)模型和語言表達特征模型對預處理后的作文文本待評語料進行主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達特征提取,主題內(nèi)容模型、條理結(jié)構(gòu)模型、語言表達特征模型為根據(jù)預處理后的作文文本訓練語料建立的;自動評分裝置,用于對所提取的特征用預設的評分方程進行計算,獲得漢語作文的自動評分結(jié)果,評分方程為依據(jù)對作文文本訓練語料所提取的特征和其人工評分進行評分的線性擬合獲取的。優(yōu)選地,本發(fā)明漢語作文自動測試系統(tǒng)中,特征提取裝置與輸入裝置相連接;自動評分裝置與特征提取裝置相連接。(三)有益效果本發(fā)明漢語作文自動測試方法及系統(tǒng)具有下列有益效果1、針對當前日益擴大的漢語作文水平測試,本發(fā)明減少大規(guī)模漢語作文水平測試中的人力物力投入,并實現(xiàn)了評分的客觀化;2、本發(fā)明從傳統(tǒng)人工評分準則入手,模擬人工評分方式,仍然從內(nèi)容、條理、語言三方面對作文水平進行評估,在評分過程中采用自然語言處理技術(shù)、機器學習和人工智能方法,使得系統(tǒng)的評分能夠接近于人工評分,而又解決了人工評分存在主觀因素的影響,從而獲得準確而又客觀的機器評分;3、本發(fā)明能夠處理讀后感、看圖作文等多種主題限定性方式的作文。針對不同的主題作文,通過預先的收集同一主題作文文本語料和部分語料的人工評分,利用自然語言處理的技術(shù)對語料進行特征提取,同時利用機器學習和人工智能技術(shù)對特征和人工評分進行關系刻畫,得到系統(tǒng)評分模型,通過評分模型對待評測的作文進行自動作文評分。
圖1為本發(fā)明漢語作文自動測試方法的總流程框圖;圖2為本發(fā)明實施例漢語作文自動測試方法中主題內(nèi)容特征提取步驟的流程框圖;圖3為本發(fā)明實施例漢語作文自動測試方法中條理結(jié)構(gòu)特征提取步驟的流程框圖;圖4為本發(fā)明實施例漢語作文自動測試方法中語言表達特征提取步驟的流程框圖。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。對本發(fā)明漢語作文自動測試方法及系統(tǒng)的原理及與傳統(tǒng)人工作文評分的關系進行說明。在傳統(tǒng)的人工作文評分中,是通過評卷人對作文的直觀印象來給予得分的,但是評分準則的存在,也在很大程度了限制了人工評分的自由性,從而使得評分更加客觀而合理。 因此,針對這種傳統(tǒng)的人工評分理念,本發(fā)明漢語作文自動測試方法也依據(jù)評分準則,從內(nèi)容、條理、語言三個方面來對作文進行衡量,力求得到自動評分結(jié)果符合人工評分的本質(zhì)。圖1為本發(fā)明漢語作文自動測試方法的總流程框圖。如圖1所示,本發(fā)明漢語作文自動測試方法主要由以下幾個流程組成預處理過程(包括作文文本訓練語料和作文文本待評語料);用作文文本訓練語料進行內(nèi)容、條理、語言三方面特征的建模和特征抽取過程;用建好的模型進行作文文本待評語料進行內(nèi)容、條理、語言三方面特征的提取,并結(jié)合人工評分進行回歸擬合分析,最終進行評分的過程。以下結(jié)合圖1及圖2-4對發(fā)明的各步驟進行具體闡述。一、預處理過程首先,通過電腦的輸入獲得作文語料的作文文本語料;其次,對獲取的作文文本語料做標準化處理,也即去除文本文件中的亂碼字符,同時對各類標點做統(tǒng)一編碼處理,對作文文本語料中無意義的符號進行去除,對作文文本語料中無意義的漢字亂碼進行去除;最后,對標準化的作文語料做分詞以及詞性標注處理(采用中國科學院自動化研究所吳友政的分詞標注系統(tǒng))。這樣就獲得了預處理標準化后的作文文本語料,該文本包含了考試所寫的標題、字詞、標點、句子、段落等全部的完整信息。其中,此處的作文文本語料包括了作文文本訓練語料和作文文本待評語料。二、特征模型構(gòu)建和特征提取過程從主題內(nèi)容、條理結(jié)構(gòu)、語言表達三方面進行特征模型的構(gòu)建和提取。主題內(nèi)容特征模型采用基于潛在語義分析的方法,用標準的映射方法,和序列映射方法,提取出共計2 維主題內(nèi)容特征;條理結(jié)構(gòu)模型采用簡單的基于統(tǒng)計的方法,提取出7維條理結(jié)構(gòu)特征;語言表達特征模型分為兩部分,基于統(tǒng)計的方法,按相關度大小進行特征選擇,保留相關度較大的特征,而基于詞匯評分的方法,按三種詞匯評分估計方法的不同,計算得到3維的語言表達特征。將以上各類特征進行總結(jié),得到作文評分中的文本特征向量。2. 1主題內(nèi)容特征模型圖2為本發(fā)明實施例漢語作文自動測試方法中主題內(nèi)容特征提取步驟的流程框圖。如圖2所示,基于潛在語義分析所構(gòu)建的主題內(nèi)容特征分析模型,其建模和特征提取方法步驟如下步驟1 主題內(nèi)容特征模型預處理。將經(jīng)過前一步預處理后的作文文本訓練語料進行標點符號和停用詞的去除,僅保留能夠表達主題內(nèi)容的詞匯。步驟2 選取上一步得到的作文文本訓練語料η篇,作為潛在語義空間的訓練文本,訓練此作文主題下的潛在語義空間,得到空間映射函數(shù)。此空間訓練語料可以選用任意同一主題作文。實際中,考慮到η過大的情況下,基于奇異值分解(SVD)方法的運算量將使得普通電腦難以承受,而且大量的語料訓練潛在語義空間并不必要,η值可以適當選取。步驟3 將作文文本語料映射到潛在語義空間中,得到潛在語義向量。有兩種映射方法,將在后面的小節(jié)中介紹。步驟4:以作文文本訓練語料的潛在語義向量作為特征,并配合以人工評分數(shù)據(jù), 構(gòu)建支持向量機回歸模型,以此作為主題內(nèi)容特征模型。支持向量回歸分析選用徑向基核函數(shù)。通過對訓練集采用交叉驗證的方式,獲得支持向量回歸的最優(yōu)參數(shù)。以此參數(shù)和訓練集數(shù)據(jù),構(gòu)建支持向量回歸模型。步驟5 以作文文本待評語料的潛在語義向量作為特征,通過上面建立的主題內(nèi)容特征模型,計算待評測作文的主題內(nèi)容特征。以上過程即可構(gòu)建主題內(nèi)容特征模型,并實現(xiàn)作文主題內(nèi)容特征的提取。2. 1. 1基于截斷奇異值分解(tSVD)的潛在語義空間訓練對傳統(tǒng)的空間向量模型VSM進行降維處理,采用潛在語義空間表示的方法,其空間訓練方法步驟如下步驟1 選取一定規(guī)模的作文文本訓練語料進行潛在語義空間訓練模型。要求從全語料中隨機的選取數(shù)據(jù),能夠盡量涵蓋此主題作文,而不會產(chǎn)生某一方面的數(shù)據(jù)偏差。步驟2 對選出的作文文本語料進行詞匯和文檔的統(tǒng)計,建立一個詞匯-文檔矩陣 X。即在矩陣中,每一列代表一篇作文,包含此作文中所有出現(xiàn)過的詞匯;每一行代表一個詞匯,包含所有出現(xiàn)過此詞匯的作文。Xnxp = [doc” doc2,…,docp] = [term” term2,…,termn]T矩陣的元素由詞匯權(quán)重表示,可以釆用詞頻(term frequency)和倒排詞頻(term frequency-inverse document frequency)進行計算。tf的統(tǒng)計方式為'Hij是詞匯i在第j篇文檔中出現(xiàn)的次數(shù)。tf-idf的統(tǒng)計方式為
權(quán)利要求
1.一種漢語作文自動測試方法,其特征在于,包括步驟A 輸入作文文本待評語料,對所述作文文本待評語料進行預處理; 步驟B 通過所述主題內(nèi)容模型、條理結(jié)構(gòu)模型和語言表達特征模型對預處理后的作文文本待評語料提取主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達特征;步驟C 對所提取的主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達特征用所述評分方程進行計算,獲得所述漢語作文的自動評分結(jié)果。
2.根據(jù)權(quán)利要求1所述的漢語作文自動測試方法,其特征在于,所述步驟A之前還包括步驟A'輸入作文文本訓練語料,對所述作文文本訓練語料進行預處理,所述預處理的步驟與所述步驟A中預處理的步驟相同步驟B'建立主題內(nèi)容模型、條理結(jié)構(gòu)模型、語言表達特征模型;并通過三個所述模型對所述預處理后的作文文本訓練語料進行主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達特征的提取,所述特征提取的步驟與步驟B中特征提取的步驟相同;步驟C'依據(jù)對作文文本訓練語料所提取的特征和其人工評分進行評分的線性擬合, 得到評分方程,其中,所述作文文本待評語料和所述作文文本訓練語料統(tǒng)稱為作文文本語料。
3.根據(jù)權(quán)利要求2所述的漢語作文自動測試方法,其特征在于,所述步驟A和步驟A' 中對作文文本語料進行預處理包括步驟Al 對作文文本語料進行非標準字符集的修改和去除; 步驟A2 對作文文本語料中無意義的符號進行去除; 步驟A3 對作文文本語料中無意義的漢字亂碼進行去除; 步驟A4 對作文文本語料進行漢字分詞處理。
4.根據(jù)權(quán)利要求2所述的漢語作文自動測試方法,其特征在于,所述步驟B和步驟B’ 中通過所述主題內(nèi)容模型對預處理后的作文文本語料提取主題內(nèi)容特征包括步驟Bla 用預處理后作文文本語料進行潛在語義分析空間訓練; 步驟Blb 將潛在語義分析空間訓練后的作文文本語料映射到潛在語義空間中,映射的方式為以下方式其中之一 1、潛在語義分析中以全文為文檔單元的方式;或2、基于序列潛在語義分析的以小于全文為文檔單元的方式;步驟Blc 對同主題作文文本語料映射得到的潛在語義向量與對應的人工文本打分進行支持向量回歸分析,得到主題內(nèi)容模型;步驟Bid:用此主題內(nèi)容模型對作文文本語料進行主題內(nèi)容模型特征的提取,得到主題內(nèi)容特征。
5.根據(jù)權(quán)利要求4所述的漢語作文自動測試方法,其特征在于,所述步驟Blb中采用映射方式2將同主題作文文本語料映射到潛在語義空間包括Blbl 將單篇的作文文本語料文本切分為η份,每一份分別映射到潛在語義空間中; Blb2 將得到的映射向量進行原順序的重組合,得到此篇作文文本保留序列信息的潛在語義向量。
6.根據(jù)權(quán)利要求4所述的漢語作文自動測試方法,其特征在于,所述步驟Blc中對得到的潛在語義向量與對應的作文文本語料的人工評分進行支持向量回歸分析,得到主題內(nèi)容模型,包括Blcl 支持向量回歸分析的核函數(shù)選用徑向基核函數(shù),對訓練語料進行交叉驗證實驗, 得到最優(yōu)的支持向量回歸分析參數(shù);Blc2 將所得參數(shù)用于主題內(nèi)容模型中。
7.根據(jù)權(quán)利要求2所述的漢語作文自動測試方法,其特征在于,所述步驟B和步驟B‘ 中通過所述條理結(jié)構(gòu)模型提取預處理后的作文文本語料的條理結(jié)構(gòu)特征包括步驟B2a 提取預處理后的作文文本語料的長度; 步驟B2b 提取預處理后的作文文本語料的句子數(shù); 步驟B2c 提取預處理后的作文文本語料的段落數(shù); 步驟B2d 提取預處理后的作文文本語料的平均句長; 步驟B2e 提取預處理后的作文文本語料的句長變化度; 步驟B2f 提取預處理后的作文文本語料的平均段長; 步驟B2e 提取預處理后的作文文本語料的段長變化度,其中,條理結(jié)構(gòu)特征模型即為基于統(tǒng)計的方法提取以上各種特征的模型,而這些特征也即構(gòu)成了條理結(jié)構(gòu)特征。
8.根據(jù)權(quán)利要求2所述的漢語作文自動測試方法,其特征在于,所述步驟B和步驟B‘ 中通過所述語言表達特征模型提取預處理后的作文文本語料的語言表達特征中,所述語言表達特征模型包括以下兩個模型B3,基于淺表統(tǒng)計的語言表達特征模型;和B3',基于詞匯評分的語言表達特征模型。
9.依據(jù)權(quán)利要求8所述的漢語作文自動測試方法,其特征在于,所述步驟B和步驟B‘ 中通過基于淺表統(tǒng)計的語言表達特征模型提取預處理后的作文文本語料的語言表達特征包括步驟B3a:對預處理后的作文文本訓練語料進行用詞詞匯豐富度的統(tǒng)計,所述詞匯豐富度是指單篇作文中采用的不同詞匯數(shù)目;步驟B3b 對預處理后的作文文本訓練語料統(tǒng)計其中各類詞性所包含的詞匯的數(shù)目、 統(tǒng)計詞匯中各類詞性所包含的不同詞匯的數(shù)目;步驟B3c 在所述作文文本訓練語料中采用交叉驗證的方式,計算以上所得特征與人工評分相關度,保留相關度較大的特征,作為當前模型所提取的特征,其中,所述基于淺表統(tǒng)計的語言表達特征模型即為通過特征選擇方法統(tǒng)計和選擇以上所述各個特征的模型,而最終選取的特征即為此模型所提取的語言表達特征。
10.依據(jù)權(quán)利要求8所述的漢語作文自動測試方法,其特征在于,所述步驟B和步驟 B'中通過所述基于詞匯評分的語言表達特征模型提取所述預處理后的作文文本語料的語言表達特征包括步驟B3' a 通過人工評分的訓練語料估計每個詞匯的評分,得到基于詞匯評分的語言表達特征模型;步驟B3' b 通過每個詞匯的估計評分,對待評作文的每個詞匯評分進行線性加權(quán),得到基于詞匯評分的語言表達特征。
11.依據(jù)權(quán)利要2所述的漢語作文自動測試方法,其特征在于,所述步驟C'包括依據(jù)對作文文本訓練語料所提取的特征和其人工評分進行最小二乘法的線性擬合,得到對于主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達特征的評分方程。
12.依據(jù)權(quán)利要求2中所述的漢語作文自動測試方法,其特征在于,所述步驟A'和所述步驟A中的作文文本訓練語料和作文文本待評語料均為同一主題語料。
13.—種漢語作文自動測試系統(tǒng),其特征在于,包括 預處理裝置,用于對輸入的作文文本待評語料進行預處理;特征提取裝置,用于通過預設的主題內(nèi)容模型、條理結(jié)構(gòu)模型和語言表達特征模型對預處理后的作文文本待評語料進行主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達特征提取,所述主題內(nèi)容模型、條理結(jié)構(gòu)模型、語言表達特征模型為根據(jù)預處理后的作文文本訓練語料建立的;自動評分裝置,用于對所提取的特征用預設的評分方程進行計算,獲得所述漢語作文的自動評分結(jié)果,所述評分方程為依據(jù)對作文文本訓練語料所提取的特征和其人工評分進行評分的線性擬合獲取的。
14.根據(jù)權(quán)利要求13所述的漢語作文自動測試系統(tǒng),其特征在于, 所述特征提取裝置與所述輸入裝置相連接;所述自動評分裝置與所述特征提取裝置相連接。
15.根據(jù)權(quán)利要求13所述的漢語作文自動測試系統(tǒng),其特征在于,所述特征提取裝置包括潛在語義分析空間訓練模塊,用于對預處理后作文文本語料進行潛在語義分析空間訓練;映射模塊,用于將潛在語義分析空間訓練后的作文文本語料映射到潛在語義空間中, 映射的方式為以下方式其中之一 1、潛在語義分析中以全文為文檔單元的方式;或2、基于序列潛在語義分析的以小于全文為文檔單元的方式;主題內(nèi)容模型模塊,用于對同主題作文文本語料映射得到的潛在語義向量與對應的人工文本打分進行支持向量回歸分析,得到主題內(nèi)容模型;主題內(nèi)容特征提取模塊,用于用所述主題內(nèi)容模型對作文文本語料進行主題內(nèi)容模型特征的提取,得到主題內(nèi)容特征。
16.根據(jù)權(quán)利要求13所述的漢語作文自動測試系統(tǒng),其特征在于,所述特征提取裝置還包括長度特征提取模塊,用于提取預處理后的作文文本語料的長度; 句子書特征提取模塊,用于提取預處理后的作文文本語料的句子數(shù); 段落數(shù)特征提取模塊,用于提取預處理后的作文文本語料的段落數(shù); 平均句長特征提取模塊,用于提取預處理后的作文文本語料的平均句長; 句長變化度特征提取模塊,用于提取預處理后的作文文本語料的句長變化度; 平均段長特征提取模塊,用于提取預處理后的作文文本語料的平均段長; 段長變化度特征提取模塊,用于提取預處理后的作文文本語料的段長變化度, 其中,條理結(jié)構(gòu)特征模型即為基于統(tǒng)計的方法提取以上各種特征的模型,而這些特征也即構(gòu)成了條理結(jié)構(gòu)特征。
17.根據(jù)權(quán)利要求13所述的漢語作文自動測試系統(tǒng),其特征在于,所述特征提取裝置中,所述語言表達特征模型包括以下兩個模型基于淺表統(tǒng)計的語言表達特征模型;和基于詞匯評分的語言表達特征模型。
全文摘要
本發(fā)明公開了一種漢語作文自動測試方法及系統(tǒng)。該方法包括步驟A輸入作文文本待評語料,對作文文本待評語料進行預處理;步驟B通過主題內(nèi)容模型、條理結(jié)構(gòu)模型和語言表達特征模型對預處理后的作文文本待評語料提取主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達特征;步驟C對所提取的主題內(nèi)容特征、條理結(jié)構(gòu)特征、語言表達特征用評分方程進行計算,獲得漢語作文的自動評分結(jié)果。本發(fā)明減少大規(guī)模漢語作文水平測試中的人力物力投入,并實現(xiàn)了評分的客觀化。
文檔編號G06F17/30GK102279844SQ20111025585
公開日2011年12月14日 申請日期2011年8月31日 優(yōu)先權(quán)日2011年8月31日
發(fā)明者彭星源, 徐波, 柯登峰, 王士進, 陳振標 申請人:中國科學院自動化研究所