一種口語考試偏題檢測方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種口語考試偏題檢測方法及裝置。
【背景技術(shù)】
[0002]近年來隨著社會經(jīng)濟的不斷發(fā)展和全球化趨勢的加劇,人們對語言學習的熱情達到了前所未有的高度。相應(yīng)的作為檢測教學質(zhì)量、檢驗學習效果的語言評測對評估客觀性、公正性以及規(guī)?;瘻y試的評估效率也提出了越來越高的要求。
[0003]現(xiàn)有的計算機自動評分技術(shù)更多關(guān)注的是考試的語音學方面的相關(guān)特征,這樣一來,考生在回答問題時只需要發(fā)音流利清晰,評分系統(tǒng)都會給出一定的分數(shù)。,會有一些能力較差考生提前熟練背誦一些常用的文本,也能從系統(tǒng)中得到一個分數(shù),導(dǎo)致口語考試評分的公平性受到嚴重影響。
【發(fā)明內(nèi)容】
[0004]為了解決上述問題,本發(fā)明實施例提供了一種口語考試偏題檢測方法及裝置。所述技術(shù)方案如下:
[0005]一方面,提供了一種口語考試偏題檢測方法,所述方法包括:
[0006]根據(jù)考生的答題音頻文件和對應(yīng)考題信息,識別出考生的答題文本序列;
[0007]通過對所述考生答題文本序列進行語義分析,提取考生的語義特征;
[0008]對所述考生答題文本序列進行詞性標注,生成答題文本的語法樹,根據(jù)所述語法樹特征,提取考生的語法特征;
[0009]根據(jù)所述考生的語義特征、所述考生的語法特征以及考題信息,檢測所述考生的答題是否偏離考題范圍。
[0010]可選地,根據(jù)考生的答題音頻文件和對應(yīng)考題信息,識別出考生的答題文本序列包括:
[0011]根據(jù)考生的答題音頻文件和對應(yīng)考題信息,獲取考生的語言特征,并通過語言解析生成關(guān)鍵詞庫和同義詞庫;
[0012]根據(jù)所述考生的語言特征,利用預(yù)設(shè)語言模型和聲學模型,識別出考生的答題文本序列。
[0013]可選地,通過對所述考生答題文本序列進行語義分析,提取考生的語義特征包括:
[0014]對所述考生的答題文本序列進行語義分析,提取考生的語義特征,所述考生的語義特征至少包括:基于所述關(guān)鍵詞庫和所述同義詞庫計算的考生的答題文本的關(guān)鍵詞分布特征,以及利用詞向量方法計算的文本相似度特征。
[0015]可選地,基于所述關(guān)鍵詞庫和所述同義詞庫計算考生的答題文本的關(guān)鍵詞分布特征包括:
[0016]基于所述關(guān)鍵詞庫和所述同義詞庫,根據(jù)向量空間模型,計算關(guān)鍵詞向量;
[0017]基于所述關(guān)鍵詞庫和所述同義詞庫,結(jié)合所述考生的答題文本系列,將兩者數(shù)量比例作為關(guān)鍵詞分布特征。
[0018]可選地,利用詞向量方法計算文本相似度特征包括:
[0019]基于所述關(guān)鍵詞和近義,計算考生答案的TF-1DF矢量特征,再利用淺層語義分析模型提取語義特征矢量,使用所述語義特征計算考生的答題文本相似度特征矢量;
[0020]使用考題信息以及考生答題音頻文件,建立WOrd2VeC模型,得到考題和考生答案的詞向量,通過計算詞向量間的距離,得到考生答題的文本相似度特征。
[0021]可選地,根據(jù)所述考生的語義特征、所述考生的語法特征以及考題信息,檢測所述考生的答題是否偏離考題范圍包括:
[0022]利用多元線性回歸方法,根據(jù)所述考生的語義特征、所述考生的語法特征以及考題信息,計算考生的答題范圍;當計算的考生答題范圍大于預(yù)設(shè)值時,認為考生的答題偏離考題范圍;當計算的考生答題范圍小于預(yù)設(shè)值時,認為考生的答題未偏離考題范圍。
[0023]另一方面,提供了一種口語考試偏題檢測裝置,所述裝置包括:
[0024]文本序列識別模塊,用于根據(jù)考生的答題音頻文件和對應(yīng)考題信息,識別出考生的答題文本序列;
[0025]語義特征提取模塊,用于通過對所述考生答題文本序列進行語義分析,提取考生的語義特征;
[0026]語法特征提取模塊,用于所述考生答題文本序列進行詞性標注,生成答題文本的語法樹,根據(jù)所述語法樹特征,提取考生的語法特征;
[0027]偏題判斷模塊,用于根據(jù)所述考生的語義特征、所述考生的語法特征以及考題信息,檢測所述考生的答題是否偏離考題范圍。
[0028]可選地,所述文本序列識別模塊用于根據(jù)考生的答題音頻文件和對應(yīng)考題信息,獲取考生的語言特征,并通過語言解析生成關(guān)鍵詞庫和同義詞庫;根據(jù)所述考生的語言特征,利用預(yù)設(shè)語言模型和聲學模型,識別出考生的答題文本序列。
[0029]可選地,所述語義特征提取模塊用于對所述考生的答題文本序列進行語義分析,提取考生的語義特征,所述考生的語義特征至少包括:基于所述關(guān)鍵詞庫和所述同義詞庫計算的考生的答題文本的關(guān)鍵詞分布特征,以及利用詞向量裝置計算的文本相似度特征;基于所述關(guān)鍵詞庫和所述同義詞庫計算考生的答題文本的關(guān)鍵詞分布特征包括:基于所述關(guān)鍵詞庫和所述同義詞庫,根據(jù)向量空間模型,計算關(guān)鍵詞向量;基于所述關(guān)鍵詞庫和所述同義詞庫,結(jié)合所述考生的答題文本系列,將兩者數(shù)量比例作為關(guān)鍵詞分布特征;利用詞向量裝置計算文本相似度特征包括:基于所述關(guān)鍵詞和近義,計算考生答案的TF-1DF矢量特征,再利用淺層語義分析模型提取語義特征矢量,使用所述語義特征計算考生的答題文本相似度特征矢量;使用考題信息以及考生答題音頻文件,建立Word2vec模型,得到考題和考生答案的詞向量,通過計算詞向量間的距離,得到考生答題的文本相似度特征。
[0030]可選地,所述偏題判斷模塊用于利用多元線性回歸裝置,根據(jù)所述考生的語義特征、所述考生的語法特征以及考題信息,計算考生的答題范圍;當計算的考生答題范圍大于預(yù)設(shè)值時,認為考生的答題偏離考題范圍;當計算的考生答題范圍小于預(yù)設(shè)值時,認為考生的答題未偏離考題范圍。
[0031]本發(fā)明實施例提供的技術(shù)方案帶來的有益效果是:
[0032]通過提取考生答題音頻文件的語義特征和語法特征,并以這些特征為基礎(chǔ)客觀地檢測考生答案是否偏離考題范圍,為口語考試的評分提供有力的幫助,提高了口語考試的公平性和準確性。
【附圖說明】
[0033]為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0034]圖1是本發(fā)明實施例提供的口語考試偏題檢測方法流程圖;
[0035]圖2是本發(fā)明實施例提供的口語考試偏題檢測裝置結(jié)構(gòu)示意圖。
【具體實施方式】
[0036]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方式作進一步地詳細描述。
[0037]圖1是本發(fā)明實施例提供的口語考試偏題檢測方法的流程圖。參見圖1,該方法包括:
[0038]101、根據(jù)考生的答題音頻文件和對應(yīng)考題信息,識別出考生的答題文本序列;
[0039]其中,該考生的答題文本序列可以包括詞級序列和音素級序列等。
[0040]在本發(fā)明實施例中,根據(jù)考生的答題音頻文件和對應(yīng)考題信息,識別出考生的答題文本序列包括:根據(jù)考生的答題音頻文件和對應(yīng)考題信息,獲取考生的語言特征,并通過語言解析生成關(guān)鍵詞庫和同義詞庫;根據(jù)該考生的語言特征,利用預(yù)設(shè)語言模型和聲學模型,識別出考生的答題文本序列。
[0041]102、通過對該考生答題文本序列進行語義分析,提取考生的語義特征;
[0042]在本發(fā)明實施例中,通過對該考生答題文本序列進行語義分析,提取考生的語義特征包括:對該考生的答題文本序列進行語義分析,提取考生的語義特征,該考生的語義特征至少包括:基于該關(guān)鍵詞庫和該同義詞庫計算的考生的答題文本的關(guān)鍵詞分布特征,以及利用詞向量方法計算的文本相似度特征。
[0043]其中,在本發(fā)明實施例中,基于該關(guān)鍵詞庫和該同義詞庫計算考生的答題文本的關(guān)鍵詞分布特征包括:基于該關(guān)鍵詞庫和該同義詞庫,根據(jù)向量空間模型,計算關(guān)鍵詞向量;基于該關(guān)鍵詞庫和該同義詞庫,結(jié)合該考生的答題文本系列,將兩者數(shù)量比例作為關(guān)鍵詞分布特征。
[0044]其中,在本發(fā)明實施例中,利用詞向量方法計算文本相似度特征包括:基于該關(guān)鍵詞和近義,計算考生答案的TF-1DF矢量特征,再利用淺層語義分析模型提取語義特征矢量,使用該語義特征計算考生的答題文本相似度特征矢量;使用考題信息以及考生答題音頻文件,建立word2vec模型,得到考題和考生答案的詞向量,通過計算詞向量間的距離,得到考生答題的文本相似度特征。
[0045]103、對該考生答題文本序列進行詞性標注,生成答題文本的語法樹,根據(jù)該語法樹特征,提取考生的語法特征;
[0046]在本發(fā)明實施例中,可以利用詞性標注方法,使用基于概率的上下文無關(guān)語法方法,生成答案文本的語法樹,根據(jù)語法樹的形狀大小等特征,提取出用于檢測答案的語法特征。
[0047]104、根據(jù)該考生的語義特征、該考生的語法特征以及考題信息,檢測該考生的答題是否偏離考題范圍。
[0048]在本發(fā)明實施例中,利用多元線性回歸方法,根據(jù)該考生的語義特征、該考生的語法特征以及考題信息,計算考生的答題范圍;當計算的考生答題范圍