專利名稱:檢測口語考試作弊的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及ー種檢測ロ語考試作弊的方法及系統(tǒng)。
背景技術(shù):
近年來隨著社會(huì)經(jīng)濟(jì)的不斷發(fā)展和全球化趨勢的加劇,人們對(duì)語言學(xué)習(xí)的熱情達(dá)到了前所未有的高度。相應(yīng)的作為檢測教學(xué)質(zhì)量、檢驗(yàn)學(xué)習(xí)效果的語言評(píng)測對(duì)評(píng)估客觀性、公正性以及規(guī)?;瘻y試的評(píng)估效率也提出了越來越高的要求。傳統(tǒng)的基于人工打分的ロ語水平評(píng)測方法使教師和學(xué)生在教學(xué)時(shí)間和空間上受到很大限制,在師資力量、教學(xué)場地、經(jīng)費(fèi)支出等方面也存在諸多硬件上的差距和不平衡,對(duì)此基于計(jì)算機(jī)的大規(guī)模ロ語測試開始流行,出現(xiàn)了諸如四六級(jí)考試、TOFEL機(jī)考等。然而隨著基于計(jì)算機(jī)的大規(guī)模ロ語測試的普及和推廣,作弊替考的事件也時(shí)有發(fā)生。在傳統(tǒng)考試中對(duì)考試作弊檢測主要還是通過監(jiān)考人員現(xiàn)場監(jiān)瞀的方式,然而如果無法及時(shí)在當(dāng)場發(fā)現(xiàn)事后基本沒有方法再去檢測。
發(fā)明內(nèi)容
本發(fā)明提供一種檢測ロ語考試作弊的方法及系統(tǒng),以保證在監(jiān)考階段沒有監(jiān)考人員監(jiān)測到,也可以在成績發(fā)布之前進(jìn)行快速、精確的作弊檢測,保證ロ語考試的公平客觀性。為此,本發(fā)明提供如下技術(shù)方案一種檢測ロ語考試作弊的方法,包括提取所有考生的考生語音數(shù)據(jù),所述考生語音數(shù)據(jù)包括考試前的測試音數(shù)據(jù)和考題錄音數(shù)據(jù);根據(jù)所述考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集;根據(jù)所述考生的疑似作弊數(shù)據(jù)集對(duì)所述考生的考生語音數(shù)據(jù)進(jìn)行復(fù)測,得到作弊檢測結(jié)果。優(yōu)選地,所述根據(jù)所述考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集包括針對(duì)每個(gè)考生,從所述考生的考生語音數(shù)據(jù)中提取比對(duì)特征;基于所述比對(duì)特征確定所述考生語音數(shù)據(jù)的代表模型;根據(jù)所述代表模型計(jì)算不同考生語音數(shù)據(jù)之間的距離;根據(jù)所述不同考生語音數(shù)據(jù)之間的距離確定所述考生的疑似作弊數(shù)據(jù)集。優(yōu)選地,所述基于所述比對(duì)特征確定所述考生語音數(shù)據(jù)的代表模型包括提取所述考生語音數(shù)據(jù)中比對(duì)特征矢量集合的類中心作為所述考生語音數(shù)據(jù)的代表模型;或者利用所述考生語音數(shù)據(jù)中比對(duì)特征矢量集合訓(xùn)練得到一個(gè)高斯混合模型,并將所述高斯混合模型作為所述考生語音數(shù)據(jù)的代表模型??蛇x地,所述根據(jù)所述不同考生語音數(shù)據(jù)之間的距離確定所述考生的疑似作弊數(shù)據(jù)集包括選擇與所述考生的考生語音數(shù)據(jù)距離小于設(shè)定距離門限的數(shù)據(jù)生成所述考生的疑似作弊數(shù)據(jù)集;或者選擇與所述考生的考生語音數(shù)據(jù)距離最小的前預(yù)定個(gè)數(shù)的數(shù)據(jù)生成所述考生的疑似作弊數(shù)據(jù)集。優(yōu)選地,所述方法還包括在根據(jù)所述考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集之前,從提取的所有考生的考生語音數(shù)據(jù)中篩選出需要比對(duì)的考生語音數(shù)據(jù);所述根據(jù)所述考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集包括根據(jù)所述需要比對(duì)的考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集??蛇x地,所述從提取的所有考生的考生語音數(shù)據(jù)中篩選出需要比對(duì)的考生語音數(shù)據(jù)包括從提取的所有考生的考生語音數(shù)據(jù)中篩選出考分高于設(shè)定的分值門限的考生語音數(shù)據(jù)作為需要比對(duì)的考生語音數(shù)據(jù);或者從提取的所有考生的考生語音數(shù)據(jù)中篩選出考生有效語音數(shù)據(jù)量高于設(shè)定的數(shù)據(jù)規(guī)模門限的考生語音數(shù)據(jù)作為需要比對(duì)的考生語音數(shù)據(jù);或者從提取的所有考生的考生語音數(shù)據(jù)中篩選出考分高于設(shè)定的分值門限并且考生有效語音量高于設(shè)定的數(shù)據(jù)規(guī)模門限的考生語音數(shù)據(jù)作為需要比對(duì)的考生語音數(shù)據(jù)??蛇x地,所述根據(jù)所述考生的疑似作弊數(shù)據(jù)集對(duì)所述考生的考生語音數(shù)據(jù)進(jìn)行復(fù)測,得到作弊檢測結(jié)果包括基于考題錄音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度;如果所述相關(guān)度高于設(shè)定的作弊分值門限,則確定所述考生的考生語音數(shù)據(jù)為作弊數(shù)據(jù)??蛇x地,所述根據(jù)所述考生的疑似作弊數(shù)據(jù)集對(duì)所述考生的考生語音數(shù)據(jù)進(jìn)行復(fù)測,得到作弊檢測結(jié)果包括基于考題錄音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度;基于測試音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度;對(duì)基于考題錄音數(shù)據(jù)計(jì)算得到的相關(guān)度和基于測試音數(shù)據(jù)計(jì)算得到的相關(guān)度進(jìn)行融合,得到綜合得分;如果所述綜合得分高于設(shè)定的作弊分值門限,則確定所述考生的考生語音數(shù)據(jù)為作弊數(shù)據(jù)。一種檢測ロ語考試作弊的系統(tǒng),包括數(shù)據(jù)提取模塊,用于提取所有考生的考生語音數(shù)據(jù),所述考生語音數(shù)據(jù)包括考試前的測試音數(shù)據(jù)和考題錄音數(shù)據(jù);疑似數(shù)據(jù)確定模塊,用于根據(jù)所述考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集;復(fù)測模塊,用于根據(jù)所述考生的疑似作弊數(shù)據(jù)集對(duì)所述考生的考生語音數(shù)據(jù)進(jìn)行復(fù)測,得到作弊檢測結(jié)果。優(yōu)選地,所述疑似數(shù)據(jù)確定模塊包括特征提取単元,用于針對(duì)每個(gè)考生,從所述考生的考生語音數(shù)據(jù)中提取比對(duì)特征;代表模型確定單元,用于基于所述比對(duì)特征確定所述考生語音數(shù)據(jù)的代表模型;距離計(jì)算單元,用于根據(jù)所述代表模型計(jì)算不同考生語音數(shù)據(jù)之間的距離;疑似數(shù)據(jù)確定単元,用于根據(jù)所述不同考生語音數(shù)據(jù)之間的距離確定所述考生的疑似作弊數(shù)據(jù)集??蛇x地,所述代表模型確定單元,具體用于提取所述考生語音數(shù)據(jù)中比對(duì)特征矢量集合的類中心作為所述考生語音數(shù)據(jù)的代表模型;或者利用所述考生語音數(shù)據(jù)中比對(duì)特征矢量集合訓(xùn)練得到一個(gè)高斯混合模型,并將所述高斯混合模型作為所述考生語音數(shù)據(jù)的代表模型??蛇x地,所述疑似數(shù)據(jù)確定単元,具體用于選擇與所述考生的考生語音數(shù)據(jù)距離小于設(shè)定距離門限的數(shù)據(jù)生成所述考生的疑似作弊數(shù)據(jù)集;或者選擇與所述考生的考生語音數(shù)據(jù)距離最小的前預(yù)定個(gè)數(shù)的數(shù)據(jù)生成所述考生的疑似作弊數(shù)據(jù)集。優(yōu)選地,所述系統(tǒng)還包括數(shù)據(jù)篩選模塊,用于在所述疑似數(shù)據(jù)確定模塊根據(jù)所述考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集之前,從所述數(shù)據(jù)提取模塊提取的所有考生的考生語音數(shù)據(jù)中篩選出需要比對(duì)的考生語音數(shù)據(jù);所述疑似數(shù)據(jù)確定模塊,具體用于根據(jù)所述數(shù)據(jù)篩選模塊篩選出的需要比對(duì)的考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集??蛇x地,所述數(shù)據(jù)篩選模塊,具體用于從所述數(shù)據(jù)提取模塊提取的所有考生的考生語音數(shù)據(jù)中篩選出考分高于設(shè)定的分值門限的考生語音數(shù)據(jù)作為需要比對(duì)的考生語音數(shù)據(jù);或者從所述數(shù)據(jù)提取模塊提取的所有考生的考生語音數(shù)據(jù)中篩選出考生有效語音數(shù)據(jù)量高于設(shè)定的數(shù)據(jù)規(guī)模門限的考生語音數(shù)據(jù)作為需要比對(duì)的考生語音數(shù)據(jù);或者從所述數(shù)據(jù)提取模塊提取的所有考生的考生語音數(shù)據(jù)中篩選出考分高于設(shè)定的分值門限并且考生有效語音量高于設(shè)定的數(shù)據(jù)規(guī)模門限的考生語音數(shù)據(jù)作為需要比對(duì)的考生語音數(shù)據(jù)。
可選地,所述復(fù)測模塊包括第一計(jì)算單元,用于基于考題錄音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度;作弊數(shù)據(jù)確定単元,用于在所述相關(guān)度高于設(shè)定的作弊分值門限時(shí),確定所述考生的考生語音數(shù)據(jù)為作弊數(shù)據(jù)??蛇x地,所述復(fù)測模塊包括第一計(jì)算單元,用于基于考題錄音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度;第二計(jì)算單元,用于基于測試音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度;融合単元,用于對(duì)所述第一計(jì)算單元基于考題錄音數(shù)據(jù)計(jì)算得到的相關(guān)度和所述第二計(jì)算單元基于測試音數(shù)據(jù)計(jì)算得到的相關(guān)度進(jìn)行融合,得到綜合得分;
作弊數(shù)據(jù)確定単元,用于在所述綜合得分高于設(shè)定的作弊分值門限時(shí),確定所述考生的考生語音數(shù)據(jù)為作弊數(shù)據(jù)。本發(fā)明實(shí)施例提供的檢測ロ語考試作弊的方法及系統(tǒng),通過確定各考生的疑似作弊數(shù)據(jù)集,并精確計(jì)算復(fù)測作弊的可能性,不僅實(shí)現(xiàn)了對(duì)規(guī)模化ロ語考試作弊的快速檢測,而且在提高檢測效率的同時(shí)提高了檢測的準(zhǔn)確性。因此,即使在監(jiān)考階段沒有人為監(jiān)測到,也可以成績發(fā)布之前進(jìn)行快速精確的作弊檢測,并將結(jié)果反饋給相關(guān)人員,保證了 ロ語考試的公平客觀性。
為了更清楚地說明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明實(shí)施例檢測ロ語考試作弊的方法的流程圖;圖2是本發(fā)明實(shí)施例中根據(jù)考生的疑似作弊數(shù)據(jù)集對(duì)考生語音數(shù)據(jù)進(jìn)行復(fù)測的ー種流程圖;圖3是本發(fā)明實(shí)施例檢測ロ語考試作弊的系統(tǒng)的ー種結(jié)構(gòu)示意圖;圖4是本發(fā)明實(shí)施例檢測ロ語考試作弊的系統(tǒng)中疑似數(shù)據(jù)確定模塊的一種結(jié)構(gòu)示意圖;圖5是本發(fā)明實(shí)施例檢測ロ語考試作弊的系統(tǒng)中復(fù)測模塊的一種結(jié)構(gòu)示意圖;圖6是本發(fā)明實(shí)施例檢測ロ語考試作弊的系統(tǒng)中復(fù)測模塊的另ー種結(jié)構(gòu)示意圖;圖7是本發(fā)明實(shí)施例檢測ロ語考試作弊的系統(tǒng)的另一種結(jié)構(gòu)示意圖。
具體實(shí)施例方式為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實(shí)施例的方案,下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明實(shí)施例作進(jìn)ー步的詳細(xì)說明。ロ語考試作弊檢測即要確認(rèn)考試數(shù)據(jù)中是否存在多份雷同數(shù)據(jù),顯然如果采用精確算法對(duì)考試數(shù)據(jù)中每兩份數(shù)據(jù)進(jìn)行一一比對(duì),雖然準(zhǔn)確率得到了保障但由于計(jì)算代價(jià)較大,會(huì)耽誤整體閱卷的進(jìn)度,不適用于規(guī)?;荚嚨囊蟆7粗舨捎煤唵嗡惴▌t由于受到比對(duì)精度的限制,會(huì)導(dǎo)致作弊檢測毫無實(shí)施意義。為此,本發(fā)明實(shí)施例提供一種檢測ロ語考試作弊的方法及系統(tǒng),以保證在監(jiān)考階段沒有監(jiān)考人員監(jiān)測到,也可以在成績發(fā)布之前進(jìn)行快速、精確的作弊檢測,保證ロ語考試的公平客觀性。如圖1所示,是本發(fā)明實(shí)施例檢測ロ語考試作弊的方法的流程圖,包括以下步驟步驟101,提取所有考生的考生語音數(shù)據(jù),所述考生語音數(shù)據(jù)包括考試前的測試音數(shù)據(jù)和考題錄音數(shù)據(jù)。基于計(jì)算機(jī)的大規(guī)模ロ語考試中,通常為了檢查錄音設(shè)備是否正常,需要考生在正式考試前進(jìn)行ー個(gè)簡短的錄音,即錄制測試音,對(duì)于不同的考生,測試音具有相同的文本內(nèi)容但錄音時(shí)長往往較短,約在10秒左右。而考題錄音時(shí)長較長,但通常具有不同的文本內(nèi)容。
步驟102,根據(jù)所述考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集。由于考生語音數(shù)據(jù)通常為ー系列采樣點(diǎn),對(duì)其直接比對(duì)的數(shù)據(jù)規(guī)模過大,且噪音干擾較多。因此,可以先從所有考生的考生語音數(shù)據(jù)中提取比對(duì)特征,然后基于所述比對(duì)特征確定各考生的疑似作弊數(shù)據(jù)集。比如,可以米用諸如MFCC (Mel Frequency Cepstrum Coefficient, Mel 頻率倒譜系數(shù))、或PLP (Perceptual Linear Predictive,感知線性預(yù)測系數(shù))等聲學(xué)特征作為比對(duì)特征。具體地,可以對(duì)窗長25ms幀移IOms的每幀語音數(shù)據(jù)做短時(shí)分析得到MFCC參數(shù)或PLP參數(shù)。進(jìn)ー步地,為了描述語音的動(dòng)態(tài)變化,還可以在提取的靜態(tài)特征(即上述比對(duì)特征)上獲取相應(yīng)的ー階及ニ階差分特征作為補(bǔ)充特征。需要說明的是,為了降低運(yùn)算的復(fù)雜度及工作量,提高檢測效率,在本發(fā)明實(shí)施例中,還可以通過簡單條件過濾的方式從所有考生的考生語音數(shù)據(jù)中篩選出需要比對(duì)的考生語音數(shù)據(jù),然后再根據(jù)所述需要比對(duì)的考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集,即從所述需要比對(duì)的考生語音數(shù)據(jù)中提取比對(duì)特征,并基于所述比對(duì)特征確定各考生的疑似作弊數(shù)據(jù)集。所述需要比對(duì)的考生語音數(shù)據(jù)可以包括測試音數(shù)據(jù)和/或考題錄音數(shù)據(jù)。具體地,考慮到存在作弊可能的考生得分往往較高,因此可以篩選所有考分高于設(shè)定的分值門限(比如可以將成績?cè)?0%以上的最低分?jǐn)?shù)作為所述分值門限)、和/或考生有效語音數(shù)據(jù)量高于設(shè)定的數(shù)據(jù)規(guī)模門限(比如I分鐘的有效語音量)的考生語音數(shù)據(jù)作為需要比對(duì)的考生語音數(shù)據(jù)。所述有效語音是指考生有效的考題錄音,不包括靜音和噪聲。當(dāng)然,為了進(jìn)一步提高后續(xù)系統(tǒng)對(duì)語音信號(hào)的處理能力,還可以對(duì)篩選出的需要比對(duì)的考生語音數(shù)據(jù)進(jìn)行前端降噪預(yù)處理,消除語音信號(hào)中的噪聲,比如可以采用諸如維納濾波等技術(shù)對(duì)所述需要比對(duì)的考生語音數(shù)據(jù)進(jìn)行語音增強(qiáng)等處理。
由于每個(gè)考生語音數(shù)據(jù)都包括一系列比對(duì)特征矢量,對(duì)這一系列比對(duì)特征矢量采用諸如DTW (Dynamic Time Warping,動(dòng)態(tài)時(shí)間歸整)等動(dòng)態(tài)規(guī)劃的方法計(jì)算距離運(yùn)算復(fù)雜度較高,因此,在本發(fā)明實(shí)施例中,可以首先確定各考生語音數(shù)據(jù)的代表模型,即用ー個(gè)簡單模型模擬其發(fā)音特點(diǎn)。具體地,可以提取每個(gè)需要比對(duì)的考生語音數(shù)據(jù)中比對(duì)特征矢量集合的類中心(即比對(duì)特征矢量的均值)作為相應(yīng)的代表模型,或利用比對(duì)特征矢量集合訓(xùn)練得到一個(gè)GMM (Gaussian Mixture Model,高斯混合模型)作為相應(yīng)的代表模型。然后,計(jì)算不同考生語音數(shù)據(jù)之間的距離,具體地,如果是采用比對(duì)特征矢量集合的類中心作為考生語音數(shù)據(jù)的代表模型,則需要計(jì)算兩兩考生語音數(shù)據(jù)對(duì)應(yīng)的類中心的距離;如果是采用GMM模型作為考生語音數(shù)據(jù)的代表模型,則需要計(jì)算兩兩考生語音數(shù)據(jù)對(duì)應(yīng)的GMM模型的距離。具體計(jì)算方式可以采用各種常規(guī)的距離度量方法,比如歐式距離、K-L距離等,對(duì)此本發(fā)明實(shí)施例不做限定。最后,根據(jù)計(jì)算得到的不同考生語音數(shù)據(jù)之間的距離確定各考生的疑似作弊數(shù)據(jù)集。具體地,首先分別計(jì)算任意兩個(gè)考生的語音數(shù)據(jù)之間的距離,隨后選擇與當(dāng)前考生語音數(shù)據(jù)距離小于設(shè)定距離門限的數(shù)據(jù)作為當(dāng)前考生的疑似作弊數(shù)據(jù)集,或者選擇與當(dāng)前需要比對(duì)的考生語音數(shù)據(jù)距離最小的前N個(gè)數(shù)據(jù)作為考生的疑似作弊數(shù)據(jù)集。其中,距離門限和參數(shù)N可以預(yù)先設(shè)定。通過上述過程,可以對(duì)每個(gè)考生提供ー組疑似作弊數(shù)據(jù)列表,而且不同考生的疑似作弊數(shù)據(jù)列表可以重復(fù)(比如同一考生多次替考的情況)。
步驟103,根據(jù)所述考生的疑似作弊數(shù)據(jù)集對(duì)所述考生的考生語音數(shù)據(jù)進(jìn)行復(fù)測,得到作弊檢測結(jié)果。顯然考試作弊檢測出現(xiàn)誤報(bào)將是ー個(gè)嚴(yán)重的事故,為此,在本發(fā)明實(shí)施例中,進(jìn)ー步對(duì)上述步驟102中得到的針對(duì)每個(gè)考生的疑似作弊數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行確認(rèn),確定各考生的考題錄音數(shù)據(jù)和其疑似作弊數(shù)據(jù)集之間的相關(guān)性。具體地,可以基于考題錄音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度,如果所述相關(guān)度高于設(shè)定的作弊分值門限,則確定所述考生的考生語音數(shù)據(jù)為作弊數(shù)據(jù)。由于經(jīng)過初步篩選后獲得的疑似作弊數(shù)據(jù)集規(guī)模顯著下降,因此可以采用復(fù)雜的精確比對(duì)算法計(jì)算數(shù)據(jù)之間的相關(guān)度,并且可以采用多系統(tǒng)融合方法提高檢測精度,以避免單項(xiàng)技術(shù)確認(rèn)精度無法滿足真實(shí)應(yīng)用的需求。另外,為了進(jìn)ー步提高復(fù)測的準(zhǔn)確度,還可以綜合考慮基于考題錄音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度,以及基于測試音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度,來確定所述考生的考生語音數(shù)據(jù)是否為作弊數(shù)據(jù)。如圖2所示,是本發(fā)明實(shí)施例中根據(jù)考生的疑似作弊數(shù)據(jù)集對(duì)考生語音數(shù)據(jù)進(jìn)行復(fù)測的ー種流程圖,包括以下步驟步驟201,基于考題錄音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度。
在ロ語考試中,每個(gè)考生通常都有較長的答題音,即前面所述的考題錄音數(shù)據(jù),因此,可以根據(jù)所述考題錄音數(shù)據(jù)對(duì)各考生語音數(shù)據(jù)做進(jìn)一歩的檢測。具體過程如下(I)計(jì)算考生的考題錄音數(shù)據(jù)與所述考生的疑似作弊數(shù)據(jù)集中的數(shù)據(jù)的相關(guān)度。具體地,可以采用文本無關(guān)的說話人確認(rèn)技術(shù),分別確定所述疑似作弊數(shù)據(jù)集中的數(shù)據(jù)由所述考題錄音數(shù)據(jù)對(duì)應(yīng)的考生生成的可能性。比如,對(duì)于考生a的考題錄音數(shù)據(jù)A及對(duì)應(yīng)的疑似作弊數(shù)據(jù)集{B,C,D,E,F(xiàn)},將分別計(jì)算數(shù)據(jù)B,C,D,E,F(xiàn)相應(yīng)于數(shù)據(jù)A的相關(guān)度,即分別確定數(shù)據(jù)B,C,D,E,F(xiàn)是否由考生a生成并獲得相關(guān)度得分。在計(jì)算數(shù)據(jù)B相應(yīng)于數(shù)據(jù)A的相關(guān)度吋,首先利用數(shù)據(jù)A訓(xùn)練得到考生a的說話人模型Ma,隨后再計(jì)算數(shù)據(jù)
p{X B\M.)
B相對(duì)于考生a說話人模型的似然度p (Xb I Ma)或后驗(yàn)概率士 \ UBM)。其中UBM為通用
背景模型(Universal background model),由系統(tǒng)預(yù)先在大量數(shù)據(jù)上訓(xùn)練得到。進(jìn)ー步地,為了獲得更高的檢測精度,還可以采用融合多種不同的文本無關(guān)的說話人確認(rèn)技術(shù),即多說話人確認(rèn)技術(shù),分別采用不同的說話人確認(rèn)技術(shù)計(jì)算所述疑似作弊數(shù)據(jù)集中的各數(shù)據(jù)由所述考題錄音數(shù)據(jù)對(duì)應(yīng)的考生生成的可能性。比如,采用諸如基于GMM-UBM的說話人確認(rèn)方法、以及基于SVM (Support Vector Machine,支持向量機(jī))的說話人確認(rèn)方法等,分別計(jì)算考生的考題錄音數(shù)據(jù)與各疑似作弊數(shù)據(jù)集中的數(shù)據(jù)的相關(guān)度。需要說明的是,如果采用多說話人確認(rèn)技術(shù),則對(duì)每兩份數(shù)據(jù)均得到多個(gè)相關(guān)度??梢赃@多個(gè)相關(guān)度進(jìn)行融合,比如加權(quán)平均,得到對(duì)應(yīng)這兩份數(shù)據(jù)的相關(guān)度。
(2)獲取每兩份比較數(shù)據(jù)的相關(guān)度。通過上述過程(I ),對(duì)每ー個(gè)考生都將獲得該考生的考題錄音數(shù)據(jù)與疑似作弊數(shù)據(jù)集中的數(shù)據(jù)的相似度。顯然每個(gè)考生都將作為實(shí)際說話人以及替考人身份存在。比如,在對(duì)考生a的考題錄音數(shù)據(jù)及對(duì)應(yīng)的疑似作弊數(shù)據(jù)集{B,C,D,E,F(xiàn)}的考察中,主要考察實(shí)際考生a及其對(duì)考生b的數(shù)據(jù)B替考可能,即考生b作為被替考人存在。相應(yīng)地,在對(duì)考生b的考題錄音數(shù)據(jù)及對(duì)應(yīng)的疑似作弊數(shù)據(jù)集{A,C,D,E,F(xiàn)}的考察中,主要考察實(shí)際考生b及其對(duì)考生a的數(shù)據(jù)A的替考可能,即考生A作為被替考人存在。顯然對(duì)于考生a,b的組合,將獲得兩個(gè)相似度得分。如果采用多說話人確認(rèn)技術(shù),將得到2*N維的得分矢量,其中N是多說話人確認(rèn)技術(shù)中采用的說話人確認(rèn)技術(shù)方案的個(gè)數(shù)。(3)融合上述相關(guān)度,得到所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度。也就是說同,對(duì)于考生a,b的組合,有兩個(gè)相似度得分,分別是A與B的相似度,以及B與A的相似度,對(duì)于考生a,融合這兩個(gè)相似度,得到考生a的考生語音數(shù)據(jù)和考生b的考生語音數(shù)據(jù)間的相關(guān)度。具體的融合方法可以采用現(xiàn)有的技術(shù),如基于LR (Logistic Regression,回歸分祈)的參數(shù)估計(jì)技術(shù),基于SVM的參數(shù)預(yù)測技術(shù)等。步驟202,基于測試音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度。由于不同考生的測試音數(shù)據(jù)對(duì)應(yīng)了相同的文本內(nèi)容,不同考生的測試音數(shù)據(jù)主要體現(xiàn)了說話人的發(fā)音特點(diǎn),更好地避免了發(fā)音內(nèi)容對(duì)說話人身份檢測的干擾,因此還可以根據(jù)考生的測試音數(shù)據(jù)確定考生語音數(shù)據(jù)之間的相關(guān)度。具體計(jì)算流程與上述基于考題錄音數(shù)據(jù)計(jì)算考生的疑似作弊數(shù)據(jù)集中不同數(shù)據(jù)間的相關(guān)度類似,在此不再詳細(xì)描述。步驟203,對(duì)基于考題錄音數(shù)據(jù)計(jì)算得到的相關(guān)度和基于測試音數(shù)據(jù)計(jì)算得到的相關(guān)度進(jìn)行融合,得到綜合得分。具體地,可以對(duì)上面得到的每兩份考生數(shù)據(jù)之間的兩個(gè)相關(guān)度得分進(jìn)行加權(quán)平均或通過LR等回歸方法獲得綜合得分。步驟204,如果所述綜合得分高于設(shè)定的作弊分值門限,則確定所述考生的考生語音數(shù)據(jù)為作弊數(shù)據(jù)。對(duì)于考察的每兩份考生數(shù)據(jù),都會(huì)得到一個(gè)綜合得分,如果該綜合得分高于設(shè)定的作弊分值門限,則確定這兩份考生數(shù)據(jù)之間為作弊數(shù)據(jù),否則則不是作弊數(shù)據(jù)。當(dāng)然,還可以使用交叉驗(yàn)證的方法,比如,如果基于測試音數(shù)據(jù)計(jì)算得到的相關(guān)度和基于考題錄音數(shù)據(jù)計(jì)算得到的相關(guān)度都高于相應(yīng)的門限,則判定作弊存在。如果有ー個(gè)相關(guān)度高于相應(yīng)的門限,則可判定為疑似作弊,并根據(jù)具體的應(yīng)用場合轉(zhuǎn)交人エ專家介入或者丟棄。另外,還可以根據(jù)上述考察結(jié)果,進(jìn)ー步綜合判斷每個(gè)考場是否存在較明顯的個(gè)體作弊替考現(xiàn)象以及集體作弊替考現(xiàn)象。比如,如果基于測試音數(shù)據(jù)計(jì)算得到的相關(guān)度和基于考題錄音數(shù)據(jù)計(jì)算得到的相關(guān)度都高于相應(yīng)的門限,則可判定是個(gè)體作弊替考;如果存在較多的個(gè)體作弊替考,特別是存在同樣的人多次替考的情況,則可判定判斷是集體作弊替考??梢?,本發(fā)明實(shí)施例檢測ロ語考試作弊的方法,通過快速篩選的方法確定各考生的疑似作弊數(shù)據(jù)集,然后通過精確計(jì)算復(fù)測作弊的可能性,不僅實(shí)現(xiàn)了對(duì)規(guī)?;碚Z考試作弊的快速檢測,而且在提高檢測效率的同時(shí)提高了檢測的準(zhǔn)確性。相應(yīng)地,本發(fā)明實(shí)施例還提供一種檢測ロ語考試作弊的系統(tǒng),如圖3所示,是該系統(tǒng)的ー種結(jié)構(gòu)示意圖。在該實(shí)施例中,所述檢測ロ語考試作弊的系統(tǒng)包括數(shù)據(jù)提取模塊301,用于提取所有考生的考生語音數(shù)據(jù),所述考生語音數(shù)據(jù)包括考試前的測試音數(shù)據(jù)和考題錄音數(shù)據(jù);疑似數(shù)據(jù)確定模塊 302,用于根據(jù)所述考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集;復(fù)測模塊303,用于根據(jù)所述考生的疑似作弊數(shù)據(jù)集對(duì)所述考生的考生語音數(shù)據(jù)進(jìn)行復(fù)測,得到作弊檢測結(jié)果。由于考生語音數(shù)據(jù)通常為ー系列采樣點(diǎn),對(duì)其直接比對(duì)的數(shù)據(jù)規(guī)模過大,且噪音干擾較多。因此,疑似數(shù)據(jù)確定模塊302可以先從所有考生的考生語音數(shù)據(jù)中提取比對(duì)特征,然后基于所述比對(duì)特征確定各考生的疑似作弊數(shù)據(jù)集。由于考試作弊檢測出現(xiàn)誤報(bào)將是ー個(gè)嚴(yán)重的事故,因此,在本發(fā)明實(shí)施例中,由復(fù)測模塊303對(duì)疑似數(shù)據(jù)確定模塊302得到的針對(duì)每個(gè)考生的疑似作弊數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行確認(rèn),確定各考生的考題錄音數(shù)據(jù)和其疑似作弊數(shù)據(jù)集之間的相關(guān)性??梢姡景l(fā)明實(shí)施例檢測ロ語考試作弊的系統(tǒng),首先確定各考生的疑似作弊數(shù)據(jù)集,然后通過精確計(jì)算復(fù)測作弊的可能性,從而可以保證在監(jiān)考階段沒有監(jiān)考人員監(jiān)測到,也可以在成績發(fā)布之前進(jìn)行快速、精確的作弊檢測,保證ロ語考試的公平客觀性。如圖4所示,是本發(fā)明實(shí)施例檢測ロ語考試作弊的系統(tǒng)中疑似數(shù)據(jù)確定模塊的一種結(jié)構(gòu)示意圖。該疑似數(shù)據(jù)確定模塊包括特征提取単元401、代表模型確定單元402、距離計(jì)算単元403和疑似數(shù)據(jù)確定単元404。其中特征提取単元401用于針對(duì)每個(gè)考生,從所述考生的考生語音數(shù)據(jù)中提取比對(duì)特征。比如,可以提取諸如MFCC、或PLP等聲學(xué)特征作為比對(duì)特征。具體地,可以對(duì)窗長25ms幀移IOms的每幀語音數(shù)據(jù)做短時(shí)分析得到MFCC參數(shù)或PLP參數(shù)。進(jìn)ー步地,為了描述語音的動(dòng)態(tài)變化,還可以在提取的靜態(tài)特征(即上述比對(duì)特征)上獲取相應(yīng)的ー階及ニ階差分特征作為補(bǔ)充特征。代表模型確定單元402用于基于所述比對(duì)特征確定所述考生語音數(shù)據(jù)的代表模型。所述代表模型用于模擬考生語音數(shù)據(jù)的發(fā)音特點(diǎn)。具體地,代表模型確定單元402可以提取每個(gè)需要比對(duì)的考生語音數(shù)據(jù)中比對(duì)特征矢量集合的類中心(即比對(duì)特征矢量的均值)作為相應(yīng)的代表模型,或利用比對(duì)特征矢量集合訓(xùn)練得到ー個(gè)GMM模型作為相應(yīng)的代表模型。距離計(jì)算單元403用于根據(jù)所述代表模型計(jì)算不同考生語音數(shù)據(jù)之間的距離。
需要說明的是,如果是采用比對(duì)特征矢量集合的類中心作為考生語音數(shù)據(jù)的代表模型,則距離計(jì)算單元403需要計(jì)算兩兩考生語音數(shù)據(jù)對(duì)應(yīng)的類中心的距離;如果是采用GMM模型作為考生語音數(shù)據(jù)的代表模型,則距離計(jì)算單元403需要計(jì)算兩兩考生語音數(shù)據(jù)對(duì)應(yīng)的GMM模型的距離。具體計(jì)算方式可以采用各種常規(guī)的距離度量方法,比如歐式距離、K-L距離等,對(duì)此本發(fā)明實(shí)施例不做限定。疑似數(shù)據(jù)確定単元404用于根據(jù)所述不同考生語音數(shù)據(jù)之間的距離確定所述考生的疑似作弊數(shù)據(jù)集。比如,疑似數(shù)據(jù)確定単元404可以選擇與所述考生的考生語音數(shù)據(jù)距離小于設(shè)定距離門限的數(shù)據(jù)生成所述考生的疑似作弊數(shù)據(jù)集;或者選擇與所述考生的考生語音數(shù)據(jù)距離最小的前預(yù)定個(gè)數(shù)的數(shù)據(jù)生成所述考生的疑似作弊數(shù)據(jù)集。通過上述疑似數(shù)據(jù)確定模塊,可以對(duì)每個(gè)考生提供ー組疑似作弊數(shù)據(jù)列表,而且不同考生的疑似作弊數(shù)據(jù)列表可以重復(fù)(比如同一考生多次替考的情況)。在本發(fā)明實(shí)施例的檢測ロ語考試作弊的系統(tǒng)中,由于經(jīng)過疑似數(shù)據(jù)確定模塊302初步篩選后獲得的疑似作弊數(shù)據(jù)集規(guī)模顯著下降,因此復(fù)測模塊303可以采用復(fù)雜的精確比對(duì)算法計(jì)算數(shù)據(jù)之間的相關(guān)度,并且可以采用多系統(tǒng)融合方法提高檢測精度,以避免單項(xiàng)技術(shù)確認(rèn)精度無法滿足真實(shí)應(yīng)用的需求。如圖5所示,是本發(fā)明實(shí)施例檢測ロ語考試作弊的系統(tǒng)中復(fù)測模塊的一種結(jié)構(gòu)示意圖。在該實(shí)施例中,所述復(fù)測模塊包括第一計(jì)算單元501和作弊數(shù)據(jù)確定単元504。其中第一計(jì)算單元501用于基于考題錄音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度。作弊數(shù)據(jù)確定単元504用于在所述綜合得分高于設(shè)定的作弊分值門限時(shí),確定所述考生的考生語音數(shù)據(jù)為作弊數(shù)據(jù)。另外,為了進(jìn)ー步提高復(fù)測的準(zhǔn)確度,還可以綜合考慮基于考題錄音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度,以及基于測試音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度,來確定所述考生的考生語音數(shù)據(jù)是否為作弊數(shù)據(jù)。如圖6所示,是本發(fā)明實(shí)施例檢測ロ語考試作弊的系統(tǒng)中復(fù)測模塊的另ー種結(jié)構(gòu)示意圖。該復(fù)測模塊包括第一計(jì)算單元601、第二計(jì)算單元602、融合単元603和作弊數(shù)據(jù)確定單元604。其中第一計(jì)算單元601用于基于考題錄音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度。具體計(jì)算過程與第二計(jì)算單元602基于測試音數(shù)據(jù)計(jì)算考生的疑似作弊數(shù)據(jù)集中不同數(shù)據(jù)間的相關(guān)度類似。第二計(jì)算單元602用于基于測試音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度,具體計(jì)算過程可參照前面本發(fā)明實(shí)施例檢測ロ語考試作弊的方法中的描述,在此不再綴述。
融合単元603用于對(duì)所述第一計(jì)算單元601基于考題錄音數(shù)據(jù)計(jì)算得到的相關(guān)度和所述第二計(jì)算單元602基于測試音數(shù)據(jù)計(jì)算得到的相關(guān)度進(jìn)行融合,得到綜合得分。具體地,可以對(duì)第一計(jì)算單元601和第二計(jì)算單元602得到的每兩份考生數(shù)據(jù)之間的兩個(gè)相關(guān)度得分進(jìn)行加權(quán)平均或通過LR等回歸方法獲得綜合得分。作弊數(shù)據(jù)確定単元604用于在所述綜合得分高于設(shè)定的作弊分值門限時(shí),確定所述考生的考生語音數(shù)據(jù)為作弊數(shù)據(jù)。對(duì)于考察的每兩份考生數(shù)據(jù),都會(huì)得到一個(gè)綜合得分,如果該綜合得分高于設(shè)定的作弊分值門限,則作弊數(shù)據(jù)確定単元604確定這兩份考生數(shù)據(jù)之間為作弊數(shù)據(jù),否則不是作弊數(shù)據(jù)。當(dāng)然,作弊數(shù)據(jù)確定単元604還可以使用交叉驗(yàn)證的方法確定作弊數(shù)據(jù),比如,如果基于測試音數(shù)據(jù)計(jì)算得到的相關(guān)度和基于考題錄音數(shù)據(jù)計(jì)算得到的相關(guān)度都高于相應(yīng)的門限,則判定作弊存在。如果有ー個(gè)相關(guān)度高于相應(yīng)的門限,則可判定為疑似作弊,井根據(jù)具體的應(yīng)用場合轉(zhuǎn)交人エ專家介入或者丟棄。另外,在實(shí)際應(yīng)用中,所述系統(tǒng)還可以根據(jù)上述考察結(jié)果,進(jìn)ー步綜合判斷每個(gè)考場是否存在較明顯的個(gè)體作弊替考現(xiàn)象以及集體作弊替考現(xiàn)象。比如,如果基于測試音數(shù)據(jù)計(jì)算得到的相關(guān)度和基于考題錄音數(shù)據(jù)計(jì)算得到的相關(guān)度都高于相應(yīng)的門限,則可判定是個(gè)體作弊替考;如果存在較多的個(gè)體作弊替考,特別是存在同樣的人多次替考的情況,則可判定判斷是集體作弊替考。需要說明的是,為了進(jìn)ー步降低運(yùn)算的復(fù)雜度及工作量,提高檢測效率,在本發(fā)明檢測ロ語考試作弊的系統(tǒng)另ー實(shí)施例中,如圖7所示,所述系統(tǒng)還進(jìn)一歩包括數(shù)據(jù)篩選模塊701,用于在所述疑似數(shù)據(jù)確定模塊302根據(jù)所述考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集之前,從數(shù)據(jù)提取模塊301提取的所有考生的考生語音數(shù)據(jù)中篩選出需要比對(duì)的考生語音數(shù)據(jù)。相應(yīng)地,在該實(shí)施例中,疑似數(shù)據(jù)確定模塊302需要根據(jù)數(shù)據(jù)篩選模塊701篩選出的需要比對(duì)的考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集,即從所述需要比對(duì)的考生語音數(shù)據(jù)中提取比對(duì)特征,并基于所述比對(duì)特征確定各考生的疑似作弊數(shù)據(jù)集。所述需要比對(duì)的考生語音數(shù)據(jù)可以包括測試音數(shù)據(jù)和/或考題錄音數(shù)據(jù)。具體地,考慮到存在作弊可能的考生得分往往較高,因此,數(shù)據(jù)篩選模塊701具體可以從數(shù)據(jù)提取模塊301提取的所有考生的考生語音數(shù)據(jù)中篩選出考分高于設(shè)定的分值門限的考生語音數(shù)據(jù)作為需要比對(duì)的考生語音數(shù)據(jù);或者從數(shù)據(jù)提取模塊301提取的所有考生的考生語音數(shù)據(jù)中篩選出考生有效語音數(shù)據(jù)量高于設(shè)定的數(shù)據(jù)規(guī)模門限的考生語音數(shù)據(jù)作為需要比對(duì)的考生語音數(shù)據(jù);或者從數(shù)據(jù)提取模塊301提取的所有考生的考生語音數(shù)據(jù)中篩選出考分高于設(shè)定的分值門限并且考生有效語音量高于設(shè)定的數(shù)據(jù)規(guī)模門限的考生語音數(shù)據(jù)作為需要比對(duì)的考生語音數(shù)據(jù)。所述有效語音是指考生有效的考題錄音,不包括靜音和噪聲。當(dāng)然,為了進(jìn)一步提高后續(xù)系統(tǒng)對(duì)語音信號(hào)的處理能力,在實(shí)際應(yīng)用中,所述系統(tǒng)還可進(jìn)一歩包括預(yù)處理模塊(未圖示),用于對(duì)數(shù)據(jù)篩選模塊601篩選出的需要比對(duì)的考生語音數(shù)據(jù)進(jìn)行前端降噪預(yù)處理,消除語音信號(hào)中的噪聲,比如可以采用諸如維納濾波等技術(shù)對(duì)所述需要比對(duì)的考生語音數(shù)據(jù)進(jìn)行語音增強(qiáng)等處理。
可見,本發(fā)明實(shí)施例檢測ロ語考試作弊的系統(tǒng),通過快速篩選的方法確定各考生的疑似作弊數(shù)據(jù)集,然后通過精確計(jì)算復(fù)測作弊的可能性,不僅實(shí)現(xiàn)了對(duì)規(guī)?;碚Z考試作弊的快速檢測,而且在提高檢測效率的同時(shí)提高了檢測的準(zhǔn)確性。本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。以上所描述的系統(tǒng)實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的単元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理単元,即可以位于ー個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)単元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。以上對(duì)本發(fā)明實(shí)施例進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體實(shí)施方式
對(duì)本發(fā)明進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及設(shè)備;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
權(quán)利要求
1.一種檢測ロ語考試作弊的方法,其特征在于,包括 提取所有考生的考生語音數(shù)據(jù),所述考生語音數(shù)據(jù)包括考試前的測試音數(shù)據(jù)和考題錄音數(shù)據(jù); 根據(jù)所述考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集; 根據(jù)所述考生的疑似作弊數(shù)據(jù)集對(duì)所述考生的考生語音數(shù)據(jù)進(jìn)行復(fù)測,得到作弊檢測結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集包括 針對(duì)每個(gè)考生,從所述考生的考生語音數(shù)據(jù)中提取比對(duì)特征; 基于所述比對(duì)特征確定所述考生語音數(shù)據(jù)的代表模型; 根據(jù)所述代表模型計(jì)算不同考生語音數(shù)據(jù)之間的距離; 根據(jù)所述不同考生語音數(shù)據(jù)之間的距離確定所述考生的疑似作弊數(shù)據(jù)集。
3.根據(jù)權(quán)利2所述的方法,其特征在于,所述基于所述比對(duì)特征確定所述考生語音數(shù)據(jù)的代表模型包括 提取所述考生語音數(shù)據(jù)中比對(duì)特征矢量集合的類中心作為所述考生語音數(shù)據(jù)的代表模型;或者 利用所述考生語音數(shù)據(jù)中比對(duì)特征矢量集合訓(xùn)練得到一個(gè)高斯混合模型,并將所述高斯混合模型作為所述考生語音數(shù)據(jù)的代表模型。
4.根據(jù)權(quán)利2所述的方法,其特征在于,所述根據(jù)所述不同考生語音數(shù)據(jù)之間的距離確定所述考生的疑似作弊數(shù)據(jù)集包括 選擇與所述考生的考生語音數(shù)據(jù)距離小于設(shè)定距離門限的數(shù)據(jù)生成所述考生的疑似作弊數(shù)據(jù)集;或者 選擇與所述考生的考生語音數(shù)據(jù)距離最小的前預(yù)定個(gè)數(shù)的數(shù)據(jù)生成所述考生的疑似作弊數(shù)據(jù)集。
5.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的方法,其特征在于,所述方法還包括 在根據(jù)所述考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集之前,從提取的所有考生的考生語音數(shù)據(jù)中篩選出需要比對(duì)的考生語音數(shù)據(jù); 所述根據(jù)所述考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集包括 根據(jù)所述需要比對(duì)的考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集。
6.根據(jù)權(quán)利5所述的方法,其特征在于,所述從提取的所有考生的考生語音數(shù)據(jù)中篩選出需要比對(duì)的考生語音數(shù)據(jù)包括 從提取的所有考生的考生語音數(shù)據(jù)中篩選出考分高于設(shè)定的分值門限的考生語音數(shù)據(jù)作為需要比對(duì)的考生語音數(shù)據(jù);或者 從提取的所有考生的考生語音數(shù)據(jù)中篩選出考生有效語音數(shù)據(jù)量高于設(shè)定的數(shù)據(jù)規(guī)模門限的考生語音數(shù)據(jù)作為需要比對(duì)的考生語音數(shù)據(jù);或者 從提取的所有考生的考生語音數(shù)據(jù)中篩選出考分高于設(shè)定的分值門限并且考生有效語音量高于設(shè)定的數(shù)據(jù)規(guī)模門限的考生語音數(shù)據(jù)作為需要比對(duì)的考生語音數(shù)據(jù)。
7.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述考生的疑似作弊數(shù)據(jù)集對(duì)所述考生的考生語音數(shù)據(jù)進(jìn)行復(fù)測,得到作弊檢測結(jié)果包括基于考題錄音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度; 如果所述相關(guān)度高于設(shè)定的作弊分值門限,則確定所述考生的考生語音數(shù)據(jù)為作弊數(shù)據(jù)。
8.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述考生的疑似作弊數(shù)據(jù)集對(duì)所述考生的考生語音數(shù)據(jù)進(jìn)行復(fù)測,得到作弊檢測結(jié)果包括 基于考題錄音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度; 基于測試音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度; 對(duì)基于考題錄音數(shù)據(jù)計(jì)算得到的相關(guān)度和基于測試音數(shù)據(jù)計(jì)算得到的相關(guān)度進(jìn)行融合,得到綜合得分; 如果所述綜合得分高于設(shè)定的作弊分值門限,則確定所述考生的考生語音數(shù)據(jù)為作弊數(shù)據(jù)。
9.一種檢測ロ語考試作弊的系統(tǒng),其特征在于,包括 數(shù)據(jù)提取模塊,用于提取所有考生的考生語音數(shù)據(jù),所述考生語音數(shù)據(jù)包括考試前的測試音數(shù)據(jù)和考題錄音數(shù)據(jù); 疑似數(shù)據(jù)確定模塊,用于根據(jù)所述考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集; 復(fù)測模塊,用于根據(jù)所述考生的疑似作弊數(shù)據(jù)集對(duì)所述考生的考生語音數(shù)據(jù)進(jìn)行復(fù)測,得到作弊檢測結(jié)果。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述疑似數(shù)據(jù)確定模塊包括 特征提取単元,用于針對(duì)每個(gè)考生,從所述考生的考生語音數(shù)據(jù)中提取比對(duì)特征; 代表模型確定單元,用于基于所述比對(duì)特征確定所述考生語音數(shù)據(jù)的代表模型; 距離計(jì)算單元,用于根據(jù)所述代表模型計(jì)算不同考生語音數(shù)據(jù)之間的距離; 疑似數(shù)據(jù)確定単元,用于根據(jù)所述不同考生語音數(shù)據(jù)之間的距離確定所述考生的疑似作弊數(shù)據(jù)集。
11.根據(jù)權(quán)利10所述的系統(tǒng),其特征在干, 所述代表模型確定單元,具體用于提取所述考生語音數(shù)據(jù)中比對(duì)特征矢量集合的類中心作為所述考生語音數(shù)據(jù)的代表模型;或者利用所述考生語音數(shù)據(jù)中比對(duì)特征矢量集合訓(xùn)練得到一個(gè)高斯混合模型,并將所述高斯混合模型作為所述考生語音數(shù)據(jù)的代表模型。
12.根據(jù)權(quán)利10所述的系統(tǒng),其特征在干, 所述疑似數(shù)據(jù)確定単元,具體用于選擇與所述考生的考生語音數(shù)據(jù)距離小于設(shè)定距離門限的數(shù)據(jù)生成所述考生的疑似作弊數(shù)據(jù)集;或者選擇與所述考生的考生語音數(shù)據(jù)距離最小的前預(yù)定個(gè)數(shù)的數(shù)據(jù)生成所述考生的疑似作弊數(shù)據(jù)集。
13.根據(jù)權(quán)利要求9至12任一項(xiàng)所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括 數(shù)據(jù)篩選模塊,用于在所述疑似數(shù)據(jù)確定模塊根據(jù)所述考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集之前,從所述數(shù)據(jù)提取模塊提取的所有考生的考生語音數(shù)據(jù)中篩選出需要比對(duì)的考生語音數(shù)據(jù); 所述疑似數(shù)據(jù)確定模塊,具體用于根據(jù)所述數(shù)據(jù)篩選模塊篩選出的需要比對(duì)的考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集。
14.根據(jù)權(quán)利13所述的系統(tǒng),其特征在干, 所述數(shù)據(jù)篩選模塊,具體用于從所述數(shù)據(jù)提取模塊提取的所有考生的考生語音數(shù)據(jù)中篩選出考分高于設(shè)定的分值門限的考生語音數(shù)據(jù)作為需要比對(duì)的考生語音數(shù)據(jù);或者從所述數(shù)據(jù)提取模塊提取的所有考生的考生語音數(shù)據(jù)中篩選出考生有效語音數(shù)據(jù)量高于設(shè)定的數(shù)據(jù)規(guī)模門限的考生語音數(shù)據(jù)作為需要比對(duì)的考生語音數(shù)據(jù);或者從所述數(shù)據(jù)提取模塊提取的所有考生的考生語音數(shù)據(jù)中篩選出考分高于設(shè)定的分值門限并且考生有效語音量高于設(shè)定的數(shù)據(jù)規(guī)模門限的考生語音數(shù)據(jù)作為需要比對(duì)的考生語音數(shù)據(jù)。
15.根據(jù)權(quán)利要求9至12任一項(xiàng)所述的系統(tǒng),其特征在于,所述復(fù)測模塊包括 第一計(jì)算單元,用于基于考題錄音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度; 作弊數(shù)據(jù)確定単元,用于在所述相關(guān)度高于設(shè)定的作弊分值門限時(shí),確定所述考生的考生語音數(shù)據(jù)為作弊數(shù)據(jù)。
16.根據(jù)權(quán)利要求9至12任一項(xiàng)所述的系統(tǒng),其特征在于,所述復(fù)測模塊包括 第一計(jì)算單元,用于基于考題錄音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度; 第二計(jì)算單元,用于基于測試音數(shù)據(jù)計(jì)算所述考生的考生語音數(shù)據(jù)和所述考生的疑似作弊數(shù)據(jù)集中的其他考生的考生語音數(shù)據(jù)間的相關(guān)度; 融合単元,用于對(duì)所述第一計(jì)算單元基于考題錄音數(shù)據(jù)計(jì)算得到的相關(guān)度和所述第二計(jì)算單元基于測試音數(shù)據(jù)計(jì)算得到的相關(guān)度進(jìn)行融合,得到綜合得分; 作弊數(shù)據(jù)確定単元,用于在所述綜合得分高于設(shè)定的作弊分值門限時(shí),確定所述考生的考生語音數(shù)據(jù)為作弊數(shù)據(jù)。
全文摘要
本發(fā)明涉及語音數(shù)據(jù)處理技術(shù)領(lǐng)域,公開了一種檢測口語考試作弊的方法及系統(tǒng)。該方法包括提取所有考生的考生語音數(shù)據(jù),所述考生語音數(shù)據(jù)包括考試前的測試音數(shù)據(jù)和考題錄音數(shù)據(jù);根據(jù)所述考生語音數(shù)據(jù)確定各考生的疑似作弊數(shù)據(jù)集;根據(jù)所述考生的疑似作弊數(shù)據(jù)集對(duì)所述考生的考生語音數(shù)據(jù)進(jìn)行復(fù)測,得到作弊檢測結(jié)果。利用本發(fā)明,可以保證在監(jiān)考階段沒有監(jiān)考人員監(jiān)測到,也可以在成績發(fā)布之前進(jìn)行快速、精確的作弊檢測,保證口語考試的公平客觀性。
文檔編號(hào)G10L25/06GK103065642SQ20121059096
公開日2013年4月24日 申請(qǐng)日期2012年12月31日 優(yōu)先權(quán)日2012年12月31日
發(fā)明者王士進(jìn), 何婷婷, 劉丹, 胡國平, 胡郁, 劉慶峰 申請(qǐng)人:安徽科大訊飛信息科技股份有限公司