亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

測(cè)試系統(tǒng)及其控制方法

文檔序號(hào):6401613閱讀:208來(lái)源:國(guó)知局
專利名稱:測(cè)試系統(tǒng)及其控制方法
技術(shù)領(lǐng)域
本發(fā)明涉及測(cè)考系統(tǒng)及其控制方法。更詳細(xì)說(shuō),本發(fā)明涉及對(duì)依據(jù)對(duì)現(xiàn)有型的項(xiàng)目反應(yīng)理論進(jìn)行修正的部分得分模型,容許在評(píng)分之際不是單單以正誤2值而是以具有多個(gè)階段的部分得分進(jìn)行評(píng)價(jià)的測(cè)試以較歷來(lái)簡(jiǎn)化的方式進(jìn)行設(shè)計(jì)、實(shí)施及評(píng)價(jià)的測(cè)考系統(tǒng)及其控制方法。
背景技術(shù)
今日,作為設(shè)計(jì)測(cè)試并在其結(jié)果處理之際使用的理論,公知的有古典測(cè)試?yán)碚摵晚?xiàng)目反應(yīng)理論兩種。關(guān)于這些測(cè)試?yán)碚摚热?,在渡部洋編著的“心理統(tǒng)計(jì)的技法”(福村出版,2002年)的第6章及第7章中分別予以一般性的解說(shuō)。另外,測(cè)試?yán)碚撝兴^的測(cè)試,包含的不僅是學(xué)力測(cè)試,也包含心理學(xué)的性格檢查及臨床檢查等等,在此申請(qǐng)中,沒(méi)有將如此廣闊的應(yīng)用領(lǐng)域納入視野進(jìn)行抽象的說(shuō)明,而是為了易于理解,特別將外語(yǔ)考試等的學(xué)力測(cè)試作為對(duì)象嘗試予以具體說(shuō)明。另外,項(xiàng)目反應(yīng)理論的所謂的“項(xiàng)目”,在學(xué)力測(cè)試的場(chǎng)合指的是問(wèn)題。所以,在本申請(qǐng)中,在切合具體例進(jìn)行說(shuō)明之際,不使用“項(xiàng)目”而是使用“問(wèn)題”,不使用“被試者”而是使用“考生”等在學(xué)力測(cè)試中使用的一般用語(yǔ)。不過(guò),本發(fā)明是關(guān)于測(cè)試?yán)碚摰耐ㄓ玫陌l(fā)明,并不僅僅限定于學(xué)力測(cè)試,也可以應(yīng)用于一般可應(yīng)用測(cè)試?yán)碚摰纳鲜鲱I(lǐng)域。
古典測(cè)試?yán)碚?,現(xiàn)在應(yīng)用很廣,具有得到的結(jié)論與考生的特性的統(tǒng)計(jì)分布相關(guān)的特征。所以,在以古典理論為依據(jù)的場(chǎng)合,在對(duì)于特性不同的考生的集團(tuán)實(shí)施的多次測(cè)試中得到的平均分及偏差值進(jìn)行比較是不合適的。
作為克服古典的測(cè)試?yán)碚摰娜秉c(diǎn)的理論有項(xiàng)目反應(yīng)理論,現(xiàn)在,基于此項(xiàng)目反應(yīng)理論進(jìn)行設(shè)計(jì),對(duì)結(jié)果進(jìn)行處理的學(xué)力測(cè)試有很多種。比如,在最近出版的作為項(xiàng)目響應(yīng)理論的教科書的豐田秀樹著“項(xiàng)目反應(yīng)理論入門編”(朝倉(cāng)書店,2000年)的第16頁(yè)上有如下的敘述。“有名的語(yǔ)學(xué)考試TOEFL…在一年之間進(jìn)行數(shù)次。并且是在全世界進(jìn)行。由于同一被試者有可能再次接受測(cè)驗(yàn),相同項(xiàng)目集合的同一測(cè)試不能使用兩次。因此,平均分和通過(guò)率每次測(cè)試也都各不相同。由于因地域關(guān)系英語(yǔ)能力也有差異,特性值的分布也不同。所以,使用偏差值及正態(tài)得分及經(jīng)驗(yàn)分布函數(shù),在不同測(cè)試之間對(duì)考試結(jié)果進(jìn)行比較是不可能的?!璗OEFL的分(比如,500分、650分等)用于判斷可否留學(xué),而與在何處考試、在何時(shí)考試及解答何種問(wèn)題無(wú)關(guān)。就是說(shuō),盡管是異質(zhì)的考生,在不同的時(shí)日,不同的場(chǎng)所接受不同的項(xiàng)目的測(cè)驗(yàn),但被試者卻可以接受統(tǒng)一的待遇。構(gòu)筑使這種待遇成為可能的測(cè)試?yán)^續(xù)向前運(yùn)用的系統(tǒng)的數(shù)理模型,…就是項(xiàng)目反應(yīng)模型。”另外,在日本專利特開(kāi)2002-006734號(hào)公報(bào)中公開(kāi)了一種出題是將預(yù)定的考試問(wèn)題預(yù)先配置成為樹狀,相應(yīng)于考生的解答是否正確而沿著配置成為樹狀的經(jīng)路順序?qū)?wèn)題提出,不單單是考慮正解的數(shù)目,而且考慮是經(jīng)過(guò)哪一種經(jīng)路到達(dá)最終地點(diǎn)的這一途中經(jīng)過(guò)來(lái)推定考生的能力的測(cè)試方法及系統(tǒng)。在此公開(kāi)特許公報(bào)中也可見(jiàn)到言及項(xiàng)目反應(yīng)理論之處。
可是,在基于現(xiàn)有型的理論的項(xiàng)目反應(yīng)模型中,除了可利用2值評(píng)分的○×式的解答以外,比如,對(duì)于不得不容許1和0之間的部分分這樣形式的問(wèn)題的處理是不容易的。雖然為了也可以處理多值結(jié)果而構(gòu)筑的階段反應(yīng)模型等等早已存在,但是現(xiàn)有的方法具有后述的缺點(diǎn)。所以,如果不容許部分得分,則進(jìn)行可靠評(píng)分很困難的英語(yǔ)作文及口語(yǔ)等,在計(jì)算機(jī)適應(yīng)型測(cè)試(CAT)中通常不包含。比如,在上述的日本專利特開(kāi)2002-006734號(hào)公報(bào)中公開(kāi)的發(fā)明中,明言利用項(xiàng)目反應(yīng)理論,將預(yù)備出題的問(wèn)題預(yù)先配置成為樹狀,預(yù)定當(dāng)考生對(duì)某一問(wèn)題的解答正確時(shí)移動(dòng)到右下的問(wèn)題,錯(cuò)誤時(shí)移動(dòng)到左下的問(wèn)題。

發(fā)明內(nèi)容
本發(fā)明與這種現(xiàn)有型的預(yù)想2值解答的CAT不同,是一種容許給予部分得分的評(píng)分的測(cè)試·系統(tǒng),并且其目的在于提供一種與現(xiàn)有的階段反應(yīng)模型等復(fù)雜模型相比可以相當(dāng)容易處理部分得分的測(cè)試·系統(tǒng)及其控制方法。
根據(jù)本發(fā)明,可提供其構(gòu)成包括具有輸入裝置和輸出裝置的第1計(jì)算機(jī);具有經(jīng)過(guò)包含因特網(wǎng)的網(wǎng)絡(luò)與上述第1計(jì)算機(jī)相連接的輸入裝置和輸出裝置的第2計(jì)算機(jī);經(jīng)過(guò)上述網(wǎng)絡(luò)與上述第1及第2計(jì)算機(jī)相連接的測(cè)試管理服務(wù)器;以及可從上述管理服務(wù)器訪問(wèn)的存儲(chǔ)有包含預(yù)先推定難易度和識(shí)別力的項(xiàng)目參數(shù)的多個(gè)問(wèn)題的問(wèn)題數(shù)據(jù)庫(kù);對(duì)一個(gè)考生提出n問(wèn)的問(wèn)題,從上述考生對(duì)提出的n問(wèn)的問(wèn)題的反應(yīng)推定上述考生的能力θ的測(cè)試·系統(tǒng)。上述測(cè)試管理服務(wù)器的構(gòu)成包括(1)回應(yīng)從上述第1計(jì)算機(jī)發(fā)送的請(qǐng)求,在對(duì)1≤j≤n的問(wèn)題j的滿分設(shè)定為1時(shí),從上述問(wèn)題數(shù)據(jù)庫(kù)選擇可以容許以0≤rj≤1的部分得分rj的方式進(jìn)行評(píng)分的n問(wèn)的問(wèn)題并發(fā)送到上述第1計(jì)算機(jī)的裝置;(2)存儲(chǔ)對(duì)于從上述問(wèn)題數(shù)據(jù)庫(kù)選擇并發(fā)送到上述第1計(jì)算機(jī)的問(wèn)題從上述第1計(jì)算機(jī)返回的解答的解答存儲(chǔ)裝置;(3)回應(yīng)從上述第2計(jì)算機(jī)發(fā)送的請(qǐng)求,讀出由上述解答存儲(chǔ)裝置存儲(chǔ)的解答并發(fā)送到上述第2計(jì)算機(jī)的裝置;(4)從上述第2計(jì)算機(jī)接收并存儲(chǔ)對(duì)于發(fā)送到上述第2計(jì)算機(jī)的解答給予的部分得分rj的部分得分存儲(chǔ)裝置;以及(5)利用上述部分得分存儲(chǔ)裝置存儲(chǔ)的部分得分rj和存儲(chǔ)在上述問(wèn)題數(shù)據(jù)庫(kù)中的問(wèn)題j的項(xiàng)目參數(shù),推定獲得該部分得分rj的考生的能力θ的能力推定裝置。于是,在(5)的上述能力推定裝置中,Pj(θ)是在設(shè)想部分得分rj作為問(wèn)題j所固有的,在上述考生對(duì)取得正答1或誤答0中的任何一個(gè)的潛在的反應(yīng)的潛在的問(wèn)題重復(fù)sj次時(shí),上述考生可潛在地取得的正誤反應(yīng)的平均值的場(chǎng)合,上述考生正確回答上述潛在的問(wèn)題的幾率,可以以下式表示(式1)Pj(θ)=11+exp(-Daj(θ-bj))]]>
此式1中的aj和bj分別是存儲(chǔ)于上述問(wèn)題數(shù)據(jù)庫(kù)中的作為問(wèn)題所固有的特性的識(shí)別力和困難度,D是等于1.7的常數(shù),在Qj(θ)為1-Pj(θ)時(shí),利用由下面的式2表示的對(duì)數(shù)似然lpart(θ)(式2)lpart(θ)=Σj=1nsj(rjln(Pj(θ))+(1-rj)ln(Qj(θ)))]]>推定考生的能力θ。不過(guò),以上述的式1表示的Pj(θ)的函數(shù)形只是示例而已,Pj(θ)并不一定限定于此表現(xiàn)形式,可以有種種的形式。
此處應(yīng)注意之處為,可觀測(cè)的是考生對(duì)問(wèn)題j獲得的從0起到1止之間的值部分得分rj,而對(duì)潛在的問(wèn)題考生的潛在的反應(yīng)是觀測(cè)不到的。
另外,根據(jù)本發(fā)明的測(cè)試·系統(tǒng),在對(duì)實(shí)際觀測(cè)到的問(wèn)題j的部分得分rj是由顯在的多個(gè)正誤問(wèn)題的平均構(gòu)成的場(chǎng)合,這些正誤問(wèn)題的正答幾率的平均也由式1表示,可以利用式2推定考生的能力θ。
另外,根據(jù)本發(fā)明的測(cè)試·系統(tǒng),在假定實(shí)施測(cè)試的集團(tuán)的能力分布之上,對(duì)作為sj次的正誤的和的2項(xiàng)分布和假設(shè)的能力分布的積以能力的維數(shù)進(jìn)行積分而求出部分得分的理論分布函數(shù),也可通過(guò)對(duì)作為潛在的問(wèn)題的重復(fù)次數(shù)的sj的推定使求出的理論分布函數(shù)和實(shí)際的數(shù)據(jù)的部分得分的經(jīng)驗(yàn)分布函數(shù)的一致性最好。
另外,在本發(fā)明的測(cè)試·系統(tǒng)中,在上述第1及第2計(jì)算機(jī)的上述輸出裝置和輸入裝置分別包含聲音輸出裝置和聲音輸入裝置的場(chǎng)合,作為向上述測(cè)試服務(wù)器發(fā)送并存儲(chǔ)的解答也可能包含聲音數(shù)據(jù)。在此場(chǎng)合,在第1計(jì)算機(jī)中出題的內(nèi)容可包括聽(tīng)的問(wèn)題和以考生實(shí)際講話為評(píng)分對(duì)象的說(shuō)的問(wèn)題。
另外,本發(fā)明,也可以作為控制上述測(cè)試·系統(tǒng)的方法而實(shí)現(xiàn)。另外,本發(fā)明,也有作為存儲(chǔ)裝載該種測(cè)試·系統(tǒng)控制方法的計(jì)算機(jī)程序的計(jì)算機(jī)可讀存儲(chǔ)媒體本身而存在的。此外,也有作為執(zhí)行該種測(cè)試·系統(tǒng)控制方法的計(jì)算機(jī)程序本身而存在的。


圖1為本發(fā)明的測(cè)試·系統(tǒng)的一例的概要。
圖2為構(gòu)成本發(fā)明的測(cè)試·系統(tǒng)的考生單元的概要。
圖3為構(gòu)成本發(fā)明的測(cè)試·系統(tǒng)的評(píng)分人單元的概要。
圖4為示出利用本發(fā)明的系統(tǒng)的測(cè)試實(shí)施的概要的流程圖,特別示出涉及到本發(fā)明依據(jù)的部分得分的有關(guān)寫和說(shuō)的測(cè)驗(yàn)及評(píng)分的過(guò)程。
圖5為示出為確認(rèn)利用本發(fā)明的測(cè)試·系統(tǒng)的能力推定的有效性而實(shí)施的被試者12名的得分的穩(wěn)定性確認(rèn)調(diào)查的結(jié)果的曲線圖。
圖6為示出由圖6a至圖6g構(gòu)成的分別確認(rèn)圖5的得分的穩(wěn)定性確認(rèn)調(diào)查的被試者12名的得分的曲線圖。
圖7為示出由圖7a至圖7d構(gòu)成的在推定重復(fù)次數(shù)sj之際,在真的s=5、10、20、40的場(chǎng)合,對(duì)推定的經(jīng)驗(yàn)分布和理論分布的分布函數(shù)之差的最大值(柯?tīng)柲缏宸颉に姑谞栔Z夫檢驗(yàn)的統(tǒng)計(jì)量)重復(fù)數(shù)3~10時(shí)的曲線圖。
圖8為示出由圖8a和圖8b構(gòu)成的分別推定英語(yǔ)能力測(cè)試中的重復(fù)次數(shù)sj的應(yīng)用例。
具體實(shí)施例方式
在對(duì)作為本發(fā)明的基礎(chǔ)的部分得分模型進(jìn)行說(shuō)明之前,對(duì)一般的2值的項(xiàng)目反應(yīng)模型予以簡(jiǎn)單說(shuō)明。所謂的2值,指的是解答只取正答或誤答兩個(gè)值。在此模型中,考生對(duì)問(wèn)題給出正答的幾率是利用表示考生的能力的參數(shù)和對(duì)問(wèn)題賦予特征的參數(shù)表現(xiàn)的。比如,在本發(fā)明中,使用的是利用兩個(gè)參數(shù)(識(shí)別力a及困難度b)對(duì)各問(wèn)題賦予特征的2總體參數(shù)(參數(shù))邏輯模型,在此場(chǎng)合,具有能力θ的考生i對(duì)問(wèn)題j給出正答的幾率可以以下面的式3表示(式3)Pj(xij=1|θi)=11+exp(-Daj(θi-bj))]]>其中,x是如考生i對(duì)問(wèn)題j的回答為正答時(shí)為1,為誤答時(shí)為0的虛變量。另外,D是常數(shù)。在此場(chǎng)合,在n問(wèn)問(wèn)題結(jié)束時(shí)的考生的能力θ的似然LB(θ)可寫成為下式(式4)LB(θ)=ΠjnPjxj(θ)Qj1-xj(θ)]]>其中,P(θ)是式3的右邊的正答幾率,Q(θ)是誤答幾率,即1-P(θ)。在項(xiàng)目回應(yīng)理論中,公知和廣泛應(yīng)用的有以給出式4的似然LB(θ)的最大值的θ的值為考生的能力參數(shù)的推定值的最似然推定法。不過(guò),因?yàn)槭?的右邊是以積的形式寫出,不容易求出最大值,為了改寫成為和的形式,一般是求出取兩邊的自然對(duì)數(shù)的對(duì)數(shù)似然ln(LB(θ))的最大值。這是因?yàn)樽匀粚?duì)數(shù)是單調(diào)增函數(shù),給出似然LB(θ)的最大值的θ和給出其自然對(duì)數(shù)ln(LB(θ))的最大值的θ是一致的緣故。
以上是歷來(lái)公知的一般的2總體參數(shù)邏輯模型,但在本發(fā)明中使用的部分得分模型中,對(duì)問(wèn)題的反應(yīng)(解答)的評(píng)價(jià)不是僅限于正誤這樣的2值,可以作為部分分進(jìn)行評(píng)價(jià)。具體說(shuō),式4的虛變量xj不只是1及0共2個(gè)值,而是容許取從0至1的大于等于3的多個(gè)值(比如,0、0.2、0.4、0.6、0.8、1等6個(gè)值)。如果設(shè)考生i對(duì)問(wèn)題j的部分得分為rij,則與部分得分相對(duì)應(yīng)的似然可以以下式表示(式5)Lpart(θi)=ΠjnPjrij(θi)Qj1-rij(θi)]]>如果考慮具體的外語(yǔ)考試,比如,英語(yǔ)考試,若是正誤問(wèn)題及多項(xiàng)選擇式問(wèn)題,則可以作為正答及誤答的2值進(jìn)行處理。不過(guò),對(duì)于英語(yǔ)作文及用英語(yǔ)的對(duì)話(對(duì)提問(wèn)進(jìn)行口頭回答)作為單純的正答及誤答進(jìn)行評(píng)價(jià)就很困難,必須通過(guò)給予部分分進(jìn)行評(píng)價(jià)。所以,不能采用現(xiàn)有型的2值的項(xiàng)目回應(yīng)模型。不過(guò),根據(jù)式5,則可以將具有任意形式的測(cè)試的評(píng)分結(jié)果變換為部分得分而變成為分析用的數(shù)據(jù)。
為了解釋式5的意思,假設(shè)將具有同一問(wèn)題參數(shù)的sj個(gè)的問(wèn)題向同一考生出題。在學(xué)力測(cè)試的場(chǎng)合,參數(shù)是相同的,作為內(nèi)容,設(shè)想提示別的問(wèn)題是并非無(wú)理的設(shè)想。在性格檢查等之中使用的問(wèn)卷,也可以認(rèn)為內(nèi)容上也提示同一問(wèn)題的事例,但因?yàn)檫@也會(huì)產(chǎn)生與作為項(xiàng)目反應(yīng)理論的前提的局部獨(dú)立的假定相反的可能性,此處,設(shè)想為提示大致參數(shù)相同而內(nèi)容不同的問(wèn)題項(xiàng)目。
在一般的項(xiàng)目反應(yīng)模型中,這種設(shè)想條件下的似然,可由式4表示如下(式6)LB(θi)=ΠjnΠksjPjxijk(θi)Qj1-xijk(θi)=ΠjnPjΣksjxijk(θi)QjΣksj(1-xijk)(θi)]]>在假定有關(guān)全部問(wèn)題重復(fù)的解答sj相等(=s)的場(chǎng)合,如果對(duì)此式6取s次方根,可得到下式(式7)LB*(θi)=LB(θi)s=ΠjnPjΣksxijk(θi)QjΣks(1-xijk)(θi)s=ΠjnPjΣksxijks(θi)Qj1-Σksxijks(θi)]]>因?yàn)榻o出LB(θ)和LB(θ)*的最大值的θ是同一個(gè),所以最似然推定值在式6和式7中相同。如果在式7中令(式8)Σksxijks=rj]]>則Lpart(θ)和LB*(θ)形式上相同。就是說(shuō),在借助參數(shù)相同的問(wèn)題重復(fù)所產(chǎn)生的正誤的平均而表現(xiàn)部分得分的場(chǎng)合,本發(fā)明依據(jù)的部分得分模型Lpart(θ)的解和一般的項(xiàng)目反應(yīng)理論產(chǎn)生的LB(θ)的解,通過(guò)LB*(θ)一致。由以上可知,關(guān)于在對(duì)同一參數(shù)的問(wèn)題實(shí)施多次,通過(guò)其正誤合計(jì)或平均而取得成績(jī)的這種類型的部分得分,如果通過(guò)對(duì)該項(xiàng)目的全部實(shí)施結(jié)果取其平均而作成從0起到1止之間的部分得分的話,即使是利用部分得分模型Lpart(θ)進(jìn)行處理,也可以獲得與利用現(xiàn)有的2值數(shù)據(jù)進(jìn)行的處理同一結(jié)果。從式8可導(dǎo)出,如果增加提示的次數(shù)sj,實(shí)質(zhì)上可表現(xiàn)從0至1的任意的部分得分。另外,因?yàn)樵谑?和式7之間,如果有s次方根的差異,實(shí)際上不方便,所以最好是,如下所述,將式5乘以s,將其自然對(duì)數(shù)作為部分得分化的對(duì)數(shù)似然。
(式9)
lpart=Σj=1ns{rjln(Pj(θ))+(1-rj)ln(Qj(θ))}]]>此外,在實(shí)際的學(xué)力測(cè)試中,有時(shí)出題時(shí)出的是互相關(guān)聯(lián)的多個(gè)問(wèn)題。在外語(yǔ)測(cè)試的例子中,有時(shí)就一定長(zhǎng)度的文章提出多個(gè)問(wèn)題的場(chǎng)合等與此相當(dāng)。不過(guò),這種問(wèn)題群的存在,有可能與項(xiàng)目反應(yīng)理論的局部獨(dú)立的假定相反。
如果從因子分析考慮,假設(shè)測(cè)試的得分z由測(cè)試問(wèn)題全體測(cè)定的因子f1、某一問(wèn)題群J的公因子f2和各個(gè)問(wèn)題的獨(dú)自的因子u構(gòu)成的,則考生i的問(wèn)題j的得分可以表示如下(式10)zij=fi1a1j+fi2a2j+uj其中,a是因子負(fù)荷。在問(wèn)題j屬于問(wèn)題群J的場(chǎng)合,a2j不是零,在問(wèn)題j屬于問(wèn)題群J的場(chǎng)合,a2j=0。在式10中,如對(duì)問(wèn)題群J取和,則可得(式11)Σjzij=Σjfi1a1j+Σjfi2a2j+Σjuj]]>其中右邊第2項(xiàng)是關(guān)于問(wèn)題群J的公因子f2的和,從因子的正交性的假定可以看作是不具有與其他問(wèn)題相關(guān)性的獨(dú)自性部分。由于就是在項(xiàng)目反應(yīng)理論中,也是可以設(shè)想項(xiàng)目固有的成分,右邊第2項(xiàng)就與此相當(dāng)。就是說(shuō),不觸及局部獨(dú)立的假定就可以了。如果假定因子f1是項(xiàng)目反應(yīng)理論的能力參數(shù)θ,則在測(cè)試中取相互關(guān)聯(lián)的問(wèn)題群的和作為部分得分進(jìn)行處理就沒(méi)什么不妥。關(guān)于存在局部從屬關(guān)系的問(wèn)題進(jìn)行本發(fā)明提倡的處理,從項(xiàng)目反應(yīng)理論的假定來(lái)看只能說(shuō)倒是所希望的。
設(shè)想假如不是完全相同參數(shù)的項(xiàng)目,而是在類似參數(shù)的項(xiàng)目的重復(fù)的情況下,一般2值的似然是因項(xiàng)目j的重復(fù)提示的正誤模式而異,可以下式表示(式12)LB(θi)=ΠjnΠksjPjkxjk(θ)Qjk1-xijk(θ)]]>
假設(shè)θ固定、項(xiàng)目參數(shù)給定。如果取式12的對(duì)數(shù)似然,只取出與類似項(xiàng)目j相關(guān)的部分,則可得到(式13)lB(j)=Σk=1s(xkln(Pk)+(1-xk)ln(1-Pk))]]>(但是對(duì)于正答幾率等的添加字j以及θ省略)。于是,對(duì)其正誤反應(yīng)×的期望值為(式14)E(lB(j))=Σk=1s(Pkln(Pk)+(1-Pk)ln(1-Pk))]]>并且假設(shè)在(式15)P‾=1sΣk=1sPk]]>(式16)Pk-P=ΔPk時(shí),ΔPk,由于各項(xiàng)目是類似項(xiàng)目,很小。如忽略ΔPk的二次以上的項(xiàng),則下面各式成立(式17)Pkln(Pk)=(P‾+ΔPk)ln(P‾+ΔPk)]]>≅(P‾+ΔPk)(ln(P‾)+ΔPk×1P‾)]]>≅P‾ln(P‾)+ΔPkln(P‾)+ΔPk]]>(式18)(1-Pk)ln(1-Pk)=(1-P‾-ΔPk)ln(1-P‾-ΔPk)]]> ≅(1-P‾)ln(1-P‾)-ΔPk-ΔPkln(1-P‾)]]>將式17及式18代入到式14,如考慮到
(式19)Σk=1sΔPk=0]]>則可得(式20)E(lB(j))≅Σk=1s{P‾ln(P‾)+(1-P‾)ln(1-P‾)}+ln(P‾1-P‾)Σk=1sΔPk]]>=Σk=1s{P‾ln(P‾)+(1-P‾)ln(1-P‾)}]]>=s{P‾ln(P‾)+(1-P‾)ln(1-P‾)}]]>下面對(duì)部分得分進(jìn)行研究。假定與方才一樣在全部項(xiàng)目中重復(fù)的回答sj相等(=s)時(shí),式9的正誤的幾率可由式15的平均反應(yīng)幾率和(式21)Qj(θ)=1-Pj(θ)置換。于是,(式22)lpart=Σj=1ns{rjln(P‾j(θ))+(1-rj)ln(Q‾j(θ))}]]>從上式中只將有關(guān)特定的類似問(wèn)題j的部分取出,并且由于部分得分r是類似問(wèn)題j的正誤的平均,可有(式23)lpart(j)=s{Σk=1sxksln(P‾)+(1-Σk=1sxks)ln(1-P‾)}]]>(但是對(duì)于正答幾率等的添加字j以及θ省略)。于是,其期望值為(式24)
E(lpart(j))=s{1sln(P‾)×E(Σk=1sxk)+ln(1-P‾)×E(1-Σk=1sxks)}]]>=s{1sln(P‾)×Σk=1sPk+ln(1-P‾)×(1-1sΣk=1sPk)}]]>=s{P‾ln(P‾)+(1-P‾)ln(1-P‾)}]]>從式20及24(式25)E(lB(j))≅E(lpart(j))]]>成立。如果對(duì)構(gòu)成似然的全部的類似項(xiàng)目式25成立,則部分得分的最似然解和由2值數(shù)據(jù)得到的解可以認(rèn)為是近似一致的。
另外,以上,本發(fā)明的部分得分模型,假如在同一參數(shù)的問(wèn)題或類似參數(shù)的問(wèn)題中重復(fù)定義的次數(shù)相同的話,已經(jīng)示出具有與通常的2值的項(xiàng)目反應(yīng)模型相對(duì)應(yīng)的關(guān)系。不過(guò),在現(xiàn)實(shí)的應(yīng)用場(chǎng)面中,全部問(wèn)題的重復(fù)次數(shù)相同,即并不限于部分得分的階段數(shù)對(duì)任何問(wèn)題的重復(fù)次數(shù)都相同。比如,在學(xué)力測(cè)試中,多半是在開(kāi)始時(shí)有易于利用2值進(jìn)行評(píng)分的項(xiàng)目,在后半則配置利用多值進(jìn)行評(píng)分的困難項(xiàng)目。為了與這種狀況相對(duì)應(yīng),必須對(duì)式9進(jìn)行如下的擴(kuò)展。
(式26)lpart=Σj=1nsj(rjln(Pj(θ))+(1-rj)ln(Qj(θ)))]]>在這種擴(kuò)展型部分得分模型中,一般的2值模型的最似然解和式26的解可以認(rèn)為是近似一致的。
下面對(duì)利用2項(xiàng)分布的重復(fù)次數(shù)sj的推定予以說(shuō)明。在應(yīng)用擴(kuò)展部分得分模型(式27)lpart(θ)=Σj=1nsj(rjln(Pj(θ))+(1-rj)ln(Qj(θ)))]]>的場(chǎng)合,各項(xiàng)目的重復(fù)次數(shù)sj,只要不能模擬實(shí)際上不清楚時(shí)多半必須推定。因部分得分的性質(zhì)的不同,sj的推定也不同,下面予以說(shuō)明。
第1,對(duì)部分得分是多個(gè)正誤問(wèn)題的平均值的場(chǎng)合進(jìn)行考察。在某一問(wèn)題j的部分得分,是由1組的組問(wèn)等組成的多個(gè)正誤2值問(wèn)題的平均值(即對(duì)多個(gè)問(wèn)題的合計(jì)分評(píng)分結(jié)果的場(chǎng)合)時(shí),這些問(wèn)題的數(shù)目,就按照原樣成為重復(fù)次數(shù)sj的推定值。
第2,對(duì)部分得分是問(wèn)卷等的階段評(píng)定的場(chǎng)合進(jìn)行考察。在問(wèn)卷中多用的評(píng)定尺度的場(chǎng)合,在將階段數(shù)定為m+1時(shí),可推定重復(fù)數(shù)s為m。比如,如果是在對(duì)問(wèn)題項(xiàng)目為“1.很適用”、“2.稍微適用”、“3.稍微不使用”、“4.完全不適用”4個(gè)階段的進(jìn)行評(píng)定中要求回答時(shí),為了將回答結(jié)果作為0~1部分得分處理,在假設(shè)各回答為x時(shí),可以變換為(x-1)/3取4個(gè)階段作為部分得分?jǐn)?shù)據(jù)進(jìn)行分析。這與將3個(gè)2值項(xiàng)目的得分的和以3相除是相同的。就是說(shuō),如果問(wèn)卷的回答是m+1階段的評(píng)定,可推定2值數(shù)據(jù)的重復(fù)次數(shù)sj是m。
第3,對(duì)在部分得分不是多個(gè)正誤2值問(wèn)題的平均值,而是評(píng)分人評(píng)定的評(píng)分結(jié)果中的階段數(shù)比較少的場(chǎng)合進(jìn)行考察。最簡(jiǎn)單的sj的推定方法是,如果部分得分r是s+1階段的得分的話,可以推定本來(lái)的2值數(shù)據(jù)的項(xiàng)目的重復(fù)是s。在部分得分模型的考慮中,由于將2值數(shù)據(jù)的合計(jì)除以重復(fù)次數(shù)的結(jié)果是與部分得分r相對(duì)應(yīng),比如,如果評(píng)分人的評(píng)價(jià)結(jié)果是表現(xiàn)為0、0.5、1等3個(gè)階段,則這只不過(guò)是將2個(gè)2值項(xiàng)目的得分的和除以2。當(dāng)然,為使這一點(diǎn)成立,有可能發(fā)生得分的各階段之間的等間隔性是必需的。即使是同樣的3階段的部分得分,具有0、0.5、1和0、0.75、1.0的意思是不同的。從部分得分是利用同一總體參數(shù)項(xiàng)目的重復(fù)產(chǎn)生的這樣的假定出發(fā),以重復(fù)數(shù)2產(chǎn)生后者的模式難以考慮,大概必須假定更大的重復(fù)數(shù)。比如,可以設(shè)想0、0.25、0.5、0.75、1.0的模式,是考慮重復(fù)4的場(chǎng)合。
第4,對(duì)在部分得分不是多個(gè)正誤2值問(wèn)題的平均值,而是評(píng)分人評(píng)定的評(píng)分結(jié)果中的階段數(shù)比較多的場(chǎng)合進(jìn)行考察。如已經(jīng)敘述過(guò)的,在部分得分r是m+1階段時(shí),為了使其由2值的正誤項(xiàng)目構(gòu)成,必須是重復(fù)次數(shù)s為m。在階段數(shù)少的場(chǎng)合,可以認(rèn)為利用前節(jié)的推定就可以了,如果階段數(shù)多,發(fā)生問(wèn)題的可能性就高。比如,在100分為滿分的測(cè)試中,評(píng)分人對(duì)于除了1人的結(jié)果的解答之外,在以每10分進(jìn)行評(píng)分的場(chǎng)合,階段數(shù)為11階段,重復(fù)數(shù)為10。不過(guò),假如評(píng)分人對(duì)余下的1人解答結(jié)果評(píng)為69分的話,則在其時(shí),如果不使重復(fù)數(shù)為101,部分得分化變得困難。另外,在得分不限于整數(shù)也容許是實(shí)數(shù)時(shí),在這種考慮方法中,推定重復(fù)數(shù)變得困難。
為了解決以上的問(wèn)題,下面在設(shè)定若干假定的基礎(chǔ)上對(duì)重復(fù)數(shù)進(jìn)行推定。問(wèn)題j的部分得分,假定部分得分是借助通過(guò)有關(guān)該問(wèn)題的潛在的問(wèn)題的重復(fù)實(shí)施產(chǎn)生的正誤的平均構(gòu)成的,正答幾率是Pj,誤答幾率是Qj=1-Pj(以上部分得分的假定)。如果此時(shí)固定θ,部分得分R取0,1/m,2/m,…1的幾率Pm(R=r|θ)與2項(xiàng)分布(式28)Pm(X=x|θ)=mCxPjxQjm-x,x=0,1,...,m]]>一致。于是,在整個(gè)總體中,重復(fù)m次部分得分變?yōu)閞的幾率為(式29) 其分布函數(shù)為(式30)F(r)=P(R=0)+P(R=1/m)+…+P(R=r)其中的(θ)是θ的總體分布。此理論分布與從數(shù)據(jù)得到的經(jīng)驗(yàn)分布最好一致。因此,理論分布與經(jīng)驗(yàn)分布的一致度可利用柯?tīng)柲缏宸颉に姑谞栔Z夫檢驗(yàn)的統(tǒng)計(jì)量(式31)KS值=max|F(r)-F′(r)|進(jìn)行評(píng)價(jià)。其中的F(r)是理論分布到階段r為止的分布函數(shù)的相對(duì)累積頻數(shù),F(xiàn)′(r)是經(jīng)驗(yàn)分布到階段r為止的相對(duì)累積頻數(shù)。
實(shí)際上,為了求出柯?tīng)柲缏宸颉に姑谞栔Z夫檢驗(yàn)的統(tǒng)計(jì)量,不管是理論分布還是經(jīng)驗(yàn)分布,r都是離散量,并且存在由于在兩者,階段值不一定一致而產(chǎn)生的比較的困難,此處利用如下的方法進(jìn)行比較。
首先,假定(θ)為標(biāo)準(zhǔn)正態(tài)分布。當(dāng)然,這可根據(jù)需要采用設(shè)想為θ的總體分布的任意一種。由此,如果進(jìn)行數(shù)值積分,可求得式29,得到其結(jié)果式30。R應(yīng)該取0、1/m、2/m、…、1的m+1個(gè)階段的值,如果假定R潛在地是連續(xù)量,比如,第l號(hào)的階段值l/m的頻數(shù)不外乎是包含在區(qū)間lm-12m,lm+12m]]>的R的頻數(shù)的反映。因此,與到第l號(hào)的階段值l/m為止的理論分布函數(shù)F(l/m)比較的經(jīng)驗(yàn)分布函數(shù)F′(l/m),可以作為部分得分的區(qū)間
內(nèi)的區(qū)間0,lm+12m]]>的相對(duì)累積頻數(shù)。
在以上的方法中,可以將給出最小的柯?tīng)柲缏宸颉に姑谞栔Z夫檢驗(yàn)的統(tǒng)計(jì)量的階段數(shù)m作為重復(fù)數(shù)sj的推定值,通過(guò)以下的模擬及在實(shí)際數(shù)據(jù)上的應(yīng)用,可確認(rèn)此方法的有效性。
第5,對(duì)模擬得出的重復(fù)數(shù)sj的推定法進(jìn)行研究和敘述。假設(shè)問(wèn)題j的部分得分rj表示為正誤2值問(wèn)題的重復(fù)提示得到的正誤平均,借助模擬再現(xiàn),作為重復(fù)數(shù)sj有4種sj=5、10、20、40(為了生成一個(gè)問(wèn)題的部分得分?jǐn)?shù)據(jù),要利用5~40個(gè)2值問(wèn)題),生成40個(gè)問(wèn)題3000人量的數(shù)據(jù)。
上節(jié)的重復(fù)數(shù)sj的推定法,必須給出項(xiàng)目總體。根據(jù)因此生成的部分得分?jǐn)?shù)據(jù)可同時(shí)推定項(xiàng)目總體和能力總體(在此階段的重復(fù)回?cái)?shù)sj是1)。
圖7a為示出在真的s=5時(shí),對(duì)推定的經(jīng)驗(yàn)分布和理論分布的分布函數(shù)之差的最大值(柯?tīng)柲缏宸颉に姑谞栔Z夫檢驗(yàn)的統(tǒng)計(jì)量)重復(fù)數(shù)3~10時(shí)繪出的曲線圖。此處,因?yàn)槌蔀閱?wèn)題的是重復(fù)數(shù)大時(shí)的事例,重復(fù)數(shù)s=1、2,因?yàn)楦静恍枰?,予以省?利用2項(xiàng)分布的重復(fù)數(shù)的推定,最低從s=3起)。從此圖可知,在真的重復(fù)數(shù)5的點(diǎn)上柯?tīng)柲缏宸颉に姑谞栔Z夫檢驗(yàn)的統(tǒng)計(jì)量有最小值。另外,可以看出,在圖7b中,示出在s=10,在圖7c中,示出在s=20,在圖7d中,示出在s=40時(shí)任何一個(gè)都是真的重復(fù)數(shù)取最小值。
第6,作為能力檢查的應(yīng)用例,下面介紹利用實(shí)際數(shù)據(jù)的重復(fù)數(shù)的推定例。示出對(duì)英語(yǔ)能力測(cè)試中的重復(fù)數(shù)sj推定的應(yīng)用例。同一測(cè)試是考生9480人,問(wèn)題數(shù)43個(gè)項(xiàng)目的數(shù)據(jù),由于與長(zhǎng)句讀解相結(jié)合提出多個(gè)小問(wèn)題,5問(wèn)組存在2組。由兩組的小問(wèn)的正誤平均生成部分得分,嘗試推定前節(jié)的重復(fù)數(shù)。其結(jié)果得出的如圖8a及圖8b所示??梢钥吹剑瑑烧咧械娜魏我粋€(gè)都在該群的問(wèn)題數(shù)為5處柯?tīng)柲缏宸颉に姑谞栔Z夫檢驗(yàn)的統(tǒng)計(jì)量為最小值,示出推定的有效性。
上面,對(duì)于在利用本發(fā)明的計(jì)算機(jī)適應(yīng)型測(cè)試設(shè)計(jì)及處理系統(tǒng)中使用的部分得分模型進(jìn)行了說(shuō)明。此部分得分模型,是通過(guò)對(duì)2值的項(xiàng)目反應(yīng)模型進(jìn)行修正而得到的。所以,在此部分得分模型中,要推定的參數(shù)的數(shù)目也與2值模型的場(chǎng)合相同,可以說(shuō)除了對(duì)問(wèn)題的特性特別關(guān)心之時(shí)以外,在學(xué)力測(cè)試的設(shè)計(jì)及結(jié)果處理之際,很少需要利用歷來(lái)嘗試的復(fù)雜的多值模型。
如果比較在本發(fā)明中使用的部分得分模型和歷來(lái)公知的階段反應(yīng)模型,可了解到以下各點(diǎn)。(1)在項(xiàng)目反應(yīng)理論中,通常要求數(shù)據(jù)是2值一維,部分得分模型可應(yīng)用于多值多維數(shù)據(jù);(2)部分得分模型(與其他階段反應(yīng)模型及其他多值模型比較)是簡(jiǎn)明模型,使用者易于理解;(3)因?yàn)椴糠值梅帜P?與階段反應(yīng)模型及其他多值模型不同)一般與廣泛利用的2總體邏輯模型為無(wú)縫連接,結(jié)果的解釋也容易,對(duì)于2值與多值的混合數(shù)據(jù)的分析也便利;(4)部分得分模型,與(階段反應(yīng)模型及)其他模型比較,模型的參數(shù)數(shù)目少,在推定時(shí)不會(huì)產(chǎn)生問(wèn)題;(5)部分得分模型,因?yàn)闊o(wú)論解答(回答)結(jié)果如何,如果變換為0至1的部分得分,都可以應(yīng)用,其應(yīng)用范圍廣;(6)部分得分模型,不僅容易應(yīng)用于測(cè)試,也容易應(yīng)用于問(wèn)卷數(shù)據(jù);(7)部分得分模型,因?yàn)榧词故墙獯?回答)的階段數(shù)增加(像階段反應(yīng)模型和其他模型那樣),模型的參數(shù)也不增加,所以容易與評(píng)分結(jié)果的變更相對(duì)應(yīng)。
另外,本發(fā)明的發(fā)明人中的一人(藤森),進(jìn)行了使用部分得分模型的模擬,按照其結(jié)果(1)階段反應(yīng)模型,在測(cè)試為少數(shù)項(xiàng)目時(shí),識(shí)別力的推定需要偏置,在部分得分模型中不會(huì)產(chǎn)生這種現(xiàn)象;(2)正答數(shù)得分和能力推定值的排位相關(guān),部分得分模型一方較階段反應(yīng)模型更高(在與真的值的相關(guān)方面兩種模型大致相等)。
以上對(duì)于在本發(fā)明的測(cè)試·系統(tǒng)中采用的部分得分模型的概要進(jìn)行了說(shuō)明,下面準(zhǔn)備對(duì)其要點(diǎn)予以再度確認(rèn)。在本發(fā)明依據(jù)的部分得分模型中,將合計(jì)分以取和的項(xiàng)目數(shù)相除作為0至1之間的部分得分成為輸入數(shù)據(jù)。就是說(shuō),將對(duì)2值模型的似然的正誤使用的虛變量作為表示部分得分的實(shí)質(zhì)的變量或正誤幾率的權(quán)重對(duì)待。即使是在這種設(shè)想下處理部分得分,理論上也可以保持與現(xiàn)有的2值型的處理的場(chǎng)合的整合性,并且,即使是觀察模擬的結(jié)果,利用2值數(shù)據(jù)的場(chǎng)合的似然函數(shù)推定結(jié)果和利用部分得分模型的似然函數(shù)的推定結(jié)果實(shí)質(zhì)上可以說(shuō)是相同的。
下面對(duì)上述的部分得分模型在本發(fā)明的測(cè)試·系統(tǒng)中具體如何應(yīng)用予以說(shuō)明。作為具體示例,研究英語(yǔ)能力測(cè)試。關(guān)于在多項(xiàng)選擇型等等解答為正答或誤答2值中進(jìn)行評(píng)價(jià)的提問(wèn),現(xiàn)有型的項(xiàng)目反應(yīng)理論可適應(yīng),利用式4的似然函數(shù)LB可推定項(xiàng)目參數(shù)和能力值θ。與此相對(duì),在寫(作文)和說(shuō)(會(huì)話)的問(wèn)題中,不是采用正誤判斷的2值評(píng)分,而是執(zhí)行容許部分分的評(píng)分,則可以認(rèn)為對(duì)考生的英語(yǔ)能力的評(píng)價(jià)可以以分析的方式更精密地進(jìn)行。在這種場(chǎng)合,不應(yīng)用以2值評(píng)價(jià)為前提的現(xiàn)有型的項(xiàng)目反應(yīng)理論,而是使用上述的部分得分模型。
在部分得分模型中,比如,在對(duì)考生對(duì)作文問(wèn)題的解答進(jìn)行評(píng)分時(shí),可以在零分(0)和滿分(1)之間以每個(gè)為25%的間隔給予部分得分。具體說(shuō),就是考慮在式5中rij為可取0、0.25、0.50、0.75、1這樣5個(gè)值的似然函數(shù)來(lái)處理部分得分。在定義P的式3中包含的項(xiàng)目參數(shù)a(識(shí)別力)及b(困難度),是借助利用同一問(wèn)題預(yù)先進(jìn)行的預(yù)測(cè)試的數(shù)據(jù)已經(jīng)推定的。正如在一般討論中論及地,在本發(fā)明的部分得分模型中,由于是設(shè)想將部分得分作為在具有同一參數(shù)的問(wèn)題反復(fù)出題的場(chǎng)合的正誤的平均而表示的,所以在一個(gè)項(xiàng)目(=問(wèn)題)的內(nèi)部,對(duì)任何部分得分項(xiàng)目參數(shù)a及b的值都相同。
作為具體示例,考慮在這種英語(yǔ)作文出題為3題,對(duì)某一考生給出的解答的評(píng)價(jià)分別為0.25、0.75、0.50的場(chǎng)合。在此場(chǎng)合,因?yàn)槿绻?和1是利用5個(gè)階段進(jìn)行評(píng)價(jià),重復(fù)數(shù)為4,考慮似然函數(shù)Lpart的對(duì)數(shù)似然,將部分得分0.25、0.75、0.50代入到式9的rj,可決定下式(式32)lpart(θ)=Σj=1nsj(rjln(Pj(θ))+(1-rj)ln(Qj(θ)))]]>=4[{(0.25)lnP1(θ)+(0.75)lnQ1(θ)}+]]>{(0.75)lnP2(θ)+(0.25)lnQ2(θ)}+]]>{(0.50)lnP3(θ)+(0.50)lnQ3(θ)}]]]>其中,包含在邏輯曲線P中的項(xiàng)目參數(shù)a及b,是對(duì)各自的問(wèn)題預(yù)先推定的。利用式32的對(duì)數(shù)似然,借助最似然推定法及貝葉斯推定法,可推定考生的能力θ。這些方法本身是現(xiàn)在公知的一般的統(tǒng)計(jì)學(xué)方法,不是本發(fā)明的特征。不過(guò),無(wú)論是使用哪一種方法,必需的對(duì)數(shù)似然,都是利用作為本發(fā)明的核心的部分得分模型初次得到的。
以上,是部分得分模型的基本的應(yīng)用例。另外,如果使用部分得分模型,通過(guò)設(shè)置與這種單純的示例不同的多個(gè)評(píng)價(jià)基礎(chǔ),采用對(duì)一個(gè)問(wèn)題從多個(gè)觀點(diǎn)進(jìn)行評(píng)價(jià)的分析的評(píng)價(jià)方法,可以提高對(duì)考生的能力的推定的精度。比如,在上述的基本的應(yīng)用例中,有可能使未顯在化的考生的能力差明顯化。比如,在寫的問(wèn)題中,為進(jìn)行精度高的評(píng)價(jià),可設(shè)定如下的5個(gè)評(píng)價(jià)基礎(chǔ)(a)有無(wú)達(dá)到目的(Goal Achivement);(b)文法(Grammar);(c)詞匯(Vocabulary);(d)文體(Style);(e)拼寫和標(biāo)點(diǎn)(Mechanics),而如果是說(shuō)的問(wèn)題,可設(shè)定如下的5個(gè)評(píng)價(jià)基礎(chǔ)在(a)到(c)之上加上(f)講話的流暢度(Fluency);(g)發(fā)音(Pronunciation)。之所以設(shè)定這些評(píng)價(jià)項(xiàng)目的理由是因?yàn)?,比如,如果是為作文設(shè)定的問(wèn)題,在對(duì)雖然非常笨拙但大致可將筆者的意圖傳達(dá)給讀者、語(yǔ)法上沒(méi)有錯(cuò)誤但很不自然而不合乎情況、有明顯的語(yǔ)法上的錯(cuò)誤、單詞的拼寫有錯(cuò)、誤用類似單詞、句子未結(jié)束而半截中斷、標(biāo)點(diǎn)用錯(cuò)等等,即使是在僅僅評(píng)價(jià)一個(gè)作文的場(chǎng)合,從不同的多個(gè)觀點(diǎn)進(jìn)行評(píng)價(jià)時(shí),也可以將一個(gè)問(wèn)題看作是由多個(gè)小問(wèn)題構(gòu)成的,從各個(gè)觀點(diǎn)可能有不同的評(píng)價(jià)之故。于是,在這樣設(shè)定多個(gè)評(píng)價(jià)項(xiàng)目時(shí),通過(guò)將一個(gè)問(wèn)題看作是由多個(gè)問(wèn)題構(gòu)成的,就可能進(jìn)行比上述基本的應(yīng)用例的場(chǎng)合更高精度的評(píng)價(jià)。
在設(shè)置如上所述的評(píng)價(jià)項(xiàng)目的場(chǎng)合,可進(jìn)行如下的評(píng)價(jià)。對(duì)于有無(wú)達(dá)到(1)的目的,比如,在每個(gè)問(wèn)題中設(shè)定“向?qū)Ψ絺鬟_(dá)意欲安排住處的意圖”這樣的目的,對(duì)設(shè)定的目的以“達(dá)到、未達(dá)到”的2值(1或0)進(jìn)行評(píng)分。對(duì)其以外的評(píng)價(jià)項(xiàng)目,在0至1之間容許以每個(gè)為25%的間隔給予部分得分。就是說(shuō),對(duì)式5中的rij代入0、0.25、0.50、0.75、1這樣5個(gè)值。與上述基本應(yīng)用例一樣,包含在似然函數(shù)中的邏輯曲線P中的項(xiàng)目參數(shù)a(識(shí)別力)及b(困難度),也與上述示例一樣,是利用同樣的問(wèn)題借助在正式測(cè)試之前事先進(jìn)行的預(yù)測(cè)試的數(shù)據(jù)預(yù)先推定的。如果利用這種評(píng)分方法,通過(guò)只出一道英語(yǔ)作文或會(huì)話題,就可能進(jìn)行非常多角度的評(píng)價(jià)。但是,此處所舉出評(píng)價(jià)項(xiàng)目,只是示例而已,在本發(fā)明的測(cè)試·系統(tǒng)中,也可以從其他的觀點(diǎn)進(jìn)行評(píng)價(jià)。
以上是對(duì)包含部分得分模型的項(xiàng)目反應(yīng)理論應(yīng)用于英語(yǔ)能力測(cè)試時(shí)推定考生的能力的情況進(jìn)行的說(shuō)明,本發(fā)明是使用處于與因特網(wǎng)連接環(huán)境之中的一般個(gè)人計(jì)算機(jī)實(shí)現(xiàn)由包含這種部分得分模型的項(xiàng)目反應(yīng)理論進(jìn)行的能力推定的測(cè)試·系統(tǒng)及測(cè)試方法。下面參照附圖對(duì)本發(fā)明的測(cè)試·系統(tǒng)的動(dòng)作予以說(shuō)明。
在圖1中示出本發(fā)明的測(cè)試·系統(tǒng)的實(shí)施方式1的概要??忌迷O(shè)置于借助本發(fā)明的系統(tǒng)設(shè)計(jì)、實(shí)施及處理的測(cè)試(比如,英語(yǔ)能力測(cè)試)的語(yǔ)言學(xué)校等之中的與因特網(wǎng)連接環(huán)境中的個(gè)人計(jì)算機(jī)相連接的考生單元101,接受測(cè)試。如果能恰當(dāng)?shù)剡M(jìn)行考生的認(rèn)證,也可以在自家中接受測(cè)驗(yàn)。由考生經(jīng)過(guò)鍵盤、鼠標(biāo)、話筒等輸入到作為個(gè)人計(jì)算機(jī)的考生單元101中的解答結(jié)果,經(jīng)過(guò)因特網(wǎng)等網(wǎng)絡(luò)103,發(fā)送到評(píng)分人單元102,比如,以作為測(cè)試對(duì)象的英語(yǔ)為母語(yǔ)的評(píng)分人容許部分得分,同時(shí)進(jìn)行評(píng)分。此時(shí),給出部分得分的評(píng)價(jià)項(xiàng)目,并不按照問(wèn)題的難易度而變更。但是,解答結(jié)果,一般不是直接從考生單元101發(fā)送到評(píng)分人單元102,而是在臨時(shí)發(fā)送到集中管理此測(cè)試的測(cè)試管理服務(wù)器104之后,發(fā)送到在多個(gè)之中判斷為合適的評(píng)分人單元102。測(cè)試管理服務(wù)器104,具備問(wèn)題數(shù)據(jù)庫(kù)105。在問(wèn)題數(shù)據(jù)庫(kù)105中,存儲(chǔ)作為預(yù)測(cè)試實(shí)施的項(xiàng)目參數(shù)(式3的識(shí)別力a及困難度b)的預(yù)先推定的問(wèn)題群。測(cè)試管理服務(wù)器104,如果考生確定,從問(wèn)題數(shù)據(jù)庫(kù)105選擇一群?jiǎn)栴},并將所選擇的問(wèn)題群發(fā)送到考生單元101。
在圖2中以框圖示出考生單元101的概要??忌鷨卧?01,通常,是具有因特網(wǎng)連接環(huán)境的一般的個(gè)人計(jì)算機(jī)。輸入裝置207,是鍵盤、鼠標(biāo)、觸摸屏等機(jī)械的輸入裝置,聲音輸入輸出裝置209,是話筒及揚(yáng)聲器??忌?,首先,從輸入裝置207以手動(dòng)方式或從聲音輸入輸出裝置209以聲音,在自己輸入本身的ID的同時(shí),指示開(kāi)始測(cè)試??忌腎D,在該考生進(jìn)行測(cè)驗(yàn)申請(qǐng)的登錄時(shí),使用從測(cè)試管理服務(wù)器104對(duì)各考生唯一發(fā)行的內(nèi)容。為了安全管理,一般與ID一起還發(fā)行密碼。通過(guò)發(fā)行唯一的ID,在同一考生接受多次測(cè)驗(yàn)的場(chǎng)合,該點(diǎn)可在測(cè)試管理服務(wù)器104中識(shí)別而進(jìn)行合適的出題?;貞?yīng)指示,考生對(duì)從測(cè)試管理服務(wù)器104發(fā)送、在顯示器208上顯示的或從包含揚(yáng)聲器的聲音輸入輸出裝置209輸出的按照自己的水平級(jí)選擇的問(wèn)題,通過(guò)輸入裝置207或話筒(聲音輸入輸出裝置209)輸入解答。解答,特別是,對(duì)與容許部分得分的評(píng)分變?yōu)楸匦璧膶懞驼f(shuō)的提問(wèn)的解答,經(jīng)過(guò)通信接口202和因特網(wǎng)等的網(wǎng)絡(luò)103,發(fā)送到評(píng)分人單元102。但是,如上所述,解答,一般不是直接從考生單元101發(fā)送到評(píng)分人單元102進(jìn)行實(shí)時(shí)評(píng)分,而是在臨時(shí)發(fā)送到集中管理此測(cè)試的測(cè)試管理服務(wù)器104之后,發(fā)送到在多個(gè)之中判斷為合適的評(píng)分人單元102。在集中一定數(shù)目的解答之后評(píng)分,從高效評(píng)分的經(jīng)濟(jì)考慮這是當(dāng)然的。
在圖3中以框圖示出評(píng)分人單元102的概要。評(píng)分人單元102,與考生單元101相同,通常,是具有因特網(wǎng)連接環(huán)境的一般的個(gè)人計(jì)算機(jī)。將經(jīng)過(guò)因特網(wǎng)等的網(wǎng)絡(luò)103從考生單元101或測(cè)試管理服務(wù)器104發(fā)送的解答結(jié)果顯示于顯示器308上,或是從揚(yáng)聲器(聲音輸入輸出裝置309)輸出,利用鍵盤及鼠標(biāo)等輸入裝置407評(píng)分。評(píng)分結(jié)果,經(jīng)過(guò)因特網(wǎng)等的網(wǎng)絡(luò)103返送到測(cè)試管理服務(wù)器104。
在以上說(shuō)明的實(shí)現(xiàn)本發(fā)明的測(cè)試·系統(tǒng)的實(shí)施方式1中,考生單元和評(píng)分人單元和測(cè)試管理服務(wù)器是作為利用因特網(wǎng)等的通信線路的通信網(wǎng)絡(luò)的通信終端構(gòu)成的??墒牵瑢?duì)本專業(yè)領(lǐng)域的人士清楚不過(guò)的是利用本發(fā)明的測(cè)試·系統(tǒng),作為實(shí)施方式2,也可利用不具有通信功能的獨(dú)立的個(gè)人計(jì)算機(jī)實(shí)現(xiàn)。在此場(chǎng)合,存儲(chǔ)難易度及識(shí)別力預(yù)先推定的多數(shù)的問(wèn)題的數(shù)據(jù)庫(kù),比如,是在該個(gè)人計(jì)算機(jī)的硬盤等的存儲(chǔ)裝置上構(gòu)筑的,考生,比如,對(duì)按照在實(shí)施以存放于CD及DVD等的方式提供的本發(fā)明的測(cè)試的程序中包含的命令出題時(shí)的寫及說(shuō)的問(wèn)題,經(jīng)鍵盤和話筒解答。解答結(jié)果,臨時(shí)存儲(chǔ)于硬盤等之中,評(píng)分人,將該解答結(jié)果從硬盤中讀出進(jìn)行任選部分得分的評(píng)分。此實(shí)施方式2的場(chǎng)合的部分得分的處理方法,與實(shí)施方式1的場(chǎng)合相同。如果進(jìn)行評(píng)分,就利用基于部分得分模型的似然函數(shù)進(jìn)行考生的能力推定。
圖4為示出利用本發(fā)明的測(cè)試·系統(tǒng)的測(cè)試實(shí)施的概要的流程圖,特別示出涉及到,按照實(shí)施方式1,本發(fā)明依據(jù)的部分得分模型的有關(guān)寫和說(shuō)的測(cè)試的實(shí)施及處理的過(guò)程。另外,在寫的問(wèn)題中,考生,一般是利用鍵盤(圖2中的輸入裝置207),將英文等的文章以打字的形式解答。在說(shuō)的問(wèn)題中,考生借助個(gè)人計(jì)算機(jī)附帶的話筒(圖3中的聲音輸入輸出裝置309),作為對(duì)提示的問(wèn)進(jìn)行回應(yīng),或是以自由的內(nèi)容輸入聲音,作為該聲音的講話的內(nèi)容就成為評(píng)價(jià)的對(duì)象。評(píng)分人,在經(jīng)因特網(wǎng)等的網(wǎng)絡(luò)與考生現(xiàn)在利用的個(gè)人計(jì)算機(jī)相連接的作為評(píng)分人單元的另外的終端之前待機(jī),可進(jìn)行實(shí)時(shí)評(píng)分,但實(shí)際上,考生的解答一般是在存儲(chǔ)于測(cè)試管理服務(wù)器之后發(fā)送到評(píng)分人單元,對(duì)多個(gè)解答集中評(píng)分。
首先,考生,在考生單元101中訪問(wèn)因特網(wǎng)上的指定的網(wǎng)頁(yè)。在該網(wǎng)頁(yè)中,在自己將自身的考生ID和密碼輸入進(jìn)行認(rèn)證之后,通過(guò)點(diǎn)擊規(guī)定的按鈕,通知希望開(kāi)始接受寫或說(shuō)的問(wèn)題的測(cè)驗(yàn)的意圖(步驟400)。測(cè)試管理服務(wù)器104,回應(yīng)這一通知,從問(wèn)題數(shù)據(jù)庫(kù)105中選擇寫或說(shuō)的問(wèn)題(步驟401)。在此選擇之際,可利用根據(jù)開(kāi)始對(duì)多項(xiàng)選擇式問(wèn)題的解答的評(píng)分結(jié)果推定的能力θ的關(guān)系,選擇包含具有最合適的識(shí)別力及困難度的評(píng)價(jià)項(xiàng)目的問(wèn)題。比如,在選擇寫問(wèn)題之際,可參考對(duì)讀問(wèn)題的解答結(jié)果,在選擇說(shuō)問(wèn)題之際,可參考對(duì)聽(tīng)問(wèn)題的解答結(jié)果。這是因?yàn)榭梢哉J(rèn)為寫的能力與讀的能力有相關(guān)關(guān)系,而說(shuō)的能力與聽(tīng)的能力有相關(guān)關(guān)系之故。但是,這種選擇問(wèn)題的方式,僅僅是示例而已,不是基于包含本發(fā)明的部分得分模型的項(xiàng)目反應(yīng)理論的測(cè)試·系統(tǒng)的本質(zhì)部分。
包含在與所選擇的問(wèn)題相對(duì)應(yīng)的邏輯曲線中的項(xiàng)目參數(shù),一般是從事先實(shí)施的預(yù)測(cè)試的數(shù)據(jù)對(duì)每個(gè)評(píng)價(jià)項(xiàng)目預(yù)先確定的。但是,與能力參數(shù)推定的同時(shí),推定項(xiàng)目參數(shù),同時(shí)最似然推定等在理論上也是可能的,本發(fā)明的測(cè)試·系統(tǒng)也不排除與此同時(shí)的最似然推定的可能性。在此場(chǎng)合,存儲(chǔ)于問(wèn)題數(shù)據(jù)庫(kù)105中的問(wèn)題的項(xiàng)目參數(shù)已經(jīng)推定的場(chǎng)合和未推定的場(chǎng)合可并存。項(xiàng)目參數(shù)的推定,與能力θ的推定相同,是根據(jù)使用式5的似然函數(shù)的部分得分模型進(jìn)行的。另外,在推定項(xiàng)目參數(shù)之際,也可進(jìn)行將各個(gè)問(wèn)題的識(shí)別力及困難度標(biāo)準(zhǔn)化的稱為等化的過(guò)程。利用此等化過(guò)程,可以進(jìn)行不受考生的總體左右的絕對(duì)評(píng)價(jià)。不過(guò),等化本身,對(duì)于項(xiàng)目反應(yīng)理論一般是妥當(dāng)?shù)?,并不特別是本發(fā)明的特征。
如果利用測(cè)試管理服務(wù)器104選擇了應(yīng)該出題的問(wèn)題,則將所選擇的問(wèn)題,經(jīng)因特網(wǎng)等的網(wǎng)絡(luò)103發(fā)送到考生單元101(步驟402)。發(fā)送的問(wèn)題,如果是文本形式的問(wèn)題,就顯示于顯示器208上,如果是聲音形式的問(wèn)題,就由揚(yáng)聲器(聲音輸入輸出裝置209)向考生出題(步驟403)。考生,對(duì)該出題內(nèi)容的問(wèn)題,以打入句子的形式或以發(fā)出的聲音的形式給出解答(步驟404)。構(gòu)成解答的文本文件或聲音文件,經(jīng)因特網(wǎng)等的網(wǎng)絡(luò)103發(fā)送到測(cè)試管理服務(wù)器104臨時(shí)存儲(chǔ)(步驟405)。
以上的過(guò)程對(duì)一定數(shù)目的考生重復(fù)進(jìn)行,將一定數(shù)目的解答文件存儲(chǔ)于測(cè)試管理服務(wù)器104中,但是,對(duì)這些多個(gè)考生出題的問(wèn)題,并不限定于一樣。這是因?yàn)楦鶕?jù)項(xiàng)目反應(yīng)理論的一般論,即使是出題的問(wèn)題不同,能力θ也可以合適地進(jìn)行推定。如果從評(píng)分人單元102訪問(wèn)由測(cè)試管理服務(wù)器104開(kāi)設(shè)的網(wǎng)頁(yè),在為了對(duì)蓄積于測(cè)試管理服務(wù)器104中的解答評(píng)分而提出請(qǐng)求希望將其發(fā)送時(shí),就向評(píng)分人單元102發(fā)送一定數(shù)量的解答文件。(步驟406)。評(píng)分人,利用已經(jīng)說(shuō)明的部分得分模型的方法,對(duì)解答評(píng)分(步驟407)。評(píng)分結(jié)果,從評(píng)分人單元102送回到測(cè)試管理服務(wù)器104(步驟408)。但是,一般,無(wú)論是這樣匯總多個(gè)解答進(jìn)行評(píng)分,還是實(shí)時(shí)進(jìn)行評(píng)分,都與本發(fā)明的特征無(wú)關(guān)。
之后,測(cè)試管理服務(wù)器104,將從評(píng)分人單元102接收到的部分得分代入到式5的似然函數(shù)中,推定能力θ(步驟409)。在推定結(jié)束后,根據(jù)需要,將推定的θ的值,換算為適合于與其他測(cè)試進(jìn)行比較的分?jǐn)?shù)(步驟410)。
利用本發(fā)明的測(cè)試·系統(tǒng),通過(guò)上述的處理,即使是包含歷來(lái)在一般的項(xiàng)目反應(yīng)理論中難以處理的容許部分得分的評(píng)分的問(wèn)題的測(cè)試,也可以與現(xiàn)有型的項(xiàng)目反應(yīng)理論進(jìn)行投射到能力推定。
發(fā)明人,為了確認(rèn)利用本發(fā)明的測(cè)試·系統(tǒng)的能力推定的有效性,在2003年5月21日至28日期間,對(duì)12名被試者的得分的穩(wěn)定性進(jìn)行了確認(rèn)調(diào)查。作為方法,是使同一被試者接受連續(xù)3次使用本發(fā)明的測(cè)試·系統(tǒng)的英語(yǔ)能力測(cè)試,確認(rèn)得分是否會(huì)發(fā)生很大的起伏。此處實(shí)時(shí)的英語(yǔ)能力測(cè)試,是由聽(tīng)說(shuō)寫讀4種技能的測(cè)試構(gòu)成的。
被試者,是東京英語(yǔ)比較得意的某大學(xué)的大學(xué)生12名。假如利用本發(fā)明的測(cè)試·系統(tǒng)的英語(yǔ)能力評(píng)價(jià)是合適的,包含等化的各個(gè)問(wèn)題的項(xiàng)目參數(shù)的推定在利用本發(fā)明的測(cè)試·系統(tǒng)中是合適的,則在同一被試者在一日之內(nèi)接受3次測(cè)驗(yàn)的場(chǎng)合,因?yàn)榭梢哉J(rèn)為其英語(yǔ)能力在此期間不會(huì)變化,結(jié)果的分?jǐn)?shù)應(yīng)該沒(méi)有大的變動(dòng)。
結(jié)果的詳細(xì)情況以圖5的曲線示出。另外,12名的平均分,如圖6所示。個(gè)人差分別存在,但在圖5及圖6中可以觀察到,在從第1次到第2次中間由于習(xí)慣了試驗(yàn)的形式得分提高(一般稱其為“排練效果”),而第3次測(cè)驗(yàn)時(shí)由于疲勞效果(特別是,在作為最后一次的最后的問(wèn)題的“說(shuō)”的得分中可看到)可看到得分降低。
不過(guò),如果觀察平均分的話,則在各種技能中250分滿分中有5.4至18.5分的得分變動(dòng)(=2.2%至7.4%),總分的變動(dòng)幅度也在3%以下。所以,即使是接受不同的問(wèn)題的測(cè)驗(yàn),在利用本發(fā)明的測(cè)試·系統(tǒng)中,測(cè)試·得分的變動(dòng)小,適于得分的標(biāo)準(zhǔn)化,可以了解到不會(huì)受到總體的能力水平的左右而可以進(jìn)行絕對(duì)評(píng)價(jià)。
如果設(shè)想部分得分表現(xiàn)為具有同一參數(shù)的多個(gè)項(xiàng)目反復(fù)出題的場(chǎng)合的正誤的平均,理論上,可以認(rèn)為式5中的rij是實(shí)質(zhì)上的變量,即使是在0至1之間容許部分得分,在現(xiàn)有型的項(xiàng)目反應(yīng)理論中的2值的評(píng)價(jià)中使用的似然函數(shù)的場(chǎng)合和推定結(jié)果相同這一點(diǎn)是本發(fā)明的測(cè)試·系統(tǒng)所依據(jù)的部分得分模型所提倡的。在圖5及圖6中示出的實(shí)驗(yàn)結(jié)果,示出此理論的歸結(jié)也為實(shí)驗(yàn)所確認(rèn)。
所以,根據(jù)本發(fā)明的測(cè)試·系統(tǒng),可以在維持和現(xiàn)有型的項(xiàng)目反應(yīng)理論的整合性的同時(shí),達(dá)到比歷來(lái)更高精度的能力推定。這一點(diǎn)是本發(fā)明的顯著效果。
在說(shuō)明書的最后,下面引用本發(fā)明的發(fā)明者中的一人(藤森)的關(guān)于階段反應(yīng)模型和部分得分模型的比較的論文(“論項(xiàng)目反應(yīng)理論的多值數(shù)據(jù)的分析-階段反應(yīng)模型和部分得分模型-”),文中的圖及表除外。另外,此論文,在成為本申請(qǐng)的優(yōu)先權(quán)主張的基礎(chǔ)的日本專利申請(qǐng)的特愿2002-279513提出申請(qǐng)的平成9月25日的時(shí)點(diǎn)尚未發(fā)表,其后,發(fā)表于文教大學(xué)人間科學(xué)部的紀(jì)要“人間科學(xué)研究”24號(hào)中(平成14年)。另外,因?yàn)榇苏撐?,并非只針?duì)學(xué)力測(cè)試,而是涉及更廣泛的應(yīng)用,所以其中包含與以上的用例不同的地方,使用的不是“問(wèn)題”而是“項(xiàng)目”,不是“考生”而是“被試者”。
1.研究的目的在2總體參數(shù)邏輯模型(Birnmaum,1968)的一般的項(xiàng)目反應(yīng)理論中,只能夠處理正答、誤答這樣的2值數(shù)據(jù),不能分析多值數(shù)據(jù)。可是,在心理學(xué)的一般研究中,問(wèn)卷數(shù)據(jù)等之中利用多值數(shù)據(jù)的也很多。在項(xiàng)目反應(yīng)理論中也不是完全不能處理多值數(shù)據(jù),已開(kāi)發(fā)了幾個(gè)分析模型。比如,Samejima(1969)的階段反應(yīng)模型(graded response model)、評(píng)定尺度模型(rating scale model;Andrich,1978)以及partial creditmodel(Masters,1982)等就是這種的代表。不過(guò),作為現(xiàn)實(shí)問(wèn)題,用于分析的軟件環(huán)境也還未充分準(zhǔn)備好,難說(shuō)這些模型得到廣泛的一般的利用。
鑒于這種狀況,在本研究中,藤森(2001)的部分得分模型(partialtest score model)和階段反應(yīng)模型的比較是根據(jù)模擬及問(wèn)卷數(shù)據(jù)的分析結(jié)果進(jìn)行的,關(guān)于利用項(xiàng)目反應(yīng)理論的多值數(shù)據(jù)的分析方法將進(jìn)行研討。
即使是假設(shè)項(xiàng)目反應(yīng)理論適用于多值數(shù)據(jù),還必須研究哪一種模型好。因此,(1)對(duì)用來(lái)進(jìn)行理論側(cè)面的研討、模型的總體參數(shù)的再現(xiàn)性及能力總體參數(shù)的分布等的影響的研討的(2)模擬的研討,以及現(xiàn)實(shí)數(shù)據(jù)在何種程度上符合的(3)基于證實(shí)的數(shù)據(jù)的研討。因此,在本研究中,(1)在第1.3節(jié)中,(2)在第2節(jié),(3)在第3節(jié)中敘述。
1.1.階段反應(yīng)模型首先對(duì)容許m個(gè)具有順序性的階段反應(yīng)的Samejima(1969)的階段反應(yīng)模型予以說(shuō)明。此處,只考慮測(cè)試的某一個(gè)項(xiàng)目。將與被試者的回答的各階段相對(duì)應(yīng)決定的虛變量作為u,將在比某一階段低的階段反應(yīng)時(shí)為0,不是那樣時(shí)為1的虛變量作為x。在將具有能力θ的被試者成為x=1的幾率表示為(式33)Pu*(θ)=P(X=1|θ)]]>時(shí),(式34)Pu(θ)=Pu*(θ)-Pu+1*(θ)]]>(式35)Pu(θ)>0是階段反應(yīng)模型。但是(式36)P0*(θ)=1]]>
(式37)Pm*(θ)=0]]>式33是確定階段的間隔的邊界反應(yīng)曲線,式34是表現(xiàn)階段的反應(yīng)幾率的階段反應(yīng)曲線。只要滿足上述條件,式33的函數(shù)可以是隨便哪一種,假定在本研究中經(jīng)常使用的2總體參數(shù)邏輯模型為(式38)Pu*(θ)=11+exp(-a(θ-bu))---u=1,...,m-1]]>對(duì)于式35的條件,a是式38的全部曲線的共通的總體參數(shù),稱為識(shí)別力。bu是涉及各階段的閾值的總體參數(shù),稱為困難度。就是說(shuō),在階段反應(yīng)模型中,每個(gè)項(xiàng)目保持一個(gè)識(shí)別力和與各階段的閾值相對(duì)應(yīng)的m-1個(gè)困難度總體參數(shù)。
1.2.部分得分模型在部分得分模型中,在使部分得分為r(0~1的范圍)時(shí),用于總體參數(shù)推定的對(duì)數(shù)似然以下式表示(式39)Σi=1NΣj=1nsj{rijln(Pj(θ))(1-rij)ln(Qij(θ))}]]>其中i是被試者,θ是表示其特性值只對(duì)總體參數(shù),j是項(xiàng)目,s是2值項(xiàng)目換算的重復(fù)數(shù),P是2總體參數(shù)邏輯模型,Q=1-P。
就是說(shuō),部分得分模型將2總體參數(shù)邏輯模型置于其基礎(chǔ)之上。另外,設(shè)想可對(duì)被試者潛在地重復(fù)實(shí)施保持同一或類似項(xiàng)目總體參數(shù)的項(xiàng)目。此時(shí)可認(rèn)為r是重復(fù)實(shí)施的正誤平均??梢宰C明,這樣的部分得分模型與考慮重復(fù)實(shí)施的2總體參數(shù)邏輯模型的最似然解是一致的(在類似總體參數(shù)時(shí)近似)(藤森,2002a)。
1.3.從理論側(cè)面的研討部分得分模型的特征如下(藤森,2002b)。
(1)項(xiàng)目總體參數(shù)在識(shí)別力和困難度上對(duì)于一般的使用者易于理解。(2)模型總體參數(shù)的數(shù)目與其他多值模型比較更少,在推定上沒(méi)有問(wèn)題。(3)因?yàn)闊o(wú)論是何種解答/回答結(jié)果,如果將值變換為0~1部分得分都適用,應(yīng)用范圍廣。(4)也可以很容易適用于問(wèn)卷的評(píng)定尺度。(5)因?yàn)榧词菇獯鸬碾A段數(shù)增加,總體參數(shù)也不增加,評(píng)分結(jié)果的改變及微調(diào)容易對(duì)應(yīng)。(6)因?yàn)榕c2總體參數(shù)邏輯模型為無(wú)縫連接,因?yàn)樽R(shí)別力及困難度總體參數(shù)的解釋可按照原樣與2總體參數(shù)邏輯模型同樣地進(jìn)行,對(duì)2值和多值的混合數(shù)據(jù)等之中的運(yùn)用便利。(7)在通過(guò)testlet/組問(wèn)等的部分得分化在由2值項(xiàng)目組成的組問(wèn)存在的場(chǎng)合,可以將組問(wèn)作為一個(gè)部分得分項(xiàng)目運(yùn)用,附帶地測(cè)試全體的總體參數(shù)的數(shù)目減少。(8)對(duì)殘差得分也可再應(yīng)用模型而與多維數(shù)據(jù)相對(duì)應(yīng)。
對(duì)于(7)和(8)在本研究中未采納,但作為特征是很大的。
接著,階段反應(yīng)模型的特征如下。(1)在項(xiàng)目反應(yīng)理論中作為與多值數(shù)據(jù)相對(duì)應(yīng)的模型而著名。(2)發(fā)表后經(jīng)過(guò)30年以上的時(shí)間還有應(yīng)用研究報(bào)告(比如,野口(1999)等)。(3)存在公開(kāi)的分析用軟件MULTILOG。(4)由于可得到各階段反應(yīng)曲線,對(duì)一直關(guān)心到對(duì)各階段反應(yīng)的場(chǎng)合很方便。比如,如果利用邊界反應(yīng)曲線的總體參數(shù),對(duì)各階段的反應(yīng)在θ上的何種水平上發(fā)生可以進(jìn)行預(yù)測(cè)。
如果比較兩個(gè)模型,模型化的想法的差異是明顯的??梢哉J(rèn)為,階段反應(yīng)模型,因?yàn)槟P偷目傮w參數(shù)多,與部分得分模型相比較,與數(shù)據(jù)的適合性也好。當(dāng)然,如果模型總體參數(shù)多,有發(fā)生對(duì)于總體參數(shù)的正確推定必須有數(shù)據(jù)量等問(wèn)題的危險(xiǎn)。反之,因?yàn)椴糠值梅帜P蛦渭儯梢哉J(rèn)為,可以設(shè)想其適合性差,但推定值等的穩(wěn)定性好。關(guān)于這一點(diǎn),赤池信息量規(guī)準(zhǔn)AIC等的觀點(diǎn)對(duì)于評(píng)價(jià)是必需的。
另外,關(guān)于階段反應(yīng)模型的第(4)點(diǎn),在部分得分模型中,在模型上這是困難的。如果進(jìn)行的話,事后恐怕對(duì)每個(gè)階段要生成對(duì)被試者的分布進(jìn)行研討。項(xiàng)目總體參數(shù),即使是給出,如果是在測(cè)試實(shí)施前,對(duì)被試者的能力分布設(shè)置適當(dāng)?shù)募俣?,在進(jìn)行模擬的每個(gè)階段,恐怕都要生成被試者的分布進(jìn)行研討。無(wú)論如何,與階段反應(yīng)模型相比都更費(fèi)事。
一方面有這一優(yōu)點(diǎn),但階段反應(yīng)模型(從而迄今為止提出的大部分多值模型也一樣),在各階段中要設(shè)置模型總體參數(shù),存在對(duì)于階段變化缺少靈活性的問(wèn)題。比如,在能力測(cè)試中,教師在評(píng)分時(shí)若是將滿分為20分的項(xiàng)目以0、5、10、15、20等粗分為5個(gè)階段進(jìn)行評(píng)價(jià)時(shí),就成為5階段的階段反應(yīng)模型的分析??墒?,假如對(duì)錯(cuò)字掉字等等的答案減1分時(shí),一下子就出現(xiàn)不僅是模型的總體參數(shù)的值,而且總體參數(shù)的數(shù)目本身也會(huì)變化的問(wèn)題。如果將對(duì)問(wèn)卷以5階段進(jìn)行評(píng)價(jià)的項(xiàng)目變成為4階段的話,在階段反應(yīng)模型中,就必須對(duì)迄今為止的項(xiàng)目總體參數(shù)按照原樣利用。
如上所述,任何模型都各有長(zhǎng)處和短處,在對(duì)各階段及評(píng)定不那末關(guān)心,只對(duì)項(xiàng)目的整體特性和能力總體參數(shù)的推定關(guān)心時(shí),可以認(rèn)為部分得分模型就足夠了。
2.關(guān)于模擬的研討在實(shí)際的測(cè)試及問(wèn)卷中回答是由于什么機(jī)制產(chǎn)生的不能正確地了解。部分得分模型和階段反應(yīng)模型中的哪一個(gè)更接近現(xiàn)實(shí),在現(xiàn)在判斷很困難。因此,即使是將兩個(gè)模型的比較進(jìn)行模擬,在數(shù)據(jù)生成時(shí),要確定應(yīng)該按照哪一個(gè)模型生成數(shù)據(jù)是困難的。假定了某一模型生成數(shù)據(jù),即使是以該模型和另外的模型進(jìn)行分析,也不能期待另外的模型會(huì)發(fā)揮良好的成績(jī),比較大概也不能很好地進(jìn)行。因此,在本研究中,以部分得分模型為前提的模擬和以階段反應(yīng)模型為前提的模擬兩者都進(jìn)行。各模型對(duì)遵照自己的模型的數(shù)據(jù)和其他模型的數(shù)據(jù)兩者進(jìn)行分析。當(dāng)然,實(shí)際的數(shù)據(jù)也可能是由于這兩者以外的機(jī)制產(chǎn)生的,可以進(jìn)行兩模型的公平比較。就是說(shuō),在數(shù)據(jù)遵照模型的場(chǎng)合,模型的再現(xiàn)性可通過(guò)模擬進(jìn)行研討,并且在數(shù)據(jù)不遵照模型的場(chǎng)合,可評(píng)價(jià)模型的健壯性。
2.1.以部分得分模型為前提的模擬數(shù)據(jù)以部分得分模型為前提的模擬數(shù)據(jù),以下面的方式生成。首先,假定2總體參數(shù)邏輯模型作為部分得分模型的構(gòu)成要素。此2總體參數(shù)邏輯模型的總體參數(shù)的分布型以如下方式確定。假定識(shí)別力總體參數(shù)是按照平均0.65、標(biāo)準(zhǔn)偏差0.25、下限0.3、上限2.0的切斷正態(tài)分布,而困難度總體參數(shù)是按照平均0、標(biāo)準(zhǔn)偏差0.5的正態(tài)分布。能力總體參數(shù)θ是按照標(biāo)準(zhǔn)正態(tài)分布生成的,將由2總體參數(shù)邏輯模型預(yù)想的正答幾率與范圍0~1的隨機(jī)數(shù)進(jìn)行比較,在前者小時(shí),以被試者的反應(yīng)為正答1,在前者大時(shí)為誤答0。將按照2總體參數(shù)邏輯模型的此2值數(shù)據(jù)模式作為被試者500、項(xiàng)目數(shù)200各重復(fù)10回生成(數(shù)據(jù)1~10)。但是,每5個(gè)項(xiàng)目作為同一總體參數(shù)。接著,取此數(shù)據(jù)的同一總體參數(shù)的每5個(gè)項(xiàng)目的正誤的和的平均作為取0、0.2、0.4、0.6、0.8、1.0的5階段的值的部分得分?jǐn)?shù)據(jù)。就是說(shuō),部分得分?jǐn)?shù)據(jù),與被試者,2值數(shù)據(jù)一樣是500,項(xiàng)目數(shù)為40。同樣,將上述的項(xiàng)目總體參數(shù)作為給定,追加被試者的能力總體參數(shù)θ達(dá)500人量生成互相驗(yàn)證用的數(shù)據(jù)。
2.2.以階段反應(yīng)模型為前提的模擬數(shù)據(jù)以階段反應(yīng)模型為前提的模擬數(shù)據(jù),以下面的方式生成。也是假定2總體參數(shù)邏輯模型作為階段反應(yīng)模型的構(gòu)成要素。另外,其總體參數(shù)的分布形也與0節(jié)一樣。另外,假定取1至5的值的5階段為數(shù)據(jù)的階段數(shù)。因此,由于模型,階段間的邊界反應(yīng)曲線必需4個(gè)。為了確定此曲線群,首先使識(shí)別力總體參數(shù)按照1個(gè)分布發(fā)生,以其為各邊界反應(yīng)曲線的共通識(shí)別力。接著,生成4個(gè)困難度總體參數(shù),選擇最小的,作為階段1和階段2的邊界反應(yīng)曲線的困難度。以下同樣地從困難度小的開(kāi)始順序提取而決定各邊界反應(yīng)曲線的困難度。取這些邊界反應(yīng)曲線的差,作為各階段反應(yīng)曲線。生成1個(gè)遵照標(biāo)準(zhǔn)正態(tài)分布的能力總體參數(shù)θ,將此值固定并在各階段反應(yīng)曲線中在0~1的隨機(jī)數(shù)進(jìn)入預(yù)想的反應(yīng)幾率的區(qū)間(固定θ時(shí)的全階段反應(yīng)曲線的大小的和為1)時(shí),使該反應(yīng)發(fā)生。將以上的過(guò)程以500人量反復(fù)進(jìn)行作為推定用的數(shù)據(jù)。另外,與0節(jié)一樣,利用上面確定的項(xiàng)目總體參數(shù)生成500人量的互相驗(yàn)證用的數(shù)據(jù)。
2.3.總體參數(shù)的推定總體參數(shù)的推定,兩個(gè)模型都是在項(xiàng)目總體參數(shù)和潛在特性值θ利用交互同時(shí)最似然推定得到的自做的FORTRAN程序進(jìn)行的。在利用部分得分模型中,不僅交互同時(shí)最似然推定,項(xiàng)目總體參數(shù)的周邊最似然推定也是可能的,由于階段反應(yīng)模型的推定程序只與交互同時(shí)最似然推定相對(duì)應(yīng),考慮比較之便,兩模型一起最似然推定項(xiàng)目總體參數(shù)(結(jié)果省略,但關(guān)于部分得分模型周邊最似然推定和交互同時(shí)推定的結(jié)果沒(méi)有大的差別)。兩模型一起都是θ和困難度的推定值定在-3.5~3.5的范圍內(nèi),識(shí)別力的推定值范圍為0.02~2.0。
2.4.模擬結(jié)果和考察表1是利用部分得分模型生成的模擬數(shù)據(jù)(以下稱其為部分得分?jǐn)?shù)據(jù))的能力總體參數(shù)的真值、正答數(shù)得分和利用兩模型推定的θ的推定值的相關(guān)。但是相關(guān),求出肯德?tīng)?Kendall)排位相關(guān)系數(shù)(以下在不特別指出的場(chǎng)合都是指肯德?tīng)柵盼幌嚓P(guān))。之所以不是一般經(jīng)常使用的皮爾遜(Pearson)乘積率相關(guān)而是求得排位相關(guān),是因?yàn)樵陧?xiàng)目反應(yīng)理論的現(xiàn)實(shí)的運(yùn)用場(chǎng)合正答數(shù)得分等和推定值的排位的逆轉(zhuǎn)現(xiàn)象成為問(wèn)題的情況很多之故。從表1可知,與真的θ的相關(guān),無(wú)論如何利用部分得分模型得到的推定值一方都很高,但與階段反應(yīng)模型的差幾乎不存在。與此相比,與正答數(shù)的相關(guān),給出差有若干擴(kuò)大的由部分得分模型得出的推定值高的相關(guān)。
另外,關(guān)于部分得分模型的項(xiàng)目總體參數(shù)的推定值,比如,對(duì)數(shù)據(jù)集1識(shí)別力的均方誤差(MSE)是0.0014,關(guān)于困難度是0.0017,特別是以沒(méi)有問(wèn)題的精度得到的推定值。順便說(shuō),因?yàn)榕c成為數(shù)據(jù)生成的基礎(chǔ)的模型的不同,不能判斷值的好壞,和階段反應(yīng)模型的MSE是0.027,困難度是0.31。但是,關(guān)于困難度,利用階段反應(yīng)曲線的困難度的推定值平均,計(jì)算出MSE。
接著,利用部分得分?jǐn)?shù)據(jù)的推定值比較互相認(rèn)證數(shù)據(jù)的成績(jī)(表2)。在互相認(rèn)證中,情況也與前面一樣,與真值的相關(guān),任何部分得分?jǐn)?shù)據(jù)僅僅略微上升,關(guān)于正答數(shù)部分得分,示出模型之間的差略微擴(kuò)大。
此外,利用階段反應(yīng)模型生成的模擬數(shù)據(jù)(以下稱其為反應(yīng)數(shù)據(jù))的結(jié)果示于表3。另外,根據(jù)同一數(shù)據(jù)推定的項(xiàng)目總體參數(shù)應(yīng)用于互相認(rèn)證數(shù)據(jù)的結(jié)果示于表4。在任何一個(gè)之中與部分得分模型相比階段反應(yīng)模型一方和真的θ的相關(guān)僅僅略微提高,差不大,也可看到如數(shù)據(jù)集1,5那樣的逆轉(zhuǎn)的情況。另外,整體上真值的相關(guān),比較表1和表2,略微降低,階段反應(yīng)模型與部分得分模型相比較,可以說(shuō)是顯示再現(xiàn)性困難的模型。雖然是階段反應(yīng)模型,但和正答數(shù)得分的相關(guān)與階段反應(yīng)模型相比,部分得分模型得到的推定值一方變高。并且可知與部分得分?jǐn)?shù)據(jù)的場(chǎng)合相比其差擴(kuò)大。與合計(jì)分的排位關(guān)系的逆轉(zhuǎn),在階段反應(yīng)模型中變多,產(chǎn)生這一逆轉(zhuǎn)的理由,是在階段反應(yīng)模型中,由項(xiàng)目評(píng)定的中間部分的階段反應(yīng)曲線相對(duì)地相當(dāng)?shù)?,利用其他?xiàng)目的回答結(jié)果,該項(xiàng)目的回答,對(duì)θ的推定(推定誤差的大小姑且不論,對(duì)該點(diǎn)推定值的決定)幾乎不具有影響力之故。由于這一現(xiàn)象,不僅是階段反應(yīng)模型,與對(duì)每個(gè)多項(xiàng)選擇及范疇的反應(yīng)幾率曲線進(jìn)行模型化的其他多值模型也是共通的,可以認(rèn)為在利用這些模型之際,必須注意。不用說(shuō),既然部分得分模型也是以2總體參數(shù)邏輯模型作為基礎(chǔ),合計(jì)分和θ的逆轉(zhuǎn)也不得不產(chǎn)生一部分,但其程度可抑制為很低。
下面對(duì)階段反應(yīng)模型的項(xiàng)目總體參數(shù)的推定值予以研討。比如,對(duì)于數(shù)據(jù)集1識(shí)別力的均方誤差(MSE)是0.2993,關(guān)于困難度是0.0636,可知與部分得分模型的場(chǎng)合相比較推定精度略差。示于表5的項(xiàng)目8,15是數(shù)據(jù)集1中的推定成績(jī)差的項(xiàng)目,可知在任何真的邊界反應(yīng)曲線互相過(guò)于接近的場(chǎng)合不能進(jìn)行推定。在這種場(chǎng)合,可以考慮必須將2個(gè)邊界反應(yīng)曲線作為1個(gè)進(jìn)行處理等的對(duì)策,但也存在以何種基準(zhǔn)進(jìn)行等的問(wèn)題,在本研究中不進(jìn)行這一點(diǎn)??梢哉f(shuō),在一定的意義上,在使這種對(duì)策成為必需的這一點(diǎn)上存在階段反應(yīng)模型的問(wèn)題點(diǎn)。另外,模型不同的部分得分模型的識(shí)別力的均方誤差(MSE)是0.0136,可以給出比階段反應(yīng)模型更好的推定值。但因?yàn)殛P(guān)于階段反應(yīng)模型的項(xiàng)目總體參數(shù)的推定,在周邊最似然推定中保留有改善成績(jī)的可能性,此處除此之外不予討論,將在另外的研究中報(bào)告。
如對(duì)以上進(jìn)行總結(jié),在本研究的模擬的條件下,部分得分?jǐn)?shù)據(jù),階段反應(yīng)數(shù)據(jù)的任何一個(gè),與真值的相關(guān),利用哪一個(gè)模型都不會(huì)產(chǎn)生大的差別。與此相對(duì),與正答數(shù)得分的相關(guān),很明顯部分得分模型一方是好成績(jī),特別是與預(yù)期相反在階段反應(yīng)數(shù)據(jù)中差變大。另外,在項(xiàng)目總體參數(shù)多的階段反應(yīng)模型中不會(huì)產(chǎn)生令人恐懼的互相認(rèn)證中的不合適(但總體參數(shù)推定上的問(wèn)題保留)。這是一方面,而本研究是不會(huì)特別使噪音傳播的單純的模擬這一點(diǎn)也許有影響。
3.問(wèn)卷數(shù)據(jù)的研討3.1.問(wèn)卷數(shù)據(jù)及總體參數(shù)的推定在本研究中,作為分析的對(duì)象的數(shù)據(jù),是○縣的青少年基本調(diào)查中的中高生1849人的數(shù)據(jù),是關(guān)于教師和學(xué)生的心理距離調(diào)研的9個(gè)項(xiàng)目的尺度(表6)。各項(xiàng)目以從“1.很適用”到“4.根本不適用”4個(gè)階段進(jìn)行評(píng)價(jià)而求得,對(duì)9個(gè)項(xiàng)目一起的回答的處理,值越小,心理距離越小。在部分得分模型中,為了將此數(shù)據(jù)處理成為0~1的部分得分,在使各回答結(jié)果成為x時(shí),通過(guò)變換為r=(x-1)/3,成為取“0、1/3、2/3、1”4個(gè)階段的部分得分?jǐn)?shù)據(jù)。另外,推定方法,是與模擬方法同樣的方法。另外,關(guān)于本調(diào)查的詳細(xì)情況可參照木原等(1997)。
3.2.問(wèn)卷數(shù)據(jù)的結(jié)果和考察階段反應(yīng)模型的識(shí)別力與部分得分模型相比較,整體上提高(表7)。與此類似的現(xiàn)象在將數(shù)據(jù)2值化在通常的2總體參數(shù)邏輯模型中進(jìn)行分析的場(chǎng)合也會(huì)產(chǎn)生。比如,在4階段評(píng)定的場(chǎng)合,2值化實(shí)質(zhì)上是由于將階段2置換為1,將階段3置換為4而發(fā)生的現(xiàn)象。表7的“2值模型”是這種數(shù)據(jù)變換的結(jié)果??梢钥吹剑c部分得分模型相比較,識(shí)別力略微提高。這種現(xiàn)象的發(fā)生,在將圖1的項(xiàng)目4的群別的平均回答結(jié)果在4值和2值的場(chǎng)合進(jìn)行比較一下的話,就可以很好地理解。但在作圖時(shí),是將4值2值任何一個(gè)場(chǎng)合的全部回答變換為0~1的范圍。多值數(shù)據(jù)的2值化對(duì)識(shí)別力的推定值有很大影響這一點(diǎn)從圖中可得到理解。此外,由于邊界反應(yīng)曲線實(shí)質(zhì)上是根據(jù)將多值的回答2值化而得到的數(shù)據(jù)進(jìn)行定義和推定的,此2值化和類似的現(xiàn)象有產(chǎn)生的可能性。然而,在模擬的結(jié)果中,部分得分模型的識(shí)別力和階段反應(yīng)模型的識(shí)別力的推定值沒(méi)有很大的差異,在以2值化(為)原因這一點(diǎn)上還有些疑問(wèn)。
作為一種可能性,還有測(cè)試項(xiàng)目數(shù)的差別。在模擬中是40項(xiàng),而在本問(wèn)卷中是9項(xiàng),這一差別可能有影響。因此,追加一個(gè)模擬。只取階段反應(yīng)數(shù)據(jù)的數(shù)據(jù)集1的開(kāi)始的10項(xiàng)目,在利用階段反應(yīng)模型求得交互同時(shí)推定值時(shí),識(shí)別力的值如表8所示??梢?jiàn),很明顯存在著如果項(xiàng)目數(shù)減少,則識(shí)別力變大的傾向(MSE=0.2647)。即使很明確在階段反應(yīng)模型中,在少數(shù)項(xiàng)目中的識(shí)別力的推定需要偏置,其原因是存在于模型中,還是推定方法有問(wèn)題是必須區(qū)別的。就是說(shuō),如果不是階段反應(yīng)模型本身,也有可能是同時(shí)最似然推定這一方法對(duì)推定有壞的影響(眾所周知同時(shí)最似然推定導(dǎo)致的項(xiàng)目總體參數(shù)的推定值不具有一致性)。因此,利用MULTILOG(Thissen,1991)計(jì)算出周邊最似然推定值,偏置幾乎不改變(MSE=0.2558)。這一點(diǎn)顯示,與其說(shuō)是推定法的問(wèn)題,也許不如說(shuō)是模型的問(wèn)題。另外,從表8,項(xiàng)目7,剛一看同時(shí)最似然推定的識(shí)別力極端低,反之MULTILOG的推定值似乎可得到妥當(dāng)?shù)闹?,但?shí)際上MULTILOG在困難度上為異常的推定值,不能順利地進(jìn)行推定這一點(diǎn)沒(méi)有改變。因此,從MSE計(jì)算中除外同項(xiàng)目。
在利用部分得分?jǐn)?shù)據(jù)集1的10項(xiàng)目的部分得分模型的分析中,交互同時(shí)推定的MSE,識(shí)別力是0.0094,困難度是0.0007,在周邊最似然推定中,識(shí)別力為0.0032,困難度為0.0014(表9)??梢哉f(shuō),在同模型中,交互同時(shí)推定、周邊最似然推定都不認(rèn)這一偏置。在表10中示出,問(wèn)卷數(shù)據(jù)由兩模型進(jìn)行分析,利用周邊最似然推定的推定值。從同一表可知,與模擬一樣,利用周邊最似然推定,在階段反應(yīng)模型中,識(shí)別力也可增大。
在階段反應(yīng)模型中,在少數(shù)項(xiàng)目中,關(guān)于識(shí)別力需要上方偏置一事,因?yàn)樾枰髦氐难杏?,?duì)此將在另外的研究中進(jìn)行,此處根據(jù)表7的同時(shí)最似然推定的結(jié)果進(jìn)行研討。在圖2中,示出項(xiàng)目1的部分得分模型的項(xiàng)目反應(yīng)曲線,并且在圖3中示出階段反應(yīng)模型的反應(yīng)曲線。求出判定結(jié)果的合計(jì)分和兩模型的θ的肯德?tīng)柕呐盼幌嚓P(guān)時(shí),可得到與階段反應(yīng)模型的相關(guān)為0.9104,而與部分得分模型的相關(guān)為0.9424(去掉未回答的問(wèn)卷,只以1588人算出的)。部分得分模型一方與合計(jì)分相關(guān)略高,對(duì)其應(yīng)用再現(xiàn)和模擬的結(jié)果一致。相關(guān)的值,與由階段反應(yīng)模型的模擬結(jié)果得到的兩模型的相關(guān)接近,只靠這一點(diǎn)恐怕不能確定本數(shù)據(jù)是按照階段反應(yīng)模型發(fā)生的。其理由可以舉出的有,比如,可以預(yù)想,在生成模擬數(shù)據(jù)之際,如果加上多維性等等的影響,不僅真值和推定值的相關(guān),與正答數(shù)(在問(wèn)卷的場(chǎng)合為合計(jì)分)的相關(guān)也會(huì)降低。
本節(jié)的數(shù)據(jù),由于是實(shí)際調(diào)查,因?yàn)檎嬷挡幻?,很難確定哪一個(gè)模型好。然而,在階段反應(yīng)模型中與合計(jì)分的相關(guān)低這一點(diǎn),如果對(duì)排位的逆轉(zhuǎn)是予以充分說(shuō)明的就很好,由于不是一看就可以了解其特性的,最好考慮到對(duì)模型的使用者而言在利用之際難以容納逆轉(zhuǎn)現(xiàn)象。無(wú)論如何,從模擬的結(jié)果(在接近模擬的條件的場(chǎng)合)可以想象,在推定真的θ值這一點(diǎn)上,大的差不是兩模型。然而,關(guān)于在少數(shù)項(xiàng)目的場(chǎng)合的階段反應(yīng)模型的推定值的偏置帶來(lái)什么影響這一點(diǎn),大概還需要稍微進(jìn)行研討。無(wú)論如何,作為項(xiàng)目特性,在識(shí)別力及項(xiàng)目困難度以外沒(méi)有很大關(guān)心的場(chǎng)合,即在回答的各階段的困難度等沒(méi)有特別關(guān)心的場(chǎng)合(利用問(wèn)卷的很多研究與此相當(dāng)),恐怕可以說(shuō)與復(fù)雜而且必須推定多個(gè)總體參數(shù)的階段反應(yīng)模型相比較,簡(jiǎn)單的部分得分模型一方大概可以說(shuō)更適合。自然,保持對(duì)各個(gè)階段的反應(yīng)的關(guān)心的場(chǎng)合并不受此限制。
文獻(xiàn)Andrich,D 1978 A rating formulation for ordered responsecategories.Psychometrika,43,561-573.
Birnmaum,A.1968 Some latent trait models and their use ininferring an examinee′s ability.In F.M.Lord&M.R.Novick(Eds.),Statistical theories of mental test scores(pp.395-479).Reading,MAAddison-Wesley.
木原孝博·田中治彥·藤森進(jìn)1997中學(xué)生·高校生の學(xué)校不適応に関する研究岡山県青少年基本調(diào)查(1994)に基づく分析岡山大學(xué)教育學(xué)部研究集録,104,105-122.
藤森道2001項(xiàng)目反応理論にぉける部分得點(diǎn)の處理につぃて日本教育心理學(xué)會(huì)第43回総會(huì)凳表論文集,394.
藤森進(jìn)2002a項(xiàng)目反応理論にぉけるテストの部分得點(diǎn)の處理方法につぃて未凳表論文.
藤森進(jìn)2002b部分得點(diǎn)モテルとその応用第1回心理測(cè)定研究會(huì).
Masters,G.N.1982 A Rasch model for partial credit scoring.Psychometrika,47,149-174.
野口裕之1999適応型テストへの応用CAT方式にょる識(shí)別性検查(渡辺直登·野口裕之編著「組織心理測(cè)定論」第8章白桃書房).
Samejima,F(xiàn).1969 Estimation of latent ability using aresponse pattern of graded scores.PsychometrikaMonograph,No.17.
Thissen,D 1991 Multilog user′s guide.Chicago,ILScientific Software.
權(quán)利要求
1.一種測(cè)試·系統(tǒng),是一種其構(gòu)成包括具有輸入裝置和輸出裝置的第1計(jì)算機(jī);具有經(jīng)過(guò)包含因特網(wǎng)的網(wǎng)絡(luò)與上述第1計(jì)算機(jī)相連接的輸入裝置和輸出裝置的第2計(jì)算機(jī);經(jīng)過(guò)上述網(wǎng)絡(luò)與上述第1及第2計(jì)算機(jī)相連接的測(cè)試管理服務(wù)器;以及可從上述管理服務(wù)器訪問(wèn)的存儲(chǔ)有包含預(yù)先推定難易度和識(shí)別力的項(xiàng)目參數(shù)的多個(gè)問(wèn)題的問(wèn)題數(shù)據(jù)庫(kù);對(duì)一個(gè)考生提出n問(wèn)的問(wèn)題,從上述考生對(duì)提出的n問(wèn)的問(wèn)題的反應(yīng)推定上述考生的能力θ的測(cè)試·系統(tǒng),其特征在于上述測(cè)試管理服務(wù)器的構(gòu)成包括回應(yīng)從上述第1計(jì)算機(jī)發(fā)送的請(qǐng)求,在對(duì)1≤j≤n的問(wèn)題j的滿分設(shè)定為1時(shí),從上述問(wèn)題數(shù)據(jù)庫(kù)選擇可以容許以0≤rj≤1的部分得分rj的方式進(jìn)行評(píng)分的n問(wèn)的問(wèn)題并發(fā)送到上述第1計(jì)算機(jī)的裝置;存儲(chǔ)對(duì)于從上述問(wèn)題數(shù)據(jù)庫(kù)選擇并發(fā)送到上述第1計(jì)算機(jī)的問(wèn)題從上述第1計(jì)算機(jī)返回的解答的解答存儲(chǔ)裝置;回應(yīng)從上述第2計(jì)算機(jī)發(fā)送的請(qǐng)求,讀出由上述解答存儲(chǔ)裝置存儲(chǔ)的解答并發(fā)送到上述第2計(jì)算機(jī)的裝置;從上述第2計(jì)算機(jī)接收并存儲(chǔ)對(duì)于發(fā)送到上述第2計(jì)算機(jī)的解答給予的部分得分rj的部分得分存儲(chǔ)裝置;以及利用上述部分得分存儲(chǔ)裝置存儲(chǔ)的部分得分rj和存儲(chǔ)在上述問(wèn)題數(shù)據(jù)庫(kù)中的問(wèn)題j的項(xiàng)目參數(shù),推定獲得該部分得分rj的考生的能力θ的能力推定裝置,在上述能力推定裝置中,Pj(θ)是在設(shè)想部分得分rj作為問(wèn)題j所固有的,在上述考生對(duì)取得正答1或誤答0中的任何一個(gè)的潛在的反應(yīng)的潛在的問(wèn)題重復(fù)sj次時(shí),上述考生可潛在地取得的正誤反應(yīng)的平均值的場(chǎng)合,上述考生正確回答上述潛在的問(wèn)題的幾率,在Qj(θ)為1-Pj(θ)時(shí),利用由下式表示的對(duì)數(shù)似然lpart(θ)(式40)lpart(θ)=Σj=1nsj(rjln(Pj(θ))+(1-rj)ln(Qj(θ)))]]>推定考生的能力θ。
2.如權(quán)利要求1所述的測(cè)試·系統(tǒng),其特征在于上述Pj(θ)是利用2參數(shù)邏輯模型表示的(式41)Pj(θ)=11+exp(-Daj(θ-bj)).]]>此式1中的aj和bj分別是存儲(chǔ)于上述問(wèn)題數(shù)據(jù)庫(kù)中的作為問(wèn)題所固有的特性的識(shí)別力和困難度,D是等于1.7的常數(shù)。
3.如權(quán)利要求2所述的測(cè)試·系統(tǒng),其特征在于在對(duì)實(shí)際觀測(cè)到的問(wèn)題j的部分得分rj是由顯在的多個(gè)正誤問(wèn)題的平均構(gòu)成的場(chǎng)合,這些正誤問(wèn)題的正答幾率由式41表示,利用式40推定考生的能力θ。
4.如權(quán)利要求1至3中任何一項(xiàng)所述的測(cè)試·系統(tǒng),其特征在于其構(gòu)成還包括在假定實(shí)施測(cè)試的集團(tuán)的能力分布之上,對(duì)作為sj次的正誤的和的2項(xiàng)分布和假設(shè)的能力分布的積以能力的維數(shù)進(jìn)行積分而求出部分得分的理論分布函數(shù),使求出的理論分布函數(shù)和實(shí)際的數(shù)據(jù)的部分得分的經(jīng)驗(yàn)分布函數(shù)的一致性最好的對(duì)作為潛在的問(wèn)題的重復(fù)次數(shù)的sj進(jìn)行推定的裝置。
5.如權(quán)利要求1至4中任何一項(xiàng)所述的測(cè)試·系統(tǒng),其特征在于其構(gòu)成還包括在上述第1及第2計(jì)算機(jī)的上述輸出裝置和輸入裝置分別包含聲音輸出裝置和聲音輸入裝置,向上述測(cè)試服務(wù)器發(fā)送并存儲(chǔ)的解答包含聲音數(shù)據(jù)。
6.一種測(cè)試·系統(tǒng)的控制方法,是一種其構(gòu)成包括具有輸入裝置和輸出裝置的第1計(jì)算機(jī);具有經(jīng)過(guò)包含因特網(wǎng)的網(wǎng)絡(luò)與上述第1計(jì)算機(jī)相連接的輸入裝置和輸出裝置的第2計(jì)算機(jī);經(jīng)過(guò)上述網(wǎng)絡(luò)與上述第1及第2計(jì)算機(jī)相連接的測(cè)試管理服務(wù)器;以及可從上述管理服務(wù)器訪問(wèn)的存儲(chǔ)有包含預(yù)先推定難易度和識(shí)別力的項(xiàng)目參數(shù)的多個(gè)問(wèn)題的問(wèn)題數(shù)據(jù)庫(kù);對(duì)一個(gè)考生提出n問(wèn)的問(wèn)題,從上述考生對(duì)提出的n問(wèn)的問(wèn)題的反應(yīng)推定上述考生的能力θ的測(cè)試·系統(tǒng)的控制方法,其特征在于上述測(cè)試管理服務(wù)器的構(gòu)成包括(1)回應(yīng)從上述第1計(jì)算機(jī)發(fā)送的請(qǐng)求,在對(duì)1≤j≤n的問(wèn)題j的滿分設(shè)定為1時(shí),從上述問(wèn)題數(shù)據(jù)庫(kù)選擇可以容許以0≤rj≤1的部分得分rj的方式進(jìn)行評(píng)分的n問(wèn)的問(wèn)題并發(fā)送到上述第1計(jì)算機(jī)的步驟;(2)存儲(chǔ)對(duì)于從上述問(wèn)題數(shù)據(jù)庫(kù)選擇并發(fā)送到上述第1計(jì)算機(jī)的問(wèn)題從上述第1計(jì)算機(jī)返回的解答的解答存儲(chǔ)步驟;(3)回應(yīng)從上述第2計(jì)算機(jī)發(fā)送的請(qǐng)求,讀出在上述步驟(2)中存儲(chǔ)的解答并發(fā)送到上述第2計(jì)算機(jī)的步驟;(4)從上述第2計(jì)算機(jī)接收并存儲(chǔ)對(duì)于發(fā)送到上述第2計(jì)算機(jī)的解答給予的部分得分rj的部分得分存儲(chǔ)步驟;以及(5)利用上述部分得分存儲(chǔ)裝置存儲(chǔ)的部分得分rj和存儲(chǔ)在上述問(wèn)題數(shù)據(jù)庫(kù)中的問(wèn)題j的項(xiàng)目參數(shù),推定獲得該部分得分rj的考生的能力θ的能力推定步驟,在上述步驟(5)中,Pj(θ)是在設(shè)想部分得分rj作為問(wèn)題j所固有的,在上述考生對(duì)取得正答1或誤答0中的任何一個(gè)的潛在的反應(yīng)的潛在的問(wèn)題重復(fù)s次時(shí),上述考生可潛在地取得的正誤反應(yīng)的平均值的場(chǎng)合,上述考生正確回答上述潛在的問(wèn)題的幾率,在Qj(θ)為1-Pj(θ)時(shí),利用由下式表示的對(duì)數(shù)似然lpart(θ)(式42)lpart(θ)=Σj=1nsj(rjln(Pj(θ))+(1-rj)ln(Qj(θ)))]]>推定考生的能力θ。
7.如權(quán)利要求6所述的方法,其特征在于上述Pj(θ)是利用2參數(shù)邏輯模型表示的(式43)Pj(θ)=11+exp(-Daj(θ-bj))]]>此式43中的aj和bj分別是存儲(chǔ)于上述問(wèn)題數(shù)據(jù)庫(kù)中的作為問(wèn)題所固有的特性的識(shí)別力和困難度,D是等于1.7的常數(shù)。
8.如權(quán)利要求7所述的方法,其特征在于在對(duì)實(shí)際觀測(cè)到的問(wèn)題j的部分得分rj是由顯在的多個(gè)正誤問(wèn)題的平均構(gòu)成的場(chǎng)合,這些正誤問(wèn)題的正答幾率由式43表示,利用式42推定考生的能力θ。
9.如權(quán)利要求6至8中任何一項(xiàng)所述的方法,其特征在于其構(gòu)成還包括(6)在假定實(shí)施測(cè)試的集團(tuán)的能力分布之上,對(duì)作為sj次的正誤的和的2項(xiàng)分布和假設(shè)的能力分布的積以能力的維數(shù)進(jìn)行積分而求出部分得分的理論分布函數(shù),使求出的理論分布函數(shù)和實(shí)際的數(shù)據(jù)的部分得分的經(jīng)驗(yàn)分布函數(shù)的一致性最好的對(duì)作為潛在的問(wèn)題的重復(fù)次數(shù)的sj。
全文摘要
根據(jù)本發(fā)明,可提供一種在英語(yǔ)能力測(cè)試中不僅可以進(jìn)行正誤2值評(píng)價(jià),而且可以進(jìn)行部分得分的評(píng)分的測(cè)試·系統(tǒng)。在此測(cè)試·系統(tǒng)中,利用包含輸入輸出裝置(207、208)的計(jì)算機(jī)裝置(101、102)和因特網(wǎng)等的網(wǎng)絡(luò)(103),在項(xiàng)目參數(shù)及能力推定上使用對(duì)現(xiàn)有的項(xiàng)目反應(yīng)理論進(jìn)行修正的部分得分模型。在此部分得分模型中,設(shè)想部分得分是正誤具有同一參數(shù)的多個(gè)項(xiàng)目的正誤的平均構(gòu)成的。使用本發(fā)明的測(cè)試·系統(tǒng),可使像外語(yǔ)測(cè)試的寫和說(shuō)這樣的只靠正誤難以判定而要求部分得分的出題形式的測(cè)試的控制比現(xiàn)有的情況更容易。
文檔編號(hào)G06Q50/00GK1578972SQ0380137
公開(kāi)日2005年2月9日 申請(qǐng)日期2003年9月25日 優(yōu)先權(quán)日2002年9月25日
發(fā)明者藤森進(jìn), 山下仁司 申請(qǐng)人:日本貝樂(lè)思公司, 藤森進(jìn)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1