本發(fā)明涉及在線教學(xué)領(lǐng)域,尤其涉及一種在線教學(xué)資源庫的自動構(gòu)建方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的逐漸普及,在線教育成為人們獲取知識的新途徑。2012年,美國的頂尖大學(xué)陸續(xù)設(shè)立網(wǎng)絡(luò)學(xué)習(xí)平臺,在網(wǎng)上提供免費(fèi)課程,coursera(https://www.coursera.org/)、udacity(https://www.udacity.com/)、edx(https://www.edx.org/)三大課程提供商的興起給更多學(xué)生提供了系統(tǒng)學(xué)習(xí)的可能。人們可以通過觀看在線教學(xué)資源遠(yuǎn)程學(xué)習(xí)相關(guān)知識或技術(shù),極大的方便了知識的傳播。近幾年國內(nèi)也出現(xiàn)了很多在線教育平臺,大型開放式網(wǎng)絡(luò)課程,即mooc(massiveopenonlinecourses)的概念被越來越多的人熟知。2013年,果殼網(wǎng)旗下mooc學(xué)院(http://mooc.guokr.com/)上線。mooc學(xué)院是最大的中文mooc學(xué)習(xí)社區(qū),收錄了1500多門各大mooc平臺上的課程。有50萬學(xué)習(xí)者在這里點評課程、分享筆記、討論交流。2014年5月,由網(wǎng)易云課堂承接教育部國家精品開放課程任務(wù),與愛課程網(wǎng)合作推出的“中國大學(xué)mooc”項目正式上線。
在線教育資源的豐富給了人們更多機(jī)會學(xué)習(xí)知識,但從眾多在線教育社區(qū)中如何定位和查找自己所需的資源是當(dāng)前用戶使用在線教育資源時面臨的重要問題。不同社區(qū)中在線資源的組織方式各有不同,教育資源的描述、標(biāo)簽、分類等信息因其所在的社區(qū)而異。因此如何將海量的在線教學(xué)資源有效整合和分類排序成為當(dāng)前的亟待解決的問題。
目前,各大在線教育社區(qū)中存在數(shù)十萬的在線教育資源,資源的有效分類成為用戶快速定位其所需資源的重要方式。雖然各大在線教學(xué)網(wǎng)站中都對教育資源進(jìn)行了初步的分類,但各大網(wǎng)站對教育資源的分類程度不統(tǒng)一,分類標(biāo)準(zhǔn)也不盡相同。尤其是來自國外網(wǎng)站的在線教育資源的分類方式與國內(nèi)網(wǎng)站存在很大差異。直接將資源原有社區(qū)的分類方式進(jìn)行簡單綜合會導(dǎo)致最終分類的混亂。因此,在把來自多個社區(qū)的資源進(jìn)行整合的過程中,需要對資源進(jìn)行重新分類,通過合理有效的分類幫助用戶查找其所需的資源。此外,如何對在線教育資源進(jìn)行評價和排序也成為資源整合后另一重大問題。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于針對在互聯(lián)網(wǎng)中存在的大量在線教學(xué)資源,提出一種可以自動從不同的社區(qū)獲取在線教學(xué)資源、并對資源進(jìn)行統(tǒng)一分類和排序的在線教學(xué)資源庫的自動構(gòu)建方法。
為實現(xiàn)上述目的,本發(fā)明提供一種在線教學(xué)資源庫的自動構(gòu)建方法,包括如下步驟:
s1、構(gòu)建在線教學(xué)資源數(shù)據(jù)庫,所述在線教學(xué)資源數(shù)據(jù)庫包含數(shù)據(jù)爬取表、教學(xué)資源數(shù)據(jù)表,教學(xué)資源分類表和教學(xué)資源評分表;
s2、對上述在線教學(xué)資源數(shù)據(jù)庫的資源信息進(jìn)行信息抽取和質(zhì)量檢測,并將在線教學(xué)資源詳細(xì)數(shù)據(jù)存儲在教學(xué)資源數(shù)據(jù)表中;
s3、使用機(jī)器學(xué)習(xí)中的svm算法,對在線教學(xué)資源進(jìn)行自動分類;并將分類結(jié)果存儲在教學(xué)資源分類表;
s4、根據(jù)在線教學(xué)資源庫的瀏覽量、用戶評價、參加人數(shù)對在線教學(xué)資源進(jìn)行評分,根據(jù)評分從高到低對教學(xué)資源排序,并將評分結(jié)果存儲于教學(xué)資源評分表。
步驟s1中,采用通用的web爬蟲技術(shù)定時從互聯(lián)網(wǎng)上公開的在線教學(xué)社區(qū)中獲取在線教學(xué)資源數(shù)據(jù)庫所需的資源信息,并以html文本的方式存儲在爬取數(shù)據(jù)表中;通過web爬蟲技術(shù)獲取的在線教學(xué)資源信息以[url,頁面html]的方式存儲在數(shù)據(jù)爬取表中。若存在爬取錯誤的頁面,對頁面url進(jìn)行標(biāo)記,下次爬取時可再次爬取;所述錯誤的頁面包括:html頁面為404頁面,或重要信息字段缺失的頁面鏈接。
步驟s2中,抽取和質(zhì)量檢測的信息包括:在線教學(xué)資源的名稱、描述、所屬機(jī)構(gòu)或?qū)W校、老師、課程起止時間、標(biāo)簽、語言、參加人數(shù)、評論、用戶評價。
進(jìn)行信息抽取和質(zhì)量檢測后的數(shù)據(jù)以[課程id,url,名稱,描述,…]存儲在教學(xué)資源數(shù)據(jù)表中。
步驟s3中,根據(jù)在線教學(xué)資源數(shù)據(jù)庫的名稱、描述、標(biāo)簽、發(fā)布機(jī)構(gòu)、講師信息對在線教學(xué)資源進(jìn)行自動分類;且分類標(biāo)準(zhǔn)為教育部公布的學(xué)科分類。
步驟s4中,評分結(jié)果以[課程id,評分]的格式存儲于教學(xué)資源評分表。所述評分結(jié)果score的計算方法為:score=α×v+β×p+γ×r,其中,v為在線教學(xué)資源的瀏覽量,p為參加人數(shù),r為用戶評價;
計算時,先將所述三個指標(biāo)歸一化到[0,100]的范圍,然后設(shè)定三個系數(shù)以表示所述各個指標(biāo)的權(quán)重,三個系數(shù)的值可根據(jù)實際排序需要進(jìn)行調(diào)整。
進(jìn)一步地,svm算法包括:
s301、機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注:首先選擇若干爬取的在線教學(xué)資源作為樣本,人工對樣本的分類進(jìn)行標(biāo)注;選取的樣本要盡量均勻的覆蓋所有類別,并且每個資源只屬于一類;
s302、分類器特征提?。和ㄟ^對在線教學(xué)資源數(shù)據(jù)的分析,選取教學(xué)資源的典型屬性,包括教學(xué)資源的名稱、標(biāo)簽、發(fā)布機(jī)構(gòu)、描述和授課教師,并對步驟301中標(biāo)注的原始樣本進(jìn)行相應(yīng)處理;
s303、訓(xùn)練分類器:輸入已標(biāo)注的樣本數(shù)據(jù)訓(xùn)練svm分類器,具體實施時使用java語言的libsvm包進(jìn)行訓(xùn)練;
s304、其他樣本分類;分類器訓(xùn)練完成后,將未標(biāo)注的教學(xué)資源數(shù)據(jù)輸入分類器進(jìn)行分類,最終的分類結(jié)果存儲在課程分類數(shù)據(jù)表中,存儲格式為[課程id,類別]。
與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果:
(1)整合性,本發(fā)明爬取了多個在線教育社區(qū)的教學(xué)資源,將分散的教學(xué)資源有效整合起來,使得用戶不需要去分別瀏覽其他在線教育社區(qū),可以直接從本發(fā)明構(gòu)建的在線教學(xué)資源庫中定位和查找其所需的資源,極大的方便了用戶,為用戶節(jié)約時間;
(2)持續(xù)性,本發(fā)明對教學(xué)資源定時增量爬取,持續(xù)不斷地從其他社區(qū)獲取最新的教學(xué)資源;
(2)統(tǒng)一分類,不同的社區(qū)具有不同的分類標(biāo)準(zhǔn)和分類方式,本發(fā)明以教育部的學(xué)科分類為標(biāo)準(zhǔn)使用機(jī)器學(xué)習(xí)的方式對在線教學(xué)資源進(jìn)行了統(tǒng)一的分類;
(3)統(tǒng)一評價,本發(fā)明借助用戶對教學(xué)資源的評價、用戶的瀏覽次數(shù)、參與課程的人數(shù)等信息對在線教學(xué)資源進(jìn)行了統(tǒng)一的評價和排序。
附圖說明
圖1為本發(fā)明的方法流程示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
請參閱圖1,本發(fā)明提供一種技術(shù)方案:
一種在線教學(xué)資源庫的自動構(gòu)建方法,包括如下步驟:
s1、構(gòu)建在線教學(xué)資源數(shù)據(jù)庫,所述在線教學(xué)資源數(shù)據(jù)庫包含數(shù)據(jù)爬取表、教學(xué)資源數(shù)據(jù)表,教學(xué)資源分類表和教學(xué)資源評分表;
s2、對上述在線教學(xué)資源數(shù)據(jù)庫的資源信息進(jìn)行信息抽取和質(zhì)量檢測,并將在線教學(xué)資源詳細(xì)數(shù)據(jù)存儲在教學(xué)資源數(shù)據(jù)表中;
s3、使用機(jī)器學(xué)習(xí)中的svm算法,對在線教學(xué)資源進(jìn)行自動分類;并將分類結(jié)果存儲在教學(xué)資源分類表;
s4、根據(jù)在線教學(xué)資源庫的瀏覽量、用戶評價、參加人數(shù)對在線教學(xué)資源進(jìn)行評分,根據(jù)評分從高到低對教學(xué)資源排序,并將評分結(jié)果存儲于教學(xué)資源評分表。
步驟s1中,采用通用的web爬蟲技術(shù)定時從互聯(lián)網(wǎng)上公開的在線教學(xué)社區(qū)中獲取在線教學(xué)資源數(shù)據(jù)庫所需的資源信息,并以html文本的方式存儲在爬取數(shù)據(jù)表中;通過web爬蟲技術(shù)獲取的在線教學(xué)資源信息以[url,頁面html]的方式存儲在數(shù)據(jù)爬取表中。若存在爬取錯誤的頁面,對頁面url進(jìn)行標(biāo)記,下次爬取時可再次爬??;所述錯誤的頁面包括:html頁面為404頁面,或重要信息字段缺失的頁面鏈接。
步驟s2中,抽取和質(zhì)量檢測的信息包括:在線教學(xué)資源的名稱、描述、所屬機(jī)構(gòu)或?qū)W校、老師、課程起止時間、標(biāo)簽、語言、參加人數(shù)、評論、用戶評價。
進(jìn)行信息抽取和質(zhì)量檢測后的數(shù)據(jù)以[課程id,url,名稱,描述,…]存儲在教學(xué)資源數(shù)據(jù)表中。
步驟s3中,根據(jù)在線教學(xué)資源數(shù)據(jù)庫的名稱、描述、標(biāo)簽、發(fā)布機(jī)構(gòu)、講師信息對在線教學(xué)資源進(jìn)行自動分類;且分類標(biāo)準(zhǔn)為教育部公布的學(xué)科分類。
步驟s4中,評分結(jié)果以[課程id,評分]的格式存儲于教學(xué)資源評分表。所述評分結(jié)果score的計算方法為:score=α×v+β×p+γ×r,其中,v為在線教學(xué)資源的瀏覽量,p為參加人數(shù),r為用戶評價;
計算時,先將所述三個指標(biāo)歸一化到[0,100]的范圍,然后設(shè)定三個系數(shù)以表示所述各個指標(biāo)的權(quán)重,三個系數(shù)的值可根據(jù)實際排序需要進(jìn)行調(diào)整。
步驟s3中,svm算法包括:
s301、機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注:首先選擇若干爬取的在線教學(xué)資源作為樣本,人工對樣本的分類進(jìn)行標(biāo)注;選取的樣本要盡量均勻的覆蓋所有類別,并且每個資源只屬于一類;
s302、分類器特征提取:通過對在線教學(xué)資源數(shù)據(jù)的分析,選取教學(xué)資源的典型屬性,包括教學(xué)資源的名稱、標(biāo)簽、發(fā)布機(jī)構(gòu)、描述和授課教師,并對步驟301中標(biāo)注的原始樣本進(jìn)行相應(yīng)處理;
s303、訓(xùn)練分類器:輸入已標(biāo)注的樣本數(shù)據(jù)訓(xùn)練svm分類器,具體實施時使用java語言的libsvm包進(jìn)行訓(xùn)練;
s304、其他樣本分類;分類器訓(xùn)練完成后,將未標(biāo)注的教學(xué)資源數(shù)據(jù)輸入分類器進(jìn)行分類,最終的分類結(jié)果存儲在課程分類數(shù)據(jù)表中,存儲格式為[課程id,類別]。
綜上,本發(fā)明爬取了多個在線教育社區(qū)的教學(xué)資源,將分散的教學(xué)資源有效整合起來,使得用戶不需要去分別瀏覽其他在線教育社區(qū),可以直接從本發(fā)明構(gòu)建的在線教學(xué)資源庫中定位和查找其所需的資源,極大的方便了用戶,為用戶節(jié)約時間,具有整合性;本發(fā)明對教學(xué)資源定時增量爬取,持續(xù)不斷地從其他社區(qū)獲取最新的教學(xué)資源,具有持續(xù)性;不同的社區(qū)具有不同的分類標(biāo)準(zhǔn)和分類方式,本發(fā)明以教育部的學(xué)科分類為標(biāo)準(zhǔn)使用機(jī)器學(xué)習(xí)的方式對在線教學(xué)資源進(jìn)行了統(tǒng)一的分類;本發(fā)明借助用戶對教學(xué)資源的評價、用戶的瀏覽次數(shù)、參與課程的人數(shù)等信息對在線教學(xué)資源進(jìn)行了統(tǒng)一的評價和排序。
需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素”。
盡管已經(jīng)示出和描述了本發(fā)明的實施例,對于本領(lǐng)域的普通技術(shù)人員而言,可以理解在不脫離本發(fā)明的原理和精神的情況下可以對這些實施例進(jìn)行多種變化、修改、替換和變型,本發(fā)明的范圍由所附權(quán)利要求及其等同物限定。