亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

教學(xué)友好的數(shù)字人在線MOOC構(gòu)建系統(tǒng)、方法、設(shè)備及介質(zhì)與流程

文檔序號:40450619發(fā)布日期:2024-12-27 09:15閱讀:11來源:國知局
教學(xué)友好的數(shù)字人在線MOOC構(gòu)建系統(tǒng)、方法、設(shè)備及介質(zhì)與流程

本發(fā)明屬于人工智能,涉及一種在線mooc構(gòu)建系統(tǒng)、方法、設(shè)備及介質(zhì),尤其涉及一種教學(xué)友好的數(shù)字人在線mooc構(gòu)建系統(tǒng)、方法、設(shè)備及介質(zhì)。


背景技術(shù):

1、近年來,互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展和不斷的技術(shù)創(chuàng)新推進教育的形式進一步改革。mooc(massive?open?online?course)在線教育作為國內(nèi)在線教育的主要形式之一,具備大規(guī)模、開放、在線的特點?!按笠?guī)模”意味著不同層次和需求學(xué)習(xí)者的兼顧,“開放”意味著公開透明同行審閱下高質(zhì)量的課程標(biāo)準(zhǔn),“在線”意味著學(xué)生教學(xué)媒介的轉(zhuǎn)變,學(xué)生難以實現(xiàn)對教具的全方位觀察與交互。高質(zhì)量的慕課教學(xué)視頻是傳遞優(yōu)質(zhì)慕課教學(xué)內(nèi)容的重要載體,其構(gòu)建系統(tǒng)涵蓋授課教師、學(xué)生、錄播系統(tǒng)、錄制人員、編輯人員、環(huán)境等多種要素,錄制類型包括傳統(tǒng)演播廳、演播廳自動錄制、實景拍攝、課堂實錄等。從場地布置到人員調(diào)度,從硬件系統(tǒng)到影攝溝通,傳統(tǒng)的慕課錄制方式對場地、人力具備極高的依賴性,慕課錄制的周期也在三個月到半年不等。教師作為教學(xué)設(shè)計和教學(xué)實施的核心,不僅要統(tǒng)籌安排慕課錄制腳本、規(guī)劃課程內(nèi)容大綱,還需要為內(nèi)容拍攝做充足的準(zhǔn)備、避免拍攝中的失誤,這會極大的消耗教師的精力。為此,發(fā)明了一些協(xié)助進行慕課制作的技術(shù):

2、1、3d數(shù)字人的智能化驅(qū)動,數(shù)字人的智能驅(qū)動主要包括面部驅(qū)動和肢體動作驅(qū)動兩個部分。

3、說話人面部生成(talking-face?generation,tfg),通過給定說話人的聲音來合成相應(yīng)的人臉特征和表情。在面部的編碼部分主要包括基于landmark、基于vertices、基于系數(shù)的三種編碼方法。這三種編碼方法中,landmark依賴于準(zhǔn)確的關(guān)鍵點特征位置,vertices可能會有部分三維坐標(biāo)缺失的情況,而基于系數(shù)的方法需要大量的訓(xùn)練數(shù)據(jù)。而面部動作中,嘴部的動作和說話人的內(nèi)容具備強相關(guān)性,景觀面部的表情、頭部的姿勢和眨眼與說話內(nèi)容相關(guān)性較弱,但影響著面部生成的自然性表達(dá)。此外,使用預(yù)訓(xùn)練模型和多模態(tài)的輸入或者分層級的方式來進行面部的驅(qū)動是目前的發(fā)展趨勢。

4、數(shù)字人肢體動作驅(qū)動(gesture?generation),根據(jù)語音音頻、文本或說話人身份等多模態(tài)信息的輸入,生成自然且具有表現(xiàn)力的身體運動。關(guān)于肢體動作驅(qū)動方法早期是基于規(guī)則的,依賴于人類對話或演講等狀態(tài)上的預(yù)設(shè)置的對應(yīng)關(guān)系。然而,這種方法存在局限性,對規(guī)則的設(shè)置和預(yù)定義動作的規(guī)模都極大的影響了結(jié)果的質(zhì)量,并且需要消耗大量的人力成本。為了克服這些問題,近年來,基于深度學(xué)習(xí)的技術(shù)在數(shù)字人手勢驅(qū)動上引起了廣泛關(guān)注。循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)、長短期記憶遞歸神經(jīng)網(wǎng)絡(luò)(lstm)、生成對抗網(wǎng)絡(luò)(gan)、向量量化變分自編碼器(vq-vae)、擴散模型(diffusion)等都已被用于從語音中生成肢體動作。盡管這些架構(gòu)能夠?qū)崿F(xiàn)生成的手勢和音頻在節(jié)奏上的對齊,但是具備良好語義表達(dá)的伴音頻手勢的生成任務(wù)仍然在持續(xù)探索。其中一些方法會將語音的文本轉(zhuǎn)錄作為輸入來提升手勢的語義性。有人提出一種根據(jù)面部、身體、音頻、文本轉(zhuǎn)錄等信息驅(qū)動身體部分動作生成的方法。然而,簡單地將文本作為輸入并不能深入地理解語義信息。因此,一些方法會采用一些特定的結(jié)構(gòu)來更好地學(xué)習(xí)到音頻的語義信息。也有人借鑒了clip結(jié)構(gòu)的思路,將文本作為一種語義描述,借助clip預(yù)訓(xùn)練模型中的textencoder部分,和經(jīng)過vq-vae結(jié)構(gòu)的motion的中間離散的embedding對比學(xué)習(xí)計算相似度,并結(jié)合motion的重建損失,實現(xiàn)文本和語義motion序列的映射。還有人同樣使用對比學(xué)習(xí),學(xué)習(xí)文本和動作序列在潛在空間中的映射關(guān)系,得到的對比空間的embedding作為conditional通過cross-attention將語義信息融合到生成的手勢中去。但是訓(xùn)練的效果常由數(shù)據(jù)集的數(shù)據(jù)質(zhì)量和數(shù)據(jù)分布決定,現(xiàn)有數(shù)字人肢體動作數(shù)據(jù)集中的語義詞相對稀疏,深度學(xué)習(xí)方法很難表征出存在頻率少或者沒有的語義詞匯,而語義詞和肢體動作之間具備多對多的映射關(guān)系?;诂F(xiàn)狀,也鑒于llm對詞語之間的復(fù)雜關(guān)系和隱喻意義的理解力,近期相關(guān)學(xué)者也分別從訓(xùn)練數(shù)據(jù)集擴充、外接匹配語義動作數(shù)據(jù)集的方式,通過llm來增強伴音頻手勢生成任務(wù)中的語義性表達(dá)。

5、2、pedagogical?agents相關(guān)的設(shè)計

6、研究者們關(guān)注虛擬學(xué)習(xí)環(huán)境(visual?learning?environments,vle)。已經(jīng)有一些相關(guān)的專利進行了數(shù)字人應(yīng)用于遠(yuǎn)程教學(xué)設(shè)計,一種敘事融合的教具自動生成方法意在建立文本和語音與教具之間的映射關(guān)系,關(guān)注教學(xué)教具物體和環(huán)境之間的融合,一種數(shù)字人教師個性化教學(xué)裝置則聚焦個性化設(shè)計,意在通過數(shù)據(jù)采集、互動以及個性化的分析與評估反饋來實現(xiàn)數(shù)字人在教學(xué)場景中的個性化支持和輔助。一種教師端虛擬人教室錄播視頻處理方法主要是處理教師的錄播視頻,捕獲教師的臉部特征和人體動作,重建教師的三維模型,并根據(jù)錄播視頻重新驅(qū)動教師模型生成動作,以解決錄像效果不佳的問題。然而他們并沒有生成原錄播數(shù)據(jù)之外的內(nèi)容。

7、教學(xué)代理(pedagogical?agents,pa)作為虛擬學(xué)習(xí)環(huán)境的重要組成部分,通過語言和非語言行為來傳達(dá)教學(xué)信息。非語言交流是交流中除了語言之外的所有要素,包括聲音中的副語言(音調(diào)、音高)以及非聲音中的肢體語言(面部表情、眼神交流、肢體動作等等)。多項研究表明,真實課堂中的老師、以及在線虛擬學(xué)習(xí)環(huán)境中的pa通過一些指示性、隱喻性和象征性手勢將有助于增強學(xué)生的學(xué)習(xí)體驗和表現(xiàn)。一種基于ai助手的虛擬教學(xué)系統(tǒng)的工作方法將教師和學(xué)生設(shè)計了虛擬化身身處在虛擬的教室環(huán)境中,通過對教師的面部識別和化身追蹤技術(shù),通過對教室環(huán)境和教學(xué)活動進行標(biāo)注,構(gòu)建教師動作數(shù)據(jù)集、教室場景數(shù)據(jù)集、教學(xué)活動數(shù)據(jù)集,構(gòu)建智能ai助手的形象,并且構(gòu)建敘事、對象、場景的時空關(guān)聯(lián)。之后通過語音、手勢以及虛擬教學(xué)繪畫、協(xié)作教學(xué)內(nèi)容教學(xué)以及教學(xué)內(nèi)容展示的方式來組織教學(xué)活動。其中,教師與教學(xué)環(huán)境的動作設(shè)計表現(xiàn)為在教學(xué)環(huán)境中位置的移動和停留,手勢的設(shè)計部分主要使用2d視頻的手勢特征點識別(會存在不能夠識別的情況—這還只是構(gòu)建數(shù)據(jù)集)+unity的手部交互庫+模糊位置的平滑,可以看出他們的數(shù)據(jù)質(zhì)量不夠,以及并沒有做很詳細(xì)的適配教學(xué)的手勢設(shè)計和調(diào)研。關(guān)于細(xì)粒度的課堂手勢編碼,部分學(xué)者通過收集課堂教學(xué)視頻,分析整理出教室在課堂教學(xué)中出現(xiàn)的行為表征,包括象征性動作、說明性動作、表露性動作、適應(yīng)性動作、調(diào)節(jié)性動作、距離性動作、工具性動作等,其中工具性動作體現(xiàn)出了在課堂教學(xué)場景中教師和教學(xué)材料的協(xié)同。有人從教育目的出發(fā),從演示、引導(dǎo)、吸引注意力、強調(diào)四個功能角度考慮教學(xué)手勢,并最終確定了六種常見的課堂手勢包括有意/無意、習(xí)慣性、引導(dǎo)、互動、強調(diào)、構(gòu)建、可視化手勢。也有人聚焦智能教學(xué)系統(tǒng)中應(yīng)用在全息投影中的pa應(yīng)該如何設(shè)計可重復(fù)使用的標(biāo)準(zhǔn)教學(xué)手勢的生成,他們通過設(shè)計雙人協(xié)作任務(wù)并對演示人的手勢進行動作捕捉以及分析、聚類出來包括指示、標(biāo)志、隱喻、象征、節(jié)拍、銜接、模仿、互動手勢7中手勢類別,并設(shè)計了對應(yīng)的手部的動作描述。這些工作探索劃分了不同媒介下pa的教學(xué)有效性的手勢。

8、對比現(xiàn)有技術(shù)發(fā)現(xiàn),盡管他們實現(xiàn)了教學(xué)數(shù)字人分別在立體綜合教學(xué)場、個性化教育支持、虛實融合的教具自動生成、智能化的慕課生成等數(shù)字人應(yīng)用在教學(xué)場景中的方法,但是在場景的設(shè)計上,往往考慮對真實教學(xué)場景的掃描重建,很少考慮數(shù)字人作為虛擬代理在虛擬環(huán)境中的先天優(yōu)勢,即考慮在真實教學(xué)中根據(jù)教學(xué)內(nèi)容的適配性虛擬場景切換;在教學(xué)數(shù)字人的智能化驅(qū)動部分,現(xiàn)有的工作雖然有考慮通過語言和非語言行為(面部表情,眼神、朝向、肢體動作),部分工作通過動作捕捉獲取真實教師的行為以鏡像驅(qū)動數(shù)字人,部分工作提取音頻表征作為輸入實現(xiàn)數(shù)字人面部和肢體動作的生成驅(qū)動,以及動作生成的進一步優(yōu)化--借助外接語義-手勢數(shù)據(jù)集+llm的檢索匹配對應(yīng)手勢實現(xiàn)語義增強。前者需要教師的參與和配合,后者生成的驅(qū)動手勢的盡管考慮了手勢動作的語義性表達(dá),但是缺少對于手勢動作的進一步教學(xué)性和教學(xué)材料空間屬性的考慮。

9、因此,針對上述現(xiàn)有技術(shù)中存在的缺陷,需要研發(fā)一種新型的教學(xué)友好的數(shù)字人在線mooc構(gòu)建系統(tǒng)、方法、設(shè)備及介質(zhì)。


技術(shù)實現(xiàn)思路

1、為了克服現(xiàn)有技術(shù)的缺陷,本發(fā)明提出一種教學(xué)友好的數(shù)字人在線mooc構(gòu)建系統(tǒng)、方法、設(shè)備及介質(zhì),旨在借助大語言模型技術(shù)、文本轉(zhuǎn)語音技術(shù)、伴語音的智能數(shù)字人全身生成技術(shù)、3d點云重建技術(shù)以及ue工具,搭建教學(xué)數(shù)字人的智能生成系統(tǒng),通過有效的教學(xué)動作設(shè)計、教學(xué)空間場景設(shè)計,渲染高效率、智能化、準(zhǔn)確性的3d教學(xué)場景,在助力教學(xué)有效性的同時,降低教師在mooc制作上投入的時間成本。

2、為了實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:

3、一種教學(xué)友好的數(shù)字人在線mooc構(gòu)建系統(tǒng),其特征在于,包括:

4、教學(xué)數(shù)字人智能化構(gòu)建模塊,其用于構(gòu)建形象上接近目標(biāo)教師的教學(xué)數(shù)字人;

5、教學(xué)數(shù)字人智能化驅(qū)動動作構(gòu)建模塊,其用于基于語音和文本生成基礎(chǔ)動作序列,基于文本采用經(jīng)過微調(diào)后的大語言模型得到增強的動作序列,并對所述基礎(chǔ)動作序列和增強的動作序列進行融合以獲得教學(xué)數(shù)字人的教學(xué)語義增強的動作序列,同時,將所述教學(xué)語義增強的動作序列與教學(xué)空間中的教學(xué)材料進行協(xié)同,以形成教學(xué)數(shù)字人智能化驅(qū)動動作;

6、教學(xué)數(shù)字人智能化場景構(gòu)建模塊,其用于構(gòu)建教學(xué)數(shù)字人的智能化場景;

7、教學(xué)數(shù)字人智能化驅(qū)動模塊,其用于基于所述教學(xué)數(shù)字人智能化驅(qū)動動作在所述智能化場景中驅(qū)動所述教學(xué)數(shù)字人;

8、智能化場景智能化調(diào)節(jié)模塊,其用于基于所述教學(xué)數(shù)字人智能化驅(qū)動動作對應(yīng)的文本和時間信息以及每個智能化場景所對應(yīng)的角度信息,獲取每個智能化場景激活的時間以及數(shù)字人朝向變化的時間和變化角度,并基于其實現(xiàn)智能化場景的智能化調(diào)節(jié)。

9、優(yōu)選地,所述教學(xué)數(shù)字人智能化驅(qū)動動作構(gòu)建模塊包括:

10、伴音頻節(jié)奏型動作生成子模塊,其用于使用音頻分析庫和自動語音識別模型分別提取所述語音中的低維和高維音頻特征信息,使用詞向量模型提取所述文本中對應(yīng)的詞嵌入,并通過預(yù)訓(xùn)練后的transformer模型的解碼器生成基礎(chǔ)動作向量zq*;

11、教學(xué)協(xié)同動作增強子模塊,其用于基于所述文本采用微調(diào)后的大語言模型得到增強的動作索引,基于所述增強的動作索引從文本動作數(shù)據(jù)集中檢索出匹配的文本動作,所述匹配的文本動作經(jīng)過預(yù)訓(xùn)練后的向量量化變分自編碼器的編碼器編碼得到量化的標(biāo)簽動作向量ze,通過加權(quán)融合實現(xiàn)zq*和ze的融合,得到語義增強的標(biāo)簽動作向量ze-argu*,所述語義增強的標(biāo)簽動作向量ze-argu*經(jīng)過預(yù)訓(xùn)練后的向量量化變分自編碼器的解碼器解碼得到教學(xué)數(shù)字人的教學(xué)語義增強的動作序列;

12、教學(xué)協(xié)同動作增強子模塊,其用于根據(jù)教學(xué)材料的類型設(shè)置不同類型的協(xié)同動作,并基于不同類型的協(xié)同動作采用不同的方法實現(xiàn)所述教學(xué)語義增強的動作序列與所述教學(xué)材料的協(xié)同。

13、優(yōu)選地,通過加權(quán)融合實現(xiàn)zq*和ze的融合,得到語義增強的標(biāo)簽動作向量ze-argu*具體包括:

14、根據(jù)所述增強的動作索引的位置確定融合的時間范圍,并根據(jù)所述時間范圍切分基礎(chǔ)動作,形成多個基礎(chǔ)動作片段,計算所述基礎(chǔ)動作的運動速度變化情況,確定速度變化最大的位置為融合的拼接點;

15、使用所述標(biāo)簽動作向量替換拼接點位置的對應(yīng)的基礎(chǔ)動作向量,并在替換點前后對zq*和ze進行加權(quán)合并操作。

16、優(yōu)選地,教學(xué)材料的類型包括2d平面類、3d場景類、3d固定物體類和3d可手持物體類,所述2d平面類、3d場景類、3d固定物體類對應(yīng)的協(xié)同動作為指向動作,所述3d可手持物體類對應(yīng)的協(xié)同動作為呈現(xiàn)動作,所述指向動作采用ik逆向結(jié)算方法實現(xiàn)所述教學(xué)語義增強的動作序列與所述教學(xué)材料的協(xié)同,所述呈現(xiàn)動作采用預(yù)設(shè)動作庫實現(xiàn)所述教學(xué)語義增強的動作序列與所述教學(xué)材料的協(xié)同。

17、優(yōu)選地,構(gòu)建形象上接近目標(biāo)教師的教學(xué)數(shù)字人具體為:拍攝目標(biāo)教師以獲取掃描視頻,將掃描視頻轉(zhuǎn)換成tiff格式后進行面部特征點提取,在獲取頭部點云之后重建頭部網(wǎng)格并依據(jù)所述面部特征點在所述頭部網(wǎng)格上進行貼圖以獲得目標(biāo)教師的頭部信息,用目標(biāo)教師的頭部信息替換已有模特的頭部信息,得到形象上接近目標(biāo)教師的教學(xué)數(shù)字人。

18、此外,本發(fā)明還提供一種教學(xué)友好的數(shù)字人在線mooc構(gòu)建方法,其特征在于,包括:

19、構(gòu)建形象上接近目標(biāo)教師的教學(xué)數(shù)字人;

20、基于語音和文本生成基礎(chǔ)動作序列,基于文本采用微調(diào)后的大語言模型得到增強的動作序列,并對所述基礎(chǔ)動作序列和增強的動作序列進行融合以獲得教學(xué)數(shù)字人的教學(xué)語義增強的動作序列,同時,將所述教學(xué)語義增強的動作序列與教學(xué)空間中的教學(xué)材料進行協(xié)同,以形成教學(xué)數(shù)字人智能化驅(qū)動動作;

21、構(gòu)建教學(xué)數(shù)字人的智能化場景;

22、基于所述教學(xué)數(shù)字人智能化驅(qū)動動作在所述智能化場景中驅(qū)動所述教學(xué)數(shù)字人;

23、基于所述教學(xué)數(shù)字人智能化驅(qū)動動作對應(yīng)的文本和時間信息以及每個智能化場景所對應(yīng)的角度信息,獲取每個智能化場景激活的時間以及數(shù)字人朝向變化的時間和變化角度,并基于其實現(xiàn)智能化場景的智能化調(diào)節(jié)。

24、優(yōu)選地,使用音頻分析庫和自動語音識別模型分別提取所述語音中的低維和高維音頻特征信息,使用詞向量模型提取所述文本中對應(yīng)的詞嵌入,并通過預(yù)訓(xùn)練后的transformer模型的解碼器生成基礎(chǔ)動作向量zq*;

25、基于所述文本采用微調(diào)后的大語言模型得到增強的動作索引,基于所述增強的動作索引從文本動作數(shù)據(jù)集中檢索出匹配的文本動作,所述匹配的文本動作經(jīng)過預(yù)訓(xùn)練后的向量量化變分自編碼器的編碼器編碼得到量化的標(biāo)簽動作向量ze,通過加權(quán)融合實現(xiàn)zq*和ze的融合,得到語義增強的標(biāo)簽動作向量ze-argu*,所述語義增強的標(biāo)簽動作向量ze-argu*經(jīng)過預(yù)訓(xùn)練后的向量量化變分自編碼器的解碼器解碼得到教學(xué)數(shù)字人的教學(xué)語義增強的動作序列;

26、根據(jù)教學(xué)材料的類型設(shè)置不同類型的協(xié)同動作,并基于不同類型的協(xié)同動作采用不同的方法實現(xiàn)所述教學(xué)語義增強的動作序列與所述教學(xué)材料的協(xié)同。

27、優(yōu)選地,教學(xué)材料的類型包括2d平面類、3d場景類、3d固定物體類和3d可手持物體類,所述2d平面類、3d場景類、3d固定物體類對應(yīng)的協(xié)同動作為指向動作,所述3d可手持物體類對應(yīng)的協(xié)同動作為呈現(xiàn)動作,所述指向動作采用ik逆向結(jié)算方法實現(xiàn)所述教學(xué)語義增強的動作序列與所述教學(xué)材料的協(xié)同,所述呈現(xiàn)動作采用預(yù)設(shè)動作庫實現(xiàn)所述教學(xué)語義增強的動作序列與所述教學(xué)材料的協(xié)同。

28、而且,本發(fā)明還提供一種教學(xué)友好的數(shù)字人在線mooc構(gòu)建設(shè)備,其特征在于,包括:

29、一個或多個處理器;

30、存儲器,用于存儲一個或多個程序;

31、當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行時,使得所述一個或多個處理器實現(xiàn)如上所述的教學(xué)友好的數(shù)字人在線mooc構(gòu)建方法。

32、最后,本發(fā)明提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)如上所述的教學(xué)友好的數(shù)字人在線mooc構(gòu)建方法的步驟。

33、與現(xiàn)有技術(shù)相比,本發(fā)明的教學(xué)友好的數(shù)字人在線mooc構(gòu)建系統(tǒng)、方法、設(shè)備及介質(zhì)具有如下有益技術(shù)效果中的一者或多者:

34、1、在教學(xué)數(shù)字人的智能化驅(qū)動部分,本發(fā)明考慮了動作的教學(xué)性和教學(xué)材料的空間屬性,進一步融合了常見的教學(xué)伴音頻動作以及教學(xué)中與教學(xué)材料協(xié)同的動作部分。

35、2、在場景的設(shè)計上,本發(fā)明考慮了數(shù)字人作為虛擬代理在虛擬環(huán)境中的先天優(yōu)勢,即考慮在真實教學(xué)中根據(jù)教學(xué)內(nèi)容的適配性進行虛擬場景的切換。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1