專利名稱:課堂錄像中教師黑板書寫動作的自動識別方法
技術(shù)領(lǐng)域:
本發(fā)明是一種課堂錄像中教師黑板書寫動作的自動識別算法,屬于遠程教育系統(tǒng)
中的圖像識別技術(shù)。
背景技術(shù):
遠程教育作為一種有效而經(jīng)濟的學(xué)習(xí)方式,得到越來越多的認同。而制約遠程教 育發(fā)展的一個關(guān)鍵因素之一是課程視頻資源的缺乏,其原因是較為繁瑣的教學(xué)現(xiàn)場視頻的 人工攝制過程。目前,拍攝教學(xué)視頻需要專門的攝像師到教室里去全程拍攝,或者教師在專 門的錄制教室進行授課,成本比較高。因此,使攝制設(shè)備自動化、智能化,不需要專門的攝影 師的參與,能方便擺放在普通教室,具有廣泛的應(yīng)用前景。 要實現(xiàn)教學(xué)過程的自動錄播,智能視頻分析是其核心技術(shù),包括目標檢測、目標跟 蹤及行為識別等。目標檢測利用視頻中運動或特征的信息,檢測出視頻中的目標,屬于低級 視頻處理。目標跟蹤根據(jù)目標檢測的結(jié)果,對特定的目標進行跟蹤,屬于中級視頻處理。行 為識別對跟蹤目標的行為進行識別,屬于高級視頻處理。 在用于遠程教學(xué)的視頻分析中,在對拍攝的主要目標——教師進行定位、跟蹤之 后,還需要對視頻中的教師的行為進行識別,使攝像機自動對不同的行為做出不同的反應(yīng), 獲得改好的攝像效果。其中,教師寫黑板(在黑板上書寫文字或繪圖)的動作是課堂教學(xué) 中最常見的重要行為之一,如果檢測到教師正在寫黑板,則攝像頭聚焦在以板書的手為中 心的黑板上,使黑板上書寫的內(nèi)容清晰可見。當(dāng)檢測到寫黑板結(jié)束后,則攝像機恢復(fù)原來的 狀態(tài)。
發(fā)明內(nèi)容
技術(shù)問題本發(fā)明的目的是提供一種課堂錄像中教師黑板書寫動作的自動識別 方法,在準確地找到教師的位置后,判斷教師是否有寫黑板的動作,如果有則進行攝像機拉 伸。問題的實質(zhì)是在教師板書的目標區(qū)域中,根據(jù)教師寫板書通常右上部動作較大的特點 來比較運動目標各部分的運動量大小,并由此判斷教師是否在板書以及拉伸攝像機。
技術(shù)方案本發(fā)明的課堂錄像中教師黑板書寫動作的自動識別方法包括以下步 驟 a.使用采集卡采集一幀圖像,用當(dāng)前幀與前一幀做圖像相減運算,得到二值化的 幀差圖像并進行分析; b.對二值幀差圖像做數(shù)學(xué)形態(tài)學(xué)中的閉運算處理之后,再進行連通區(qū)域標記,通 過設(shè)置閾值,去除二值幀差圖像中較為明顯的噪聲區(qū)域; c.獲取目標矩形框并計算矩形的面積,當(dāng)矩形面積滿足所定條件時,判斷為有人 體運動,則對教師板書行為進行檢測及識別; d.若連續(xù)檢測到了寫黑板行為超過5幀圖像時,則對攝像機進行拉伸處理;
e.若連續(xù)檢測不到寫黑板行為超過50幀圖像時,則把攝像機的拉伸倍數(shù)還原為初始倍數(shù)。
在所述的二值幀差圖像中,判斷教師寫黑板動作的運動量的方法為 1)幀差圖像分析幀差圖像分析的對象為目標人體的外接矩形框,是對運動目標
的檢測結(jié)果,首先對幀差圖像做數(shù)學(xué)形態(tài)學(xué)中的閉運算處理,然后對處理后的結(jié)果進行連
通區(qū)域標記,去除二值幀差圖像中的噪聲;當(dāng)某個連通區(qū)域的像素點個數(shù)小于1000時,認
為該區(qū)域為噪聲區(qū)域,此時,在二值幀差圖像中組成目標人體的黑色像素點,其余部分均為
白色像素點,遍歷整個二值幀差圖像中所有黑色像素點的坐標,并在這些坐標當(dāng)中分別找
出水平和垂直方向的最大和最小坐標值,確定目標人體外接矩形框的左上角頂點A、右上角
頂點B、右下角頂點C、左下角頂點D的坐標,當(dāng)矩形面積在3000到10000之間時,就說明教
師有可能在寫黑板; 2)劃分運動區(qū)域教師正在寫黑板的姿態(tài)一般是舉起右手,手部有較大的運動而 其他部位動作很小,因此首先要將目標人體外接矩形框分成幾個區(qū)域,由于寫黑板的動作 是教師背向攝像頭伸出手去寫板書,而教師朝右上方向伸出去板書的手與身體通常滿足一 定比例,因此可以在腋下部位附近確定一個分割特征點G,通過分割特征點G分別做水平和 垂直方向的直線,并與外接矩形框相交,從而可以將外接矩形框分為4個矩形區(qū)域;
選擇100幅教師板書時的圖像作為樣本,計算出每幅圖像中的手部寬度像素值和 手部高度像素值,并對所有樣本求平均值就可以大致算出Hh和Hw,再由已經(jīng)獲得的外接矩 形框四個頂點的坐標,就可以計算出特征分割點G的坐標,在確定了特征分割點G的坐標以 后,過分割點的水平和垂直方向直線與外接矩形框左、右、上、下四條邊的交點E、 F、 H、 I的 坐標也隨之確定,從而由目標人體外接矩形框得到四個運動區(qū)域,其中外接矩形框的右上 部分區(qū)域包含了教師伸出去寫黑板的手,整個左側(cè)部分包含了教師的身體;
3)判斷運動量根據(jù)劃分好的4個運動區(qū)域,分別計算出各個區(qū)域的運動量,某區(qū) 域的運動量可以由二值幀差圖像中該區(qū)域值為1的像素的個數(shù)來描述,而教師寫黑板的姿 態(tài)反映為目標人體外接矩形框中的右上區(qū)域有較大的運動,而右下區(qū)域基本上沒有運動, 左下和左上區(qū)域僅有少量運動; 因此當(dāng)各區(qū)域的運動量滿足以下三個條件的時候,判斷此時視頻中的目標人體正 在寫黑板 a.右上的手部區(qū)域HBFG的運動量比右下空白區(qū)域GFCI的運動量大; b.左下的身體區(qū)域EGID的運動量比右下空白區(qū)域GFCI的運動量大; c.右上的手部區(qū)域HBFG有一定的運動量,即手部區(qū)域運動量與該區(qū)域面積的比
值達到一定的比例。 有益效果本發(fā)明利用比較運動量的方法判斷教師板書行為不僅計算量小,而且 在判斷出教師的板書行為的同時,可以將板書內(nèi)容放大到一個合適的比例,使得錄播系統(tǒng) 能夠為學(xué)習(xí)者提供一種清晰并直觀的感覺。 1.由于采用本發(fā)明的遠程教育自動錄播系統(tǒng)中的攝像機是移動的,所以場景變化 用幀差法來進行運動檢測不需要考慮特定背景,具有更好的效果。 2.比較各部分運動量是比較兩幅圖像各部分區(qū)域中顏色差距比較大的象素個數(shù), 即比較幀差圖像各部分區(qū)域中運動象素的個數(shù)。該方法計算量較少且結(jié)果精確,適于實時 檢測。
3.當(dāng)檢測到有板書時,在不同場景中可自適應(yīng)地根據(jù)比例系數(shù)拉伸來達到清晰的 效果,適用于大多數(shù)遠程教育系統(tǒng)。
圖1寫黑板時的幀差圖, 圖2幀差圖像分析, 圖3寫黑板行為識別算法的流程圖。
具體實施例方式
要對教師寫黑板這個行為進行識別,必須要對寫黑板這個行為的特點進行分析, 用數(shù)學(xué)語言描述這個特點,然后設(shè)計一個分類器,來判斷視頻中的教師是否在寫黑板。教師 正在寫黑板的姿態(tài)一般是舉起右手在黑板板書,其特征是教師的手部有較大的運動而身體 其他部位動作很小,因此有必要先將目標人體外接矩形框分成4個區(qū)域。其中包含手部的 右上角區(qū)域有較大的運動,而右下角的空白區(qū)域基本上沒有運動,左下角的身體部分也有 輕微的運動。計算目標人體外接矩形框中各區(qū)域的運動量并比較各個區(qū)域之間運動量,由 此判斷教師是否在板書以及拉伸攝像機。若連續(xù)檢測到了寫黑板行為超過5幀圖像時,則 對攝像機進行拉伸處理;若連續(xù)檢測不到寫黑板行為超過50幀圖像時,則把攝像機的拉伸 倍數(shù)還原為初始倍數(shù)。 對視頻中的人體行為進行識別就是對視頻中的運動行為進行分析,而幀間差分圖 像能很好地反映視頻中的運動信息,常用來描述視頻中的運動信息。幀間差分圖像是相鄰 兩幀視頻圖像進行圖像相減運算(差值的絕對值)而得到的圖像
Dk(x, y) = |fk—Jx, y)-fk(x, y) I (1) 由于自然圖像存在或多或少的噪聲,在直接進行圖像相減得到的幀間差分圖像 中,噪聲和運動區(qū)域存在明顯差別。有必要采用一個固定的閾值對幀間差分圖像進行二值 化,得到二值化的幀差圖像(如圖1所示) 在式(2)中,Th的大小問題要根據(jù)運動的程度確定。若Th太大,則檢測不到人體 運動比較小的部分,會造成檢測出的目標人體不連續(xù);反之,檢測出的目標人體會包含背景 的部分噪聲。通過實驗測定,確定Th值為35時較為合適。通過閾值分割之后,Dk(x, y)= 1的點就是圖1中表示目標人體的黑色像素點,Dk(x, y) = 0的點組成了白色的背景區(qū)域。
要分析教師寫黑板的動作,首先要對二值幀差圖像進行運動目標檢測。只有在區(qū) 域中有運動行為的時候,才進行寫黑板行為檢測。運動目標檢測過程是通過對二值幀差圖 像做數(shù)學(xué)形態(tài)學(xué)處理中的閉運算之后再進行連通區(qū)域標記來實現(xiàn)的。在處理二值化幀差圖 像的時候,通過區(qū)域標記算法給各個連通的黑色像素點所組成的區(qū)域加上相同的標記,也 即在處理一個黑色像素點時,把周圍與它連通的黑色像素點附上相同的標記,這就組成了 一個標記的區(qū)域。同時,由于二值化后的幀差圖像中或多或少存在著噪聲像素點,區(qū)域標記 算法還可以對二值化幀差圖像進行去噪處理。當(dāng)某個噪聲區(qū)域中的黑色像素點構(gòu)成一個小 的連通區(qū)域時,假設(shè)區(qū)域中所有黑色像素點的數(shù)目小于一個特定數(shù)值(本算法中該閾值為1000),則把該連通區(qū)域中全部像素點都變?yōu)榘咨袼貐^(qū)域。若有寫黑板的動作,則目標人
體像素點所構(gòu)成的連通區(qū)域通常比較大,其檢測過程通過獲取目標的外接矩形框來實現(xiàn)。 在二值幀差圖像中,除了組成目標人體的黑色像素點,其余部分均為白色像素點(如圖1所示)。遍歷整個二值幀差圖像,比較所有黑色像素點橫坐標和縱坐標值,分別找出水平的最小值P工和最大值Pr,以及垂直方向的最小值Pt和最大值Pb,進而確定圖2中目標人體外接矩形框的四個頂點A、B、C、D的坐標。因此,四個頂點的坐標分別為A點坐標為(P丄,Pt) , B點坐標為(Pr, Pt) , C點坐標為(Pr, Pb) , D的坐標為(P丄,Pb)。當(dāng)矩形面積在3000到10000之間時,就說明教師有可能在寫黑板并進行寫黑板動作的識別。
由于寫黑板的動作是教師背向攝像頭伸出手去寫板書(如圖l所示),而教師朝右上方向伸出去板書的手與身體通常滿足一定比例,因此可以在腋下部位附近確定一個分割特征點G。通過分割特征點G分別做水平和垂直方向的直線,并分別與相交外接矩形框的左、右、上、下四條邊相交于點E、 F、 H、 I (如圖2所示),從而可以將外接矩形框分為4個矩形區(qū)域。在將目標人體外接矩形框ABCD分成4個區(qū)域之后,就可以根據(jù)各個區(qū)域運動量之間的聯(lián)系來判別教師寫黑板的行為。同時通過分析可以發(fā)現(xiàn),教師寫黑板的姿態(tài)在二值幀差圖像上的反映主要表現(xiàn)為人體外接矩形ABCD的右上角區(qū)域HBGF有較大的運動;而右下角區(qū)域GFCI基本上沒有運動;左下角EGID和左上角AHGE也有少量的運動。這樣,人體目標四個區(qū)域的運動幅度和頻度的大小不同就形成了教師寫黑板動作的基本特點。因此,根據(jù)這些對課堂上教師寫黑板行為的分析,可以設(shè)計出判斷視頻中目標人體是否在寫黑板的分類器。 首先根據(jù)人體的比例確定G點的位置,把目標人體外接矩形分為4個矩形區(qū)域。選擇100幅教師板書時的圖像作為樣本,計算出每幅圖像中的手部寬度像素值和手部高度像素值,并對所有樣本求平均值就可以大致算出Hh和Hw。在圖2矩形中,由Hw和B點坐標可以得到H點的坐標為(Pr_Hw, Pt),由Hh和B點坐標可以得到F點的坐標為(Pr, Pt+Hh),進而得到分割特征點G的坐標為(Pr_Hw, Pt+Hh)。類似地,可以得到E點的坐標為(P丄,Pt+Hh) , I點的坐標為(Pr_Hw, Pb)。 在得到這些點的坐標之后,就可以確定出4個運動區(qū)域(如圖2所示)。各個區(qū)域的運動量可以由二值幀差圖像中該區(qū)域值為1的像素的個數(shù)來描述,記區(qū)域的運動量為Motionarea,如區(qū)域ABCD的運動量為Motion艦D。 當(dāng)目標同時符合如下三個條件,則判斷此時視頻中目標人體正在寫黑板 1)右上手部區(qū)域HBFG的運動量比右下空白區(qū)域GFCI的運動量大(a是比例系數(shù)) Motion,-aXMotionGFCI > 0 (3) 2)左下身體區(qū)域EGID的運動量比右下空白區(qū)域GFCI的運動量大(b是比例系數(shù))
MotionEGID_bXMotionGFCI > 0 (4) 3)右上手部區(qū)域HBFG有一定的運動量,即該區(qū)域的運動量與其面積AreaHBre的比達到一定的比例c。 ^~~(5) 根據(jù)區(qū)域HBFG和區(qū)域GFCI在垂直方向的比例,可以確定a的值為Hh/(100-Hh)。由區(qū)域EGID和區(qū)域GFCI的比例可以得到,b的值確定為(100-HW)/HW。根據(jù)多次測驗,可以得出右上運動區(qū)域HBFG中,運動區(qū)域大約占整個區(qū)域面積的30X以上。所以c的值確定為0. 3。
結(jié)合上述三個式子,得到判斷視頻中目標人體是否在寫黑板的兩類分類器如下
<formula>formula see original document page 8</formula>
其中,Motion為各區(qū)域的運動量,Area為區(qū)域的面積,a、b、c為參數(shù)。當(dāng)結(jié)果Is_
writing為1時表示正在寫黑板,結(jié)果為0則不是在寫黑板。 對教師寫黑板行為進行識別方法的流程圖如圖3所示,其實現(xiàn)步驟為 1)通過視頻采集卡采集一幀圖像,用當(dāng)前幀與前一幀做圖像相減運算,從而得到
二值化的幀差圖像; 2)通過對二值幀差圖像做數(shù)學(xué)形態(tài)學(xué)中的閉運算處理之后,再進行連通區(qū)域標記對二值幀差圖像進行去噪處理; 3)遍歷檢測到的所有黑色像素點得到包含目標的外接矩形框,若外接矩形框面積在3000到10000之間時,則進行教師板書行為檢測; 4)對外接矩形框進行區(qū)域劃分,計算目標人體外接矩形框右上,右下和左下部分運動區(qū)域的運動量; 5)當(dāng)這三個區(qū)域的運動量同時滿足公式(3), (4)和(5)的關(guān)系,則表明檢測到教師在板書; 6)若連續(xù)檢測到教師板書行為超過5幀圖像時,則拉伸攝像機。若連續(xù)檢測不到教師板書行為超過50幀圖像時,則拉伸倍數(shù)還原為初始倍數(shù)。
權(quán)利要求
一種課堂錄像中教師黑板書寫動作的自動識別方法,其特征在于該方法包括以下步驟a.使用采集卡采集一幀圖像,用當(dāng)前幀與前一幀做圖像相減運算,得到二值化的幀差圖像并進行分析;b.對二值幀差圖像做數(shù)學(xué)形態(tài)學(xué)中的閉運算處理之后,再進行連通區(qū)域標記,通過設(shè)置閾值,去除二值幀差圖像中較為明顯的噪聲區(qū)域;c.獲取目標矩形框并計算矩形的面積,當(dāng)矩形面積滿足所定條件時,判斷為有人體運動,則對教師板書行為進行檢測及識別;d.若連續(xù)檢測到了寫黑板行為超過5幀圖像時,則對攝像機進行拉伸處理;e.若連續(xù)檢測不到寫黑板行為超過50幀圖像時,則把攝像機的拉伸倍數(shù)還原為初始倍數(shù)。
2. 根據(jù)權(quán)利要求1所述的課堂錄像中教師黑板書寫動作的自動識別方法,其特征為在 所述的二值幀差圖像中,判斷教師寫黑板動作的運動量的方法為1) 幀差圖像分析幀差圖像分析的對象為目標人體的外接矩形框,是對運動目標的檢 測結(jié)果,首先對幀差圖像做數(shù)學(xué)形態(tài)學(xué)中的閉運算處理,然后對處理后的結(jié)果進行連通區(qū) 域標記,去除二值幀差圖像中的噪聲;當(dāng)某個連通區(qū)域的像素點個數(shù)小于1000時,認為該 區(qū)域為噪聲區(qū)域,此時,在二值幀差圖像中組成目標人體的黑色像素點,其余部分均為白色 像素點,遍歷整個二值幀差圖像中所有黑色像素點的坐標,并在這些坐標當(dāng)中分別找出水 平和垂直方向的最大和最小坐標值,確定目標人體外接矩形框的左上角頂點A、右上角頂點 B、右下角頂點C、左下角頂點D的坐標,當(dāng)矩形面積在3000到10000之間時,就說明教師有 可能在寫黑板;2) 劃分運動區(qū)域教師正在寫黑板的姿態(tài)一般是舉起右手,手部有較大的運動而其他 部位動作很小,因此首先要將目標人體外接矩形框分成幾個區(qū)域,由于寫黑板的動作是教 師背向攝像頭伸出手去寫板書,而教師朝右上方向伸出去板書的手與身體通常滿足一定比 例,因此可以在腋下部位附近確定一個分割特征點G,通過分割特征點G分別做水平和垂直 方向的直線,并與外接矩形框相交,從而可以將外接矩形框分為4個矩形區(qū)域;選擇100幅教師板書時的圖像作為樣本,計算出每幅圖像中的手部寬度像素值和手部 高度像素值,并對所有樣本求平均值就可以大致算出Hh和Hw,再由已經(jīng)獲得的外接矩形框 四個頂點的坐標,就可以計算出特征分割點G的坐標,在確定了特征分割點G的坐標以后, 過分割點的水平和垂直方向直線與外接矩形框左、右、上、下四條邊的交點E、F、H、1的坐標 也隨之確定,從而由目標人體外接矩形框得到四個運動區(qū)域,其中外接矩形框的右上部分 區(qū)域包含了教師伸出去寫黑板的手,整個左側(cè)部分包含了教師的身體;3) 判斷運動量根據(jù)劃分好的4個運動區(qū)域,分別計算出各個區(qū)域的運動量,某區(qū)域的 運動量可以由二值幀差圖像中該區(qū)域值為1的像素的個數(shù)來描述,而教師寫黑板的姿態(tài)反 映為目標人體外接矩形框中的右上區(qū)域有較大的運動,而右下區(qū)域基本上沒有運動,左下 和左上區(qū)域僅有少量運動;因此當(dāng)各區(qū)域的運動量滿足以下三個條件的時候,判斷此時視頻中的目標人體正在寫 黑板a.右上的手部區(qū)域HBFG的運動量比右下空白區(qū)域GFCI的運動量大;b. 左下的身體區(qū)域EGID的運動量比右下空白區(qū)域GFCI的運動量大;c. 右上的手部區(qū)域HBFG有一定的運動量,即手部區(qū)域運動量與該區(qū)域面積的比值達 到一定的比例。
全文摘要
課堂錄像中教師黑板書寫行為的自動識別方法,屬于遠程教育系統(tǒng)中的圖像識別技術(shù),其處理步驟為a.使用采集卡采集一幀圖像,用當(dāng)前幀與前一幀做圖像相減運算,得到二值化的幀差圖像并進行分析;b.對二值幀差圖像做數(shù)學(xué)形態(tài)學(xué)中的閉運算處理之后,再進行連通區(qū)域標記,通過設(shè)置閾值,去除二值幀差圖像中較為明顯的噪聲區(qū)域;c.獲取目標矩形框并計算矩形的面積,當(dāng)矩形面積滿足一定條件時,判斷為有人體運動,則對教師板書行為進行檢測及識別;d.若連續(xù)檢測到了寫黑板行為超過5幀圖像時,則對攝像機進行拉伸處理;e.若連續(xù)檢測不到寫黑板行為超過50幀圖像時,則把攝像機的拉伸倍數(shù)還原為初始倍數(shù)。
文檔編號G06K9/00GK101699469SQ20091018542
公開日2010年4月28日 申請日期2009年11月9日 優(yōu)先權(quán)日2009年11月9日
發(fā)明者唐貴進, 干宗良, 朱秀昌, 梁國山, 洪紅, 蔡旻, 詹學(xué)峰 申請人:南京郵電大學(xué)