本發(fā)明涉及信息提取技術(shù)領(lǐng)域,具體而言,涉及一種基于視頻文本信息提取的信息查詢方法以及裝置。
背景技術(shù):
在教育行業(yè),自動(dòng)知識(shí)問答作為普遍需求越來越被人們重視。目前的自動(dòng)問答系統(tǒng)的數(shù)據(jù)庫的構(gòu)建主要是基于傳統(tǒng)的文本檢索引擎。這種基于文本標(biāo)注建立數(shù)據(jù)庫的方式,導(dǎo)致后續(xù)的檢索也是基于文本檢索的。但是隨著互聯(lián)網(wǎng)教育行業(yè)的興起,在線直播、視頻課程等形式逐漸替代傳統(tǒng)的課堂教學(xué)成為主流,大量的音視頻都是非文本內(nèi)容,或者附帶的文本內(nèi)容很少,這導(dǎo)致大量有價(jià)值的內(nèi)容并沒有被涵蓋在內(nèi),數(shù)據(jù)量的不足,最終導(dǎo)致檢索結(jié)果的召回率低,檢索結(jié)果不準(zhǔn)確。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明實(shí)施例的目的在于提供一種音視頻信息查詢方法以及裝置,能夠?qū)⒁曨l文件中的所有或者大部分文本信息都提取出來,并利用領(lǐng)域特征詞與文本信息之間的關(guān)聯(lián),使得檢索結(jié)果的召回率高,檢索結(jié)果更加的準(zhǔn)確。
第一方面,本發(fā)明實(shí)施例提供了一種基于視頻文本信息提取的信息查詢方法,包括:
從視頻文件中提取文本信息;
提取所述文本信息中的領(lǐng)域特征詞;
建立所述領(lǐng)域特征詞與文本信息之間的關(guān)聯(lián);
當(dāng)接收到查詢指令時(shí),根據(jù)所述查詢指令中所攜帶的關(guān)鍵詞,獲取與所述關(guān)鍵詞對應(yīng)的領(lǐng)域特征詞所關(guān)聯(lián)的文本信息。
結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第一種可能的實(shí)施方式,其中:所述從視頻文件中提取文本信息,具體包括:
從所述視頻文件中提取關(guān)鍵幀圖像;
對關(guān)鍵幀圖像進(jìn)行去噪處理;
對關(guān)鍵幀圖像中的文字進(jìn)行定位,獲取文字定位圖像;
識(shí)別所述文字定位圖像中的所述文本信息。
結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第二種可能的實(shí)施方式,其中:所述提取所述文本信息中的領(lǐng)域特征詞,具體包括:
對所述文本信息進(jìn)行切詞處理,形成由詞匯構(gòu)成的視頻語料集合;
根據(jù)所述視頻語料集合以及外源語料集合,對所述視頻語料集合中的詞匯進(jìn)行篩選,獲取領(lǐng)域特征詞。
結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第三種可能的實(shí)施方式,其中:所述根據(jù)所述視頻語料集合以及外源語料集合,對所述視頻語料集合中的詞匯進(jìn)行篩選,獲取領(lǐng)域特征詞具體包括:
對所述視頻語料集合中的詞匯進(jìn)行頻率統(tǒng)計(jì),獲得不同詞匯的使用頻率;
將詞匯在視頻語料集合中的使用頻率與其在外源語料集合中的使用頻率進(jìn)行比對;
如果該詞匯在視頻語料集合中的使用頻率較之其在外源語料集合中的使用頻率高出預(yù)設(shè)的閾值,那么就將該詞匯作為領(lǐng)域特征詞。
結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第四種可能的實(shí)施方式,其中:還包括:
獲取文本信息的屬性信息;
根據(jù)所述屬性信息,對所述文本信息進(jìn)行分級(jí),并按照所述分級(jí)對所述文本信息進(jìn)行分級(jí)存儲(chǔ)。
第二方面,本發(fā)明實(shí)施例還提供一種基于視頻文本信息提取的信息查詢裝置,包括:
文本信息提取單元,用于從視頻文件中提取文本信息;
領(lǐng)域特征詞提取單元,用于提取所述文本信息中的領(lǐng)域特征詞;
關(guān)聯(lián)建立單元,用于建立所述領(lǐng)域特征詞與文本信息之間的關(guān)聯(lián);
查詢單元,用于當(dāng)接收到查詢指令時(shí),根據(jù)所述查詢指令中所攜帶的關(guān)鍵詞,獲取與所述關(guān)鍵詞對應(yīng)的領(lǐng)域特征詞所關(guān)聯(lián)的文本信息。
結(jié)合第二方面,本發(fā)明實(shí)施例提供了第二方面的第一種可能的實(shí)施方式,其中:所述文本信息提取單元包括:
從關(guān)鍵幀圖像提取模塊,用于從所述視頻文件中提取關(guān)鍵幀圖像;
去噪模塊,用于對關(guān)鍵幀圖像進(jìn)行去噪處理;
文字定位模塊,用于對關(guān)鍵幀圖像中的文字進(jìn)行定位,獲取文字定位圖像;
文本信息識(shí)別模塊,用于識(shí)別所述文字定位圖像中的所述文本信息。
結(jié)合第二方面,本發(fā)明實(shí)施例提供了第二方面的第二種可能的實(shí)施方式,其中:所述領(lǐng)域特征詞提取單元包括:
切詞模塊,用于對所述文本信息進(jìn)行切詞處理,形成由詞匯構(gòu)成的視頻語料集合;
詞匯篩選模塊,用于根據(jù)所述視頻語料集合以及外源語料集合,對所述視頻語料集合中的詞匯進(jìn)行篩選,獲取領(lǐng)域特征詞。
結(jié)合第二方面,本發(fā)明實(shí)施例提供了第二方面的第三種可能的實(shí)施方式,其中:所述詞匯篩選模塊包括:
頻率統(tǒng)計(jì)子模塊,用于對所述視頻語料集合中的詞匯進(jìn)行頻率統(tǒng)計(jì),獲得不同詞匯的使用頻率;
比對模塊,用于將詞匯在視頻語料集合中的使用頻率與其在外源語料集合中的使用頻率進(jìn)行比對;如果該詞匯在視頻語料集合中的使用頻率較之其在外源語料集合中的使用頻率高出預(yù)設(shè)的閾值,那么就將該詞匯作為領(lǐng)域特征詞。
結(jié)合第二方面,本發(fā)明實(shí)施例提供了第二方面的第四種可能的實(shí)施方式,其中:還包括:
屬性信息獲取單元,用于獲取文本信息的屬性信息;
分級(jí)單元,用于根據(jù)所述屬性信息,對所述文本信息進(jìn)行分級(jí),并按照所述分級(jí)對所述文本信息進(jìn)行分級(jí)存儲(chǔ)。
本發(fā)明實(shí)施例所提供的基于視頻文本信息提取的信息查詢方法以及裝置,先從視頻文件中提取文本信息,再從文本信息中提取領(lǐng)域特征詞,建立領(lǐng)域特征詞之間的關(guān)聯(lián)關(guān)系,當(dāng)用戶進(jìn)行查詢的時(shí)候,可以直接獲得與其所輸入的關(guān)鍵詞對應(yīng)的領(lǐng)域特征詞所關(guān)聯(lián)的文本信息,其在從視頻文件中提取文本信息的時(shí)候,就已經(jīng)將視頻文件中的所有或者大部分文本信息都提取出來,并利用領(lǐng)域特征詞與文本信息之間的關(guān)聯(lián),使得檢索結(jié)果的召回率高,檢索結(jié)果更加的準(zhǔn)確。
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說明如下。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對實(shí)施例中所需要使用的附圖作簡單地介紹,應(yīng)當(dāng)理解,以下附圖僅示出了本發(fā)明的某些實(shí)施例,因此不應(yīng)被看作是對范圍的限定,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。
圖1示出了本發(fā)明實(shí)施例所提供的一種基于視頻文本信息提取的信息查詢方法的流程圖;
圖2示出了本發(fā)明實(shí)施例所提供的基于視頻文本信息提取的信息查詢方法中,從視頻文件中提取文本信息具體方法的流程圖;
圖3示出了本發(fā)明實(shí)施例所提供的基于視頻文本信息提取的信息查詢方法中,提取所述文本信息中的領(lǐng)域特征詞具體方法的流程圖;
圖4示出了本發(fā)明實(shí)施例所提供的另一種基于視頻文本信息提取的信息查詢方法的流程圖;
圖5示出了本發(fā)明實(shí)施例所提供的一種基于視頻文本信息提取的信息查詢裝置的結(jié)構(gòu)示意圖;
圖6示出了本發(fā)明實(shí)施例所提供的基于視頻文本信息提取的信息查詢裝置中,文本信息提取單元的具體結(jié)構(gòu)示意圖;
圖7示出了本發(fā)明實(shí)施例所提供的基于視頻文本信息提取的信息查詢裝置中,領(lǐng)域特征詞提取單元的具體結(jié)構(gòu)示意圖;
圖8示出了本發(fā)明實(shí)施例所提供的另一種基于視頻文本信息提取的信息查詢裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。通常在此處附圖中描述和示出的本發(fā)明實(shí)施例的組件可以以各種不同的配置來布置和設(shè)計(jì)。因此,以下對在附圖中提供的本發(fā)明的實(shí)施例的詳細(xì)描述并非旨在限制要求保護(hù)的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實(shí)施例。基于本發(fā)明的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
隨著互聯(lián)網(wǎng)教育行業(yè)的興起,在線直播、視頻課程等形式逐漸替代傳統(tǒng)的課堂教學(xué)稱為主流,大量的音視頻都是非文本內(nèi)容。但是目前自動(dòng)問答系統(tǒng)中的信息查詢方法一般是基于傳統(tǒng)的文本搜索引擎技術(shù),因此想要在自動(dòng)問答系統(tǒng)中實(shí)現(xiàn)對視頻內(nèi)容的檢索,需要先對視頻內(nèi)容進(jìn)行大量文本標(biāo)注,形成視頻的標(biāo)簽,再基于標(biāo)簽對視頻內(nèi)容進(jìn)行檢索。這就導(dǎo)致如下幾個(gè)問題:現(xiàn)有技術(shù)基于文本檢索,數(shù)據(jù)量不足會(huì)導(dǎo)致召回率偏低。對于教育場景而言,大量的音視頻是非文本內(nèi)容,附帶的文本內(nèi)容較少,因此基于文本檢索存在不足,大量有價(jià)值的內(nèi)容無法被利用?;诖耍旧暾?zhí)峁┑囊环N基于視頻文本信息提取的信息查詢方法,可以解決上述問題。
為便于對本實(shí)施例進(jìn)行理解,首先對本發(fā)明實(shí)施例所公開的一種基于視頻文本信息提取的信息查詢方法進(jìn)行詳細(xì)介紹,該方法不僅可以用于教學(xué)領(lǐng)域,還可以應(yīng)用于其他自動(dòng)知識(shí)問答或者信息檢索領(lǐng)域。
參見圖1所示,本發(fā)明實(shí)施例所提供的基于視頻文本信息提取的信息查詢方法包括:
S101:從視頻文件中提取文本信息。
在具體實(shí)現(xiàn)的時(shí)候,由于視頻文件本身是由圖像構(gòu)成的,而圖像具有連貫性,不同的場景都會(huì)拍攝多張圖片,尤其是針對教學(xué)領(lǐng)域,教學(xué)錄音視頻文件多以播放PPT課件為主,PPT可見展示內(nèi)容一般是成體系的標(biāo)準(zhǔn)文本信息,因此,能夠從圖像中將PPT中的文本信息提取出來。
具體地,參見圖2所示,本發(fā)明實(shí)施例還提供一種從視頻文件中提取文本信息的方法,包括:
S201:從所述視頻文件中提取關(guān)鍵幀圖像。
在具體實(shí)現(xiàn)的時(shí)候,關(guān)鍵幀圖像實(shí)際上是指每張PPT圖像所對應(yīng)的圖像。每張PPT播放持續(xù)時(shí)間不等,但是同一張PPT在播放的時(shí)候具有很強(qiáng)的相似性和連續(xù)性,因此,可以基于視頻的全圖像序列,找到每張PPT的一幀圖像,將之作為關(guān)鍵幀圖像。在具體提取的時(shí)候,可以對視頻中的圖像進(jìn)行灰度級(jí)像素頻率統(tǒng)計(jì),獲得每一幀圖像的像素頻率統(tǒng)計(jì)直方圖,然后根據(jù)通過該像素頻率統(tǒng)計(jì)直方圖,以圖像為樣本做聚類處理,得到圖像的分類,其中每一個(gè)分類所包括的圖像都能夠形成一個(gè)連續(xù)的視頻片段,而每一個(gè)分類都對應(yīng)一個(gè)關(guān)鍵幀圖像,并將每個(gè)分類中的其中一張圖像確定為關(guān)鍵幀圖像。
同時(shí),在獲得關(guān)鍵幀圖像之后,還可以對該關(guān)鍵幀以及該關(guān)鍵幀所屬分類對應(yīng)的音視頻片段的位置(例如分類的起始幀以及終點(diǎn)幀)進(jìn)行記錄,以供用戶查詢時(shí),向其進(jìn)行展示時(shí)使用。
S202:對關(guān)鍵幀圖像進(jìn)行去噪處理。
在具體實(shí)現(xiàn)的時(shí)候,由于是教學(xué)視頻,而授課老師為了更加清晰的講述,可能會(huì)在教授的時(shí)候在PPT中加入手寫板書等;同時(shí),PPT制作的時(shí)候,除了文本信息之外,還可能會(huì)存在復(fù)雜背景、標(biāo)注用符號(hào)、水印、廣告等,而最終想要獲取的文本信息是不包含這些內(nèi)容的,因此將這部分內(nèi)容視作圖像的噪聲,需要對這部分內(nèi)容進(jìn)行識(shí)別和剔除。這些噪聲分為兩種:一種是固定噪聲,也就是在一個(gè)分類里的圖像噪聲是基本不會(huì)改變的,例如復(fù)雜背景、標(biāo)注用符號(hào)、水印、廣告等,這部分噪聲可以通過噪聲采樣和噪聲消除結(jié)合的方式來剔除;另一種是隨機(jī)噪聲,比如手寫板書內(nèi)容,而由于板書在顯示的時(shí)候一般都使用固定顏色通道,同時(shí)為了清楚說明,手寫板書的顏色和PPT中的文字顏色也是不同的,因此可以分顏色通道統(tǒng)計(jì)像素點(diǎn)分布的均方誤差,并將均方誤差大于預(yù)設(shè)閾值的通道對應(yīng)的像素點(diǎn)作為噪聲剔除掉。
S203:對關(guān)鍵幀圖像中的文字進(jìn)行定位,獲取文字定位圖像。
在具體實(shí)現(xiàn)的時(shí)候,PPT上文字的特點(diǎn)是格式規(guī)范,噪聲較小,因此可以采用基于區(qū)域的文字定位方法將文字的位置進(jìn)行定位,獲取文字定位圖像。需要注意的是,文字定位圖像,可以是從關(guān)鍵幀圖像中將含有文字部分的圖像截取出來,而形成的文字定位圖像,也可以是在關(guān)鍵幀圖像中對文字的位置進(jìn)行標(biāo)注而形成的文字定位圖像。
S204:識(shí)別所述文字定位圖像中的所述文本信息。
具體實(shí)現(xiàn)的時(shí)候,可以將現(xiàn)有文字的多種不同字體生成樣本,并利用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方式做文字識(shí)別,獲得文本信息。
通過上述方式,就能將視頻文件中的文本信息提取出來。
S102:提取所述文本信息中的領(lǐng)域特征詞。
在具體實(shí)現(xiàn)的時(shí)候,由于提取處理的文本信息是對應(yīng)于每幀關(guān)鍵幀圖像中的文本信息,如果直接用于用戶查詢以及展示,會(huì)導(dǎo)致最終的展示內(nèi)容過多。而大多數(shù)信息在單獨(dú)出現(xiàn)的時(shí)候很可能是無意義的,在展示的時(shí)候,也需要有知識(shí)的連貫性,因此,需要提取文本信息中的領(lǐng)域特征詞,每一個(gè)領(lǐng)域特征詞可能都會(huì)對應(yīng)于一組連貫的文本信息,在用戶查詢的時(shí)候,直接使用用戶所輸入的查詢語句和領(lǐng)域特征詞進(jìn)行匹配,進(jìn)而向用戶返回與領(lǐng)域特征次對應(yīng)的文本信息,提高檢索的效率以及準(zhǔn)確度。
參見圖3所示,本發(fā)明實(shí)施例提供一種提取所述文本信息中的領(lǐng)域特征詞的具體方法,包括:
S301:對所述文本信息進(jìn)行切詞處理,形成由詞匯構(gòu)成的視頻語料集合。
在具體實(shí)現(xiàn)的時(shí)候,要基于預(yù)先建立的切詞詞表和預(yù)先建立的歧義切分的句法構(gòu)詞知識(shí)庫,對前述S101所獲取的文本信息進(jìn)行切詞處理,即將文本信息由連貫的文章切分成一個(gè)一個(gè)的詞匯。這些詞匯構(gòu)成視頻語料集合。
S202:根據(jù)所述視頻語料集合以及外源語料集合,對所述視頻語料集合中的詞匯進(jìn)行篩選,獲取領(lǐng)域特征詞。
在具體實(shí)現(xiàn)的時(shí)候,外源語料集合可以是一個(gè)基于大數(shù)據(jù)統(tǒng)計(jì)而預(yù)先建立的語料數(shù)據(jù)庫,在建立語料數(shù)據(jù)庫的時(shí)候,需要通過各種途徑,例如網(wǎng)絡(luò)等抓取無領(lǐng)域限制的文檔,并對文檔進(jìn)行切詞處理,所得到的所有詞匯構(gòu)成的集合,即為外源語料集合。在獲得外源語料集合之后,還需要統(tǒng)計(jì)在該外源與倆集合中每一個(gè)詞匯的使用頻率。
在得到視頻語料集合之后,要對視頻語料集合中的所有詞匯進(jìn)行頻率統(tǒng)計(jì),獲得每一個(gè)詞匯在視頻語料集合中的使用頻率。
再將視頻語料集合中的每一個(gè)詞匯的使用頻率,與該詞匯在外源語料集合中的使用頻率進(jìn)行比對。
如果該詞匯在視頻語料集合中的使用頻率較之其在外源語料集合中的使用頻率高出預(yù)設(shè)的閾值,那么就將該詞匯作為領(lǐng)域特征詞。
具體地,由于外源語料集合實(shí)際上是基于大數(shù)據(jù)統(tǒng)計(jì)而預(yù)先得到,其所得到的數(shù)據(jù)應(yīng)當(dāng)基本等同于詞匯所使用的普遍頻率。例如常用詞“的”、“了”、“你”等常用詞匯,由于在各個(gè)領(lǐng)域都會(huì)出現(xiàn),因此出現(xiàn)的頻率高,而一些專有領(lǐng)域的詞匯,例如“三角函數(shù)”、“等差隊(duì)列”等詞匯只有在某些領(lǐng)域才會(huì)應(yīng)用,因此其出現(xiàn)的概率普遍較低。而在視頻語料集合中,由于其文本信息本身是比較有限的,尤其是對于一個(gè)基于大數(shù)據(jù)統(tǒng)計(jì)而得到的信息來說,視頻也是針對某一個(gè)特別領(lǐng)域的,因此在獲得的視頻語料數(shù)據(jù)中,要作為領(lǐng)域特征詞的詞匯的使用概率應(yīng)當(dāng)是高于該詞匯在外源語料集合中的使用概率的,因此,要將外源語料中的每一個(gè)詞匯的使用頻率,與該詞匯在外源語料集合中的使用頻率進(jìn)行對比,如果該詞匯在視頻語料集合中的使用頻率高于其在外源語料集合中的使用頻率,且達(dá)到一定的閾值,那么就認(rèn)為該詞匯為本領(lǐng)域特征詞。
S103:建立所述領(lǐng)域特征詞與文本信息之間的關(guān)聯(lián)。
S104:當(dāng)接收到查詢指令時(shí),根據(jù)所述查詢指令中所攜帶的關(guān)鍵詞,獲取與所述關(guān)鍵詞對應(yīng)的領(lǐng)域特征詞所關(guān)聯(lián)的文本信息。
在具體實(shí)現(xiàn)的時(shí)候,建立領(lǐng)域特征詞與文本信息之間的關(guān)聯(lián)的過程,實(shí)際上是知識(shí)庫索引建庫的過程。在獲取了領(lǐng)域特征詞之后,建立領(lǐng)域特征詞與文本信息之間的關(guān)聯(lián),并將文本信息、領(lǐng)域特征詞以及兩者之間的關(guān)聯(lián)關(guān)系進(jìn)行存儲(chǔ),當(dāng)用戶需要對獲得某個(gè)問題的答案時(shí),會(huì)直接發(fā)起查詢指令,該查詢指令中攜帶了檢索的關(guān)鍵詞,根據(jù)關(guān)鍵詞,可以獲取與之對應(yīng)的領(lǐng)域特征詞(關(guān)鍵詞和特征詞一致、含義相同、或者文字相同),最終能夠獲取與關(guān)鍵詞對應(yīng)的領(lǐng)域特征詞所關(guān)聯(lián)的文本信息。
本發(fā)明實(shí)施例所提供的基于視頻文本信息提取的信息查詢方法,先從視頻文件中提取文本信息,再從文本信息中提取領(lǐng)域特征詞,建立領(lǐng)域特征詞之間的關(guān)聯(lián)關(guān)系,當(dāng)用戶進(jìn)行查詢的時(shí)候,可以直接獲得與其所輸入的關(guān)鍵詞對應(yīng)的領(lǐng)域特征詞所關(guān)聯(lián)的文本信息,其在從視頻文件中提取文本信息的時(shí)候,就已經(jīng)將視頻文件中的所有或者大部分文本信息都提取出來,并利用領(lǐng)域特征詞與文本信息之間的關(guān)聯(lián),使得檢索結(jié)果的召回率高,檢索結(jié)果更加的準(zhǔn)確。
參見圖4所示,本發(fā)明實(shí)施例所提供的基于視頻文字提取的信息查詢方法中,還包括:
S401:獲取文本信息的屬性信息;
S402:根據(jù)所述屬性信息,對所述文本信息進(jìn)行分級(jí),并按照所述分級(jí)對所述文本信息進(jìn)行分級(jí)存儲(chǔ)。
在具體實(shí)現(xiàn)的時(shí)候,還需要基于圖像提取文本信息的屬性信息,如包文字的字體、字號(hào)、格式、是否是標(biāo)題等。
具體地,包括:
識(shí)別關(guān)鍵幀圖像中文本信息的文字邊界:采用不同大小的矩陣進(jìn)行卷積運(yùn)算,相減后可得出文字邊界。
獲取邊界的尺寸信息,并根據(jù)尺寸信息進(jìn)行分級(jí),并根據(jù)該分級(jí)判斷文本信息的屬性。
在按照分級(jí)文本信息進(jìn)行分級(jí)存儲(chǔ)的時(shí)候,文本內(nèi)部根據(jù)字號(hào)、格式等信息形成多級(jí)存儲(chǔ),多級(jí)存儲(chǔ)的信息一方面用于最終的展示,另一方面在后面構(gòu)建索引時(shí)賦予不同的權(quán)重?;跇?gòu)建好的知識(shí)庫做倒排索引用于檢索的準(zhǔn)備?;陂_源索引庫實(shí)現(xiàn),對于不同級(jí)別的文本信息賦予不同的權(quán)重,文本相關(guān)的領(lǐng)域特征詞也建成索引的一部分并賦予較高的權(quán)重。
本發(fā)明又一實(shí)施例還提供一種基于視頻文本信息提取的信息查詢裝置,參見圖5所示,本發(fā)明實(shí)施例所提供的基于視頻文本信息提取的信息查詢裝置包括:
文本信息提取單元,用于從視頻文件中提取文本信息;
領(lǐng)域特征詞提取單元,用于提取所述文本信息中的領(lǐng)域特征詞;
關(guān)聯(lián)建立單元,用于建立所述領(lǐng)域特征詞與文本信息之間的關(guān)聯(lián);
查詢單元,用于當(dāng)接收到查詢指令時(shí),根據(jù)所述查詢指令中所攜帶的關(guān)鍵詞,獲取與所述關(guān)鍵詞對應(yīng)的領(lǐng)域特征詞所關(guān)聯(lián)的文本信息。
本實(shí)施例中,文本信息提取單元、領(lǐng)域特征詞提取單元、關(guān)聯(lián)建立單元和查詢單元的具體功能和交互方式,可參見圖1對應(yīng)的實(shí)施例的記載,在此不再贅述。
本發(fā)明實(shí)施例所提供的基于視頻文本信息提取的信息查詢裝置,使用文本信息提取單元先從視頻文件中提取文本信息,再使用領(lǐng)域特征詞提取單元從文本信息中提取領(lǐng)域特征詞,并使用關(guān)聯(lián)建立單元建立領(lǐng)域特征詞之間的關(guān)聯(lián)關(guān)系,當(dāng)用戶進(jìn)行查詢的時(shí)候,查詢單元可以直接獲得與其所輸入的關(guān)鍵詞對應(yīng)的領(lǐng)域特征詞所關(guān)聯(lián)的文本信息,其在從視頻文件中提取文本信息的時(shí)候,就已經(jīng)將視頻文件中的所有或者大部分文本信息都提取出來,并利用領(lǐng)域特征詞與文本信息之間的關(guān)聯(lián),使得檢索結(jié)果的召回率高,檢索結(jié)果更加的準(zhǔn)確。
參見圖6所示,本發(fā)明又一實(shí)施例還提供了基于視頻文本信息提取的信息查詢裝置中,文本信息提取單元的具體結(jié)構(gòu),包括:
關(guān)鍵幀圖像提取模塊,用于從所述視頻文件中提取關(guān)鍵幀圖像;
去噪模塊,用于對關(guān)鍵幀圖像進(jìn)行去噪處理;
文字定位模塊,用于對關(guān)鍵幀圖像中的文字進(jìn)行定位,獲取文字定位圖像;
文本信息識(shí)別模塊,用于識(shí)別所述文字定位圖像中的所述文本信息。
本實(shí)施例中,關(guān)鍵幀圖像提取模塊、去噪模塊和文字定位模塊的具體功能和交互方式,可參見圖2對應(yīng)的實(shí)施例的記載,在此不再贅述。
參見圖7所示,本發(fā)明又一實(shí)施例還提供了基于視頻文本信息提取的信息查詢裝置中,領(lǐng)域特征詞提取單元的具體結(jié)構(gòu),包括:
切詞模塊,用于對所述文本信息進(jìn)行切詞處理,形成由詞匯構(gòu)成的視頻語料集合;
詞匯篩選模塊,用于根據(jù)所述視頻語料集合以及外源語料集合,對所述視頻語料集合中的詞匯進(jìn)行篩選,獲取領(lǐng)域特征詞。
所述詞匯篩選模塊包括:
頻率統(tǒng)計(jì)子模塊,用于對所述視頻語料集合中的詞匯進(jìn)行頻率統(tǒng)計(jì),獲得不同詞匯的使用頻率;
比對模塊,用于將詞匯在視頻語料集合中的使用頻率與其在外源語料集合中的使用頻率進(jìn)行比對;如果該詞匯在視頻語料集合中的使用頻率較之其在外源語料集合中的使用頻率高出預(yù)設(shè)的閾值,那么就將該詞匯作為領(lǐng)域特征詞。
本實(shí)施例中,切詞模塊、詞匯篩選模塊、頻率統(tǒng)計(jì)子模塊和比對模塊的具體功能和交互方式,可參見圖3對應(yīng)的實(shí)施例的記載,在此不再贅述。
參見圖8所示,本發(fā)明又一實(shí)施例還提供了另一種基于視頻文本信息提取的信息查詢裝置,在上述實(shí)施例的基礎(chǔ)上,還包括:
屬性信息獲取單元,用于獲取文本信息的屬性信息;
分級(jí)單元,用于根據(jù)所述屬性信息,對所述文本信息進(jìn)行分級(jí),并按照所述分級(jí)對所述文本信息進(jìn)行分級(jí)存儲(chǔ)。
本實(shí)施例中,屬性信息獲取單元和分級(jí)單元的具體功能和交互方式,可參見圖4對應(yīng)的實(shí)施例的記載,在此不再贅述。
本發(fā)明實(shí)施例所提供的基于視頻文本信息提取的信息查詢方法以及裝置的計(jì)算機(jī)程序產(chǎn)品,包括存儲(chǔ)了程序代碼的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述程序代碼包括的指令可用于執(zhí)行前面方法實(shí)施例中所述的方法,具體實(shí)現(xiàn)可參見方法實(shí)施例,在此不再贅述。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng)和裝置的具體工作過程,可以參考前述方法實(shí)施例中的對應(yīng)過程,在此不再贅述。
所述功能如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(ROM,Read-Only Memory)、隨機(jī)存取存儲(chǔ)器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。