亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于自然交互輸入的視頻搜索系統(tǒng)及方法和視頻搜索服務(wù)器的制作方法

文檔序號(hào):6371506閱讀:213來(lái)源:國(guó)知局
專利名稱:基于自然交互輸入的視頻搜索系統(tǒng)及方法和視頻搜索服務(wù)器的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及視頻搜索技術(shù)領(lǐng)域,特別是關(guān)于基于自然交互輸入(例如語(yǔ)音輸入)的視頻搜索系統(tǒng)及方法、以及視頻搜索服務(wù)器。
背景技術(shù)
隨著電子信息和網(wǎng)絡(luò)技術(shù)的發(fā)展,具有網(wǎng)絡(luò)接入功能的智能電視逐漸成為電視市場(chǎng)的主流。其中,視頻則是智能電視用戶最主要的需求。不用于個(gè)人計(jì)算機(jī)外圍設(shè)備的鼠標(biāo)和鍵盤,目前智能電視的人機(jī)交互仍然以傳統(tǒng)的遙控器方式為主;然而,大量的按鈕、復(fù)雜的使用模式和菜單、繁瑣且令人困惑的界面元素,隨著電視的復(fù)雜化和功能的不斷增強(qiáng),傳統(tǒng)的人機(jī)交互方式也因此變得越來(lái)越不能滿足用戶的需求。近期以來(lái),隨著語(yǔ)音識(shí)別技術(shù)的發(fā)展,出現(xiàn)了以美國(guó)蘋果(APPLE)公司推出的個(gè)人語(yǔ)音助理(Personalized Intelligent Assistant, SIRI)為代表的產(chǎn)品,其能夠讓用戶通過(guò)自然語(yǔ)言與設(shè)備終端進(jìn)行交互,并能夠提供例如發(fā)短信、查天氣等多項(xiàng)功能。目前,SIRI尚不能支持中文語(yǔ)音輸入。近年來(lái),國(guó)內(nèi)相關(guān)行業(yè)也開始進(jìn)行基于語(yǔ)音等自然交互方式的研究與應(yīng)用并取得了一定的成果,但總得來(lái)看,基于語(yǔ)音等自然交互方式的產(chǎn)品應(yīng)用仍難以滿足用戶的體驗(yàn)要求。

發(fā)明內(nèi)容
本發(fā)明的發(fā)明目的之一在于提供一種基于自然交互輸入的視頻搜索系統(tǒng),能實(shí)現(xiàn)對(duì)用戶的視頻目標(biāo)任務(wù)的智能感知,提供更佳的用戶體驗(yàn)。本發(fā)明的另一發(fā)明目的在于提供一種基于自然交互輸入的視頻搜索方法,能實(shí)現(xiàn)對(duì)用戶的視頻目標(biāo)任務(wù)的智能感知,提供更佳的用戶體驗(yàn)。本發(fā)明的再一發(fā)明目的在于提供一種視頻搜索服務(wù)器,具有自然語(yǔ)言語(yǔ)義分析能力及智能的視頻搜索能力。具體地,本發(fā)明實(shí)施例提供的一種基于自然交互輸入的視頻搜索系統(tǒng),包括用戶端和視頻搜索服務(wù)器。其中,用戶端包括語(yǔ)音采集模塊和人機(jī)界面,語(yǔ)音采集模塊采集用戶的語(yǔ)音輸入以生成用戶語(yǔ)音數(shù)據(jù)并提供至人機(jī)界面。視頻搜索服務(wù)器包括控制模塊、語(yǔ)音識(shí)別模塊、自然語(yǔ)言處理模塊、視頻關(guān)系數(shù)據(jù)庫(kù)以及視頻搜索模塊;視頻關(guān)系數(shù)據(jù)庫(kù)儲(chǔ)存視頻語(yǔ)義空間以及視頻文本數(shù)據(jù)在該視頻語(yǔ)義空間的語(yǔ)義描述子集合。控制模塊接收用戶端的人機(jī)界面提供的用戶語(yǔ)音數(shù)據(jù)并提供至語(yǔ)音識(shí)別模塊以獲取用戶文本數(shù)據(jù),將用戶文本數(shù)據(jù)提供至自然語(yǔ)言處理模塊以獲取用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù),并利用用戶語(yǔ)義分析結(jié)果數(shù)據(jù)在該視頻關(guān)系數(shù)據(jù)庫(kù)中進(jìn)行預(yù)搜索以獲取視頻預(yù)搜索結(jié)果。該視頻預(yù)搜索結(jié)果包含與該用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)匹配的相關(guān)視頻文本數(shù)據(jù)于該視頻語(yǔ)義空間的語(yǔ)義描述子集合。視頻搜索模塊接收控制模塊提供的用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)和視頻預(yù)搜索結(jié)果、利用用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)于視頻語(yǔ)義空間的語(yǔ)義描述子與視頻預(yù)搜索結(jié)果所包含的語(yǔ)義描述子集合分別進(jìn)行相似度比較、并根據(jù)比較結(jié)果輸出視頻最終搜索結(jié)果至控制模塊,再由控制模塊提供至人機(jī)界面以呈現(xiàn)給用戶。此外,本發(fā)明實(shí)施例提供的一種基于自然交互輸入的視頻搜索方法,其包括步驟(a)采集用戶的自然交互輸入以得到用戶文本數(shù)據(jù);(b)對(duì)用戶文本數(shù)據(jù)進(jìn)行自然語(yǔ)言語(yǔ)義分析得到用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù);(C)利用用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)進(jìn)行預(yù)搜索得到視頻預(yù)搜索結(jié)果,該視頻預(yù)搜索結(jié)果包含與用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)匹配的相關(guān)視頻文本數(shù)據(jù)在一視頻語(yǔ)義空間的語(yǔ)義描述子集合;(d)將用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)投影到該視頻語(yǔ)義空間后與視頻預(yù)搜索結(jié)果所包含的語(yǔ)義描述子集合分別進(jìn)行相似度比較并輸出視頻最終搜索結(jié)果;以及(e)將視頻最終搜索結(jié)果呈現(xiàn)給用戶。本發(fā)明另一實(shí)施例提供的一種基于語(yǔ)音輸入的視頻搜索方法,其包括步驟(I)利用對(duì)收集到的視頻文本數(shù)據(jù)進(jìn)行自然語(yǔ)言語(yǔ)義分析后而得到的視頻文本語(yǔ)義分析結(jié)果數(shù)據(jù)進(jìn)行量化并基于潛在語(yǔ)義索引進(jìn)行訓(xùn)練學(xué)習(xí)得到視頻語(yǔ)義空間、并取得收集到的視頻文本數(shù)據(jù)在該視頻語(yǔ)義空間的語(yǔ)義描述子集合;(2)采集用戶的自然交互輸入以得到用戶 文本數(shù)據(jù);(3)對(duì)用戶文本數(shù)據(jù)進(jìn)行自然語(yǔ)言語(yǔ)義分析得到用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù);
(4)利用用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)于該視頻語(yǔ)義空間的語(yǔ)義描述子在至少部分收集到的視頻文本數(shù)據(jù)于該視頻語(yǔ)義空間的語(yǔ)義描述子集合中進(jìn)行相似度比較以輸出視頻最終搜索結(jié)果;以及(5)將視頻最終搜索結(jié)果呈現(xiàn)給用戶。另外,本發(fā)明實(shí)施例提供的一種視頻搜索服務(wù)器,包括視頻關(guān)系數(shù)據(jù)庫(kù)、自然語(yǔ)言處理模塊、控制模塊、以及視頻搜索模塊。其中,視頻關(guān)系數(shù)據(jù)庫(kù)儲(chǔ)存視頻語(yǔ)義空間以及視頻文本數(shù)據(jù)在該視頻語(yǔ)義空間的語(yǔ)義描述子集合;控制模塊將代表用戶視頻需求的用戶文本數(shù)據(jù)提供至自然語(yǔ)言處理模塊以獲取用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù);視頻搜索模塊獲取用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)在該視頻語(yǔ)義空間的語(yǔ)義描述子、并利用該語(yǔ)義描述子在至少部分視頻文本數(shù)據(jù)于該視頻語(yǔ)義空間的語(yǔ)義描述子集合中進(jìn)行相似度比較以輸出視頻最終搜索結(jié)果至控制模塊。本發(fā)明上述各個(gè)實(shí)施例中的基于自然交互輸入的視頻搜索系統(tǒng)及方法和視頻搜索服務(wù)器至少具有以下優(yōu)點(diǎn)中的一個(gè)或多個(gè)能夠以用戶的視頻目標(biāo)任務(wù)為導(dǎo)向,允許用戶使用自然語(yǔ)言進(jìn)行交互,通過(guò)自然語(yǔ)言處理技術(shù),利用視頻相關(guān)知識(shí)庫(kù)進(jìn)行推理運(yùn)算,用戶只需提供對(duì)視頻內(nèi)容的簡(jiǎn)單描述即可從數(shù)據(jù)庫(kù)中快速獲取相關(guān)視頻,從而可實(shí)現(xiàn)對(duì)用戶的視頻目標(biāo)任務(wù)的智能感知;此外,能夠?qū)崿F(xiàn)自然友好方便的人機(jī)交互方式和界面,具有不斷學(xué)習(xí)升級(jí)的能力;因此,可有效提升用戶的使用體驗(yàn)。上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其他目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉較佳實(shí)施例,并配合附圖,詳細(xì)說(shuō)明如下。


圖I為本發(fā)明實(shí)施例的一種基于自然交互輸入(例如語(yǔ)音輸入)的視頻搜索系統(tǒng)架構(gòu)示意圖。圖2為圖I所示用戶端的一種模塊示意圖。圖3為圖I所示視頻搜索服務(wù)器的一種模塊示意圖。圖4為本發(fā)明實(shí)施例的一種基于語(yǔ)音輸入的視頻搜索方法的流程圖。
圖5為本發(fā)明實(shí)施例的另一種基于語(yǔ)音輸入的視頻搜索方法的流程圖。
具體實(shí)施例方式為更進(jìn)一步闡述本發(fā)明為達(dá)成預(yù)定發(fā)明目的所采取的技術(shù)手段及功效,以下結(jié)合附圖及較佳實(shí)施例,對(duì)依據(jù)本發(fā)明提出的基于自然交互輸入的視頻搜索系統(tǒng)及方法和視頻搜索服務(wù)器其具體實(shí)施方式
、方法、步驟及功效,詳細(xì)說(shuō)明如后。有關(guān)本發(fā)明的前述及其他技術(shù)內(nèi)容、特點(diǎn)及功效,在以下配合參考圖式的較佳實(shí)施例詳細(xì)說(shuō)明中將可清楚的呈現(xiàn)。通過(guò)具體實(shí)施方式
的說(shuō)明,當(dāng)可對(duì)本發(fā)明為達(dá)成預(yù)定目的所采取的技術(shù)手段及功效得以更加深入且具體的了解,然而所附圖式僅是提供參考與說(shuō)明之用,并非用來(lái)對(duì)本發(fā)明加以限制。請(qǐng)參閱圖1,其為本發(fā)明實(shí)施例的一種基于自然交互輸入(例如語(yǔ)音輸入)的視頻搜索系統(tǒng)的架構(gòu)示意圖。如圖I所示,本實(shí)施例的基于語(yǔ)音輸入的視頻搜索系統(tǒng)100包括 用戶端10與視頻搜索服務(wù)器30 ;用戶端10接收用戶語(yǔ)音輸入并生成用戶語(yǔ)音數(shù)據(jù),由視頻搜索服務(wù)器30根據(jù)用戶語(yǔ)音數(shù)據(jù)進(jìn)行視頻搜索并返回視頻最終搜索結(jié)果至用戶端10以呈現(xiàn)給用戶。需要說(shuō)明的是,在本實(shí)施例的基于語(yǔ)音輸入的視頻搜索系統(tǒng)100中,一個(gè)視頻搜索服務(wù)器30可以對(duì)應(yīng)多個(gè)用戶端10,從而可分別響應(yīng)各個(gè)用戶端10的用戶語(yǔ)音數(shù)據(jù)并返回對(duì)應(yīng)的視頻最終搜索結(jié)果。請(qǐng)參閱圖2,其為本發(fā)明實(shí)施例的用戶端10的一種模塊示意圖。如圖2所示,用戶端10例如包括語(yǔ)音采集模塊11與人機(jī)界面13。其中,語(yǔ)音采集模塊11采集用戶語(yǔ)音輸入并生成用戶語(yǔ)音數(shù)據(jù),該用戶語(yǔ)音數(shù)據(jù)通過(guò)人機(jī)界面13傳送至視頻搜索服務(wù)器30。人機(jī)界面13的任務(wù)例如包括人機(jī)交互、用戶信息記錄和用戶認(rèn)證等。在用戶認(rèn)證方面,可以為用戶專門提供兩種使用模式,例如公開模式和隱私模式;與此對(duì)應(yīng),視頻搜索服務(wù)器30可以在啟用或跳過(guò)用戶認(rèn)證兩種方式下進(jìn)行視頻搜索,這樣既可以對(duì)用戶的個(gè)人信息進(jìn)行保護(hù),又可以對(duì)不同年齡范圍的用戶提供適合的視頻搜索結(jié)果。在本實(shí)施例中,用戶端10例如是帶電視遙控器的智能電視(具有上網(wǎng)功能)、桌上型電腦、筆記本電腦、智能手機(jī)等電子產(chǎn)品;當(dāng)用戶端10為帶電視遙控器的智能電視,則語(yǔ)音采集模塊11可以是內(nèi)置于電視遙控器的麥克風(fēng),人機(jī)界面13可以是運(yùn)行在智能電視上(例如80端口)的超文本傳輸協(xié)議(Hyper Text Transport Protocol, HTTP)網(wǎng)站服務(wù),其將麥克風(fēng)輸出的用戶語(yǔ)音數(shù)據(jù)傳送至視頻搜索服務(wù)器30做視頻搜索之用,并且后續(xù)還可顯示視頻最終搜索結(jié)果以呈現(xiàn)給用戶;此外,可以理解的是,在傳送用戶語(yǔ)音數(shù)據(jù)至視頻搜索服務(wù)器30之前可先對(duì)用戶語(yǔ)音數(shù)據(jù)進(jìn)行數(shù)據(jù)壓縮。請(qǐng)參閱圖3,其為本發(fā)明實(shí)施例的視頻搜索服務(wù)器30的一種模塊示意圖。如圖3所示,視頻搜索服務(wù)器30包括控制模塊31、語(yǔ)音識(shí)別模塊33、自然語(yǔ)言處理模塊35、視頻數(shù)據(jù)收集模塊36、視頻關(guān)系數(shù)據(jù)庫(kù)37、語(yǔ)義空間學(xué)習(xí)模塊38、視頻搜索模塊39、以及服務(wù)器管理模塊32。在此說(shuō)明的是,視頻搜索服務(wù)器30中的各個(gè)模塊可以根據(jù)實(shí)際設(shè)計(jì)彈性的需要以硬件及/或軟件的方式實(shí)現(xiàn);此外,視頻搜索服務(wù)器30可以是由單個(gè)服務(wù)器或者是多個(gè)服務(wù)器構(gòu)成的群組、再加上必要的外圍設(shè)備構(gòu)成。另外,在本實(shí)施例中,視頻搜索服務(wù)器30包括線上和線下兩部分,線上部分主要由控制模塊31、語(yǔ)音識(shí)別模塊33、自然語(yǔ)言處理模塊35和視頻搜索模塊39構(gòu)成,線下部分主要由視頻數(shù)據(jù)收集模塊36、視頻關(guān)系數(shù)據(jù)庫(kù)37和語(yǔ)義空間學(xué)習(xí)模塊38構(gòu)成,并與線上部分共用自然語(yǔ)言處理模塊35。具體地,控制模塊31作為整個(gè)視頻搜索服務(wù)器30的調(diào)度中心,其接收用戶端10傳送(例如以有線或無(wú)線網(wǎng)絡(luò)連接方式傳送)過(guò)來(lái)的用戶語(yǔ)音數(shù)據(jù)并最終返回視頻最終搜索結(jié)果作為輸出給用戶端10。在此,當(dāng)用戶端10的人機(jī)界面13設(shè)置有用戶認(rèn)證機(jī)制的情形下,控制模塊31會(huì)先驗(yàn)證用戶的身份,根據(jù)認(rèn)證結(jié)果確定后續(xù)是否進(jìn)行視頻搜索及/或返回視頻最終搜索結(jié)果之前是否需要先進(jìn)行搜索結(jié)果過(guò)濾。語(yǔ)音識(shí)別模塊33用于對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別以轉(zhuǎn)換成對(duì)應(yīng)的文本數(shù)據(jù),其通常會(huì)連接至語(yǔ)音庫(kù)(圖3未示出)進(jìn)行語(yǔ)音指令匹配操作。在本實(shí)施例中,語(yǔ)音識(shí)別模塊33可以將控制模塊31提供的用戶語(yǔ) 音數(shù)據(jù)轉(zhuǎn)換成代表用戶視頻需求的用戶文本數(shù)據(jù)并返回給控制模塊31。自然語(yǔ)言處理模塊35適于對(duì)文本數(shù)據(jù)(例如用戶文本數(shù)據(jù)、視頻文本數(shù)據(jù)等)進(jìn)行語(yǔ)義分析,例如可以完成中文語(yǔ)義分析包括分詞、詞性標(biāo)注、命名實(shí)體分析等等。當(dāng)然,可以理解的是,自然語(yǔ)言處理模塊35也可對(duì)不同語(yǔ)言文本進(jìn)行語(yǔ)義分析,并不限于中文,也可以是英文等等,只是需要提供不同語(yǔ)言的語(yǔ)義庫(kù)來(lái)支持。在本實(shí)施例中,自然語(yǔ)言處理模塊35可以對(duì)控制模塊31提供的用戶文本數(shù)據(jù)進(jìn)行語(yǔ)義分析以返回用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)至控制模塊31。在此,用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)可以理解為進(jìn)行分詞、詞性標(biāo)注等操作后的用戶文本數(shù)據(jù)。視頻數(shù)據(jù)收集模塊36用于收集視頻數(shù)據(jù)并提供視頻文本數(shù)據(jù),該視頻文本數(shù)據(jù)可以是從網(wǎng)絡(luò)(包括影視節(jié)目提供合作商)搜索到的電影、電視劇、歌曲、電視節(jié)目等文本數(shù)據(jù),例如包括視頻名、別名、導(dǎo)演名、演員名、視頻制作年代、視頻主題類型(例如戰(zhàn)爭(zhēng)片、喜劇片等)、視頻地區(qū)(例如中國(guó)、美國(guó)等等)或語(yǔ)言(例如中文、英文等)類型、視頻類別(例如電影、電視劇等)等等字段以及數(shù)據(jù)有效性標(biāo)記等視頻描述文本。視頻數(shù)據(jù)收集模塊36的工作方式可以是周期性自動(dòng)收集或是人工觸發(fā)收集。在本實(shí)施例中,視頻數(shù)據(jù)收集模塊36提供的視頻文本數(shù)據(jù)會(huì)先傳送至自然語(yǔ)言處理模塊35進(jìn)行自然語(yǔ)言語(yǔ)義分析形成視頻文本語(yǔ)義分析結(jié)果數(shù)據(jù)后儲(chǔ)存至視頻關(guān)系數(shù)據(jù)庫(kù)37 ;可以理解的是,視頻數(shù)據(jù)收集模塊36提供的視頻文本數(shù)據(jù)也可先儲(chǔ)存至視頻關(guān)系數(shù)據(jù)庫(kù)37,再由自然語(yǔ)言處理模塊37對(duì)儲(chǔ)存在視頻關(guān)系數(shù)據(jù)庫(kù)37中的視頻文本數(shù)據(jù)進(jìn)行分詞、詞性標(biāo)注等(也即語(yǔ)義分析)操作。在此,視頻文本語(yǔ)義分析結(jié)果數(shù)據(jù)可以理解為對(duì)視頻文本數(shù)據(jù)進(jìn)行分詞、詞性標(biāo)注等操作后的結(jié)果數(shù)據(jù)。視頻關(guān)系數(shù)據(jù)庫(kù)37作為視頻搜索服務(wù)器30執(zhí)行視頻搜索的數(shù)據(jù)源,其包括視頻數(shù)據(jù)表、備份數(shù)據(jù)表、用戶表及查詢記錄表等數(shù)據(jù)表。其中,視頻數(shù)據(jù)表例如保存經(jīng)過(guò)語(yǔ)義分析后的視頻文本數(shù)據(jù),備份數(shù)據(jù)表例如保存重復(fù)和剔除的數(shù)據(jù),用戶表例如保存用戶數(shù)據(jù),查詢記錄表例如保存用戶的視頻搜索記錄。語(yǔ)義空間學(xué)習(xí)模塊38是基于語(yǔ)音輸入的視頻搜索系統(tǒng)100的機(jī)器學(xué)習(xí)的主要部分,其主要負(fù)責(zé)將視頻關(guān)系數(shù)據(jù)庫(kù)37中的視頻文本數(shù)據(jù)量化,然后基于潛在語(yǔ)義索引(Latent semantic indexing, LSI)對(duì)視頻關(guān)系數(shù)據(jù)庫(kù)37中主要的一些語(yǔ)義進(jìn)行分析學(xué)習(xí)得到視頻語(yǔ)義空間、并找到收集到的視頻文本數(shù)據(jù)在該視頻語(yǔ)義空間的語(yǔ)義描述子集合(也即在該視頻語(yǔ)義空間的投影集合),并儲(chǔ)存至視頻關(guān)系數(shù)據(jù)庫(kù)37中。視頻語(yǔ)義空間的建立過(guò)程可以是語(yǔ)義空間學(xué)習(xí)模塊38將儲(chǔ)存在視頻關(guān)系數(shù)據(jù)庫(kù)37中經(jīng)語(yǔ)義分析后的視頻文本語(yǔ)義分析結(jié)果數(shù)據(jù)作為訓(xùn)練樣本集,因此包含大量有用詞匯的詞表被建立,然后利用這個(gè)詞表,每個(gè)視頻文本數(shù)據(jù)(也即視頻描述)都能夠被數(shù)量化并最終由一個(gè)向量來(lái)表不;此時(shí),向量中的每一個(gè)兀素將代表某一個(gè)詞在某一個(gè)視頻文本數(shù)據(jù)中出現(xiàn)的次數(shù),該向量也即是視頻文本數(shù)據(jù)的詞頻。之后,利用大量視頻文本數(shù)據(jù)的詞頻向量,通過(guò)子空間機(jī)器學(xué)習(xí)的方法,在詞頻向量所屬線性空間中可以計(jì)算出一些特殊的方向,表示這些特殊的方向的向量是一組標(biāo)準(zhǔn)正交的向量組,它們構(gòu)成一個(gè)新的線性空間。這組向量的特殊物理意義是其中任一個(gè)向量都表示在特定語(yǔ)境下經(jīng)常同時(shí)出現(xiàn)的某些詞匯,每一種這樣的特定語(yǔ)境便對(duì)應(yīng)一個(gè)語(yǔ)義題目,即某些詞匯的同時(shí)出現(xiàn)就表示一個(gè)語(yǔ)義。但是,構(gòu)成新的線性空間的這組特殊向量中一般只有一部分具有非常高的語(yǔ)義區(qū)分度,因此被保留下來(lái)。這些被保留下來(lái)的向量最終構(gòu)成視頻語(yǔ)義空間。視頻關(guān)系數(shù)據(jù)庫(kù)37中的視頻文本數(shù)據(jù)將在該視頻語(yǔ)義空間中找到投影,也即視頻文本數(shù)據(jù)在該視頻語(yǔ)義空間中的語(yǔ)義描述子。視頻搜索模塊39連接至控制模塊31與視頻關(guān)系數(shù)據(jù)庫(kù)37中,其可接收控制模塊31提供的用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)并可從視頻關(guān)系數(shù)據(jù)庫(kù)37獲取視頻語(yǔ)義空間(例如該語(yǔ)義空間的坐標(biāo)軸等信息)、并將該用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)投影在該視頻語(yǔ)義空間 以得到用戶文本數(shù)據(jù)在該視頻語(yǔ)義空間的投影(也即語(yǔ)義描述子)。后續(xù),視頻搜索模塊39就可以利用該語(yǔ)義描述子進(jìn)行視頻搜索操作。本發(fā)明實(shí)施例中視頻搜索模塊39的視頻搜索操作可以為首先,讓控制模塊31利用用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)(也即語(yǔ)義分析后的用戶文本數(shù)據(jù))在視頻關(guān)系數(shù)據(jù)庫(kù)37中進(jìn)行視頻預(yù)搜索,例如進(jìn)行分類搜索也即視頻導(dǎo)演名搜索、視頻演員名搜索、視頻制作年代搜索、視頻主題類型搜索、視頻地區(qū)或語(yǔ)言類型搜索、和視頻類別搜索等等中的多個(gè)或全部;這樣,就可以減小后續(xù)視頻搜索模塊39進(jìn)行視頻搜索的工作量,提高搜索效率。在此,視頻預(yù)搜索結(jié)果例如包含與用戶文本數(shù)據(jù)匹配的相關(guān)視頻文本數(shù)據(jù)在視頻語(yǔ)義空間的語(yǔ)義描述子的集合,該語(yǔ)義描述子集合會(huì)隨同用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)一同提供給視頻搜索模塊39。之后,視頻搜索模塊39將用戶文本數(shù)據(jù)于視頻語(yǔ)義空間的語(yǔ)義描述子和視頻預(yù)搜索結(jié)果所包含的相關(guān)視頻文本數(shù)據(jù)在該視頻語(yǔ)義空間的語(yǔ)義描述子集合進(jìn)行相似度比較搜索得到視頻最終搜索結(jié)果并傳送至控制模塊31,再由控制模塊31提供至用戶端10 的人機(jī)界面13以呈現(xiàn)給用戶。在此,相似度比較可以通過(guò)計(jì)算歐式距離來(lái)實(shí)現(xiàn),但本發(fā)明并不以此為限,其他可以計(jì)算語(yǔ)義空間中投影之間的相似度的方法均可采用。另外,此處的視頻最終搜索結(jié)果可以是按照相似度的分值高低排序的視頻列表。需要說(shuō)明的是,在本發(fā)明實(shí)施例中,并不限于前述利用用戶文本數(shù)據(jù)于視頻語(yǔ)義空間的語(yǔ)義描述子在部分的視頻文本數(shù)據(jù)于該視頻語(yǔ)義空間的語(yǔ)義描述子集合中進(jìn)行語(yǔ)義空間搜索,在其他實(shí)施例中,也可不做視頻預(yù)搜索,而直接利用用戶文本數(shù)據(jù)于視頻語(yǔ)義空間的語(yǔ)義描述子在全部視頻文本數(shù)據(jù)于該視頻語(yǔ)義空間的語(yǔ)義描述子集合中進(jìn)行語(yǔ)義空間搜索得到視頻最終搜索結(jié)果。另外,為提供管理和開發(fā)人員一個(gè)對(duì)視頻搜索服務(wù)器進(jìn)行調(diào)試、測(cè)試、部署、維護(hù)的界面,服務(wù)器管理模塊32被配置在視頻搜索服務(wù)器30中,其是作為非面向用戶的一個(gè)模塊。再者,本發(fā)明上述實(shí)施例的語(yǔ)音識(shí)別模塊33也可整合于用戶端10而非視頻搜索服務(wù)器30,如此用戶端10可以將用戶語(yǔ)音數(shù)據(jù)先轉(zhuǎn)換成用戶文本數(shù)據(jù)后再傳送給視頻搜索服務(wù)器30中的控制模塊31。下面將簡(jiǎn)述幾種可應(yīng)用上述實(shí)施例的基于自然交互輸入例如語(yǔ)音輸入的視頻搜索系統(tǒng)100的基于語(yǔ)音輸入的視頻搜索方法。如圖4所示,一種基于語(yǔ)音輸入的視頻搜索方法例如主要包括S40(TS410
S400 :采集用戶的語(yǔ)音輸入以生成用戶語(yǔ)音數(shù)據(jù);
S402 :對(duì)用戶語(yǔ)音數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別得到用戶文本數(shù)據(jù);
S404 :對(duì)用戶文本數(shù)據(jù)進(jìn)行自然語(yǔ)言語(yǔ)義分析得到用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù);
S406 :利用用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)進(jìn)行預(yù)搜索(例如前述的分類搜索)得到視頻 預(yù)搜索結(jié)果,該視頻預(yù)搜索結(jié)果包含與用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)匹配的相關(guān)視頻文本數(shù)據(jù)在視頻語(yǔ)義空間的語(yǔ)義描述子集合;
S408:將用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)投影到視頻語(yǔ)義空間后與視頻預(yù)搜索結(jié)果所包含的語(yǔ)義描述子集合分別進(jìn)行相似度比較以輸出視頻最終搜索結(jié)果(例如是按照相似度的分值高低排序的視頻列表);以及
S410 :將視頻最終搜索結(jié)果呈現(xiàn)給用戶。如圖5所示,另一種基于語(yǔ)音輸入的視頻搜索方法例如主要包括步驟S50(TS510 S500 :利用對(duì)收集到的視頻文本數(shù)據(jù)進(jìn)行自然語(yǔ)言語(yǔ)義分析后而得到的視頻文本語(yǔ)義
分析結(jié)果數(shù)據(jù)進(jìn)行量化并基于潛在語(yǔ)義索引進(jìn)行訓(xùn)練學(xué)習(xí)得到視頻語(yǔ)義空間、并取得收集到的視頻文本數(shù)據(jù)在視頻語(yǔ)義空間的語(yǔ)義描述子集合;
S502 :采集用戶的語(yǔ)音輸入并轉(zhuǎn)換成用戶文本數(shù)據(jù);
S504 :對(duì)用戶文本數(shù)據(jù)進(jìn)行自然語(yǔ)言語(yǔ)義分析得到用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù);
S506 :利用用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)于視頻語(yǔ)義空間的語(yǔ)義描述子在至少部分收集到的視頻文本數(shù)據(jù)于視頻語(yǔ)義空間的語(yǔ)義描述子集合中進(jìn)行相似度比較以輸出視頻最終搜索結(jié)果;更具體地,在步驟S506中,其包含前述的先進(jìn)行視頻預(yù)搜索(例如前述的分類搜索)再進(jìn)行語(yǔ)義空間搜索、與不做視頻預(yù)搜索而直接進(jìn)行語(yǔ)義空間搜索兩種情形;以及S508 :將視頻最終搜索結(jié)果呈現(xiàn)給用戶。另外,本領(lǐng)域技術(shù)人員可以理解的是,自然交互輸入方式并不限于語(yǔ)音輸入,也可為直接的自然語(yǔ)言文本輸入,甚至是手勢(shì)輸入;相應(yīng)地,在上述各個(gè)實(shí)施例的視頻搜索方法中,則不需要用戶語(yǔ)音數(shù)據(jù)的文本轉(zhuǎn)換步驟;而視頻搜索系統(tǒng)中的模塊設(shè)計(jì)也可相應(yīng)地根據(jù)實(shí)際情形做適當(dāng)?shù)卦鰷p及/或變更。綜上所述,本發(fā)明實(shí)施例提供的基于自然交互輸入例如語(yǔ)音輸入的視頻搜索系統(tǒng)及方法以及視頻搜索服務(wù)器至少具有以下優(yōu)點(diǎn)中的一個(gè)或多個(gè)能夠以用戶的視頻目標(biāo)任務(wù)為導(dǎo)向,允許用戶使用自然語(yǔ)言進(jìn)行交互,通過(guò)自然語(yǔ)言處理技術(shù),利用視頻相關(guān)知識(shí)庫(kù)進(jìn)行推理運(yùn)算,用戶只需提供對(duì)視頻內(nèi)容的簡(jiǎn)單描述即可從數(shù)據(jù)庫(kù)中快速獲取相關(guān)視頻,從而可實(shí)現(xiàn)對(duì)用戶的視頻目標(biāo)任務(wù)的智能感知;此外,能夠?qū)崿F(xiàn)自然友好方便的人機(jī)交互方式和界面,具有不斷學(xué)習(xí)升級(jí)的能力;因此,可有效提升用戶的使用體驗(yàn)。以上所述,僅是本發(fā)明的較佳實(shí)施例而已,并非對(duì)本發(fā)明作任何形式上的限制,雖然本發(fā)明已以較佳實(shí)施例揭露如上,然并非用以限定本發(fā)明,任何熟悉本專業(yè)的技術(shù)人員,在不脫離本發(fā)明技術(shù)方案范圍內(nèi),當(dāng)可利用上述揭示的技術(shù)內(nèi)容作出些許更動(dòng)或修飾為等同變化的等效實(shí)施例,但凡是未脫離本發(fā)明技術(shù)方案內(nèi)容,依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所作的任 何簡(jiǎn)單修改、等同變化與修飾,均仍屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
權(quán)利要求
1.一種基于自然交互輸入的視頻搜索系統(tǒng),其特征在于,包括 用戶端,包括語(yǔ)音采集模塊和人機(jī)界面,該語(yǔ)音采集模塊采集用戶的語(yǔ)音輸入以生成用戶語(yǔ)音數(shù)據(jù)并提供至該人機(jī)界面;以及 視頻搜索服務(wù)器,包括控制模塊、語(yǔ)音識(shí)別模塊、自然語(yǔ)言處理模塊、視頻關(guān)系數(shù)據(jù)庫(kù)以及視頻搜索模塊,該視頻關(guān)系數(shù)據(jù)庫(kù)儲(chǔ)存視頻語(yǔ)義空間以及視頻文本數(shù)據(jù)在該視頻語(yǔ)義空間的語(yǔ)義描述子集合, 其中,該控制模塊接收用戶端的人機(jī)界面提供的用戶語(yǔ)音數(shù)據(jù)并提供至語(yǔ)音識(shí)別模塊以獲取用戶文本數(shù)據(jù),將用戶文本數(shù)據(jù)提供至自然語(yǔ)言處理模塊以獲取用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù),并利用用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)在視頻關(guān)系數(shù)據(jù)庫(kù)中進(jìn)行預(yù)搜索以獲取視頻預(yù)搜索結(jié)果;該視頻預(yù)搜索結(jié)果包含與用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)匹配的相關(guān)視頻文本數(shù)據(jù)在視頻語(yǔ)義空間的語(yǔ)義描述子集合, 該視頻搜索模塊接收控制模塊提供的用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)和視頻預(yù)搜索結(jié)果, 利用用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)于視頻語(yǔ)義空間的語(yǔ)義描述子與視頻預(yù)搜索結(jié)果所包含的語(yǔ)義描述子集合分別進(jìn)行相似度比較,并根據(jù)比較結(jié)果輸出視頻最終搜索結(jié)果至控制模塊,再由控制模塊提供至人機(jī)界面以呈現(xiàn)給用戶。
2.如權(quán)利要求I所述的基于自然交互輸入的視頻搜索系統(tǒng),其特征在于,該視頻搜索服務(wù)器還包括 視頻數(shù)據(jù)收集模塊,收集視頻數(shù)據(jù)以提供視頻文本數(shù)據(jù)至該自然語(yǔ)言處理模塊,由自然語(yǔ)言處理模塊輸出視頻文本語(yǔ)義分析結(jié)果數(shù)據(jù)至視頻關(guān)系數(shù)據(jù)庫(kù)進(jìn)行儲(chǔ)存;以及 語(yǔ)義空間學(xué)習(xí)模塊,利用視頻關(guān)系數(shù)據(jù)庫(kù)儲(chǔ)存的視頻文本語(yǔ)義分析結(jié)果數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)得到視頻語(yǔ)義空間并找到視頻文本數(shù)據(jù)各自在視頻語(yǔ)義空間的語(yǔ)義描述子后儲(chǔ)存至視頻關(guān)系數(shù)據(jù)庫(kù)。
3.一種基于自然交互輸入的視頻搜索方法,其特征在于,包括步驟 采集用戶的自然交互輸入以得到用戶文本數(shù)據(jù); 對(duì)該用戶文本數(shù)據(jù)進(jìn)行自然語(yǔ)言語(yǔ)義分析得到用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù); 利用該用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)進(jìn)行預(yù)搜索得到視頻預(yù)搜索結(jié)果,該視頻預(yù)搜索結(jié)果包含與該用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)匹配的相關(guān)視頻文本數(shù)據(jù)在一視頻語(yǔ)義空間的語(yǔ)義描述子集合; 將該用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)投影到該視頻語(yǔ)義空間后與該視頻預(yù)搜索結(jié)果所包含的語(yǔ)義描述子集合分別進(jìn)行相似度比較以輸出視頻最終搜索結(jié)果;以及將該視頻最終搜索結(jié)果呈現(xiàn)給用戶。
4.如權(quán)利要求3所述的基于自然交互輸入的視頻搜索方法,其特征在于,還包括步驟 收集取得視頻文本數(shù)據(jù); 對(duì)所取得的該視頻文本數(shù)據(jù)進(jìn)行自然語(yǔ)言語(yǔ)義分析得到視頻文本語(yǔ)義分析結(jié)果數(shù)據(jù);以及 利用該視頻文本語(yǔ)義分析結(jié)果數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)得到該視頻語(yǔ)義空間并找到所取得的該視頻文本數(shù)據(jù)各自在該視頻語(yǔ)義空間的語(yǔ)義描述子。
5.如權(quán)利要求3所述的基于自然交互輸入的視頻搜索方法,其特征在于,利用該用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)進(jìn)行預(yù)搜索得到視頻預(yù)搜索結(jié)果的步驟包括利用該用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)進(jìn)行分類搜索,該分類搜索包括視頻導(dǎo)演名搜索、視頻演員名搜索、視頻制作年代搜索、視頻主題類型搜索、視頻地區(qū)或語(yǔ)言類型搜索、和視頻類別搜索中的多個(gè)或全部。
6.一種基于自然交互輸入的視頻搜索方法,其特征在于,包括步驟 利用對(duì)收集到的視頻文本數(shù)據(jù)進(jìn)行自然語(yǔ)言語(yǔ)義分析后而得到的視頻文本語(yǔ)義分析結(jié)果數(shù)據(jù)進(jìn)行量化并基于潛在語(yǔ)義索引進(jìn)行訓(xùn)練學(xué)習(xí)得到視頻語(yǔ)義空間,并取得收集到的視頻文本數(shù)據(jù)在該視頻語(yǔ)義空間的語(yǔ)義描述子集合; 采集用戶的自然交互輸入以得到用戶文本數(shù)據(jù); 對(duì)該用戶文本數(shù)據(jù)進(jìn)行自然語(yǔ)言語(yǔ)義分析得到用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù); 利用該用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)于該視頻語(yǔ)義空間的語(yǔ)義描述子在至少部分收集到的視頻文本數(shù)據(jù)于該視頻語(yǔ)義空間的語(yǔ)義描述子集合中進(jìn)行相似度比較以輸出視頻最終搜索結(jié)果;以及 將視頻最終搜索結(jié)果呈現(xiàn)給用戶。
7.一種視頻搜索服務(wù)器,其特征在于,包括 視頻關(guān)系數(shù)據(jù)庫(kù),儲(chǔ)存視頻語(yǔ)義空間以及視頻文本數(shù)據(jù)在該視頻語(yǔ)義空間的語(yǔ)義描述子集合; 自然語(yǔ)言處理模塊; 控制模塊,將代表用戶視頻需求的用戶文本數(shù)據(jù)提供至該自然語(yǔ)言處理模塊以獲取用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù);以及 視頻搜索模塊,獲取該用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)在該視頻語(yǔ)義空間的語(yǔ)義描述子,并利用該語(yǔ)義描述子在至少部分視頻文本數(shù)據(jù)于該視頻語(yǔ)義空間的語(yǔ)義描述子集合中進(jìn)行相似度比較以輸出視頻最終搜索結(jié)果至該控制模塊。
8.如權(quán)利要求7所述的視頻搜索服務(wù)器,其特征在于,該控制模塊進(jìn)一步利用該用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)在該視頻關(guān)系數(shù)據(jù)庫(kù)中進(jìn)行預(yù)搜索以得到視頻預(yù)搜索結(jié)果,該視頻預(yù)搜索結(jié)果包含與該用戶文本語(yǔ)義分析結(jié)果匹配的相關(guān)視頻文本數(shù)據(jù)于該視頻語(yǔ)義空間的語(yǔ)義描述子集合;相應(yīng)地,該視頻搜索模塊是利用與該用戶文本語(yǔ)義分析結(jié)果數(shù)據(jù)對(duì)應(yīng)的該語(yǔ)義描述子在視頻預(yù)搜索結(jié)果包含的語(yǔ)義描述子集合中進(jìn)行相似度比較以輸出視頻最終搜索結(jié)果至該控制模塊。
9.如權(quán)利要求7所述的視頻搜索服務(wù)器,其特征在于,還包括 語(yǔ)音識(shí)別模塊,當(dāng)控制模塊接收用戶語(yǔ)音數(shù)據(jù)后,經(jīng)由該語(yǔ)音識(shí)別模塊將該用戶語(yǔ)音數(shù)據(jù)轉(zhuǎn)換成該代表用戶視頻需求的用戶文本數(shù)據(jù)。
10.如權(quán)利要求7、8或9所述的視頻搜索服務(wù)器,其特征在于,還包括 視頻數(shù)據(jù)收集模塊,收集視頻數(shù)據(jù)以提供視頻文本數(shù)據(jù)至該自然語(yǔ)言處理模塊,由該自然語(yǔ)言處理模塊輸出視頻文本語(yǔ)義分析結(jié)果數(shù)據(jù)至該視頻關(guān)系數(shù)據(jù)庫(kù)進(jìn)行儲(chǔ)存;以及 語(yǔ)義空間學(xué)習(xí)模塊,對(duì)該視頻關(guān)系數(shù)據(jù)庫(kù)儲(chǔ)存的該視頻文本語(yǔ)義分析結(jié)果數(shù)據(jù)進(jìn)行量化和基于潛在語(yǔ)義索引進(jìn)行訓(xùn)練學(xué)習(xí)得到該視頻語(yǔ)義空間并找到視頻文本數(shù)據(jù)各自在該視頻語(yǔ)義空間的語(yǔ)義描述子后儲(chǔ)存至該視頻關(guān)系數(shù)據(jù)庫(kù)。
全文摘要
本發(fā)明涉及視頻搜索技術(shù)領(lǐng)域,并提供基于自然交互輸入的視頻搜索系統(tǒng)及方法和視頻搜索服務(wù)器。視頻搜索系統(tǒng)的用戶端接受用戶自然交互輸入并提供至其視頻搜索服務(wù)器進(jìn)行視頻搜索;視頻搜索服務(wù)器可包括線上和線下兩部分。線下部分對(duì)收集的視頻信息進(jìn)行語(yǔ)義分析建立視頻語(yǔ)義空間及視頻關(guān)系數(shù)據(jù)庫(kù)。線上部分根據(jù)用戶自然交互輸入得到用戶文本數(shù)據(jù)并進(jìn)行語(yǔ)義分析,并以語(yǔ)義分析結(jié)果在關(guān)系數(shù)據(jù)庫(kù)中做視頻預(yù)搜索,再根據(jù)語(yǔ)義分析結(jié)果在視頻語(yǔ)義空間中的語(yǔ)義描述子于視頻預(yù)搜索結(jié)果包含的語(yǔ)義描述子集合中做比較搜索以輸出視頻最終搜索結(jié)果給用戶。用戶只需提供視頻內(nèi)容的簡(jiǎn)單描述即可從數(shù)據(jù)庫(kù)快速獲取相關(guān)視頻,實(shí)現(xiàn)用戶視頻目標(biāo)任務(wù)的智能感知。
文檔編號(hào)G06F17/27GK102750366SQ201210199239
公開日2012年10月24日 申請(qǐng)日期2012年6月18日 優(yōu)先權(quán)日2012年6月18日
發(fā)明者張瑞, 張鈺林, 王勇進(jìn) 申請(qǐng)人:海信集團(tuán)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1