亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于視頻搜索的分詞信息推送方法和裝置制造方法

文檔序號:6514467閱讀:148來源:國知局
一種基于視頻搜索的分詞信息推送方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種基于視頻搜索的分詞信息推送方法,包括:接收視頻搜索字符串;將所述視頻搜索字符串映射為一個或多個第一分詞;查找與所述一個或多個第一分詞的同現(xiàn)率高于預設閾值的關(guān)聯(lián)第二分詞;所述同現(xiàn)率為當前一個或多個第一分詞與第二分詞在同一視頻資源數(shù)據(jù)中共同出現(xiàn)的概率;推送所述一個或多個第一分詞與所述一個或多個關(guān)聯(lián)第二分詞的組合。本發(fā)明將雖然比較少有用戶搜索的但視頻庫匯總已有較多相關(guān)資源的視頻資源數(shù)據(jù)推送出來,從而實現(xiàn)深度挖掘視頻庫中的優(yōu)質(zhì)資源,提高了資源挖掘的效率;索引表會隨著互聯(lián)網(wǎng)視頻內(nèi)容的不斷積累而不斷擴大,各大視頻站生產(chǎn)出來的內(nèi)容數(shù)量和廣度會遠遠超過用戶已經(jīng)搜索過的詞數(shù),有利于擴大召回率。
【專利說明】一種基于視頻搜索的分詞信息推送方法和裝置
【技術(shù)領域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)的【技術(shù)領域】,具體涉及一種基于視頻搜索的分詞信息推送方法和一種基于視頻搜索的分詞信息推送裝置。
【背景技術(shù)】
[0002]視頻搜索引擎是有別于綜合搜索的一種垂直搜索技術(shù)。視頻搜索引擎抓取互聯(lián)網(wǎng)中的視頻類的結(jié)果并建立索引,由于它可以向搜索者提供純粹的視頻類結(jié)果,從而可以大大節(jié)省網(wǎng)民尋找視頻的時間。
[0003]根據(jù)視頻搜索的相關(guān)統(tǒng)計數(shù)據(jù)顯示,娛樂、游戲、影視、新聞、動漫等類型的視頻是用戶的主要搜索對象。這表明用戶對于視頻搜索本身具有泛需求的性質(zhì)。用戶往往不帶有很強的目的性,搜索結(jié)果并非“非彼不可”,而是帶有一定擴展性,只要目標在用戶所喜歡的范疇內(nèi)即可。因此,往往會在搜索結(jié)果之外對用戶進行相關(guān)推薦是。
[0004]但是,現(xiàn)有的視頻搜索引擎在相關(guān)推薦方面做得還有不足:部分視頻搜索引擎沒有相關(guān)推薦,有相關(guān)推薦的視頻搜索引擎只是根據(jù)用戶的搜索歷史數(shù)據(jù)、通過人工整理得到關(guān)聯(lián)體系等簡單方式實現(xiàn)推薦。這種推薦系統(tǒng)基于用戶已有的搜索習慣,召回率較低,另外由于用戶的搜索范圍一般會比現(xiàn)有互聯(lián)網(wǎng)中的資源范圍要小很多,不能充分挖掘互聯(lián)網(wǎng)中的優(yōu)質(zhì)視頻。
[0005]另一種搜索推薦方法是依靠人工整理出一個資源關(guān)聯(lián)體系或從其他知識體系中得到這樣的體系,應用到推薦系統(tǒng)中。例如在某搜索引擎搜索”廣場舞”時,會得到“交誼舞”、“肚皮舞”、“健身操”等的推薦詞,搜索“dota”時會得到“穿越火線”、“魔獸世界”等的推薦詞,但是這種體系召回率較低,在長尾的搜索中一般不能給出推薦。

【發(fā)明內(nèi)容】

[0006]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種基于視頻搜索的分詞信息推送方法和相應的一種基于視頻搜索的分詞信息推送裝置。
[0007]依據(jù)本發(fā)明的一個方面,提供了一種基于視頻搜索的分詞信息推送方法,包括:
[0008]接收視頻搜索字符串;
[0009]將所述視頻搜索字符串映射為一個或多個第一分詞;
[0010]查找與所述一個或多個第一分詞的同現(xiàn)率高于預設閾值的關(guān)聯(lián)第二分詞;所述同現(xiàn)率為當前一個或多個第一分詞與第二分詞在同一視頻資源數(shù)據(jù)中共同出現(xiàn)的概率;
[0011]推送所述一個或多個第一分詞與所述一個或多個關(guān)聯(lián)第二分詞的組合。
[0012]可選地,所述將所述視頻搜索字符串映射為一個或多個第一分詞的步驟包括:
[0013]提取所述視頻搜索字符串所映射的一個分詞;
[0014]或者,
[0015]當接收到的視頻搜索字符串為復合詞時,將所述視頻搜索字符串拆分為多個搜索子詞;提取所述多個搜索子詞所映射的多個分詞。
[0016]可選地,所述查找與所述一個或多個第一分詞的同現(xiàn)率高于預設閾值的關(guān)聯(lián)第二分詞的步驟包括:
[0017]當所述視頻搜索字符串被映射為一個第一分詞時,提取所述第一分詞對應的預置索引表;其中,所述索引表包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進行分詞生成;
[0018]計算所述第一分詞與所述索引表中各個第二分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中各個第二分詞出現(xiàn)的次數(shù)與所述索引表中視頻資源數(shù)據(jù)的信息總數(shù)的比值;其中,所述第二分詞為所述視頻資源數(shù)據(jù)中的所有分詞中除所述第一分詞以外的分詞;
[0019]提取所述同現(xiàn)率高于預設閾值的第二分詞作為關(guān)聯(lián)第二分詞。
[0020]可選地,所述查找與所述一個或多個第一分詞的同現(xiàn)率高于預設閾值的關(guān)聯(lián)第二分詞的步驟包括:
[0021]當所述視頻搜索字符串被映射為多個第一分詞時,分別提取所述多個第一分詞對應的多個預置索引表;各個索引表中包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進行分詞生成;
[0022]提取與所述多個第一分詞共同出現(xiàn)的第二分詞作為候選分詞;其中,所述第二分詞為所述視頻資源數(shù)據(jù)中的所有分詞中除所述第一分詞以外的分詞;
[0023]分別在各個索引表中計算所述第一分詞與所述候選分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中候選分詞出現(xiàn)的次數(shù)與所述索引表中視頻資源數(shù)據(jù)的信息總數(shù)的比值;
[0024]分別為所述多個第一分詞與所述候選分詞的同現(xiàn)率配置對應的多個權(quán)重;
[0025]分別計算多個配置了權(quán)重的同現(xiàn)率的平均值,作為所述多個第一分詞與所述候選分詞的同現(xiàn)率;
[0026]提取所述同現(xiàn)率高于預設閾值的候選分詞作為關(guān)聯(lián)第二分詞。
[0027]可選地,所述查找與所述一個或多個第一分詞的同現(xiàn)率高于預設閾值的關(guān)聯(lián)第二分詞的步驟包括:
[0028]當所述視頻搜索字符串被映射為多個第一分詞時,分別提取所述多個第一分詞對應的多個預置索引表;其中,各個索引表中包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進行分詞生成;
[0029]采用所述多個索引表確定主分詞,所述主分詞為視頻資源數(shù)據(jù)的信息總數(shù)最多的索引表對應的第一分詞;
[0030]計算所述主分詞與其對應的索引表中各個第二分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中各個第二分詞出現(xiàn)的次數(shù)與所述索引表中視頻資源數(shù)據(jù)的信息總數(shù)的比值;其中,所述第二分詞為所述視頻資源數(shù)據(jù)中的所有分詞中除所述第一分詞以外的分詞;
[0031]提取所述同現(xiàn)率高于預設閾值的第二分詞作為關(guān)聯(lián)第二分詞。
[0032]可選地,所述特征文本信息包括視頻標題、視頻關(guān)鍵詞和/或視頻描述。
[0033]可選地,所述推送所述一個或多個第一分詞與所述一個或多個關(guān)聯(lián)第二分詞的組合的步驟包括:
[0034]推送所述主分詞和所述關(guān)聯(lián)第二分詞的組合。
[0035]根據(jù)本發(fā)明的另一方面,提供了一種基于視頻搜索的分詞信息推送裝置,包括:
[0036]視頻搜索字符串接收模塊,適于接收視頻搜索字符串;
[0037]第一分詞映射模塊,適于將所述視頻搜索字符串映射為一個或多個第一分詞;
[0038]第二分詞查找模塊,適于查找與所述一個或多個第一分詞的同現(xiàn)率高于預設閾值的關(guān)聯(lián)第二分詞;所述同現(xiàn)率為當前一個或多個分詞與第二分詞在同一視頻資源數(shù)據(jù)中共同出現(xiàn)的概率;
[0039]組合推送模塊,適于推送所述一個或多個第一分詞與所述一個或多個關(guān)聯(lián)第二分詞的組合。
[0040]可選地,所述第一分詞映射模塊還適于:
[0041]提取所述視頻搜索字符串所映射的一個分詞;
[0042]或者,
[0043]當接收到的視頻搜索字符串為復合詞時,將所述視頻搜索字符串拆分為多個搜索子詞;提取所述多個搜索子詞所映射的多個分詞。
[0044]可選地,所述第二分詞查找模塊還適于:
[0045]當所述視頻搜索字符串被映射為一個第一分詞時,提取所述第一分詞對應的預置索引表;其中,所述索引表包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進行分詞生成;
[0046]計算所述第一分詞與所述索引表中各個第二分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中各個第二分詞出現(xiàn)的次數(shù)與所述索引表中視頻資源數(shù)據(jù)的信息總數(shù)的比值;其中,所述第二分詞為所述視頻資源數(shù)據(jù)中的所有分詞中除所述第一分詞以外的分詞;
[0047]提取所述同現(xiàn)率高于預設閾值的第二分詞作為關(guān)聯(lián)第二分詞。
[0048]可選地,所述第二分詞查找模塊還適于:
[0049]當所述視頻搜索字符串被映射為多個第一分詞時,分別提取所述多個第一分詞對應的多個預置索引表;各個索引表中包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進行分詞生成;
[0050]提取與所述多個第一分詞共同出現(xiàn)的第二分詞作為候選分詞;其中,所述第二分詞為所述視頻資源數(shù)據(jù)中的所有分詞中除所述第一分詞以外的分詞;
[0051]分別在各個索引表中計算所述第一分詞與所述候選分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中候選分詞出現(xiàn)的次數(shù)與所述索引表中視頻資源數(shù)據(jù)的信息總數(shù)的比值;
[0052]分別為所述多個第一分詞與所述候選分詞的同現(xiàn)率配置對應的多個權(quán)重;
[0053]分別計算多個配置了權(quán)重的同現(xiàn)率的平均值,作為所述多個第一分詞與所述候選分詞的同現(xiàn)率;
[0054]提取所述同現(xiàn)率高于預設閾值的候選分詞作為關(guān)聯(lián)第二分詞。
[0055]可選地,所述第二分詞查找模塊還適于:
[0056]當所述視頻搜索字符串被映射為多個第一分詞時,分別提取所述多個第一分詞對應的多個預置索引表;其中,各個索引表中包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進行分詞生成;
[0057]采用所述多個索引表確定主分詞,所述主分詞為視頻資源數(shù)據(jù)的信息總數(shù)最多的索引表對應的第一分詞;
[0058]計算所述主分詞與其對應的索引表中各個第二分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中各個第二分詞出現(xiàn)的次數(shù)與所述索引表中視頻資源數(shù)據(jù)的信息總數(shù)的比值;其中,所述第二分詞為所述視頻資源數(shù)據(jù)中的所有分詞中除所述第一分詞以外的分詞;
[0059]提取所述同現(xiàn)率高于預設閾值的第二分詞作為關(guān)聯(lián)第二分詞。
[0060]可選地,所述特征文本信息包括視頻標題、視頻關(guān)鍵詞和/或視頻描述。
[0061 ] 可選地,所述組合推送模塊還適于:
[0062]推送所述主分詞和所述關(guān)聯(lián)第二分詞的組合。
[0063]本發(fā)明可以根據(jù)現(xiàn)有已發(fā)布內(nèi)容進行推送,使搜索引擎擺脫對用戶搜索習慣的依賴,將雖然比較少有用戶搜索的但視頻庫匯總已有較多相關(guān)資源的視頻資源數(shù)據(jù)推送出來,從而實現(xiàn)深度挖掘視頻庫中的優(yōu)質(zhì)資源,提高了資源挖掘的效率;此外,索引表會隨著互聯(lián)網(wǎng)視頻內(nèi)容的不斷積累而不斷擴大,各大視頻站生產(chǎn)出來的內(nèi)容數(shù)量和廣度會遠遠超過用戶已經(jīng)搜索過的詞數(shù),有利于擴大召回率。
[0064]本發(fā)明通過推送第一分詞和第二分詞的組合,用戶可以基于此組合直接進行更多層次的搜索,使用戶簡單搜索即可獲得更多的結(jié)果,無需多次提交搜索,從而減輕了訪問服務器的負擔,減少了網(wǎng)絡資源的占用,并提升了用戶體驗。
[0065]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【專利附圖】

【附圖說明】
[0066]通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0067]圖1示出了根據(jù)本發(fā)明一個實施例的一種基于視頻搜索的分詞信息推送方法實施例的步驟流程圖;以及
[0068]圖2示出了根據(jù)本發(fā)明一個實施例的一種基于視頻搜索的分詞信息推送裝置實施例的結(jié)構(gòu)框圖。
【具體實施方式】
[0069]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領域的技術(shù)人員。
[0070]參照圖1,示出了根據(jù)本發(fā)明一個實施例的一種基于視頻搜索的分詞信息推送方法實施例的步驟流程圖,具體可以包括如下步驟:
[0071]步驟101,接收視頻搜索字符串;
[0072]需要說明的是,視頻搜索字符串可以是用戶輸入的視頻搜索信息,可以用于請求搜索與之相關(guān)的視頻數(shù)據(jù)資源。
[0073]在實際應用中,視頻搜索字符串可以是單詞,即包括一個語義獨立的詞,例如中秋、端午、國慶等等;視頻搜索字符串也可以是復合詞,即包括兩個或兩個以上語義獨立的詞,例如中秋月餅、端午綜子、國慶西臧旅游等等。
[0074]步驟102,將所述視頻搜索字符串映射為一個或多個第一分詞;
[0075]需要說明的是,被映射的分詞可以是預先設置的,可以用于計算不同分詞之間的同現(xiàn)率。
[0076]映射的規(guī)則也可以是預先設置的一個或多個,可以包括去除視頻搜索字符的臟詞、修飾詞、語氣助詞、寬泛詞等無實際意義的詞語;可以包括設定停止詞,即一些常見的詞,為拆分詞組時停止的標準,例如的、我、你等等;還可以包括關(guān)聯(lián)關(guān)系的對應,將同一事物的多種表達對應為一種表達,例如將八月十五、中秋節(jié)、月餅節(jié)等關(guān)聯(lián)為中秋;還可以包括其他映射規(guī)則,本發(fā)明實施例對此不加以限制。
[0077]英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文句子I am a student,用中文則為:“我是一個學生”。計算機可以很簡單通過空格知道student是一個單詞,但是不能很容易明白“學”、“生”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞。例如,我是一個學生,分詞的結(jié)果是:我、是、一個、學生。
[0078]下面介紹一些常用的分詞方法:
[0079]1、基于字符串匹配的分詞方法:是指按照一定的策略將待分析的漢字串與一個預置的機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。實際使用的分詞系統(tǒng),都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的準確率。
[0080]2、基于特征掃描或標志切分的分詞方法:是指優(yōu)先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進機械分詞,從而減少匹配的錯誤率;或者將分詞和詞類標注結(jié)合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標注過程中又反過來對分詞結(jié)果進行檢驗、調(diào)整,從而提高切分的準確率。
[0081]3、基于理解的分詞方法:是指通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。
[0082]4、基于統(tǒng)計的分詞方法:是指,中文信息中由于字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度,所以可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算它們的互現(xiàn)信息,以及計算兩個漢字Χ、 的相鄰共現(xiàn)概率?;ガF(xiàn)信息可以體現(xiàn)漢字之間結(jié)合關(guān)系的緊密程度。當緊密程度高于某一個閾值時,便可認為此字組可能構(gòu)成了一個詞。這種方法只需對語料中的字組頻度進行統(tǒng)計,不需要切分詞典。
[0083]在本發(fā)明的一種優(yōu)選實施例中,所述步驟102具體可以包括如下子步驟:
[0084]子步驟S11,提取所述視頻搜索字符串所映射的一個分詞;
[0085]對于視頻搜索字符串為單詞的情形,可以按照預設的映射規(guī)則直接提取其對應的分詞。例如,視頻搜索字符串為“中秋節(jié)”、“我的中秋節(jié)”或者“中秋節(jié)了”等,映射的第一分詞都可以為“中秋”。當然,視頻搜索字符串也可以與其映射的第一分詞是同一個詞,例如視頻搜索字符串為“中秋”,映射的第一分詞也可以“中秋”。
[0086]或者,
[0087]子步驟S12,當接收到的視頻搜索字符串為復合詞時,將所述視頻搜索字符串拆分為多個搜索子詞;
[0088]子步驟S13,提取所述多個搜索子詞所映射的多個分詞。
[0089]對于視頻搜索字符串為復合詞的情形,可以按照預設的映射規(guī)則進行分詞,得到搜索子詞,然后分別提取搜索子詞對應的分詞。例如,接收到的視頻搜索字符串為“中秋節(jié)月餅”,可以將其拆分為“中秋節(jié)”和“月餅”兩個搜索子詞,然后將“中秋節(jié)”映射為“中秋”,將“月餅”映射為“月餅”,得到“中秋”和“月餅”兩個第一分詞。
[0090]步驟103,查找與 所述一個或多個第一分詞的同現(xiàn)率高于預設閾值的關(guān)聯(lián)第二分詞;
[0091]所述同現(xiàn)率為當前一個或多個第一分詞與第二分詞在同一視頻資源數(shù)據(jù)中共同出現(xiàn)的概率;
[0092]需要說明的是,第二分詞可以是在全部預設的分詞中,除第一分詞以外的分詞。關(guān)聯(lián)第二分詞可以是與第一分詞的同現(xiàn)率高于預設閾值的第二分詞。
[0093]在實際應用中,視頻資源數(shù)據(jù)可以包括特征文本信息,該特征文本信息可以用于記載該視頻資源數(shù)據(jù)的相關(guān)信息,也可以用于提取分詞。
[0094]在本發(fā)明的一種優(yōu)選實施例中,所述特征文本信息可以包括視頻標題、視頻關(guān)鍵詞和/或視頻描述。
[0095]例如,在一段名為《【拍客】東莞暴雨后變威尼斯,千余輛車水浸拋錨一在線播放一XX網(wǎng),視頻高清在線觀看》的視頻資源數(shù)據(jù)中,其特征文本信息可以如下:
[0096]視頻標題(Title):【拍客】東莞暴雨后變威尼斯,千余輛車水浸拋錨一在線播放一XX網(wǎng),視頻高清在線觀看;
[0097]視頻關(guān)鍵詞(Keywords):YY記者生活資訊東堯水浸;
[0098]視頻描述(Description):昨天上午的一場暴雨,讓東堯部分地區(qū)的街坊瞬間感到好像來到了威尼斯。行駛中的小車在暴雨中遭到水浸拋錨,有的街坊家中也是一片汪洋。
[0099]具體而言,同現(xiàn)率可以為當前一個或多個分詞與第二分詞在同一視頻資源數(shù)據(jù)的特征文本信息中共同出現(xiàn)的概率,具體可以包括一個第一分詞和第二分詞的同現(xiàn)率,多個分詞和第二分詞的同現(xiàn)率。
[0100]在本發(fā)明的一種優(yōu)選實施例中,所述步驟103具體可以包括如下子步驟:
[0101]子步驟S21,當所述視頻搜索字符串被映射為一個第一分詞時,提取所述第一分詞對應的預置索引表;其中,所述索引表包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進行分詞生成;
[0102]在具體實現(xiàn)中,可以預先采用搜索引擎通過爬蟲抓取各個網(wǎng)站平臺上的視頻資源數(shù)據(jù),然后建立索引庫:提取視頻資源數(shù)據(jù)的特征文本信息進行分詞處理,并建立每個分詞對應的索引表,該索引表中可以存儲視頻資源數(shù)據(jù)的信息(可以是ID、內(nèi)網(wǎng)地址、外網(wǎng)地址等等視頻標識,也可以是一條由當前分詞和其他分詞所組成的記錄)、視頻資源數(shù)據(jù)中的所有分詞(包括第一分詞和除第一分詞外的第二分詞)。
[0103]在本發(fā)明的一種優(yōu)選實施例中,所述特征文本信息可以包括視頻標題、視頻關(guān)鍵詞和/或視頻描述。
[0104]例如,“中秋”的索引表可以如下:
[0105]
【權(quán)利要求】
1.一種基于視頻搜索的分詞信息推送方法,包括: 接收視頻搜索字符串; 將所述視頻搜索字符串映射為一個或多個第一分詞; 查找與所述一個或多個第一分詞的同現(xiàn)率高于預設閾值的關(guān)聯(lián)第二分詞;所述同現(xiàn)率為當前一個或多個第一分詞與第二分詞在同一視頻資源數(shù)據(jù)中共同出現(xiàn)的概率; 推送所述一個或多個第一分詞與所述一個或多個關(guān)聯(lián)第二分詞的組合。
2.如權(quán)利要求1所述的方法,其特征在于,所述將所述視頻搜索字符串映射為一個或多個第一分詞的步驟包括: 提取所述視頻搜索字符串所映射的一個分詞; 或者, 當接收到的視頻搜索字符串為復合詞時,將所述視頻搜索字符串拆分為多個搜索子詞;提取所述多個搜索子詞所映射的多個分詞。
3.如權(quán)利要求1所述的方法,其特征在于,所述查找與所述一個或多個第一分詞的同現(xiàn)率高于預設閾值的關(guān)聯(lián)第二分詞的步驟包括:· 當所述視頻搜索字符串被映射為一個第一分詞時,提取所述第一分詞對應的預置索引表;其中,所述索引表包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進行分詞生成; 計算所述第一分詞與所述索引表中各個第二分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中各個第二分詞出現(xiàn)的次數(shù)與所述索引表中視頻資源數(shù)據(jù)的信息總數(shù)的比值;其中,所述第二分詞為所述視頻資源數(shù)據(jù)中的所有分詞中除所述第一分詞以外的分詞; 提取所述同現(xiàn)率高于預設閾值的第二分詞作為關(guān)聯(lián)第二分詞。
4.如權(quán)利要求1所述的方法,其特征在于,所述查找與所述一個或多個第一分詞的同現(xiàn)率高于預設閾值的關(guān)聯(lián)第二分詞的步驟包括: 當所述視頻搜索字符串被映射為多個第一分詞時,分別提取所述多個第一分詞對應的多個預置索引表;各個索引表中包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進行分詞生成; 提取與所述多個第一分詞共同出現(xiàn)的第二分詞作為候選分詞;其中,所述第二分詞為所述視頻資源數(shù)據(jù)中的所有分詞中除所述第一分詞以外的分詞; 分別在各個索引表中計算所述第一分詞與所述候選分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中候選分詞出現(xiàn)的次數(shù)與所述索引表中視頻資源數(shù)據(jù)的信息總數(shù)的比值; 分別為所述多個第一分詞與所述候選分詞的同現(xiàn)率配置對應的多個權(quán)重; 分別計算多個配置了權(quán)重的同現(xiàn)率的平均值,作為所述多個第一分詞與所述候選分詞的同現(xiàn)率; 提取所述同現(xiàn)率高于預設閾值的候選分詞作為關(guān)聯(lián)第二分詞。
5.如權(quán)利要求1所述的方法,其特征在于,所述查找與所述一個或多個第一分詞的同現(xiàn)率高于預設閾值的關(guān)聯(lián)第二分詞的步驟包括: 當所述視頻搜索字符串被映射為多個第一分詞時,分別提取所述多個第一分詞對應的多個預置索引表;其中,各個索引表中包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進行分詞生成; 采用所述多個索引表確定主分詞,所述主分詞為視頻資源數(shù)據(jù)的信息總數(shù)最多的索引表對應的第一分詞; 計算所述主分詞與其對應的索引表中各個第二分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中各個第二分詞出現(xiàn)的次數(shù)與所述索引表中視頻資源數(shù)據(jù)的信息總數(shù)的比值;其中,所述第二分詞為所述視頻資源數(shù)據(jù)中的所有分詞中除所述第一分詞以外的分詞; 提取所述同現(xiàn)率高于預設閾值的第二分詞作為關(guān)聯(lián)第二分詞。
6.如權(quán)利要求3或4或5所述的方法,其特征在于,所述特征文本信息包括視頻標題、視頻關(guān)鍵詞和/或視頻描述。
7.如權(quán)利要求5所述的方法,其特征在于,所述推送所述一個或多個第一分詞與所述一個或多個關(guān)聯(lián)第二分詞的組合的步驟包括: 推送所述主分詞和所述 關(guān)聯(lián)第二分詞的組合。
8.一種基于視頻搜索的分詞信息推送裝置,包括: 視頻搜索字符串接收模塊,適于接收視頻搜索字符串; 第一分詞映射模塊,適于將所述視頻搜索字符串映射為一個或多個第一分詞; 第二分詞查找模塊,適于查找與所述一個或多個第一分詞的同現(xiàn)率高于預設閾值的關(guān)聯(lián)第二分詞;所述同現(xiàn)率為當前一個或多個分詞與第二分詞在同一視頻資源數(shù)據(jù)中共同出現(xiàn)的概率; 組合推送模塊,適于推送所述一個或多個第一分詞與所述一個或多個關(guān)聯(lián)第二分詞的組合。
9.如權(quán)利要求8所述的裝置,其特征在于,所述第一分詞映射模塊還適于: 提取所述視頻搜索字符串所映射的一個分詞; 或者, 當接收到的視頻搜索字符串為復合詞時,將所述視頻搜索字符串拆分為多個搜索子詞;提取所述多個搜索子詞所映射的多個分詞。
10.如權(quán)利要求8所述的裝置,其特征在于,所述第二分詞查找模塊還適于: 當所述視頻搜索字符串被映射為一個第一分詞時,提取所述第一分詞對應的預置索引表;其中,所述索引表包括所述第一分詞所屬的視頻資源數(shù)據(jù)的信息,以及,所述視頻資源數(shù)據(jù)中的所有分詞;所述視頻資源數(shù)據(jù)中的所有分詞為通過抓取視頻資源數(shù)據(jù),提取所述視頻資源數(shù)據(jù)的特征文本信息,對所述特征文本信息進行分詞生成; 計算所述第一分詞與所述索引表中各個第二分詞的同現(xiàn)率,所述同現(xiàn)率為所述索引表中各個第二分詞出現(xiàn)的次數(shù)與所述索引表中視頻資源數(shù)據(jù)的信息總數(shù)的比值;其中,所述第二分詞為所述視頻資源數(shù)據(jù)中的所有分詞中除所述第一分詞以外的分詞; 提取所述同現(xiàn)率高于預設閾值的第二分詞作為關(guān)聯(lián)第二分詞。
【文檔編號】G06F17/30GK103500214SQ201310462214
【公開日】2014年1月8日 申請日期:2013年9月30日 優(yōu)先權(quán)日:2013年9月30日
【發(fā)明者】崔代超 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1