亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種數(shù)據(jù)搜索的裝置及其方法

文檔序號:6626993閱讀:191來源:國知局
一種數(shù)據(jù)搜索的裝置及其方法
【專利摘要】本發(fā)明提供一種數(shù)據(jù)搜索的裝置及其方法,所述裝置包括:分詞處理模塊,用于對接收的搜索關(guān)鍵詞進(jìn)行分詞處理,獲得所述搜索關(guān)鍵詞的分詞詞語;分?jǐn)?shù)獲取模塊,用于獲取至少一個所述搜索關(guān)鍵詞的分詞詞語的領(lǐng)域分?jǐn)?shù),并根據(jù)所述至少一個分詞詞語的領(lǐng)域分?jǐn)?shù)計(jì)算出所述搜索關(guān)鍵詞的領(lǐng)域分?jǐn)?shù);匹配計(jì)算模塊,用于分別計(jì)算所述搜索關(guān)鍵詞的領(lǐng)域分?jǐn)?shù)和根據(jù)所述搜索關(guān)鍵詞搜索出的所有文檔的領(lǐng)域分?jǐn)?shù)的匹配度;搜索排序模塊,用于依據(jù)所述匹配度對所述根據(jù)搜索關(guān)鍵詞搜索出的文檔進(jìn)行排序。本發(fā)明能夠根據(jù)搜索關(guān)鍵詞,提供更加符合搜索需求的搜索結(jié)果。
【專利說明】一種數(shù)據(jù)搜索的裝置及其方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,尤其涉及一種數(shù)據(jù)搜索的裝置及其方法。

【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)信息數(shù)據(jù)量也越來越大,比如視頻網(wǎng)站中大量的視 頻信息,網(wǎng)站論壇中大量用戶的發(fā)布信息,以及用戶的歷史海量日志。為了實(shí)現(xiàn)某一操作目 的,需要在大數(shù)據(jù)量的網(wǎng)絡(luò)信息中獲得滿足需求的數(shù)據(jù)。
[0003] 現(xiàn)有的數(shù)據(jù)搜索技術(shù)多采用基于搜索關(guān)鍵詞(query)進(jìn)行搜索,由搜索引擎服務(wù) 器根據(jù)輸入的搜索關(guān)鍵詞,將與所述搜索關(guān)鍵詞匹配的頁面包含搜索結(jié)果進(jìn)行反饋。并且, 在搜索結(jié)果中進(jìn)行排序,將和搜索關(guān)鍵詞相關(guān)度最高的頁面排在最前面。
[0004] 但是,現(xiàn)有的數(shù)據(jù)搜索技術(shù)通常對搜索關(guān)鍵詞的文本進(jìn)行分詞,僅僅計(jì)算各頁面 在文本上與搜索關(guān)鍵詞的相關(guān)度,并不考慮該搜索關(guān)鍵詞的需求,導(dǎo)致搜索出來的頁面并 非該搜索關(guān)鍵詞真正想要的頁面。比如,輸入搜索關(guān)鍵詞"最新恐怖片",現(xiàn)有的數(shù)據(jù)搜索技 術(shù)會基于詞頻和位置等文本內(nèi)容進(jìn)行搜索。因此,搜索出來的頁面為包含"最新恐怖片"這 一文本內(nèi)容的頁面,而輸入該搜索關(guān)鍵詞真正想要的頁面為最新的恐怖片視頻觀看頁面。
[0005] 因此,如何根據(jù)搜索關(guān)鍵詞提供更加符合搜索需求的搜索結(jié)果成為數(shù)據(jù)搜索技術(shù) 中亟待解決的技術(shù)問題。


【發(fā)明內(nèi)容】

[0006] 有鑒于此,本發(fā)明提供一種數(shù)據(jù)搜索的裝置及其方法,其能夠根據(jù)搜索關(guān)鍵詞,提 供更加符合搜索需求的搜索結(jié)果。
[0007] 本發(fā)明提供一種數(shù)據(jù)搜索的裝置,包括:
[0008] 分詞處理模塊,用于對接收的搜索關(guān)鍵詞進(jìn)行分詞處理,獲得所述搜索關(guān)鍵詞的 全部分詞詞語。
[0009] 分?jǐn)?shù)獲取模塊,用于獲取至少一個所述搜索關(guān)鍵詞的分詞詞語的領(lǐng)域分?jǐn)?shù),并根 據(jù)所述至少一個分詞詞語的領(lǐng)域分?jǐn)?shù)計(jì)算出所述搜索關(guān)鍵詞的領(lǐng)域分?jǐn)?shù)。
[0010] 匹配計(jì)算模塊,用于分別計(jì)算所述搜索關(guān)鍵詞的領(lǐng)域分?jǐn)?shù)和根據(jù)所述搜索關(guān)鍵詞 搜索出的所有文檔的領(lǐng)域分?jǐn)?shù)的匹配度。
[0011] 搜索排序模塊,用于依據(jù)所述匹配度對所述根據(jù)搜索關(guān)鍵詞搜索出的文檔進(jìn)行排 序。
[0012] 進(jìn)一步,本發(fā)明還包括:
[0013] 詞庫識別模塊,用于根據(jù)預(yù)先設(shè)立的詞庫對所述搜索關(guān)鍵詞的每個分詞詞語進(jìn)行 詞庫識別,如所述分詞詞語命中所述詞庫中存儲的詞語,則將所述分詞詞語設(shè)定為特征分 詞詞語,否則,將所述分詞詞語設(shè)定為非特征分詞詞語,在分類標(biāo)簽和特征分詞詞語匹配的 文檔中根據(jù)非特征分詞詞語進(jìn)行搜索。
[0014] 進(jìn)一步,本發(fā)明所述詞庫識別模塊還如果特征分詞詞語為預(yù)定義的特征分詞詞 語,則將所述分詞詞語從所述搜索關(guān)鍵詞的全部分詞詞語中刪除,令所述分?jǐn)?shù)獲取模塊不 再對所述刪除的分詞詞語進(jìn)行領(lǐng)域分?jǐn)?shù)獲取。
[0015] 進(jìn)一步,本發(fā)明還包括:
[0016] 描述處理模塊,用于分別對所有文檔的文字描述計(jì)算領(lǐng)域分?jǐn)?shù),并將計(jì)算出的領(lǐng) 域分?jǐn)?shù)設(shè)定為相應(yīng)文檔的領(lǐng)域分?jǐn)?shù)。
[0017] 進(jìn)一步,本發(fā)明所述搜索排序模塊還用于判斷所述搜索關(guān)鍵詞的分詞詞語是否包 括排序分詞詞語,如果包括,則按照所述排序分詞詞語對所述根據(jù)搜索關(guān)鍵詞搜索出的文 檔進(jìn)行排序。
[0018] 對應(yīng)于上述裝置,本發(fā)明還提供一種數(shù)據(jù)搜索的方法,包括:
[0019] 對接收的搜索關(guān)鍵詞進(jìn)行分詞處理,獲得所述搜索關(guān)鍵詞的全部分詞詞語;
[0020] 獲取所述搜索關(guān)鍵詞的至少一個分詞詞語的領(lǐng)域分?jǐn)?shù),并根據(jù)所述至少一個分詞 詞語的領(lǐng)域分?jǐn)?shù)計(jì)算出所述搜索關(guān)鍵詞的領(lǐng)域分?jǐn)?shù);
[0021] 分別計(jì)算所述搜索關(guān)鍵詞的領(lǐng)域分?jǐn)?shù)和根據(jù)所述搜索關(guān)鍵詞搜索出的所有文檔 的領(lǐng)域分?jǐn)?shù)的匹配度;
[0022] 依據(jù)所述匹配度對所述根據(jù)搜索關(guān)鍵詞搜索出的文檔進(jìn)行排序。
[0023] 進(jìn)一步,本發(fā)明所述方法還包括:
[0024] 根據(jù)預(yù)先設(shè)立的詞庫對所述搜索關(guān)鍵詞的每個分詞詞語進(jìn)行詞庫識別,如所述分 詞詞語命中所述詞庫中存儲的詞語,則將所述分詞詞語設(shè)定為特征分詞詞語,否則,將所述 分詞詞語設(shè)定為非特征分詞詞語,在分類標(biāo)簽和特征分詞詞語匹配的文檔中根據(jù)非特征分 詞詞語進(jìn)行搜索。
[0025] 進(jìn)一步,本發(fā)明所述根據(jù)預(yù)先設(shè)立的詞庫對所述搜索關(guān)鍵詞的每個分詞詞語進(jìn)行 詞庫識別,如所述分詞詞語命中所述詞庫中存儲的詞語,則將所述分詞詞語設(shè)定為特征分 詞詞語,否則,將所述分詞詞語設(shè)定為非特征分詞詞語,在分類標(biāo)簽和特征分詞詞語匹配的 文檔中根據(jù)非特征分詞詞語進(jìn)行搜索還包括:
[0026] 如果特征分詞詞語為預(yù)定義的特征分詞詞語,則將所述分詞詞語從所述搜索關(guān)鍵 詞的分詞詞語中刪除,令所述分?jǐn)?shù)獲取模塊不再對所述刪除的分詞詞語進(jìn)行領(lǐng)域分?jǐn)?shù)獲 取。
[0027] 進(jìn)一步,本發(fā)明還包括:
[0028] 分別對所有文檔的文字描述計(jì)算領(lǐng)域分?jǐn)?shù),并將計(jì)算出的領(lǐng)域分?jǐn)?shù)設(shè)定為文檔的 領(lǐng)域分?jǐn)?shù)。
[0029] 進(jìn)一步,本發(fā)明所述依據(jù)所述匹配度對所述根據(jù)搜索關(guān)鍵詞搜索出的文檔進(jìn)行排 序還包括:
[0030] 判斷所述搜索關(guān)鍵詞的分詞詞語是否包括排序分詞詞語,如果包括,則按照所述 排序分詞詞語對所述根據(jù)搜索關(guān)鍵詞搜索出的文檔進(jìn)行排序。
[0031] 由以上技術(shù)方案可見,本發(fā)明對接收的搜索關(guān)鍵詞進(jìn)行分詞處理,獲得所述搜索 關(guān)鍵詞的分詞詞語的領(lǐng)域分?jǐn)?shù),從而得到所述搜索關(guān)鍵詞的領(lǐng)域分?jǐn)?shù);本發(fā)明所進(jìn)行的數(shù) 據(jù)搜索,根據(jù)搜索關(guān)鍵詞的領(lǐng)域分?jǐn)?shù)與搜索出文檔的領(lǐng)域分?jǐn)?shù)的匹配度對搜索結(jié)果進(jìn)行排 序,令顯示的搜索結(jié)果更加符合搜索的真實(shí)需求,提升了搜索的效果。并且,本發(fā)明計(jì)算簡 單,操作方便,提高了搜索效率。

【專利附圖】

【附圖說明】
[0032] 圖1是本發(fā)明數(shù)據(jù)搜索的裝置的結(jié)構(gòu)框圖;
[0033] 圖2是本發(fā)明數(shù)據(jù)搜索裝置一具體實(shí)施例的結(jié)構(gòu)框圖;
[0034] 圖3是本發(fā)明數(shù)據(jù)搜索方法的一個實(shí)施例的流程圖;
[0035] 圖4是本發(fā)明數(shù)據(jù)搜索方法的另一個實(shí)施例的流程圖;
[0036] 圖5是本發(fā)明數(shù)據(jù)搜索方法中步驟S5的流程圖。

【具體實(shí)施方式】
[0037] 由于現(xiàn)有的數(shù)據(jù)搜索技術(shù)會基于搜索關(guān)鍵詞的分詞詞語的詞頻和位置等文本內(nèi) 容進(jìn)行搜索,但這種搜索往往忽略了搜索的需求信息,得到錯誤的搜索結(jié)果。通常考慮到搜 索需求的數(shù)據(jù)搜索方法需要先統(tǒng)計(jì)搜索日志中的搜索關(guān)鍵詞及其分詞詞語的需求概率,建 立一需求概率模型。而在根據(jù)搜索關(guān)鍵詞進(jìn)行搜索時,根據(jù)該概率模型確定搜索關(guān)鍵詞及 其分詞詞語的搜索需求。而后還需要計(jì)算各種需求與搜索頁面的相關(guān)度得到搜索關(guān)鍵詞的 需求與搜索得到的頁面的相關(guān)度,并根據(jù)該相關(guān)度顯示搜索得到的頁面。但是,這種搜索方 法需要先根據(jù)日志建立概率模型,而且根據(jù)概率模型確定的搜索需求計(jì)算復(fù)雜,影響搜索 的效率。
[0038] 本發(fā)明對接收的搜索關(guān)鍵詞進(jìn)行分詞處理,獲得所述搜索關(guān)鍵詞的分詞詞語的領(lǐng) 域分?jǐn)?shù),從而得到所述搜索關(guān)鍵詞的領(lǐng)域分?jǐn)?shù)。本發(fā)明所進(jìn)行的數(shù)據(jù)搜索,根據(jù)搜索關(guān)鍵詞 的領(lǐng)域分?jǐn)?shù)與搜索出文檔的領(lǐng)域分?jǐn)?shù)的匹配度對搜索結(jié)果進(jìn)行排序,令顯示的搜索結(jié)果更 加符合搜索的真實(shí)需求,提升了搜索的效果。并且,本發(fā)明計(jì)算簡單,操作方便,提高了搜索 效率。
[0039] 下面結(jié)合本發(fā)明附圖進(jìn)一步說明本發(fā)明具體實(shí)現(xiàn)。
[0040] 參見圖1,本發(fā)明提供一種數(shù)據(jù)搜索的裝置可以用來搜索網(wǎng)站論壇中大量用戶的 發(fā)布信息,服務(wù)器中的視頻文件以及用戶的歷史海量日志等大數(shù)據(jù)量信息。本發(fā)明裝置中 的各數(shù)據(jù)庫可以存儲在數(shù)據(jù)庫服務(wù)器中,各功能模塊可以存儲在控制服務(wù)器中。當(dāng)然,本發(fā) 明各功能模塊以及數(shù)據(jù)庫可以分別存儲在相同的或者不同的服務(wù)器中,由本領(lǐng)域技術(shù)人員 根據(jù)需求進(jìn)行選擇設(shè)置。
[0041] 參見圖1,本發(fā)明裝置包括:
[0042] 分詞處理模塊11,用于對接收的搜索關(guān)鍵詞進(jìn)行分詞處理,獲得所述搜索關(guān)鍵詞 的全部分詞詞語。
[0043] 分?jǐn)?shù)獲取模塊12,用于獲取所述搜索關(guān)鍵詞的至少一個分詞詞語的領(lǐng)域分?jǐn)?shù),并 根據(jù)所述至少一個分詞詞語的領(lǐng)域分?jǐn)?shù)計(jì)算出所述搜索關(guān)鍵詞的領(lǐng)域分?jǐn)?shù)。
[0044] 匹配計(jì)算模塊13,用于分別計(jì)算所述搜索關(guān)鍵詞的領(lǐng)域分?jǐn)?shù)和根據(jù)所述搜索關(guān)鍵 詞搜索出的所有文檔的領(lǐng)域分?jǐn)?shù)的匹配度。
[0045] 搜索排序模塊14,用于依據(jù)所述匹配度對所述根據(jù)搜索關(guān)鍵詞搜索出的文檔進(jìn)行 排序。
[0046] 本發(fā)明所進(jìn)行的數(shù)據(jù)搜索,根據(jù)搜索關(guān)鍵詞的領(lǐng)域分?jǐn)?shù)與搜索出文檔的領(lǐng)域分?jǐn)?shù) 的匹配度對搜索結(jié)果進(jìn)行排序,令顯示的搜索結(jié)果更加符合搜索的真實(shí)需求,提升了搜索 的準(zhǔn)確率。并且,本發(fā)明計(jì)算簡單,操作方便,提高了搜索效率。
[0047] 在本發(fā)明具體實(shí)現(xiàn)中,數(shù)據(jù)庫服務(wù)器或者其他服務(wù)器中還包括預(yù)先設(shè)立的詞庫。 所述預(yù)先設(shè)立的詞庫包括明星詞庫、版本詞庫、類型詞庫、地點(diǎn)詞庫、排序詞庫等中至少一 個。
[0048] 具體地,明星詞庫多指明星的姓名或者藝名,比如劉德華、張曼玉等;版本詞庫多 指語言類型,比如國語版、日語版等;類型詞庫多指視頻的類型,比如恐怖片、色情片等;地 點(diǎn)詞庫多指影片的拍攝國家,比如北京、日本,韓國;而排序詞庫多指排序依據(jù),比如最新、 最好看、最恐怖等。
[0049] 上述詞庫可以采用手工設(shè)立,或者通過機(jī)器語言總結(jié)現(xiàn)有日志中的信息進(jìn)行設(shè) 立。為了便于搜索,在大數(shù)據(jù)量的信息存儲中通常對存儲的文檔設(shè)置分類標(biāo)簽,所述分類標(biāo) 簽標(biāo)明所述文檔的分類信息,如涉及明星、語言類型、視頻類型、拍攝地點(diǎn)、搜索歷史等。文 檔的分類標(biāo)簽可以記錄在文檔的文字描述中,亦可以作為單獨(dú)的分類標(biāo)簽存在。
[0050] 在本發(fā)明一具體的實(shí)施例中,參看圖2,本發(fā)明裝置還包括詞庫識別模塊15,用于 根據(jù)預(yù)先設(shè)立的詞庫對所述搜索關(guān)鍵詞的每個分詞詞語進(jìn)行詞庫識別,如所述分詞詞語命 中所述詞庫中存儲的詞語,則將所述分詞詞語設(shè)定為特征分詞詞語,否則,將所述分詞詞語 設(shè)定為非特征分詞詞語,在分類標(biāo)簽和特征分詞詞語匹配的文檔中根據(jù)非特征分詞詞語進(jìn) 行搜索。
[0051] 此外,所述詞庫識別模塊15還用于如果特征分詞詞語為預(yù)定義的特征分詞詞語, 則將所述特征分詞詞語從所述搜索關(guān)鍵詞的全部分詞詞語中刪除,令所述分?jǐn)?shù)獲取模塊不 再對所述刪除的分詞詞語進(jìn)行領(lǐng)域分?jǐn)?shù)獲取。
[0052] 所述預(yù)定義的特征分詞詞語由本領(lǐng)域技術(shù)人員根據(jù)搜索系統(tǒng)的需要進(jìn)行設(shè)定。通 常將表示版本信息(如:香港版、大陸版)、類型信息(如:動漫、武俠)、地點(diǎn)信息(如:美 國、中國)等信息的詞語設(shè)定為預(yù)定義的特征分詞詞語。如果搜索關(guān)鍵詞的全部分詞詞語 中存在預(yù)定義的特征分詞詞語,則將該分詞詞語從搜索關(guān)鍵詞的全部分詞詞語中去除。在 分?jǐn)?shù)獲取模塊12中即不再對所述刪除的分詞詞語進(jìn)行領(lǐng)域分?jǐn)?shù)獲取。
[0053] 因此,本發(fā)明詞庫識別模塊15在所述搜索關(guān)鍵詞的分詞詞語中去除了預(yù)定義的 特征分詞詞語,避免了由于這些分詞詞語造成的對搜索需求信息的誤導(dǎo)。比如,搜索關(guān)鍵詞 分詞詞語里面包含"美國"這一預(yù)定義的特征分詞詞語,搜索需求是為了搜索出美國電影, 如果不去除"美國"這個分詞詞語,則會將包含"美國"這個文本含義的電影搜索出來,比如 電影"美國往事"。
[0054] 下面以一些具體實(shí)現(xiàn)來說明本發(fā)明詞庫識別模塊15的操作。
[0055] 具體地,預(yù)先設(shè)立了明星詞庫,如果搜索關(guān)鍵詞中的分詞詞語包含的明星姓名命 中明星詞庫中保存的明星姓名,將該明星姓名設(shè)定為特征分詞詞語。在分類標(biāo)簽和特征分 詞詞語匹配的文檔中根據(jù)非特征分詞詞語進(jìn)行搜索,即在該明星涉及的文檔中根據(jù)非特征 分詞詞語進(jìn)行搜索。
[0056] 如,搜索關(guān)鍵詞為"劉德華電影",進(jìn)行分詞處理后的分詞詞語包含"劉德華"、 "電影",分詞詞語"劉德華"命中明星詞庫中存儲的"劉德華",將分詞詞語"劉德華"設(shè)定為 特征分詞詞語,將"電影"設(shè)定為非特征分詞詞語。在"劉德華"匹配的視頻文件中根據(jù)"電 影"進(jìn)行搜索。
[0057] 具體地,預(yù)先設(shè)立了版本詞庫,如果搜索關(guān)鍵詞中的分詞詞語包含的版本信息命 中版本詞庫中保存的版本信息,將該版本信息設(shè)定為特征分詞詞語。在分類標(biāo)簽和特征分 詞詞語匹配的文檔中根據(jù)非特征分詞詞語進(jìn)行搜索,即在該版本信息涉及的文檔中根據(jù)非 特征分詞詞語進(jìn)行搜索。并且,特征分詞詞語版本信息為預(yù)定義的特征分詞詞語,則將所述 版本信息從所述搜索關(guān)鍵詞的全部分詞詞語中刪除,令所述分?jǐn)?shù)獲取模塊不再對所述刪除 的分詞詞語進(jìn)行領(lǐng)域分?jǐn)?shù)獲取。
[0058] 如,搜索關(guān)鍵詞為"粵語版電影",進(jìn)行分詞處理后的分詞詞語包含"電影"、"粵 語版",分詞詞語"粵語版"命中版本詞庫的版本信息,設(shè)定"粵語版"作為特征分詞詞語,"電 影"為非特征分詞詞語。在粵語版的視頻文件中根據(jù)"電影"進(jìn)行搜索。并且"粵語版"為 預(yù)定義的特征分詞詞語,則將所述"粵語版"從所述搜索關(guān)鍵詞的全部分詞詞語中刪除,令 所述分?jǐn)?shù)獲取模塊不再對所述刪除的分詞詞語進(jìn)行領(lǐng)域分?jǐn)?shù)獲取。
[0059] 具體地,預(yù)先設(shè)立了類型詞庫,如果搜索關(guān)鍵詞中的分詞詞語包含影片類型,則命 中類型詞庫中保存的影片類型,將該分詞詞語包含影片類型設(shè)定為特征分詞詞語。在分類 標(biāo)簽和特征分詞詞語匹配的文檔中根據(jù)非特征分詞詞語進(jìn)行搜索,即在該影片類型涉及的 文檔中根據(jù)非特征分詞詞語進(jìn)行搜索。并且,特征分詞詞語影片類型為預(yù)定義的特征分詞 詞語,則將所述影片類型從所述搜索關(guān)鍵詞的全部分詞詞語中刪除,令所述分?jǐn)?shù)獲取模塊 不再對所述刪除的分詞詞語進(jìn)行領(lǐng)域分?jǐn)?shù)獲取。
[0060] 如,搜索關(guān)鍵詞為"喜劇火車",進(jìn)行分詞處理后的分詞詞語包含"喜劇"、"火 車",分詞詞語"喜劇"命中類型詞庫中保存的影片類型,將分詞詞語"喜劇"設(shè)定為特征分 詞詞語,"火車"設(shè)定為非特征分詞詞語。在喜劇的視頻文件中根據(jù)"火車"進(jìn)行搜索。并且 "喜劇"為預(yù)定義的特征分詞詞語,則將"喜劇"從所述搜索關(guān)鍵詞的全部分詞詞語中刪除, 令所述分?jǐn)?shù)獲取模塊不再對所述刪除的分詞詞語進(jìn)行領(lǐng)域分?jǐn)?shù)獲取。
[0061] 具體地,預(yù)先設(shè)立了地點(diǎn)詞庫,如果搜索關(guān)鍵詞中的分詞詞語包含地點(diǎn)類型,則命 中地點(diǎn)詞庫中保存的地點(diǎn)類型,將該分詞詞語包含地點(diǎn)類型設(shè)定為特征分詞詞語。在分類 標(biāo)簽和特征分詞詞語匹配的文檔中根據(jù)非特征分詞詞語進(jìn)行搜索,即在該地點(diǎn)類型涉及的 文檔中根據(jù)非特征分詞詞語進(jìn)行搜索。并且,特征分詞詞語地點(diǎn)類型為預(yù)定義的特征分詞 詞語,則將所述地點(diǎn)類型從所述搜索關(guān)鍵詞的全部分詞詞語中刪除,令所述分?jǐn)?shù)獲取模塊 不再對所述刪除的分詞詞語進(jìn)行領(lǐng)域分?jǐn)?shù)獲取。
[0062] 如,搜索關(guān)鍵詞為"美國朋友",進(jìn)行分詞處理后的分詞詞語包含"美國"、"朋 友",分詞詞語"美國"命中地點(diǎn)詞庫中保存的地點(diǎn)類型,將分詞詞語"美國"設(shè)定為特征分 詞詞語,"朋友"設(shè)定為非特征分詞詞語。在美國的視頻文件中根據(jù)非特征分詞詞語"朋友" 進(jìn)行搜索。并且"美國"為預(yù)定義的特征分詞詞語,則將"美國"從所述搜索關(guān)鍵詞的全部 分詞詞語中刪除,令所述分?jǐn)?shù)獲取模塊不再對所述刪除的分詞詞語進(jìn)行領(lǐng)域分?jǐn)?shù)獲取。 [0063] 當(dāng)然,本發(fā)明亦可同時預(yù)先設(shè)置明星詞庫、版本詞庫、類型詞庫、地點(diǎn)詞庫、排序詞 庫等中的多個詞庫。
[0064] 比如,預(yù)設(shè)了明星詞庫和類型詞庫時,搜索關(guān)鍵詞為"劉德華喜劇電影賀歲",進(jìn)行 分詞處理后的分詞詞語包含"劉德華"、"喜劇"、"電影"、"賀歲",分詞詞語"劉德華"命中明 星詞庫中的"劉德華",分詞詞語"喜劇"命中類型詞庫中的"喜劇"。將"劉德華"和"喜劇" 設(shè)定為特征分詞詞語,將"電影"、"賀歲"設(shè)定為非特征分詞詞語。在劉德華的喜劇電影的視 頻文件中根據(jù)"電影"、"賀歲"進(jìn)行搜索。特征分詞詞語"喜劇"為自定義的特征分詞詞語, 則將搜索關(guān)鍵詞中的分詞詞語中的"喜劇"刪除,令所述分?jǐn)?shù)獲取模塊不再對所述刪除的分 詞詞語進(jìn)行領(lǐng)域分?jǐn)?shù)獲取。
[0065] 本發(fā)明預(yù)先設(shè)置其他詞庫的操作和上述相同,故在此不再贅述。
[0066] 具體地,本發(fā)明分詞處理模塊11對搜索關(guān)鍵詞進(jìn)行分詞處理可以采用現(xiàn)有的分 詞處理方法,比如,基于字符串的分詞方法,基于理解的分詞方法,基于統(tǒng)計(jì)的分詞方法或 者基于語義的分詞方法,由于其為現(xiàn)有技術(shù),故不再贅述。
[0067] 在本發(fā)明的優(yōu)選實(shí)施例中,對搜索關(guān)鍵詞進(jìn)行分詞處理還過濾掉預(yù)設(shè)的停用詞表 所包含的詞語及/或非獨(dú)立表意的詞語(如,的)等。
[0068] 在本發(fā)明的具體實(shí)現(xiàn)中,本發(fā)明裝置運(yùn)行之初,還可以包括:描述處理模塊16。 [0069] 描述處理模塊16,用于分別對所有文檔的文字描述(包括名稱)計(jì)算領(lǐng)域分?jǐn)?shù),并 將計(jì)算出的領(lǐng)域分?jǐn)?shù)設(shè)定為相應(yīng)文檔的領(lǐng)域分?jǐn)?shù)。
[0070] 其中,領(lǐng)域是指每個文檔所涉及的內(nèi)容的類別,比如新聞、綜藝、電影、體育等。
[0071] 所述對所有文檔的文字描述計(jì)算領(lǐng)域分?jǐn)?shù)采用空間向量相似度的方法,具體的公 式為:
[0072]

【權(quán)利要求】
1. 一種數(shù)據(jù)搜索的裝置,其特征在于,包括: 分詞處理模塊,用于對接收的搜索關(guān)鍵詞進(jìn)行分詞處理,獲得所述搜索關(guān)鍵詞的全部 分詞詞語; 分?jǐn)?shù)獲取模塊,用于獲取至少一個所述搜索關(guān)鍵詞的分詞詞語的領(lǐng)域分?jǐn)?shù),并根據(jù)所 述至少一個分詞詞語的領(lǐng)域分?jǐn)?shù)計(jì)算出所述搜索關(guān)鍵詞的領(lǐng)域分?jǐn)?shù); 匹配計(jì)算模塊,用于分別計(jì)算所述搜索關(guān)鍵詞的領(lǐng)域分?jǐn)?shù)和根據(jù)所述搜索關(guān)鍵詞搜索 出的所有文檔的領(lǐng)域分?jǐn)?shù)的匹配度; 搜索排序模塊,用于依據(jù)所述匹配度對所述根據(jù)搜索關(guān)鍵詞搜索出的文檔進(jìn)行排序。
2. 根據(jù)權(quán)利要求1所述的裝置,其特征在于,還包括: 詞庫識別模塊,用于根據(jù)預(yù)先設(shè)立的詞庫對所述搜索關(guān)鍵詞的每個分詞詞語進(jìn)行詞庫 識別,如所述分詞詞語命中所述詞庫中存儲的詞語,則將所述分詞詞語設(shè)定為特征分詞詞 語,否則,將所述分詞詞語設(shè)定為非特征分詞詞語,在分類標(biāo)簽和特征分詞詞語匹配的文檔 中根據(jù)非特征分詞詞語進(jìn)行搜索。
3. 根據(jù)權(quán)利要求2所述的裝置,其特征在于,所述詞庫識別模塊還用于如果特征分詞 詞語為預(yù)定義的特征分詞詞語,則將所述特征分詞詞語從所述搜索關(guān)鍵詞的全部分詞詞語 中刪除,令所述分?jǐn)?shù)獲取模塊不再對所述刪除的分詞詞語進(jìn)行領(lǐng)域分?jǐn)?shù)獲取。
4. 根據(jù)權(quán)利要求1所述的裝置,其特征在于,還包括: 描述處理模塊,用于分別對所有文檔的文字描述計(jì)算領(lǐng)域分?jǐn)?shù),并將計(jì)算出的領(lǐng)域分 數(shù)設(shè)定為相應(yīng)文檔的領(lǐng)域分?jǐn)?shù)。
5. 根據(jù)權(quán)利要求1所述的裝置,其特征在于,所述搜索排序模塊還用于判斷所述搜索 關(guān)鍵詞的分詞詞語是否包括排序分詞詞語,如果包括,則按照所述排序分詞詞語對所述根 據(jù)搜索關(guān)鍵詞搜索出的文檔進(jìn)行排序。
6. -種數(shù)據(jù)搜索的方法,其特征在于,包括: 對接收的搜索關(guān)鍵詞進(jìn)行分詞處理,獲得所述搜索關(guān)鍵詞的全部分詞詞語; 獲取所述搜索關(guān)鍵詞的至少一個分詞詞語的領(lǐng)域分?jǐn)?shù),并根據(jù)所述至少一個分詞詞語 的領(lǐng)域分?jǐn)?shù)計(jì)算出所述搜索關(guān)鍵詞的領(lǐng)域分?jǐn)?shù); 分別計(jì)算所述搜索關(guān)鍵詞的領(lǐng)域分?jǐn)?shù)和根據(jù)所述搜索關(guān)鍵詞搜索出的所有文檔的領(lǐng) 域分?jǐn)?shù)的匹配度; 依據(jù)所述匹配度對所述根據(jù)搜索關(guān)鍵詞搜索出的文檔進(jìn)行排序。
7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述方法還包括: 根據(jù)預(yù)先設(shè)立的詞庫對所述搜索關(guān)鍵詞的每個分詞詞語進(jìn)行詞庫識別,如所述分詞詞 語命中所述詞庫中存儲的詞語,則將所述分詞詞語設(shè)定為特征分詞詞語,否則,將所述分詞 詞語設(shè)定為非特征分詞詞語,在分類標(biāo)簽和特征分詞詞語匹配的文檔中根據(jù)非特征分詞詞 語進(jìn)行搜索。
8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述根據(jù)預(yù)先設(shè)立的詞庫對所述搜索關(guān) 鍵詞的每個分詞詞語進(jìn)行詞庫識別,如所述分詞詞語命中所述詞庫中存儲的詞語,則將所 述分詞詞語設(shè)定為特征分詞詞語,否則,將所述分詞詞語設(shè)定為非特征分詞詞語,在分類標(biāo) 簽和特征分詞詞語匹配的文檔中根據(jù)非特征分詞詞語進(jìn)行搜索還包括: 如果特征分詞詞語為預(yù)定義的特征分詞詞語,則將所述分詞詞語從所述搜索關(guān)鍵詞的 分詞詞語中刪除,令所述分?jǐn)?shù)獲取模塊不再對所述刪除的分詞詞語進(jìn)行領(lǐng)域分?jǐn)?shù)獲取。
9. 根據(jù)權(quán)利要求6所述的方法,其特征在于,還包括: 分別對所有文檔的文字描述計(jì)算領(lǐng)域分?jǐn)?shù),并將計(jì)算出的領(lǐng)域分?jǐn)?shù)設(shè)定為相應(yīng)文檔的 領(lǐng)域分?jǐn)?shù)。
10. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述依據(jù)所述匹配度對所述根據(jù)搜索關(guān) 鍵詞搜索出的文檔進(jìn)行排序還包括: 判斷所述搜索關(guān)鍵詞的分詞詞語是否包括排序分詞詞語,如果包括,則按照所述排序 分詞詞語對所述根據(jù)搜索關(guān)鍵詞搜索出的文檔進(jìn)行排序。
【文檔編號】G06F17/27GK104268175SQ201410469923
【公開日】2015年1月7日 申請日期:2014年9月15日 優(yōu)先權(quán)日:2014年9月15日
【發(fā)明者】關(guān)濤, 于立柱 申請人:樂視網(wǎng)信息技術(shù)(北京)股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1