一種基于給定數(shù)據(jù)資源的信息檢索方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種基于給定數(shù)據(jù)資源的信息檢索方法及裝置。
【背景技術(shù)】
[0002]隨著信息技術(shù)的飛速發(fā)展,當(dāng)今社會(huì)進(jìn)入了信息爆炸時(shí)代,人們?cè)絹?lái)越多地借助網(wǎng)絡(luò)來(lái)尋找自己需要的信息,因此,檢索成為人們工作、生活不可或缺的一部分。
[0003]人們通常使用搜索引擎來(lái)進(jìn)行檢索,搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶(hù)提供檢索服務(wù),將與用戶(hù)檢索相關(guān)的信息展示給用戶(hù)的系統(tǒng)。
[0004]現(xiàn)有技術(shù)中,搜索引擎在對(duì)信息進(jìn)行組織和處理時(shí),會(huì)直接存儲(chǔ)信息內(nèi)容本身,例如,“北京植物園包括很多展區(qū),如樹(shù)木園、月季園、牡丹園等”,則會(huì)保存文字“北京植物園包括很多展區(qū),如樹(shù)木園、月季園、牡丹園等”,這樣需要大量的存儲(chǔ)空間。并且,在后續(xù)提供檢索服務(wù)時(shí),檢索速度較慢。
【發(fā)明內(nèi)容】
[0005]本發(fā)明提供一種基于給定數(shù)據(jù)資源的信息檢索方法及裝置,用以實(shí)現(xiàn)提高信息檢索的速度和準(zhǔn)確性的目的。
[0006]本發(fā)明提供一種基于給定數(shù)據(jù)資源的信息檢索方法,包括:
[0007]從給定數(shù)據(jù)資源中提取至少一個(gè)資源關(guān)鍵詞;
[0008]在詞典表中查找所述至少一個(gè)資源關(guān)鍵詞各自的標(biāo)識(shí),其中,所述詞典表的數(shù)據(jù)項(xiàng)架構(gòu)包括詞的標(biāo)識(shí)、詞的哈希hash值以及詞本身;
[0009]根據(jù)所述至少一個(gè)資源關(guān)鍵詞各自的標(biāo)識(shí),在詞語(yǔ)關(guān)聯(lián)表中查找各個(gè)資源關(guān)鍵詞對(duì)應(yīng)的關(guān)聯(lián)詞匯的標(biāo)識(shí);
[0010]在所述詞典表中查找所述關(guān)聯(lián)詞匯的標(biāo)識(shí)對(duì)應(yīng)的各個(gè)詞,作為所述給定數(shù)據(jù)資源的關(guān)聯(lián)詞匯。
[0011]在本發(fā)明一實(shí)施例中,所述在詞典表中查找所述至少一個(gè)資源關(guān)鍵詞各自的標(biāo)識(shí),包括:
[0012]計(jì)算所述至少一個(gè)資源關(guān)鍵詞各自的hash值;
[0013]根據(jù)所述至少一個(gè)資源關(guān)鍵詞各自的hash值,在詞典表中查找所述至少一個(gè)資源關(guān)鍵詞各自的標(biāo)識(shí)。
[0014]在本發(fā)明一實(shí)施例中,所述詞語(yǔ)關(guān)聯(lián)表的數(shù)據(jù)項(xiàng)架構(gòu)包括關(guān)聯(lián)的兩個(gè)詞的標(biāo)識(shí)和對(duì)應(yīng)的關(guān)聯(lián)深度值。
[0015]在本發(fā)明一實(shí)施例中,所述根據(jù)所述至少一個(gè)資源關(guān)鍵詞各自的標(biāo)識(shí),在詞語(yǔ)關(guān)聯(lián)表中查找各個(gè)資源關(guān)鍵詞對(duì)應(yīng)的關(guān)聯(lián)詞匯的標(biāo)識(shí),包括:
[0016]根據(jù)所述至少一個(gè)資源關(guān)鍵詞各自的標(biāo)識(shí),從詞語(yǔ)關(guān)聯(lián)表中選擇對(duì)應(yīng)的關(guān)聯(lián)深度值滿足預(yù)設(shè)數(shù)值條件的詞的標(biāo)識(shí),作為各個(gè)資源關(guān)鍵詞對(duì)應(yīng)的關(guān)聯(lián)詞匯的標(biāo)識(shí)。
[0017]在本發(fā)明一實(shí)施例中,所述根據(jù)所述至少一個(gè)資源關(guān)鍵詞各自的標(biāo)識(shí),從詞語(yǔ)關(guān)聯(lián)表中選擇對(duì)應(yīng)的關(guān)聯(lián)深度值滿足預(yù)設(shè)數(shù)值條件的詞的標(biāo)識(shí),包括:
[0018]從詞語(yǔ)關(guān)聯(lián)表中選擇所述至少一個(gè)資源關(guān)鍵詞各自的標(biāo)識(shí)對(duì)應(yīng)的至少一個(gè)數(shù)據(jù)項(xiàng);
[0019]對(duì)所述至少一個(gè)數(shù)據(jù)項(xiàng)的關(guān)聯(lián)深度值進(jìn)行降序排列;
[0020]選取前η個(gè)關(guān)聯(lián)深度值對(duì)應(yīng)的數(shù)據(jù)項(xiàng);
[0021]將所述選取的數(shù)據(jù)項(xiàng)的詞的標(biāo)識(shí)作為滿足預(yù)設(shè)數(shù)值條件的詞的標(biāo)識(shí)。
[0022]本發(fā)明還提供一種基于給定數(shù)據(jù)資源的信息檢索裝置,包括:
[0023]提取模塊,用于從給定數(shù)據(jù)資源中提取至少一個(gè)資源關(guān)鍵詞;
[0024]第一查找模塊,用于在詞典表中查找所述至少一個(gè)資源關(guān)鍵詞各自的標(biāo)識(shí),其中,所述詞典表的數(shù)據(jù)項(xiàng)架構(gòu)包括詞的標(biāo)識(shí)、詞的哈希hash值以及詞本身;
[0025]第二查找模塊,用于根據(jù)所述至少一個(gè)資源關(guān)鍵詞各自的標(biāo)識(shí),在詞語(yǔ)關(guān)聯(lián)表中查找各個(gè)資源關(guān)鍵詞對(duì)應(yīng)的關(guān)聯(lián)詞匯的標(biāo)識(shí);
[0026]第三查找模塊,用于在所述詞典表中查找所述關(guān)聯(lián)詞匯的標(biāo)識(shí)對(duì)應(yīng)的各個(gè)詞,作為所述給定數(shù)據(jù)資源的關(guān)聯(lián)詞匯。
[0027]在本發(fā)明一實(shí)施例中,所述第一查找模塊還包括:
[0028]計(jì)算單元,用于計(jì)算所述至少一個(gè)資源關(guān)鍵詞各自的hash值;
[0029]查找單元,用于根據(jù)所述至少一個(gè)資源關(guān)鍵詞各自的hash值,在詞典表中查找所述至少一個(gè)資源關(guān)鍵詞各自的標(biāo)識(shí)。
[0030]在本發(fā)明一實(shí)施例中,所述詞語(yǔ)關(guān)聯(lián)表的數(shù)據(jù)項(xiàng)架構(gòu)包括關(guān)聯(lián)的兩個(gè)詞的標(biāo)識(shí)和對(duì)應(yīng)的關(guān)聯(lián)深度值。
[0031]在本發(fā)明一實(shí)施例中,所述第二查找模塊還用于:
[0032]根據(jù)所述至少一個(gè)資源關(guān)鍵詞各自的標(biāo)識(shí),從詞語(yǔ)關(guān)聯(lián)表中選擇對(duì)應(yīng)的關(guān)聯(lián)深度值滿足預(yù)設(shè)數(shù)值條件的詞的標(biāo)識(shí),作為各個(gè)資源關(guān)鍵詞對(duì)應(yīng)的關(guān)聯(lián)詞匯的標(biāo)識(shí)。
[0033]在本發(fā)明一實(shí)施例中,所述第二查找模塊還用于:
[0034]從詞語(yǔ)關(guān)聯(lián)表中選擇所述至少一個(gè)資源關(guān)鍵詞各自的標(biāo)識(shí)對(duì)應(yīng)的至少一個(gè)數(shù)據(jù)項(xiàng);
[0035]對(duì)所述至少一個(gè)數(shù)據(jù)項(xiàng)的關(guān)聯(lián)深度值進(jìn)行降序排列;
[0036]選取前η個(gè)關(guān)聯(lián)深度值對(duì)應(yīng)的數(shù)據(jù)項(xiàng);
[0037]將所述選取的數(shù)據(jù)項(xiàng)的詞的標(biāo)識(shí)作為滿足預(yù)設(shè)數(shù)值條件的詞的標(biāo)識(shí)。
[0038]本發(fā)明實(shí)施例的一些有益效果可以包括:
[0039]本發(fā)明實(shí)施例中,從給定數(shù)據(jù)資源中提取至少一個(gè)資源關(guān)鍵詞,進(jìn)而在詞典表中查找至少一個(gè)資源關(guān)鍵詞各自的標(biāo)識(shí),隨后根據(jù)至少一個(gè)資源關(guān)鍵詞各自的標(biāo)識(shí),在詞語(yǔ)關(guān)聯(lián)表中查找各個(gè)資源關(guān)鍵詞對(duì)應(yīng)的關(guān)聯(lián)詞匯的標(biāo)識(shí),最后在詞典表中查找關(guān)聯(lián)詞匯的標(biāo)識(shí)對(duì)應(yīng)的各個(gè)詞,作為給定數(shù)據(jù)資源的關(guān)聯(lián)詞匯。由此可見(jiàn),本發(fā)明利用資源關(guān)鍵詞各自的標(biāo)識(shí)去查找對(duì)應(yīng)的關(guān)聯(lián)詞匯,相比于現(xiàn)有技術(shù)中直接匹配文字本身,能夠提高查找速度。并且,本發(fā)明的詞語(yǔ)關(guān)聯(lián)表中記錄了關(guān)聯(lián)的詞語(yǔ),在詞語(yǔ)關(guān)聯(lián)表中查找各個(gè)資源關(guān)鍵詞對(duì)應(yīng)的關(guān)聯(lián)詞匯提高了查找結(jié)果的準(zhǔn)確性。
[0040]本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書(shū)中闡述,并且,部分地從說(shuō)明書(shū)中變得顯而易見(jiàn),或者通過(guò)實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過(guò)在所寫(xiě)的說(shuō)明書(shū)、權(quán)利要求書(shū)、以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。
[0041]下面通過(guò)附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
【附圖說(shuō)明】
[0042]附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,并且構(gòu)成說(shuō)明書(shū)的一部分,與本發(fā)明的實(shí)施例一起用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的限制。在附圖中:
[0043]圖1為本發(fā)明一實(shí)施例中基于給定數(shù)據(jù)資源的信息檢索方法的流程圖;
[0044]圖2為本發(fā)明一實(shí)施例提供的詞典表的結(jié)構(gòu)字段示意圖;
[0045]圖3為本發(fā)明一實(shí)施例中步驟S13的流程圖;
[0046]圖4為本發(fā)明一實(shí)施例提供的詞語(yǔ)關(guān)聯(lián)表的結(jié)構(gòu)字段示意圖;
[0047]圖5為本發(fā)明一實(shí)施例提供的詞典數(shù)據(jù)表的結(jié)構(gòu)字段示意圖;
[0048]圖6為本發(fā)明一實(shí)施例中基于給定數(shù)據(jù)資源的信息檢索裝置的結(jié)構(gòu)示意圖;以及
[0049]圖7為本發(fā)明一實(shí)施例中第一查找模塊62的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0050]以下結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行說(shuō)明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實(shí)施例僅用于說(shuō)明和解釋本發(fā)明,并不用于限定本發(fā)明。
[0051]圖1所示為本發(fā)明一實(shí)施例中基于給定數(shù)據(jù)資源的信息檢索方法的流程圖,該方法包括以下步驟S11-S14:
[0052]步驟S11,從給定數(shù)據(jù)資源中提取至少一個(gè)資源關(guān)鍵詞。
[0053]該步驟中,可以根據(jù)給定數(shù)據(jù)資源的ID,得到對(duì)應(yīng)資源的原始數(shù)據(jù),從而得到資源關(guān)鍵詞?;蛘撸瑢?duì)給定數(shù)據(jù)資源進(jìn)行分詞處理,提取至少一個(gè)資源關(guān)鍵詞。
[0054]步驟S12,在詞典表中查找至少一個(gè)資源關(guān)鍵詞各自的標(biāo)識(shí),其中,詞典表的數(shù)據(jù)項(xiàng)架構(gòu)包括詞的標(biāo)識(shí)、詞的hash值以及詞本身。
[0