亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

將詞組索引技術應用在互聯(lián)網(wǎng)搜索引擎中的方法

文檔序號:6611717閱讀:262來源:國知局
專利名稱:將詞組索引技術應用在互聯(lián)網(wǎng)搜索引擎中的方法
技術領域
本發(fā)明主要涉及互聯(lián)網(wǎng)搜索引擎的底層關鍵技術一--"文本索引"方式的 創(chuàng)新以及為完善此技術而需要的前端處理的一些創(chuàng)新。本發(fā)明是將詞組索引的 理論實際應用到互聯(lián)網(wǎng)搜索引擎的索引構(gòu)成中。由于詞組索引可以大幅提高檢 索內(nèi)容與被檢索內(nèi)容之間語意的相關性,因而也可以說是為互聯(lián)網(wǎng)搜索引擎提 供的一種智能化的檢索方法。
背景技術
互聯(lián)網(wǎng)搜索引擎(以下簡稱搜索引擎)是搜索網(wǎng)頁及網(wǎng)站的工具。目前的 搜索引擎的基本原理是通過網(wǎng)站或網(wǎng)頁的收集程序,從互聯(lián)網(wǎng)上自動搜集網(wǎng)頁地 址及其文本,然后將搜集到的網(wǎng)頁文本交給索引和檢索系統(tǒng),由計算機掃描文本 中每一個詞,建立以詞為單位的倒排文件,檢索程序根據(jù)用戶給出的檢索詞在文 本中出現(xiàn)的頻率和概率,對包含這些檢索詞的文本進行排序,最后輸出網(wǎng)頁及網(wǎng) 站的排序結(jié)果。
這種搜索方法存在以下幾點嚴重的缺陷
第一,無用的(或者對于檢索詞不相關或相關性低的)搜索結(jié)果過多。這是
因為單一檢索詞在文本中出現(xiàn)的概率和頻率并不完全代表檢索詞與文本內(nèi)容的 相關性的值。
第二,這種搜索引擎的查詢方式實質(zhì)上是基于關鍵詞,對于輸入完整的句子 進行査詢的效果很不理想,這種按關鍵詞出現(xiàn)的頻率或者點擊次數(shù)一類的網(wǎng)頁排 序方法所排出的順序,在輸入句子查詢的情況下,不能很好的體現(xiàn)檢索句與文本 內(nèi)容相關性的高低,見圖l。
第三、'現(xiàn)存的搜索引擎對査詢的關鍵詞匹配是模糊的,這樣有利于得到更 多結(jié)果,但是卻導致很多無用的結(jié)果充斥進來,甚至干擾到較好的結(jié)果的出現(xiàn) 位置,而且這些搜索引擎對問句沒有做特殊處理,效果相對不好,見圖2。
第四、現(xiàn)存的搜索引擎中沒有限制多個關鍵詞同時出現(xiàn)的范圍,所有的詞 組生成工作不限于在當前句內(nèi),有可能出現(xiàn)將不同句子包含的關鍵詞組合到一起的情況,例如我們搜索"中國情人節(jié)的禮物"這句話,使用目前流行的搜 索引擎得出的結(jié)果很可能是像這樣
"…與西方情人節(jié)不同…還具有深厚的中國文化底蘊,…且看我們?yōu)槟銣蕚?的禮物攻略…",完全不能體現(xiàn)査詢語句的整體意思,見圖3。

發(fā)明內(nèi)容
本發(fā)明的目的是在于將詞組索引技術應用在互聯(lián)網(wǎng)的搜索引擎中,可以避 免上述缺陷,使搜索引擎更具人性化,從而獲得更具合理性的結(jié)果(即合乎用 戶搜索意圖的結(jié)果更靠前)。
本發(fā)明將詞組索引技術應用在互聯(lián)網(wǎng)搜索引擎中的方法,包括以下幾個步

步驟一:自動積累網(wǎng)頁信息
首先,通過網(wǎng)頁收集程序,自動地通過超鏈分析,取得互聯(lián)網(wǎng)上大量的原 始網(wǎng)頁文本;在取得這些文本的同時,通過分詞程序?qū)⒃摼W(wǎng)頁文本分解成一個 個獨立的詞語,用詞頻統(tǒng)計程序統(tǒng)計詞頻,將詞頻超過閾值的詞標注為關鍵 詞;然后,利用詞組生成程序,以每個關鍵詞為中心,在其前和后分別附加若 干別的詞,組合成包含詞語數(shù)量不等、搭配不同的一系列詞組,得到用于索引 的詞組集,并按詞組長短排序,連同這些詞組來源的信息,插入或更新到倒排 表的索引文件中;
步驟二、處理用戶的査詢信息
首先,.由搜索引擎的用戶界面接受用戶的査詢信息;由分詞程序?qū)⒂脩舻?查詢信息分解成一個個獨立的詞語,并標識每個詞的詞性;再利用詞組生成程 序,把分詞得到的詞語以每個實詞為中心,在其前和后附加上若干別的詞,組 合成包含詞語數(shù)量不等、搭配不同的一系列詞組,得到用于檢索的詞組集,并 存放到內(nèi)存中。
步驟三、檢索匹配并獲得搜索結(jié)果
首先,由匹配程序?qū)⒂糜跈z索的詞組集中的詞組依次與倒排表的索引文件 中的詞組進行精確匹配,得到匹配的項,將其對應的網(wǎng)頁id檢出,依次存放到 結(jié)果網(wǎng)頁集中;然后,對結(jié)果集中對應相同網(wǎng)頁id的項進行合并,按照與存入 結(jié)果網(wǎng)頁集相同的先后次序遍歷結(jié)果網(wǎng)頁集,取出對應的網(wǎng)頁鏈接以及其它相 關信息,從而獲得搜索結(jié)果。
在搜索引擎分析網(wǎng)頁文本時,把網(wǎng)頁文本切分為若干關鍵詞,并把這些詞 排列成為詞語組合的形式,將其以"詞組-〉網(wǎng)頁idl,網(wǎng)頁id2,…"這樣的倒 排表的形式記錄到磁盤或內(nèi)存中的索引文件里。
在搜索引擎分析網(wǎng)頁文本時,所有的詞組生成工作都限于在當前句內(nèi),不 同句子中包含的關鍵詞不能組合到一起。
在搜索引擎處理用戶的查詢信息時,利用問句模式匹配程序,將用戶的査 詢信息的問句轉(zhuǎn)換成陳述句。
將用于索引和檢索的詞組集,按詞組長短排序,長的在前短的在后。
在獲得索引和檢索的詞組集的過程中,去除一些無意義的組合,所述的無 意義的組合是指虛詞組合。
本發(fā)明在建立索引文件的存儲信息要素上與傳統(tǒng)搜索引擎不同,傳統(tǒng)搜索 引擎的索引文件類似于"關鍵詞(keyword)—〉網(wǎng)頁idl,詞頻,網(wǎng)頁id2…"這樣 的格式,而本發(fā)明把"關鍵詞"這個要素擴展成詞語組合的形式,以"詞組一 〉網(wǎng)頁idl,網(wǎng)頁id2,…"這樣的形式記錄到磁盤或內(nèi)存中的索引文件里。
本發(fā)明在具體建立索引時,令詞語組合的操作局限在一個句子內(nèi),以每個 關鍵詞為中心詞,在其前和后附加上若干別的詞組成詞組,并將索引按詞組長 短進行排序,詞組長的排在前面,短的在后,所有的詞組生成工作都限于在當 前句內(nèi),不出現(xiàn)將不同句子包含的關鍵詞組合到一起的情況。由于對搜索引擎 限制了多個關鍵詞同時出現(xiàn)的范圍,可以避免把本來無關的兩句話,甚至兩段 話的內(nèi)容串到一起,從而產(chǎn)生太多無用信息。
在用戶提交查詢信息時,本發(fā)明利用分詞程序提取出査詢中的實詞(根據(jù) 詞性標注),將這些詞進行所有合理和可能的組合在所有的組合中去除不合 理的組合,由此得到一系列詞組以用于檢索,然后搜索引擎用這些詞組,先精 確匹配其中較長的詞組,即用查詢中生成的較長的詞組,去匹配網(wǎng)頁文本經(jīng)過 處理后生成的索引中相對應的詞組,這樣檢索到的就是包含査詢中關鍵詞多的 網(wǎng)頁文本。
本發(fā)明在搜索引擎處理用戶提交的查詢信息時,先利用問句模式匹配程 序,通過一些簡單的模式匹配將用戶査詢信息的問句轉(zhuǎn)換成陳述句,再交給后 面的步驟處理,使得問句式的查詢能夠以接近原意的陳述句的形式來表述和處 理,使得在能夠保證效果的前提下,査詢更易于處理。
由于本發(fā)明建立在詞組索引基礎上,所以本發(fā)明對查詢內(nèi)容并非精確匹 配,而是對査詢句子進行了處理后生成多個詞組才用于檢索,雖然這樣不一定 能得到和查詢句子完全相同或者包含全部査詢關鍵詞的網(wǎng)頁內(nèi)容,但這樣的好 處是生成多個詞組可以擴大搜索語意的范圍,獲得更多的備選網(wǎng)頁,同時又利 用生成的詞組與索引進行精確匹配,反過來縮小了語意范圍,獲得更為精準的 語意匹配結(jié)果。相較與傳統(tǒng)搜索引擎的關鍵詞模糊匹配,由于關鍵詞組合的詞 組在表達語意方面明顯要強于單個的關鍵詞(自然語言中表達語意的完整程度 的單位從大到小依次是句子〉詞組〉詞語〉單字,目前使用機器直接處理句子并 不理想),使得搜索的結(jié)果更精確的體現(xiàn)查詢者的可能意圖。


圖1為習有搜索引擎査詢"中國的西部大學"獲得的結(jié)果網(wǎng)頁; 圖2為習有搜索引擎查詢"藝妓回憶錄的導演是誰?"獲得的結(jié)果網(wǎng)頁; 圖3為習有搜索引擎查詢"中國情人節(jié)的禮物"獲得的結(jié)果網(wǎng)頁; 圖4為本發(fā)明自動積累網(wǎng)頁信息的流程框圖5為本發(fā)明査詢"藝妓回憶錄的導演是誰?"所獲得的結(jié)果網(wǎng)頁; 圖6為本發(fā)明査詢"中國情人節(jié)的禮物"所獲得的結(jié)果網(wǎng)頁;
具體實施例方式
本發(fā)明主要通過以下步驟實現(xiàn) 步驟一自動積累網(wǎng)頁信息,見圖4:
首先,通過網(wǎng)頁收集程序,如爬蟲(crawler)或蜘蛛(spider)程序,自 動地通過超鏈分析,取得互聯(lián)網(wǎng)上大量的原始網(wǎng)頁文本;在取得這些文本的同 時,通過分詞程序?qū)⒃摼W(wǎng)頁文本分解成一個個獨立的詞語,用詞頻統(tǒng)計程序統(tǒng) 計詞頻,將詞頻超過閾值的詞標注為關鍵詞;然后,利用詞組生成程序,以每 個關鍵詞為中心,在其前和后分別附加若干別的詞,組合成包含詞語數(shù)量不 等、搭配不同的一系列詞組,在組合的過程中,根據(jù)分詞程序標注的詞性,去 除一些無意義的組合,例如一些虛詞組合等,得到用于索引的詞組集,并按詞 組長短排序,長的在前短的在后,連同這些詞組來源的信息,按"詞組一〉網(wǎng) 頁idl,網(wǎng)頁id2,…"的對應表的形式插入或更新到磁盤或內(nèi)存的倒排表的索引 文件中。
步驟二、處理用戶的查詢信息-首先,由搜索引擎的用戶界面接受用戶的查詢信息;由分詞程序?qū)⒂脩舻?查詢信息分解成一個個獨立的詞語(一般對于英文來說,分詞這一歩可以簡單 的按空格劃分),在分詞的過程中同時把每個詞的詞性標識出來,也是由分詞 程序處理;再利用詞組生成程序,把分詞得到的詞語以每個實詞為中心,在其 前和后附加上若干別的詞,組合成包含詞語數(shù)量不等、搭配不同的一系列詞 組,在組合的過程中,根據(jù)分詞程序標注的詞性,去除一些無意義的組合,例 如一些虛詞組合等,得到用于檢索的詞組集,并按詞組長短排序,長的在前短 的在后,存放到內(nèi)存中。
步驟三、檢索匹配并獲得搜索結(jié)果-
首先,由匹配程序?qū)⒂糜跈z索的詞組集中的詞組依次與磁盤或內(nèi)存中的倒 排表的索引文件中的詞組進行精確匹配,得到匹配的項,將其對應的網(wǎng)頁id檢 出,依次存放到結(jié)果網(wǎng)頁集中;然后,對結(jié)果集中對應相同網(wǎng)頁id的項進行合 并,詞組長度按其中出現(xiàn)最長的詞組的長度計,即把這些項歸并到最先匹配得到 的項中;通過按照與存入結(jié)果網(wǎng)頁集相同的先后次序(優(yōu)先匹配長詞組)遍歷 結(jié)果網(wǎng)頁集,取出對應的網(wǎng)頁鏈接以及其它相關信息,反饋給搜索引擎的用戶 界面,將搜索結(jié)果呈現(xiàn)給用戶。
所述的倒排索引表的具體結(jié)構(gòu)為-
倒排索引表的結(jié)構(gòu)是每個詞組對應一個網(wǎng)頁id列表,存儲方式可以靈活使 用,例如可在每個詞組后記錄一個指向?qū)W(wǎng)頁id列表的指針,以這樣的二元 組方式來實現(xiàn)。
詞組字符串
網(wǎng)頁id列表

詞組字符串
指針
網(wǎng)頁id列表
本發(fā)明對用戶査詢信息中的問句進行了一些簡單預處理,將問句轉(zhuǎn)換成了 陳述語序,然后再進行搜索,針對有限的疑問詞,這個很容易做到。
例如為什么太陽是圓的?
太陽是圓的原因 太陽是圓的緣由 太陽是圓的緣故
該如何提高孩子的自理能力?
提高孩子的自理能力方法 提高孩子的自理能力技巧 提高孩子的自理能力注意事項
本發(fā)明的搜索引擎查詢"藝妓回憶錄的導演是誰?"所獲得的結(jié)果網(wǎng)頁, 見圖5,與圖2比較,所得到的結(jié)果內(nèi)容比較符合查詢目的。
目前合法的詞組形式有
1. 名詞+名詞
2. 形容詞+名詞
3. 名詞+動詞
4. 副詞+動詞
5. 動詞+名詞
6. 以上形式詞組的任意組合
本規(guī)則可以被擴充或被刪減,可在具體實現(xiàn)時做進一步細化考慮。
生成詞組方式的示例-
假設正在分析的網(wǎng)頁中有這樣一句話
"北京2008年奧運會的吉祥物正式揭曉儀式" 分詞與詞性標注的結(jié)果
北京/n 2008年/t奧運會/n的/1吉祥物/n正式/a揭曉/v儀式/n 假設正在分析的所獲取的網(wǎng)頁的關鍵詞是"奧運會"(通過詞頻分析可以 得到),那么利用本發(fā)明的方法可以重新組合出的詞組為
2008年奧運會 (將關鍵詞前的詞與關鍵詞組合) 北京2008年奧運會 (將關鍵詞前的詞與關鍵詞組合) 北京奧運會 (將關鍵詞前的詞與關鍵詞組合) 奧運會的吉祥物 (將關鍵詞后的詞與關鍵詞組合)
奧運會的吉祥物正式揭曉
(將關鍵詞后的詞與關鍵詞組合)
奧運會的吉祥物正式揭曉儀式
(將關鍵詞后的詞與關鍵詞組合)
奧運會吉祥物揭曉
(將關鍵詞后的詞與關鍵詞組合)
奧運會吉祥物儀式
(將關鍵詞后的詞與關鍵詞組合)
不可能出現(xiàn)"吉祥物的奧運會" 一類順序顛倒的詞組。 這一個網(wǎng)頁將會以這樣的一些詞組來作為索引,同時本發(fā)明也把用戶輸 入的査詢信息,經(jīng)過分詞和分析生成這樣的一些詞組;然后使用這些詞組來匹 配搜索。因為一個句子可以生成很多短語,所以,本發(fā)明的檢索會進行多次 (也可并發(fā)執(zhí)行),但每一次檢索,都是精確匹配。
另外,之所以在生成詞組時要限制關鍵詞在一句之內(nèi),是為了避免把兩句 話,甚至兩段話的本來無關的內(nèi)容串到一起。下面將舉例說明
例如我們搜索"中國情人節(jié)的禮物"這句話,使用目前流行的搜索引擎 得出的結(jié)果很可能是像這樣
"…與西方情人節(jié)不同…還具有深厚的中國文化底蘊,…且看我們?yōu)槟銣蕚?的禮物攻略…",完全不能體現(xiàn)查詢語句的整體意思。
相反,使用本發(fā)明搜索這句話,得出的結(jié)果一般會像這樣"…中國情人 節(jié)別出心裁的禮物…中國傳統(tǒng)…選好禮物…",與查詢語句的原意的相關性大為 增加,且相關性越好的結(jié)果出現(xiàn)得越靠前,見圖6。
權利要求
1、將詞組索引技術應用在互聯(lián)網(wǎng)搜索引擎中的方法,其特征在于包括以下幾個步驟步驟一自動積累網(wǎng)頁信息首先,通過網(wǎng)頁收集程序,自動地通過超鏈分析,取得互聯(lián)網(wǎng)上大量的原始網(wǎng)頁文本;在取得這些文本的同時,通過分詞程序?qū)⒃摼W(wǎng)頁文本分解成一個個獨立的詞語,用詞頻統(tǒng)計程序統(tǒng)計詞頻,將詞頻超過閾值的詞標注為關鍵詞;然后,利用詞組生成程序,以每個關鍵詞為中心,在其前和后分別附加若干別的詞,組合成包含詞語數(shù)量不等、搭配不同的一系列詞組,得到用于索引的詞組集,并按詞組長短排序,連同這些詞組來源的信息,插入或更新到倒排表的索引文件中;步驟二、處理用戶的查詢信息首先,由搜索引擎的用戶界面接受用戶的查詢信息;由分詞程序?qū)⒂脩舻牟樵冃畔⒎纸獬梢粋€個獨立的詞語,并標識每個詞的詞性;再利用詞組生成程序,把分詞得到的詞語以每個實詞為中心,在其前和后附加上若干別的詞,組合成包含詞語數(shù)量不等、搭配不同的一系列詞組,得到用于檢索的詞組集,并存放到內(nèi)存中。步驟三、檢索匹配并獲得搜索結(jié)果首先,由匹配程序?qū)⒂糜跈z索的詞組集中的詞組依次與倒排表的索引文件中的詞組進行精確匹配,得到匹配的項,將其對應的網(wǎng)頁id檢出,依次存放到結(jié)果網(wǎng)頁集中;然后,對結(jié)果集中對應相同網(wǎng)頁id的項進行合并,按照與存入結(jié)果網(wǎng)頁集相同的先后次序遍歷結(jié)果網(wǎng)頁集,取出對應的網(wǎng)頁鏈接以及其它相關信息,從而獲得搜索結(jié)果。
2、 如權利要求1所述的將詞組索引技術應用在互聯(lián)網(wǎng)搜索引擎中的方法, 其特征在于在搜索引擎分析網(wǎng)頁文本時,把網(wǎng)頁文本切分為若干關鍵詞,并 把這些詞排列成為詞語組合的形式,將其以"詞組-〉網(wǎng)頁idl,網(wǎng)頁id2,…"這樣的倒排表的形式記錄到磁盤或內(nèi)存中的索引文件里。
3、 如權利要求1所述的將詞組索引技術應用在互聯(lián)網(wǎng)搜索引擎中的方法, 其特征在于在搜索引擎分析網(wǎng)頁文本時,所有的詞組生成工作都限于在當前 句內(nèi),不同句子中包含的關鍵詞不能組合到一起。
4、 如權利要求1所述的將詞組索引技術應用在互聯(lián)網(wǎng)搜索引擎中的方法, 其特征在于在搜索引擎處理用戶的査詢信息時,利用問句模式匹配程序,將 用戶的查詢信息的問句轉(zhuǎn)換成陳述句。
5、 如權利要求1所述的將詞組索引技術應用在互聯(lián)網(wǎng)搜索引擎中的方法, 其特征在于將用于索引和檢索的詞組集,按詞組長短排序,長的在前短的在 后。
6、 如權利要求l所述的將詞組索引技術應用在互聯(lián)網(wǎng)搜索引擎中的方法, 其特征在于在獲得索引和檢索的詞組集的過程中,去除一些無意義的組合。
7、 如權利要求6所述的將詞組索引技術應用在互聯(lián)網(wǎng)搜索引擎中的方法,其特征在于所述的無意義的組合是指虛詞組合。
全文摘要
本發(fā)明是將詞組索引技術應用到互聯(lián)網(wǎng)搜索引擎中,把網(wǎng)頁文件中的句子分解成詞語,以每個關鍵詞為中心詞,在其前和后附加上若干別的詞組成索引詞組集,以詞組為單位生成網(wǎng)頁內(nèi)容的索引文件;將用戶提交的查詢信息,利用分詞程序提取出查詢信息中的實詞,將這些詞進行所有合理和可能的組合,得到用于檢索的詞組集;由匹配程序?qū)⒂糜跈z索的詞組集中的詞組依次與索引文件中的詞組進行精確匹配,獲得搜索結(jié)果;由于詞組在表達語意方面要強于單個的詞,使得搜索的結(jié)果更精確的體現(xiàn)查詢者的可能意圖。
文檔編號G06F17/30GK101196898SQ20071014302
公開日2008年6月11日 申請日期2007年8月21日 優(yōu)先權日2007年8月21日
發(fā)明者波 周, 森 張, 潘 張, 戴云川, 胡顯如, 詹天榮, 鄧劍波, 潮 高 申請人:新百麗鞋業(yè)(深圳)有限公司;鄧亞麗
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1