專利名稱:基于關鍵詞解析調度的搜索引擎方法
技術領域:
本發(fā)明涉及網(wǎng)絡領域,特別涉及移動終端網(wǎng)絡中基于關鍵詞解析調度的 搜索引擎方法。
背景技術:
搜索引擎因其能在幾乎無限的網(wǎng)絡資源中搜索到用戶所需要的信息而備 受重視,目前的搜索引擎大都是網(wǎng)頁搜索引擎,它是將網(wǎng)頁作為最小單位, 采用的是鏈接分析的方法為用戶找到需要的信息;其中,太多的無用信息也 會伴隨著用戶需要信息產生出來,影響用戶有用信息的査詢速度和準確性; 而目前的移動終端用戶由于終端顯示屏幕較小,網(wǎng)絡帶寬窄,其信息的搜索 更偏重于行業(yè)性和專業(yè)性;采用傳統(tǒng)的搜索引擎,大量的無用信息影響了移 動終端用戶的信息搜索;申請?zhí)枮?004100266745的中國發(fā)明專利申請公開 了 "一種基于關鍵字搜索的移動互聯(lián)網(wǎng)智能信息搜索引擎",該項專利申請說 明書第3頁第2-5段表達了形成搜索引擎完整的搜索規(guī)則,其過程是要"利 用系統(tǒng)自動分析目標網(wǎng)站結構,采用相應的具有相似布局的html網(wǎng)頁信息, 自動生成內容表達式,并根據(jù)人工決策,生成確切定位的目標網(wǎng)元的內容匹 配表達式,以及通過內容匹配表達式獲得的目標網(wǎng)元,以及目標網(wǎng)元和欄目 分類的映射關系,形成一個網(wǎng)元映射圖,生成一個內容獲取表達式構成搜索 規(guī)則"。說明書第2頁倒數(shù)第1段,第3頁第6段敘述了根據(jù)上述搜索規(guī)則 建立的全文索引信息庫,其中,搜索規(guī)則和全文索引信息庫的建立繁瑣復雜。
該專利關鍵字針對的是搜索引擎的使用,并是基于因特網(wǎng)上無限大的網(wǎng) 絡資源進行搜索,其結果是有大量的不必要的信息影響搜索結果的排序和顯 示效果、影響精確度、部分頁面無法抓取到、用戶對搜索范圍和內容以及體 現(xiàn)的結果無法精確控制、速度慢,消耗大量的硬件資源,無法滿足移動終端 用戶更偏重于行業(yè)性和專業(yè)性信息搜索的需要。
發(fā)明內容
本發(fā)明的目的是對行業(yè)性和專業(yè)性信息搜索而提出的基于關鍵詞解析調 度的搜索引擎方法,本發(fā)明在信息文件索引庫的建立上,釆用了基于關鍵詞 的中文分詞創(chuàng)建含有指紋向量值的文件頁索引,提高了搜索引擎搜索的快速 和準確性。
為了實現(xiàn)上述目的,本發(fā)明的一種基于關鍵詞解析調度的搜索弓I擎方法, 該方法是在網(wǎng)絡服務器中分為三層設置的一種搜索引擎結構下實現(xiàn)的,該搜 索引擎的三層設置結構是
一) 用于輸入搜索信息的通訊層,所述通訊層是一個網(wǎng)絡通信協(xié)議管理包; 該網(wǎng)絡通信協(xié)議管理包含有WAP、 Web、 MMS、 MSN、 SGIP、 CMPP網(wǎng)絡通信協(xié)議;
該管理包將上述協(xié)議進行統(tǒng)一的二次封裝,實現(xiàn)系統(tǒng)內數(shù)據(jù)結構的統(tǒng)一處理;
二) 用于處理搜索信息的解析調度層,該調度解析層包括行業(yè)關鍵詞庫、 行業(yè)上下文關聯(lián)庫、自然語言拆詞解析模塊和調度控制管理模塊;
三) 用于數(shù)據(jù)處理的垂直(分類)查詢數(shù)據(jù)庫層,該數(shù)據(jù)庫層包括均衡負 載服務器、數(shù)據(jù)分類服務器和數(shù)據(jù)索引服務器;其特點是,在所述的數(shù)據(jù)分 類服務器中設有結構化信息結構文件數(shù)據(jù)庫,所述的數(shù)據(jù)索引服務器包含有 用戶內容索引建立接口、用戶內容分詞接口和用戶數(shù)據(jù)搜索接口。
輸入的搜索信息通過網(wǎng)絡通信協(xié)議管理進入處理搜索信息的調度解析層, 在該解析層運用自然語言拆詞解析模塊和調度控制管理模塊找出一個關鍵 詞,在行業(yè)關鍵詞庫或行業(yè)上下文關聯(lián)庫中查找出對應行業(yè)的行業(yè)關鍵詞; 將行業(yè)關鍵詞送入垂直查詢數(shù)據(jù)庫層,運用均衡負載服務器、數(shù)據(jù)分類服務 器和數(shù)據(jù)索引服務器,在結構化信息結構文件數(shù)據(jù)庫中將所需的專業(yè)數(shù)據(jù)返 回到用戶的顯示界面。
該方法包含數(shù)據(jù)庫建立步驟和用戶網(wǎng)頁搜索步驟,其中用戶網(wǎng)頁搜索步驟
為
1. 接收用戶搜索詞,提取基于關鍵詞的中文分詞;
2. 根據(jù)提取的中文分詞在網(wǎng)頁索引中找到文件頁入口;
3. 提取該文件頁內容或網(wǎng)頁摘要到移動終端用戶顯示屏幕;數(shù)據(jù)庫建立步驟為
1. 遍歷所有的URL連接;
2. 從URL連接的網(wǎng)頁中提取文本文件(Html)以及Windows文件格式的文
件;
3. 對網(wǎng)頁文本文件(Html)以及Windows文件格式的文件進行結構化信息 抽取、分類,形成結構化信息結構文件存入存儲器;
4. 提取結構化信息結構文件中基于關鍵詞的中文分詞;其中,關鍵詞是在 詞庫中已建立的單字方式、二元覆蓋方式、地名、名詞性詞組成的詞庫;
5. 文檔排重,產生一個文件指紋向量值,具體步驟為
a,將每個文件頁的中文分詞表示成基于中文分詞的特征向量,使用 TF*IDF公式推算出的值作為每個特征項的權值; b,將特征項按照此權值排序;
c,選取前n個特征項,然后重新按照字符排序(否則找不到對應關系了 ); d,調用MD5算法,將每個特征項串轉化為一個128比特的串,作為該文件 頁的指紋向量值;
6. 創(chuàng)建含有指紋向量值的文件頁索引。 本發(fā)明對比現(xiàn)有技術的優(yōu)點是
1. 在信息庫中將搜索到的信息通過關鍵詞解析分門別類,建立了針對行 業(yè)性和專業(yè)性的文檔或網(wǎng)頁摘要信息數(shù)據(jù)庫,提高了搜索引擎搜索的快速和 準確性;
2. 信息數(shù)據(jù)庫中建立的是一種結構化的數(shù)據(jù)文件頁或摘要文件頁短小精 煉特別適合于移動終端用戶顯示屏幕;
3. 信息數(shù)據(jù)庫中建立的結構化的數(shù)據(jù)文件頁或摘要文件頁短小精煉節(jié)省 了大量的硬件資源或者說擴大了信息的存儲量。
下面結合附圖和實施例對本實用新型作一詳細描述。
圖1基于關鍵詞解析調度的搜索引擎結構示意圖2基于關鍵詞解析調度的搜索引擎方法的用戶網(wǎng)頁搜索步驟流程圖;圖3基于關鍵詞解析調度的搜索引擎方法的數(shù)據(jù)庫建立步驟流程圖。
具體實施方式
實施例1,
參見圖1、圖2和圖3,本發(fā)明用于實現(xiàn)基于關鍵詞解析調度的搜索引擎 方法是根據(jù)在網(wǎng)絡服務器中分為三層設置的一種搜索引擎結構實現(xiàn)的,該搜 索引擎結構包括
一) 用于輸入搜索信息的通訊層1,所述通訊層是一個網(wǎng)絡通信協(xié)議管理
包;該網(wǎng)絡通信協(xié)議管理包含有WAP、 Web、 MMS、 MSN、 SGIP、 CMPP網(wǎng)絡通信 協(xié)議;該管理包將上述協(xié)議進行統(tǒng)一的二次封裝,實現(xiàn)系統(tǒng)內數(shù)據(jù)結構的統(tǒng) 一處理;
二) 用于處理搜索信息的解析調度層2,該調度解析層包括行業(yè)關鍵詞庫、 行業(yè)上下文關聯(lián)庫、自然語言拆詞解析模塊和調度控制管理模塊;
三) 用于數(shù)據(jù)處理的垂直(分類)査詢數(shù)據(jù)庫層3,該數(shù)據(jù)庫層包括均衡 負載服務器、數(shù)據(jù)分類服務器和數(shù)據(jù)索引服務器;其特點是,在所述的數(shù)據(jù) 分類服務器中設有結構化信息結構文件數(shù)據(jù)庫,所述的數(shù)據(jù)索引服務器包含 有用戶內容索引建立接口 、用戶內容分詞接口和用戶數(shù)據(jù)搜索接口 。
輸入的搜索信息通過網(wǎng)絡通信協(xié)議管理進入處理搜索信息的調度解析層, 在該解析層運用自然語言拆詞解析模塊和調度控制管理模塊找出一個關鍵 詞,在行業(yè)關鍵詞庫或行業(yè)上下文關聯(lián)庫中査找出對應行業(yè)的行業(yè)關鍵詞; 將行業(yè)關鍵詞送入垂直査詢數(shù)據(jù)庫層,運用均衡負載服務器、數(shù)據(jù)分類服務 器和數(shù)據(jù)索引服務器,在結構化信息結構文件數(shù)據(jù)庫中將所需的專業(yè)數(shù)據(jù)返 回到用戶的顯示界面。
在用于數(shù)據(jù)處理的垂直査詢數(shù)據(jù)庫層中所設的用戶內容索引建立接口、用 戶內容分詞接口和用戶數(shù)據(jù)搜索接口是公共接口;為第三方的應用提供了方 便,只要按照為用戶提供的專用IP地址,按下列引導詞輸入相應的數(shù)據(jù)就能 為用戶建立專用的搜索引擎,引導詞包括
Indexclass,索引類,提供索引接口;
Keywordclass,關鍵詞類,根據(jù)關鍵詞進行數(shù)據(jù)索引;Pointclass,指向類,重建新的索引; Tcclass,簡體繁體轉換類;
Lucceneclass,索引類,建立索引分布式數(shù)據(jù)索引庫; 以及
Industries keyword class,行業(yè)關鍵詞庫類; Industries context,行業(yè)上下文關聯(lián)庫類;
Natural language word Segmentation and analysis class, 自然語言 拆次解析類。
基于上述搜索引擎結構 一種基于關鍵詞解析調度的搜索引擎方法,該方 法包含數(shù)據(jù)庫建立步驟和用戶網(wǎng)頁搜索步驟,其中用戶網(wǎng)頁搜索步驟為
201. 接收用戶搜索詞,提取基于關鍵詞的中文分詞;
202. 根據(jù)提取的中文分詞在網(wǎng)頁索引中找到文件頁入口;
203. 提取該文件頁內容或網(wǎng)頁摘要到移動終端用戶顯示屏幕;
數(shù)據(jù)庫建立步驟為
301. 遍歷所有的URL連接;
302. 從URL連接的網(wǎng)頁中提取文本文件(Html)以及Windows文件格式的 文件;
303. 對網(wǎng)頁文本文件(Html)以及Windows文件格式的文件進行結構化信 息抽取、分類,形成結構化信息結構文件存入存儲器;
304. 提取結構化信息結構文件中基于關鍵詞的中文分詞;其中,關鍵詞是 在詞庫中已建立的單字方式、二元覆蓋方式、地名、名詞性詞組成的詞庫;
305. 文檔排重,用語義指紋生成法生成指紋(唯一)向量值;
306. 創(chuàng)建含有指紋(唯一)向量值的文件頁索引。 所述的語義指紋生成法生成指紋(唯一)向量值;具體步驟為
a,將每個文件頁的中文分詞表示成基于中文分詞的特征向量,使用 TF*IDF公式推算出的值作為每個特征項的權值; b,將特征項按照此權值排序;
c,選取前n個特征項,然后重新按照字符排序(否則找不到對應關系了 );d,調用MD5算法,將每個特征項串轉化為一個128比特的串,作為該文 件頁的指紋向量值;
所述的提取基于關鍵詞的中文分詞的方法
首先建立關鍵詞提取訓練庫訓練文件(X.txt)和對應的關鍵詞文件 (x. key);
利用TF*IDF公式統(tǒng)計詞頻和詞在所有文檔中出現(xiàn)的總次數(shù); 利用位置信息開始和結束位置的詞往往更可能是關鍵詞; 利用詞性信息關鍵詞往往是名詞或者名詞結尾的詞,而介詞,副詞,動 詞結尾的詞一般不能組成詞組;
利用詞或者字的互信息I(x,y) = 1og2( P(x,y)/ (P(x)P(y))) 需要去除StopWords
利用標點符號《》和""之間的文字,例如"漢芯一號"造假案; 標題中出現(xiàn)的詞往往更重要。
所述數(shù)據(jù)庫建立步驟3,網(wǎng)頁文本文件(Html)以及Windows文件格式的 文件進行結構化信息抽取、分類;其中,網(wǎng)頁文本文件(Html)文件格式的 文件進行結構化信息抽取、分類采用了 Htmlparser文件解析程序庫;網(wǎng)頁 Windows文件格式的文件進行結構化信息抽取、分類采用了其它相應的文件解 析程序庫,例如用PDFBox來解析PDF文件,PDFBox它是一個開源軟件,可以 至lj http :〃sourceforge.net/proj ects/pdfbox/下載;
使用Htmlparser文件解析程序庫可以完成對非規(guī)范的HTML文件解析; HtmlParser主要靠Node、 AbstractNode和Tag來表達Html, Node是形成樹 結構表示Html的基礎,所有的數(shù)據(jù)表示都是接口 Node的實現(xiàn),Node定義了 與頁面樹結構所表達的頁面Page對象,定義了獲取父、子、兄弟節(jié)點的方 法,定義了節(jié)點到對應Html文本的方法,定義了該節(jié)點對應的起止位置,定 義了過濾方法,定義了 Visitor訪問機制。
AbstmctNode是Node的一種具體的類實現(xiàn),起到構成樹形結構的作用, 除了同具體Node相關的accetp方法,toString, toHtml, toPlainTextString方 法以外,AbstractNode實現(xiàn)了大多基本的方法,使得它的子類,不用理會具體的樹操作。
Tag是具體分析的主要內容,Tag分成composite的Tag和不能包含其他 Tag的簡單Tag兩類,其中前者的基類是CompositeTag,其子類包含 Body Tag, Div,F(xiàn)rameSetTag,OptionTag,等27個子類;而簡單Tag有BaseHrefTag、 DoctypeTag,FrameTag , ImageTag , InputTag ,JspTag , MetaTag , ProcessinglnstructionTag這八類。
步驟4中的單字方式、二元覆蓋方式以"咬死獵人的狗"為例; 單字方式(咬)(死)(獵)(人)(的)(狗); 二元覆蓋方式(咬死)(死獵)(獵人)(人的)(的狗); 步驟5中使用TFWDF公式推算出的值作為每個特征項的權值是這樣實現(xiàn) 的KKi,Di=FKi. DiX(Log2N/(NK,。+l))其中,F(xiàn)Ki. 。i為中文分詞Ki在文件Di中出現(xiàn)的
次數(shù),N為文件集總數(shù),NK,D為文件集中至少出現(xiàn)一次的中文分詞Ki的文件數(shù);
步驟5中使用MD5算法,將每個特征項串轉化為一個128比特的串;MD5 (全稱是message-digest algorithm 5)是一個公知的技術,它的作用是讓 大容量信息在用數(shù)字簽名軟件簽署私人密匙前被"壓縮"為一種保密的格 式。它的典型應用是對一段信息(message)產生信息摘要(message-digest), 以防止被篡改。通俗地說MD5碼就是個驗證碼,就像我們的個人身份證一樣, 每個人的都是不一樣的。MD5碼是每個文件的唯一校驗碼(MD5不區(qū)分大小寫, 但由于MD5碼有128位之多,所以任意信息之間具有相同MD5碼的可能性非 常之低,通常被認為是不可能的),憑借此特性常被用于密碼的加密存儲、數(shù) 字簽名及文件完整性驗證等功能。通過MD5驗證即可檢査文件的正確性,例 如可以校驗出下載文件中是否被捆綁有其它第三方軟件或木馬、后門(若是 校驗結果不正確就說明原文件已被人擅自篡改)。本步驟中使用MD5算法,只 是將特征項轉換成唯一編碼串,標識網(wǎng)頁或文件,不是為了加密。
權利要求
1. 基于關鍵詞解析調度的搜索引擎方法,該方法包含數(shù)據(jù)庫建立步驟和用戶網(wǎng)頁搜索步驟,其中用戶網(wǎng)頁搜索步驟為A. 接收用戶搜索詞,解析關鍵詞提取中文分詞;B. 根據(jù)提取的中文分詞在網(wǎng)頁索引中找到文件頁入口;C. 提取該文件頁內容或網(wǎng)頁摘要到移動終端用戶顯示屏幕;其特征在于,所述數(shù)據(jù)庫建立步驟為A. 遍歷所有的URL連接;B. 從URL連接的網(wǎng)頁中提取文本文件(Html)以及Windows文件格式的文件;C. 對網(wǎng)頁文本文件(Html)以及Windows文件格式的文件進行結構化信息抽取、分類,形成結構化信息結構文件存入存儲器;D. 提取結構化信息結構文件中基于關鍵詞的中文分詞;其中,關鍵詞是在詞庫中已建立的單字方式、二元覆蓋方式、地名、名詞性詞組成的詞庫;E. 文檔排重,產生一個文件指紋向量值;具體步驟為a,將每個文件頁的中文分詞表示成基于中文分詞的特征向量,使用TF*IDF公式推算出的值作為每個特征項的權值;b,將特征項按照此權值排序;c,選取前n個特征項,然后重新按照字符排序;d,調用MD5算法,將每個特征項串轉化為一個128比特的串,作為該文件頁的指紋向量值;F. 創(chuàng)建含有指紋向量值的文件頁索引。
2. 根據(jù)權利要求1所述的基于關鍵詞解析調度的搜索引擎方法,其特 征在于,所述數(shù)據(jù)庫建立步驟C,網(wǎng)頁文本文件(Html)文件格式的文件 進行結構化信息抽取、分類采用了 Htmlparser文件解析程序庫。
3. 根據(jù)權利要求1所述的基于關鍵詞解析調度的搜索引擎方法,其特 征在于,所述數(shù)據(jù)庫建立步驟C, Windows文件格式的文件進行結構化信 息抽取、分類采用了 PDFBox來解析PDF文件。
4. 根據(jù)權利要求1所述的基于關鍵詞解析調度的搜索引擎方法,其特 征在于,所述數(shù)據(jù)庫建立步驟E,使用TFWDF公式推算出的值作為每個特 征項的權值的具體方法是KKi,Di= FKi, Dix(Log2N/(NK,D+l)),其中,F(xiàn)Ki, 。i為中 文分詞Ki在文件Di中出現(xiàn)的次數(shù),N為文件集總數(shù),NK,D為文件集中至少出 現(xiàn)一次的中文分詞Ki的文件數(shù)。
全文摘要
本發(fā)明涉及移動終端網(wǎng)絡中基于關鍵詞解析調度的搜索引擎方法。該方法包含數(shù)據(jù)庫建立步驟和用戶網(wǎng)頁搜索步驟,數(shù)據(jù)庫建立步驟為1.遍歷所有的URL連接;2.從URL連接的網(wǎng)頁中提取文本文件;3.文件進行結構化信息抽取存入存儲器;4.提取結構化信息結構文件中基于關鍵詞的中文分詞;5.文檔排重,產生一個文件指紋向量值;6.創(chuàng)建含有指紋向量值的文件頁索引。本發(fā)明對比現(xiàn)有技術的優(yōu)點是1.提高了搜索引擎搜索的快速和準確性;2.數(shù)據(jù)文件頁或摘要文件頁短小精煉特別適合于移動終端用戶顯示屏幕;3.信息數(shù)據(jù)庫中建立的結構化的數(shù)據(jù)文件頁或摘要文件頁短小精煉節(jié)省了大量的硬件資源或者說擴大了信息的存儲量。
文檔編號G06F17/30GK101470752SQ20071030846
公開日2009年7月1日 申請日期2007年12月29日 優(yōu)先權日2007年12月29日
發(fā)明者李治平 申請人:指點通(北京)科技有限公司