專利名稱:自助式智能垂直搜索方法
技術領域:
本發(fā)明涉及一種應用于數(shù)字網(wǎng)絡的搜索領域,特別是一種自助式智能垂直搜索方法。
技術背景目前,搜索引擎技術的廣泛應用使得用戶能夠輕松、便捷地獲得希望獲得的信息。但是,現(xiàn)有搜索引 擎和搜索技術也存在著缺點和不足1、 網(wǎng)絡存在的海量信息,也使得利用關鍵字搜索技術的搜索引擎返回的搜索結果數(shù)量具大,其中非 常多的信息其實對用戶而言是毫無用處的,用戶不得不在這些龐大的信息集中尋找他們需要的信息。2、 現(xiàn)有的搜索技術不能主動地學習用戶的使用偏好和習慣,從而使得搜索的結果更加合乎用戶的"口 味",而是完全由用戶自己來判斷搜索結果對其的價值。3、 如今的搜索引擎不能反映用戶對搜索結果的評價,也不能將這個主觀的評價融入搜索引擎中,從而修正搜索的過程,使得搜索結果更為精準。4、 大多數(shù)的功能執(zhí)行由服務器來進行,現(xiàn)有的通用搜索引擎不能有效利用用戶端自身的數(shù)字終端硬 件資源,使得服務器的壓力過重,從而不能高效地執(zhí)行功能程序,造成大量投資購置服務器硬件。 發(fā)明內容本發(fā)明的目的正是為了克服上述缺點,而提供一種自助式智能垂直搜索方法,更具體的說,是一種用 戶主動干預搜索機制、垂直深化搜索結果的自助式智能搜索方法、系統(tǒng)和計算機程序。本發(fā)明解決其技術問題采用的技術方案。這種自助式智能垂直搜索方法,包括如下步驟1. 1)、利用存儲在客戶端和服務器端的用戶cookies文件、注冊信息、歷史搜索信息以及定制的關 注模塊進行用戶偏好學習,并將這個用戶偏好建立為用戶統(tǒng)計模型實時、動態(tài)地存儲到搜索引擎數(shù)據(jù)庫中;1. 2)、利用關聯(lián)句/詞庫對用戶輸入的搜索語句進行高速中文分詞,并生成一個關鍵句/詞集文件, 該文件包含了進行語義分析后的所有相關、相似的關鍵句和關鍵詞,對用戶歷史搜索信息進行統(tǒng)計學習, 得出在用戶的搜索習慣中與這些關鍵句/詞集相關、相似的關鍵句/詞,通過高速中文分詞和用戶搜索習慣 學習,得出一個最終的關鍵句/詞集文件;1. 3)、搜索引擎通過網(wǎng)絡數(shù)據(jù)庫搜索所有與這些慣性關鍵句/詞相關的信息,同時,將這些搜索結果 與用戶統(tǒng)計模型進行匹配,在這些搜索結果中搜索其關鍵句/詞符合用戶偏好的信息,最終,將符合用戶 偏好的搜索結果返回給用戶。本方法可以將用戶對搜索結果的評價反映出來,據(jù)此來修正機器學習的過程,并同時修正用戶統(tǒng)計模型。本方法中用戶可以定制感興趣的內容和信息、表格化搜索結果以及即時通訊。 本發(fā)明有益的效果是1、用戶可以從龐大的信息集中尋找他們需要的信息。2、 該方法能主動地學習用戶的使用偏好和習慣,從而使得搜索的結果更加合乎用戶的"口味",而是 完全由用戶自己來判斷搜索結果對其的價值。3、 能反映用戶對搜索結果的評價,也能將這個主觀的評價融入搜索引擎中,從而修正搜索的過程, 使得搜索結果更為精準。4、 需要的硬件資源比google、百度等通用搜索引擎要多,能有效利用用戶自身數(shù)字終端的硬件資源, 從而大大緩解服務器端的壓力。
圖1實施例中本發(fā)明方法得以實現(xiàn)的系統(tǒng)框圖;圖2實施例中實現(xiàn)本方法的用戶評價機制和系統(tǒng)學習機制等的系統(tǒng)流程圖;圖3實施例中的關聯(lián)詞庫數(shù)據(jù)結構圖; 圖4實施例中的專利信息數(shù)據(jù)結構圖; 圖5實施例中的商機信息數(shù)據(jù)結構圖; 圖6實施例中的公司信息數(shù)據(jù)結構圖; 圖7實施例中的用戶統(tǒng)計模型數(shù)據(jù)結構圖; 圖8網(wǎng)頁的專利信息搜索的用戶界面截圖; 圖9網(wǎng)頁的商機信息搜索的用戶界面截圖; 圖10網(wǎng)頁的公司信息搜索的用戶界面截圖。
具體實施方式
下面結合附圖和實施例對本發(fā)明作進一步介紹為了更好地闡述本發(fā)明方法和系統(tǒng)的機制,首先對以下名詞做如下解釋 用戶帶著某種搜索信息的目的使用本發(fā)明所述系統(tǒng)的使用者。用戶干預意指用戶通過某種干預程序模塊,如用戶評價體系,來修正系統(tǒng)機器學習中出現(xiàn)的偏差, 不僅能提高機器學習的準確性,同時也使得搜索的結果更精確。垂直搜索正如字面意義解釋的那樣,垂直搜索指的是搜索結果的深化、精確化,而這種深化指的是 更貼近用戶的搜索目的和偏好,所以,它的搜索基礎是用戶的統(tǒng)計模型和整個網(wǎng)絡數(shù)據(jù)庫,而非前一次搜 索的結果,這就使得本發(fā)明方法和系統(tǒng)和百度、gOOgle等目前比較知名的搜索引擎有著不同之處。對本描述來說,在附圖的任一個或多個中引用具有相同標號的步驟或特征的情況下,這些步驟或特征 具有基本上相同的功能或操作。圖1示出的是示例性實施例中自助式智能垂直搜索方法的系統(tǒng)框圖。該系統(tǒng)包括客戶端系統(tǒng)I 100, 客戶端系統(tǒng)IUIO,數(shù)字網(wǎng)絡120,外部數(shù)據(jù)源140,服務器端系統(tǒng)130,數(shù)據(jù)庫記錄150以及應用程序160。 卜面結合圖l對各個部分進行詳細地說明??蛻舳讼到y(tǒng)I 100和客戶端系統(tǒng)IIllO是兩種不同形式的客戶端系統(tǒng),而客戶端系統(tǒng)和服務器端系統(tǒng) 在功能組成上可以認為都是一種客戶機系統(tǒng)。客戶機系統(tǒng)本發(fā)明所述的客戶機系統(tǒng)都可以通過數(shù)字終端系統(tǒng)來實現(xiàn),用于執(zhí)行本發(fā)明所述處理過 程的應用程序,但并不僅限于此。客戶機系統(tǒng)可以是數(shù)字終端或是連接到數(shù)字終端的終端。 一般地,為了 實現(xiàn)本發(fā)明所述方法和系統(tǒng),在本發(fā)明中所指的數(shù)字終端至少需要包括顯示裝置、音頻輸入和輸出裝置、 用戶輸入單元、存儲器以及CPU,并且被認為是可以執(zhí)行能夠實現(xiàn)本發(fā)明所述方法和系統(tǒng)的應用程序,如 網(wǎng)絡瀏覽程序Internet Explorer。可以理解地,該客戶機系統(tǒng)并不僅限于數(shù)字終端系統(tǒng),也可以是手機等其他設備,該領域的技術人員 應該能很容易地理解這一點。顯示裝置可以是一個監(jiān)視器,如常規(guī)的CRT和LED,或其他任何被安排為顯示信息內容的裝置。音頻輸入輸出裝置可以是耳機、麥克風、話筒等等將音頻數(shù)據(jù)輸入或輸出計算機的裝置。當然,音 頻輸入和輸出裝置可以融合為一體,如帶有麥克風的耳機。用戶輸入單元可以是鍵盤、鼠標等等,輸入單元可以配備光標控制鍵,如向左鍵、向右鍵、向上鍵和向下鍵。當然,顯示裝置和用戶輸入單元可以融合為一體,如觸摸屏。存儲器該存儲器可以理解為存儲由CPU執(zhí)行能夠實現(xiàn)本發(fā)明所述方法的應用程序,也可以存儲文檔,例如常規(guī)隨機訪問存儲器(RAM)。CPU:該CPU可以是通用處理器單元,用以訪問存儲器中的文檔,以進行搜索,也可以是一個單獨的通信單元,如調制解調器,這個通信單元的作用是從外部獲取文檔??蛻舳讼到y(tǒng)I 100:客戶端系統(tǒng)I代表的是一種訪問網(wǎng)絡120與服務器端系統(tǒng)130進行通信活動的客 戶端組成方式。它進行通信的目的在于向服務器端系統(tǒng)130請求搜索信息??蛻舳讼到y(tǒng)I包括了通過本地 網(wǎng)絡103連接的組群1和組群2,組群1和組群2同樣是兩個不同的客戶機系統(tǒng)。組群1和組群2可以分 布在同一個或不同的本地網(wǎng)絡內??蛻魴C系統(tǒng)IOI、客戶機系統(tǒng)102通過本地網(wǎng)絡103聯(lián)結為客戶端系統(tǒng) I 組群可以是通過個人、部門、商品、子公司、合作伙伴或其他方式進行聯(lián)合的集合,也可以代表為 一個行業(yè),如金融業(yè)、制造業(yè)。本地網(wǎng)絡103:包括限制在有限地理區(qū)域的局域網(wǎng)LAN,以及不受限于有限地理區(qū)域的廣域網(wǎng)WAN和 城域網(wǎng)MAN??蛻舳讼到y(tǒng)niio:與客戶端系統(tǒng)i不同的是,客戶端系統(tǒng)n代表的是另一種作為一個可以通過網(wǎng)絡120與服務器端系統(tǒng)130進行通信活動的客戶端形式??蛻舳讼到y(tǒng)I代表的是一個單獨的客戶機系統(tǒng)110。可以理解地,在另一個實施例中,可能包含客戶端系統(tǒng)I和客戶端系統(tǒng)II的其中一種或全部客戶端系 統(tǒng)形式,但客戶端系統(tǒng)的組合形式不影響本發(fā)明所述方法的實現(xiàn)。數(shù)字網(wǎng)絡120:有線的或無線的數(shù)字網(wǎng)絡信息或信號的傳輸網(wǎng)絡,用來傳輸數(shù)字網(wǎng)絡的信息。可以理 解為但不僅限于局域網(wǎng)LAN、廣域網(wǎng)WAN、城域網(wǎng)MAN、虛擬專用網(wǎng)VPN和因特網(wǎng)。客戶端系統(tǒng)I和客戶端 系統(tǒng)II以及其他網(wǎng)絡終端實體可以通過任何一種形式的網(wǎng)絡連接到服務器端系統(tǒng)130,但它們不一定是通 過同一個網(wǎng)絡連接到服務器端系統(tǒng)130上的。服務器端系統(tǒng)130:服務器端系統(tǒng)通過一個或多個服務器來實現(xiàn),可以是數(shù)據(jù)庫服務器131、網(wǎng)絡服
務器132、應用程序服務器133的其中一個或多個服務器聯(lián)合,也可以是一個服務器中包含了其中一種或 多種服務器的功能。服務器用于響應存儲在服務器上的計算機程序操作。數(shù)據(jù)庫服務器131:存儲數(shù)據(jù)庫記錄150的所有電子信息并執(zhí)行對數(shù)據(jù)庫記錄150的訪問。 數(shù)據(jù)庫記錄150:存儲與服務器端系統(tǒng)130有關的所有用戶或客戶機系統(tǒng)的各種信息內容和數(shù)據(jù),如關聯(lián)詞庫151、搜索結果152、用戶統(tǒng)計模型153。這些信息內容和數(shù)據(jù)包括圖3、圖4-1、圖4-2、圖4-3和圖5所示出的示例性實施例的數(shù)據(jù)庫記錄所包含的字段。圖3說明了關聯(lián)詞庫151結構的一個示例,它包含了多個字段。其中相似的本地句詞集310代表了某 個關鍵句/詞的所有類似句/詞的集合,這些類似句/詞是存儲在數(shù)據(jù)庫服務器131中的。相似的外部句詞 集320代表了該關鍵句/詞的所有類似句/詞的集合,這些類似句/詞是存儲在連接在數(shù)字網(wǎng)絡120上的外 部數(shù)據(jù)源140中的,服務器端系統(tǒng)130在需要時可以通過數(shù)字網(wǎng)絡120向外部數(shù)據(jù)源140請求這些關鍵句 /詞并存儲到本地數(shù)據(jù)庫服務器131中。相關的本地句詞集330代表了該關鍵句/詞的所有相關句/詞的集 合,這些相關句/詞是存儲在數(shù)據(jù)庫服務器131中的。相關的外部句/詞集340代表了該關鍵句/詞的所有 相關句/詞的集合,這些相關句/詞是存儲在外部數(shù)據(jù)源140中的,服務器端系統(tǒng)130在需要時可以通過數(shù) 字網(wǎng)絡120向外部數(shù)據(jù)源140請求這些關鍵句/詞并存儲到本地數(shù)據(jù)庫服務器131中。相似的用戶歷史關 鍵句詞集350是通過用戶歷史搜索結果統(tǒng)計得來的關于某個用戶的該關鍵句/詞的相似句/詞集,這些關鍵 句/詞具有特定的用戶特征,為某個用戶專有,服務器端系統(tǒng)130對某個用戶的歷史搜索結果和評價信息 進行統(tǒng)計后得出該句詞集,在該用戶登陸系統(tǒng)進行搜索時,服務器端系統(tǒng)130自動調用該句詞集加入到這 個關鍵句/詞的關聯(lián)詞庫中。相關的用戶歷史關鍵句詞集360是通過用戶歷史搜索結果統(tǒng)計得來的關于某 個用戶的該關鍵句/詞的相關句詞集,與上述相似的ffl戶歷史關鍵句詞集350類似地,在某個用戶登陸系 統(tǒng)進行搜索時,服務器端系統(tǒng)130自動調用該句詞集加入到這個關鍵句/詞的關聯(lián)詞庫中。相似在本發(fā)明中的"相似"指的是這樣一種情況, 一個關鍵句/詞有很多其它不同的關鍵句/詞與其 意義相近,例如,"電腦"的相似關鍵詞有"計算機"、"c咖puter"、 "PC機"等,其中"計算機"可能是 根據(jù)用戶的歷史搜索結果統(tǒng)計得出的相似關鍵詞。相關在本發(fā)明中的"相關"指的是這樣一種情況, 一個關鍵句/詞有很多其它不同的關鍵句/詞與其 有著緊密地聯(lián)系,該聯(lián)系有著特定的時代和歷史特征,可以隨著時代潮流的改變而改變,例如,"電腦" 的相關關鍵詞有"筆記本"、"鍵盤"、"鼠標"、"U盤"、"MP3"等,其中"MP3"可能就是根據(jù)用戶的歷史 搜索結果統(tǒng)計得出的相關關鍵詞。圖4、圖5、圖6是搜索結果152的數(shù)據(jù)結構的三個示例。本發(fā)明的一個示例性實施例中,系統(tǒng)主要 針對三個內容的搜索專利、商機以及公司。其中圖4展示的是專利信息數(shù)據(jù)的構成,專利信息數(shù)據(jù)構成410包括專利編號411、專利描述412、 專利概要413、專利全文414、發(fā)布時間415、發(fā)明人416、專利類型417以及所屬公司編號418。專利編 號411表示的是專利信息的唯一編號,便于系統(tǒng)檢索并調用。專利描述412即為該專利的名稱。專利概要 413對服務器端系統(tǒng)和用戶而言,其實起到一個接口的作用,它是靜態(tài)的一個數(shù)據(jù),和專利的其他信息一 樣,被靜態(tài)地存儲在數(shù)據(jù)庫服務器中,用戶可以通過專利的概要了解這個專利是否對其有用、和他的搜索
目的相關;另一方面,服務器端系統(tǒng)也是通過專利概要413中的關鍵句/詞而非專利全文414中的關鍵句/ 詞進行搜索、匹配以及調用,所以,這也使得搜索的結果更貼近用戶的目的;而通過這種途徑所獲得的搜 索結果的顯示,也并非如百度和google —樣,只是顯示包含關鍵詞的全文節(jié)選,而是專利的描述和其他 信息,只有當用戶輸入單元如鼠標移動到專利描述412上,才會顯示專利概要413。專利全文414指的是 專利的全部說明文件。發(fā)布時間415是該專利在該網(wǎng)站發(fā)布即存儲的時間,而非專利的公布時間。發(fā)明人 416是該專利的發(fā)明者。專利類型編號417代表該專利所屬的類型,分為實用新型專利、外觀專利和發(fā)明 專利,和專利類型屬性表相關聯(lián)。所屬公司編號418是指擁有該專利的公司的唯一編號。類似地,圖5展示的是商機信息數(shù)據(jù)的構成,本發(fā)明所指的商機是商業(yè)機會的簡稱,通過商機,用戶 可以找到與其他公司或個人合作的方式。商機信息數(shù)據(jù)構成420包括商機編號421、商機描述422、商機 概要423、商機具體說明424、商機類型編號425、有效時間426以及所屬公司編號427。商機編號421表 示的是商機信息的唯一編號,便于系統(tǒng)檢索并調用。商機描述422即為該商機的名稱。與專利概要類似地, 商機概要423對服務器端系統(tǒng)和用戶而言,起到一個接口的作用,它包含了產品信息、公司信息、供求信 息以及公司的聯(lián)系方式。 一方面,用戶可以通過商機概要423 了解這個商機是否對其有用、和他的搜索目 的相關;另一方面,服務器端系統(tǒng)也是通過商機概要423中的關鍵句/詞進行搜索、匹配以及調用。只有 當用戶輸入單元如鼠標移動到商機描述422上,才會顯示商機概要423。商機具體說明424指的是商機的 具體說明。商機類型編號425將商機所屬的類別歸類,如求購和出售,和商機類型屬性表相關聯(lián)。有效時 間426指的是該商機能夠產生價值的時間, 一旦超過這個時間期限,這個商機很有可能就消失了。所屬公 司編號427是指擁有該商機的公司的唯一編號。類似地,圖6展示的是公司信息數(shù)據(jù)的構成。公司信息數(shù)據(jù)構成430包括公司編號431、公司描述432、 公司信息概要433、公司簡介434、公司具體信息435、公司類型編號436、成立時間437、注冊資本438、 注冊日期439、員工人數(shù)440、年營業(yè)額441、企業(yè)所有形式編號442、出口率443、外國人投資比率444、 公司網(wǎng)址445、公司email446、求購類別編號447、銷售類別編號448、聯(lián)系人449、公司電話號碼450、 傳真號碼451、公司聯(lián)系地址452以及郵政編碼453。公司編號431表示的是公司的唯一編號,便于系統(tǒng) 檢索并調用。公司描述432即為該公司的名稱。與專利概要類似地,公司信息概要433對服務器端系統(tǒng)和 用戶而言,起到一個接口的作用。 一方面,用戶可以通過公司信息概要433 了解這個商機是否對其有用、 和他的搜索目的相關;另一方面,服務器端系統(tǒng)也是通過公司信息概要433中的關鍵句/詞進行搜索、匹 配以及調用。只有當用戶輸入單元如鼠標移動到公司描述432上,才會顯示公司信息概要433。公司簡介 434是公司信息概要433的一部分,用以簡單地介紹公司情況。公司具體信息435指的是公司的具體信息。 公司類型編號436與公司類型屬性表相關聯(lián),將公司所屬的類別歸類,如生產型、貿易型、服務型、政府 和其他機構等。成立時間437指的是該公司進行工商登記及稅務登記時申報的公司成立時間。注冊資本438 指的是公司這注冊時工商登記時的資產總額。注冊日期439是該公司注冊為系統(tǒng)用戶的日期。員工人數(shù)440 是該公司的員工人數(shù)。年營業(yè)額441是指上一年的營業(yè)總額。企業(yè)所有形式442表示企業(yè)的所有制形式, 如國營、私營、有限責任制。出口率443是指公司的出口產品占公司總產品數(shù)量的比率。外國人投資比率 444是指外國人在公司的投資額占公司資產總額的比率。公司網(wǎng)址445是該公司的網(wǎng)站網(wǎng)址。公司emai1446 是指公司對外聯(lián)系的電子郵件地址,方便外界進行業(yè)務咨詢。求購類別編號447是指該公司求購產品的類 別,如數(shù)字終端周邊等,和產品類別屬性表相關聯(lián)。銷售類別編號448是指該公司銷售的產品類別,如數(shù) 碼設備等,和產品類別屬性表相關聯(lián)。聯(lián)系人449是該公司對外聯(lián)系的人員名稱。公司電話號碼450是該 公司的電話號碼。傳真號碼451是該公司的傳真號碼。公司聯(lián)系地址452是指該公司的聯(lián)系地址。郵政編 碼453是該公司聯(lián)系地址的郵政編碼。專利信息數(shù)據(jù)410、商機信息420以及公司信息430通過公司編號431進行關聯(lián),便于系統(tǒng)在搜索任 何一個內容的結果時,返回給用戶的不僅僅是用戶想要搜索的內容,同時也把同一個公司的相關專利、商 機以及公司信息返回給用戶,使得用戶能找到最貼近其搜索目的的搜索結果并激發(fā)用戶的潛在興趣。圖7示出用戶統(tǒng)計模型的數(shù)據(jù)構成。用戶統(tǒng)計模型包含的數(shù)據(jù)有用戶編號510、用戶名520、其他 注冊信息530、歷史搜索信息540、歷史關鍵句詞集550、關注模塊560以及客戶端cookies文件。用戶編 號510代表的是該用戶信息存儲在數(shù)據(jù)庫中的唯一編號,便于服務器端系統(tǒng)130對用戶模型的更新和調用。 用戶名是用戶自行提交的,作為用戶登陸搜索系統(tǒng)的身份驗證資料。其他注冊信息530是用戶在注冊為搜 索系統(tǒng)注冊用戶時除了用戶名之外的其他信息,如登陸密碼、所屬行業(yè)、公司名稱等。歷史搜索信息540 是用戶注冊之后進行搜索的搜索語句和搜索結果的集合,服務器端系統(tǒng)130利用歷史搜索信息540來形成 歷史關鍵句詞集550,是系統(tǒng)進行偏好學習的重要根據(jù)。歷史關鍵句詞集550是由歷史搜索信息540形成 的,代表在用戶的搜索習慣中,用戶認為的與某個關鍵句/詞相似、相關的關鍵句/詞是哪些,這些關鍵句 /詞匯集成一個句詞集,形成該用戶專屬的某個關鍵句/詞的關鍵句詞集,用戶搜索過的關鍵句/詞的關鍵 句/詞集存儲在該用戶的統(tǒng)計模型中,形成用戶的歷史關鍵句詞集550。關注模塊是由用戶自行定制的感興 趣的想要搜索的內容,可以是特定的行業(yè),如金融業(yè)、服務業(yè),也可以是特定的信息語言,如英語、日語, 亦可以是特定的地理區(qū)域,如大陸、港澳臺。關注模塊560同樣是用戶偏好學習的重要依據(jù)??蛻舳薱ookies 文件570是存儲在客戶端的一些網(wǎng)頁信息,如用戶名和網(wǎng)址,當用戶沒有登陸系統(tǒng)而進行搜索時,客戶端 cookies文件570是用戶偏好學習的唯一依據(jù),而當用戶登陸系統(tǒng)爾后進行搜索時,客戶端cookies文件 570和用戶統(tǒng)計模型的其他數(shù)據(jù)一起,作為用戶偏好學習的依據(jù)。為了更好地理解圖7示出的數(shù)據(jù)結構,下面對客戶端cookies文件570做一個更為詳細的說明。cookies 亦稱cookie。 cookies是一種能夠讓網(wǎng)站服務器把少量數(shù)據(jù)儲存到客戶端的硬盤或內存,或是從客戶端的 硬盤讀取數(shù)據(jù)的一種技術。cookies是當某個用戶瀏覽某網(wǎng)站時,由網(wǎng)絡服務器置于用戶硬盤上的一個非 常小的文本文件,它可以記錄用戶的用戶名、密碼、瀏覽過的網(wǎng)頁、停留的時間等信息。當用戶再次來到 該網(wǎng)站時,網(wǎng)站通過讀取cookies,得知用戶的相關信息,就可以做出相應的動作,如在頁面顯示歡迎用 戶的標語,或者讓用戶不用輸入用戶名、密碼就直接登錄等等。在本發(fā)明的實施例中,不單獨把客戶端 cookies文件570作為用戶統(tǒng)計模型的唯一數(shù)據(jù),而把客戶端cookies文件570和用戶統(tǒng)計模型153中的 其他數(shù)據(jù)一起作為用戶偏好學習的依據(jù)的另一個原因是,可能出現(xiàn)多人共用一臺數(shù)字終端、臨時文件夾的 刪除的情況,使得cookies文件不能準確反映情況甚至丟失,所以,必須把其他數(shù)據(jù)引入用戶統(tǒng)計模型153, 使得偏好學習的過程更為準確。下面再回到圖1。網(wǎng)絡服務器132:與像客戶端系統(tǒng)I IOO和客戶端系統(tǒng)IIIIO這樣的客戶端系統(tǒng)進行通信,如向客戶端 系統(tǒng)I IOO和客戶端系統(tǒng)IIIIO發(fā)送信息、接收信息,并執(zhí)行相關聯(lián)的任務。應用程序服務器133:根據(jù)示例性實施例,應用程序服務器存儲、執(zhí)行諸如應用程序160的計算機程 序。外部數(shù)據(jù)源140:可以采用類似于服務器端系統(tǒng)130的一個或多個服務器來實現(xiàn),它的作用在于查詢 服務器端系統(tǒng)130之外的可用第三方信息源,并利用這些信息源提供的相關信息內容通過應用程序160的 訪問和執(zhí)行生成關聯(lián)信息返回給客戶端系統(tǒng)I IOO和客戶端系統(tǒng)IIIIO。應用程序160:在本說明中,把能夠實現(xiàn)本發(fā)明所述方法和系統(tǒng)的一種或多種計算機程序統(tǒng)稱為應用 程序,當然,應用程序中的某些處理可以通過客戶端系統(tǒng)I IOO和客戶端系統(tǒng)IIIIO來實現(xiàn)。應用程序160 包括了以下幾個主要程序和機制表格化程序161、用戶評價機制162、用戶偏好學習機制163、并發(fā)爬蟲 機器人程序164以及即時通訊程序165。表格化程序161:指的是這樣一個程序,它將搜索結果152的內容結構化,分解成顯示頁面需要的字 段,如將一個專利信息分解成專利名稱,發(fā)明人,專利概要等字段,并將這些分解好的字段一一對應地存 入相應地的表格單元中,然后系統(tǒng)將這個表格調用出來,顯示成用戶看到的頁面。用戶評價機制162:用戶通過對搜索結果的評價,將其認為比較符合搜索目的和偏好的搜索結果挑選 出來,系統(tǒng)根據(jù)這些選中的搜索結果的概要信息中的關鍵句/詞,進行進一步的搜索,從而達到深化搜索 的目的;另一方面,用戶通過對搜索結果的評價,修正系統(tǒng)偏好學習的錯誤和偏差,從而改正了用戶統(tǒng)計 模型153。用戶偏好學習機制163:服務器端系統(tǒng)130通過存儲在數(shù)據(jù)庫服務器131中的用戶統(tǒng)計模型153和關 聯(lián)詞庫151,通過將搜索結果與用戶統(tǒng)計模型中的數(shù)據(jù)進行關聯(lián)度匹配,即在這些結果中根據(jù)用戶偏好和 習慣的關鍵句詞集來再次搜索,關聯(lián)度越高表示用戶對這個搜索結果越偏好,即興趣越大。根據(jù)關聯(lián)度, 系統(tǒng)對搜索結果進行刪減和排序,關聯(lián)度高的搜索結果顯示的就越靠前。并發(fā)爬蟲機器人程序164:系統(tǒng)響應用戶的搜索請求,并把與關鍵句詞集中的所有關鍵句/詞相關的信 息從各個外部數(shù)據(jù)源140中抓取所需要的數(shù)據(jù)和信息,實現(xiàn)這樣一種方法的程序稱為并發(fā)爬蟲機器人程序。 通過這個程序采集得來的搜索結果經(jīng)過分析,存入數(shù)據(jù)庫中,并以此更新用戶統(tǒng)計模型。在本說明的示例 性實施例中,并發(fā)爬蟲機器人程序164運用了 HTTP協(xié)議、socket技術、cookie線程池、dom4j、 XML、正 則表達式等相關技術。HTTP協(xié)議HTTP協(xié)議(Hypertext Transfer Protocol,超文本傳輸協(xié)議)是用于從WWW服務器傳輸超 文本到本地瀏覽器的傳送協(xié)議。它可以使瀏覽器更加高效,使網(wǎng)絡傳輸減少。它不僅保證數(shù)字終端正確快 速地傳輸超文本文檔,還確定傳輸文檔中的哪一部分,以及哪部分內容首先顯示(如文本先于圖形)等。socket:所謂socket通常也稱作"套接字",用于描述IP地址和端口,是一個通信鏈的句柄。應用程 序通常通過"套接字"向網(wǎng)絡發(fā)出請求或者應答網(wǎng)絡請求。cookie:如圖7中對客戶端cookies文件570的說明那樣,cookie是一個文檔文件,只能被特定的網(wǎng) 站讀取和調用。dom4j: dom4j是一個Java的XML API,類似于jdom,用來讀寫XML文件。dom4j是一個非常優(yōu)秀的 Java XML API,具有性能優(yōu)異、功能強大和極端易用使用的特點。XML: XML代表Extensible Markup Language (extensible Markup Language的縮寫,意為可擴展的 標記語言)。XML是一套定義語義標記的規(guī)則,這些標記將文檔分成許多部件并對這些部件加以標識。它也 是元標記語言,即定義了用于定義其他與特定領域有關的、語義的、結構化的標記語言的句法語言。XML 定義了一套元句法,如果一個應用程序可以理解這一元句法,那么它也就自動地能夠理解所有的由此元語 言建立起來的語言。XML描述的是結構和語義,而不是格式化。正則表達式正則表達式(regular expression)描述了一種字符串匹配的模式,可以用來檢査一個串 是否含有某種子串、將匹配的子串做替換或者從某個串中取出符合某個條件的子串等。正則表達式作為一 個模板,將某個字符模式與所搜索的字符串進行匹配。即時通訊程序165:在搜索結果152中,專利信息410、商機信息420、公司信息430都涉及了公司的 電話號碼,即時通訊165是這樣一個程序,用戶通過客戶端系統(tǒng)I 100或客戶端系統(tǒng)IIllO的用戶輸入裝 置,如鼠標,向系統(tǒng)請求與搜索結果中的某個公司進行通訊,系統(tǒng)啟動即時通訊應用程序,將該用戶與這 個公司的固定電話終端或網(wǎng)絡電話終端接通,該公司人員拿起電話機話筒或啟動網(wǎng)絡電話終端,即表示通 訊連接成功,用戶利用音頻輸入輸出裝置,如耳機和麥克風就可以即時地向感興趣的公司咨詢,而被呼叫 的公司人員也可以利用固定電話機或者是耳機和麥克風解答咨詢。這樣,用戶不需要在有疑問時,利用固 定電話等通訊設備呼叫對方,而是直接在網(wǎng)上完成咨詢。應當理解,圖l只是為了更清楚地說明本發(fā)明而示出其中一種示范系統(tǒng),但并不代表本發(fā)明就局限于 此范圍。下面來看圖2。圖2示出示例性實施例的處理過程。其中圖中的虛線框部分是系統(tǒng)后臺執(zhí)行的步驟或 是用戶不可見的步驟。首先用戶通過客戶端系統(tǒng)IIOO或客戶端系統(tǒng)IIllO登陸到系統(tǒng)網(wǎng)站,即通過數(shù)字 網(wǎng)絡120向服務器端系統(tǒng)130發(fā)送信息請求,服務器端系統(tǒng)130將初始頁面信息200返回給用戶。初始頁 面200包括以下幾個部分搜索語句輸入框201:在搜索語句輸入框201中,用戶可以輸入一條帶有搜索目的的完整語句,如"杭 州8月份的硬盤價格如何?";也可以輸入關鍵詞,如"電腦杭州"。關注模塊定制按鈕202:用來啟動定制程序,用戶點擊該按鈕后,系統(tǒng)自動調轉到定制頁面,通過這 個機制,用戶可以定制自己感興趣的內容,如特定的行業(yè)和特定的地理位置等。當然,這個按鈕有效的前 提是該用戶已經(jīng)是注冊用戶且已經(jīng)登陸系統(tǒng),這個前提在接下來的步驟中也有類似描述。用戶登陸/注冊按鈕203:用戶通過這個按鈕可以注冊為該系統(tǒng)的注冊用戶,也可以通過這個按鈕登陸 到該系統(tǒng),以便系統(tǒng)啟動用戶統(tǒng)計模型153,使得搜索結果更精確。步驟210中,用戶通過客戶端系統(tǒng)i ioo或客戶端系統(tǒng)niio中的用戶輸入單元,如鍵盤,在搜索語句輸入框201中輸入想要搜索的問題語句或關鍵詞,如"杭州8月份的硬盤價格如何?"、"電腦杭州" 等。服務器端系統(tǒng)130接收到搜索請求,首先執(zhí)行步驟211,對用戶輸入的問題語句或關鍵詞進行高速中 文分詞,將"杭州8月份的硬盤價格如何?"這個完整語句語義分解為"杭州"、"硬盤價格"、"8月份" 這幾個關鍵句/詞。接著步驟212,服務器端系統(tǒng)130在本地數(shù)據(jù)庫服務器131中以及通過網(wǎng)絡120和并發(fā)爬蟲機器人程 序164在外部數(shù)據(jù)源140中檢査該用戶的關聯(lián)詞庫151是否包含這些關鍵句/詞相似和相關的關鍵句/詞。接著步驟213,系統(tǒng)將這些相似的和相關的關鍵句/詞加上語義分解后的關鍵句/詞一起,從該用戶的 關聯(lián)詞庫151中提取出來,生成一個新的關鍵句詞集,這個關鍵句詞集包含了所有上述的關鍵句/詞。然后在步驟214,服務器端系統(tǒng)130訪問本地數(shù)據(jù)庫服務器131以及通過網(wǎng)絡120和并發(fā)爬蟲機器人 程序164從外部數(shù)據(jù)源140請求搜索包含這些關鍵句/詞的信息。步驟215,系統(tǒng)進行邏輯判斷,如果用戶登陸了該系統(tǒng),說明該用戶必定是注冊用戶,則進一步同時 激發(fā)步驟216和步驟217。步驟216調用服務器端系統(tǒng)130存儲的用戶統(tǒng)計模型153。步驟217調用客戶 端系統(tǒng)I 100或客戶端系統(tǒng)IIllO中儲存的cookies文件。而如果用戶沒有登陸該系統(tǒng),則不管該用戶是 否注冊用戶,系統(tǒng)只執(zhí)行步驟217,即只調用客戶端系統(tǒng)I 100或客戶端系統(tǒng)IIllO中儲存的cookies文件。隨后的步驟218,系統(tǒng)啟動用戶偏好學習機制163,利用關聯(lián)詞庫151以及特定用戶的用戶統(tǒng)計模型 153進行用戶的偏好學習,得出哪些關鍵句/詞是用戶偏好的或是符合用戶搜索習慣的,根據(jù)這些關鍵句/ 詞來判斷搜索來的結果對這個用戶而言是否有用,關聯(lián)度較高,并根據(jù)這個思路繼續(xù)執(zhí)行步驟219。步驟219利用用戶偏好學習的結果,系統(tǒng)對搜索結果進行刪減、排序,把不相關的信息從搜索結果中 刪除,把關聯(lián)度較高的排列在前。在隨后的步驟220中,系統(tǒng)調用應用程序服務器133中的表格化程序161,將已經(jīng)排序好的搜索結果 用結構化方式寫到網(wǎng)頁的表格中,使得各項內容一一對應、簡潔有序。接著系統(tǒng)將表格化的搜索結果230 展示給用戶。并同時執(zhí)行步驟221、步驟222和步驟223。步驟221中,系統(tǒng)利用搜索結果更新服務器端 系統(tǒng)130中的用戶統(tǒng)計模型153,并存儲到數(shù)據(jù)庫服務器131中。步驟222中,系統(tǒng)利用搜索結果更新客 戶端系統(tǒng)I100或客戶端系統(tǒng)II110中的cookies文件。步驟223種,系統(tǒng)利用搜索結果的關鍵句/詞更新 該用戶的關聯(lián)詞庫。最后展示給用戶的搜索結果230包含了以下信息用戶評價復選框231:在搜索結果描述234前都有一個復選框,讀者可以選中這個復選框表示對這一 條搜索結果的關注度比其他未選中的搜索結果高,從而使得服務器端系統(tǒng)130能夠根據(jù)這些選中的搜索結 果進行進一步的搜索,并同時依此更新用戶統(tǒng)計模型。搜索結果描述234:簡要地代表一個搜索結果,但是需要注意的是,搜索結果描述有時候并不能完全 或正確地反映搜索結果的內容。即時通訊按鈕235:該按鈕激發(fā)即時通訊程序165,目的是隨時地和另一方取得語音聯(lián)系,以便獲得 最新最準的資訊。在步驟236中,用戶通過輸入單元如鼠標、鍵盤等選中評價復選框231,表示對這個搜索結果較為滿 意、感興趣。隨后步驟237中,用戶點擊再次搜索按鈕,系統(tǒng)啟動用戶評價機制162,將選中的搜索結果 重新進行髙速中文分詞,再次激發(fā)步驟211以及隨后的步驟,目的在于重新在整個網(wǎng)絡數(shù)據(jù)而非在第一次 的搜索結果中搜索與選中搜索結果相關的信息,再次搜索得來的信息可能會比第一次搜索得來的信息更 多、更豐富,而不是越搜越少,所以也使得搜索結果更精確、更貼近用戶的需要。這個過程也可以更新用 戶統(tǒng)計模型153,從而使得用戶偏好學習機制163的學習過程更準確??梢蕴娲?,用戶執(zhí)行步驟238,用戶將鼠標移動到結果描述234上。這時激發(fā)步驟239,系統(tǒng)將這 個結果信息的概要展示給用戶,用戶通過這個信息概要,可以清晰地判斷該信息對其是否有用??梢蕴娲?,用戶執(zhí)行步驟240,用鼠標點擊即時通訊按鈕235。系統(tǒng)接收到用戶請求后,步驟241, 系統(tǒng)判斷用戶是否己經(jīng)將音頻輸入輸出設備,如耳機、麥克風設備連接到計算機上。如果系統(tǒng)能檢測到這些設備已經(jīng)在運轉,則執(zhí)行步驟244,提示用戶戴上耳麥并確保麥克風開啟。這 時對方拿起話筒后進入步驟245,表示通訊已經(jīng)建立成功。而如果系統(tǒng)監(jiān)測到用戶并沒有把耳機和麥克風連接到計算機上,則執(zhí)行步驟242,系統(tǒng)提示用戶將耳機和麥克風等設備與計算機連接好。待用戶連接好通訊設備,即步驟243后,系統(tǒng)繼續(xù)執(zhí)行步驟244及其后續(xù)步驟??梢蕴娲?,用戶執(zhí)行步驟246,用鼠標或鍵盤點擊搜索結果描述234。隨后,系統(tǒng)執(zhí)行步驟247,將鏈接的搜索結果網(wǎng)頁顯示給用戶,并繼續(xù)執(zhí)行步驟221、步驟222以及步驟223,更新服務器端用戶統(tǒng)計模型153、客戶端cookies文件以及該用戶的關聯(lián)詞庫151。在步驟210的替代步驟250中,用戶可以定制自己感興趣的內容,如特定的行業(yè)和地理位置,但這個 功能只對注冊用戶開放。用戶點擊關注模塊定制按鈕202后,系統(tǒng)執(zhí)行邏輯判斷步驟251,判斷用戶是否 已經(jīng)登陸了網(wǎng)站,如果用戶已經(jīng)登陸,則該用戶必定是系統(tǒng)的注冊用戶,則系統(tǒng)繼續(xù)執(zhí)行步驟221、步驟 222以及步驟223。步驟221中,系統(tǒng)利用搜索結果更新服務器端系統(tǒng)130中的用戶統(tǒng)計模型153,并存儲 到數(shù)據(jù)庫服務器131中。步驟222中,系統(tǒng)利用搜索結果更新客戶端系統(tǒng)I 100或客戶端系統(tǒng)IIllO中的 cookies文件。步驟223中,系統(tǒng)利用搜索結果的關鍵句/詞更新關聯(lián)詞庫151。如果系統(tǒng)的邏輯判斷步驟251的結果為"否",即用戶并沒有登陸該系統(tǒng),則系統(tǒng)執(zhí)行步驟252,顯示 用戶注冊/登陸框。接著步驟253,如果該用戶為該系統(tǒng)的注冊用戶,則用戶可以選擇執(zhí)行步驟254,輸入用戶名和密碼 或只是密碼,然后登陸到該系統(tǒng)網(wǎng)站。可以替代地,如果該用戶尚未注冊,則用戶可以通過提交注冊需要的信息,即步驟255注冊為該系統(tǒng) 的注冊用戶。隨后,步驟256,服務器端系統(tǒng)130自動利用注冊信息為該用戶新建一個用戶統(tǒng)計模型153 并存儲在數(shù)據(jù)庫服務器131中。同時,服務器端系統(tǒng)130執(zhí)行步驟222,更新客戶端系統(tǒng)I 100或客戶端 系統(tǒng)IIllO中的cookies文件。當然,可以很容易地看出,該流程并非一定按照如上所述的順序進行,而是一個不斷循環(huán)反復的過程, 步驟順序的不同并不影響實現(xiàn)本發(fā)明所述的方法的系統(tǒng),因此本發(fā)明也不受限于該示例性實施例所畫出的 流程圖。下面來看圖8、圖9、圖10,這三張圖分別展示的是一個實施例中的三個內容的搜索頁面截圖專利、 商機和公司。圖8示出示例性實施例創(chuàng)建和生成的專利信息搜索網(wǎng)頁的用戶界面截圖。其中搜索語句輸入框610對 應于圖2的搜索語句輸入框201,兩者在兩張不同的圖中標號不同,但是執(zhí)行的功能相同,例如用戶在搜 索語句輸入框610輸入"手機",則系統(tǒng)將手機相關的專利信息顯示給用戶,即圖2中,系統(tǒng)執(zhí)行步驟230, 返回的信息包括專利描述613、所屬公司名稱614、公司email615、電話號碼616以及聯(lián)系地址618。其
中,用戶選中了兩個專利描述613前的評價復選框612,表示這兩個專利信息是用戶需要的。用戶點擊再 次搜索按鈕611后,系統(tǒng)會執(zhí)行圖2中的步驟237,在整個網(wǎng)絡數(shù)據(jù)庫重新搜索相關信息。在用戶評價復 選框612后顯示的是專利描述613,圖8顯示的是用戶將光標移到專利描述613上的情況,此時,系統(tǒng)執(zhí) 行圖2中的步驟239,將該專利的概要信息619顯示給用戶。在每一個電話號碼616之后,都有一個即時 通訊按鈕617,如果用戶對這個專利有興趣或疑問,可以點擊這個按鈕連接到對方進行語音通話。當然, 該系統(tǒng)也提供普通搜索引擎提供的功能,即在結果中篩選信息,在本系統(tǒng)中,用戶可以根據(jù)聯(lián)系方式620 如email、電話、地址進行篩選,也可以根據(jù)特定關鍵字621如北京、浙江、上海、湖北進行篩選。除此 之外,系統(tǒng)在把用戶搜索的專利信息顯示給用戶的同時,也提供了相關商機信息622和相關公司信息623, 便于用戶査找,而這些商機和公司信息是通過圖6中的公司編號451進行關聯(lián)的。圖9示出示例性實施例創(chuàng)建和生成的商機信息搜索網(wǎng)頁的用戶界面截圖。其中搜索語句輸入框630對 應于圖2的搜索語句輸入框201和圖8的搜索語句輸入框610,三者在不同的圖中標號不同,但是執(zhí)行的 功能相同,例如用戶在搜索語句輸入框630輸入"電腦",則系統(tǒng)將電腦相關的商機信息顯示給用戶,即 圖2中,系統(tǒng)執(zhí)行步驟230,返回的信息包括商機描述633、商機類型634、所屬公司名稱635、電話號碼 636、聯(lián)系地址638。其中,用戶選中了五個商機描述633前的評價復選框632,表示這五個商機信息是用 戶需要的。用戶點擊再次搜索按鈕631后,系統(tǒng)會執(zhí)行圖2中的步驟237,在整個網(wǎng)絡數(shù)據(jù)庫重新搜索相 關信息。在用戶評價復選框632后顯示的是商機描述633,圖9顯示的是用戶將光標移到商機描述633上 的情況,此時,系統(tǒng)執(zhí)行圖2中的步驟239,將該商機的概要信息639顯示給用戶。和專利信息不同的是, 商機類型634代表的是該商機是出售信息還是求購信息。在每一個電話號碼636之后,都有一個即時通訊 按鈕637,如果用戶對這個商機有興趣或疑問,可以點擊這個按鈕連接到對方進行語音通話。當然,該系 統(tǒng)也提供普通搜索引擎提供的功能,即在結果中篩選信息,在本系統(tǒng)中,用戶可以根據(jù)商機類型640如出 售、求購進行篩選,也可以根據(jù)聯(lián)系方式641如email、電話、地址進行篩選,亦可以根據(jù)特定關鍵字643 如北京、浙江、上海、湖北進行篩選。除此之外,系統(tǒng)在把用戶搜索的商機信息顯示給用戶的同時,也提 供了相關專利信息643和相關公司信息644,便于用戶査找,而這些專利和公司信息是通過圖6中的公司 編號451進行關聯(lián)的。圖10示出示例性實施例創(chuàng)建和生成的公司信息搜索網(wǎng)頁的用戶界面截圖。其中搜索語句輸入框650 對應于圖2的搜索語句輸入框201、圖8的搜索語句輸入框610和圖9的搜索語句輸入框630,四者在不 同的圖中標號不同,但是執(zhí)行的功能相同,例如用戶在搜索語句輸入框650輸入"電腦",則系統(tǒng)將電腦 相關的公司信息顯示給用戶,即圖2中,系統(tǒng)執(zhí)行步驟230,返回的信息包括公司描述653、公司類型654、 注冊資本655、電話號碼656、聯(lián)系地址658、郵政編碼659。其中,用戶選中了三個公司描述653前的評 價復選框652,表示這三個公司信息是用戶需要的。用戶點擊再次搜索按鈕651后,系統(tǒng)會執(zhí)行圖2中的 步驟237,在整個網(wǎng)絡數(shù)據(jù)庫重新搜索相關信息。和專利信息和商機信息不同的是,公司類型654代表的 是該公司是貿易型、生產型、服務型還是政府或其它機構。在每一個電話號碼656之后,都有一個即時通 訊按鈕657,如果用戶對這個公司有興趣或疑問,可以點擊這個按鈕連接到對方進行語音通話。當然,該 系統(tǒng)也提供普通搜索引擎提供的功能,即在結果中篩選信息,在本系統(tǒng)中,用戶可以根據(jù)公司經(jīng)營模式661 如貿易型、生產型、服務型、政府或其它機構進行篩選,也可以根據(jù)聯(lián)系方式662如email、電話、地址 進行篩選,亦可以根據(jù)特定關鍵字663如北京、浙江、上海、湖北進行篩選。除此之外,系統(tǒng)在把用戶搜 索的公司信息顯示給用戶的同時,也提供了相關專利信息664和相關商機信息665,便于用戶査找,而這 些專利和商機信息是通過圖6中的公司編號451進行關聯(lián)的。圖10顯示的是用戶將光標移到相關商機信 息665條目上的情況,類似地,系統(tǒng)執(zhí)行圖2中的步驟239,將該商機的概要信息660顯示給用戶。以上通過對參考附圖的詳細說明,該領域的技術人員能很容易地了解本發(fā)明所述方法和系統(tǒng)的實現(xiàn)原 理和機制,參考附圖的繪制只是為了更好地說明本發(fā)明的方法和系統(tǒng),而不是規(guī)定保護的范圍,本發(fā)明的 保護范圍由所附權利要求書界定。除上述實施例外,本發(fā)明還可以有其他實施方式。凡采用等同替換或等 效變換形成的技術方案,均落在本發(fā)明要求的保護范圍。
權利要求
1、一種自助式智能垂直搜索方法,其特征在于該方法包括如下步驟1.1)、利用存儲在客戶端和服務器端的用戶cookies文件、注冊信息、歷史搜索信息以及定制的關注模塊進行用戶偏好學習,并將這個用戶偏好建立為用戶統(tǒng)計模型實時、動態(tài)地存儲到搜索引擎數(shù)據(jù)庫中;1.2)、利用關聯(lián)句/詞庫對用戶輸入的搜索語句進行高速中文分詞,并生成一個關鍵句/詞集文件,該文件包含了進行語義分析后的所有相關、相似的關鍵句和關鍵詞,對用戶歷史搜索信息進行統(tǒng)計學習,得出在用戶的搜索習慣中與這些關鍵句/詞集相關、相似的關鍵句/詞,通過高速中文分詞和用戶搜索習慣學習,得出一個最終的關鍵句/詞集文件;1.3)、搜索引擎通過網(wǎng)絡數(shù)據(jù)庫搜索所有與這些慣性關鍵句/詞相關的信息,同時,將這些搜索結果與用戶統(tǒng)計模型進行匹配,在這些搜索結果中搜索其關鍵句/詞符合用戶偏好的信息,最終,將符合用戶偏好的搜索結果返回給用戶。
2、 根據(jù)權利要求l所述的自助式智能垂直搜索方法,其特征在于將用戶對搜索結果的評價反映出 來,據(jù)此來修正機器學習的過程,并同時修正用戶統(tǒng)計模型。
3、 根據(jù)權利要求1所述的自助式智能垂直搜索方法,其特征在于用戶可以定制感興趣的內容和信 息、表格化搜索結果以及即時通訊。
全文摘要
本發(fā)明涉及一種自助式智能垂直搜索方法,包括如下步驟利用用戶cookies文件、注冊信息、歷史搜索信息以及定制的關注模塊進行用戶偏好學習,并將這個用戶偏好建立為用戶統(tǒng)計模型實時、動態(tài)地存儲到搜索引擎數(shù)據(jù)庫中;通過高速中文分詞和用戶搜索習慣學習,得出一個最終的關鍵句/詞集文件;搜索引擎通過網(wǎng)絡數(shù)據(jù)庫搜索所有與這些慣性關鍵句/詞相關的信息,同時,將這些搜索結果與用戶統(tǒng)計模型進行匹配,將符合用戶偏好的搜索結果返回給用戶。本發(fā)明有益的效果是用戶可以從龐大的信息集中尋找他們需要的信息,能主動地學習用戶的使用偏好和習慣,從而使得搜索的結果更加合乎用戶的“口味”,而且是完全由用戶來判斷搜索結果對其的價值。
文檔編號G06F17/30GK101114294SQ20071007097
公開日2008年1月30日 申請日期2007年8月22日 優(yōu)先權日2007年8月22日
發(fā)明者施侃晟, 施章祖 申請人:杭州經(jīng)合易智控股有限公司