專利名稱:網(wǎng)絡(luò)搜尋系統(tǒng)及方法
技術(shù)領(lǐng)域:
此發(fā)明是一種信息檢索(information retrieval)技術(shù),特別是一種關(guān)于網(wǎng)絡(luò)搜尋(web search)的方法及系統(tǒng)。
背景技術(shù):
全球信息網(wǎng)(World Wide Web,WWW)與因特網(wǎng)中所存在的資源,讓使用者可透過使用計算機或其它數(shù)據(jù)存取裝置從大量的網(wǎng)站中取得廣泛的大量信息。一般而言,網(wǎng)站所提供的信息是以網(wǎng)頁呈現(xiàn),其格式一般來說可為超文本標記語言(HyperTextmark-up language,HTML)格式,此為一種以文字為基礎(chǔ)的格式,用以指示計算機如何顯示個別網(wǎng)頁。可提供通常為ASCII格式的文字內(nèi)容與壓縮后的圖形信息,格式諸如“GIF”或“JPEG”。除此之外,網(wǎng)頁通??砂谋炬溄?Hypertextlink),用以鏈接到同一個網(wǎng)站的其他網(wǎng)頁,或是鏈接到其他網(wǎng)站所提供的網(wǎng)頁。
因特網(wǎng)擁有超過數(shù)以億計的網(wǎng)頁,并且網(wǎng)頁的數(shù)目仍持續(xù)增加中。要找到適宜的信息,有兩種基本的方法使用一個搜尋引擎或一個搜尋目錄(如雅虎,Yahoo、LookSmart或OpenDirectory)。搜尋目錄適用于找尋通俗主題的信息,搜尋引擎則特別適用在搜尋專業(yè)信息?,F(xiàn)有的各種搜尋工具的進階搜尋功能可進一步來改善搜尋結(jié)果。
大多數(shù)的搜尋引擎擁有大量的網(wǎng)站數(shù)據(jù)庫,于搜尋時,可輸入一些字、詞組或句子至一個網(wǎng)頁的文字字段中。搜尋引擎會搜尋整個超文本標記語言文件并且建立全文的索引(index)。搜尋引擎使用俗稱“機器人”(robots)或稱為“蜘蛛”(spiders)的計算機程序,這些程序透過依循網(wǎng)站至網(wǎng)站的鏈接爬(crawl)過一個又一個的網(wǎng)站,并且為所造訪的每一個網(wǎng)頁建立索引。每一搜尋引擎會擁有獨有的判定準則來決定那些網(wǎng)頁要包納在數(shù)據(jù)庫中。例如,某些搜尋引擎搜尋網(wǎng)站中的每一網(wǎng)頁,而某些搜尋引擎則只搜尋主頁(main page)。最近,最有名之一的搜尋引擎Google,則為超過三十億的網(wǎng)頁建立索引。
幾乎所有的搜尋引擎會于網(wǎng)頁數(shù)據(jù)庫中進行關(guān)鍵字搜尋,但有各式各樣的因素會影響搜尋結(jié)果,例如,搜尋引擎數(shù)據(jù)庫的大小、數(shù)據(jù)庫更新的頻率、搜尋功能設(shè)計,以及速度。Google提供了不僅簡單且進階的搜尋效能。進階搜尋功能透過輸入包括或剔除想要的字或詞組的信息來縮小搜尋范圍,并且得以進行特定語言的搜尋請求。圖1是為顯示現(xiàn)有的搜尋結(jié)果的屏幕畫面。該搜尋結(jié)果包含數(shù)百至千筆搜尋結(jié)果項目,每一搜尋結(jié)果項目包括帶有鏈接于特定網(wǎng)頁的一個全球資源鏈接的一個標題101a或101b、一段短文(例如,一個摘要或搜尋的關(guān)鍵字摘要)102a或102b、一個以位表示的文件大小103a或103b等等。
如此龐大的搜尋結(jié)果項目阻礙使用者瀏覽的效率,因此,產(chǎn)生許多排序技術(shù)來將無關(guān)緊要的項目移至列表的底部。排序演算法中的最主要規(guī)則之一為考慮關(guān)鍵字出現(xiàn)在一個網(wǎng)頁上的位置及出現(xiàn)次數(shù)。例如,搜尋引擎可先決定搜尋的關(guān)鍵字是否出現(xiàn)于網(wǎng)頁的開頭位置,例如于標題或文字中的第一段落。搜尋引擎假定若關(guān)鍵字出現(xiàn)于網(wǎng)頁的開頭位置附近,則此網(wǎng)頁較重要。另一種搜尋引擎則決定網(wǎng)頁是否相關(guān)的因素為關(guān)鍵字于其中的出現(xiàn)次數(shù)。大多數(shù)的搜尋引擎會分析于一個網(wǎng)頁中所包含的關(guān)鍵字相較于其他字的出現(xiàn)次數(shù)。有較高出現(xiàn)次數(shù)的網(wǎng)頁相較于其他網(wǎng)頁會更重要。
雖然解決方法是可行的,但仍存在許多問題。例如,傳統(tǒng)的排序演算法是基于關(guān)鍵字的位置與出現(xiàn)次數(shù)模型來決定搜尋結(jié)果項目的次序安排,而未考慮諸如使用者瀏覽行為的重要因素。因此,需要一種網(wǎng)絡(luò)搜尋系統(tǒng)及方法,用以改善搜尋結(jié)果及增進使用者瀏覽效率。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供一種網(wǎng)絡(luò)搜尋的系統(tǒng)及方法,用以考慮使用者先前的瀏覽行為,且以智慧性的排序計算基礎(chǔ)來安排每一個搜尋結(jié)果,將無關(guān)緊要的項目移至列表的底部。
本發(fā)明的系統(tǒng)包括一個服務(wù)器及一部客戶端計算機。服務(wù)器透過通訊網(wǎng)絡(luò)環(huán)境與多部客戶端計算機鏈接。每一部客戶端計算機配備有瀏覽器(browser)以存取服務(wù)器中的信息。網(wǎng)站瀏覽器為客戶端應(yīng)用程序,或者于較佳的情況下,為一能與服務(wù)器互動的整合公用程序。網(wǎng)站瀏覽器透過因特網(wǎng)從服務(wù)器接收信息,該信息通常以超文本標記語言(Hypertext Markup Language,HTML)、可擴展標記語言(Extensible Markup Language,XML)等編碼而成。
服務(wù)器包括處理單元、儲存裝置、輸入裝置、顯示裝置及通訊裝置。儲存裝置儲存多個“停用字”以及字數(shù)統(tǒng)計記錄。停用字(例如,干擾字,noise words)為無關(guān)于網(wǎng)絡(luò)搜尋之字。字數(shù)統(tǒng)計記錄儲存相關(guān)于已由特定使用者所檢索的多個短文中的字的出現(xiàn)次數(shù)信息。每一筆字數(shù)統(tǒng)計記錄包括之前已建立的使用者識別碼(identity,ID)、一個字以及一個計數(shù)數(shù)值等字段。
存儲器于較佳的情況下包括一個計算模塊與一個搜尋模塊,搜尋模塊包括用以執(zhí)行字數(shù)計算與網(wǎng)絡(luò)搜尋功能的常序(routine)。當使用者端點擊相應(yīng)于一個短文的一個超鏈接時,計算模塊便開始執(zhí)行。計算模塊的功用為計算短文中的字的出現(xiàn)次數(shù)并且據(jù)以更新字數(shù)統(tǒng)計記錄。當使用者于一個文字字段輸入一或多個關(guān)鍵字并且點擊搜尋按鍵時,搜尋模塊開始執(zhí)行。搜尋模塊根據(jù)字數(shù)統(tǒng)計記錄來產(chǎn)生搜尋結(jié)果。
計算模塊接收一個使用者識別碼與一個超鏈接的接口事件,并且取得相應(yīng)于超鏈接的一段短文。計算模塊使用一個停用字過濾演算法(例如,干擾字過濾)從短文中移除特定停用字來產(chǎn)生另一段短文。事先定義的停用字儲存于儲存裝置中。計算模塊循序地掃描相應(yīng)于超鏈接的短文來取得其中的字。針對每一個取得的字,計算模塊偵測帶有使用者識別碼的字是否存在于字數(shù)統(tǒng)計記錄中,若存在,則將搜尋到的字數(shù)統(tǒng)計記錄中的計數(shù)數(shù)值加一;若不存在,則建立一個含有取得的字與使用者識別碼的新字數(shù)統(tǒng)計記錄,并且將該新字數(shù)統(tǒng)計記錄中的計數(shù)數(shù)值設(shè)定為一。
搜尋模塊接收一個使用者識別碼與一或多個關(guān)鍵字。搜尋模塊取得多個相應(yīng)于輸入關(guān)鍵字的超文本標記語言文件。針對每一個超文本標記語言文件,搜尋模塊從字數(shù)統(tǒng)計記錄中取得相應(yīng)于使用者識別碼的字與其出現(xiàn)次數(shù)。搜尋模塊為超文本標記語言文件計算一個匹配分數(shù)(matching score,MS)。搜尋模塊產(chǎn)生一個含有搜尋結(jié)果項目的網(wǎng)頁。于較佳的情況下,每一個項目包括帶有鏈接于特定超文本標記語言網(wǎng)頁的一個全球資源鏈接(Universal Resource Link,URL)的顯示標題、一段短文、以及以位表示的文件大小等等。于較佳的情況下,根據(jù)匹配分數(shù)由高而低排列搜尋結(jié)果項目。
本發(fā)明是這樣實現(xiàn)的本發(fā)明提供一種網(wǎng)絡(luò)搜尋系統(tǒng),應(yīng)用于一個計算機網(wǎng)絡(luò)系統(tǒng)中,包括一個儲存裝置用以儲存多筆字數(shù)統(tǒng)計記錄,每一字數(shù)統(tǒng)計記錄包括相關(guān)于已由一個使用者所檢索的多個短文中的一個字的出現(xiàn)次數(shù)的信息;以及一個第一程序模塊用以接收相應(yīng)于上述使用者的一個使用者識別碼,接收一個關(guān)鍵字,取得相應(yīng)于上述關(guān)鍵字的多個超文本標記語言文件,依據(jù)相應(yīng)于上述使用者識別碼的上述字數(shù)統(tǒng)計記錄計算代表每一超文本標記語言文件的第一數(shù)值,根據(jù)上述第一數(shù)值由高而低排列相應(yīng)于上述超文本標記語言文件的多個項目,以及顯示一個包括經(jīng)排序后的上述項目的網(wǎng)頁。
本發(fā)明所述的網(wǎng)絡(luò)搜尋系統(tǒng),上述字數(shù)統(tǒng)計記錄包括一個使用者識別碼、一個字、以及一個計數(shù)數(shù)值。
本發(fā)明所述的網(wǎng)絡(luò)搜尋系統(tǒng),上述項目包括帶有鏈接于特定超文本標記語言文件的一個全球資源鏈接的一個顯示標題、一段短文、以及以位表示的文件大小。
本發(fā)明所述的網(wǎng)絡(luò)搜尋系統(tǒng),上述計算機網(wǎng)絡(luò)系統(tǒng)更包括一個客戶端,上述客戶端擁有一個網(wǎng)絡(luò)瀏覽器,上述客戶端經(jīng)由上述網(wǎng)絡(luò)瀏覽器與上述網(wǎng)絡(luò)搜尋系統(tǒng)互動來進行網(wǎng)絡(luò)搜尋。
本發(fā)明所述的網(wǎng)絡(luò)搜尋系統(tǒng),更包括一個第二程序模塊接收上述使用者識別碼,接收一個超鏈接的一個接口事件,取得相應(yīng)于上述超鏈接的一段短文,上述短文包括多個字,上述第二程序模塊更用以計算每一個字的一個計數(shù)數(shù)值,上述第二程序模塊更用以儲存上述字的上述計數(shù)數(shù)值以及上述使用者識別碼至上述字數(shù)統(tǒng)計記錄。
本發(fā)明所述的網(wǎng)絡(luò)搜尋系統(tǒng),上述第二程序模塊使用一個停用字過濾演算法從上述短文中移除事先定義的停用字。
本發(fā)明所述的網(wǎng)絡(luò)搜尋系統(tǒng),上述第二程序模塊用以偵測帶有上述使用者識別碼的上述字是否存在于上述字數(shù)統(tǒng)計記錄中;以及若帶有上述使用者識別碼的上述字未存在于上述字數(shù)統(tǒng)計記錄時,上述第二程序模塊建立一個包括帶有上述使用者識別碼的上述字的新字數(shù)統(tǒng)計記錄;以及將上述新字數(shù)統(tǒng)計記錄的一個計數(shù)數(shù)值設(shè)定為一。
本發(fā)明所述的網(wǎng)絡(luò)搜尋系統(tǒng),上述第二程序模塊用以偵測帶有上述使用者識別碼的上述字是否存在于上述字數(shù)統(tǒng)計記錄中;以及,若帶有上述使用者識別碼的上述字存在于上述字數(shù)統(tǒng)計記錄時,上述第二程序模塊更用以于上述偵測到的字數(shù)統(tǒng)計記錄中的一個計數(shù)數(shù)值加一。
本發(fā)明還提供一種網(wǎng)絡(luò)搜尋方法,該方法包括使用一部計算機執(zhí)行下列步驟接收相應(yīng)于一個使用者的一個使用者識別碼;接收一個關(guān)鍵字;取得相應(yīng)于上述關(guān)鍵字的多個超文本標記語言文件;依據(jù)相應(yīng)于上述使用者識別碼的上述多筆字數(shù)統(tǒng)計記錄計算代表每一超文本標記語言文件的第一數(shù)值,上述字數(shù)統(tǒng)計記錄包括相關(guān)于已由上述使用者所檢索的多個短文中的一個字的出現(xiàn)次數(shù)的信息;根據(jù)上述第一數(shù)值由高而低排列相應(yīng)于上述超文本標記語言文件的多個項目;以及顯示一個包括上述經(jīng)排序后的多個項目的網(wǎng)頁。
本發(fā)明所述的網(wǎng)絡(luò)搜尋方法,上述字數(shù)統(tǒng)計記錄包括一個使用者識別碼、一個字、以及一個計數(shù)數(shù)值。
本發(fā)明所述的網(wǎng)絡(luò)搜尋方法,上述項目包括帶有鏈接于特定超文本標記語言文件的一個全球資源鏈接的一個顯示標題、一段短文、以及以位表示的文件大小。
本發(fā)明又提供一種網(wǎng)絡(luò)搜尋方法,該方法包括使用一部計算機執(zhí)行下列步驟接收一個使用者識別碼;接收一個超鏈接的一個接口事件;取得相應(yīng)于上述超鏈接的一段短文,上述短文包括多個字;計算每一個字的一個計數(shù)數(shù)值;以及儲存上述字的上述計數(shù)數(shù)值以及上述使用者識別碼至上述字數(shù)統(tǒng)計記錄,上述字數(shù)統(tǒng)計記錄儲存相關(guān)于已由一個使用者所檢索的多個短文中的一個字的出現(xiàn)次數(shù)的信息。
本發(fā)明所述網(wǎng)絡(luò)搜尋系統(tǒng)及方法,可改善搜尋結(jié)果,并增進使用者瀏覽效率。
圖1是為顯示現(xiàn)有的搜尋結(jié)果的屏幕畫面;圖2是表示依據(jù)本發(fā)明實施例的網(wǎng)絡(luò)搜尋系統(tǒng)架構(gòu)圖;圖3是依據(jù)本發(fā)明實施例的服務(wù)器架構(gòu)示意圖;圖4是依據(jù)本發(fā)明實施例的字數(shù)統(tǒng)計記錄示意圖;圖5是為依據(jù)本發(fā)明實施例的服務(wù)器的軟件架構(gòu)示意圖;圖6a與圖6b是為依據(jù)本發(fā)明實施例的范例短文示意圖;圖7是為依據(jù)本發(fā)明實施例的短文字數(shù)統(tǒng)計方法的方法流程圖;圖8是為依據(jù)本發(fā)明另一個實施例的超文本標記語言文件的搜尋方法的方法流程圖;圖9是表示依據(jù)本發(fā)明實施例的字數(shù)統(tǒng)計的計算機可讀取儲存介質(zhì)示意圖;圖10是表示依據(jù)本發(fā)明實施例的網(wǎng)絡(luò)搜尋的計算機可讀取儲存介質(zhì)示意圖。
具體實施例方式
圖2是表示依據(jù)本發(fā)明實施例的網(wǎng)絡(luò)搜尋系統(tǒng)架構(gòu)圖。如圖2所示,網(wǎng)絡(luò)搜尋系統(tǒng)于較佳的情況下包括一個服務(wù)器10,以及客戶端計算機20a、20b及20c。服務(wù)器10透過一個通訊網(wǎng)絡(luò)160(可為局部區(qū)域網(wǎng)絡(luò)LAN、廣域網(wǎng)絡(luò)WAN、企業(yè)內(nèi)部網(wǎng)絡(luò)或因特網(wǎng))與客戶端計算機20a、20b及20c等鏈接。
于一個網(wǎng)絡(luò)環(huán)境下,其中范例的通訊網(wǎng)絡(luò)160諸如因特網(wǎng),服務(wù)器10為與客戶端20(即上述20a、20b及20c)通訊的網(wǎng)站服務(wù)器,其通訊可透過任何已知的通訊協(xié)定,例如超文本傳輸通訊協(xié)定(hypertext transfer protocol,HTTP)等。每一部客戶端計算機20(即上述20a、20b及20c)配備有瀏覽器180以存取服務(wù)器10中的信息。網(wǎng)站瀏覽器180為客戶端應(yīng)用程序,或者于較佳的情況下,為一能與服務(wù)器10互動的整合公用程序。網(wǎng)站瀏覽器180從服務(wù)器10接收信息。該信息通常以超文本標記語言、可擴展標記語言等編碼而成。諸如此類的超文本標記語言文件中可包括腳本指令(scripts,例如JavaScript或Visual Basic Scripts)以提供網(wǎng)絡(luò)搜尋功能。網(wǎng)站服務(wù)器180通常支援各式各樣元件,諸如Java Applets、ActiveX Controls以及Plug-Ins等,以提供網(wǎng)絡(luò)搜尋功能。
圖3是依據(jù)本發(fā)明實施例的服務(wù)器架構(gòu)示意圖。服務(wù)器10包括一個處理單元11、一個存儲器12、一個儲存裝置13、一個輸入裝置15、一個顯示裝置14以及一個通訊裝置16。根據(jù)范紐曼(BonNeumann)架構(gòu),使用總線17將處理單元11、存儲器12、儲存裝置13、顯示裝置14、輸入裝置15以及通訊裝置16連接在一起。處理單元11、存儲器12、儲存裝置13、顯示裝置14、輸入裝置15以及通訊裝置16可整合為一部大型主機、一個迷你計算機、一個工作站計算機、一部主機、一個個人計算機或一個移動計算機。
處理單元11從存儲器12或經(jīng)由一操作人員透過輸入裝置15接收程序模塊,用以執(zhí)行網(wǎng)絡(luò)搜尋功能。處理單元11可包含一個或多個處理器,使得計算機的處理單元可包含一個中央處理單元(CPU)、一個微處理單元(micro processing unit,MPU)或關(guān)聯(lián)于一個平行運算環(huán)境的多處理單元。
儲存裝置13可包括數(shù)據(jù)庫(database)系統(tǒng)或文件,以儲存多個“停用字”(stop words)以及字數(shù)統(tǒng)計記錄。停用字(例如,干擾字,noise words)為無關(guān)于網(wǎng)絡(luò)搜尋的字,例如“the”、“is”、“are”等等。字數(shù)統(tǒng)計記錄儲存相關(guān)于已由特定使用者所檢索的多個短文中的字的出現(xiàn)次數(shù)信息。每一筆字數(shù)統(tǒng)計記錄包括之前已建立的使用者識別碼(identity,ID)、一個字以及一個計數(shù)數(shù)值等字段。使用者識別碼可指向計算機識別碼或使用者帳號等,以區(qū)別出使用者。字數(shù)統(tǒng)計記錄的實作不僅限于單一數(shù)據(jù)表、文件,亦可實作于數(shù)據(jù)庫管理系統(tǒng)或文件系統(tǒng)中的多個相關(guān)連的數(shù)據(jù)表或文件。在不違背本發(fā)明的范圍及精神下,本領(lǐng)域技術(shù)人員可加上更多或使用不盡相同的記錄字段。
圖4是依據(jù)本發(fā)明實施例的字數(shù)統(tǒng)計記錄示意圖。依據(jù)記錄41a至41d,已由使用者“A”所檢索的短文中的字包括“quality”、“yield”、“revenue”以及“sale”,并且這些字的出現(xiàn)次數(shù)依次為40、10、1以及1。另一方面,依據(jù)記錄42a至42d,已由使用者“B”所檢索的短文中包含相同的字,并且這些字的出現(xiàn)次數(shù)依次為1、1、40以及10。于此例中,范例的字數(shù)統(tǒng)計記錄可描述出使用者“A”傾向于取得有關(guān)數(shù)量控制的信息,而使用者“B”則意圖搜尋有關(guān)銷售的信息。
圖5是為依據(jù)本發(fā)明實施例的服務(wù)器的軟件架構(gòu)示意圖。存儲器12于較佳的情況下為一動態(tài)存取存儲器(RAM),但亦可為一只讀存儲器(ROM)或一快閃只讀存儲器(flash ROM)。于較佳的情況下,存儲器12儲存計算模塊(calculation module)121以及搜尋模塊(search module)122,模塊中包括常序(routines)用以實現(xiàn)字數(shù)計算與網(wǎng)絡(luò)搜尋的功能。儲存裝置13于較佳的情況下包括字數(shù)統(tǒng)計記錄131。例如,根據(jù)圖1,當使用者點擊相應(yīng)于短文102a或102b的超鏈接101a或101b時,計算模塊121便開始執(zhí)行。計算模塊121的功用為計算短文102a或102b中的字的出現(xiàn)次數(shù),并據(jù)以更新字數(shù)統(tǒng)計記錄131。當使用者于一個文字字段104輸入一或多個關(guān)鍵字并且點擊搜尋按鍵105時,搜尋模塊122開始執(zhí)行。搜尋模塊122根據(jù)字數(shù)統(tǒng)計記錄131來產(chǎn)生搜尋結(jié)果。
圖6a與圖6b是為依據(jù)本發(fā)明實施例的范例短文示意圖。計算模塊121可實作于網(wǎng)頁中之一或多個腳本指令,諸如JavaScript、VB Script等等。計算模塊121亦可實作成系統(tǒng)10或其他遠端計算機中的一個元件(component)或?qū)ο?object)。計算模塊121始于接收一個使用者識別碼與一個超鏈接的一個接口事件。接口事件可為“點擊”(click)、“雙擊”(double-click)等。計算模塊121接著取得相應(yīng)于該超鏈接的一段短文61a。計算模塊121使用一個停用字過濾演算法(例如,干擾字過濾),從短文61a中移除特定停用字來產(chǎn)生另一段短文61b。事先定義的停用字儲存于儲存裝置13中。而停用字過濾演算法為此領(lǐng)域的技術(shù)人員所熟知,不在此特別介紹。計算模塊121循序地掃描短文61b來取得其中的字。針對每一個取得的字,計算模塊121偵測帶有使用者識別碼的字是否存在于字數(shù)統(tǒng)計記錄中,若存在,則將搜尋到的字數(shù)統(tǒng)計記錄中的計數(shù)數(shù)值加一。若不存在,則建立一個含有取得的字與使用者識別碼的新字數(shù)統(tǒng)計記錄,并且將該新字數(shù)統(tǒng)計記錄中的計數(shù)數(shù)值設(shè)定為一。
搜尋模塊122可實作于網(wǎng)頁中的一或多個腳本指令,諸如JavaScript、VB Script等等。搜尋模塊122亦可實作成系統(tǒng)10或其他遠端計算機中的一個元件或?qū)ο?。搜尋模塊122接收一個使用者識別碼與一或多個關(guān)鍵字。搜尋模塊122取得多個相應(yīng)于輸入關(guān)鍵字的超文本標記語言文件。相應(yīng)于一或多個關(guān)鍵字的超文本標記語言文件的搜尋演算法為此領(lǐng)域的技術(shù)人員所熟知,不在此特別介紹。針對每一個超文本標記語言文件,搜尋模塊122從字數(shù)統(tǒng)計記錄中取得相應(yīng)于使用者識別碼的字與其出現(xiàn)次數(shù)。搜尋模塊122為超文本標記語言文件計算一個匹配分數(shù)。方程式(1)顯示計算匹配分數(shù)的公式。
MS=Σi=1nP(Wi)*C(Wi),]]>其中MS代表超文本標記語言文件的匹配分數(shù),n代表相應(yīng)于使用者識別碼的字數(shù)統(tǒng)計記錄的總合,P(Wi)代表在該超文本標記語言文件中第i個字出現(xiàn)次數(shù),C(Wi)代表在字數(shù)統(tǒng)計記錄中第i個字的出現(xiàn)次數(shù)。搜尋模塊122產(chǎn)生一個含有搜尋結(jié)果項目的網(wǎng)頁。于較佳的情況下,每一個項目包括帶有鏈接于特定超文本標記語言網(wǎng)頁的一個全球資源鏈接的顯示標題、一段短文、以及以位表示的文件大小等。于較佳的情況下,根據(jù)匹配分數(shù)由高而低排列搜尋結(jié)果項目。
圖7是為依據(jù)本發(fā)明實施例的短文字數(shù)統(tǒng)計方法的方法流程圖。該流程始于步驟S711,接收一個使用者識別碼與一個超鏈接的一個接口事件。接口事件可為“點擊“、“雙擊”等。如步驟S721,取得一段短文61a(如圖6a所示)。如步驟S731,使用一個停用字過濾演算法(例如,干擾字過濾),從短文61a中移除停用字來產(chǎn)生另一段短文61b(圖6b)。接著,使用包括由步驟S741至S745的循環(huán)以計算短文61b中的所有的字的出現(xiàn)次數(shù)。如步驟S741,在循環(huán)的一開始,取得短文61b中的一個字。如步驟S742,決定接收的使用者識別碼與取得的字是否存在于字數(shù)統(tǒng)計記錄中。若存在,則流程進行至步驟S743。若不存在,則流程進行至步驟S744。如步驟S743,將搜尋到的字數(shù)統(tǒng)計記錄中的計數(shù)數(shù)值加一。如步驟S744,建立一筆含有取得的字與使用者識別碼的新字數(shù)統(tǒng)計記錄。該新字數(shù)統(tǒng)計記錄中的計數(shù)數(shù)值設(shè)定為一。如步驟S745,決定短文61b中的所有的字是否已全部處理完成。若是,則循環(huán)結(jié)束。若否,則循環(huán)繼續(xù)進行以取得短文61b中的下一個字。
圖8是為依據(jù)本發(fā)明另一個實施例的超文本標記語言文件的搜尋方法的方法流程圖。該流程始于步驟S811,接收一個使用者識別碼與一或多個關(guān)鍵字。如步驟S821,取得多個相應(yīng)于輸入關(guān)鍵字的超文本標記語言文件。接著,使用包括從步驟S831至S833的循環(huán)以計算取得的超文本標記語言文件的匹配分數(shù)。如步驟S831,在循環(huán)的一開始,搜尋到一個超文本標記語言文件。如步驟S832,根據(jù)相應(yīng)于使用者識別碼的字數(shù)統(tǒng)計記錄,計算搜尋到的超文本標記語言文件的匹配分數(shù)。計算方式可使用方程式(1)的公式。如步驟S833,決定所有搜尋到的超文本標記語言文件是否皆已計算出匹配分數(shù)。若是,則流程進行至步驟S841。若否,則流程進行至步驟S831,亦即為循環(huán)的開始,搜尋下一個超文本標記語言文件。如步驟S841,根據(jù)匹配分數(shù)由高而低排列所有搜尋到的超文本標記語言文件。如步驟S842,于顯示裝置14上顯示含有搜尋結(jié)果項目的網(wǎng)頁。于較佳的情況下,每一個搜尋結(jié)果項目包括帶有鏈接于特定超文本標記語言網(wǎng)頁的一個全球資源鏈接的顯示標題、一段短文、以及以位表示的文件大小等。
本發(fā)明實施例另揭露一種用以儲存短文字數(shù)統(tǒng)計計算機程序920的儲存介質(zhì)。圖9是表示依據(jù)本發(fā)明實施例的短文字數(shù)統(tǒng)計的計算機可讀取儲存介質(zhì)示意圖。此計算機程序產(chǎn)品包括一個可使用于計算機系統(tǒng)并含有計算機可讀取程序的儲存介質(zhì)90。計算機可讀取程序包含接收一個使用者識別碼與一個超鏈接的接口事件邏輯921,取得相應(yīng)于超鏈接的短文邏輯922,從短文中移除停用字邏輯923,計算短文中的字的出現(xiàn)次數(shù)邏輯924,儲存字的出現(xiàn)次數(shù)計算結(jié)果至字數(shù)統(tǒng)計記錄邏輯925。
本發(fā)明實施例另揭露一種用以儲存網(wǎng)絡(luò)搜尋計算機程序940的儲存介質(zhì)。圖10是表示依據(jù)本發(fā)明實施例的網(wǎng)絡(luò)搜尋的計算機可讀取儲存介質(zhì)示意圖。此計算機程序產(chǎn)品包括一個可使用于計算機系統(tǒng)并含有計算機可讀取程序的儲存介質(zhì)90。計算機可讀取程序包含接收一個使用者識別碼與搜尋的關(guān)鍵字邏輯941,取得相應(yīng)于搜尋關(guān)鍵字的超文本標記語言文件邏輯942,計算搜尋到的超文本標記語言文件的匹配分數(shù)邏輯943,根據(jù)匹配分數(shù)由高而低排列搜尋到的超文本標記語言文件邏輯944,顯示搜尋結(jié)果邏輯945。
雖然本發(fā)明已通過較佳實施例說明如上,但該較佳實施例并非用以限定本發(fā)明。本領(lǐng)域的技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),應(yīng)有能力對該較佳實施例做出各種更改和補充,因此本發(fā)明的保護范圍以權(quán)利要求書的范圍為準。
附圖中符號的簡單說明如下101a、101b帶有超鏈接的標題102a、102b短文103a、103b以位表示的文件大小104輸入字段105按鈕10服務(wù)器20a、20b、20c客戶端計算機160通訊網(wǎng)絡(luò)180瀏覽器11處理單元12存儲器13儲存裝置14顯示裝置15輸出裝置16通訊裝置17總線41a、...、42d字數(shù)統(tǒng)計記錄121計算模塊122搜尋模塊131字數(shù)統(tǒng)計記錄
61a、61b短文S711、S721、...、S744、S745流程步驟S811、S821、...、S841、S842流程步驟90儲存介質(zhì)920短文字數(shù)統(tǒng)計計算機程序921接收一個使用者識別碼與一個超鏈接的接口事件邏輯922取得相應(yīng)于超鏈接的短文邏輯923從短文中移除停用字邏輯924計算短文中的字的出現(xiàn)次數(shù)邏輯925儲存字的出現(xiàn)次數(shù)計算結(jié)果至字數(shù)統(tǒng)計記錄邏輯90儲存介質(zhì)940網(wǎng)絡(luò)搜尋計算機程序941接收一個使用者識別碼與搜尋的關(guān)鍵字邏輯942取得相應(yīng)于搜尋關(guān)鍵字的超文本標記語言文件邏輯943計算搜尋到的超文本標記語言文件的匹配分數(shù)邏輯944根據(jù)匹配分數(shù)由高而低排列搜尋到的超文本標記語言文件邏輯945顯示搜尋結(jié)果邏輯
權(quán)利要求
1.一種網(wǎng)絡(luò)搜尋系統(tǒng),應(yīng)用于一個計算機網(wǎng)絡(luò)系統(tǒng)中,包括一個儲存裝置用以儲存多筆字數(shù)統(tǒng)計記錄,每一字數(shù)統(tǒng)計記錄包括相關(guān)于已由一個使用者所檢索的多個短文中的一個字的出現(xiàn)次數(shù)的信息;以及一個第一程序模塊用以接收相應(yīng)于上述使用者的一個使用者識別碼,接收一個關(guān)鍵字,取得相應(yīng)于上述關(guān)鍵字的多個超文本標記語言文件,依據(jù)相應(yīng)于上述使用者識別碼的上述字數(shù)統(tǒng)計記錄計算代表每一超文本標記語言文件的第一數(shù)值,根據(jù)上述第一數(shù)值由高而低排列相應(yīng)于上述超文本標記語言文件的多個項目,以及顯示一個包括經(jīng)排序后的上述項目的網(wǎng)頁。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)搜尋系統(tǒng),其特征在于,上述字數(shù)統(tǒng)計記錄包括一個使用者識別碼、一個字、以及一個計數(shù)數(shù)值。
3.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)搜尋系統(tǒng),其特征在于,上述項目包括帶有鏈接于特定超文本標記語言文件的一個全球資源鏈接的一個顯示標題、一段短文、以及以位表示的文件大小。
4.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)搜尋系統(tǒng),其特征在于,上述計算機網(wǎng)絡(luò)系統(tǒng)更包括一個客戶端,上述客戶端擁有一個網(wǎng)絡(luò)瀏覽器,上述客戶端經(jīng)由上述網(wǎng)絡(luò)瀏覽器與上述網(wǎng)絡(luò)搜尋系統(tǒng)互動來進行網(wǎng)絡(luò)搜尋。
5.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)搜尋系統(tǒng),其特征在于,更包括一個第二程序模塊接收上述使用者識別碼,接收一個超鏈接的一個接口事件,取得相應(yīng)于上述超鏈接的一段短文,上述短文包括多個字,上述第二程序模塊更用以計算每一個字的一個計數(shù)數(shù)值,上述第二程序模塊更用以儲存上述字的上述計數(shù)數(shù)值以及上述使用者識別碼至上述字數(shù)統(tǒng)計記錄。
6.根據(jù)權(quán)利要求5所述的網(wǎng)絡(luò)搜尋系統(tǒng),其特征在于,上述第二程序模塊使用一個停用字過濾演算法從上述短文中移除事先定義的停用字。
7.根據(jù)權(quán)利要求6所述的網(wǎng)絡(luò)搜尋系統(tǒng),其特征在于,上述第二程序模塊用以偵測帶有上述使用者識別碼的上述字是否存在于上述字數(shù)統(tǒng)計記錄中;以及若帶有上述使用者識別碼的上述字未存在于上述字數(shù)統(tǒng)計記錄時,上述第二程序模塊建立一個包括帶有上述使用者識別碼的上述字的新字數(shù)統(tǒng)計記錄;以及將上述新字數(shù)統(tǒng)計記錄的一個計數(shù)數(shù)值設(shè)定為一。
8.根據(jù)權(quán)利要求6所述的網(wǎng)絡(luò)搜尋系統(tǒng),其特征在于,上述第二程序模塊用以偵測帶有上述使用者識別碼的上述字是否存在于上述字數(shù)統(tǒng)計記錄中;以及,若帶有上述使用者識別碼的上述字存在于上述字數(shù)統(tǒng)計記錄時,上述第二程序模塊更用以于上述偵測到的字數(shù)統(tǒng)計記錄中的一個計數(shù)數(shù)值加一。
9.一種網(wǎng)絡(luò)搜尋方法,該方法包括使用一部計算機執(zhí)行下列步驟接收相應(yīng)于一個使用者的一個使用者識別碼;接收一個關(guān)鍵字;取得相應(yīng)于上述關(guān)鍵字的多個超文本標記語言文件;依據(jù)相應(yīng)于上述使用者識別碼的上述多筆字數(shù)統(tǒng)計記錄計算代表每一超文本標記語言文件的第一數(shù)值,上述字數(shù)統(tǒng)計記錄包括相關(guān)于已由上述使用者所檢索的多個短文中的一個字的出現(xiàn)次數(shù)的信息;根據(jù)上述第一數(shù)值由高而低排列相應(yīng)于上述超文本標記語言文件的多個項目;以及顯示一個包括上述經(jīng)排序后的多個項目的網(wǎng)頁。
10.根據(jù)權(quán)利要求9所述的網(wǎng)絡(luò)搜尋方法,其特征在于,上述字數(shù)統(tǒng)計記錄包括一個使用者識別碼、一個字、以及一個計數(shù)數(shù)值。
11.根據(jù)權(quán)利要求9所述的網(wǎng)絡(luò)搜尋方法,其特征在于,上述項目包括帶有鏈接于特定超文本標記語言文件的一個全球資源鏈接的一個顯示標題、一段短文、以及以位表示的文件大小。
12.一種網(wǎng)絡(luò)搜尋方法,該方法包括使用一部計算機執(zhí)行下列步驟接收一個使用者識別碼;接收一個超鏈接的一個接口事件;取得相應(yīng)于上述超鏈接的一段短文,上述短文包括多個字;計算每一個字的一個計數(shù)數(shù)值;以及儲存上述字的上述計數(shù)數(shù)值以及上述使用者識別碼至上述字數(shù)統(tǒng)計記錄,上述字數(shù)統(tǒng)計記錄儲存相關(guān)于已由一個使用者所檢索的多個短文中的一個字的出現(xiàn)次數(shù)的信息。
全文摘要
本發(fā)明提供一種網(wǎng)絡(luò)搜尋系統(tǒng)及方法。一個服務(wù)器包括一個儲存裝置與一個第一程序模塊。儲存裝置儲存字數(shù)統(tǒng)計記錄。每一筆字數(shù)統(tǒng)計記錄包括相關(guān)于已由使用者所檢索的多個短文中的一個字的出現(xiàn)次數(shù)的信息。第一程序模塊接收一個使用者識別碼及一個關(guān)鍵字,取得相應(yīng)于關(guān)鍵字的多個超文本標記語言文件,依據(jù)相應(yīng)于使用者識別碼的多筆字數(shù)統(tǒng)計記錄計算代表每一超文本標記語言文件的第一數(shù)值,根據(jù)第一數(shù)值由高而低排列相應(yīng)于超文本標記語言文件的多個項目,以及顯示一個包括經(jīng)排序后的多個項目的網(wǎng)頁。本發(fā)明所述網(wǎng)絡(luò)搜尋系統(tǒng)及方法,可改善搜尋結(jié)果,并增進使用者瀏覽效率。
文檔編號G06F17/30GK1825308SQ20051012416
公開日2006年8月30日 申請日期2005年11月25日 優(yōu)先權(quán)日2005年2月22日
發(fā)明者李躍欽, 金文正, 陳奇奕 申請人:臺灣積體電路制造股份有限公司