專利名稱:相關(guān)查詢組織系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及計算機網(wǎng)絡(luò),更具體而言,涉及信息檢索和呈現(xiàn)方式。
背景技術(shù):
目前隨著越來越多的信息被呈現(xiàn)在網(wǎng)絡(luò)上,已經(jīng)出現(xiàn)了多種在后臺數(shù) 據(jù)庫中存儲文檔并提供供用戶檢索這些文檔的界面的信息系統(tǒng)。典型的信
息系統(tǒng)有兩種1)諸如Google和Baidu之類的搜索引擎,通過這種搜索 引擎人們可以訪問因特網(wǎng)上的信息(網(wǎng)頁);2)內(nèi)部網(wǎng)系統(tǒng),通過這種 系統(tǒng)人們可以訪問內(nèi)部文檔(通常用在公司內(nèi)部)。
當(dāng)用戶向這種信息系統(tǒng)發(fā)送用戶查詢q時,用戶可能對結(jié)果有兩種不 同的需求。第一種,用戶想要找到一條與q相關(guān)的信息,例如, 一個網(wǎng) 站、 一個網(wǎng)頁或一個文檔。第二種,用戶想要了解q的概貌(或者說概 要),這需要瀏覽一組網(wǎng)站、網(wǎng)頁或文件。通常,前一需求被稱為信息搜 索需求,后一需求被稱為信息瀏覽需求。
對于信息搜索需求來說,列表是一種很好的呈現(xiàn)搜索結(jié)果的方式。例 如搜索引擎(例如Google或者百度)就是一種典型的示例。在搜索引擎 中,網(wǎng)頁與查詢q的相關(guān)度越大,它在列表中的位置就越高,這樣用戶很 容易在列表中找到其感興趣的信息。
但是,對于信息瀏覽需求來說,列表方式就不適合了,因為用戶不得 不閱讀整個列表、思考并自己總結(jié)出概貌。這一過程費時且費力。與列表 相比,其他諸如層次結(jié)構(gòu)(hierarchy)、圖表(graph)或?qū)傩灾当?facet-value form) 的形式在呈現(xiàn)信息方面更加適合。在這里,層次結(jié)構(gòu)、圖表或 屬性值表被稱為"結(jié)構(gòu)"(structure)。依靠這樣的結(jié)構(gòu),人們可以很容 易地理解概要。 一個示例是在線購物站點"亞馬遜"(Amazon),它使用
5層次結(jié)構(gòu)(例如CD、 DVD和小說等分類)來呈現(xiàn)其所有商品。
對于信息瀏覽需求來說, 一個好的結(jié)構(gòu)可以便于人們理解概要,因
此,如何構(gòu)建好的結(jié)構(gòu)便成為一個重要的問題。
例如,傳統(tǒng)系統(tǒng)可以使用詞或詞組的并發(fā)來構(gòu)建層次結(jié)構(gòu)。例如,如
果兩個詞A和B經(jīng)常并發(fā),則認(rèn)為它們是相關(guān)的。進(jìn)而,如果A比B出
現(xiàn)得更頻繁,則把A作為B的父節(jié)點。圖l示出了以"軟件"作為査詢詞
的一個示例(http:〃clusty.com)。
在圖1中,層次結(jié)構(gòu)圖左側(cè)是該層次結(jié)構(gòu)的第一層。該第一層由諸如 "軟件下載"、"軟件頻道"、"Picasa"等的節(jié)點組成,這些詞都是檢
索出的頁面中的常見詞(或詞組)。其中,節(jié)點"軟件下載"具有子節(jié)
點,如"驅(qū)動下載,游戲下載"、"軟件教程"等,如圖2所示。如上所
述,"軟件下載"之所以是"軟件教程"的父節(jié)點是因為這兩個詞經(jīng)常在 頁面中并發(fā)并且"軟件下載"出現(xiàn)得比"軟件教程"更頻繁。
圖3是利用相同網(wǎng)站再一次運行"軟件"查詢所得到的結(jié)果。兩次査 詢結(jié)果有所不同。這種情況是可能的,因為后臺網(wǎng)頁可能在兩次查詢之間 被更新。關(guān)于上述構(gòu)建結(jié)構(gòu)的詳細(xì)描述,可以參見Lawrie, D., Croft, B.的 "Generating Hierarchical Summaries for Web Searches" , SIGIR 2003, 457-458頁。
然而,這樣所構(gòu)建的結(jié)構(gòu)通常不具有很好的可讀性,因而不那么令人 滿意。具體而言,可能有以下幾個問題
1. 結(jié)構(gòu)中的元素(element)可能是與査詢不相關(guān)的主題,例如圖1中 的"China" 、 "Wiki",以及圖3中的"版權(quán)所有"。這里,結(jié)構(gòu)中的元 素例如是指層次結(jié)構(gòu)和圖表中的節(jié)點,以及屬性值表中的屬性和值。由于 本說明書使用層次結(jié)構(gòu)作為說明樣例,所以在本說明書中,"元素"與
"節(jié)點"可以互換使用。
2. 結(jié)構(gòu)中的元素本身可能并不具有如結(jié)構(gòu)所顯示的那種關(guān)系,例如在 圖2中"軟件下載"是"軟件教程"的父節(jié)點,但是實際上這兩者并沒有 關(guān)系。
3. 大多數(shù)主題元素與用戶關(guān)心的內(nèi)容并不相符。圖4示出了包含詞"軟件"的某些用戶查詢的統(tǒng)計結(jié)果,從中可以看出,對于"軟件"査 詢,大多數(shù)人想要了解的是"殺毒軟件"、"天空軟件"等,而不是"軟
件頻道"、"Picasa"等等。
圖5示出了根據(jù)現(xiàn)有技術(shù)的相關(guān)查詢組織系統(tǒng)的示例。如圖5所示, 相關(guān)査詢組織系統(tǒng)IO包括輸入單元11、文檔存儲單元12、相關(guān)文檔過濾 單元13和結(jié)構(gòu)構(gòu)建單元14。輸入單元11接收用戶査詢q,并提供給相關(guān) 文檔過濾單元13。相關(guān)文檔過濾單元13訪問文檔存儲單元12,并從存儲 在文檔存儲單元12中的文檔集DS中選擇出與用戶查詢q相關(guān)的一個或多 個文檔DS一q,并將DS—q提供給結(jié)構(gòu)構(gòu)建單元14。結(jié)構(gòu)構(gòu)建單元14基于 所提供的DS一q來構(gòu)建結(jié)構(gòu),并輸出所述結(jié)構(gòu)以進(jìn)行顯示?;谖谋緲?gòu)建 結(jié)構(gòu)的方式對于本領(lǐng)域技術(shù)人員來說是公知的。
發(fā)明內(nèi)容
如上所述,傳統(tǒng)方法所構(gòu)建的結(jié)構(gòu)不具備好的可讀性,這是因為該結(jié) 構(gòu)是基于文檔構(gòu)建的。文檔并不是好的數(shù)據(jù)源。首先,文檔的文本長度很 長,因此很難從文檔中提取出主題。其次,即使正確地提取了主題,也很 難判斷出它們的相關(guān)度,因為它們在文檔中的位置可能很遠(yuǎn),或者即使很 近但是卻彼此毫無關(guān)聯(lián)(例如圖2中的"軟件下載"和"軟件教程"), 或者句子很復(fù)雜,難以分析出關(guān)系。
為此,本發(fā)明提供了一種相關(guān)査詢組織系統(tǒng)和方法。該系統(tǒng)包括用戶 査詢存儲單元,用于存儲用戶査詢集;輸入單元,用于輸入一個用戶査 詢;查詢過濾單元,用于從用戶査詢存儲單元存儲的用戶査詢集中選擇與 輸入的用戶查詢相關(guān)的査詢;以及結(jié)構(gòu)構(gòu)建單元,用于基于相關(guān)査詢構(gòu)建 結(jié)構(gòu)并獲取所述結(jié)構(gòu)以進(jìn)行顯示。
本發(fā)明的相關(guān)査詢組織方法包括以下步驟輸入一個用戶查詢;從預(yù) 先準(zhǔn)備好的用戶查詢集中選擇與輸入的用戶查詢相關(guān)的查詢;以及基于相 關(guān)查詢構(gòu)建結(jié)構(gòu)并顯示所述結(jié)構(gòu)。
基于用戶査詢構(gòu)建結(jié)構(gòu)與基于文檔的方法相比有以下優(yōu)點
1.用戶査詢通常是詞組或短句。相比于文檔的長句,其內(nèi)容更充實。因此,更容易提取出主題。例如,在圖4中,與查詢"軟件"相關(guān)的某些 査詢是"殺毒軟件"、"壓縮軟件"、"天空軟件"、"華軍軟件園"、 "軟件下載"。顯然,除了查詢詞"軟件"之外,幾乎所有詞都是主題。
2. 由于用戶查詢通常是詞組或短句,因此一個査詢中并發(fā)的兩個詞通 常具有某種關(guān)聯(lián)。例如,在"殺毒軟件"中,"殺毒"是"軟件"的功 能。
3. 用戶所輸入的査詢反映了用戶關(guān)心的內(nèi)容。例如,很多人發(fā)送查詢 "殺毒軟件",而只有很少人發(fā)送"Picasa",這說明,大多數(shù)人想了解
關(guān)于"殺毒軟件"的信息,而不太關(guān)心"Picasa"的信息。因此,基于相 關(guān)用戶查詢構(gòu)建的結(jié)構(gòu)可以滿足更多用戶的需求。
總地來說,通過基于用戶查詢而不是文檔來構(gòu)建結(jié)構(gòu),提高了所構(gòu)建 結(jié)構(gòu)的可讀性。
圖l示出了以"軟件"作為査詢詞的一個示例(http:〃clusty.com); 圖2進(jìn)一步示出了圖l的示例;
圖3示出了利用相同網(wǎng)站再一次運行"軟件"查詢所得到的結(jié)果; 圖4示出了包含詞"軟件"的某些用戶査詢的統(tǒng)計結(jié)果; 圖5示出了根據(jù)現(xiàn)有技術(shù)的査詢組織系統(tǒng)的示例; 圖6示出了根據(jù)本發(fā)明第一實施例的相關(guān)査詢組織系統(tǒng)的實施例; 圖7示出了根據(jù)本發(fā)明第二實施例的相關(guān)査詢組織系統(tǒng)的實施例; 圖8示出了根據(jù)本發(fā)明第三實施例的相關(guān)査詢組織系統(tǒng)的實施例; 圖9示出了查詢"軟件"所形成的結(jié)構(gòu)(層次結(jié)構(gòu))的一個示例; 圖10示出了根據(jù)本發(fā)明的結(jié)構(gòu)構(gòu)建單元104的構(gòu)造; 圖ll示出了群組形成的一個示例; 圖12示出了合并具有相同含義的元素的一個示例; 圖13示出了采用第二和第三種方法判斷"天空軟件"和"天空軟件 園"具有相同含義的示例;
圖14示出了構(gòu)建補充結(jié)構(gòu)的示例;以及圖15示出了根據(jù)本發(fā)明的相關(guān)查詢組織方法110。
具體實施例方式
圖6示出了根據(jù)本發(fā)明第一實施例的相關(guān)査詢組織系統(tǒng)的實施例。如 圖6所示,相關(guān)査詢組織系統(tǒng)IOO包括輸入單元101、用戶查詢存儲單元 102、查詢過濾單元103和結(jié)構(gòu)構(gòu)建單元104。輸入單元IOI用于接收來自 用戶的查詢q,并提供給查詢過濾單元103。用戶査詢存儲單元102存儲 了一組用戶查詢(也稱為用戶査詢集)QS, QS是事先在系統(tǒng)中存儲好 的,并且可以是固定的或隨時更新的。査詢過濾單元103接收來自輸入單 元101的用戶査詢q,并且從QS中選擇與q相關(guān)的一個或多個查詢(稱為 QS_q),并將選擇結(jié)果提供給結(jié)構(gòu)構(gòu)建單元104。結(jié)構(gòu)構(gòu)建單元104基于 該選擇結(jié)果(即與用戶査詢q相關(guān)的一個或多個查詢QS一q)來構(gòu)建結(jié)構(gòu) ST—q,并輸出所構(gòu)建的結(jié)構(gòu)以進(jìn)行顯示。這里,基于選擇結(jié)果(一個或多 個査詢QS_q)構(gòu)建結(jié)構(gòu)的技術(shù)是本領(lǐng)域技術(shù)人員公知的,并且在這里沒 有加以詳細(xì)描述。
圖7示出了根據(jù)本發(fā)明第二實施例的相關(guān)查詢組織系統(tǒng)的實施例。如 圖7所示,第二實施例的相關(guān)查詢組織系統(tǒng)200除了包括圖6的系統(tǒng)100 包括的那些組件以外,還包括文檔粘貼單元105,文檔粘貼單元105用于 接收來自結(jié)構(gòu)構(gòu)建單元104的構(gòu)建結(jié)構(gòu)ST一q,并將文檔粘貼到所述結(jié)構(gòu) 上,以獲取和輸出粘貼有文檔的結(jié)構(gòu)以進(jìn)行顯示。這里,由文檔粘貼單元 105粘貼的文檔可以是整個文檔集DS,也可以是從文檔集DS中選擇出 的、與輸入的用戶查詢q相關(guān)的一個或多個文檔。如上所述,這里從文檔 集DS中選擇與用戶查詢q相關(guān)的一個或多個文檔的操作是本領(lǐng)域技術(shù)人 員已知的,因此在這里不進(jìn)行詳細(xì)描述。與用戶査詢集QS類似,文檔集 DS是事先存儲好的,并且可以是固定的或隨時更新的。
圖8示出了根據(jù)本發(fā)明第三實施例的相關(guān)査詢組織系統(tǒng)的實施例。如 圖8所示,第三實施例的相關(guān)查詢組織系統(tǒng)300除了包括圖6的系統(tǒng)100 包括的那些組件以外,還包括用戶查詢修正單元106,該單元106用于基 于結(jié)構(gòu)構(gòu)建單元104所構(gòu)建的結(jié)構(gòu)來修正用戶查詢q。在106中,系統(tǒng)把104所構(gòu)建的結(jié)構(gòu)呈現(xiàn)給用戶,并由用戶從中選擇一個或多個元素代替用 戶原有的查詢。在現(xiàn)有的系統(tǒng)中,例如Google或者百度,當(dāng)用戶輸入一個 查詢時,系統(tǒng)通常會在返回頁面的下方給出一些"相關(guān)搜索",用戶可以 選擇一個代替原來的查詢。這種方式的缺點是當(dāng)"相關(guān)搜索"很多時,用 戶需要花較長的時間瀏覽相關(guān)搜索并從中選出替代査詢。而用結(jié)構(gòu)的方式 將所有相關(guān)搜索呈現(xiàn)給用戶,則可以減少用戶瀏覽和選出替代查詢的時 間,由此達(dá)到有利于用戶的目的。又例如,當(dāng)用戶輸入査詢"軟件"時, 在瀏覽了系統(tǒng)給出的結(jié)構(gòu)之后,可以很容易判斷出他/她實際想要查詢的是 "華軍軟件園",并且據(jù)此修正自己的査詢。
從上述實施例可以看出,在本發(fā)明的實施例中很重要的一點是從用戶 査詢集QS中選擇與輸入的用戶査詢q相關(guān)的一個或多個査詢QS—q。這就 需要判斷兩個用戶查詢的相關(guān)度,對于本領(lǐng)域技術(shù)人員來說,這種判斷技 術(shù)是公知的,并且可通過多種方式實現(xiàn)。例如,對于兩個用戶查詢ql和 q2來說,可以通過它們的重疊部分對它們的文本總長的比例來判斷。例 如,兩個用戶査詢ql和q2的相關(guān)度R(ql, q2)可以通過下式來計算 R(ql, q2) = 2*Len(0v(ql, q2))/(Len(ql)+Len(q2》
其中Len(w)是文本w的長度計算函數(shù),并且Ov(《/, g^)表示ql和q2 的重疊部分。在相關(guān)度R(ql, q2)的值超過預(yù)定義的閾值T (例如0.5)的 情況下,認(rèn)為這兩個用戶查詢ql和q2是彼此相關(guān)的。注意,上述通過重 疊部分比來判斷相關(guān)度的方法僅僅是一個示例,本發(fā)明的范圍并不限于 此。
圖9示出了査詢"軟件"所形成的結(jié)構(gòu)(層次結(jié)構(gòu))的一個示例。該 圖僅僅示出了由第一實施例的系統(tǒng)所構(gòu)建的結(jié)構(gòu),即,還未粘貼文檔的結(jié) 構(gòu)。如上所述,基于文本構(gòu)建結(jié)構(gòu)的方式是本領(lǐng)域技術(shù)人員公知的。以圖 9為例,首先,檢索出與查詢"軟件"相關(guān)的一個或多個用戶査詢,圖4 示出了這些相關(guān)查詢的一部分。然后,從這些查詢中提取出諸如"殺 毒"、"天空"之類的關(guān)鍵字(也就是前面提到的主題),接著,按照查 詢中關(guān)鍵字的并發(fā)來組織結(jié)構(gòu),這樣,就形成了如圖9所示的結(jié)構(gòu)。注 意,上述根據(jù)文本構(gòu)建結(jié)構(gòu)的方式僅僅是一個示例,本發(fā)明的范圍并不限于此。
圖IO示出了根據(jù)本發(fā)明的結(jié)構(gòu)構(gòu)建單元104的構(gòu)造。如圖IO所示, 結(jié)構(gòu)構(gòu)建單元104包括基礎(chǔ)結(jié)構(gòu)構(gòu)建單元1041和擴展處理單元1042?;?礎(chǔ)結(jié)構(gòu)構(gòu)建單元1041基于查詢過濾單元103給出的QS一q來構(gòu)建基礎(chǔ)結(jié) 構(gòu),并將所得到的基礎(chǔ)結(jié)構(gòu)提供給擴展處理單元1042。擴展處理單元 1042根據(jù)需要對基礎(chǔ)結(jié)構(gòu)進(jìn)行進(jìn)一步處理,以得到要顯示的結(jié)構(gòu)。如圖 IO所示,擴展處理單元1042可包括群組形成單元201、元素合并單元202 和結(jié)構(gòu)補充單元203。這三個單元是彼此獨立的,并且擴展處理單元1042 可包括這些單元中的任意一個,也可同時包括其中的任意兩個或全部,當(dāng) 然也可不包括這些單元中的任何一個(這時基礎(chǔ)結(jié)構(gòu)被輸出)。
需要注意的是,其中的結(jié)構(gòu)補充單元203用于在文檔粘貼單元105將 文檔粘貼到結(jié)構(gòu)ST—q上之后,當(dāng)所述結(jié)構(gòu)ST—q上的某個或某些元素粘貼 了超過預(yù)定數(shù)量的文檔時進(jìn)行結(jié)構(gòu)補充。此處的結(jié)構(gòu)ST—q可以是未進(jìn)行 任何擴展處理的基礎(chǔ)結(jié)構(gòu),也可以是已經(jīng)由群組形成單元201和元素合并 單元202中的任何一個或兩者進(jìn)行擴展處理后的結(jié)構(gòu)。
下面將詳細(xì)說明這三個單元。
群組形成單元201用于將構(gòu)建的結(jié)構(gòu)中的相關(guān)元素歸并到一個群組 中。具體而言,結(jié)構(gòu)中的某些元素可能屬于同一類別。如果這樣的元素可 以歸入一個群組中,則可以提高結(jié)構(gòu)的可讀性。例如,在圖9所示的結(jié)構(gòu) 中,"殺毒"和"壓縮"指的是軟件的類型,而"天空"和"華軍"指的 是兩個著名軟件站點的名稱。顯然,如果"殺毒"和"壓縮"被歸入一個 群組,"天空"和"華軍"被歸入另一個群組,則可以提高所形成結(jié)構(gòu)的 可讀性,并且用戶可以迅速理解"軟件"的含義和內(nèi)容,如圖11所示。
一種示例性的方法是根據(jù)節(jié)點的相關(guān)關(guān)鍵字來判斷多個元素是否應(yīng)該 被歸并到一個群組中。其基本原理是兩個元素el和e2共享的同樣的相關(guān) 關(guān)鍵字越多,則兩個元素el和e2就越有可能在同一群組中。例如,"殺 毒"和"壓縮"被歸入一個群組,因為它們都有同樣的相關(guān)關(guān)鍵字,如 "下載"、"免費"、"最新"…等等。這意味著有"殺毒軟件下載"、 "壓縮軟件下載"、"免費殺毒軟件"、"免費壓縮軟件"、"最新殺毒軟件"、"最新壓縮軟件"等相關(guān)查詢。而"天空"和"華軍"被歸入一 個群組,因為它們都有諸如"首頁"、"網(wǎng)站"、"論壇"、"排行"等 相關(guān)關(guān)鍵字。這意味著有"天空軟件首頁"、"華軍軟件首頁"、"天 空軟件網(wǎng)站"、"華軍軟件網(wǎng)站"、"天空軟件論壇"、"華軍軟件論 壇"、"天空軟件排行"、"華軍軟件排行"等相關(guān)査詢。
元素合并單元202用于將具有相同含義的元素合并為一個元素。具體 而言,在用戶給出某些查詢時,他們本來想尋求的是同一個答案。例如, 在圖9中,"天空"和其子節(jié)點"站"分別來源于査詢"天空軟件"和 "天空軟件站",但是這兩個査詢實際上指的是同一個站點
(www.skycn.com)。因此,將這兩個節(jié)點合并為一個節(jié)點有助于用戶更 容易理解概要,并且提高了結(jié)構(gòu)的可讀性。另一個示例是"華軍軟件"和
"華軍軟件園"。圖12示出了該示例。
為了實現(xiàn)上述目的,需要判斷什么樣的元素是具有相同含義的元素。 下面給出了三種判斷方法。這三種方法是彼此獨立的,可以獨立使用或者 結(jié)合使用。
第一種方法是拼寫校正方法。當(dāng)用戶輸入帶有拼寫錯誤的查詢詞時, 系統(tǒng)能夠通過某些自動的或人工的方式檢査出這些錯誤,并且給出正確拼 寫的査詢詞。某些搜索引擎提供了這種方法。例如,當(dāng)用戶輸入查詢"普 爾茶"時,搜索引擎可能詢問"您查詢的是不是'普洱茶'?"。當(dāng)系統(tǒng) 確定某個査詢有拼寫錯誤,則把它合并到正確拼寫的元素上。例如,在這 個例子中,系統(tǒng)將兩個查詢"普爾茶"和"普洱茶"合并為一個節(jié)點。
第二種方法是判斷兩個元素所粘貼文檔的共享比例。例如,對于兩個 元素el和e2,計算它們的共享文檔對它們的總文檔的比例。如果該比例 高于某個預(yù)定義的閾值,則認(rèn)為這兩個元素具有相同含義,并且它們應(yīng)當(dāng) 被合并為一個元素。
第三種方法是在粘貼文檔中檢査查詢詞發(fā)生處的文本。例如,當(dāng)元素 el是e2的簡寫,如el="天空軟件"、e2="天空軟件園"的情況下,檢 查粘貼到這兩個元素的文檔。如果在el出現(xiàn)的情況下e2也出現(xiàn),則認(rèn)為 元素el和e2具有相同含義。
12圖13示出了采用第二 (Method 2)和第三(Method 3)種方法判斷 "天空軟件"和"天空軟件園"具有相同含義的示例。
結(jié)構(gòu)補充單元203用于為某些元素構(gòu)建補充結(jié)構(gòu),這些元素通常粘貼 有大量文檔,并且沒有子結(jié)構(gòu),或者即使有子結(jié)構(gòu),也不能把這些文檔粘 貼到子結(jié)構(gòu)中的元素中。這種元素的典型示例是元素"其他" (others), 一般來說,所有的不能被當(dāng)前結(jié)構(gòu)所覆蓋的文檔都可粘貼到 元素"其他",所以"其他"常常粘貼有大量文檔。另外,相關(guān)查詢很少 的主題對應(yīng)的元素也常常粘貼有大量文檔。
很顯然,對粘貼有大量文檔的元素,用戶需要花大量的時間和精力瀏 覽這些文檔才能了解元素的全貌。而通過結(jié)構(gòu)補充單元為這樣的元素構(gòu)建 補充結(jié)構(gòu),可以減少用戶所花的時間和精力。圖14示出了形成諸如"新 聞"之類的補充元素的示例。注意,結(jié)構(gòu)補充單元可以采用基于文檔的傳 統(tǒng)結(jié)構(gòu)構(gòu)建方法。
圖15示出了根據(jù)本發(fā)明的相關(guān)査詢組織方法110。該方法可以由根據(jù) 本發(fā)明的相關(guān)査詢組織系統(tǒng)100、 200或300執(zhí)行。該方法開始于步驟 301。在步驟301,輸入一個用戶查詢q。在步驟302,從預(yù)先準(zhǔn)備的用戶 查詢集QS中選擇與輸入的用戶查詢q相關(guān)的査詢QS一q并獲取選擇結(jié) 果。在步驟303,基于選擇結(jié)果構(gòu)建結(jié)構(gòu)并顯示該結(jié)構(gòu)。在步驟304,在 必要時(即,在需要顯示粘貼有文檔的結(jié)構(gòu)時)將文檔粘貼到所述結(jié)構(gòu)上 并獲取粘貼有文檔的結(jié)構(gòu)以進(jìn)行顯示。在步驟304',基于所構(gòu)建的結(jié)構(gòu)對 用戶查詢q進(jìn)行修正。步驟304和304'不是必需的,而是可根據(jù)需要選擇 執(zhí)行。如上所述,粘貼的文檔可以是整個文檔集DS,也可以是從文檔集 DS中選擇的與輸入的用戶査詢q相關(guān)的一個或多個文檔DS_q。用戶查詢 集QS和文檔集DS都是系統(tǒng)預(yù)先準(zhǔn)備好的,并且可以是固定的或隨時更 新的。接著,在步驟305,該方法結(jié)束。
上述實施例可以有各種修改、組合和替換。例如,在本發(fā)明的相關(guān)查 詢組織系統(tǒng)100中,在單元103和104之間還可以有一個存儲單元,用于 臨時存儲所選擇的與用戶査詢q相關(guān)的一個或多個査詢QS—q。并且,在 單元104輸出所構(gòu)建的結(jié)構(gòu)之前,也可以對該結(jié)構(gòu)進(jìn)行臨時存儲,然后再輸出到外部以進(jìn)行顯示。所有這些修改都是本領(lǐng)域技術(shù)人員能夠意識到 的。
應(yīng)當(dāng)理解,本發(fā)明并不限于上述實施例。本發(fā)明的范圍應(yīng)當(dāng)由權(quán)利要 求限定。
權(quán)利要求
1.一種相關(guān)查詢組織系統(tǒng),包括用戶查詢存儲單元,用于存儲用戶查詢集;輸入單元,用于輸入一個用戶查詢;查詢過濾單元,用于從所述用戶查詢存儲單元存儲的所述用戶查詢集中選擇與輸入的所述用戶查詢相關(guān)的查詢并獲取選擇結(jié)果;以及結(jié)構(gòu)構(gòu)建單元,用于基于所述選擇結(jié)果構(gòu)建結(jié)構(gòu)并獲取所述結(jié)構(gòu)以進(jìn)行顯示。
2. 如權(quán)利要求1所述的系統(tǒng),包括-文檔粘貼單元,用于將文檔粘貼到所述結(jié)構(gòu)上并獲取粘貼有文檔的結(jié) 構(gòu)以進(jìn)行顯示。
3. 如權(quán)利要求2所述的系統(tǒng),其中所述文檔是從文檔集中選擇出的、 與輸入的所述用戶查詢相關(guān)的文檔。
4. 如權(quán)利要求l所述的系統(tǒng),包括用戶査詢修正單元,用于基于所述結(jié)構(gòu)修正所述用戶查詢。
5. 如權(quán)利要求1或2所述的系統(tǒng),其中所述結(jié)構(gòu)構(gòu)建單元包括-基礎(chǔ)結(jié)構(gòu)構(gòu)建單元,用于基于所述選擇結(jié)果構(gòu)建基礎(chǔ)結(jié)構(gòu);以及 擴展處理單元,用于對所構(gòu)建的基礎(chǔ)結(jié)構(gòu)進(jìn)行擴展處理以獲取要顯示的所述結(jié)構(gòu)。
6. 如權(quán)利要求5所述的系統(tǒng),其中所述擴展處理單元包括群組形成單元,所述群組形成單元用于將所述 基礎(chǔ)結(jié)構(gòu)中的相關(guān)元素歸并到一個群組中。
7. 如權(quán)利要求5所述的系統(tǒng),其中所述擴展處理單元包括元素合并單元,所述元素合并單元用于將所述 基礎(chǔ)結(jié)構(gòu)中具有相同含義的元素合并為一個元素。
8. 如權(quán)利要求7所述的系統(tǒng),其中所述元素合并單元使用拼寫校正方法來識別具有相同含義的元素。
9. 如權(quán)利要求7所述的系統(tǒng),其中所述元素合并單元使用共享文檔比來識別具有相同含義的元素。
10. 如權(quán)利要求7所述的系統(tǒng),其中所述元素合并單元使用粘貼文檔檢査方法來識別具有相同含義的元素。
11. 如權(quán)利要求5所述的系統(tǒng),其中所述擴展處理單元包括結(jié)構(gòu)補充單元,所述結(jié)構(gòu)補充單元為所述文檔 粘貼單元在結(jié)構(gòu)上粘貼了超過預(yù)定數(shù)量的文檔的元素構(gòu)建補充結(jié)構(gòu)。
12. 如權(quán)利要求1所述的系統(tǒng),其中所述結(jié)構(gòu)是層次結(jié)構(gòu)、圖表或?qū)?性值表的形式。
13. —種相關(guān)査詢組織方法,包括 輸入一個用戶査詢;從預(yù)先準(zhǔn)備的用戶査詢集中選擇與輸入的所述用戶査詢相關(guān)的査詢并獲取選擇結(jié)果;以及基于所述選擇結(jié)果構(gòu)建結(jié)構(gòu)并顯示所述結(jié)構(gòu)。
14. 如權(quán)利要求13所述的方法,包括將文檔粘貼到所述結(jié)構(gòu)上并獲取粘貼有文檔的結(jié)構(gòu)以進(jìn)行顯示。
15. 如權(quán)利要求14所述的方法,其中所述文檔是從文檔集中選擇出 的、與輸入的所述用戶査詢相關(guān)的文檔。
16. 如權(quán)利要求13所述的方法,包括基于所述結(jié)構(gòu)對所述用戶查詢進(jìn)行修正。
17. 如權(quán)利要求13或14所述的方法,其中-構(gòu)建結(jié)構(gòu)的步驟包括基于所述選擇結(jié)果構(gòu)建基礎(chǔ)結(jié)構(gòu),并且對所構(gòu)建 的基礎(chǔ)結(jié)構(gòu)進(jìn)行擴展處理以獲取要顯示的所述結(jié)構(gòu)。
18. 如權(quán)利要求17所述的方法,其中所述擴展處理包括將所述基礎(chǔ)結(jié)構(gòu)中的相關(guān)元素歸并到一個群組中。
19. 如權(quán)利要求17所述的方法,其中所述擴展處理包括將所述基礎(chǔ)結(jié)構(gòu)中具有相同含義的元素合并為一個元素。
20. 如權(quán)利要求19所述的方法,其中所述合并具有相同含義的元素的步驟使用拼寫校正方法來識別具有相 同含義的元素。
21. 如權(quán)利要求19所述的方法,其中所述合并具有相同含義的元素的步驟使用共享文檔比來識別具有相同 含義的元素。
22. 如權(quán)利要求19所述的方法,其中所述合并具有相同含義的元素的步驟使用粘貼文檔檢査方法來識別具 有相同含義的元素。
23. 如權(quán)利要求17所述的方法,其中所述擴展處理包括為粘貼有超過預(yù)定數(shù)量的文檔的元素構(gòu)建補充結(jié)構(gòu)。
24. 如權(quán)利要求13所述的方法,其中所述結(jié)構(gòu)是層次結(jié)構(gòu)、圖表或?qū)?性值表的形式。
全文摘要
本發(fā)明公開了一種相關(guān)查詢組織系統(tǒng)和方法。該系統(tǒng)包括用戶查詢存儲單元,用于存儲用戶查詢集;輸入單元,用于輸入一個用戶查詢;查詢過濾單元,用于從用戶查詢存儲單元存儲的用戶查詢集中選擇與輸入的用戶查詢相關(guān)的查詢并獲取選擇結(jié)果;以及結(jié)構(gòu)構(gòu)建單元,用于基于選擇結(jié)果構(gòu)建結(jié)構(gòu)并獲取所述結(jié)構(gòu)以進(jìn)行顯示。
文檔編號G06F17/30GK101599065SQ20081011125
公開日2009年12月9日 申請日期2008年6月5日 優(yōu)先權(quán)日2008年6月5日
發(fā)明者胡長建, 凱 趙, 岷 趙, 邱立坤 申請人:日電(中國)有限公司