專利名稱:利用本體按照相關度對記錄排序的制作方法
技術領域:
本發(fā)明總體上涉及一種用于搜索記錄的方法,更具體地,本發(fā)明涉及一種利用搜索查詢(search query)來搜索數(shù)據(jù)庫中的一組結果并且利用預定的領域本體(domain ontology)按相關度的次序顯示所述結果的方法。
背景技術:
信息是任何大或小的組織的最重要的財產(chǎn)。對存儲的信息進行管理是全世界各組織正面臨的最大挑戰(zhàn)之一。辛苦地讀完龐大的數(shù)據(jù)庫并獲取與用戶查詢最相關的記錄的問題,具有很大的優(yōu)先級。在汽車工業(yè)中這個問題具有同等的相關度(relevance)。在汽車工業(yè)中,作為高效的數(shù)據(jù)檢索系統(tǒng),搜索引擎幾乎已變得必不可少。目前可利用的搜索引擎大部分是匹配引擎(matching engine),匹配引擎將用戶搜索查詢的詞與數(shù)據(jù)庫中可利用的數(shù)據(jù)進行匹配并在此匹配的基礎上獲取記錄。然而,僅有少數(shù)的使用用于數(shù)據(jù)挖掘的其它邏輯的搜索引擎。此外,目前搜索引擎中的一些搜索引擎,甚至不能按記錄與查詢中鍵入內(nèi)容之間的相關度的次序來顯示檢索出的記錄。這有時會導致用戶漏掉最相關的記錄中的一些記錄,因為任何用戶的注意廣度是有限的。因此,需要開發(fā)出用于數(shù)據(jù)檢索系統(tǒng)的更好的策略,所述數(shù)據(jù)檢索系統(tǒng)基于檢索記錄與鍵入的查詢內(nèi)容之間的相關度來顯示檢索記錄, 因為這樣節(jié)省用戶的時間和工作量。搜索引擎通常使用基于詞或基于字符的搜索。然而,在檢索并顯示搜索查詢的結果時,搜索引擎僅偏向于查詢內(nèi)容在文獻中出現(xiàn)的數(shù)量,但卻不偏向于領域或者查詢內(nèi)容與該領域的緊密度。在其它現(xiàn)有的用于特定領域(如汽車)的搜索策略或搜索引擎中,采用基于非本體的方法。在這種方法中,搜索查詢的結果的相關度受到它與用戶感興趣領域的緊密度的影響,但該緊密度只是在結果中所包含文本的基礎上而不是在結果中所包含概念的基礎上所決定的。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的教導,公開了一種基于領域本體來檢索搜索查詢的結果的方法,該方法在按相關度的次序顯示一組結果中具有特定應用,其中根據(jù)領域本體來決定各結果的相關度。在此方法中,要被顯示的一組結果是在搜索查詢的基礎上而獲得的。搜索查詢是由用戶輸入并且包含一個或多個短語(Phrase),其中各短語是由至少一個詞所組成。該方法包括從搜索查詢的一個或多個短語中選擇第一組短語,使得第一組短語的各短語存在于預定的領域本體中。該方法還包括從給定的一組記錄中檢索出要被顯示的一組結果,使得搜索查詢的至少一個短語存在于各結果中。此外,獲得與所述一組結果的各結果相對應的第二組短語,使得第二組短語的各短語存在于預定的領域本體以及所述一組結果的各結果中。然后,在與所述一組結果的各結果相對應的第二組短語的各短語和所述一組短語的各短語之間的預定關系的基礎上,獲得與所述一組結果的各結果相對應的緊密度參數(shù),其中所述預定關系是基于預定的領域本體。最后,按相關度的次序顯示所述一組結果,其中所述一組結果的各結果的相關度是基于所述一組結果的各結果的緊密度參數(shù)。根據(jù)下面的描述和所附權利要求并結合附圖,本發(fā)明的其它特征將變得顯而易見。
圖1是顯示按照利用本體所確定的相關度的次序來顯示搜索查詢的結果的方法的流程圖。圖2是顯示用于確定圖1中所示流程圖中的記錄等級的過程的流程圖。圖3示出領域本體的實例并且顯示拓撲的一部分。圖4是說明利用本體來應對搜索查詢的系統(tǒng)的方框圖。
具體實施例方式以下對涉及基于領域本體并按相關度次序來檢索記錄的方法的本發(fā)明實施例的描述,在本質上僅僅是示例性的,而絕不是意圖限制本發(fā)明或者其應用或用途。例如, 本發(fā)明的基于領域本體并按相關度的次序檢索記錄的方法,在客戶友好型保證數(shù)據(jù)庫 (warranty database)中或者在包含制造單元中出現(xiàn)的事件的歷史的數(shù)據(jù)庫中具有特定應用。然而,正如本領域技術人員將會理解的,基于領域本體并按相關度的次序檢索記錄的方法可具有其它應用。圖1是說明利用本體來決定搜索查詢的結果相關度的方法的流程圖10。該方法始于橢圓形框12。在方框14,將來自用戶的搜索查詢、領域本體以及一組記錄或數(shù)據(jù)庫(在下文中可互換地使用)輸入從而執(zhí)行搜索。本體通常表示在某一領域內(nèi)的一組概念以及這些概念之間的關系。領域本體使特定領域模型化,并且解釋當術語應用于該領域時該術語的含義。所述領域可以從一個或多個領域(如汽車、計算機、嵌入式系統(tǒng)和機械電子學)中選擇,但并不局限于這些單獨的領域。特定領域的主題專家通常是領域本體的設計者。本體的設計包括建立存在于該領域中的各種概念之間的關系。在所考慮的本體中,對于各關系,主題專家還規(guī)定顯示關系緊密度的正整數(shù)值(值越小,關系越緊密)。通常,創(chuàng)建本體的任務包括從該領域中取出相關的元素或短語并通過給兩個短語賦值而建立這兩個短語之間的關系。領域專家繼續(xù)取出短語并利用這些短語的緊密度來建立短語之間關系的此過程, 由此將所有短語相互連接而形成拓撲并因此形成本體。拓撲可以呈現(xiàn)多種形式,最常見的是清楚表示各元素(亦即各短語)之間關系的樹形結構。此外,每當新短語出現(xiàn)時,可以對本體進行更新也可以進行擴展。因此證明,如果將本體的這些特征整合入搜索算法則是有益的。在方框14由用戶所給予的搜索查詢中包含一個或多個短語。在決定菱形框16,算法確定查詢是否不包含來自本體的短語,如果結果為肯定,那么在方框18算法進行檢索并顯示記錄。如果在決定菱形框16確定查詢確實包含來自本體的短語,那么在方框20算法檢索記錄然后在決定菱形框22確定記錄是否再次不包含來自本體的短語。如果在決定菱形框22確定記錄不包含來自本體的短語,那么在方框M算法將記錄放置于集合SO中,否則在方框沈算法將記錄放置于集合Sl中。然后,在決定菱形框觀算法確定是否存在任何更多的記錄,如果存在,那么算法返回至方框20以檢索更多的記錄。否則,在決定菱形框30算法確定集合Sl是否為空,如果集合Sl不是空的,那么在方框32算法確定記錄的等級。圖2是顯示在方框32確定記錄等級的過程的流程圖34,該過程始于橢圓形框36 并在方框38設定變量D=O。然后,在方框40算法獲取一對短語pi和p2,其中pi屬于查詢而P2屬于記錄。然后,在方框42算法基于本體而找到短語pi與p2之間的距離,在方框44 設定D=D+短語pi與p2之間的距離。然后,在決定菱形框46算法確定算法是否已到達短語對的結束,如果結果為否,那么算法返回至方框40以獲取下一對短語pi和p2。如果在決定菱形框46算法確定短語對已結束,那么在方框48算法將“短語對的數(shù)量”的等級確定為 "D/短語對的數(shù)量”。返回至圖1,在方框32的算法確定記錄的等級之后,在方框50算法利用等級對集合Sl進行排序并且在方框52顯示集合Sl。如果在決定菱形框30集合Sl是空的并且在顯示集合Sl之后,在方框M顯示集合SO。圖3是屬于汽車領域的本體的小區(qū)段60,小區(qū)段60顯示詞“門”與其它短語或與 “門”相關的詞之間的拓撲互連。區(qū)段60顯示了一個示例性場景,其中,用戶輸入由包含單個詞“門”的短語所組成的搜索查詢從而在屬于汽車領域的一組記錄中搜索。首先,從所述一組記錄中檢索出包含詞“門”的結果并將該結果放置于結果集中?,F(xiàn)在,在領域本體中搜索詞“門”。圖中顯示詞“門,,與兩個術語即“間隙”和“支柱”共享預定的關系?!伴g隙”和 “支柱”在拓撲中則轉而連接到“A-間隙”和“A-支柱”。如此創(chuàng)建的結果集中包含兩個結果其中存在有短語“A-間隙”的結果1、和其中存在有短語“A-支柱”的結果2。第二組短語是由結果1和結果2而獲得,并且這些短語應當存在于領域本體中。由結果1獲得的短語將是“A-間隙”,由結果2獲得的短語將是“A-支柱”。將在最終結果集中顯示這些記錄所遵循的相關度次序,取決于賦予給這些記錄的緊密度參數(shù)。按圖1中所示方式,計算緊密度參數(shù)。計算出的“門”與“A-間隙”(第1對) 以及“門”與“A-支柱”(第2對)之間的最短距離分別為3和5。在這種情況下,緊密度參數(shù)等于最短距離,因為搜索查詢是由包含單個詞的一個短語所組成而不是由多個短語所組成。現(xiàn)在,按結果的緊密度參數(shù)的升序對這兩個結果進行排序,并且將所述兩個結果顯示給用戶??梢钥闯?,包含短語“A-間隙”的結果的相關度更大,并且將包含短語“A-間隙”的結果列在包含短語“A-支柱”的結果的前面。圖4是說明利用本體來應對搜索查詢的系統(tǒng)70的方框圖。圖中顯示系統(tǒng)70包括用于接收搜索查詢的用戶界面72。搜索查詢?nèi)鐖D1中所示。然后,將搜索查詢輸入搜索模塊74。搜索模塊74進一步連接到數(shù)據(jù)庫76,數(shù)據(jù)庫76包含屬于系統(tǒng)70所應用領域的一組記錄。搜索模塊74接收來自用戶界面72的搜索查詢,并從數(shù)據(jù)庫76中所包含記錄中選擇出一組結果。利用圖1中所示過程對結果進行選擇。搜索模塊74進一步基于各結果的緊密度參數(shù)并按相關度的次序對所選擇結果進行排序。對結果進行排序的過程如圖1中所示。在一個實施例中,搜索模塊74用于利用圖1中所示過程來計算各結果的緊密度參數(shù)。 最后,經(jīng)用戶界面72按相關度的次序顯示所述一組結果。本發(fā)明的各種實施例提供一個或多個優(yōu)點。本發(fā)明提供一種利用本體來搜索結果并按相關度的次序顯示這些結果的方法。該方法采用獨特的搜索策略進行搜索并在相關度較低的記錄前面列出相關度較高的記錄,并且確保不會由于用戶有限的注意廣度而漏掉相關的結果。 前面的描述僅僅公開并描述了本發(fā)明的示例性實施例。根據(jù)上述描述以及附圖和權利要求,本領域技術人員將容易地認識到,在不脫離所附權利要求中所限定本發(fā)明精神和范圍的前提下可以在其中做出各種變化、修改和變型。
權利要求
1.一種按相關度的次序顯示搜索查詢的一組結果的方法,其中,所述一組結果選自給定的一組記錄,其中,所述給定的一組記錄屬于一個領域,其中,所述領域具有預定的領域本體,其中,所述搜索查詢以一個或多個短語的形式而被輸入,其中,所述一個或多個短語的各短語由至少一個詞所組成,所述方法包括從所述搜索查詢的一個或多個短語中選擇第一組短語,其中,所述第一組短語的各短語存在于所述預定的領域本體中;從所述給定的一組記錄中檢索出所述一組結果,其中,所述搜索查詢的一個或多個短語的至少一個短語存在于所述一組結果的各結果中;獲得與所述一組結果的各結果相對應的第二組短語,其中,所述第二組短語的各短語存在于所述預定的領域本體以及所述一組結果的各結果中;獲得與所述一組結果的各結果相對應的緊密度參數(shù),其中,在與所述一組結果的各結果相對應的第二組短語的各短語和所述第一組短語的各短語之間的預定關系的基礎上,獲得所述緊密度參數(shù),其中,所述預定關系是基于所述預定的領域本體;以及按照相關度的次序顯示所述一組結果,其中,所述相關度的次序是基于所述一組結果的各結果的緊密度參數(shù)。
2.如權利要求1所述的方法,其中,所述領域能夠從包括但不限于汽車、計算機、嵌入式系統(tǒng)和機械電子學的組中選擇。
3.如權利要求1所述的方法,其中,在給定的拓撲中將所述領域本體的所有短語彼此相互連接,其中,在各預定關系的基礎上建立所述拓撲。
4.如權利要求3所述的方法,其中,在所述拓撲中相互連接的給定的一對短語之間的預定關系由正整數(shù)表示,其中,所述正整數(shù)由領域專家賦予。
5.如權利要求3所述的方法,其中,較小的正整數(shù)表示在所述給定的一對短語之間的更緊密關系。
6.如權利要求3所述的方法,其中,所述拓撲能夠采用樹的形式。
7.如權利要求4所述的方法,其中,從所述給定的一對短語的第一短語穿到第二短語時發(fā)現(xiàn)的所有正整數(shù)的總和,被認為是所述給定的一對短語之間的最短距離。
8.如權利要求1所述的方法,其中,與所述一組結果的各結果相對應的緊密度參數(shù)是各對短語之間的最短距離的平均值,所述各對短語是通過從所述第一組短語中取出一個短語并從與所述一組結果的各結果相對應的所述第二組短語中取出另一個短語而形成的。
9.如權利要求1所述的方法,其中,通過按所述緊密度參數(shù)的升序對所述一組結果進行排序,而按照相關度的次序顯示所述一組結果。
10.如權利要求1所述的方法,其中,所述給定的一組記錄是數(shù)據(jù)庫。
11.一種應對搜索查詢的系統(tǒng),所述系統(tǒng)能夠用于一個領域中,所述領域具有預定的領域本體,其中,所述搜索查詢包含一個或多個短語,所述一個或多個短語的各短語由至少一個詞所組成,所述系統(tǒng)包括用于獲得所述搜索查詢的用戶界面;包含屬于所述領域的一組記錄的數(shù)據(jù)庫;以及搜索模塊,用來基于所述搜索查詢從所述數(shù)據(jù)庫所包含的所述一組記錄中檢索出一組結果,其中,所述搜索模塊按相關度的次序對結果進行排序,所述相關度的次序是基于與所述一組結果的各結果相對應的緊密度參數(shù),其中,與結果相對應的緊密度參數(shù)基于所述預定的領域本體而計算出,其中,經(jīng)所述用戶界面按相關度的次序顯示所述一組結果。
12.如權利要求11所述的系統(tǒng),其中,所述領域本體包含在給定的拓撲中彼此相互連接的短語,其中,根據(jù)各預定關系建立所述拓撲。
13.如權利要求12所述的系統(tǒng),其中,在所述拓撲中相互連接的給定的一對短語之間的預定關系由領域專家賦予,其中,所述預定關系由正整數(shù)表示。
14.如權利要求12所述的系統(tǒng),其中,較小的正整數(shù)表示在所述給定的一對短語之間的更緊密關系。
15.如權利要求12所述的系統(tǒng),其中,所述拓撲能夠采用樹的形式。
16.如權利要求15所述的系統(tǒng),其中,從所述給定的一對短語的第一短語穿到第二短語時所發(fā)現(xiàn)的所有正整數(shù)的總和,被認為是所述給定的一對短語之間的最短距離。
17.如權利要求15所述的系統(tǒng),其中,與所述一組結果的各結果相對應的緊密度參數(shù)是各對短語之間的最短距離的平均值,所述各對短語是通過從所述搜索查詢所包含的第一組短語中取出一個短語并從與所述一組結果的各結果相對應的第二組短語中取出另一個短語而形成的。
18.如權利要求11所述的系統(tǒng),其中,通過按升序對所述一組結果中所包含結果的緊密度參數(shù)進行排列,而對所述一組結果進行排序。
19.如權利要求11所述的系統(tǒng),其中,所述緊密度參數(shù)由所述搜索模塊計算出。
20.一種應對搜索查詢的方法,所述方法能夠用于一個領域中,所述領域具有預定的領域本體,其中,所述搜索查詢包含一個或多個短語,所述一個或多個短語的各短語由至少一個詞所組成,所述方法包括從所述搜索查詢的所述一個或多個短語中選擇第一組短語,其中,所述第一組短語的各短語存在于所述預定的領域本體中;從數(shù)據(jù)庫中檢索出所述一組結果,其中,所述搜索查詢的所述一個或多個短語中的至少一個短語存在于所述一組結果的各結果中;獲得與所述一組結果的各結果相對應的第二組短語,其中,所述第二組短語的各短語存在于所述預定的領域本體以及所述一組結果的各結果中;獲得與所述一組結果的各結果相對應的緊密度參數(shù),其中,在與所述一組結果的各結果相對應的第二組短語的各短語和所述第一組短語的各短語之間預定關系的基礎上獲得所述緊密度參數(shù),其中,所述預定關系是基于所述預定的領域本體;以及按照所述相關度的次序顯示所述一組結果,其中,所述相關度的次序是基于所述一組結果的各結果的緊密度參數(shù)。
全文摘要
本發(fā)明涉及一種基于預定的領域本體并按相關度的次序檢索記錄的方法。在預定的領域本體的基礎上,確定所執(zhí)行搜索的各結果的相關度。本發(fā)明的方法包括獲得包含一個或多個短語的搜索查詢,作為來自用戶的輸入。然后,基于輸入的搜索查詢,從給定的一組記錄檢索出一組結果。本發(fā)明的方法還包括基于領域本體,計算并賦予與所述一組結果的各結果相對應的緊密度參數(shù)。最后,通過按升序對所述一組結果中存在的各記錄的緊密度參數(shù)進行排序,而按相關度的次序顯示所述一組結果。
文檔編號G06F7/76GK102439592SQ201080014592
公開日2012年5月2日 申請日期2010年3月23日 優(yōu)先權日2009年3月30日
發(fā)明者查克拉巴蒂 S. 申請人:通用汽車環(huán)球科技運作有限責任公司