專利名稱:用于提供基于標記語言的限定詞的方法和系統(tǒng)的制作方法
技術領域:
本公開內容一般涉及內容管理應用中的語義搜索,特別涉及一種用于處理作為術語(terms)出現(xiàn)在文檔內容中的語義主題(subject)的方法、設備和程序存儲裝置。
背景技術:
內容管理應用管理數(shù)據(jù)集合,并且用來節(jié)省數(shù)據(jù)搜索和檢索時間。在計算機應用中,客戶端處理在本地或客戶端計算機上運行,其訪問和更新例如位于運行服務器處理的遠程或服務器計算機上的數(shù)據(jù)庫。客戶端處理和服務器處理可以通過網(wǎng)絡或網(wǎng)絡集合如因特網(wǎng)而連接到一起??蛻舳颂幚淼睦邮侨f維網(wǎng)瀏覽器或電子表格程序,并且服務器處理的例子是萬維網(wǎng)服務器或數(shù)據(jù)庫服務器。
因特網(wǎng)通過超文本傳輸協(xié)議(HTTP)交換信息。針對商業(yè)和非商業(yè)用途的因特網(wǎng)計算機網(wǎng)絡的使用正在迅速擴展。通過其網(wǎng)絡,因特網(wǎng)計算機網(wǎng)絡使世界各地的很多用戶能夠訪問在不同位置存儲的數(shù)據(jù)源(例如,內容管理應用)中所存儲的信息。
萬維網(wǎng)(即,“WWW”或“Web”)是在因特網(wǎng)計算機網(wǎng)絡上使用的超文本信息和通信系統(tǒng),其中根據(jù)客戶端/服務器模型進行數(shù)據(jù)通信。典型地,萬維網(wǎng)客戶端計算機將向萬維網(wǎng)服務器軟件所駐留的萬維網(wǎng)服務器計算機請求在數(shù)據(jù)源中存儲的數(shù)據(jù)。萬維網(wǎng)服務器軟件與這樣的接口交互,其中該接口例如連接到與其它數(shù)據(jù)源相連接的內容管理應用系統(tǒng)。然后,在萬維網(wǎng)服務器計算機上駐留的計算機程序可以檢索數(shù)據(jù),并且將數(shù)據(jù)傳送到客戶端計算機。所檢索的數(shù)據(jù)可以是任何類型的信息,包括數(shù)據(jù)庫數(shù)據(jù)、靜態(tài)數(shù)據(jù)、HTML數(shù)據(jù)、或動態(tài)生成的數(shù)據(jù)。
伴隨著因特網(wǎng)和萬維網(wǎng)(也被稱為“WWW”或“Web”)的日益普及的是對數(shù)據(jù)庫進行萬維網(wǎng)訪問的快速增長的需求。因此,數(shù)據(jù)庫搜索變得日益重要。并且隨著數(shù)據(jù)繼續(xù)增長,變得更加難以向信息提供基于簡單菜單的導航系統(tǒng),并且通過用戶的數(shù)據(jù)庫搜索是更高效的信息查找方法。
為了解決該需求,以可擴展標記語言(XML)創(chuàng)作萬維網(wǎng)內容,其中可擴展標記語言向用戶提供了定義他們自己的標簽的能力。標簽是關鍵字,其識別與標簽相關聯(lián)的數(shù)據(jù)是什么,并且典型地由以特殊字符包圍的字符串組成,例如,給定文本是否是標題或段落。這使XML成為非常強大的語言,其使用戶能夠容易地定義可以針對每個文檔而變化的數(shù)據(jù)模型,這為創(chuàng)作者提供了創(chuàng)建定制標記語言以適合特定類型的文檔的方法。
可以將XML比作超文本標記語言(HTML)文件,因為這兩者都是基于標準通用標記語言(SGML),并且都使用標簽來傳達有關萬維網(wǎng)文檔結構的基本信息。然而,HTML文檔的樣式和邏輯是硬編碼的,并且有限數(shù)目的HTML元素標簽可用。結果,HTML標簽沒有定義每個頁元素的含義。在XML中,每個文檔是對象,并且文檔的每個元素是對象。典型地,在XML語法如文檔類型定義(DTD)、XML模式(Schema)定義或Relax NG語法中規(guī)定文檔的邏輯結構。創(chuàng)作者可以使用DTD為文檔定義一組標簽的語法,以便給定的應用程序可以驗證標簽的正確使用。DTD包括一組元素及其屬性,以及每個元素與其它元素的關系的規(guī)定。一旦定義了元素,它就可以與樣式單、腳本、HTML代碼等相關聯(lián)。這樣,創(chuàng)作者可以用XML定義他或她自己的標簽和屬性,以識別文檔的語義元素,然后,可以自動地對其進行驗證。
當應用程序根據(jù)特定的XML數(shù)據(jù)模型為文檔生成XML標簽(和對應的數(shù)據(jù))并且將該文檔傳送到也理解該數(shù)據(jù)模型的另一應用程序時,XML表示法起到管道作用,這使信息能夠從一個應用程序平滑傳輸?shù)搅硪粦贸绦?。通過從所接收的文檔解析數(shù)據(jù)模型的標簽,接收應用程序可以按照生成應用程序所計劃的那樣,重建用于顯示、打印或其它處理的信息。相反地,HTML使用特定一組預定義的標簽,因此它不是用戶可擴展語言。
XML是結構良好(well-formed)的表示法,這意味著所有開始標簽具有對應的結束標簽(特殊的“空”標簽除外,其通過單個標簽開始和結束,如“<email/>”),并且嵌套在另一標簽內的每個標簽在外標簽結束之前結束。另一方面,HTML不是結構良好的表示法。某些HTML標簽不要求結束標簽,并且不要求被嵌套標簽遵循如針對XML所述的嚴格要求(也就是,在HTML中,標簽可以在第一外標簽內開始,并且在不同的外標簽內結束)。
XML被認為是最佳地支持語義搜索能夠區(qū)分詞的不同含義(例如,詞“element”的化學、標記、以及程序設計含義),因此準確地找到感興趣的信息。這一許諾(promise)與諸如GoogleTM的全文搜索引擎的行為不同,其中全文搜索引擎匹配所有出現(xiàn)的詞匯串“element”而不考慮含義。
XML提供了對文檔的語義進行標記的能力。然而,在歷史上支持語義搜索的唯一方法是編寫對定制標記敏感的搜索實現(xiàn)。
更近地,諸如資源描述框架(RDF)和TopicMaps的語義網(wǎng)技術引入了標準的方法來用適于數(shù)據(jù)庫的結構表示語義信息。針對這些語義表示編寫了搜索實現(xiàn)。然而,語義網(wǎng)技術沒有提供方法來橋接文檔內容的標記和這些一般語義表示之間的差距。
可以看出,需要一種用于生成和表示與知識表示內的主題相關的語義信息的方法、設備和程序存儲裝置。
發(fā)明內容
為了克服上述限制,以及克服在閱讀和理解本說明書時將會變得清楚的其它限制,本發(fā)明公開了一種用于橋接文檔內容的標記和一般語義表示例如資源描述框架(RDF)和TopicMaps之間的差距的方法、設備和程序存儲裝置。
根據(jù)本發(fā)明的實施例,提供了一種計算機可讀的程序存儲裝置。該程序存儲裝置包括一個或多個可由計算機執(zhí)行的指令程序,以便執(zhí)行用于限定(delimit)詞的操作。該程序存儲裝置的操作包括向多個標記語言添加可擴展的詞匯表標記,其中該多個標記語言組成知識表示;以及處理所提供的來自一個或多個詞匯表的術語(term),以便在知識表示中使用。
在本發(fā)明的另一實施例中,一種用于提供基于標記語言的限定詞(delimited word)的設備包括存儲器,用于在其中存儲數(shù)據(jù);以及處理器,被配置成用于向多個標記語言添加可擴展的詞匯表標記,其中該多個標記語言組成知識表示,以及處理所提供的來自一個或多個詞匯表的術語,以便在知識表示中使用。
一種根據(jù)本發(fā)明原理的處理系統(tǒng)包括用于向多個標記語言添加可擴展的詞匯表標記的裝置,其中該多個標記語言組成知識表示;以及用于處理所提供的來自一個或多個詞匯表的術語以便在知識表示中使用的裝置。
本發(fā)明的另一實施例是一種用于提供基于標記語言的限定詞的系統(tǒng)。該系統(tǒng)包括用于提供存儲器的裝置,其中該存儲器用于在其中存儲數(shù)據(jù);以及用于提供處理器的裝置,其中該處理器被配置成用于向多個標記語言添加可擴展的詞匯表標記,其中該多個標記語言組成知識表示,以及處理所提供的來自一個或多個詞匯表的術語,以便在知識表示中使用。
作為本發(fā)明特征的這些和各種其它優(yōu)點和新穎特性在附于本發(fā)明并且形成其一部分的權利要求書中具體指出。然而,為了更好地理解本發(fā)明、其優(yōu)點、以及通過其使用而實現(xiàn)的目的,應當參考形成本發(fā)明的另一部分的附圖以及伴隨的描述性內容,其中示出和描述了根據(jù)本發(fā)明的設備的特定例子。
現(xiàn)在參考附圖,其中相同的標號始終表示對應的部分圖1a示出了根據(jù)本發(fā)明實施例的用于限定詞的方法;圖1b示出了用于根據(jù)標記語言產生知識表示的方法;
圖2示出了根據(jù)本發(fā)明實施例的允許用戶選擇其中出現(xiàn)搜索詞的一個或多個詞匯表的用戶界面;圖3示出了根據(jù)本發(fā)明實施例的允許以寬窄分級結構排列詞匯表的可選用戶界面300;圖4示出了根據(jù)本發(fā)明實施例的包括允許自動完成查詢詞的框架的用戶界面;圖5是根據(jù)本發(fā)明實施例的具有通過使用針對每個主題域的網(wǎng)頁而設置的隱式標記語言的用戶界面圖;圖6示出了根據(jù)本發(fā)明實施例的用于使用寬窄關系定義詞匯表元素的方法;圖7是根據(jù)本發(fā)明實施例的用于預定義受控詞匯表中的詞的方法的流程圖;圖8是根據(jù)本發(fā)明實施例的用于使用同義詞進行搜索的方法的流程圖;圖9示出了根據(jù)本發(fā)明實施例的用于使用翻譯進行多語言搜索的另一方法;圖10示出了根據(jù)本發(fā)明實施例的考慮了搜索相關性的另一方法;圖11示出了根據(jù)本發(fā)明實施例的支持分類搜索的方法;以及圖12示出了允許通過索引來擴展本發(fā)明的實施例的方法。
具體實施例方式
在下面的實施例描述中,參考形成其一部分的附圖,并且其中以示例說明的方式示出了可以實施本發(fā)明的特定實施例。應當理解,因為在不背離本發(fā)明的范圍的情況下可以進行結構上的改變,所以可以利用其它實施例。
本發(fā)明的實施例提供了一種方法、設備和程序存儲裝置,其向可擴展標記語言添加受控詞匯表的標記,從而允許在文檔中將詞標記為詞匯表中的術語的出現(xiàn),以便將所標記的詞處理為在知識表示內出現(xiàn)的語義主題。
圖1a示出了根據(jù)本發(fā)明實施例的用于限定詞的基于標記語言的方法100。向多個標記語言添加可擴展的詞匯表標記(110)。該多個標記語言形成知識表示。處理所提供的來自一個或多個詞匯表的術語,以便在知識表示中使用(120)。
圖1b示出了用于根據(jù)標記語言產生知識表示的方法。在文檔標記階段125中,通過解析詞匯表中的文本如詞element 140,對文檔進行標記(130),其中詞element 140可以表示化學術語如氫。在知識表示145中使用的情況下,在程序設計數(shù)組155中使用的術語element 150在文檔165中將表示化學詞匯表160中的化學元素。
根據(jù)本發(fā)明的實施例,一種可擴展詞匯表標記,達爾文信息分類體系結構(DITA)XML,可以以諸如DTD、XML模式、Relax NG或其它模式語言的XML語法表達。例如,對于DITA XML文檔,本發(fā)明通過利用DITA元素的可擴展性來支持(leverage)DITA XML文檔,以便可以將新的受控詞匯表添加到文檔標記和現(xiàn)有詞匯表的語義表示。結果,信息提供者獲得支持語義網(wǎng)技術以便實現(xiàn)支持對文檔進行語義搜索的XML許諾的附加能力。
可以使用所添加的詞匯表元素標記所提供的詞,以便限定屬于詞匯表的詞。以下將屬于詞匯表的詞稱為術語。對來自受控術語(terminology)的詞進行限定的元素可以例如包括<xmlterm>element</xmlterm>和<progterm>element</progterm>。本發(fā)明使用DITA域可擴展性來引入允許基本元素的詞匯表。
本發(fā)明可以使用映射文件為由DITA詞匯表元素標記的詞定義諸如資源描述框架(RDF)或TopicMaps(TM)的知識表示內的標識符(ID)。例如,下面映射片斷為屬于XML和程序設計詞匯表的詞定義基本RDFID<vocab element=“progterm”>
<resource>http://www.ibm.com/dita/examples/search/progterm</resource>
<title>Programming</title>
</vocab>,以及
<vocab element=“xmlterm”>
<resource>http://www.ibm.com/dita/examples/search/xmlterm</resource>
<title>XML</title>
</vocab>
與元素相關聯(lián)的URI可以前置到限定術語,以產生可以作為元數(shù)據(jù)值而充當術語用戶的唯一、全局的標識符的統(tǒng)一資源標識符(URI)??蛇x地,可以使用XML語法而通過缺省屬性將詞匯表元素與URI相關聯(lián),如下面的DTD例子所示<!ELEMENT progterm(#PCDATA)*>
<!ATTLIST progtermhref CDATA#FIXEDhttp://www.ibm.com/dita/examples/search/progtermtype CDATA#FIXED“Programming”>,以及<!ELEMENT xmlterm(#PCDATA)*>
<!ATTLIST xmltermhref CDATA#FIXEDhttp://www.ibm.com/dita/examples/search/xmltermtype CDATA#FIXED“XML”>
不管是在外部映射文件中還是在具有缺省值的屬性中維護元素之間的關聯(lián),諸如可擴展樣式單語言變換(XSLT)的處理都可以構造每個限定術語的URI。
在實現(xiàn)詞匯表標簽時,可以詞干化(stem)由元素限定的詞,以將詞匯變體合并成單個術語。例如,將<xmlterm>element</xmlterm>和<xmlterm>elements</xmlterm>識別為相同術語的出現(xiàn)。
收集(harvesting)文檔中的術語(由詞匯表元素限定的詞干化詞)可以用來生成其中出現(xiàn)術語的每個文檔的知識表示。例如,下面RDF片斷包含針對程序設計詞匯表所生成的知識表示、屬于該詞匯表的術語,以及出現(xiàn)該術語的文檔<term:Vocabulary rdf:about=“http:/www.ibm.com/dita/examples/search/progterm”>
<term:vocabTitle>Programming</term:vocabTitle>
<term:hasTerm>
<term:Term rdf:about=“http://www.ibm.com/dita/examples/search/progterm#element”>
<term:word>eiement</term:word>
<term:occursIn rdf:resource=“joblogexample.html”/>
<term:occursIn rdf:resource=“pcmldttg.html”/>
</term:Term>
</term:hasTerm>
<term:Vocabulary>
圖2示出了根據(jù)本發(fā)明實施例的允許用戶選擇其中出現(xiàn)搜索詞的一個或多個詞匯表的用戶界面200。用戶界面200包括下拉式詞匯表菜單210和術語區(qū)域220。用戶可以從下拉式詞匯表菜單210選擇詞匯表并且在術語區(qū)域210中輸入一個或多個術語,從而將所分配的術語提供給處理與域實體相關的術語的系統(tǒng)。此后,一旦選擇了搜索按鈕230,系統(tǒng)就可以使用所輸入和所選擇的搜索標準進行搜索。
可選地,如果術語不是從下拉式詞匯表菜單210的詞匯表特定列表中選擇的,則例如,缺省地可以使用詞干化,以便將搜索詞簡化為術語。與基于詞匯詞對文檔進行匹配相比較,基于術語對諸如文檔的數(shù)據(jù)進行匹配提供了更高的精度。另外,詞匯表內的術語可以用于其中出現(xiàn)了相同術語的文檔之間的關聯(lián)鏈接。
繼續(xù)圖2,一旦輸入搜索標準,就可以進行搜索并且顯示搜索結果列表240。然后,可以選擇并顯示匹配文檔(未示出)。
圖3示出了根據(jù)本發(fā)明實施例的允許以寬窄分級結構排列詞匯表的可選用戶界面300。當在術語框310中鍵入查詢詞時,應用程序可以通過列出與所提供的詞的一部分相關聯(lián)的匹配術語而自動完成詞。匹配可以基于從詞匯表樹選擇的詞匯表的類型。詞匯表樹320列出寬窄分級結構,其中首先是較寬的程序設計詞匯表,接著是較窄的Java、C、Fortan以及Pascal程序設計詞匯表。C程序設計詞匯表進一步被窄化為C++程序設計詞匯表。當選擇了詞匯表時,可以根據(jù)所選詞匯表窄化為了自動完成而列出的術語或詞列表??蛇x地,自動完成可以如下進行,即首先完成術語,然后將所完成的術語與詞匯表列表相匹配以供選擇。此外,可以使用針對術語和詞匯表兩者的自動完成。當鍵入詞的一部分時,列出術語和詞匯表。當選擇了術語或詞匯表時,程序可以窄化未選擇的標準,以匹配所選詞匯表或術語。然后,用戶可以選擇窄化的第二標準??梢愿淖冊~匯表和術語,并且可以根據(jù)新的標準刷新詞匯表或術語的匹配列表。這樣,當與先前選擇的詞匯表相比選擇較窄的詞匯表時,與所提供的術語或術語的一部分相匹配的術語的數(shù)目將減少。相反,與先前選擇的詞匯表相比選擇較寬的詞匯表將產生數(shù)目更多的術語。在本例中,完成術語將類似于使用支持詞典的詞處理程序的詞完成,但是術語將會根據(jù)特定的Java詞匯表330完成??梢允謩踊蜃詣拥赜|發(fā)自動完成。
圖4示出了根據(jù)本發(fā)明實施例的包括允許自動完成查詢詞的框架的用戶界面400。當在圖4的用戶界面400的術語區(qū)域410中鍵入術語時,并且在相同詞在不同的詞匯表中具有不同含義的情況下,在詞匯表區(qū)域420中顯示可能詞匯表的列表。典型地,一個或多個所選詞匯表與查詢詞相關聯(lián)。當在任何詞匯表中都沒有找到查詢詞并且因此沒有匹配術語可用時,與支持詞典的詞處理程序中未知詞的標識相類似,可以對詞加下劃線。對于特別大的詞匯表,在為所輸入的一個或多個術語找到大量的匹配的情況下,與諸如Java幫助的幫助系統(tǒng)中的索引機制相類似,可以將術語顯示在列表中以供選擇。
一旦輸入了與詞匯表相關聯(lián)的術語,則置于術語之前的圖標或符號可以表示相關聯(lián)的詞匯表并且提供可點擊機制,以便保持相同的術語但改變詞匯表,保持相同的術語但添加詞匯表,或者以來自相同或不同詞匯表的不同術語替換術語。圖4將“#”符號430與術語Element 415相關聯(lián)。與術語Element 415相關聯(lián)的同義詞或術語如Character 435被分配了“*”符號440。類似地,所選程序設計425詞匯表可以與“$”符號455相關聯(lián)。特定類型的程序設計詞匯表可以與其它符號相關聯(lián)。例如,Java 460可以與“%”符號465相關聯(lián)。這樣,根據(jù)本發(fā)明的實施例,可以將與所輸入的Element 415術語相關聯(lián)的術語如Character 435顯示在用戶界面400中。此外,可以將具有更寬或更窄范圍的詞匯表顯示在用戶界面上,并且它們可以具有與其相關聯(lián)的符號。從而,用戶界面允許用戶快速地在相關聯(lián)的術語之間以及在相關聯(lián)的詞匯表之間切換,并且還有可能自動地在所標記的術語之間生成鏈接。可以將與特定詞匯表相關聯(lián)的特定術語的結果顯示在顯示區(qū)域470中。
圖5是根據(jù)本發(fā)明實施例的具有通過使用針對每個主題域的網(wǎng)頁500而設置的隱式詞匯表的用戶界面圖。使用萬維網(wǎng)瀏覽器導航涉及適當主題域的網(wǎng)頁500,例如Java網(wǎng)頁??梢曰卺槍χ黝}域的網(wǎng)頁指定詞匯表(包括較窄的詞匯表)而應用自動完成,從而允許完成部分輸入的查詢詞。與依靠拼寫詞典的自動完成不同,查詢詞自動完成將允許多詞術語。在詞與多詞術語中的第一個詞相匹配的情況下,匹配算法可以臨時地將空格視為詞字符而非詞邊界,但是如果匹配失敗則返回到將空格視為詞邊界。
圖6示出了根據(jù)本發(fā)明實施例的方法600,其用于使用可擴展的詞匯表標記,以便使用寬窄關系定義詞匯表元素??梢允褂肈ITA特殊化(specialization)來定義具有寬窄關系的詞匯表元素(610),然后以這種方式,可以在所生成的知識表示中的詞匯表之間聲明(assert)。針對詞匯表元素,在所生成的知識表示中聲明寬窄關系(620)。根據(jù)本發(fā)明的實施例,當運行對來自詞匯表的術語的搜索時,匹配出現(xiàn)了該詞匯表和更窄詞匯表內的搜索詞的文檔(630)。例如,對程序設計詞匯表中的詞“element”的搜索也將匹配Java程序設計詞匯表中的“element”的出現(xiàn)。這種擴展也可以通過在其較寬的詞匯表內對來自較窄詞匯表的術語進行索引來實現(xiàn)??蛇x地,搜索可以檢查較窄詞匯表的索引以及搜索標準的詞匯表,并且合并結果。
圖7是根據(jù)本發(fā)明實施例的用于預定義受控詞匯表中的詞的方法700的流程圖。可以將術語的知識表示(詞匯表和詞)預定義為受控詞匯表(710)。因為與從文檔詞生成的知識表示相比較,有更多的信息可用,所以這可以擴展詞匯表??梢蕴娲褂没痉椒▉矶x詞匯表元素(720),并且可以將元素映射到包括知識表示中的預定義術語的一組術語(730)。詞可以被詞干化,以便將詞識別為術語的實例。在限定詞不匹配預定義的術語的情況下,可以通過編輯工具或通過構建實用程序提供錯誤處理,以便確保文檔有效(740)。針對文檔內的術語出現(xiàn)生成知識表示與在基本方法中相同。
圖8是根據(jù)本發(fā)明實施例的允許使用同義詞進行搜索的方法800的流程圖。在詞匯表的映射中,可以將已知同義詞預定義為術語等價物(810)??梢詫㈩A定義的同義詞映射為等價術語(820)。如同在基本方法中一樣,詞干化文檔詞(830)。確定詞干化的文檔詞是否具有同義詞(840),如果是,則用術語詞替換同義詞并且以與在基本方法中相同的方式對其進行處理(850)。在詞干化的文檔詞沒有同義詞的情況下,正常地處理詞干化的文檔詞(860)。根據(jù)本發(fā)明,當執(zhí)行搜索時,可以檢查所輸入的搜索標準詞的同義詞。如果存在同義詞,則在匹配文檔之前,可以用術語詞替換搜索標準詞,從而確保同義詞將匹配相同的含義,并且由此匹配相同的文檔。
圖9示出了根據(jù)本發(fā)明實施例的允許使用翻譯進行多語言搜索的另一方法900。在詞匯表的映射中,可以將本國語言詞映射到術語(語義主題)(910)并且如同在同義詞擴展中一樣對其進行處理(920)。當對標準進行處理時,用術語(語義主題)替換本國語言詞(930),并且如同在義詞擴展中一樣對其進行處理(940)。這樣,與采用自動化翻譯軟件相比,一種語言的搜索可以以更高的語義精度對多種語言的文檔進行匹配。結果,懂多種語言的人可以用其優(yōu)選語言創(chuàng)建搜索標準并且在可能的情況下接收其優(yōu)選語言的文檔,并且如果其它語言的文檔不可用,則接收英文的文檔。
圖10示出了根據(jù)本發(fā)明實施例的考慮了搜索相關性的另一方法1000。有可能通過將詞匯表的唯一號碼與術語詞的唯一號碼組合,為來自受控或不受控的詞匯表的每個術語分配唯一號碼或權重(1010)。使用任何全文搜索算法對文檔中的術語(而非詞)進行索引(1020)。例如,可以用向量空間搜索算法對文檔進行索引,從而用號碼表示每個術語,使得可以將相同的詞匯詞表示為兩個完全不同的術語。其結果是詞的每個含義將是不同的向量。當執(zhí)行搜索時,使用相同的方案將搜索詞轉換成號碼,并且通過應用標準全文搜索算法來使用號碼對文檔進行匹配。這將導致比詞匯全文搜索更高的準確度。
根據(jù)本發(fā)明的實施例,圖11示出了方法1100可以如何支持分類搜索。在受控詞匯表的知識表示中,在不同詞匯表中的受控術語之間定義寬窄關系(1110)。例如,對于Java“hash”,程序設計“set”可能是更寬的術語。當運行對術語的搜索時,匹配具有該術語的文檔和具有更窄術語的文檔(1120),并且可以合并結果(1130)。例如,對程序設計詞匯表中的術語“set”的搜索可能也匹配Java詞匯表中的術語“hash”??梢院喜ⅰ皊et”和“hash”的結果并且將其顯示在用戶界面上。
圖12示出了允許通過索引擴展本發(fā)明的實施例的方法1200。將術語的實例索引為其更寬術語的實例(1210),并且根據(jù)更寬術語的實例對文檔進行匹配(1220)??蛇x地,除了搜索術語并之外,搜索還可以查找更窄的術語,并且合并結果。
從而,文檔內容可以是可提取的并且被表達為知識表示,因此避免了費力且易于出錯的元數(shù)據(jù)維護。
本發(fā)明的示例性實施例的前面描述是為了示例說明和描述的目的而提供的。它不意欲是徹底無遺漏的,或者將本發(fā)明局限于所公開的確切形式。根據(jù)上面教導,很多修改和變化是可能的。本發(fā)明的范圍不意欲由本詳細描述限制,而由所附權利要求限制。
權利要求
1.一種執(zhí)行用于限定詞的操作的方法,包括向多個標記語言添加可擴展的詞匯表標記,其中所述多個標記語言組成知識表示;以及處理所提供的來自一個或多個詞匯表的術語,以便在知識表示中使用。
2.如權利要求1所述的方法,其中向多個標記語言添加可擴展的詞匯表標記包括通過DTD中的DITA特殊化向多個標記語言添加可擴展的詞匯表標記。
3.如權利要求1所述的方法,其中向多個標記語言添加可擴展的詞匯表標記包括通過XML模式或RelaxNG向多個標記語言添加可擴展的詞匯表標記。
4.如權利要求1所述的方法,其中所述一個或多個詞匯表包括在主題域內。
5.如權利要求1所述的方法,其中所述一個或多個詞匯表包括使用映射而定義的一個或多個詞匯表。
6.如權利要求5所述的方法,其中使用映射而定義的一個或多個詞匯表包括使用RDF ID的映射而定義的一個或多個詞匯表。
7.如權利要求5所述的方法,其中使用映射而定義的一個或多個詞匯表包括使用語義URI的固定屬性而定義的一個或多個詞匯表,其中語義URI與詞匯表的固定屬性相關聯(lián)。
8.如權利要求1所述的方法,其中處理所提供的術語包括基于與術語相關聯(lián)的所提供的詞而處理所提供的術語。
9.如權利要求1所述的方法,其中處理所提供的術語包括處理作為所提供的詞的同義詞的所提供的術語。
10.如權利要求1所述的方法,其中處理所提供的來自一個或多個詞匯表的術語包括作為具有所分配的詞匯表的術語,處理所提供的術語。
11.如權利要求1所述的方法,其中所提供的術語包括詞干化的術語。
12.如權利要求1所述的方法,其中處理所提供的來自一個或多個詞匯表的術語以便在知識表示中使用,包括處理所提供的術語的一部分;啟動自動完成,其中自動完成識別具有所提供的術語的所述一部分的一個或多個術語;顯示所識別的一個或多個術語;以及接收所完成的術語。
13.如權利要求1所述的方法,還包括在所述一個或多個詞匯表的至少一個內檢索與所提供的術語相關聯(lián)的數(shù)據(jù)。
14.如權利要求13所述的方法,其中檢索與術語相關聯(lián)的數(shù)據(jù)包括檢索與術語相關聯(lián)的多個文檔。
15.如權利要求13所述的方法,其中檢索與術語相關聯(lián)的數(shù)據(jù)包括推斷與術語相關聯(lián)的文檔之間的關聯(lián)鏈接。
16.如權利要求13所述的方法,其中檢索與術語相關聯(lián)的數(shù)據(jù)包括從詞匯表檢索數(shù)據(jù),其中術語與作為要用來檢索數(shù)據(jù)的詞匯表的子集的詞匯表相關聯(lián)。
17.如權利要求13所述的方法,其中檢索與術語相關聯(lián)的數(shù)據(jù)包括從詞匯表的子集檢索數(shù)據(jù)。
18.如權利要求13所述的方法,其中檢索與術語相關聯(lián)的數(shù)據(jù)包括從一個或多個詞匯表檢索數(shù)據(jù)。
19.如權利要求13所述的方法,還包括將權重與基于被檢索數(shù)據(jù)與術語的關系而檢索的數(shù)據(jù)相關聯(lián)。
20.一種用于提供基于標記語言的限定詞的設備,包括存儲器,用于在其中存儲數(shù)據(jù);以及處理器,被配置成用于向多個標記語言添加可擴展的詞匯表標記,其中所述多個標記語言組成知識表示,以及處理所提供的來自一個或多個詞匯表的術語,以便在知識表示中使用。
21.一種處理系統(tǒng),包括用于向多個標記語言添加可擴展的詞匯表標記的裝置,其中所述多個標記語言組成知識表示;以及用于處理所提供的來自一個或多個詞匯表的術語以便在知識表示中使用的裝置。
22.一種系統(tǒng),有形地實施可由計算機執(zhí)行的一個或多個指令程序,以便執(zhí)行用于限定詞的操作,所述操作包括用于向多個標記語言添加可擴展的詞匯表標記的裝置,其中所述多個標記語言組成知識表示;以及用于處理所提供的來自一個或多個詞匯表的術語以便在知識表示中使用的裝置。
23.一種用于提供基于標記語言的限定詞的系統(tǒng),包括用于提供存儲器的裝置,其中所述存儲器用于在其中存儲數(shù)據(jù);以及用于提供處理器的裝置,其中所述處理器被配置成用于向多個標記語言添加可擴展的詞匯表標記,其中所述多個標記語言組成知識表示,以及處理所提供的來自一個或多個詞匯表的術語,以便在知識表示中使用。
24.如權利要求23所述的系統(tǒng),其中在知識表示中使用的一個或多個詞匯表包括使用映射而定義的一個或多個詞匯表。
25.如權利要求24所述的系統(tǒng),其中使用映射而定義的一個或多個詞匯表包括使用RDF ID的映射而定義的多個詞匯表。
26.如權利要求24所述的系統(tǒng),其中使用映射而定義的一個或多個詞匯表包括使用語義URI的固定屬性而定義的一個或多個詞匯表,其中語義URI的固定屬性與標記語言的固定屬性相關聯(lián)。
27.如權利要求23所述的系統(tǒng),其中處理所提供的術語包括基于與術語相關聯(lián)的所提供的詞而處理所提供的術語。
28.如權利要求23所述的系統(tǒng),其中所提供的術語包括作為所提供的詞的同義詞的所提供的術語。
29.如權利要求23所述的系統(tǒng),其中處理所提供的來自一個或多個詞匯表的術語包括作為具有所分配的詞匯表的術語,處理所提供的術語。
30.如權利要求23所述的系統(tǒng),其中所提供的術語包括詞干化的術語。
31.如權利要求23所述的系統(tǒng),其中處理所提供的來自一個或多個詞匯表的術語以便在知識表示中使用,包括處理所提供的術語的一部分;啟動自動完成,其中自動完成識別具有所提供的術語的所述一部分的一個或多個術語;顯示所識別的一個或多個術語;以及接收所完成的術語。
32.如權利要求23所述的系統(tǒng),還包括在所述一個或多個詞匯表的至少一個內檢索與所提供的術語相關聯(lián)的數(shù)據(jù)。
33.如權利要求32所述的系統(tǒng),其中檢索與術語相關聯(lián)的數(shù)據(jù)包括檢索與術語相關聯(lián)的多個文檔。
34.如權利要求33所述的系統(tǒng),其中檢索與術語相關聯(lián)的文檔包括檢索在與術語相關聯(lián)的文檔之間具有關聯(lián)鏈接的文檔。
35.如權利要求32所述的系統(tǒng),其中檢索與所提供的術語相關聯(lián)的數(shù)據(jù)包括從詞匯表檢索與所提供的術語相關聯(lián)的數(shù)據(jù),其中術語與作為要在其中檢索數(shù)據(jù)的詞匯表的子集的詞匯表相關聯(lián)。
36.如權利要求32所述的系統(tǒng),其中檢索與所提供的術語相關聯(lián)的數(shù)據(jù)包括從詞匯表的子集檢索與所提供的術語相關聯(lián)的數(shù)據(jù)。
37.如權利要求32所述的系統(tǒng),其中檢索與所提供的術語相關聯(lián)的數(shù)據(jù)包括從一個或多個詞匯表檢索與所提供的術語相關聯(lián)的數(shù)據(jù)。
38.如權利要求32所述的系統(tǒng),還包括將權重與基于被檢索數(shù)據(jù)與術語的關系而檢索的數(shù)據(jù)相關聯(lián)。
39.一種用于提供基于標記語言的限定詞的系統(tǒng),包括用于提供存儲器的裝置,其中所述存儲器用于在其中存儲數(shù)據(jù);以及用于提供處理器的裝置,其中所述處理器被配置成用于向多個標記語言添加可擴展的詞匯表標記,其中所述多個標記語言組成知識表示,以及處理所提供的來自一個或多個詞匯表的術語,以便在知識表示中使用。
40.一種程序存儲裝置,包括用于執(zhí)行前面方法權利要求中的任一方法的指令。
全文摘要
本發(fā)明提供一種用于限定詞的方法、設備和程序存儲裝置,它們要求向多個標記語言添加可擴展的詞匯表標記,其中該多個標記語言組成知識表示,并且處理所提供的來自一個或多個詞匯表的術語,以便在知識表示中使用。
文檔編號G06F17/30GK1815477SQ20061000663
公開日2006年8月9日 申請日期2006年1月27日 優(yōu)先權日2005年1月31日
發(fā)明者埃里克·F·亨努, 邁克爾·普里斯特利 申請人:國際商業(yè)機器公司