專利名稱:用于實(shí)現(xiàn)交互式瀏覽的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息技術(shù),更具體地說,本發(fā)明涉及交互式瀏覽信息的系統(tǒng)和方法。
背景技術(shù):
隨著越來越多的電子文檔被存入計(jì)算機(jī)中,如何管理這樣大量的文檔以及有效地獲得信息已經(jīng)成為一個(gè)重要問題。
目前,主要有三種獲得信息的途徑。第一,分類學(xué)方法(taxonomy)。分類學(xué)方法通常是根據(jù)文檔的內(nèi)容將大量文檔組織成一個(gè)體系結(jié)構(gòu)。用戶可以點(diǎn)擊分類目錄并查找有用的信息。但是,用戶并不總是只希望瀏覽文檔,而是還希望獲得有關(guān)文檔中出現(xiàn)的術(shù)語的信息,例如,用戶想知道有關(guān)文檔中提到的某個(gè)人、公司或產(chǎn)品的信息。這時(shí),傳統(tǒng)的基于分類學(xué)方法的信息瀏覽系統(tǒng)就不能直接提供這樣的信息。
用戶獲得信息的第二種途徑是知識(shí)庫。知識(shí)庫是一個(gè)靜態(tài)的信息集合,用戶可以通過它獲得有關(guān)具體術(shù)語的解釋和說明。但由于知識(shí)庫中的內(nèi)容通常相對(duì)穩(wěn)定、更新較慢,因而難以與大量文檔中及時(shí)更新的內(nèi)容相關(guān)聯(lián)。
用戶獲得信息的第三種途徑是關(guān)鍵字搜索,通過這種方式,用戶能夠獲得含有某個(gè)關(guān)鍵字的所有文檔,但由于搜索通常是在沒有上下文語境的情況下進(jìn)行的,因此存在一定的不明確性,從而使搜索結(jié)果中包含許多不相關(guān)的文檔,為用戶獲得想要的信息帶來障礙。
由此可見,上述三種獲得信息的途徑分別只能滿足用戶獲得信息時(shí)某一個(gè)方面的需求(要么只能查看整個(gè)文檔,要么只能查看某個(gè)具體的術(shù)語),而不能同時(shí)滿足各方面的需求。因此,需要一種使用戶能夠在瀏覽文檔的同時(shí)在同一個(gè)用戶界面中容易地查看有關(guān)文檔中特定術(shù)語的信息的方式。
發(fā)明內(nèi)容
考慮到上述問題,本發(fā)明提出了一種交互式瀏覽文檔集以及其中出現(xiàn)的術(shù)語的方法和系統(tǒng),其使用戶能夠在同一個(gè)用戶界面中同時(shí)從文檔集合和知識(shí)庫獲得相關(guān)信息。
根據(jù)本發(fā)明的一個(gè)方面,提供一種用于實(shí)現(xiàn)交互式瀏覽的系統(tǒng),所述系統(tǒng)與知識(shí)庫和文檔數(shù)據(jù)庫相連,所述知識(shí)庫存儲(chǔ)有多個(gè)術(shù)語以及與每個(gè)術(shù)語相關(guān)的信息,所述文檔數(shù)據(jù)庫存儲(chǔ)有多個(gè)文檔,所述系統(tǒng)包括術(shù)語獲得裝置,用于獲得用戶感興趣的術(shù)語;第一提取裝置,用于從知識(shí)庫中提取與所述用戶感興趣的術(shù)語相關(guān)的信息,第二提取裝置,用于從文檔數(shù)據(jù)庫中提取包含所述用戶感興趣的術(shù)語的文檔;用戶界面的第一顯示部分,用于顯示第一提取裝置提取的信息;用戶界面的第二顯示部分,用于顯示第二提取裝置提取的各文檔的列表。
根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種用于實(shí)現(xiàn)交互式瀏覽的方法,所述方法包括獲得用戶感興趣的術(shù)語;從知識(shí)庫中提取與所述用戶感興趣的術(shù)語相關(guān)的信息,以顯示在界面的第一顯示部分中,所述知識(shí)庫存儲(chǔ)有多個(gè)術(shù)語以及與每個(gè)術(shù)語相關(guān)的信息;從文檔數(shù)據(jù)庫中提取包含所述用戶感興趣的術(shù)語的各文檔,以將提取的各文檔的列表顯示在用戶界面的第二顯示部分中,所述文檔數(shù)據(jù)庫存儲(chǔ)有多個(gè)文檔。
通過使用本發(fā)明的系統(tǒng)和方法,用戶可以在單個(gè)界面中同時(shí)瀏覽文檔和知識(shí)庫。
其中,所述與術(shù)語相關(guān)的信息優(yōu)選地是所述術(shù)語的屬性和/或關(guān)系。
另外,所述術(shù)語及相關(guān)信息優(yōu)選地以術(shù)語圖的形式顯示在用戶界面的第一顯示部分中,以便能夠直觀地向用戶展現(xiàn)術(shù)語及其屬性和關(guān)系的信息。
根據(jù)本發(fā)明的系統(tǒng)和方法使用戶能夠同時(shí)瀏覽文檔和相關(guān)術(shù)語,從而提高了用戶在訪問信息時(shí)的自由度和靈活性。
圖1顯示了采用本發(fā)明的實(shí)施方式時(shí)的用戶界面的示意圖。
圖2示出了能夠應(yīng)用本發(fā)明的系統(tǒng)的示意圖。
圖3是根據(jù)本發(fā)明的整合信息訪問系統(tǒng)的結(jié)構(gòu)示意圖。
圖4示出了根據(jù)本發(fā)明的方法的流程圖。
圖5示出了術(shù)語獲得裝置在從第一顯示部分中獲得術(shù)語,并查看與之相關(guān)的術(shù)語圖和文檔時(shí)的流程圖。
圖6示出了從術(shù)語圖生成文檔列表的用戶界面示意圖。
圖7示出了術(shù)語獲得裝置在從第二顯示部分中獲得術(shù)語并查看相應(yīng)的術(shù)語圖時(shí)的流程圖。
圖8示出了從文檔列表生成術(shù)語圖的用戶界面示意圖。
圖9示出了從文檔生成術(shù)語圖的用戶界面示意圖。
圖10表示根據(jù)本發(fā)明的方法和系統(tǒng)各環(huán)節(jié)之間的的函數(shù)關(guān)系。
圖11-13分別示出了在文檔、術(shù)語和子圖之間進(jìn)行的交互的函數(shù)1、函數(shù)2和函數(shù)3的流程圖。
具體實(shí)施例方式
在具體描述本發(fā)明的實(shí)施方式之前,先對(duì)本發(fā)明中使用的技術(shù)詞匯的含義進(jìn)行說明。
術(shù)語(term)描述自然界或虛擬世界中的事物的專有詞匯,包括人名、地名、組織名、專業(yè)詞匯等,例如IBM、DELL等。
知識(shí)庫(knowledge baseKB)描述術(shù)語以及術(shù)語的屬性和術(shù)語之間的關(guān)系的數(shù)據(jù)庫。
文檔數(shù)據(jù)庫(Doc DB)包含關(guān)鍵詞(keyword)、文檔內(nèi)容以及文檔的其他元數(shù)據(jù)的數(shù)據(jù)庫。
術(shù)語圖(term graph)知識(shí)庫中所有術(shù)語及其屬性和關(guān)系的圖形表示。
術(shù)語子圖(term sub-graph)知識(shí)庫中一部分術(shù)語的屬性和關(guān)系的圖形表示(在本說明書中,由于大部分情況下只涉及“術(shù)語子圖”,因此為了便于說明,將“術(shù)語子圖”簡稱為“術(shù)語圖”)。
本體(ontology)定義了術(shù)語的類型以及不同術(shù)語類型的屬性和術(shù)語類型之間的關(guān)系;例如公司類型(COMPANY)具有諸如名稱(NAME)、網(wǎng)址(WEB_SITE)、地址(ADDRESS)、執(zhí)行總裁(CEO)、產(chǎn)品(PRODUCTS)之類的屬性,并具有諸如競爭對(duì)手(COMPETITOR)和合作伙伴(PARTNER)之類的關(guān)系;本體存儲(chǔ)在知識(shí)庫中。
以下將參照附圖對(duì)本發(fā)明的優(yōu)選實(shí)施方式進(jìn)行說明。應(yīng)當(dāng)指出,盡管本說明書將主要以因特網(wǎng)上的文檔為例進(jìn)行說明,但本發(fā)明并不局限于此,本發(fā)明可以適應(yīng)于需要進(jìn)行信息瀏覽和搜索的任何地方,例如,數(shù)據(jù)庫中。
示例性用戶界面首先參照?qǐng)D1,圖1顯示了采用本發(fā)明的系統(tǒng)和方法時(shí)的用戶界面100的示意圖。圖1示例性地將用戶界面100分為幾個(gè)窗口,包括術(shù)語圖窗口110、文檔列表窗口130、優(yōu)選的文檔內(nèi)容窗口120、優(yōu)選的術(shù)語實(shí)例列表窗口140,以及優(yōu)選的查詢窗口150。
當(dāng)用戶對(duì)某個(gè)特定的術(shù)語(例如,IDC company)感興趣時(shí),他優(yōu)選地可以利用查詢窗口150向系統(tǒng)提交“IDC company”這個(gè)術(shù)語。系統(tǒng)可以首先從知識(shí)庫中檢索有關(guān)“IDC company”的信息,并在術(shù)語圖窗口110中以“IDC company”作為主節(jié)點(diǎn)顯示從知識(shí)庫中檢索的“IDC company”的屬性和關(guān)系。
為了便于顯示,在圖1中僅顯示出從主節(jié)點(diǎn)伸展到下一層節(jié)點(diǎn)(即,具有一個(gè)邊(edge))的術(shù)語圖,但本發(fā)明并不局限于此,取決于系統(tǒng)的計(jì)算能力、顯示界面大小以及用戶需求等因素,可以顯示具有任意多層節(jié)點(diǎn)的術(shù)語圖。
另外,圖1中示出根據(jù)本發(fā)明的一種優(yōu)選實(shí)施方式,以樹狀結(jié)構(gòu)的術(shù)語圖示出術(shù)語的關(guān)系及屬性,這能夠比較直觀地反映一個(gè)術(shù)語的各方面信息。但也可以用文本描述來替換所述術(shù)語圖。例如,可以在術(shù)語圖窗口110中給出下列文本“IDC公司是HP公司的客戶;IDC公司的網(wǎng)址是http://www.idc.com;IDC China公司是IDC公司的分公司;IDC公司的聯(lián)系人是Mike Williams;......”。
在將“IDC company”這個(gè)術(shù)語提交給系統(tǒng)的同時(shí),其還將被用于搜索文檔數(shù)據(jù)庫,以獲得相關(guān)的文檔。隨后在文檔列表窗口130中列出查詢到的相關(guān)文檔。這時(shí),用戶可以點(diǎn)擊某個(gè)文檔以在文檔內(nèi)容窗口120中查看該文檔的具體內(nèi)容。
由此,可以在同一個(gè)用戶界面中同時(shí)向用戶顯示術(shù)語的相關(guān)信息以及包含該術(shù)語的文檔,從而為用戶的瀏覽提供了便利。
圖1所示的用戶界面中優(yōu)選地還包括一個(gè)術(shù)語實(shí)例列表窗口140,術(shù)語實(shí)例列表窗口140中顯示一系列術(shù)語,這些術(shù)語可以是預(yù)先輸入的,例如可以準(zhǔn)備一些公司的列表并顯示出公司的特定信息,也可以是從當(dāng)前文檔列表中進(jìn)行文本分析動(dòng)態(tài)提取出的;此外術(shù)語實(shí)例列表窗口140還包含一些由術(shù)語的與/或關(guān)系形成的過濾準(zhǔn)則,例如全部出現(xiàn)或出現(xiàn)任一個(gè)術(shù)語等。由此,所述實(shí)例列表窗口140構(gòu)成了一個(gè)術(shù)語過濾器,用戶可以從這個(gè)術(shù)語過濾器中選擇不同術(shù)語的組合,并應(yīng)用適當(dāng)?shù)倪^濾準(zhǔn)則,來形成新的查詢并提交到系統(tǒng),從而從文檔數(shù)據(jù)庫中提取新的文檔列表。在圖1所示的例子中,新提取的文檔將是包含術(shù)語實(shí)例列表窗口140中突出顯示的3個(gè)選項(xiàng)中任何一個(gè)的那些文檔。由此,將進(jìn)一步提高了用戶瀏覽文檔和獲取信息的靈活性。
由此可見,本發(fā)明的解決方案允許用戶從用戶界面上任何需要的地方發(fā)起對(duì)自己感興趣的信息的搜索,并能夠循環(huán)執(zhí)行下去,直到得到自己需要的所有信息為止,這極大地提高了用戶獲得信息的自由度和靈活性。
結(jié)構(gòu)配置及工作模式圖2示出了能夠應(yīng)用本發(fā)明的整體系統(tǒng)200的示意圖。系統(tǒng)200中虛線左側(cè)部分為傳統(tǒng)的構(gòu)成文檔數(shù)據(jù)庫和知識(shí)庫的部分,右側(cè)是采用了根據(jù)本發(fā)明的整合信息訪問系統(tǒng)的部分。
傳統(tǒng)的構(gòu)成文檔數(shù)據(jù)庫和知識(shí)庫的部分包括文本分析部分210,其用于對(duì)文檔集合220的各文檔進(jìn)行文本分析,這包括將輸入的文本信息進(jìn)行分析,以從中提取出關(guān)鍵字212和術(shù)語214。
例如,可通過自然語言分詞器(未示出)來提取文檔中的關(guān)鍵字212,命名實(shí)體識(shí)別器還可以自動(dòng)提取命名實(shí)體(即,作為術(shù)語的那些專有詞匯)。關(guān)鍵字、命名實(shí)體等信息將提交給文檔數(shù)據(jù)庫230并存儲(chǔ)在其中,便于對(duì)文檔進(jìn)行查詢。
所述文本分析操作識(shí)別出的術(shù)語214以及術(shù)語之間的關(guān)系和屬性將提交給知識(shí)庫240,以構(gòu)成各個(gè)術(shù)語實(shí)例以及術(shù)語的屬性和關(guān)系等信息。在知識(shí)庫中存儲(chǔ)有關(guān)術(shù)語的信息。它可以使用本體來定義知識(shí)庫中中術(shù)語的類型以及它的屬性和關(guān)系。例如,術(shù)語類型可以是人(PERSON)、公司(COMPANY)、地名(PLACE)等。公司(COMPANY)的屬性可以是名稱(NAME)、網(wǎng)址(WEB_SITE)、地址(ADDRESS)、執(zhí)行總裁(CEO)、產(chǎn)品(PRODUCTS)等。知識(shí)庫中的信息可以由人工輸入,也可以由信息提取器自動(dòng)從文檔中提取。本體信息和術(shù)語實(shí)例信息都存儲(chǔ)在知識(shí)庫中。
對(duì)于傳統(tǒng)的系統(tǒng),文檔數(shù)據(jù)庫230和知識(shí)庫240將彼此互不相關(guān)地工作,一個(gè)為用戶提供文檔內(nèi)容,一個(gè)為用戶提供術(shù)語信息,各自產(chǎn)生自己的用戶界面。
但是根據(jù)本發(fā)明,通過加入一個(gè)整合信息訪問系統(tǒng)260而使文檔數(shù)據(jù)庫230和知識(shí)庫240能夠彼此關(guān)聯(lián)起來,以使生成如圖1所示的用戶界面成為可能。
以下將參照?qǐng)D3對(duì)整合信息訪問系統(tǒng)260的結(jié)構(gòu)進(jìn)行詳細(xì)說明。圖3是根據(jù)本發(fā)明的整合信息訪問系統(tǒng)260的總體結(jié)構(gòu)示意圖,其中以實(shí)線框表示的組件為本發(fā)明的基本組件,以虛線框表示的組件為本發(fā)明的可選組件。
如圖3所示,整合信息訪問系統(tǒng)260包括一個(gè)第一提取裝置310,它與知識(shí)庫相連,以從中提取與用戶感興趣的術(shù)語相關(guān)的信息,這些信息可以包括該術(shù)語的屬性或關(guān)系;一個(gè)第二提取裝置320,它與文檔數(shù)據(jù)庫相連,以從中提取包含所述用戶感興趣的術(shù)語的各文檔;一個(gè)第一顯示部分330,用于顯示第一提取裝置310提取的信息;一個(gè)第二顯示部分340,用于顯示第二提取裝置320提取的各文檔的列表;以及一個(gè)術(shù)語獲得裝置350,用于獲得用戶感興趣的術(shù)語。
在本發(fā)明的一種優(yōu)選實(shí)施方式中,所述術(shù)語獲得裝置350可以從在第一顯示部分330顯示的信息中獲得,也可以從在第二顯示部分340顯示的文檔列表中獲得。
根據(jù)本發(fā)明的另一優(yōu)選實(shí)施方式,所述整合信息訪問系統(tǒng)260還可以包括用戶界面的一個(gè)第三顯示部分360,用于顯示第二顯示部分340的列表中某個(gè)特定文檔的具體內(nèi)容。所述術(shù)語獲得裝置350也可以從所述第三顯示部分中獲得用戶感興趣的術(shù)語。例如,當(dāng)用戶點(diǎn)擊了從文檔數(shù)據(jù)庫中提取的各文檔中的某個(gè)特定文檔時(shí),其內(nèi)容將通過所述第三顯示部分360顯示,而所述術(shù)語獲得裝置350可以從所述第三顯示部分360中獲得用戶感興趣的特定術(shù)語,以便完成本發(fā)明如前所述的操作。另外,當(dāng)用戶對(duì)該特定文檔中出現(xiàn)的特定術(shù)語感興趣時(shí),也可以進(jìn)一步查看該術(shù)語的術(shù)語圖信息。
根據(jù)本發(fā)明的又一優(yōu)選實(shí)施方式,所述整合信息訪問系統(tǒng)260還包括一個(gè)第四顯示部分370,用于實(shí)現(xiàn)術(shù)語實(shí)例列表窗口140。所述第四顯示部分可以包含一些由術(shù)語的與/或關(guān)系形成的過濾準(zhǔn)則,例如全部出現(xiàn)或出現(xiàn)任一個(gè)術(shù)語等。在每個(gè)過濾準(zhǔn)則下包含若干選項(xiàng)。所述選項(xiàng)可以是預(yù)先輸入到系統(tǒng)中的,例如可以準(zhǔn)備一些公司的列表并顯示出公司的特定信息,也可以通過對(duì)文檔列表進(jìn)行如前所述的文本分析而得到。于是,用戶可以從此窗口中選擇不同選項(xiàng)的組合,形成新的查詢并提交到系統(tǒng),從而從文檔數(shù)據(jù)庫中提取新的文檔列表。
根據(jù)本發(fā)明的又一優(yōu)選實(shí)施方式,所述整合信息訪問系統(tǒng)260還包括一個(gè)第五顯示部分380,用于實(shí)現(xiàn)查詢窗口150。所述術(shù)語獲得裝置350也可以從所述第五顯示部分中(例如,通過用戶輸入操作)獲得用戶感興趣的特定術(shù)語,以便完成本發(fā)明如前所述的操作。
術(shù)語獲得裝置350優(yōu)選地還可以包括一個(gè)查詢形成裝置(未示出),用于從知識(shí)庫中取出新術(shù)語圖中相應(yīng)術(shù)語及其屬性和關(guān)系,形成一個(gè)新的查詢,并將查詢提交到文檔數(shù)據(jù)庫。
術(shù)語獲得裝置350優(yōu)選地還可以包括一個(gè)文本分析裝置(未示出),用于對(duì)文檔列表進(jìn)行文本分析,以便提取出用戶感興趣的術(shù)語及其屬性或關(guān)系。所述文本分析裝置可以在線完成所述文本分析操作(例如通過確定各術(shù)語的權(quán)重、進(jìn)行排序等),或者如果文檔數(shù)據(jù)庫本身已經(jīng)作好了術(shù)語的識(shí)別工作時(shí),所述文本分析裝置也可以直接從文檔數(shù)據(jù)庫中獲得術(shù)語。并且,所述文本分析裝置在決定提取哪些術(shù)語時(shí),可以根據(jù)用戶的需要,按照術(shù)語的類別(例如,公司、地點(diǎn)、任務(wù)等),或者按照一定的優(yōu)先級(jí)(例如,某個(gè)術(shù)語出現(xiàn)的詞頻或權(quán)重等)進(jìn)行提取。
如本領(lǐng)域技術(shù)人員能夠理解,本發(fā)明中使用的各裝置可以通過編程方式實(shí)現(xiàn),可以通過硬件分立元件的方式實(shí)現(xiàn),也可以通過這二者的結(jié)合實(shí)現(xiàn)。
根據(jù)本發(fā)明的方法的流程圖如圖4所示。該方法開始于步驟400,隨后進(jìn)入步驟410。在步驟410中,系統(tǒng)將獲得用戶感興趣的術(shù)語(例如,“IDC company”)。接下來,在步驟420中,系統(tǒng)從知識(shí)庫中提取與所述用戶感興趣的術(shù)語相關(guān)的信息。同時(shí),在步驟430中,系統(tǒng)從文檔數(shù)據(jù)庫中提取包含所述用戶感興趣的術(shù)語的各文檔。隨后,在步驟440中,將在步驟420和430中提取的信息分別顯示在用戶界面的第一、第二部分上。此后可以根據(jù)需要重復(fù)步驟410-440的操作,使系統(tǒng)不斷從所述第一、第二顯示部分中獲得用戶感興趣的術(shù)語,從而用戶能夠自由地瀏覽所需文檔和術(shù)語信息。根據(jù)本發(fā)明的方法在步驟450中結(jié)束。
以下,將參照?qǐng)D5-7描述根據(jù)本發(fā)明的術(shù)語獲得裝置從用戶界面的不同部分中獲得術(shù)語的不同方式。
圖5描述了所述術(shù)語獲得裝置350在從第一顯示部分330中進(jìn)一步獲得術(shù)語并查看與之相關(guān)的術(shù)語圖和文檔時(shí)的情形。即,用戶希望獲得有關(guān)當(dāng)前術(shù)語(這里為“IDC company”)術(shù)語圖中另外一個(gè)術(shù)語(例如,HP company)的新術(shù)語圖并查看與所述新術(shù)語圖相關(guān)的文檔列表。
圖5的方法從步驟500開始,隨后進(jìn)入步驟510。在步驟510中,仍以如圖1所示的術(shù)語圖為例,假定系統(tǒng)從用戶獲得了另外一個(gè)感興趣的術(shù)語(如,“HP company”)。于是,在步驟520中將由第一提取裝置310從知識(shí)庫中提取與所述術(shù)語相關(guān)的新術(shù)語圖,以在系統(tǒng)的第一顯示部分中進(jìn)行顯示。隨后,根據(jù)本發(fā)明的方法進(jìn)入步驟530,用于從知識(shí)庫中取出新術(shù)語圖中相應(yīng)術(shù)語及其屬性和關(guān)系,形成一個(gè)新的查詢,并將查詢提交到文檔數(shù)據(jù)庫。接下來,在步驟540中,響應(yīng)所述查詢,搜索文檔數(shù)據(jù)庫,以找到與所述查詢匹配的各文檔。然后,在步驟550中,將找到的匹配文檔顯示給用戶。根據(jù)本發(fā)明的方法在步驟560中結(jié)束,與此相應(yīng)的用戶界面表示見圖6。
對(duì)于圖5步驟530中的操作,一方面,可以只從知識(shí)庫中取出與新術(shù)語圖中的主節(jié)點(diǎn)(這里為“HP company”)相關(guān)的屬性和關(guān)系,并用與該主節(jié)點(diǎn)及其屬性和關(guān)系形成新的查詢并進(jìn)一步搜索文檔;另一方面,也可以從知識(shí)庫中取出與新術(shù)語圖中多個(gè)節(jié)點(diǎn)相關(guān)的屬性和關(guān)系,并用這多個(gè)節(jié)點(diǎn)及其屬性和關(guān)系形成新的查詢并進(jìn)一步搜索文檔。在實(shí)際操作中,具體采用如上兩種方式中的哪一種可以由用戶指定,也可以由系統(tǒng)預(yù)先設(shè)定。
圖7描述了所述術(shù)語獲得裝置350在從第二顯示部分340的文檔列表窗口獲得術(shù)語并查看相應(yīng)文檔時(shí)的情形。即,用戶希望查看所述文檔列表中出現(xiàn)的特定術(shù)語或術(shù)語之間的關(guān)系。
圖7的方法從步驟700開始,隨后進(jìn)入步驟710。在步驟710中,假定用戶對(duì)文檔列表中存在的某些術(shù)語及其屬性或關(guān)系感興趣。于是,在步驟720中,術(shù)語獲得裝置350通過其文本分析裝置對(duì)文檔列表進(jìn)行文本分析,以便提取出用戶感興趣的術(shù)語及其屬性或關(guān)系。
隨后,根據(jù)本發(fā)明的方法進(jìn)入步驟730,將在步驟720中獲得的術(shù)語提交給第一提取裝置,以從知識(shí)庫中提取有關(guān)所述術(shù)語的術(shù)語圖。接下來,在步驟740中顯示所述術(shù)語圖。隨后,本發(fā)明的方法在步驟750中結(jié)束,與此相應(yīng)的用戶界面表示見圖8。
如圖1的用戶界面所示,在文檔內(nèi)容中,作為術(shù)語的詞會(huì)被突出顯示出來,這是系統(tǒng)在最初進(jìn)行文本分析時(shí)提取或分離術(shù)語的結(jié)果。那些在最初進(jìn)行文本分析時(shí)沒有被作為術(shù)語提取出來的詞匯不會(huì)被突出顯示。但是,無論一個(gè)詞匯是否被突出顯示,如果用戶對(duì)其進(jìn)一步信息感興趣,均可以例如通過點(diǎn)擊該詞匯或通過類似的輸入機(jī)制來將其提交給系統(tǒng)(這是現(xiàn)有技術(shù)中已有的技術(shù),不做詳細(xì)描述),從而按照如圖4所示的方法流程獲得相關(guān)的術(shù)語信息和/或文檔,與此相應(yīng)的用戶界面表示見圖9。
另外,如果用戶希望查看該文檔內(nèi)容中出現(xiàn)的所有術(shù)語和它們之間的關(guān)系和屬性的術(shù)語圖,則情況類似于參照?qǐng)D7描述的方法流程。這時(shí),也需要進(jìn)行一定的文本分析,例如確定各術(shù)語的權(quán)重、進(jìn)行排序等,隨后將這些術(shù)語構(gòu)成新的查詢提交給知識(shí)庫,以提取與所述術(shù)語相關(guān)的術(shù)語圖,以在第一顯示部分中進(jìn)行顯示。
示例性函數(shù)算法如前所述的根據(jù)本發(fā)明的系統(tǒng)和方法在文檔、術(shù)語和子圖之間進(jìn)行的交互,可以采用如圖10所示的函數(shù)關(guān)系來表示。以下給出函數(shù)1-3的示例性算法,分別由圖11-13的流程圖表示。這里給出的函數(shù)旨在說明本發(fā)明的原理,不應(yīng)理解為對(duì)本發(fā)明的限制。在這些函數(shù)中,假定知識(shí)庫K中所有術(shù)語構(gòu)成的術(shù)語圖為G,包含術(shù)語集T,文檔集為D。
圖11表示從文檔列表生成術(shù)語的方法(函數(shù)1)。
這里,假定有m個(gè)文檔{d1,...,dm},其中共出現(xiàn)T個(gè)術(shù)語。圖11的方法從步驟1100開始并進(jìn)入步驟1110。在步驟1110中,將每個(gè)術(shù)語的權(quán)重初始化為0,即wt=0.0(其中t=1,...,T)。
隨后,在步驟1120中,對(duì)于每個(gè)文檔dj(其中j=1,...,m),分別計(jì)算每個(gè)術(shù)語的權(quán)重,設(shè)wj,t為第t個(gè)術(shù)語的權(quán)重,t=1,...,T,計(jì)算方法如下wj,t=tfj,t*idf(t)這里,tfj,t表示文檔集合中的第j個(gè)文檔dj中的第t個(gè)術(shù)語出現(xiàn)的頻率,即詞頻;而idf(t)=logNNt,]]>其中,N表示文檔集合中文檔的數(shù)量,Nt表示文檔集合中包含術(shù)語t的文檔數(shù),idf(t)稱為逆文檔頻率(inversedocument frequency),它隨著Mt的增加而降低。重復(fù)上述等式,可以計(jì)算出文檔dj中所有術(shù)語的權(quán)重。
然后,在步驟1130中,對(duì)每個(gè)術(shù)語在m個(gè)文檔的權(quán)重進(jìn)行算數(shù)平均,就可以計(jì)算該術(shù)語的平均權(quán)重為w‾t=1mΣj=1mwj,t]]>然后,在步驟1140中,對(duì)術(shù)語按其平均權(quán)重從大到小排序,選出前k個(gè)術(shù)語,構(gòu)成查詢式。隨后,圖11所示的方法在步驟1150中結(jié)束。
圖12示出了從術(shù)語生成子圖的方法(函數(shù)2)。
圖12的方法從步驟1200開始并進(jìn)入步驟1210。在步驟1210中,假定有m個(gè)術(shù)語{t1,...,tm}。
在步驟1220中判斷在知識(shí)庫K的術(shù)語圖G中是否存在包含m個(gè)術(shù)語的連通子圖{G1,...,Gn}。如果步驟1220的判斷為“是”,則該方法進(jìn)入步驟1230,分別計(jì)算每個(gè)連通子圖的節(jié)點(diǎn)個(gè)數(shù)l1,...,ln,并且在步驟1240中選擇節(jié)點(diǎn)數(shù)最少的那個(gè)連通子圖Gk,以便呈現(xiàn)在第一顯示部分。然后,圖12的方法在步驟1250中結(jié)束。
如果步驟1220的判斷為“否”(即,在知識(shí)庫K的術(shù)語圖G中不存在包含m個(gè)術(shù)語的連通子圖{G1,...,Gn}),那么方法進(jìn)入步驟1260,對(duì)于每個(gè)術(shù)語ti∈{t1,...,tm},分別生成術(shù)語子圖Gi,其中,Gi包含術(shù)語ti以及和ti相連的所有的節(jié)點(diǎn)和邊(即術(shù)語和關(guān)系)。然后,在步驟1270中,將m個(gè)子圖{G1,...,Gm}合并成一個(gè)圖,呈現(xiàn)在第一顯示部分。隨后,同樣進(jìn)入步驟1250,以結(jié)束該方法。
圖13表示了從子圖生成文檔列表的方法(函數(shù)3)。
圖13的方法從步驟1300開始并進(jìn)入步驟1310。在步驟1310中,給定子圖Gi,假設(shè)用戶選擇了其中的m(m≥1)個(gè)術(shù)語。接下來,在步驟1320中,對(duì)每個(gè)術(shù)語ti,從知識(shí)庫K中得到這個(gè)術(shù)語的屬性和相關(guān)的術(shù)語,即與該術(shù)語節(jié)點(diǎn)相連接的術(shù)語以及他們之間的關(guān)系,構(gòu)成一個(gè)查詢式,提交到文檔數(shù)據(jù)庫進(jìn)行查詢。隨后,在步驟1330中,在文檔數(shù)據(jù)庫中檢索相關(guān)的文檔并將返回的文檔列表呈現(xiàn)在第二顯示部分。圖13所示的方法在步驟1340中結(jié)束。
前面參照?qǐng)D5描述的從第一顯示部分的術(shù)語圖中獲得新的術(shù)語,以查詢?cè)撔滦g(shù)語的術(shù)語圖以及相關(guān)文檔的過程可以示例性地通過組合函數(shù)2和函數(shù)3來實(shí)現(xiàn)。
前面參照?qǐng)D6描述的從文檔列表中提取術(shù)語,以查看所述術(shù)語的術(shù)語圖的過程,可以示例性地通過組合函數(shù)1和函數(shù)2來實(shí)現(xiàn)。
前面描述的查看文檔內(nèi)容中的某個(gè)術(shù)語的過程可以示例性地通過函數(shù)2來實(shí)現(xiàn)。
由以上的描述可以看出,根據(jù)本發(fā)明的系統(tǒng)和方法為用戶瀏覽信息提供了極大的靈活性,無論用戶從顯示界面的哪個(gè)部分入手,均能夠無障礙地得到自己需要的信息。
本領(lǐng)域技術(shù)人員會(huì)認(rèn)識(shí)到,可以以方法、系統(tǒng)或計(jì)算機(jī)程序產(chǎn)品的形式提供本發(fā)明的實(shí)施例。因此,本發(fā)明可采取全硬件實(shí)施例、全軟件實(shí)施例,或者組合軟件和硬件的實(shí)施例的形式。硬件和軟件的典型的結(jié)合可以是帶有計(jì)算機(jī)程序的通用計(jì)算機(jī)系統(tǒng),當(dāng)程序被加載并被執(zhí)行時(shí),控制計(jì)算機(jī)系統(tǒng),從而可以執(zhí)行上述的方法。
本發(fā)明可以嵌入在計(jì)算機(jī)程序產(chǎn)品中,它包括使此處描述的方法得以實(shí)施的所有特征。所述計(jì)算機(jī)程序產(chǎn)品被包含在一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)(包括,但不限于,磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)中,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)具有包含于其中的計(jì)算機(jī)可讀程序代碼。
已參考根據(jù)本發(fā)明的方法、系統(tǒng)及計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖說明了本發(fā)明。流程圖和/或方框圖中的每個(gè)方框,以及流程圖和/或方框圖中的方框的組合顯然可由計(jì)算機(jī)程序指令實(shí)現(xiàn)。這些計(jì)算機(jī)程序指令可被提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理器或者其他可編程的數(shù)據(jù)處理設(shè)備的處理器,以產(chǎn)生一臺(tái)機(jī)器,從而指令(所述指令通過計(jì)算機(jī)或者其他可編程數(shù)據(jù)處理設(shè)備的處理器)產(chǎn)生用于實(shí)現(xiàn)在流程圖和/或方框圖的一個(gè)或多個(gè)方框中規(guī)定的功能的裝置。
這些計(jì)算機(jī)程序指令也可保存在一個(gè)或多個(gè)計(jì)算機(jī)的讀存儲(chǔ)器中,每個(gè)這種存儲(chǔ)器能夠指揮計(jì)算機(jī)或者其他可編程數(shù)據(jù)處理設(shè)備按照特定的方式發(fā)揮作用,從而保存在計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生一種制造產(chǎn)品,所述制造產(chǎn)品包括實(shí)現(xiàn)在流程圖和/或方框圖的一個(gè)或多個(gè)方框中規(guī)定的功能的指令裝置。
計(jì)算機(jī)程序指令也可被加載到一個(gè)或多個(gè)計(jì)算機(jī)或者其他可編程數(shù)據(jù)處理設(shè)備上,使得在所述計(jì)算機(jī)或者其他可編程數(shù)據(jù)處理設(shè)備上執(zhí)行一系列的操作步驟,從而在每個(gè)這樣的設(shè)備上產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的過程,以致在該設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖和/或方框圖的一個(gè)或多個(gè)方框中規(guī)定的步驟。
以上通過描述本發(fā)明的優(yōu)選實(shí)施方式對(duì)本發(fā)明的原理進(jìn)行說明,但本領(lǐng)域技術(shù)人員能夠理解,上述說明只是示例性的,不能理解為對(duì)本發(fā)明的限制。可以對(duì)本發(fā)明進(jìn)行各種改進(jìn)和變形,而不會(huì)背離本發(fā)明的精神和范圍的情況下。本發(fā)明的范圍將由隨附的權(quán)利要求書限定。
權(quán)利要求
1.一種用于實(shí)現(xiàn)交互式瀏覽的系統(tǒng),所述系統(tǒng)與知識(shí)庫和文檔數(shù)據(jù)庫相連,所述知識(shí)庫存儲(chǔ)有多個(gè)術(shù)語以及與每個(gè)術(shù)語相關(guān)的信息,所述文檔數(shù)據(jù)庫存儲(chǔ)有多個(gè)文檔,所述系統(tǒng)包括術(shù)語獲得裝置,用于獲得用戶感興趣的術(shù)語;第一提取裝置,用于從知識(shí)庫中提取與所述用戶感興趣的術(shù)語相關(guān)的信息,第二提取裝置,用于從文檔數(shù)據(jù)庫中提取包含所述用戶感興趣的術(shù)語的文檔;用戶界面的第一顯示部分,用于顯示第一提取裝置提取的信息;以及用戶界面的第二顯示部分,用于顯示第二提取裝置提取的各文檔的列表。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述術(shù)語獲得裝置從所述第一或第二顯示部分中獲得用戶感興趣的術(shù)語。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述與每個(gè)術(shù)語相關(guān)的信息包括所述術(shù)語的屬性和/或關(guān)系。
4.根據(jù)權(quán)利要求1或2所述的系統(tǒng),其中所述第一顯示部分通過術(shù)語圖或文本描述來顯示所述用戶感興趣的術(shù)語以及術(shù)語的關(guān)系和/或?qū)傩浴?br>
5.根據(jù)權(quán)利要求1所述的系統(tǒng),還包括用戶界面的第三顯示部分,用于顯示第二顯示部分中列出的各文檔中某個(gè)特定文檔的內(nèi)容,并且所述術(shù)語獲得裝置還從所述第三顯示部分中獲得用戶感興趣的術(shù)語。
6.根據(jù)權(quán)利要求1所述的系統(tǒng),所述術(shù)語獲得裝置還包括查詢形成裝置,當(dāng)?shù)谝伙@示部分顯示了與用戶進(jìn)一步感興趣的術(shù)語有關(guān)的新術(shù)語圖時(shí),所述查詢形成裝置用于從知識(shí)庫中取出所述新術(shù)語圖中的一個(gè)或多個(gè)術(shù)語及其相關(guān)信息,以形成新的查詢并提交給文檔數(shù)據(jù)庫。
7.根據(jù)權(quán)利要求1所述的系統(tǒng),所述術(shù)語獲得裝置還包括文本分析裝置,用于取出文檔列表或文檔內(nèi)容中包含的備術(shù)語,并將其提交給第一提取裝置以提取與所述各術(shù)語相關(guān)的術(shù)語圖,并在第一顯示部分中顯示。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其中所述文本分析裝置通過以下方式至少之一從文檔列表或文檔內(nèi)容中取出所述各術(shù)語1)通過在線方式對(duì)文檔列表或文檔內(nèi)容進(jìn)行文本分析;以及2)直接從文檔數(shù)據(jù)庫中取出所述各術(shù)語。
9.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述系統(tǒng)還包括用戶界面的第四顯示部分,形成一個(gè)術(shù)語過濾器,包括術(shù)語實(shí)例以及過濾準(zhǔn)則,所述術(shù)語過濾器用于使用所述術(shù)語實(shí)例和過濾準(zhǔn)則構(gòu)成新的查詢,以搜索新的文檔列表。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述預(yù)定的準(zhǔn)則可以是所述術(shù)語實(shí)例的與/或關(guān)系;所述至少一個(gè)術(shù)語實(shí)例是預(yù)先輸入到系統(tǒng)中的或者是從先前的文檔列表中動(dòng)態(tài)提取的。
11.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述系統(tǒng)還包括用戶界面的第五顯示部分,用于用戶直接輸入其感興趣的特定術(shù)語,發(fā)送給所述術(shù)語獲得裝置。
12.一種用于實(shí)現(xiàn)交互式瀏覽的方法,所述方法包括獲得用戶感興趣的術(shù)語;從知識(shí)庫中提取與所述用戶感興趣的術(shù)語相關(guān)的信息,以顯示在界面的第一顯示部分中,所述知識(shí)庫存儲(chǔ)有多個(gè)術(shù)語以及與每個(gè)術(shù)語相關(guān)的信息;從文檔數(shù)據(jù)庫中提取包含所述用戶感興趣的術(shù)語的各文檔,以將提取的各文檔的列表顯示在用戶界面的第二顯示部分中,所述文檔數(shù)據(jù)庫存儲(chǔ)有多個(gè)文檔。
13.根據(jù)權(quán)利要求12所述的方法,其中所述與每個(gè)術(shù)語相關(guān)的信息包括所述術(shù)語的屬性和/或關(guān)系。
14.根據(jù)權(quán)利要求12所述的方法,還包括當(dāng)用戶查看所述文檔的列表中的某個(gè)特定文檔的內(nèi)容時(shí),該文檔內(nèi)容顯示在用戶界面的第三顯示部分上。
15.根據(jù)權(quán)利要求12所述的方法,其中所述方法還包括在用戶界面的第四顯示部分中顯示一些術(shù)語實(shí)例以及過濾準(zhǔn)則,使用所述術(shù)語實(shí)例和過濾準(zhǔn)則構(gòu)成新的查詢,以搜索新的文檔列表。
16.根據(jù)權(quán)利要求15所述的方法,其中所述預(yù)定的準(zhǔn)則可以是所述術(shù)語實(shí)例的與/或關(guān)系;所述至少一個(gè)術(shù)語實(shí)例是預(yù)先輸入到系統(tǒng)中的或者是從先前的文檔列表中動(dòng)態(tài)提取的。
17.根據(jù)權(quán)利要求12所述的方法,其中所述獲得術(shù)語的步驟可以從第一顯示部分中獲得用戶感興趣的術(shù)語。
18.根據(jù)權(quán)利要求17所述的方法,其中所述在從第一顯示部分中獲得用戶感興趣的術(shù)語,還包括如下步驟將獲得的術(shù)語的術(shù)語圖顯示在第一顯示部分中,通過從知識(shí)庫中取出所述術(shù)語和/或相關(guān)信息,形成新的查詢,并將查詢提交給文檔數(shù)據(jù)庫,由第二提取裝置提取相關(guān)文檔的列表;以及將提取的文檔列表顯示在所述第二顯示部分中。
19.根據(jù)權(quán)利要求12所述的方法,其中所述獲得術(shù)語的步驟還可以從下列裝置之一獲得用戶感興趣的術(shù)語第二顯示部分、第三顯示部分或第四顯示部分。
20.根據(jù)權(quán)利要求19所述的方法,其中所述獲得術(shù)語的步驟在從第二、三或四顯示部分中獲得用戶感興趣的術(shù)語時(shí),還包括如下步驟取出文檔列表或文檔內(nèi)容中包含的各術(shù)語,以構(gòu)成新的查詢,將所述查詢提交給第一提取裝置,以提取與所述各術(shù)語相關(guān)的術(shù)語圖,以及將提取的術(shù)語圖顯示在第一顯示部分中。
21.根據(jù)權(quán)利要求12所述的方法,其中所述獲得術(shù)語的步驟還可以從第五顯示部分獲得用戶感興趣的術(shù)語,其中所述第五顯示部分,用于用戶直接輸入其感興趣的特定術(shù)語。
22.根據(jù)權(quán)利要求21所述的方法,其中獲得術(shù)語的步驟在從第五顯示部分中獲得用戶感興趣的各術(shù)語時(shí),還包括如下步驟取出所述第五顯示部分中包含的各術(shù)語,以構(gòu)成新的查詢,將所述查詢提交給第一提取裝置,以提取與所述各術(shù)語相關(guān)的術(shù)語圖,以及將提取的術(shù)語圖顯示在第一顯示部分中。
23.根據(jù)權(quán)利要求18、20或22所述的方法,其中所述取出所述各術(shù)語的步驟通過以下方式至少之一從文檔列表或文檔內(nèi)容中取出所述各術(shù)語1)通過在線方式對(duì)文檔列表或文檔內(nèi)容進(jìn)行文本分析;以及2)直接從文檔數(shù)據(jù)庫中取出所述各術(shù)語。
全文摘要
本發(fā)明提供用于實(shí)現(xiàn)交互式瀏覽的系統(tǒng)及方法。所述系統(tǒng)與知識(shí)庫和文檔數(shù)據(jù)庫相連,知識(shí)庫存儲(chǔ)多個(gè)術(shù)語及與每個(gè)術(shù)語相關(guān)的信息,文檔數(shù)據(jù)庫存儲(chǔ)多個(gè)文檔,所述系統(tǒng)包括術(shù)語獲得裝置,用于獲得用戶感興趣的術(shù)語;第一提取裝置,用于從知識(shí)庫中提取與用戶感興趣的術(shù)語相關(guān)的信息,第二提取裝置,用于從文檔數(shù)據(jù)庫中提取包含用戶感興趣的術(shù)語的文檔;用戶界面的第一顯示部分,用于顯示第一提取裝置提取的信息;用戶界面的第二顯示部分,用于顯示第二提取裝置提取的文檔的列表。通過本發(fā)明,用戶可在同一界面中瀏覽文檔以及文檔中術(shù)語的信息。
文檔編號(hào)G06F17/30GK1896989SQ20051008460
公開日2007年1月17日 申請(qǐng)日期2005年7月15日 優(yōu)先權(quán)日2005年7月15日
發(fā)明者張俐, 劉濤, 蔣建民, 蘇中, 潘越 申請(qǐng)人:國際商業(yè)機(jī)器公司