專利名稱:文檔信息表構(gòu)造裝置以及利用其的瀏覽和查找系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種文檔信息提取處理和查找處理,更具體地,涉及一種文檔信息表構(gòu)造裝置以及利用其的瀏覽和查找系統(tǒng),以及一種文檔信息表構(gòu)造方法及瀏覽和查找方法。
背景技術(shù):
隨著計算機和因特網(wǎng)的發(fā)展已經(jīng)累積了大量的電子文檔。人們想從文檔中獲取他們感興趣的信息。但是由人來閱讀所有的文檔是不現(xiàn)實的,所以構(gòu)建了自動系統(tǒng)以幫助人們很容易地獲取信息。搜索引擎,數(shù)據(jù)分析,概要生成是這種系統(tǒng)的一些示例。
自動系統(tǒng)所關(guān)注的文檔集可以是有關(guān)單一領(lǐng)域的,或有關(guān)多個領(lǐng)域的。例如,EBay(www.ebay.com)提供了多種特定商品(例如,計算機)的查找系統(tǒng)。用戶可以通過設(shè)置條件,例如“品牌為IBM”來查找計算機。與EBay不同,Google(www.google.com)提供了有關(guān)多個領(lǐng)域的查找系統(tǒng),即,可以由用戶檢索所有類型的網(wǎng)頁,像新聞,藝術(shù),歷史等。
與多領(lǐng)域系統(tǒng)相比,單一領(lǐng)域系統(tǒng)雖然范圍有限,但其上的應(yīng)用卻是更有效的。例如,利用某些特定參數(shù)在EBay上查找計算機信息要比在Google上快。
如果文檔集是關(guān)于單一領(lǐng)域的,則它們通常共享相同主題。以及,每個文檔具有對相同主題的其自身的描述。例如,關(guān)于在EBay上售賣計算機的多個文檔共享諸如品牌、內(nèi)存容量、硬盤容量、新舊之類的主題。描述可以是品牌IBM,Dell,HP,或內(nèi)存容量128M,64M。因此,可以針對多個文檔形成標準表。所述表將文檔作為行,主題作為列,以及描述作為屬性值。所述表在很大程度上幫助自動系統(tǒng)檢索、分析或摘要文檔。在下列討論中,術(shù)語“屬性”用于表述主題,以及“屬性值”用于描述。
在組織單一領(lǐng)域的文檔信息時,一般由人類專家為文檔定義屬性和屬性值。例如,在EBay,人類專家定義了品牌、處理器速度、存儲器以及硬盤驅(qū)動容量作為計算機的屬性。此外,對于每個屬性,人類專家定義了一些選項,例如,品牌Acer、Compaq以及Dell等等。當用戶寫下售賣其計算機的文檔時,他為每個屬性選擇一個選項。這樣將會有助于其它用戶找到他的計算機。
但是由人定義表、更新表以及為每個文檔填寫所述表是耗費人力的,并可能引起錯誤。由計算機系統(tǒng)自動地完成這些工作是人們的一個愿望。由此帶來的好處是明顯的,不僅可以節(jié)省人力,還可以提高數(shù)據(jù)分析、概要生成等應(yīng)用的自動化程度,這對實時性要求高的應(yīng)用十分重要。特別地,它將對瀏覽和查找信息起到重要的作用。
我們知道,現(xiàn)在已經(jīng)有各種方法幫助用戶在Web上瀏覽并查找文檔和信息。那么現(xiàn)有方法是否就令人滿意了呢?讓我們具體分析一下。目前,因特網(wǎng)用戶在Web上瀏覽并查找信息的主要方式包括1.向搜索引擎例如Google提交一些關(guān)鍵詞,以獲得匹配Web頁的列表。之后,檢查每個Web頁上的相關(guān)信息。
2.瀏覽門戶網(wǎng)站,例如Yahoo,并從主題的列表中選擇特定主題,以到達包含相關(guān)信息的網(wǎng)站和網(wǎng)頁。
3.瀏覽新聞和/或文檔站點,例如,businessweek.com,并選擇新聞標題或文檔標題以到達新聞或文檔的網(wǎng)頁。
4.瀏覽在線購物站點,例如,amazon.com,選擇產(chǎn)品目錄,其相關(guān)子目錄等,以便找到站點認為與用戶所考慮的產(chǎn)品相關(guān)的產(chǎn)品列表。這種站點通常也提供搜索引擎能力,作為目錄降序方法的備選方法。
此外,人們采用了多種技術(shù)和方法幫助用戶更容易地查找和獲取信息1.網(wǎng)頁排序(例如在Google中使用)根據(jù)本網(wǎng)頁被其他網(wǎng)頁引用的次數(shù)來幫助排序。
2.聚類將類似的網(wǎng)頁合成一組。
3.預(yù)分類(一些電子商務(wù)站點,例如,Amazon和EBay)將信息預(yù)分類為衣物、化妝品、計算機等。對于每個分類,提供允許用戶限制其搜索的下拉選擇列表。
4.RSS使用戶訂購其認為是相關(guān)的信息源。
以上方法盡管都有成效,但是還有不足之處由網(wǎng)頁排序方法產(chǎn)生的搜索結(jié)果通常首先列出引用最多的文檔。然而,引用最多的文檔并不一定包含最精確或最有用的信息,用戶仍然必須仔細地閱讀其它網(wǎng)頁,以發(fā)現(xiàn)他所尋找的相關(guān)信息。
聚類方法可以根據(jù)文檔相似度把文檔分成一些組。通常,首先利用通用搜索引擎獲得文檔。但是因為聚類是基于搜索引擎獲得的文檔,所以盡管它有助于減少搜索結(jié)果在視覺上的雜亂性,但是并沒有改進信息精確度或可用性。
預(yù)分類反映的是網(wǎng)站設(shè)計者對信息結(jié)構(gòu)的一種理解,可能并不符合真實情況。
RSS允許用戶訂閱其所需信息。但是該方法在本質(zhì)上不同于信息查找,所以不能用精確度和完整性來衡量。
總之,上述所有方法需要用戶花費很多精力和時間與網(wǎng)頁交互并在系統(tǒng)返回的結(jié)果中查找所需信息。另外,查找方法還需要用戶對所查找的主題有所了解,以便使用合適的搜索詞。
如果對某一個領(lǐng)域的文檔,系統(tǒng)可以自動地定義表、更新表、并為每個文檔填寫描述,則可以根據(jù)表的結(jié)構(gòu)引導(dǎo)人們進行信息查找,這將大大減少人機交互,并最終減少人們查找信息所花的時間。特別地,這種方法對更新頻繁、(和/或)實時性要求高、(和/或)顯示屏幕小的信息查找系統(tǒng)十分重要。
發(fā)明內(nèi)容
因此,考慮到上述問題提出本發(fā)明,本發(fā)明的目的是提供一種文檔信息表構(gòu)造裝置以及使用其的方法。本發(fā)明也提供一種結(jié)合了文檔信息表構(gòu)造裝置的瀏覽和查找系統(tǒng)以及一種瀏覽和查找方法。
根據(jù)本發(fā)明第一方面,提供一種文檔信息表構(gòu)造裝置,包括屬性和屬性值提取裝置,用于從文檔中提取屬性值,并根據(jù)提取出的屬性值提取屬性;屬性和屬性值表形成裝置,用于組合對應(yīng)于相同屬性的屬性值,并形成屬性和屬性值表;以及屬性融合裝置,用于融合屬性和屬性值表中具有不同名稱的相同屬性,以生成文檔信息表。
根據(jù)本發(fā)明第二方面,提供一種文檔信息表構(gòu)造方法,包括提取步驟,從文檔中提取屬性值,并根據(jù)提取出的屬性值提取屬性;組合步驟,組合對應(yīng)于相同屬性的屬性值,并形成屬性和屬性值表;以及融合步驟,融合(integrating)屬性和屬性值表中具有不同名稱的相同屬性,以生成文檔信息表。
根據(jù)本發(fā)明第三方面,一種瀏覽和查找系統(tǒng),包括文檔信息表構(gòu)造裝置,包括屬性和屬性值提取裝置,用于從文檔中提取屬性值,并根據(jù)提取出的屬性值提取屬性;屬性和屬性值表形成裝置,用于組合對應(yīng)于相同屬性的屬性值,并形成屬性和屬性值表;以及屬性融合裝置,用于融合屬性和屬性值表中具有不同名稱的相同屬性,以生成文檔信息表;查找呈現(xiàn)形成裝置,用于形成包括一個或多個屬性以及選項的界面,每個屬性對應(yīng)于多個選項,其中所述多個選項包括了屬性的所有屬性值;用戶查詢輸入裝置,用于接收用戶通過界面輸入的查詢;查找裝置,用于根據(jù)所述查詢查找文檔信息表和文檔;顯示裝置,用于向用戶顯示結(jié)果。
根據(jù)本發(fā)明第四方面,一種瀏覽和查找方法,包括構(gòu)造文檔信息表的步驟,包括提取步驟,從文檔中提取屬性值,并根據(jù)提取出的屬性值提取屬性;組合步驟,組合對應(yīng)于相同屬性的屬性值,并形成屬性和屬性值表;以及融合步驟,融合屬性和屬性值表中具有不同名稱的相同屬性,以生成文檔信息表;界面形成步驟,形成包括一個或多個屬性以及選項的界面,每個屬性對應(yīng)于多個選項,其中所述選項包括屬性的所有屬性值;查詢接收步驟,用于接收用戶通過界面輸入的查詢;查找步驟,用于根據(jù)所述查詢查找文檔信息表和文檔;顯示步驟,用于向用戶顯示結(jié)果。
因此,本發(fā)明具有以下有益效果由于文檔信息表構(gòu)造裝置自動提取屬性和屬性值,因此節(jié)省了用戶時間并改進了文檔信息表的精確度和完整性。此外,由文檔信息表構(gòu)造裝置執(zhí)行的屬性融合將有助于檢測新的知識,(例如,漢字示例“貓(cat)”在描述PC時指“調(diào)制解調(diào)器”),并識別具有不同名稱的相同屬性。因此,文檔信息表構(gòu)造裝置構(gòu)造具有完整和精確文檔信息的文檔信息表。
與Google之類的全文本查找相比較,瀏覽和查找系統(tǒng)根據(jù)屬性和選項執(zhí)行文本信息的瀏覽和查找,可以降低用戶和系統(tǒng)之間的交互,減少用戶找到相關(guān)信息所花的時間?;趯傩院蛯傩灾?以及選項)的信息在某種程度上揭示了查找“傾向”并幫助用戶做出決策。將屬性值組成選項將節(jié)省空間并特別地便利具有小屏幕的設(shè)備(例如,移動電話或PDA)。在交互中動態(tài)地改變屬性和選項列表可以進一步節(jié)省空間。
根據(jù)下列詳細描述并結(jié)合附圖,本發(fā)明的上述以及其它目的、特征和益處將變得更清楚,其中圖1示出了根據(jù)本發(fā)明一個實施例的文檔信息表構(gòu)造裝置的示意圖;圖2是示出了根據(jù)本發(fā)明構(gòu)造文檔信息表的處理流程圖;圖3是示出了提取屬性和屬性值的處理流程圖;圖4是示出了本發(fā)明的屬性融合裝置的示意圖;圖5是示出屬性融合的處理流程圖;圖6是示出了根據(jù)本發(fā)明另一實施例的文檔信息表構(gòu)造裝置的示意圖;圖7是示出了結(jié)合根據(jù)本發(fā)明的文檔信息表構(gòu)造裝置的瀏覽和查找系統(tǒng);圖8是示出了瀏覽和查找處理的流程圖;圖9是示出了如何在不同文檔信息表中執(zhí)行查找的示意圖;圖10A示出了屬性和屬性值表的示例;圖10B示出了文檔信息表的示例;圖11示出了當用戶瀏覽和查找信息時的界面的示例。
具體實施例方式
下面,將參考附圖描述本發(fā)明的優(yōu)選實施例。在附圖中,雖然在不同附圖中描述,但相同的元件將由相同的參考符號或數(shù)字表示。此外,在本發(fā)明的下列描述中,將省略對已知功能和配置的具體描述,以避免使本發(fā)明的主題不清楚。
圖1示出根據(jù)本發(fā)明一個實施例的文檔信息表構(gòu)造裝置。
根據(jù)本發(fā)明的文檔信息表構(gòu)造裝置20包括屬性和屬性值提取裝置21,用于提取屬性和屬性值;屬性和屬性值表形成裝置22,用于生成屬性和屬性值表;文檔信息表形成裝置23,用于生成文檔信息表;屬性和屬性值表存儲裝置24;屬性融合裝置25,用于融合屬性;屬性別名存儲裝置26以及修改裝置27。
文檔信息表構(gòu)造裝置20從文檔存儲裝置10中讀取文檔,為所述文檔構(gòu)造信息表,并將結(jié)果存儲在文檔信息表存儲裝置30中。屬性和屬性值提取裝置21包括屬性值提取單元211以及屬性提取單元212?,F(xiàn)在將參考圖1并結(jié)合圖2詳細描述文檔信息表構(gòu)造裝置20。
在S201,對文檔進行預(yù)處理。如果文檔是漢字文檔,則將采用詞分割以及詞性(POS)標注。如果文檔是網(wǎng)頁,則提取出相關(guān)內(nèi)容而濾除不相關(guān)的部分,例如,廣告。在S202,文檔信息表構(gòu)造裝置20的屬性值提取單元211首先從文檔存儲裝置10中提取出屬性值,之后,文檔信息表構(gòu)造裝置20的屬性提取單元212根據(jù)提取出的屬性值從文檔存儲裝置10中提取屬性。在提取處理中,屬性值提取單元211和屬性提取單元212兩個單元相互協(xié)作。
在S203,屬性和屬性值表形成裝置22組合具有相同屬性的屬性值,并根據(jù)提取出的屬性和屬性值形成屬性和屬性值表。所述屬性和屬性值表被存儲在屬性和屬性值表存儲裝置24中。圖10A示出了屬性和屬性值表的示例,其中屬性和屬性值表與計算機的信息有關(guān)。
在S204,文檔信息表形成裝置23根據(jù)由屬性和屬性值提取裝置21提取出的屬性和屬性值構(gòu)造文檔的初始信息表。之后,將初始文檔信息表存儲在文檔信息表存儲裝置30中。所述表的列是屬性,行是各個文檔,而每行記錄了一文檔的屬性的屬性值。
在S205,屬性融合裝置25讀取包含在文檔存儲裝置10與屬性和屬性值表存儲裝置24中的信息,并識別出具有不同名稱的相同屬性(即,別名),從而融合所述屬性。將獲得的屬性別名存儲在屬性別名存儲裝置26中。
之后,修改裝置27在S206根據(jù)存儲在屬性別名存儲裝置26中的別名修改存儲在屬性和屬性值表存儲裝置24中的屬性和屬性值表以及存儲在文檔信息表存儲裝置30中的文檔信息表。圖10B給出了文檔信息表的示例,其中文檔信息表與計算機的信息有關(guān)。
因此,文檔信息表構(gòu)造裝置20如上所述構(gòu)造了文檔信息表。具有屬性和屬性值信息的一個或多個構(gòu)造的文檔信息表可以幫助自動系統(tǒng)檢索、分析或摘要多個文檔。
圖3示出根據(jù)本發(fā)明由屬性和屬性值提取裝置21執(zhí)行的屬性和屬性值提取處理。如圖3所示,在S301,屬性和屬性值提取裝置21的屬性值提取單元211從存儲在文檔存儲裝置10的文檔中提取包含屬性值的特定句子以及提取出屬性值。
我們考慮一個包含屬性和屬性值的簡單信息塊。屬性值描述了屬性。屬性值可以是數(shù)字,數(shù)字和英文字符混合的字符串(和/或漢字字符,和/或標點符號),一小部分文本等。第一個示例,在信息塊“雨天”中,“天”是屬性以及“雨”是屬性值。第二個示例,在信息塊“30G硬盤”中,“硬盤”是屬性以及“30G”是屬性值。更復(fù)雜的信息塊可以被分成子信息塊,每個這種信息塊仍由屬性和屬性值組成。例如,在句子“我們決定多國援助是這一問題的最優(yōu)解決方案”。屬性“援助”具有屬性值“多國”,而屬性“解決方案”具有屬性值“多國援助”。此外,屬性“決定”具有屬性值“多國援助是這一問題的最優(yōu)解決方案”,等等。每個這種屬性(以及在信息塊中的屬性的每個組合)提供了相關(guān)屬性值所支持的上下文,并賦予屬性含義。例如,上述句子在“解決方案”的上下文條件下所考慮的語境而給出知識“多國援助”是屬性值。
因此,將通過屬性值提取單元211提取下列特定句子1.包含數(shù)字的句子,例如1683或20-30。
2.2.包含名稱項的句子,例如人名、地址、電話號碼、郵政編碼等?,F(xiàn)有技術(shù)Name Entity Recognition可以對這些名稱項進行標識。例如″G.Zhou and J.Su,Named entity recognition using an hmm-based chunktagger.In Proceedings of the 40th Annual Meeting of the Association forComputational Linguistics(ACL),pages 473--480,2002”。
3.包含由數(shù)字、英文字符、漢字字符和/或標點符號混合的特定字符串的句子,例如,N900、昭陽6300,Pentium-M。
4.4.包含詞的模式的句子。這種詞的模式的示例為“具有**以上教育學(xué)歷”(**是若干中文字)。除了模式詞之外,此類句子必須包含其它的詞。在該例中,句子可以是“具有本科以上學(xué)歷”。存在多種方法用于提取模式,例如文章Arasu,A.and Garcia-Molina,H.Extracting structureddata from web pages.SIGMOD 2003,337-348提出的方法。
從這些句子中取出屬性值,包括數(shù)字、名稱項、混合字符串、包含模式的句子中除去模式的部分(例如“本科”)。
在提取出所有特定句子之后,在S302,屬性值提取單元211將句子分為多個組。例如1.根據(jù)單位劃分包含數(shù)字的句子。單位是數(shù)字后面的詞/短語,例如,千克或公斤。
2.將包含名稱項的句子依據(jù)其類型進行劃分。例如,包含人名的所有句子形成一組。
3.包含特定混合字符串的所有句子形成一組。
4.將包含模式的句子依據(jù)模式進行劃分。所有具有相同模式的句子將形成一組。
之后,屬性提取單元212在S303為劃分后的組找出代表詞/短語。為每組找出一個或多個代表詞/短語作為屬性。存在多種方法用于找出代表詞,例如,關(guān)鍵詞提取方法。由于識別屬性值比識別屬性容易(一些值可以根據(jù)形式識別,但是幾乎所有的屬性必須由含義識別),根據(jù)本發(fā)明的屬性和屬性值提取方法比提取屬性的傳統(tǒng)方法更為精確。請注意,雖然句子被分為組,一個屬性有時出現(xiàn)在一個或多個組中。例如,由于存儲器具有例如64M和1G的屬性值,形成了兩組,一個具有單位M,而另一組具有單位G。這兩組都將存儲器作為代表詞(即,屬性)。因此對于屬性“存儲器”隨后應(yīng)該組合屬性值。
圖4是示出了本發(fā)明的屬性融合裝置25。如圖4所示,屬性融合裝置25包括屬性融合準備裝置251,屬性融合信息庫252以及用于根據(jù)屬性融合信息庫252用于確定任意兩個屬性的融合度的屬性融合確定裝置253,其中融合度(integrating possibility)是一個數(shù)值,這個數(shù)值可以幫助判斷兩個屬性是否應(yīng)該融合。通常越大則代表越應(yīng)該融合。
在實際環(huán)境中的典型例子是不同的詞用來描述相同的屬性。雖然同義字典可以幫助識別這種情況,由于字典的局限性,仍然有一些詞不能夠被識別。一個漢字的示例是詞“貓(cat)”在描述PC時指“調(diào)制解調(diào)器”。但是在同義字典中會經(jīng)常被遺漏。屬性融合裝置25融合具有相同含義但是名稱不同的這些屬性。
屬性融合準備裝置251包括屬性值相似度計算單元2511,用于計算屬性中的屬性值相似度;屬性共同發(fā)生頻率計算單元2512,用于計算屬性共同發(fā)生頻率。屬性融合信息庫252包括屬性值相似度存儲單元2521;屬性共同發(fā)生頻率存儲單元2522以及用于存儲基于字典的屬性相似度的基于字典的屬性相似度存儲單元2523。一些字典提供了計算屬性相似度的功能。例如HowNet(http//www.keenage.com/)。
將參考圖4和5描述屬性融合方法。參考圖5,先執(zhí)行左邊路徑(S501-S503)還是右邊路徑(S504-S505)并沒有差別。為了計算屬性值相似度,首先在S501和S502讀取屬性值并選擇特征。屬性值相似度計算單元2511從屬性和屬性值表存儲裝置24讀取屬性和屬性值表,并選擇將屬性值轉(zhuǎn)換為矢量的多個特征。所述方法源自模式識別領(lǐng)域。所述多個特征可以包括,例如,屬性值長度,是否包括數(shù)字,包括在屬性值中的詞,等等。
之后,屬性值相似度計算單元2511根據(jù)矢量計算屬性值相似度。一個候選方法是計算矢量的余弦距離。相似度計算的結(jié)果為數(shù)字組。每個數(shù)字指示兩個屬性之間的相似度。在S503將數(shù)字組存儲在屬性值相似度存儲單元2521。
接著,在S504至S505屬性共同發(fā)生頻率計算單元2512讀取屬性并執(zhí)行屬性共同發(fā)生頻率分析,以便計算同一文檔中任意兩個屬性的共同發(fā)生頻率。獲得的結(jié)果是數(shù)字組。每個數(shù)字組指示兩個屬性之間的共同發(fā)生頻率。
之后,屬性融合確定裝置253在S506將屬性值相似度和屬性共同發(fā)生頻率組合在一起,從而給出數(shù)字組,其中每個數(shù)字指示任何兩個屬性的融合度。屬性值越相似以及屬性共同發(fā)生頻率越小,就越有可能融和這兩個屬性。在S508和S509,屬性融和確定裝置253在S507確定融和概率并對融和概率進行排序,以給出成對屬性的排序列表。設(shè)置一閾值并對列表中在前的屬性進行融合。將屬性融和的結(jié)果存儲在屬性別名存儲裝置26中。
雖然圖4示出屬性融合準備裝置251包括屬性值相似度計算單元2511以及屬性共同發(fā)生頻率計算單元2512,屬性融合信息庫252包括屬性值相似度存儲單元2521,屬性共同發(fā)生頻率存儲單元2522和基于字典的屬性近相似度存儲單元2523,對于本領(lǐng)域的普通技術(shù)人員來說,顯而易見地,屬性融合準備裝置251可以僅包括屬性值相似度計算單元2511,屬性融合信息庫252可以僅由屬性值相似度存儲單元2521構(gòu)成。因此,屬性值相似度計算單元2511執(zhí)行與S501至S503相同的步驟。與S507至S509的步驟相同,屬性融合確定裝置253根據(jù)屬性值相似度計算單元2511確定任意兩個屬性的融和概率,并對融和概率進行排序以給出成對屬性的排序列表。設(shè)置一閾值并對列表中在前的屬性進行融和。將屬性融和的結(jié)果存儲在屬性別名存儲裝置26中。
圖6示出根據(jù)本發(fā)明另一實施例的文檔信息表構(gòu)造裝置。與圖1相比,信息表構(gòu)造裝置20還包括知識裝置28,其包括知識學(xué)習(xí)裝置281和知識存儲裝置282。為了清楚描述,在圖6中僅僅示出了信息表構(gòu)造裝置20的屬性值提取單元211,屬性提取單元212與屬性和屬性值表存儲裝置24。省略了信息表構(gòu)造裝置20的其它部件。
知識裝置28是信息表構(gòu)造裝置20的附加部分。知識學(xué)習(xí)裝置281從文檔存儲裝置10與屬性和屬性值表存儲裝置24學(xué)習(xí)知識。所述知識是關(guān)于屬性值或?qū)傩缘?。給出學(xué)習(xí)有關(guān)計算機存儲器的屬性值知識的示例當讀取“XXM”時(XX是兩個數(shù)字),有85%的概率表明該短語描述了內(nèi)存容量??梢詫W(xué)習(xí)的知識存儲在知識存儲裝置282中。所以屬性值提取單元211和屬性提取單元212可以借助于存儲在知識存儲裝置282中的知識提取出文檔的未識別出的屬性值和屬性。
例如,雖然識別出一些屬性值,可能仍然存在一些未識別出的屬性值,例如,句子“64M”。當讀取**M時,雖然*表示數(shù)字,即,64,它是屬性“內(nèi)存容量”的屬性值。通過屬性值的知識,將“64M”識別為屬性“內(nèi)存容量”的屬性值。另外兩個例子為1)冒號之前的短語是屬性。2)符號[]擴起來的短語是屬性。目前已經(jīng)有了多種方法來學(xué)習(xí)有關(guān)屬性或?qū)傩灾档闹R。例如,數(shù)據(jù)挖掘(data mining)方法(Jiawei,2000Jiawei Hanand Micheline Kamber,Data MiningConcepts and Techniques,The MorganKaufmann Series in Data Management Systems.)可以用來學(xué)習(xí)有關(guān)屬性或?qū)傩灾档闹R。以及可以使用Kushmerick 2000中的方法(Kushmerick2000Nicholas Kushmerick.Wrapper inductionEfficiency andexpressiveness.)和Arvind,2003中的方法(Arvind,2003Arvind Arasu,Hector GM.,Extracting Structured Data from Web pages)來學(xué)習(xí)有關(guān)屬性或?qū)傩灾档闹R。
由于文檔信息表構(gòu)造裝置20構(gòu)造了文檔信息表,所以其可以幫助自動系統(tǒng)檢索、分析或摘要多個文檔,從而文檔信息表構(gòu)造裝置20可以應(yīng)用于各種系統(tǒng),例如,瀏覽和查找系統(tǒng),數(shù)據(jù)分析系統(tǒng)和摘要系統(tǒng)。
下面將結(jié)合圖7描述使用了文檔信息表構(gòu)造裝置20的瀏覽和查找系統(tǒng)。瀏覽和查找系統(tǒng)包括客戶機40,客戶機40包括用戶查詢輸入裝置41和顯示裝置42;以及應(yīng)用服務(wù)器50,應(yīng)用服務(wù)器50包括文檔存儲裝置10,文檔信息表存儲裝置30,文檔信息表構(gòu)造裝置20,用戶查詢分析裝置51,查找裝置52以及查找呈現(xiàn)形成裝置53??蛻魴C40可以安裝在應(yīng)用服務(wù)器50上,也可以通過本地或廣域網(wǎng)(例如因特網(wǎng),企業(yè)內(nèi)部互聯(lián)網(wǎng))連接到應(yīng)用服務(wù)器50。顯示裝置42可以是通用Web瀏覽器或?qū)S密浖?。為了清楚地描述,僅示出了文檔信息表構(gòu)造裝置20并省略了其部件。
將參考圖8詳細描述瀏覽和查找系統(tǒng)的處理流程。在S801,文檔信息表構(gòu)造裝置20讀取存儲在文檔存儲裝置10中的文檔并對其進行構(gòu)造,形成了包含屬性和屬性值的文檔信息表。文檔信息表的數(shù)目至少是一個。將結(jié)果存儲在文檔信息表存儲裝置30中。
之后,在S802,查找呈現(xiàn)形成裝置53讀取在文檔信息表存儲裝置30中的文檔信息表并在顯示裝置42上形成初始界面,其中,為用戶列出一個或多個屬性和選項,以便用戶設(shè)置查詢條件。每個屬性對應(yīng)于包含該屬性的全部屬性值的選項。
形成選項的方法有兩種。一種是選項僅包含一個屬性值。然而,列表將會太長,而給小屏幕裝置帶來了不便。第二種方法是對屬性值聚類,以形成多個選項,因此一個選項包括多個屬性值。在聚類方法種,如果屬性值是數(shù)字類型的,則可以直接進行聚類。否則,如果屬性值是字符類型的,則可以先從每個屬性值提取出關(guān)鍵詞,之后對關(guān)鍵詞進行聚類從而形成選項。
查找呈現(xiàn)形成裝置53可以使用至少三種方法通過界面呈現(xiàn)文檔信息表中的內(nèi)容1.從所有的屬性中選擇一個屬性(文檔信息表的列)并向用戶示出該屬性以及其全部選項。用戶通過用戶查詢輸入裝置41選擇一個或多個選項作為查詢(即,查找條件)。
2.同時向用戶呈現(xiàn)多個屬性。用戶通過用戶查詢輸入裝置41選擇一個或多個屬性,之后對每個選擇的屬性選擇一個或多個選項作為查詢(即,查找條件)。
3.根據(jù)屬性對文檔信息表的行進行聚類。之后,向用戶顯示所述聚類。用戶通過用戶查詢輸入裝置41選擇一個聚類作為查詢(即,查找條件)。此外,對應(yīng)于某一選項的行的數(shù)目可以附加到選項中。如果存在太多的屬性/選項從而不能夠?qū)⒚恳粋€選項包括在界面中時,則給出度量方法以決定哪些要去除,哪些要保留。
因此,用戶可以按照界面瀏覽和/或查找所需內(nèi)容。用戶查詢輸入裝置41在S803接收用戶通過界面輸入的查詢。之后,將查詢通過內(nèi)部傳輸機制,例如計算機的總線單元或本地或廣域網(wǎng)(例如因特網(wǎng)或企業(yè)互聯(lián)網(wǎng))將查詢發(fā)送到用戶查詢分析裝置51。用戶查詢分析裝置51分析用戶查詢并將分析結(jié)果發(fā)送到查找裝置52,查找裝置52在S804從文檔存儲裝置10和文檔信息表存儲裝置30搜索文檔和文檔信息表。之后組織查找結(jié)果以便通過查找呈現(xiàn)形成裝置53形成新的呈現(xiàn)。通常,在用戶設(shè)置了搜索條件之后,選擇所有滿足所述條件的行形成新的文檔信息表。如果某一屬性對于所有行僅僅具有一個屬性值,則從所述文檔信息表中去除該屬性。之后,在S805將結(jié)果發(fā)送到顯示裝置42并在顯示裝置42上顯示。當用戶進一步設(shè)置查詢條件時,重復(fù)上述過程,直到用戶停止選擇選項或聚類,或者沒有屬性可選,或者沒有選項/聚類可以形成。
圖11示出了當用戶瀏覽和查找有關(guān)計算機的信息時移動電話上的界面的示例。由于對選項進行了聚類,縮減了瀏覽和查找界面的總體尺寸,同時,查找結(jié)果更為精確和集中。
圖9示出了執(zhí)行查找的另一示例。用戶的查詢可以與多于一個的文檔信息表有關(guān),因此,僅查找一個文檔信息表將不會檢索出正確的結(jié)果。為了解決該問題,查找裝置52識別不同文檔信息表之間的相同或相似的屬性(列)。以及定義這些屬性的運算符(通常手工地)。因此,當接收到用戶查詢時,通過查找裝置52先識別出對應(yīng)的文檔信息表。之后,根據(jù)查詢選擇出所述文檔信息表之間的運算符。查找裝置52執(zhí)行對文檔信息表的搜索。最后,向用戶顯示搜索結(jié)果。
下面,給出一個使用瀏覽和查找系統(tǒng)的示例對于70個像D1和D2描述計算機的文檔,所述瀏覽和查找系統(tǒng)可以自動完成下列工作1.提取屬性值,例如,首先提取“12.1’XGA 10.4’XGA”以及“14.1’TFTLCD”和“1.64Kg”。之后,為提取出的屬性值提取屬性,例如,“屏幕尺寸”和“重量”。
2.將“14.4’,10.4’和12.1’(對應(yīng)與相同屬性“屏幕尺寸)”之類的屬性值進行組合并形成屬性和屬性值表。
3.融合“處理器”和“CPU”之類的屬性。
4.為屬性形成選項,例如,對于屬性“屏幕尺寸”1) 8’~10.4’(15)2) 12.1’~14.1’(35)3) 15’~17’(20)可以將屏幕尺寸的屬性值聚類為三種選項。在括號內(nèi)的摘要表示在全部70個計算機中,15個計算機的屏幕尺寸在8’和10.4’之間,35個計算機的屏幕尺寸在12.1’和14.1’之間,以及20個計算機的屏幕尺寸在15’和17’之間。
5.用戶通過選擇一個或多個選項,例如1)或1)+2)繼續(xù)瀏覽和查找。
6.如果所有文檔對于某一屬性具有相同的屬性值,則從界面的屬性列表中去除所述屬性。
D1D2許多其它種類的商品具有與D1和D2示出的計算機領(lǐng)域類似的情況。這些商品具有其自己的屬性和屬性值。可以將屬性值聚類為選項。本發(fā)明同樣可以應(yīng)用于這些商品的文檔。一些示例包括在下列表中。
表1示出了一些商品的屬性和屬性值。
表1
(后續(xù))
*注意所有的商品具有屬性“價格”。
表2示出了對于一些其它領(lǐng)域的屬性和屬性值表2
雖然已經(jīng)利用特定的條件描述了本發(fā)明的優(yōu)選實施例,但是這樣的描述僅出于說明的目的,應(yīng)該理解的是,在不脫離所附權(quán)利要求的精神和范圍的情況下可以進行修改和變化。
權(quán)利要求
1.一種文檔信息表構(gòu)造裝置,包括屬性和屬性值提取裝置,用于從文檔中提取屬性值,并根據(jù)提取出的屬性值提取屬性;屬性和屬性值表形成裝置,用于組合對應(yīng)于相同屬性的屬性值,并形成屬性和屬性值表;以及屬性融合裝置,用于融合屬性和屬性值表中具有不同名稱的相同屬性,以生成文檔信息表。
2.根據(jù)權(quán)利要求1所述的文檔信息表構(gòu)造裝置,其中所述文檔信息表構(gòu)造裝置還包括知識學(xué)習(xí)裝置,用于學(xué)習(xí)與屬性或?qū)傩灾涤嘘P(guān)的知識并將所述知識提供給屬性和屬性值提取裝置。
3.根據(jù)權(quán)利要求1或2所述的文檔信息表構(gòu)造裝置,其中所述屬性和屬性值提取裝置包括屬性值提取單元,用于從文檔中提取包含屬性值的句子以提取出屬性值并對提取出的句子分組;以及屬性提取單元,用于針對每組句子找出代表詞或短語,作為與屬性值對應(yīng)的屬性。
4.根據(jù)權(quán)利要求3所述的文檔信息表構(gòu)造裝置,其中所述屬性提取單元通過關(guān)鍵字提取方法找出代表詞或短語。
5.根據(jù)權(quán)利要求1至4之一所述的文檔信息表構(gòu)造裝置,其中所述屬性融合裝置包括屬性值相似度計算單元,用于根據(jù)屬性和屬性值表計算屬性值相似度;以及屬性融合確定裝置,用于根據(jù)所述屬性值相似度來確定任何兩個屬性的融合度。
6.根據(jù)權(quán)利要求1至4之一所述的文檔信息表構(gòu)造裝置,其中所述屬性融合裝置包括屬性值相似度計算單元,用于根據(jù)屬性和屬性值表計算屬性值相似度;以及共同發(fā)生頻率計算單元,用于計算屬性的共同發(fā)生頻率;屬性融合確定裝置,用于根據(jù)所述屬性值相似度和共同發(fā)生頻率來確定任何兩個屬性的融合度。
7.根據(jù)權(quán)利要求6所述的文檔信息表構(gòu)造裝置,其中所述屬性融合裝置還包括基于字典的屬性相似度存儲裝置,用于存儲基于字典的屬性相似度;以及所述屬性融合確定裝置根據(jù)屬性值相似度,共同發(fā)生頻率和基于字典的屬性相似度來確定任何兩個屬性的融合度。
8.根據(jù)權(quán)利要求5-7之一所述的文檔信息表構(gòu)造裝置,其中所述屬性值相似度計算單元選擇將屬性值轉(zhuǎn)換為矢量的特征,并根據(jù)所述矢量計算屬性值相似度。
9.根據(jù)權(quán)利要求8所述的文檔信息表構(gòu)造裝置,其中所述屬性值相似度計算單元通過計算矢量的余弦距離計算屬性值相似度。
10.一種文檔信息表構(gòu)造方法,包括下列步驟提取步驟,從文檔中提取屬性值,并根據(jù)提取出的屬性值提取屬性;組合步驟,組合對應(yīng)于相同屬性的屬性值,并形成屬性和屬性值表;以及融合步驟,融合屬性和屬性值表中具有不同名稱的相同屬性,以生成文檔信息表。
11.根據(jù)權(quán)利要求10所述的文檔信息表構(gòu)造方法,其中所述構(gòu)造方法還包括步驟學(xué)習(xí)與屬性或?qū)傩灾涤嘘P(guān)的知識,用于提取屬性值以及提取屬性。
12.根據(jù)權(quán)利要求10或11所述的文檔信息表構(gòu)造方法,其中所述提取步驟包括從文檔中提取包含屬性值的句子以提取出屬性值并對提取出的句子分組的步驟;以及針對每組句子找出代表詞或短語,作為與屬性值對應(yīng)的屬性的步驟。
13.根據(jù)權(quán)利要求12所述的文檔信息表構(gòu)造方法,其中找出代表詞或短語的步驟中使用了關(guān)鍵字提取方法。
14.根據(jù)權(quán)利要求10至13之一所述的文檔信息表構(gòu)造方法,其中融合步驟包括步驟根據(jù)屬性和屬性值表計算屬性值相似度;以及根據(jù)所述屬性值相似度來確定任何兩個屬性的融合度。
15.根據(jù)權(quán)利要求10至13之一所述的文檔信息表構(gòu)造方法,其中融合步驟包括步驟根據(jù)屬性和屬性值表計算屬性值相似度;以及計算屬性的共同發(fā)生頻率;根據(jù)所述屬性值相似度和共同發(fā)生頻率來確定任何兩個屬性的融合度。
16.根據(jù)權(quán)利要求15所述的文檔信息表構(gòu)造方法,其中確定任何兩個屬性的融合度的所述確定步驟還包括根據(jù)屬性值相似度,共同發(fā)生頻率和基于字典的屬性相似度來確定任何兩個屬性的融合度。
17.根據(jù)權(quán)利要求14至16之一所述的文檔信息表構(gòu)造方法,其中計算屬性值相似度的步驟包括選擇將屬性值轉(zhuǎn)換為矢量的特征,并根據(jù)所述矢量計算屬性值相似度的步驟。
18.根據(jù)權(quán)利要求17所述的文檔信息表構(gòu)造方法,其中根據(jù)矢量計算屬性值相似度的步驟包括通過計算矢量的余弦距離計算屬性值相似度的步驟。
19.一種瀏覽和查找系統(tǒng),包括文檔信息表構(gòu)造裝置,包括屬性和屬性值提取裝置,用于從文檔中提取屬性值,并根據(jù)提取出的屬性值提取屬性;屬性和屬性值表形成裝置,用于組合對應(yīng)于相同屬性的屬性值,并形成屬性和屬性值表;以及屬性融合裝置,用于融合屬性和屬性值表中具有不同名稱的相同屬性,以生成文檔信息表;查找呈現(xiàn)形成裝置,用于形成包括一個或多個屬性以及選項的界面,每個屬性對應(yīng)于多個選項,其中所述多個選項包括了屬性的所有屬性值;用戶查詢輸入裝置,用于接收用戶通過界面輸入的查詢;查找裝置,用于根據(jù)所述查詢查找文檔信息表和文檔;顯示裝置,用于向用戶顯示結(jié)果。
20.根據(jù)權(quán)利要求19所述的瀏覽和查找系統(tǒng),其中所述文檔信息表構(gòu)造裝置還包括知識學(xué)習(xí)裝置,用于學(xué)習(xí)與屬性或?qū)傩灾涤嘘P(guān)的知識并將所述知識提供給屬性和屬性值提取裝置。
21.根據(jù)權(quán)利要求19或20所述的瀏覽和查找系統(tǒng),其中所述屬性和屬性值提取裝置包括屬性值提取單元,用于從文檔中提取包含屬性值的句子以提取出屬性值并對提取出的句子分組;以及屬性提取單元,用于針對每組句子找出代表詞或短語,作為與屬性值對應(yīng)的屬性。
22.根據(jù)權(quán)利要求21所述的瀏覽和查找系統(tǒng),其中所述屬性提取單元通過關(guān)鍵字提取方法找出代表詞或短語。
23.根據(jù)權(quán)利要求19至22一所述的瀏覽和查找系統(tǒng),其中所述屬性融合裝置包括屬性值相似度計算單元,用于根據(jù)屬性和屬性值表計算屬性值相似度;以及屬性融合確定裝置,用于根據(jù)所述屬性值相似度來確定任何兩個屬性的融合度。
24.根據(jù)權(quán)利要求19至22之一所述的瀏覽和查找系統(tǒng),其中所述屬性融合裝置包括屬性值相似度計算單元,用于根據(jù)屬性和屬性值表計算屬性值相似度;以及共同發(fā)生頻率計算單元,用于計算屬性的共同發(fā)生頻率;屬性融合確定裝置,用于根據(jù)所述屬性值相似度和共同發(fā)生頻率來確定任何兩個屬性的融合度。
25.根據(jù)權(quán)利要求24所述的瀏覽和查找系統(tǒng),其中所述屬性融合裝置還包括基于字典的屬性相似度存儲裝置,用于存儲基于字典的屬性相似度,以及所述屬性融合確定裝置根據(jù)屬性值相似度,共同發(fā)生頻率和基于字典的屬性相似度來確定任何兩個屬性的融合度。
26.根據(jù)權(quán)利要求23至25之一所述的瀏覽和查找系統(tǒng),其中所述屬性值相似度計算單元選擇將屬性值轉(zhuǎn)換為矢量的特征,并根據(jù)所述矢量計算屬性值相似度。
27.根據(jù)權(quán)利要求26所述的瀏覽和查找系統(tǒng),其中所述屬性值相似度計算單元通過計算矢量的余弦距離計算屬性值相似度。
28.根據(jù)權(quán)利要求19至27之一所述的瀏覽和查找系統(tǒng),其中通過聚類對應(yīng)于一屬性的所有屬性值從而形成選項,每個選項包括多個屬性值。
29.根據(jù)權(quán)利要求19至28之一所述的瀏覽和查找系統(tǒng),其中所述查找呈現(xiàn)形成裝置通過從屬性和屬性值表中選出一個屬性以及組合所選出的屬性和對應(yīng)于該屬性的所有選項從而形成包括一個或多個屬性以及選項的界面。
30.根據(jù)權(quán)利要求19至28之一所述的瀏覽和查找系統(tǒng),其中所述查找呈現(xiàn)形成裝置通過從屬性和屬性值表中選出多個屬性以及組合所選出的屬性和對應(yīng)于該屬性的所有選項從而形成包括一個或多個屬性以及選項的界面。
31.一種瀏覽和查找方法,包括構(gòu)造文檔信息表的步驟,包括提取步驟,從文檔中提取屬性值,并根據(jù)提取出的屬性值提取屬性;組合步驟,組合對應(yīng)于相同屬性的屬性值,并形成屬性和屬性值表;以及融合步驟,融合屬性和屬性值表中具有不同名稱的相同屬性,以生成文檔信息表;界面形成步驟,形成包括一個或多個屬性以及選項的界面,每個屬性對應(yīng)于多個選項,其中所述選項包括屬性的所有屬性值;查詢接收步驟,用于接收用戶通過界面輸入的查詢;查找步驟,用于根據(jù)所述查詢查找文檔信息表和文檔;顯示步驟,用于向用戶顯示結(jié)果。
32.根據(jù)權(quán)利要求31所述的瀏覽和查找方法,其中所述文檔信息表構(gòu)造步驟還包括學(xué)習(xí)與屬性或?qū)傩灾涤嘘P(guān)的知識,用于提取屬性值以及提取屬性的步驟。
33.根據(jù)權(quán)利要求31或32所述的瀏覽和查找方法,其中所述提取步驟包括從文檔中提取包含屬性值的句子以提取出屬性值并對提取出的句子分組的步驟;以及針對每組句子找出代表詞或短語,作為與屬性值對應(yīng)的屬性的步驟。
34.根據(jù)權(quán)利要求33所述的瀏覽和查找方法,其中找出代表詞或短語的步驟包括通過關(guān)鍵字提取方法找出代表詞或短語的步驟。
35.根據(jù)權(quán)利要求31至34一所述的瀏覽和查找方法,其中所述融合步驟包括步驟根據(jù)屬性和屬性值表計算屬性值相似度;以及根據(jù)所述屬性值相似度來確定任何兩個屬性的融合度。
36.根據(jù)權(quán)利要求31至34之一所述的瀏覽和查找方法,其中所述融合步驟包括步驟根據(jù)屬性和屬性值表計算屬性值相似度;以及計算屬性的共同發(fā)生頻率;根據(jù)所述屬性值相似度和共同發(fā)生頻率來確定任何兩個屬性的融合度。
37.根據(jù)權(quán)利要求36所述的瀏覽和查找方法,其中所述確定任何兩個屬性的融合度的確定步驟包括根據(jù)屬性值相似度,共同發(fā)生頻率和基于字典的屬性相似度來確定任何兩個屬性的融合度。
38.根據(jù)權(quán)利要求35至37之一所述的瀏覽和查找方法,其中計算屬性值相似度的步驟包括選擇將屬性值轉(zhuǎn)換為矢量的特征,并根據(jù)所述矢量計算屬性值相似度的步驟。
39.根據(jù)權(quán)利要求38所述的瀏覽和查找方法,其中根據(jù)矢量計算屬性值相似度的步驟包括通過計算矢量的余弦距離計算屬性值相似度的步驟。
40.根據(jù)權(quán)利要求31至39之一所述的瀏覽和查找方法,其中通過聚類對應(yīng)于一屬性的所有屬性值形成選項,每個選項包括多個屬性值。
41.根據(jù)權(quán)利要求31至39之一所述的瀏覽和查找方法,其中形成包括一個或多個屬性以及選項的界面的步驟包括步驟從屬性和屬性值表中選出一個屬性;以及組合所選出的屬性和對應(yīng)于該屬性的所有選項從而形成所述界面。
42.根據(jù)權(quán)利要求31至41之一所述的瀏覽和查找方法,其中形成包括一個或多個屬性以及選項的界面的步驟包括步驟從屬性和屬性值表中選出多個屬性以及組合所選出的屬性和對應(yīng)于該屬性的所有選項從而形成所述界面。
全文摘要
本發(fā)明提供一種文檔信息表構(gòu)造裝置以及一種方法,所述文檔信息表構(gòu)造裝置包括屬性和屬性值提取裝置,用于從文檔中提取屬性值,并根據(jù)提取出的屬性值提取屬性;屬性和屬性值表形成裝置,用于組合對應(yīng)于相同屬性的屬性值,并形成屬性和屬性值表;以及屬性融合裝置,用于融合屬性和屬性值表中具有不同名稱的相同屬性,以生成文檔信息表。本發(fā)明還提供了一種應(yīng)用了文檔信息表構(gòu)造裝置的瀏覽和查找系統(tǒng)以及一種瀏覽和查找方法。
文檔編號G06F17/30GK1955960SQ20051011872
公開日2007年5月2日 申請日期2005年10月28日 優(yōu)先權(quán)日2005年10月28日
發(fā)明者趙凱, 薛敏宇, 齊紅威 申請人:日電(中國)有限公司