專利名稱:文檔信息處理裝置、文檔信息處理方法和計算機(jī)可讀介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于估計各個用戶對于所處理文檔的關(guān)注度的文檔信息處理裝置。
背景技術(shù):
近年來,使用計算機(jī)的文檔管理已經(jīng)非常普遍,用戶查看的文檔的數(shù)量也增大了。在這種情況下,需要一種查找用戶應(yīng)該關(guān)注的文檔的技術(shù)。
例如,JP-A-2005-182804(在此使用術(shù)語“JP-A”表示“未審查已公開的日本專利申請”)公開了如下的技術(shù)從用戶讀取(查看)的文檔中提取關(guān)鍵字,并且呈現(xiàn)包含該關(guān)鍵字的文檔作為用戶應(yīng)該關(guān)注的文檔的候選項。
然而,用戶實(shí)際應(yīng)該關(guān)注的文檔不一定包含所提取的關(guān)鍵字。對文檔進(jìn)行關(guān)注的要素不應(yīng)限于關(guān)鍵字。然而,在上述相關(guān)技術(shù)中,很難對除關(guān)鍵字以外的其他要素進(jìn)行分析。
發(fā)明內(nèi)容
因此,本發(fā)明的目的是提供一種文檔信息處理裝置,該文檔信息處理裝置可以從不僅是有限的關(guān)鍵字的各種要素中分析用戶關(guān)注文檔的要素。
(1)根據(jù)本發(fā)明的第一方面,文檔信息處理裝置包括保持單元,其為各個用戶保持對應(yīng)于多個要素信息的關(guān)注概率權(quán)重;選擇單元,其通過使用所述多個要素信息的關(guān)注概率權(quán)重,從文檔組中選擇被推斷為應(yīng)關(guān)注的文檔;以及呈現(xiàn)單元,其呈現(xiàn)與所述選擇單元使用的所述多個要素信息中的至少一個對應(yīng)的信息。
(2)如條目(1)中所述的文檔信息處理裝置,該文檔信息處理裝置包括附加確定單元,其基于預(yù)定的附加準(zhǔn)則從要素信息候選項中選擇要素信息,基于選擇的要素信息來計算關(guān)注概率權(quán)重,并且將關(guān)注概率權(quán)重保持在保持單元中。
(3)根據(jù)本發(fā)明的第二方面,一種文檔信息處理方法包括以下步驟為各個用戶保持對應(yīng)于多個要素信息的關(guān)注概率權(quán)重;通過使用所述多個要素信息的關(guān)注概率權(quán)重,從文檔組中選擇被推斷為應(yīng)關(guān)注的文檔;并且呈現(xiàn)與所述多個要素信息中的至少一個對應(yīng)的信息。
(4)根據(jù)本發(fā)明的第三方面,提供了一種計算機(jī)可讀介質(zhì),該計算機(jī)可讀介質(zhì)存儲有一程序,該程序使得計算機(jī)執(zhí)行用于估計各個用戶對于所處理文檔的關(guān)注度的處理,所述處理包括以下步驟為各個用戶保持對應(yīng)于多個要素信息的關(guān)注概率權(quán)重;通過使用所述多個要素信息的關(guān)注概率權(quán)重,從文檔組中選擇被推斷為應(yīng)關(guān)注的文檔;并且呈現(xiàn)與所述多個要素信息中的至少一個對應(yīng)的信息。
基于下列附圖詳細(xì)描述本發(fā)明的示例性實(shí)施例,在附圖中圖1是示出根據(jù)本發(fā)明實(shí)施例的文檔信息處理裝置的示例結(jié)構(gòu)的框圖;圖2是示出根據(jù)本發(fā)明實(shí)施例的文檔信息處理裝置的示例的功能框圖;圖3是示出根據(jù)本發(fā)明實(shí)施例的文檔信息處理裝置產(chǎn)生并使用的貝葉斯網(wǎng)絡(luò)的示例的概念圖;以及圖4是示出根據(jù)本發(fā)明實(shí)施例的文檔信息處理裝置為各個用戶保持的各條要素信息的關(guān)注概率權(quán)重的示例的示意圖。
具體實(shí)施例方式
現(xiàn)在參照附圖,其示出了本發(fā)明的示例性實(shí)施例。根據(jù)本發(fā)明實(shí)施例的文檔信息處理裝置由控制部11、存儲部12、通信部13、操作部14、以及顯示部15構(gòu)成。
控制部11是CPU等的程序控制裝置,并且根據(jù)存儲在存儲部12中的程序而工作。在本實(shí)施例中,控制部11對用戶進(jìn)行認(rèn)證,并且為各個經(jīng)認(rèn)證用戶保持對于文檔的操作歷史信息。操作歷史信息例如包括讀取(查看)操作、打印操作、刪除操作等,并且還保持操作執(zhí)行日期和時間的信息??刂撇?1針對可以從所操作的文檔中提取的要素信息,為各個用戶產(chǎn)生關(guān)注概率權(quán)重(稱為用戶簡檔信息)的信息(建立簡檔處理)。
此外,控制部11基于要素信息使用用戶簡檔信息來從所處理的多個文檔中選擇被估計為應(yīng)注意的文檔,并且將用于確定關(guān)于所使用要素信息的至少一部分的要素信息的信息呈現(xiàn)給用戶(要素呈現(xiàn)處理)。稍后詳細(xì)描述控制部11的建立簡檔處理和要素呈現(xiàn)處理。
存儲部12被實(shí)現(xiàn)為包括RAM、ROM等的存儲器件,以及硬盤等的盤裝置。存儲部12保持控制部11執(zhí)行的程序。存儲部12還用作控制部11的工作存儲器。通信部13是網(wǎng)絡(luò)接口等,用于根據(jù)從控制部11輸入的命令通過網(wǎng)絡(luò)獲取文檔并且將該文檔存儲在存儲部12中。
操作部14是鍵盤、鼠標(biāo)等,并且接收用戶操作并將命令操作的內(nèi)容輸出到控制部11。顯示部15是顯示器等,其根據(jù)從控制部11輸入的命令來顯示信息。
由于控制部11執(zhí)行建立簡檔處理和關(guān)注度計算處理,由此本實(shí)施例的文檔信息處理裝置通過軟件提供如圖2所示的功能。即,如圖2所示,本實(shí)施例的文檔信息處理裝置在功能上由簡檔建立部21、簡檔信息保持部22、文檔操作處理部23、文檔選擇部24、要素估計部25、以及信息呈現(xiàn)部26組成。
假設(shè)控制部11預(yù)先對用戶進(jìn)行認(rèn)證并且獲取用于識別用戶的信息。為進(jìn)行認(rèn)證,眾所周知地,可以使用多種方法,例如使用用戶名和密碼的方法,因此這里將不再詳細(xì)對認(rèn)證進(jìn)行討論。
簡檔建立部21形成如下的貝葉斯網(wǎng)絡(luò)其包含從預(yù)定的要素信息候選項中選擇的各條要素信息作為節(jié)點(diǎn)。該貝葉斯網(wǎng)絡(luò)包括關(guān)于用戶的命令操作內(nèi)容的節(jié)點(diǎn)和表示對象文檔應(yīng)被用戶注意的節(jié)點(diǎn)。
如圖3所示,貝葉斯網(wǎng)絡(luò)在概念上形成網(wǎng)絡(luò)。在要素信息的各個節(jié)點(diǎn)中彼此相關(guān)聯(lián)地設(shè)置關(guān)注概率權(quán)重的信息。例如,如果對象文檔是專利文獻(xiàn),則可以采用從文檔中提取的關(guān)鍵字信息、著錄信息中包括的申請人信息、國際專利分類號和其他的分類信息、發(fā)明人姓名等作為要素信息候選項。
如圖4所示,簡檔信息保持部22為各個用戶保持一簡檔數(shù)據(jù)庫,該簡檔數(shù)據(jù)庫將用于識別要素信息的節(jié)點(diǎn)的信息(描述要素信息的字符串,例如,“申請人是A”等)與關(guān)注概率權(quán)重的信息彼此相關(guān)聯(lián)地關(guān)聯(lián)起來。
在從文檔操作處理部23接收到用戶對于文檔的命令操作內(nèi)容時,簡檔建立部21提取與要操作的文檔相關(guān)的要素信息,并且改變與用于識別用戶的信息相關(guān)聯(lián)地存儲在簡檔信息保持部22中的與提取的要素信息對應(yīng)的節(jié)點(diǎn)的關(guān)注概率權(quán)重。
例如,如果文檔操作處理部23輸出的信息包括用戶的讀取(查看)開始日期和時間以及結(jié)束日期和時間,則簡檔建立部21根據(jù)該信息計算用戶的讀取(查看)時間。其從讀取(查看)的文檔中提取與貝葉斯網(wǎng)絡(luò)中包括的節(jié)點(diǎn)對應(yīng)的要素信息。例如,簡檔建立部21提取關(guān)鍵字、分類信息等?;谧x取(查看)時間越長則關(guān)注概率越高的假設(shè),簡檔建立部21根據(jù)預(yù)定的方法來增大與提取的要素信息對應(yīng)的節(jié)點(diǎn)的關(guān)注概率權(quán)重。為了增大關(guān)注概率權(quán)重,例如可以使用以下各種方法按給定比率增大關(guān)注概率權(quán)重的方法、將關(guān)注概率權(quán)重增大對應(yīng)于讀取(查看)時間的量的方法。例如,可以采用如電子郵件重要性估計方法等的眾所周知的方法來作為響應(yīng)于用戶操作對貝葉斯網(wǎng)絡(luò)進(jìn)行更新的方法。
例如,文檔操作處理部23響應(yīng)于用戶的命令操作而通過網(wǎng)絡(luò)獲取文檔數(shù)據(jù)并且在顯示部15上顯示該文檔數(shù)據(jù)。在接收到對文檔的用戶命令操作(讀取(查看)開始命令、讀取(查看)結(jié)束命令、刪除命令等)的輸入時,文檔操作處理部23將表示命令操作的信息與表示命令操作的日期和時間的日期和時間信息一起輸出到簡檔建立部21??梢詮娜諝vIC等(未示出)獲取日期和時間信息。
文檔選擇部24在預(yù)定的定時(例如用戶指定的定時)從網(wǎng)絡(luò)或者預(yù)定的文檔數(shù)據(jù)庫中獲取進(jìn)行處理的文檔組。例如,可以按從最新存儲日期和時間開始的順序來獲取存儲在預(yù)定URL(統(tǒng)一資源定位符)中的預(yù)定數(shù)量的文檔??梢垣@取存儲在文檔數(shù)據(jù)庫(未示出)中的所有文檔作為處理對象。
文檔選擇部24從獲取作為處理對象的各文檔中提取與簡檔建立部21形成的貝葉斯網(wǎng)絡(luò)中包括的節(jié)點(diǎn)對應(yīng)的要素信息。其使用與所提取的要素信息相關(guān)聯(lián)的關(guān)注概率權(quán)重的信息來計算各個文檔是應(yīng)關(guān)注文檔的概率(關(guān)注概率)。文檔選擇部24選擇概率超過預(yù)定閾值的文檔作為所選中文檔,并且將所選中文檔存儲在存儲部12中。計算各個文檔是應(yīng)關(guān)注文檔的概率的處理類似于使用通常的貝葉斯網(wǎng)絡(luò)來計算重要度的處理,因此在此將不再詳細(xì)討論。
要素估計部25選擇在文檔選擇部24中用于文檔選擇的要素信息中的滿足預(yù)定條件的至少一部分,并且將用于確定所選擇要素信息的信息輸出到信息呈現(xiàn)部26。
使用貝葉斯定理,關(guān)于當(dāng)確定所選擇文檔是應(yīng)關(guān)注文檔時基于各條要素信息的關(guān)注概率權(quán)重而計算的關(guān)注概率值,根據(jù)關(guān)注概率值反推出當(dāng)確定所選擇文檔為應(yīng)關(guān)注文檔時使用的要素信息的概率。即,貝葉斯定理將當(dāng)A成立時B成立的概率與當(dāng)B成立時A成立的概率彼此相關(guān)聯(lián),由此顛倒因果關(guān)系,可以根據(jù)文檔選擇概率來計算各條要素信息可以用于文檔選擇的概率。
對于各個所選擇文檔,要素估計部25計算各條要素信息可以用于選擇該文檔的概率。要素估計部25按從概率最高的要素信息開始的順序來選擇與預(yù)定呈現(xiàn)數(shù)量一樣多的多條要素信息,并且將用于確定所選擇要素信息的信息(描述要素信息的字符串等)輸出到信息呈現(xiàn)部26。
信息呈現(xiàn)部26在顯示部15上列出從要素估計部25輸入的用于確定要素信息的信息。此時,也可以在顯示部15上列出文檔選擇部24選擇的文檔。
如果預(yù)定比率或者更多的未成為要素信息的要素信息候選項是文檔選擇部24選擇的文檔組所共有的(對應(yīng)于附加準(zhǔn)則),則要素估計部25可以將要素信息候選項發(fā)送到簡檔建立部21作為附加對象。
在此情況下,簡檔建立部21將與作為附加對象發(fā)送的要素信息候選項對應(yīng)的節(jié)點(diǎn)增加到貝葉斯網(wǎng)絡(luò),并且初始化關(guān)注概率權(quán)重的信息(例如,初始化為1)。
根據(jù)本實(shí)施例,如果用戶無意地長時間讀取(查看)申請人是A的專利文獻(xiàn),則與貝葉斯網(wǎng)絡(luò)中的“申請人是A”的節(jié)點(diǎn)相關(guān)的關(guān)注概率權(quán)重升高,并且選擇“申請人是A”的文檔作為應(yīng)關(guān)注文檔。從該選擇結(jié)果反推,選擇“申請人是A”的節(jié)點(diǎn)作為用于文檔選擇的概率高的節(jié)點(diǎn),并且將表示該節(jié)點(diǎn)的“申請人是A”的要素信息呈現(xiàn)給用戶。
因此,使用戶能夠知道沒有想到的文檔的注意要素。在本實(shí)施例中,使用貝葉斯網(wǎng)絡(luò),作為可以從文檔中提取的信息,不僅可以包括關(guān)鍵字而且可以包括含有關(guān)鍵字的多種要素信息項作為貝葉斯網(wǎng)絡(luò)中的節(jié)點(diǎn)。因此,可以根據(jù)包括關(guān)鍵字的多種要素來對用戶關(guān)注文檔時的要素進(jìn)行分析。
權(quán)利要求
1.一種文檔信息處理裝置,該文檔信息處理裝置包括保持單元,其為各個用戶保持對應(yīng)于多個要素信息的關(guān)注概率權(quán)重;選擇單元,其通過使用所述多個要素信息的關(guān)注概率權(quán)重,從文檔組中選擇被推斷為應(yīng)關(guān)注的文檔;以及呈現(xiàn)單元,其呈現(xiàn)與所述選擇單元使用的所述多個要素信息中的至少一個對應(yīng)的信息。
2.如權(quán)利要求1所述的文檔信息處理裝置,該文檔信息處理裝置包括附加確定單元,該附加確定單元基于預(yù)定的附加準(zhǔn)則從要素信息候選項中選擇要素信息,基于選擇的要素信息來計算關(guān)注概率權(quán)重,并且將該關(guān)注概率權(quán)重保持在所述保持單元中。
3.一種文檔信息處理方法,該文檔信息處理方法包括以下步驟為各個用戶保持對應(yīng)于多個要素信息的關(guān)注概率權(quán)重;通過使用所述多個要素信息的關(guān)注概率權(quán)重,從文檔組中選擇被推斷為應(yīng)關(guān)注的文檔;以及呈現(xiàn)與所述多個要素信息中的至少一個對應(yīng)的信息。
4.一種計算機(jī)可讀介質(zhì),該計算機(jī)可讀介質(zhì)存儲有一程序,該程序使得計算機(jī)執(zhí)行用于估計各個用戶對于所處理文檔的關(guān)注度的處理,所述處理包括以下步驟為各個用戶保持對應(yīng)于多個要素信息的關(guān)注概率權(quán)重;通過使用所述多個要素信息的關(guān)注概率權(quán)重,從文檔組中選擇被推斷為應(yīng)關(guān)注的文檔;以及呈現(xiàn)與所述多個要素信息中的至少一個對應(yīng)的信息。
全文摘要
本發(fā)明提供文檔信息處理裝置、文檔信息處理方法和計算機(jī)可讀介質(zhì)。文檔信息處理裝置包括保持單元,其為各個用戶保持對應(yīng)于多個要素信息的關(guān)注概率權(quán)重;選擇單元,其通過使用所述多個要素信息的關(guān)注概率權(quán)重,從文檔組中選擇被推斷為應(yīng)關(guān)注的文檔;以及呈現(xiàn)單元,其呈現(xiàn)與所述選擇單元使用的所述多個要素信息中的至少一個對應(yīng)的信息。
文檔編號G06F17/30GK101034398SQ20061013636
公開日2007年9月12日 申請日期2006年10月17日 優(yōu)先權(quán)日2006年3月6日
發(fā)明者加藤典司, 磯崎隆司 申請人:富士施樂株式會社