信息處理終端和方法,以及信息管理設備和方法【專利摘要】根據(jù)一個實施例,信息處理終端包括生成器、獲取單元、和輸出單元。生成器分析電子文檔以生成包括該電子文檔中的文本信息和關于該電子文檔的結構信息的元數(shù)據(jù)項。獲取單元將該元數(shù)據(jù)項傳送至信息管理設備,使得信息管理設備估算類似于該元數(shù)據(jù)項的相似元數(shù)據(jù)項并獲取對應于該相似元數(shù)據(jù)項的注解信息項。輸出單元輸出與電子文檔相關的注解信息項?!緦@f明】信息處理終端和方法,以及信息管理設備和方法[0001]相關申請的交叉引用[0002]此申請基于2012年3月27日提交的2012-072517號日本專利申請并要求其優(yōu)先權的利益,其全部內(nèi)容通過引用被合并到本文中?!?br>技術領域:
】[0003]在這里描述的實施例涉及信息處理終端和方法,以及信息管理設備和方法。【
背景技術:
】[0004]有用于管理通過網(wǎng)絡可訪問的內(nèi)容站點以搜索內(nèi)容信息的信息管理設備,例如活動圖像或電子詞典。這些設備包括其中由多個用戶加到特定的內(nèi)容的注解信息在用戶之間被共享的設備。[0005]為在內(nèi)容站點上使對于內(nèi)容的注解信息能夠在用戶之間共享,信息管理設備必須在數(shù)據(jù)庫中存儲互相相關的內(nèi)容和注解信息。[0006]然而,因為使得內(nèi)容項對應于各個注解信息項,所以存在互相相關的多個內(nèi)容項(例如,不同版本的相同內(nèi)容項或者由不同的發(fā)表者發(fā)表的那些)存在于數(shù)據(jù)庫的情況。在這種情況下,注解信息可能不能夠在相關的內(nèi)容項之間共享。此外,當用戶在他們各自的本地環(huán)境中以不同的格式或形式從版權中獨立地存放文檔數(shù)據(jù)時,難以共享注解信息,因為數(shù)據(jù)庫和文件系統(tǒng)是分散的。[0007]從而,在傳統(tǒng)的信息管理設備中,用戶想要知道的內(nèi)容信息,和與之相關的注解信息,不能適當?shù)乇凰阉鳌!緦@綀D】【附圖說明】[0008]圖1是圖解根據(jù)第一實施例的信息處理終端I和2的方框圖;[0009]圖2A和2B是圖解由彳目息處理終端I和2進行的處理的流程圖;[0010]圖3是圖解由并入信息處理終端I的生成器11進行的處理的流程圖;[0011]圖4是對解釋結構信息有用的視圖;[0012]圖5是圖解元數(shù)據(jù)的實例的視圖;[0013]圖6是圖解由并入信息處理終端I的獲取單元12進行的處理的流程圖;[0014]圖7是圖解對應信息的實例的視圖;[0015]圖8是對解釋注解信息有用的視圖;[0016]圖9是圖解由在第三實施例中采用的判斷單元110進行的處理的流程圖;[0017]圖10是圖解在存儲器23中存儲的元數(shù)據(jù)和注解信息的實例的視圖;[0018]圖11是用于獲取類似的元數(shù)據(jù)的流程圖;[0019]圖12是圖解類似的元數(shù)據(jù)的實例的視圖;[0020]圖13是圖解在由提取單元22提取注解信息之后進行的處理的流程圖;[0021]圖14A和14B是圖解注解信息的顯示實例的視圖;以及[0022]圖15是圖解根據(jù)第二實施例的信息處理終端10和信息管理設備2的方框圖?!揪唧w實施方式】[0023]所述實施例的目的是提供一種信息處理終端和方法,以及一種信息管理設備和方法,其使用戶能夠適當?shù)厮阉髟撚脩粝胍赖膬?nèi)容信息。[0024]根據(jù)一個實施例,信息處理終端被允許被連接到用于管理電子文檔上的元數(shù)據(jù)項和對應于元數(shù)據(jù)項的注解信息項的信息管理設備,該終端包括生成器,獲取單元,和輸出單元。生成器分析電子文檔以生成包括該電子文檔中的文本信息和關于該電子文檔的結構信息的元數(shù)據(jù)項。獲取單元將該元數(shù)據(jù)項傳送至信息管理設備,令信息管理設備估算類似于該元數(shù)據(jù)項的相似元數(shù)據(jù)項并獲取對應于該相似元數(shù)據(jù)項的注解信息項。輸出單元輸出與電子文檔相關的注解信息項。[0025](第一實施例)[0026]根據(jù)第一實施例的信息處理終端I適合作為能夠處理與電子文檔相關的資源(文件或應用)的信息終端(例如,PC,智能電話,網(wǎng)絡書籍等等)。根據(jù)第一實施例的信息管理設備2適合作為可連接至信息處理終端I的服務器。與電子文檔相關的資源是,例如,電子圖書。[0027]信息處理終端I分析作為處理目標的電子文檔(以下稱為“目標文檔”),生成包括與目標文檔相關的文本數(shù)據(jù)和結構信息的元數(shù)據(jù)(目標元數(shù)據(jù)),并將目標元數(shù)據(jù)傳送至信息管理設備2。[0028]文本數(shù)據(jù)包括電子文檔中的文本本身,和通過混編文本獲得的信息。結構信息與在電子文檔中的文檔的邏輯結構和/或布局相關。例如,結構信息包括在電子文檔的每行中包含的縮進數(shù),文本數(shù)據(jù)項、符號、數(shù)字、文本集的數(shù)目,和字符類型,字體大小,邏輯要素(例如標題,索引和正文文本),布局信息等等。縮進數(shù)對應于在行的首位部分和該行中的文本數(shù)據(jù)的首位部分之間存在的空格符的數(shù)目。文本集指示不包括空格符的連續(xù)部分的文本數(shù)據(jù)。[0029]信息管理設備2存儲與電子文檔相關的元數(shù)據(jù),和與該元數(shù)據(jù)相關的注解信息,元數(shù)據(jù)和注解信息被互相相關地存儲。注解信息是附加至包含在電子文檔中的文本數(shù)據(jù)的信息。例如,注解信息包括由未指定的用戶的信息處理終端附加于電子文檔中的文本數(shù)據(jù)的注釋,或者與由用戶在他們大聲讀出電子文檔中的文本的時候生成的語音相關的音頻信息。注解信息不局限于以上,并且如果它與電子文檔有關,則可以是任何類型的信息。[0030]信息管理設備2搜索類似于從信息處理終端I接收的目標元數(shù)據(jù)的相似元數(shù)據(jù),并且對信息處理終端I提供相應于相似元數(shù)據(jù)的注解信息。[0031]信息處理終端I輸出從信息管理設備接收的與目標文檔相關的注解信息。結果,用戶能夠適當?shù)厮阉魉麄兿胍赖膬?nèi)容信息。[0032]圖1是圖解信息處理終端I和信息管理設備2的方框圖。如所示,信息處理終端I包含生成器11,獲取單元12,存儲器13和輸出單元14。[0033]生成器11獲取目標文檔,并生成包含與目標文檔相關的結構信息的元數(shù)據(jù)(目標元數(shù)據(jù))。例如,生成器11可以獲取存儲在信息處理終端I中的電子文檔,或由用戶下載的電子文檔,作為目標文檔。[0034]獲取單元12生成用于使信息管理設備2能夠估算類似于目標元數(shù)據(jù)的相似元數(shù)據(jù)的搜索詢問,并且將該搜索詢問傳送至信息管理設備2。在這時候,獲取單元12可以在存儲器13中把目標文檔和目標元數(shù)據(jù)標出以使它們互相關聯(lián)。獲取單元12從信息管理設備2獲取對應于由信息管理設備2估算的相似元數(shù)據(jù)的注解信息。[0035]輸出單元14輸出與目標文檔相關的被獲取的注解信息。[0036]生成器11和獲取單元12可以通過CPU(中央處理單元)和由CPU使用的存儲器被實現(xiàn)。存儲器13可以通過由CPU使用的內(nèi)存或輔助存儲器被實現(xiàn)。輸出單元14可以由諸如液晶顯示器或有機EL顯示器的顯示單元(未顯示),或者由諸如揚聲器的語音輸出單元(未顯示)被實現(xiàn)。[0037]信息管理設備2包含接收器21,提取單元22,存儲器23和傳送器24。[0038]接收器21從信息處理終端I的獲取單元12接收搜索詢問,并向提取單元22提供被接收到的搜索詢問。[0039]存儲器23存儲互相相關的電子文檔上的元數(shù)據(jù)和元數(shù)據(jù)上的注解信息。例如,存儲器23可以使用由未指定的用戶添加的對某一電子文檔中的文本數(shù)據(jù)的注釋作為注解信息,并且存儲與該電子文檔的元數(shù)據(jù)相關的注解信息。[0040]提取單元22基于所提供的搜索詢問搜索存儲器23,從而估算對應于目標元數(shù)據(jù)的相似元數(shù)據(jù)。提取單元22從存儲器23提取對應于所估算的相似元數(shù)據(jù)的注解信息,并且向傳送器24提供被提取出來的注解信息。[0041]傳送器24將所提供的注解信息傳送至信息處理終端I的獲取單元12。[0042]接收器21、提取單元22和傳送器24可以通過CPU和由CPU使用的存儲器被實現(xiàn)。存儲器23可以通過由CPU使用的內(nèi)存或輔助存儲裝置實被現(xiàn)。[0043]信息處理終端I和信息管理設備2是如以上所述被構造的。[0044]圖2A和2B分別是圖解信息處理終端I和信息管理設備2的處理的流程圖。[0045]首先參考圖2A,將描述由信息處理終端I進行的處理。[0046]生成器11生成目標文檔并生成目標元數(shù)據(jù)(SlOl)。獲取單元12生成用于使信息管理設備2能夠估算類似于目標元數(shù)據(jù)的相似元數(shù)據(jù)的搜索詢問(S102)。獲取單元12將被生成的搜索詢問傳送至信息管理設備2(S103)。獲取單元12從信息管理設備2獲取對應于由信息管理設備2估算的相似元數(shù)據(jù)的注解信息(S104)。輸出單元14輸出被獲取的與目標文檔相關的注解信息(S105),這是此程序的終止。[0047]然后參考圖2B,將描述由信息管理設備2進行的處理。由信息管理設備2進行的處理是在由信息處理終端I進行的處理的步驟S103和S104之間進行的。[0048]接收器21從信息處理終端I的獲取單元12接收搜索詢問(S201)。按照該搜索詢問,提取單元22在存儲器23中搜索對應于目標元數(shù)據(jù)的相似元數(shù)據(jù)(S202),并從存儲器23提取對應于被估算的相似元數(shù)據(jù)的注解信息(S203)。傳送器24將注解信息傳送至信息處理終端I的獲取單元12(S204),這是此程序的終止。[0049]圖3是圖解由并入信息處理終端I的生成器11進行的處理的流程圖。生成器11使被獲取的電子文檔經(jīng)過形態(tài)分析以將文檔中的文本數(shù)據(jù)劃分為單詞(S301)。生成器11在通過劃分步驟被獲得的單詞中檢測高出現(xiàn)頻率的單詞(S302)。例如,生成器11可以獲取出現(xiàn)頻率順序高于預定順序的單詞。生成器11還將關于高出現(xiàn)頻率順序的單詞的信息存儲為文本信息。[0050]生成器11分析被獲取的電子文檔以獲得關于其的結構信息(S303)。圖4是對解釋結構信息有用的視圖。如圖4所示,在該實施例中所采用的結構信息與電子文檔的每行中的文本數(shù)據(jù)的結構相關,并且包括縮進數(shù),字符、符號、數(shù)字、和文本集的數(shù)目,字體大小,邏輯要素,布局信息等等。[0051]將對圖4中顯示的電子文檔“SKAZKAOIVANE-DURAKE”的第一行的結構信息給出說明。在第一行,如果在該行的第一部分和文本數(shù)據(jù)“IvantheFool”的首字符“I”之間存在的空格符的數(shù)目是4,則縮進數(shù)是4。在“IvantheFool”中包括的字符數(shù)目是11。在“IvantheFool”中包括的符號數(shù)目是O。在“IvantheFool”中包括的數(shù)字數(shù)目是O。在“IvantheFool”中包括的文本集的數(shù)目是3。在“IvantheFool”中包括的字符類型數(shù)目是I。文本數(shù)據(jù)“IvantheFool”的字體大小是20。“IvantheFool”的邏輯要素是“標題”。[0052]布局信息通過用“I”代表文本數(shù)據(jù)至少在每四個字符的組中存在所在的位置,并且用“O”代表文本數(shù)據(jù)不存在在每四個字符的組中所在的位置,來指示在該行的文本數(shù)據(jù)的布局。從而,在圖4中顯示的電子文檔的第一行處的布局信息能夠用,例如,“0111100000000000000”來表示。對于第二和第三行,布局信息能夠用例如圖4中所示的這種結構信息來表示。對其它行來說也是如此。[0053]生成器11通過構造文本信息和結構信息來生成目標元數(shù)據(jù)(S304)。圖5顯示元數(shù)據(jù)的實例。如圖5所示,該實施例的目標元數(shù)據(jù)包括用于識別目標元數(shù)據(jù)的元數(shù)據(jù)ID?metadataid?,并且該實施例的目標元數(shù)據(jù)是通過構造文本信息和結構信息被獲得的。分配給圖5的目標元數(shù)據(jù)的元數(shù)據(jù)ID是“123”。[0054]例如,生成器11把“Tolstoi”標為〈creator〉要素,把“IvantheFool”標為〈title〉要素,并且把“xxx”標為〈translator〉要素,如在圖5中顯示的。在這時候,生成器11把這些要素標為對應于目標文檔的標識ID(〈desCript1nid?的內(nèi)容。圖5中顯示的目標文檔的標識ID是“456”。生成器11可以在對應于目標文檔的標識ID?descript1nid?的內(nèi)容中包括對于目標文檔的電子文檔URL(統(tǒng)一資源定位器)。圖5中顯示的目標文檔的電子文檔URL是:[0055]“http://www.toshiba.c0.jp/ebook/#1298129sw”[0056]生成器11把在步驟S303獲得的圖4中顯示的結構信息標為〈layout_pattern>要素。生成器11還把在步驟S302獲得的文本出現(xiàn)頻率標為<text-1nfo>要素。在圖5情況中,作為經(jīng)常出現(xiàn)的單詞或詞組的實例的“olddeVil”,“StraW”,“table”和“Ivan”的各自的出現(xiàn)頻率分別是“35”,“20”,“10”和“5”。生成器11向獲取單元12提供目標文檔和被生成的目標元數(shù)據(jù)。生成器11還把對應于目標元數(shù)據(jù)的用于識別目標文檔的電子文檔ID,和目標文檔的URL標為結構信息。在圖5中顯示的指示目標文檔的電子文檔ID是“100”。[0057]雖然在以上實例中,為了便于說明,在每行的文本數(shù)據(jù)的內(nèi)容被寫為文本要素的一個行,但是舉例來說布局信息可以被寫為混編的信息。更進一步,元數(shù)據(jù)可以包括能夠作為書目信息,以及結構信息被提取的要素。例如,除如在圖5中的實例顯示的創(chuàng)作者,標題和翻譯者之外,出版者名字,出版年份,月份和日期,卷次編號,等等,可以包括在元數(shù)據(jù)中。[0058]圖6是圖解由獲取單元12進行的處理的流程圖。獲取單元12在存儲器13中寫入使提供的目標文檔能夠與目標元數(shù)據(jù)相聯(lián)系的對應信息(S401)。獲取單元12生成用于使信息管理設備2能夠估算類似于目標元數(shù)據(jù)的相似元數(shù)據(jù)的搜索詢問,并且將該搜索詢問傳送至信息管理設備2(S402)。獲取單元12從信息管理設備2獲取對應于相似元數(shù)據(jù)的注解信息(S403)。隨后將詳細地描述在信息管理設備2中估算相似元數(shù)據(jù)的方法。[0059]現(xiàn)在將對對應信息給出說明。圖7顯示對應信息的實例。如圖7所示,對應信息使在圖5中顯示的每個電子文檔的元數(shù)據(jù)的元數(shù)據(jù)ID、每個電子文檔的電子文檔ID、每個電子文檔的URL、以及元數(shù)據(jù)的URL互相相關。如果元數(shù)據(jù)的內(nèi)容本身,或對應于元數(shù)據(jù)內(nèi)容的鏈接(路徑)在元數(shù)據(jù)欄中被標出就足夠了。[0060]將詳細地描述信息管理設備2。信息管理設備2的存儲器23存儲互相關聯(lián)的元數(shù)據(jù)和關于每個電子文檔的注解信息。圖8是對解釋注解信息有用的視圖。舉例來說,在圖8中顯示的注解信息是對包含在用戶正在經(jīng)由他的信息處理終端瀏覽的電子文檔中、并且由該用戶指定的文本數(shù)據(jù)的用戶注釋。換句話說,注解信息可能是關于文本數(shù)據(jù)的音頻信息(發(fā)音或音調(diào))。[0061]圖8顯示其中某個用戶已經(jīng)對在電子文檔“IvantheFool”中包含的文本數(shù)據(jù)“threesons—Simeon(asoldier),Tarras-Briukhan(afatman),andIvan(afool)—”寫了注釋“Thisexpress1nis...”的情況。進一步地,關于指定的文本數(shù)據(jù)“threesons—Simeon(asoldier),Tarras-Briukhan(afatman),andIvan(afool)—,,的音步頁信息包括這個句子的發(fā)音、以及與該句子相關的音調(diào)的位置。即,在這個實例中的注解信息包含注釋“Thisexpress1nis...”和音頻信息。[0062]圖9顯示在存儲器23中存儲的注解信息的實例。例如,可以用XML格式標出注解信息。在顯示的實例中,注釋和音頻信息被標為<annotat1n-1nfo>要素中的注解信息。[0063]存儲器23存儲用于識別注解信息的注解信息ID、被分配給對應于該注解信息的電子文檔的電子文檔ID(〈refid>)、指示該注解信息對應于電子文檔的哪個部分的索引位置或長度信息等等。[0064]最好是諸如GUID的可唯一限定的ID被事先指定為電子文檔ID。如果電子文檔是可直接訪問的,則能夠使用以上所述的ID來提取電子文檔的對應于注解信息的部分。[0065]圖9的上部顯示注解信息是用戶注釋的情況。在這種情況下,由某個用戶作出的注釋被標為〈commentary〉要素。圖9的下部顯示注解信息是音頻信息的情況。音頻信息以文本格式被標為〈midterm〉要素。[0066]圖10顯示在存儲器23中存儲的元數(shù)據(jù)和注解信息的實例。存儲器23使用元數(shù)據(jù)ID、注解信息ID、和注解信息存儲互相相關的元數(shù)據(jù)和注解信息。[0067]將描述信息管理設備2的提取單元22。當估算對應于從接收器21被提供的目標元數(shù)據(jù)的相似元數(shù)據(jù)時,提取單元22基于文本信息計算第一相似度、基于結構信息計算第二相似度、并基于文本信息和結構信息計算第三相似度。提取單元22基于第一到第三相似度從存儲器23提取出相似元數(shù)據(jù)。[0068]圖11是圖解由提取單元22進行的處理的流程圖。提取單元22計算第一相似度(S501)。第一相似度指示與文本信息相關的相似度。例如,提取單元22可以基于目標元數(shù)據(jù)和被存儲在存儲器23中的元數(shù)據(jù)之間的高出現(xiàn)頻率的單詞或字符的N元組(n-gram)的匹配度、或基于出現(xiàn)的文本序列之間的模式的匹配度來計算第一相似度。[0069]更具體地說,舉例來說,第一相似度是通過測量目標元數(shù)據(jù)和被存儲在存儲器23中的元數(shù)據(jù)之間的字符或單詞的出現(xiàn)頻率的差值、或者計算較前和較后的元數(shù)據(jù)項中的關鍵字序列之間的編輯距離(Loewenstein距離)從而計算關鍵字序列之間的相似度來獲得的。[0070]提取單元22計算第二相似度(S502)。第二相似度指示作為樹形結構之間的相似度,其中,結構信息中的邏輯要素的層次以該樹形結構的形式被表達。[0071]更具體地說,舉例來說,第二相似度能夠通過計算樹形結構數(shù)據(jù)項之間的編輯距尚來獲得。[0072]當計算第二相似度時,提取單元22可以根據(jù)邏輯要素的類型來改變對于對應于每個邏輯要素的每個結點的權重。例如,較重的權重可以被分配給對應于“章節(jié)”的結點,而較輕的權重可以被分配給對應于“參考文獻”或“評論”的結點。[0073]提取單元22計算第三相似度(S503)。第三相似度是作為結構信息和文本信息的組合的信息的相似度,諸如包括標題、創(chuàng)作者/翻譯者、以及電子文檔的出版日期的書目的事項。在這個實例中,書目的事項作為指示電子文檔的信息被利用或被出版。[0074]更具體地說,假定在目標元數(shù)據(jù)的要素〈LayoutSim〉中,被包括在目標元數(shù)據(jù)中的“標題”的字符串被編碼為“pathinformat1n:/document/root/chapter[ititle=〃chapterl〃],,,“textelement:let’smeetatKawasakistat1n,,。[0075]另一方面,假定被存儲在存儲器23中的元數(shù)據(jù)項中的一個被編碼為“pathinformat1n:/document/chapter/chapter_title,,,“textelement:let’smeetatKawasakistat1n,,。[0076]在這種情況下,能夠通過計算與路徑信息相關的編輯距離的相似度、以及與文本要素相關的編輯距離的相似度,并計算被計算出來的度的總和來獲得三個相似度。[0077]通常,即使當電子文檔在正文文字上是等同的時,它們在結構信息上也并不總是等同的。例如,存在以不同的題字(例如,以不同的字體)寫相同的標題的情況、由不同的翻譯者或以不同的翻譯風格翻譯相同的文本的情況、相同的文本具有不同的版本的情況、或者由不同的出版者出版相同的文本的情況。因此,對于每個應用確定相似度,憑借該相似度,電子文檔被認為是相同的電子文檔。[0078]例如,存在一種情況,其中對于某個外國的文學作品應該與它的翻譯者無關地提取注解信息,或者一種情況,其中如果該文學作品是由不同的翻譯者翻譯,則不應該提取注解信息。[0079]以上所述的這種差異能夠在步驟S504被反映為加權因數(shù)。這樣,能夠使用加權因數(shù)計算基于以上觀點的相似度。[0080]提取單元22為第一,第二和第三相似度分別設置權重因數(shù)α,β和Y,其用來搜索對應于被提供的目標元數(shù)據(jù)的相似元數(shù)據(jù)(S504)。存在用于設置權重因數(shù)的不同的方法。可以采用選擇由,例如,系統(tǒng)管理員預置的因數(shù)的方法,或根據(jù)由目標元數(shù)據(jù)指示的電子文檔的類型動態(tài)地設置因數(shù)的方法。還作為選擇,可以使用被計算出來的相似度設置權重因數(shù)。提取單元22也可以改變相似度的計算順序。即,提取單元22可以,例如,響應于與高優(yōu)先級的項相關的被計算出來的相似度,忽略后續(xù)的處理。[0081]基于這樣被計算出來的第一,第二和第三相似度,提取單元22在存儲器23中搜索相似元數(shù)據(jù)。例如,提取單元22使用以下等式(I)基于第一,第二和第三相似度和加權因數(shù)α,β和Y計算元數(shù)據(jù)的相似度,從而如果被計算出來的元數(shù)據(jù)相似度不低于預定閾值,則估算該元數(shù)據(jù)作為相似元數(shù)據(jù):[0082]相似度=αχ第一相似度+βχ第二相似度+Υχ第三相似度(I)[0083]在這里假定,例如,提取單元22已經(jīng)估算了圖12中顯示的相似元數(shù)據(jù)。更具體地說,假定在圖10中和在圖12的上部中顯示的元數(shù)據(jù),以及對應于由另一個用戶分配至不同的電子文檔ID的電子文檔的注解信息的元數(shù)據(jù)已經(jīng)被估算作為相似元數(shù)據(jù)。[0084]在這時候,提取單元22從存儲器23提取對應于相似元數(shù)據(jù)的元數(shù)據(jù)ID的注解信息(S506)。在這個實例中,提取單元22提取圖12中顯示的兩個注解信息項。對于對應于不同的元數(shù)據(jù)項的注解信息,必須確保注解信息和目標文檔之間的匹配,因為不同的電子文檔被搜索,并且由此即使當總體上確保匹配時,也可能對于細節(jié)丟失匹配。所以,所希望的是檢測用于確保匹配的共享結構。[0085]將更詳細地描述提取注解信息的方法。圖13是圖解在由提取單元22提取注解信息之后進行的處理的流程圖。[0086]提取單元22提取對應于相似元數(shù)據(jù)的注解信息(S601),然后獲取與注解信息的參照范圍相關的信息(S602)。這個信息指示在圖12的注解信息中顯示的這種不同的屬性。具體地說,屬性包括指示從與對應于注解信息的文本數(shù)據(jù)相關的電子文檔的開頭起的第η個(η是自然數(shù))字符的“index”,該第η個字符指示文本數(shù)據(jù)的開始位置,指示文本數(shù)據(jù)長度的“l(fā)ength”,指示文本數(shù)據(jù)所屬的章節(jié)結構的“chapter”,指示子章節(jié)結構的“sect1n”,指示段落結構的“para”,指示包括在參照范圍中的具有更高的出現(xiàn)頻率的文本數(shù)據(jù)項的順序的信息等等。[0087]對于與參照范圍相關的以上信息,提取單元22以結構的遞減次序進行關于目標元數(shù)據(jù)中的目標部分和相似元數(shù)據(jù)中的目標部分的匹配判斷(S603)。[0088]提取單元22判斷目標部分是否互相匹配(S604)。因為當前的注解信息已經(jīng)從元數(shù)據(jù)項之間的相似的匹配中得到,所以假定匹配是基于作為最大的單元的結構單元被檢測的。進一步地,在這里假定在結構中建立“chapter>sect1n>para>freqterm>index”的遞減次序,并且提取單元22以這個順序作出匹配的判斷。[0089]如果判斷匹配被檢測(在步驟S604的是),則對于更小的結構單元進行關于匹配的判斷(S605),并且處理轉到步驟S603。相反,如果匹配沒有被檢測(在步驟S604的否),則處理轉到步驟S606。在圖12的實例中,很清楚,當與“index”的結構單元相聯(lián)系地進行比較時,將出現(xiàn)差值。從而,提取單元22進行在其中以“#4”檢定匹配的“freqterm”的結構單元中注解信息的對應,并且將該注解信息發(fā)送至傳送器24(S606)。傳送器24將提供的注解信息發(fā)送至信息處理終端I的獲取單元12。[0090]信息處理終端I的輸出單元14輸出被獲取的與目標文檔相關的注解信息。圖14A和14B是圖解由輸出單元14輸出至信息處理終端I的顯示屏幕的注解信息的顯示實例的視圖。如在圖14A中顯示的,輸出單元14可以利用指定目標范圍的彈出功能顯示注解信息,可以將它插入在后續(xù)的文檔中,或者可以將它顯示在具有被動態(tài)地給予它的引用符(例如,依賴注入代碼(daggercode))的另一個區(qū)域中。進一步地,輸出單元14可以不同時地顯示注釋,但是可以通過,例如,高亮度顯示對應的區(qū)域,并在用戶請求它們的顯示的時候顯示注釋,來通知用戶存在對目標文檔的評論。相反,如果匹配即使在詳細的區(qū)域中也沒有被檢測,則可以與瀏覽的頁面相關地以欄的形式顯示注解信息,如在圖14B中顯示的。進一步地,當顯示包括腳注區(qū)域的目標區(qū)域時,可以在該腳注區(qū)域中顯示注解信息。[0091]在第一實施例中,能夠使得之前與相似內(nèi)容項相關或者之前是源自相似內(nèi)容項的產(chǎn)物但是因為不能使得它們互相對應而之前被分散了的注解信息項互相對應。這不但使由作為特定的服務提供者的書籍商準備的受限的文檔內(nèi)容被利用或參考,而且使在不同的網(wǎng)址上的相似信息或與由用戶計算機化的內(nèi)容項相關的注解信息能夠被利用或參考。[0092](第二實施例)[0093]根據(jù)第二實施例的信息處理終端10與第一實施例的終端的不同在于前者能夠接受終端用戶的注解信息輸入,并且將輸入的注解信息傳送到信息管理設備2。[0094]圖15是圖解信息處理終端10和信息管理設備2的方框圖。除第一實施例的信息處理終端I的元件之外,信息處理終端10包含分析單元15。分析單元15在由終端的用戶輸入的電子文檔上接受例如注釋的注解信息。根據(jù)第二實施例的注解信息可以使用,例如,電子圖書閱讀器的插件程序功能或在電子文檔瀏覽服務站點上的Π功能來輸入。[0095]分析單元15將輸入的注解信息提供至獲取單元12。獲取單元12使得所提供的注解信息對應于目標元數(shù)據(jù)以便構造它,并且將它寫在存儲器12中。進一步地,將被使得互相對應的注解信息和目標元數(shù)據(jù)傳送至信息管理設備2的接收器21。在信息管理設備2中,提取單元22將注解信息和目標元數(shù)據(jù)存儲在存儲器23中。[0096]第二實施例的信息處理終端10能夠從信息管理設備2獲取與對應于目標元數(shù)據(jù)的相似元數(shù)據(jù)相關的注解信息,并且也能夠將由終端10的用戶輸入的注解信息傳送至信息管理設備2。[0097]第二實施例的系統(tǒng)能夠適當?shù)厮阉饔脩粝胍@取的內(nèi)容信息。[0098]以上描述的實施例的信息處理終端和信息管理設備還可以使用,例如,多用途計算機作為基本的硬件來實現(xiàn)。即,應該并入信息處理終端和信息管理設備的結構元件能夠通過令計算機中的處理器執(zhí)行程序被實現(xiàn)。在這時候,信息處理終端和信息管理設備可以通過事先在計算機中安裝程序、或通過在例如CD-ROM的記錄介質中存儲程序、或通過經(jīng)由網(wǎng)絡下載程序至計算機被實現(xiàn)。還做為選擇,能夠通過適當?shù)乩冒惭b在計算機中或外部地附加于計算機的記錄介質,例如存儲器、硬盤、⑶-RXD_RW、DVD-RAM或DVDR來實現(xiàn)程序。[0099]雖然已經(jīng)描述了某些實施例,但是這些實施例僅僅已經(jīng)經(jīng)由例子被給出,而不意欲限制該發(fā)明的范圍。實際上,在這里描述的新穎的設備,方法和計算機可讀的介質可以用各種其它的形式體現(xiàn);此外,可以在沒有脫離本發(fā)明的精神的情況下作出在這里描述的設備、方法和計算機可讀的介質的形式上的各種省略、替換和變化。伴隨的權利要求書和它們的同等物是用來包括這樣的形式或修改,其將落入該發(fā)明的范圍和精神?!緳嗬蟆?.一種信息處理終端,所述信息處理終端被允許連接到用于管理電子文檔上的元數(shù)據(jù)項和對應于所述元數(shù)據(jù)項的注解信息項的信息管理設備,其特征在于,所述信息處理終端包含:生成器,所述生成器被配置成分析電子文檔以生成元數(shù)據(jù)項,所述元數(shù)據(jù)項包括所述電子文檔中的文本信息和關于所述電子文檔的結構信息;獲取單元,所述獲取單元被配置成將所述元數(shù)據(jù)項傳送至所述信息管理設備,以使得所述信息管理設備估算類似于所述元數(shù)據(jù)項的相似元數(shù)據(jù)項并獲取對應于所述相似元數(shù)據(jù)項的注解信息項;以及輸出單元,所述輸出單元被配置成輸出與所述電子文檔相關的所述注解信息項。2.如權利要求1所述的終端,其特征在于,所述注解信息項是指示由用戶添加至所述電子文檔的注釋的注釋信息,或者是對應于所述電子文檔的音頻信息。3.如權利要求2所述的終端,其特征在于,進一步包含被配置成分析所述注釋信息的分析單元,并且其中所述獲取單元將互相相關的所述注釋信息和所述元數(shù)據(jù)項傳送至所述信息管理設備。4.如權利要求3所述的終端,其特征在于,所述輸出單元按照所述元數(shù)據(jù)項和所述相似元數(shù)據(jù)項之間的相似度來修改所述注解信息項的輸出形式。5.一種信息管理設備,所述信息管理設備被允許從信息處理終端接收電子文檔上的元數(shù)據(jù)項,其特征在于,所述信息管理設備包含:存儲器,所述存儲器被配置成存儲所述元數(shù)據(jù)項和對應于所述元數(shù)據(jù)項的注解信息項,所述元數(shù)據(jù)項包括關于所述電子文檔的結構信息項和所述電子文檔中的文本信息項;獲取單元,所述獲取單元被配置成從所述信息處理終端獲取作為搜索目標的第一元數(shù)據(jù)項;提取單元,所述提取單元被配置成在所述存儲器中搜索類似于所述第一元數(shù)據(jù)項的相似元數(shù)據(jù)項,并且提取對應于所述相似元數(shù)據(jù)項的注解信息項;以及傳送器,所述傳送器被配置成將被提取的注解信息項傳送至所述信息處理終端。6.如權利要求5所述的設備,其特征在于,如果被包括在所述第二元數(shù)據(jù)項中的文本信息和結構信息類似于被包括在所述第一元數(shù)據(jù)項中的所述文本信息和所述結構信息,則所述提取單元提取第二元數(shù)據(jù)項作為所述相似元數(shù)據(jù)項。7.一種信息處理方法,所述信息處理方法用于控制信息處理終端,所述信息處理終端被允許連接到用于管理電子文檔上的元數(shù)據(jù)項和對應于所述元數(shù)據(jù)項的注解信息項的信息管理設備,其特征在于,所述信息處理方法包含:分析電子文檔以生成包括所述電子文檔中的文本信息和關于所述電子文檔的結構信息的元數(shù)據(jù)項;將所述元數(shù)據(jù)項傳送至所述信息管理設備;使得所述信息管理設備估算類似于所述元數(shù)據(jù)項的相似元數(shù)據(jù)項;獲取對應于所述相似元數(shù)據(jù)項的注解信息項;以及輸出與所述電子文檔相關的所述注解信息項。8.如權利要求7所述的方法,其特征在于,所述注解信息項是指示由用戶添加至所述電子文檔的注釋的注釋信息,或者是對應于所述電子文檔的音頻信息。9.如權利要求8所述的方法,其特征在于,進一步包含分析所述注釋信息,并且其中所述傳送所述元數(shù)據(jù)項將互相相關的所述注釋信息和所述元數(shù)據(jù)項傳送至所述信息管理設備。10.如權利要求9所述的方法,其特征在于,所述輸出所述注解信息項按照所述元數(shù)據(jù)項和所述相似元數(shù)據(jù)項之間的相似度來修改所述注解信息項的輸出形式。11.一種信息處理方法,所述信息處理方法用于被允許從信息處理終端接收電子文檔上的元數(shù)據(jù)項的信息管理設備,其特征在于,所述信息處理方法包含:從所述信息處理終端獲取元數(shù)據(jù)項作為搜索目標;搜索存儲所述元數(shù)據(jù)項和對應于所述元數(shù)據(jù)項的注解信息項的存儲器,以便檢測類似于被獲取的所述元數(shù)據(jù)項的相似元數(shù)據(jù)項,并提取對應于所述相似元數(shù)據(jù)項的注解信息項,所述元數(shù)據(jù)項包括關于所述電子文檔的結構信息項和所述電子文檔中的文本信息項;以及將被提取的注解信息項傳送至所述信息處理終端。12.如權利要求11所述的方法,其特征在于,如果被包括在所述第二元數(shù)據(jù)項中的文本信息和結構信息類似于被包括在所述第一元數(shù)據(jù)項中的所述文本信息和所述結構信息,則所述搜索所述存儲器提取第二元數(shù)據(jù)項作為所述相似元數(shù)據(jù)項?!疚臋n編號】G06F17/30GK104169912SQ201380005184【公開日】2014年11月26日申請日期:2013年3月12日優(yōu)先權日:2012年3月27日【發(fā)明者】布目光生,鈴木優(yōu),森田真弘申請人:株式會社東芝