專利名稱:內(nèi)容處理裝置、內(nèi)容處理方法以及內(nèi)容處理程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及隱藏內(nèi)容(content)的特定部分的內(nèi)容處理技術(shù),特別是 涉及經(jīng)隱藏的事實(shí)以及被隱藏的信息不易被閱讀者推測出、并且能夠獲得 具有與隱藏前的原信息相近的自然的信息的內(nèi)容。
背景技術(shù):
從提高業(yè)務(wù)效率和生產(chǎn)能力的觀點(diǎn)來看,企業(yè)有時將業(yè)務(wù)委托給交易 戶或相關(guān)公司等外部公司,即進(jìn)行所謂的外包。在這種情況下,當(dāng)在向交 易戶委托開發(fā)業(yè)務(wù)等時,很多時候向承包方提供需求規(guī)范(requirements difmition documents)或說明書(specifications)等機(jī)密文件并請求合作開 發(fā)。
在這種情況下,就委托方的企業(yè)來說, 一方面可確保人力資源以縮短 開發(fā)交貨時間,但另一方面由于向公司外部提供文檔和照片等機(jī)密性高的 信息(下面,也稱為機(jī)密內(nèi)容)而存在信息外泄的風(fēng)險。因此,每當(dāng)向公 司外部提供包含重要的開發(fā)信息的機(jī)密內(nèi)容時,企業(yè)將采取以簽保密協(xié)議 為主的各種措施。
例如,作為向公司外部提供作為機(jī)密內(nèi)容的機(jī)密文檔時的通常的案 例,有將不想向公司外部公開的關(guān)鍵詞替換成其它的字符串(或文字串) 以進(jìn)行隱藏的方法。
或者,有時采取如下方法代替向承包方提供包含企業(yè)秘密的信息的 說明書,而是獲得與該說明書的數(shù)據(jù)相近的相似文檔,并公開所獲得的相 似文檔和原來的說明書之間的差異。作為在這種情況下檢索與某文檔具有 相同信息或相似信息的文檔的相似文檔檢索技術(shù),例如有專利文件1中公 開的技術(shù)。
專利文件1的發(fā)明公開了著眼于文本信息的相似性的相似檢索技術(shù)。具體來說,專利文件1公開了以下技術(shù)當(dāng)作為檢索條件例示了內(nèi)容的文 檔時,分別對包含在例示的文檔中的文本信息等的特征信息和包含在所存 儲的文檔中的文本信息等的特征信息進(jìn)行比較,向比較結(jié)果乘以權(quán)重算出 綜合評價值來作為文檔級別的相似度,然后作為檢索結(jié)果,按照相似度從 高到低的順序輸出文檔。
專利文件1:日本專利文件特開2000-148793號公報。
發(fā)明內(nèi)容
然而,例如每當(dāng)將作為機(jī)密內(nèi)容的機(jī)密文檔向公司外部公開時,上述 傳統(tǒng)的方法存在以下的問題。
第一個問題是,由于字符串的替換導(dǎo)致文檔整體的意思不清楚,有時 無法向閱讀者很好地傳達(dá)開發(fā)的要點(diǎn)。
第二個問題是,對機(jī)密文檔進(jìn)行了隱藏處理的事情本身容易被猜到。 這樣的事情雖然不至于影響委托方和受委托方之間的相互信賴關(guān)系,但如 果考慮完成開發(fā)業(yè)務(wù)的過程中的順暢的溝通則不能說是優(yōu)選的。
第三個問題是,可能從前后文的連貫性推測出被隱藏的關(guān)鍵詞。
然而,專利文檔1的技術(shù)只檢索相似的文檔,無法應(yīng)對隱藏文檔中的 特定部分的問題。因此未能解決上述的問題。
并且,在其他傳統(tǒng)的技術(shù)中,也沒有找到能夠隱藏特定部分、并能夠 提供對于閱讀者來說自然的文檔的技術(shù),未能克服上述的問題。其結(jié)果 是,每當(dāng)向承包方提供機(jī)密文檔時,大多數(shù)情況下不得不通過人工操作重 新制作文檔,需要很多精力和時間。
因此,本發(fā)明所要解決的問題是,提供一種經(jīng)隱藏的事實(shí)以及被隱藏 的信息不易被閱讀者推測出、并且能夠獲得具有與隱藏前的原內(nèi)容的信息 相近的自然的信息的內(nèi)容的內(nèi)容處理技術(shù)。
解決上述問題的本發(fā)明是一種內(nèi)容處理裝置,其特征在于,包括檢
索單元,所述檢索單元檢索具有與原內(nèi)容中除要隱藏的部分之外的部分的
信息相似的信息的內(nèi)容;以及計(jì)算單元,所述計(jì)算單元計(jì)算非相似度,所
述非相似度表示由所述檢索單元獲得的內(nèi)容中的每一個內(nèi)容與所述原內(nèi)容的要隱藏的部分之間不相似的程度。
另外,解決上述問題的本發(fā)明是一種內(nèi)容處理方法,其特征在于,包 括檢索步驟,檢索具有與原內(nèi)容中除要隱藏的部分之外的部分的信息相 似的信息的內(nèi)容;計(jì)算步驟,計(jì)算非相似度,所述非相似度表示通過所述 檢索步驟所獲得的內(nèi)容中的每一個內(nèi)容與所述原內(nèi)容的要隱藏的部分之間 不相似的程度;以及選擇步驟,基于通過所述計(jì)算步驟算出的非相似度,
從通過所述檢索步驟檢索到的內(nèi)容中選擇與所述要隱藏的部分不相似的程
度大的內(nèi)容。
另外,解決上述問題的本發(fā)明是一種信息處理裝置的程序,其特征在
于,所述程序使信息處理裝置執(zhí)行檢索處理,檢索具有與原內(nèi)容中除要
隱藏的部分之外的部分的信息相似的信息的內(nèi)容;計(jì)算處理,計(jì)算非相似
度,所述非相似度表示通過所述檢索處理所獲得的內(nèi)容中的每一個內(nèi)容與
所述原內(nèi)容的要隱藏的部分之間不相似的程度;以及選擇處理,基于通過 所述計(jì)算處理算出的非相似度,從通過所述檢索處理檢索到的內(nèi)容中選擇 與所述要隱藏的部分不相似的程度大的內(nèi)容。 發(fā)明效果
根據(jù)本發(fā)明,能夠提供經(jīng)隱藏的事實(shí)以及被隱藏的信息不易被閱讀者 推測出、并且能夠獲得具有與隱藏前的原內(nèi)容的信息相近的自然的信息的 文檔。
這是因?yàn)楸景l(fā)明如下構(gòu)成的緣故,即檢索具有與原內(nèi)容中除要隱藏
的部分之外的部分的信息相似的信息的內(nèi)容,計(jì)算表示通過所述檢索所獲 得的內(nèi)容與內(nèi)容的要隱藏的部分之間不相似的程度的非相似度,并基于該
計(jì)算結(jié)果,能夠選擇用于代替包含有要隱藏的部分的內(nèi)容的內(nèi)容。
圖1是示出本發(fā)明第一實(shí)施方式的結(jié)構(gòu)的框圖2是示出本發(fā)明第一實(shí)施方式中的處理的流程圖3是示出本發(fā)明第二實(shí)施方式的結(jié)構(gòu)的框圖4是示出本發(fā)明第一實(shí)施方式中的文檔處理例的9圖5是示出本發(fā)明第二實(shí)施方式中的文檔處理例的圖。
標(biāo)號說明
0021
1文檔處理裝置
IO文檔數(shù)據(jù)庫
ll輸入部
12指定部
13檢索部
14非相似度計(jì)算部
15選擇部
16輸出部
20計(jì)算距離用的數(shù)據(jù)庫 24非相似度計(jì)算部
具體實(shí)施例方式
說明本發(fā)明的第一實(shí)施方式。
下面,在以文檔作為內(nèi)容的例子、并假定本發(fā)明的內(nèi)容處理裝置是文 檔處理裝置的情況下進(jìn)行說明。
圖1是示出第一實(shí)施方式涉及的文檔處理裝置的整體結(jié)構(gòu)的圖。 附圖標(biāo)號1為文檔處理裝置,其與存儲有文檔的文檔數(shù)據(jù)庫10連接。
文檔處理裝置1具有輸入部11、指定部12、檢索部13、非相似度計(jì) 算部14、選擇部15、輸出部16。
輸入部11是輸入文檔的部分,例如是掃描儀等。
指定部12是用于指定在所輸入的文檔中想要隱藏的部分的指示設(shè) 備,例如是鼠標(biāo)等。
檢索部13用于檢索具有與作為原內(nèi)容的文檔中除要隱藏的部分(想 要隱藏的部分)之外的部分的信息相似的信息的文檔。具體來說,從數(shù)據(jù)庫10中檢索一個或多個相似文檔,該一個或多個相似文檔具有與所輸入 的文檔中除要隱藏的部分之外的部分的信息相似的信息。具有與文檔中除 要隱藏的部分之外的部分的信息相似的信息的文檔是指具有與要隱藏的部 分之外的部分的信息實(shí)質(zhì)上相同的信息的文檔。具體來說,預(yù)先確定容許 的相似度,并只檢索超過該相似度的文檔。
非相似度計(jì)算部14計(jì)算非相似度,該非相似度表示通過檢索部13進(jìn) 行檢索的結(jié)果而得的相似文檔與由指定部12指定的部分(要隱藏的部 分)的文檔之間不相似的程度。具體來說,非相似度計(jì)算部14計(jì)算文檔 之間的歐幾里德(Euclidean)距離來作為非相似度。
選擇部15基于由非相似度計(jì)算部14算出的非相似度,選擇與要隱藏 的部分最不相似的文檔作為輸出對象文檔。具體來說,從檢索到的多個相 似文檔中選擇非相似度最大的文檔。
輸出部16輸出由選擇部15選中的文檔。
文檔數(shù)據(jù)庫IO是由檢索部13作為檢索對象的文檔數(shù)據(jù)庫。其中存儲 有作為輸出對象的文檔。該文檔數(shù)據(jù)庫10是預(yù)先備好的公司內(nèi)部的數(shù)據(jù) 庫,但也可以被構(gòu)成為檢索因特網(wǎng)上公開的WEB上的文檔的數(shù)據(jù)庫。
接下來,參考圖1的框圖以及圖2的流程圖,對如上構(gòu)成的文檔處理 裝置的動作進(jìn)行說明。
下面,作為具體的事例假設(shè)如下案例作為某汽車制造商的新車開發(fā) 項(xiàng)目成員的A某(文檔處理裝置的用戶)在每次選擇引擎部件的供應(yīng)商 時,由于是保密項(xiàng)目因此無法向供應(yīng)商公開正在進(jìn)行新車開發(fā)。
另外,假設(shè)以下情況進(jìn)行說明由A某從輸入部ll輸入的文檔是用 于選擇供應(yīng)商的以"用于新車開發(fā)所必需的高耐久性引擎部件的規(guī)格"為 標(biāo)題的說明書,并且通過指定部12指定了 "新車開發(fā)"作為要隱藏的部 分。
首先,如圖4所示,經(jīng)由輸入部11輸入以"用于新車開發(fā)所必需的 高耐久性引擎部件的規(guī)格"為標(biāo)題的文檔(步驟Sl),通過指定部12指 定了 "新車開發(fā)"來作為要隱藏的部分(步驟S2)。
此時,通過檢索部13進(jìn)行相似文檔檢索。即,參照文檔數(shù)據(jù)庫10,檢索多個具有與所輸入的文檔中除被指定的部分"新車開發(fā)"之外的部分
的信息相似的信息的文檔(步驟S3)。具體來說,例如,對所輸入的文檔 中除"新車開發(fā)"之外的其余部分進(jìn)行形態(tài)分析(morphologic ananlysis),生成以形態(tài)分析結(jié)果的獨(dú)立詞為中心并以"高耐久性"、 "引擎部件"、"凸輪軸"、"閥門"等單詞或短語為要素的單詞矢量, 計(jì)算將上述矢量與作為檢索對象的多個文檔中的每一個文檔事先所具有的 單詞矢量進(jìn)行內(nèi)積而得的值來作為相似度,并只輸出超過預(yù)先設(shè)定的容許 的相似度的文檔,作為檢索結(jié)果。也可以從相似度高的文檔依次作為檢索 結(jié)果來輸出。
通過該檢索部13進(jìn)行檢索的結(jié)果,獲得了多個相似文檔。例如,這 里,進(jìn)行檢測的結(jié)果,獲得了如下的相似文檔(1) 、 (2) 、 (3):相 似文檔(1)以"用于參加Fl賽事所必需的高耐久性引擎部件的規(guī)格"為 標(biāo)題、相似文檔(2)以"用于開發(fā)卡車所必需的高耐久性引擎部件的規(guī) 格"為標(biāo)題、相似文檔(3)以"用于在寒冷地區(qū)行駛的車輛所必需的高 耐久性引擎部件的規(guī)格"為標(biāo)題。
這里,在假定檢索的結(jié)果獲得了多個相似文檔(與所輸入的文檔中除 要隱藏的部分之外的部分信息相似的文檔)的情況下進(jìn)行了說明,但檢索 的結(jié)果也可以獲得一個相似文檔。
接下來,通過非相似度計(jì)算部14計(jì)算所輸入的文檔中被指定的部分 的字符串"新車開發(fā)"與經(jīng)過步驟S3的檢索處理而檢索到的文檔中所包 含的各字符串之間的距離值,作為非相似度(步驟S4)。這里,通過利用 字符串級別的DP匹配方法計(jì)算歐幾里德距離來算出該距離值。此時,由 于相似文檔(1)中不存在"新車開發(fā)"的字符串,因此獲得"距離值= 4"。而相似文檔(2)、相似文檔(3)中分別包含有"開發(fā)"和"車" 的文字,因此算出的距離值小于4。
接下來,基于由非相似度計(jì)算部14算出非相似度的計(jì)算結(jié)果,通過 選擇部15選擇與要隱藏的部分最不相似的文檔,即,選擇距離值最大的 文檔。這里,由于距離值=4的相似文檔(1)的距離值最大,因此選擇相 似文檔(1)作為所輸入的文檔的替代文檔(步驟S5)。并且,經(jīng)過輸出部16的輸出處理,獲得以"用于參加Fl賽事所必需的高耐久性引擎部件 的規(guī)格"為標(biāo)題的文檔(步驟S6)。即,此時獲得的相似文檔成為具有與 輸入文檔相近的信息、并且與被指定的部分關(guān)系淺的指定部分被隱藏了的 文檔。
在上述的第一實(shí)施方式中,以內(nèi)容為文檔的情況為例進(jìn)行了說明,但
內(nèi)容也可以是靜止圖像、運(yùn)動圖像、語音或影像。例如,也可以如下在
數(shù)據(jù)庫中事先存儲圖像以代替文檔,使非相似度計(jì)算部計(jì)算進(jìn)行檢索的結(jié) 果而得的相似圖像的部分和想要隱藏的圖像部分之間的數(shù)據(jù)差量來作為距 離值,使選擇部選擇距離值大的圖像,由此隱藏指定的圖像部分。另外, 例如,當(dāng)想要隱藏包含在某影像中的特定人物時,檢索具有與除要隱藏的 人物的部分之外的部分的信息相似的信息的影像,從該檢索到的影像中選 擇具有與要隱藏的人物遠(yuǎn)離的特征的(非相似度大)的其它人物的影像, 由此獲得隱藏了原人物的影像。
在上述的實(shí)施方式中,例舉了由A某通過指定部12直接指定隱藏對 象部分的案例,但不需要限定于此。在文檔格式已確定的情況下,指定部
也可以被構(gòu)成為例如通過預(yù)先定義"將標(biāo)題部分作為指定部分"、"將
目的部分作為指定部分"等的指定方法,來自動地指定輸入文檔中的要隱 藏的部分。具體來說,例如在上述的第一實(shí)施方式中,通過預(yù)先定義"將 標(biāo)題部分指定為隱藏對象部分"的指定方法,能夠?qū)⒆鳛檩斎胛臋n的標(biāo)題 的"用于新車開發(fā)的..."指定為要隱藏的部分。
另外,在上述實(shí)施方式中,例舉了要隱藏的部分(指定部分)為字符 串"新車開發(fā)"的情況,但指定部分也可以是單詞,也可以是文檔或文檔 的一部分。
另外,在上述的實(shí)施方式中,非相似度計(jì)算部被構(gòu)成為計(jì)算包含在進(jìn) 行檢索的結(jié)果而輸出的相似文檔中的字符串和指定部分之間的距離,但也 可以將相似文檔的整體和指定部分之間的距離作為計(jì)算距離的對象。
另外,在上述的實(shí)施方式中,將檢索部和非相似度計(jì)算部作為分別獨(dú) 立的結(jié)構(gòu)部分,但不需要限定于此。也可以將檢索相似文檔的檢索部和計(jì) 算相似文檔和要隱藏的部分的文檔之間的非相似度的非相似度計(jì)算部設(shè)置為同一個結(jié)構(gòu)部分。
另外,在上述的實(shí)施方式中,將相似文檔的"標(biāo)題"部分作為與指定 部分之間的距離計(jì)算對象,但不需要限定于此。例如,諸如在格式已被確 定等情況下,也可以將指定部、非相似度計(jì)算部構(gòu)成為將"目的"部分或 "規(guī)格的概要"部分作為距離計(jì)算對象,而不限于"標(biāo)題"部分,當(dāng)然也 能夠構(gòu)成為以上述的多個部分作為距離計(jì)算對象。
另外,在上述的實(shí)施方式中,作為非相似度,計(jì)算了文檔間的歐幾里 德距離,但不需要限定于此。只要能夠定量地測定不相似的程度即可,例
如也可以計(jì)算單詞之間的共現(xiàn)頻率的總和或互信息(mutual information) 量的總和,以作為非相似度。
接下來,利用圖3來說明第二實(shí)施方式。圖3是示出第二實(shí)施方式涉 及的內(nèi)容處理裝置全體的框圖。
這里,在假設(shè)內(nèi)容為文檔、本發(fā)明的內(nèi)容處理裝置為文檔處理裝置的 情況下進(jìn)行說明。
參考圖3可知,在第二實(shí)施方式中,具有代替第一實(shí)施方式中的非相 似度計(jì)算部14的非相似度計(jì)算部24,并且還具有計(jì)算距離用的數(shù)據(jù)庫 20。
計(jì)算距離用的數(shù)據(jù)庫20是存儲單詞共現(xiàn)頻率、單詞互信息量等單詞 統(tǒng)計(jì)信息的數(shù)據(jù)庫。
距離計(jì)算單元24基于包含在計(jì)算距離用的數(shù)據(jù)庫20中的單詞的統(tǒng)計(jì) 信息來計(jì)算被指定的部分和檢索到的文檔之間的非相似度。具體來說,作 為非相似度,計(jì)算包含在由檢索部13進(jìn)行檢索的結(jié)果而得的文檔中的單 詞(或者字符串)與包含在要隱藏的部分的文檔中的單詞(或特征詞串) 之間的各共現(xiàn)頻率的總和。其中,共現(xiàn)頻率是指在文檔間同時出現(xiàn)特定的 單詞等的頻率。
由于其他的結(jié)構(gòu)部分的功能與第一實(shí)施方式相同,因此對于相同的結(jié) 構(gòu)部分標(biāo)注與第一實(shí)施方式相同的標(biāo)號,并省略詳細(xì)的說明。 接下來,參考圖5對第二實(shí)施方式的動作進(jìn)行說明。 這里,假定作為某制造商的語音識別軟件開發(fā)項(xiàng)目成員的B某(文檔
14處理裝置的用戶)向外訂購語音輸入的噪聲抑制器的情況進(jìn)行說明。在此情況下,假定由于沒有來得及就語音識別提出專利申請而無法向受訂購方公開正在進(jìn)行語音識別軟件開發(fā)的情況來進(jìn)行說明。
由B某經(jīng)由輸入單元11輸入用于向外訂購語音識別軟件的"噪聲抑
制器說明書"。并且,經(jīng)由指定部12指定"語音識別的識別精度"來作
為要隱藏的部分。由此,作為要隱藏的部分的指定部分是"語音識別的識別精度"。
接下來,由檢索部13以文檔數(shù)據(jù)庫10為對象,檢索具有與除所述指定部分之外的部分的信息相似的信息的文檔。具體來說,由檢索部13以文檔數(shù)據(jù)庫10為對象,檢索使用了所輸入的文檔中除"語音識別的識別精度"以外的"噪聲抑制器"、"降低"、"ADPCM語音"、"8kHZ"等的相似文檔。由該檢索部13進(jìn)行檢索的結(jié)果,如圖5所示,獲得了多個相似文檔。
接下來,非相似度計(jì)算部24參照包含在計(jì)算距離用的數(shù)據(jù)庫20中的單詞的統(tǒng)計(jì)信息,計(jì)算指定部分"語音識別的識別精度"與由檢索部13進(jìn)行檢索的結(jié)果而得的多個相似文檔中的每一個之間的非相似度。
具體來說,非相似度計(jì)算部24如下進(jìn)行非相似度的計(jì)算。首先,計(jì)算構(gòu)成指定部分"語音識別的識別精度"的單詞"語音識別"、"識別精度"與包含在多個相似文檔中作為距離計(jì)算對象的文檔(例如,"用于便攜式電話機(jī)的噪聲抑制器的說明書")中的單詞"便攜式電話機(jī)"、"受話音"、"質(zhì)量"等單詞之間的共現(xiàn)頻率。并且,計(jì)算針對這些單詞的每一組合算出的共現(xiàn)頻率的對數(shù)值的總和,作為非相似度。
非相似度Dist的具體的計(jì)算公式以公式(1)為例示出。
公式(1)
<formula>formula see original document page 15</formula>
(其中,Wi為包含在指定部分中的單詞,Wj為包含在相似文檔中的單詞)。
通過公式(1)進(jìn)行計(jì)算的結(jié)果,獲得了例如"距離值=3.8632"。接下來,選擇部15基于所述算出的非相似度,選擇非相似度最大的文檔(與要隱藏的部分最不相似的文檔)。由此,獲得了例如"用于便攜式電話機(jī)的噪聲抑制器的說明書"的文檔。
由此獲得了具有與輸入文檔相近的信息、并且與被指定部分關(guān)系淺的指定部分被隱藏了的文檔。
在上述的第二實(shí)施方式中,使用單詞的統(tǒng)計(jì)信息作為計(jì)算距離用的數(shù)據(jù)庫,并將非相似度計(jì)算部構(gòu)成為基于單詞之間的共現(xiàn)頻率來計(jì)算非相似
度,但不需要限定于此。例如,也可以基于單詞互信息量來計(jì)算非相似度。并且,也可以使用詞庫(同義詞詞典)作為計(jì)算距離用的數(shù)據(jù)庫,并計(jì)算單詞彼此在詞庫上的距離的總和來作為非相似度。
具體來說,計(jì)算包含在指定部分中的單詞("語音識別"、"識別精度")和包含在檢索到的文檔中的單詞("便攜式電話機(jī)"、"受話音"、"質(zhì)量"等)在詞庫上的距離、即計(jì)算表示單詞間的關(guān)聯(lián)性的層彼此間的層間距離的總和來作為非相似度,并選擇該非相似度大的文檔,由此能夠獲得適于隱藏指定部分的相似文檔。此時的非相似度Dist的具體的
計(jì)算公式以公式(2)為例示出。公式(2)
(其中,Wi為包含在指定部分中的單詞,Wj為包含在相似文檔中的單詞,D(Wi, Wj)是Wi和Wj在詞庫上的距離)。
另外,當(dāng)計(jì)算距離時,也可以通過參考已公開的WEB上的信息來計(jì)算檢索到的相似文檔的出現(xiàn)頻率和/或出現(xiàn)時刻,并對頻率高或者最近出現(xiàn)的文檔賦予權(quán)重來修正非相似度。
或者,也可以采用如下結(jié)構(gòu)每當(dāng)計(jì)算非相似度時,在非相似度上進(jìn)一步相加檢索到的相似文檔在WEB上出現(xiàn)的頻率。通過如此修正,出現(xiàn)頻率和/或公知程度高的文檔被優(yōu)先選擇,因此有利于向承包方正確地傳達(dá)
規(guī)格。另外,也可以修正為代替出現(xiàn)頻率選擇出現(xiàn)時刻更新的文檔,當(dāng)然也可以將兩者組合起來。
并且,當(dāng)計(jì)算非相似度時,例如在包含在指定部分中的"語音識別"、"識別精度"等單詞也存在于檢索到的相似文檔中的情況等下,也可以進(jìn)行從非相似度中減去在檢索到的相似文檔中出現(xiàn)這些單詞的頻率的修正。由此,能夠優(yōu)先選擇與指定部分的距離遠(yuǎn)的文檔、即難以推測出要隱藏的部分(指定部分)的文檔,從而能夠更有效地防止情報向承包方外泄。
本申請要求基于2007年4月27日申請的日本專利申請第特愿2007-119393號的優(yōu)先權(quán),其全部公開的內(nèi)容將被編入本說明書中。產(chǎn)業(yè)上的實(shí)用性
本發(fā)明能夠在由多個企業(yè)、部門、個人協(xié)作完成業(yè)務(wù)的方式的項(xiàng)目等中使用于制作用于外包/采購的文檔、運(yùn)動圖像。
權(quán)利要求
1.一種內(nèi)容處理裝置,其特征在于,包括檢索單元,所述檢索單元檢索具有與原內(nèi)容中除要隱藏的部分之外的部分的信息相似的信息的內(nèi)容;以及計(jì)算單元,所述計(jì)算單元計(jì)算非相似度,所述非相似度表示由所述檢索單元獲得的內(nèi)容中的每一個內(nèi)容與所述原內(nèi)容的要隱藏的部分之間不相似的程度。
2. 如權(quán)利要求1所述的內(nèi)容處理裝置,其特征在于,所述檢索單元基于預(yù)先設(shè)定的容許的相似度來檢索超過所述相似度的 內(nèi)容,由此檢索具有與除要隱藏的部分之外的部分的信息實(shí)質(zhì)上相同的信息的內(nèi)容。
3. 如權(quán)利要求1或2所述的內(nèi)容處理裝置,其特征在于, 還包括選擇單元,所述選擇單元基于由所述計(jì)算單元算出的非相似度從由所述檢索單元檢索到的內(nèi)容中選擇與所述要隱藏的部分最不相似的內(nèi) 容。
4. 如權(quán)利要求1至3中任一項(xiàng)所述的內(nèi)容處理裝置,其特征在于, 所述內(nèi)容為文檔,所述計(jì)算單元計(jì)算由所述檢索單元進(jìn)行檢索的結(jié)果而得的文檔與包含 在所述要隱藏的部分中的文檔之間的歐幾里德距離,作為所述非相似度。
5. 如權(quán)利要求1至3中任一項(xiàng)所述的內(nèi)容處理裝置,其特征在于, 所述內(nèi)容處理裝置具有包含單詞的統(tǒng)計(jì)信息的計(jì)算距離用的數(shù)據(jù)庫, 所述計(jì)算單元參考所述計(jì)算距離用的數(shù)據(jù)庫,計(jì)算包含在由所述檢索單元進(jìn)行檢索的結(jié)果而得的文檔中的單詞與包含在所述要隱藏的部分的文 檔中的單詞之間的各個共現(xiàn)頻率的總和或者互信息量的總和,作為非相似 度。
6. 如權(quán)利要求1至3中任一項(xiàng)所述的內(nèi)容處理裝置,其特征在于, 具有詞庫,該詞庫作為所述計(jì)算距離用的數(shù)據(jù)庫,所述計(jì)算單元參考所述詞庫,計(jì)算包含在由所述檢索單元進(jìn)行檢索的結(jié)果而得的相似文檔中的單詞與包含在所述被輸入的文檔中的被指定的范 圍內(nèi)的單詞在詞庫上的距離的總和,作為非相似度。
7. 如權(quán)利要求1至3中任一項(xiàng)所述的內(nèi)容處理裝置,其特征在于, 所述計(jì)算單元被構(gòu)成為計(jì)算包含在由所述檢索單元進(jìn)行檢索的結(jié)果而得的文檔中的單詞或字符串的出現(xiàn)頻率和進(jìn)行所述檢索的結(jié)果而得的文檔 的出現(xiàn)時刻中的至少一個,并基于所述計(jì)算的結(jié)果對所述非相似度進(jìn)行修 正。
8. 如權(quán)利要求7所述的內(nèi)容處理裝置,其特征在于, 在所述計(jì)算單元中對非相似度進(jìn)行的修正是將算出的出現(xiàn)頻率加到所述非相似度上的修正。
9. 如權(quán)利要求7或8所述的內(nèi)容處理裝置,其特征在于, 在所述計(jì)算單元中對非相似度進(jìn)行的修正是計(jì)算所算出的出現(xiàn)時刻和當(dāng)前時刻的差值、并將與該差值相應(yīng)的權(quán)重值加到所述非相似度上的修 正。
10. 如權(quán)利要求1至9中任一項(xiàng)所述的內(nèi)容處理裝置,其特征在于, 具有用于指定被輸入的文檔中的要隱藏的部分的指定單元。
11. 如權(quán)利要求IO所述的內(nèi)容處理裝置,其特征在于, 所述指定單元被構(gòu)成為,在文檔格式已預(yù)先定義的情況下,指定被輸入到所述文檔格式的預(yù)定位置的文檔、單詞或者詞串。
12. 如權(quán)利要求1至3中任一項(xiàng)所述的內(nèi)容處理裝置,其特征在于, 所述內(nèi)容為圖像,所述計(jì)算單元計(jì)算由所述檢索單元進(jìn)行檢索的結(jié)果而得的圖像的數(shù)據(jù) 與包含在所述要隱藏的部分中的圖像數(shù)據(jù)之間的差量,作為所述非相似 度。
13. —種內(nèi)容處理方法,其特征在于,包括檢索步驟,檢索具有與原內(nèi)容中除要隱藏的部分之外的部分的信息相 似的信息的內(nèi)容;計(jì)算步驟,計(jì)算非相似度,所述非相似度表示通過所述檢索步驟所獲 得的內(nèi)容中的每一個內(nèi)容與所述原內(nèi)容的要隱藏的部分之間不相似的程度;以及選擇步驟,基于通過所述計(jì)算步驟算出的非相似度,從通過所述檢索 步驟檢索到的內(nèi)容中選擇與所述要隱藏的部分不相似的程度大的內(nèi)容。
14. 如權(quán)利要求13所述的內(nèi)容處理方法,其特征在于, 在所述檢索步驟中,預(yù)先設(shè)定容許的相似度,并通過檢索超過所述設(shè)定的相似度的內(nèi)容來檢索具有與除要隱藏的部分之外的部分的信息實(shí)質(zhì)上 相同的信息的內(nèi)容。
15. 如權(quán)利要求13或14所述的內(nèi)容處理方法,其特征在于, 在所述選擇步驟中,基于由所述計(jì)算單元算出的非相似度,從通過所述檢索步驟檢索到的內(nèi)容中選擇與所述要隱藏的部分最不相似的內(nèi)容。
16. 如權(quán)利要求13至15中任一項(xiàng)所述的內(nèi)容處理方法,其特征在 于,所述內(nèi)容為文檔,在所述計(jì)算步驟中,計(jì)算由所述檢索單元進(jìn)行檢索的結(jié)果而得的文檔 與包含在所述要隱藏的部分中的文檔之間的歐幾里德距離,作為所述非相 似度。
17. 如權(quán)利要求13至15中任一項(xiàng)所述的內(nèi)容處理方法,其特征在 于,在所述計(jì)算步驟中,參考包含單詞的統(tǒng)計(jì)信息的計(jì)算距離用的數(shù)據(jù) 庫,計(jì)算包含在通過所述檢索步驟進(jìn)行檢索的結(jié)果而得的文檔中的單詞與 包含在所述要隱藏的部分的文檔中的單詞之間的各共現(xiàn)頻率的總和或者互 信息量的總和,作為非相似度。
18. 如權(quán)利要求13至15中任一項(xiàng)所述的內(nèi)容處理方法,其特征在 于,在所述計(jì)算步驟中,參考作為所述計(jì)算距離用的數(shù)據(jù)庫的詞庫,計(jì)算 包含在由所述檢索單元進(jìn)行檢索的結(jié)果而得的相似文檔中的單詞與包含在 所述被輸入的文檔中的被指定的范圍內(nèi)的單詞在詞庫上的距離的總和,作 為非相似度。
19. 如權(quán)利要求13至15中任一項(xiàng)所述的內(nèi)容處理方法,其特征在 于,在所述計(jì)算步驟中,計(jì)算包含在通過所述檢索步驟進(jìn)行檢索的結(jié)果而 得的文檔中的單詞或字符串的出現(xiàn)頻率、或者進(jìn)行所述檢索的結(jié)果而得的 文檔的出現(xiàn)時刻中的至少一個,并基于所述計(jì)算的結(jié)果對所述非相似度進(jìn)行修正。
20. 如權(quán)利要求19所述的內(nèi)容處理方法,其特征在于, 在所述計(jì)算步驟中對非相似度進(jìn)行的修正是將算出的出現(xiàn)頻率加到所述非相似度上的修正。
21. 如權(quán)利要求19或20所述的內(nèi)容處理方法,其特征在于,在所述計(jì)算步驟中對非相似度進(jìn)行的修正是計(jì)算所算出的出現(xiàn)時刻和 當(dāng)前時刻的差值、并將與該差值相應(yīng)的權(quán)重值加到所述非相似度上的修 正。
22. 如權(quán)利要求13至21中任一項(xiàng)所述的內(nèi)容處理方法,其特征在 于,所述內(nèi)容處理方法具有用于指定被輸入的文檔中的要隱藏的部分的指 定步驟。
23. 如權(quán)利要求22所述的內(nèi)容處理裝置,其特征在于, 在所述指定步驟中,在文檔格式已預(yù)先定義的情況下,指定被輸入到所述文檔格式的預(yù)定位置的文檔、單詞或者詞串。
24. 如權(quán)利要求13至15中任一項(xiàng)所述的內(nèi)容處理方法,其特征在 于,所述內(nèi)容為圖像,在所述計(jì)算步驟中,計(jì)算由所述檢索單元進(jìn)行檢索的結(jié)果而得的圖像 的數(shù)據(jù)與包含在所述要隱藏的部分中的圖像數(shù)據(jù)之間的差量,作為所述非 相似度。
25. —種信息處理裝置的程序,其特征在于,所述程序使信息處理裝 置執(zhí)行檢索處理,檢索具有與原內(nèi)容中除要隱藏的部分之外的部分的信息相 似的信息的內(nèi)容;計(jì)算處理,計(jì)算非相似度,所述非相似度表示通過所述檢索處理所獲 得的內(nèi)容中的每一個內(nèi)容與所述原內(nèi)容的要隱藏的部分之間不相似的程 度;以及選擇處理,基于通過所述計(jì)算處理算出的非相似度,從通過所述檢索 處理檢索到的內(nèi)容中選擇與所述要隱藏的部分不相似的程度大的內(nèi)容。
26. 如權(quán)利要求25所述的程序,其特征在于,在所述檢索處理中,預(yù)先設(shè)定容許的相似度,并通過檢索超過所述設(shè) 定的相似度的內(nèi)容來檢索具有與除要隱藏的部分之外的部分的信息實(shí)質(zhì)上 相同的信息的內(nèi)容。
27.如權(quán)利要求25或26所述的程序,其特征在于, 在所述選擇處理中,基于通過所述計(jì)算處理算出的非相似度,從通過 所述檢索步驟檢索到的內(nèi)容中選擇與所述要隱藏的部分最不相似的內(nèi)容。
全文摘要
本發(fā)明提供一種經(jīng)隱藏的事實(shí)和被隱藏的信息不易被閱讀者推測出、并且能夠獲得具有與隱藏前的原內(nèi)容的信息相近的自然的信息的內(nèi)容的內(nèi)容處理技術(shù)。內(nèi)容處理裝置包括檢索單元13,檢索具有與原內(nèi)容中除要隱藏的部分之外的部分的信息相似的信息的內(nèi)容;計(jì)算單元14,計(jì)算表示由檢索單元13所獲得的內(nèi)容中的每一個內(nèi)容和內(nèi)容中要隱藏的部分之間不相似的程度的非相似度;以及選擇單元15,基于由計(jì)算單元14算出的非相似度從由檢索單元13檢索到的內(nèi)容中選擇與要隱藏的部分最不相似的內(nèi)容。
文檔編號G06F17/30GK101669119SQ20088001391
公開日2010年3月10日 申請日期2008年4月25日 優(yōu)先權(quán)日2007年4月27日
發(fā)明者巖垂正宏, 平田恭二, 花澤健 申請人:日本電氣株式會社