專利名稱:確定文檔之間的相似度的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于確定多個(gè)文檔之間的相似度的方法、設(shè)備和計(jì)算機(jī)程序。
背景技術(shù):
現(xiàn)在,演示文檔的創(chuàng)建逐步增加。經(jīng)常在一個(gè)或多個(gè)現(xiàn)有文檔的基礎(chǔ)上創(chuàng)建新的演示文檔。在這種環(huán)境中,當(dāng)機(jī)密文檔被泄露時(shí),公司會(huì)擔(dān)心喪失信譽(yù)度,并且由于喪失信譽(yù)度而導(dǎo)致的財(cái)務(wù)損失風(fēng)險(xiǎn)也將增加。很難斷絕有問題文檔的泄露并且很難確定該演示文檔的創(chuàng)建基礎(chǔ)。對(duì)于只包括文本的文檔,其比較方法是公知的。但是,由于演示文檔中混合了對(duì)象、文本以及圖形和圖像等非文本信息,所以很難進(jìn)行比較。在專利文獻(xiàn)1中,每個(gè)圖形的面積用作比較確定的基礎(chǔ)。具體地說,在比較兩個(gè)頁(yè)面時(shí),通過將一個(gè)頁(yè)面上對(duì)象之間的面積比與另一頁(yè)面上對(duì)象之間的面積比相比較來確定頁(yè)面之間的相似度。但是,在專利文獻(xiàn)1的方法中,當(dāng)對(duì)象之間的面積比不同時(shí),則確定不存在相似度。因此,這種確定明顯不同于人類執(zhí)行的相似度確定。而且,在專利文獻(xiàn)1中, 僅使用圖像信息而未考慮文本信息??傊?,專利文獻(xiàn)1中的方法可以被認(rèn)為是一種在生成完整頁(yè)面的縮放副本時(shí)有效的相似度確定方法。在非專利文獻(xiàn)1中,采用了一種方法,其中當(dāng)獲得了圖像之間的相似度時(shí),矢量圖像被轉(zhuǎn)換為圖形表示,并且圖像之間的相似度被計(jì)算為圖形之間的相似度。但是,在計(jì)算諸如演示文檔之類的包括圖形的文檔之間的相似度時(shí),通過非專利文獻(xiàn)1中的方法無法獲得足夠的準(zhǔn)確性。這是因?yàn)檠菔疚臋n包括文本數(shù)據(jù)以及圖形數(shù)據(jù),并且文本數(shù)據(jù)顯著影響文檔的特性。此外,在非專利文獻(xiàn)1的方法中,當(dāng)在完全不同的文檔中使用相同圖像對(duì)象(例如,跨各文檔頻繁使用的公司標(biāo)識(shí)或剪貼畫)時(shí),這些文檔將被錯(cuò)誤地檢測(cè)為是相似文檔。非專利文獻(xiàn)2披露了一種基于隨機(jī)游動(dòng)的圖挖掘方法。非專利文獻(xiàn)2未描述使用對(duì)象之間的面積比獲取文本之間的相似度或文檔之間的相似度的方法。引用列表專利文獻(xiàn)[PTL 1]日本未審查的申請(qǐng)公開No. 2007-164648非專利文獻(xiàn)[NPL IjAnoop M. Namboodiri,Anil K. Jain,"Retrieval of on-line Hand-Drawn Sketches(檢索在線手繪草圖,icpr,Vol 2,第642-645頁(yè),第17屆國(guó)際模式識(shí)別大會(huì) (ICPR' 04)-卷 2,2004) ”[NPL 2]Kashima H. , Tsuda K.禾口 Inokuchi A.的“Marginalized kernels between labeled graphs (標(biāo)記圖之間的邊際核函數(shù),ICML,‘ 03 第20屆國(guó)際機(jī)器學(xué)習(xí)大會(huì)會(huì)議記錄,AAAI Press, 2003,321-328) ”
發(fā)明內(nèi)容
技術(shù)問題
鑒于上述情況,本發(fā)明的目標(biāo)是提供一種用于檢測(cè)其中混合了文本信息和非文本信息的文檔之間的相似度的技術(shù)、一種用于在考慮每個(gè)對(duì)象的重要度的情況下檢測(cè)文檔之間的相似度的技術(shù),以及一種用于以非常符合人類在一瞥之下確定文檔之間相似度的方式執(zhí)行文檔之間的相似度確定的技術(shù)。解決方案為了解決上述問題,本發(fā)明提供了一種支持確定兩個(gè)文檔數(shù)據(jù)段之間的相似度的計(jì)算機(jī)可執(zhí)行的方法。所述文檔數(shù)據(jù)段包括對(duì)象,所述對(duì)象包括文本、非文本或文本與非文本的組合。所述方法包括以下步驟將所述文檔數(shù)據(jù)段中的每個(gè)文檔數(shù)據(jù)段轉(zhuǎn)換為有向圖并存儲(chǔ)所述有向圖,以及通過計(jì)算機(jī)的操作,使用每個(gè)對(duì)象的重要度計(jì)算轉(zhuǎn)換后的有向圖之間的相似度。在這種情況下,每個(gè)對(duì)象的重要度可以是所述對(duì)象的面積與所有對(duì)象的總面積的比(面積比)。此外,轉(zhuǎn)換為有向圖的步驟可包括以下步驟將文檔數(shù)據(jù)中的對(duì)象轉(zhuǎn)換為節(jié)點(diǎn)并將所述對(duì)象中的每個(gè)對(duì)象的屬性存儲(chǔ)為所述節(jié)點(diǎn)中的一個(gè)對(duì)應(yīng)節(jié)點(diǎn)所擁有的特征,以及通過邊連接所述節(jié)點(diǎn)并存儲(chǔ)指示要連接的節(jié)點(diǎn)之間的位置關(guān)系的信息。在這種情況下,所述節(jié)點(diǎn)所擁有的特征可包括文本、圖像或圖形屬性。此外,指示所述位置關(guān)系的信息可包括上方、下方、左側(cè)或右側(cè)。此外,可通過圖挖掘來執(zhí)行計(jì)算有向圖之間的相似度的步驟。此外,可使用以下項(xiàng)執(zhí)行通過圖挖掘計(jì)算相似度的步驟運(yùn)算從節(jié)點(diǎn)i開始的概率、發(fā)生通過邊轉(zhuǎn)移到與節(jié)點(diǎn)i相連的節(jié)點(diǎn)j的概率、運(yùn)算在節(jié)點(diǎn)i結(jié)束的概率、指示一對(duì)節(jié)點(diǎn)(v,ν')之間的相似度的核函數(shù),以及指示一對(duì)邊(e,e')之間的相似度的核函數(shù)。在這種情況下,可通過基于隨機(jī)游動(dòng)的圖挖掘來執(zhí)行通過圖挖掘計(jì)算相似度的步驟,并且假設(shè)轉(zhuǎn)換后的有向圖為G和G',當(dāng)使用以下項(xiàng)計(jì)算指示有向圖G和G'之間的相似度的核函數(shù)K(G,G')時(shí)ps (i)隨機(jī)游動(dòng)從節(jié)點(diǎn)i開始的概率,pt (j I i)發(fā)生從節(jié)點(diǎn)i轉(zhuǎn)移到節(jié)點(diǎn)j的轉(zhuǎn)移概率,pq(i)隨機(jī)游動(dòng)在節(jié)點(diǎn)i結(jié)束的概率,K(ν, ν')指示所述一對(duì)節(jié)點(diǎn)(ν,ν')之間的相似度的核函數(shù),以及K(e,e')指示所述一對(duì)邊(e,e‘)之間的相似度的核函數(shù),ps (i)或pt(j|i)的值可隨每個(gè)對(duì)象的面積與所有對(duì)象的總面積的比(面積比) 而成比例地增大。此外,作為另一方面,提供了一種支持確定兩個(gè)文檔數(shù)據(jù)段之間的相似度的計(jì)算機(jī)可執(zhí)行的系統(tǒng)。所述文檔數(shù)據(jù)段包括對(duì)象,所述對(duì)象包括文本、非文本或文本與非文本的組合。所述系統(tǒng)包括用于將所述文檔數(shù)據(jù)段中的每個(gè)文檔數(shù)據(jù)段轉(zhuǎn)換為有向圖并存儲(chǔ)所述有向圖的裝置,以及用于通過計(jì)算機(jī)的操作,使用每個(gè)對(duì)象的重要度計(jì)算轉(zhuǎn)換后的有向圖之間的相似度的裝置。此外,作為另一方面,提供了一種支持確定兩個(gè)文檔數(shù)據(jù)段之間的相似度的計(jì)算機(jī)程序。所述計(jì)算機(jī)程序使計(jì)算機(jī)執(zhí)行上述每種方法中的步驟。此外,作為另一方面,提供了存儲(chǔ)上述計(jì)算機(jī)程序以便所述計(jì)算機(jī)程序可以由計(jì)算機(jī)讀取的記錄介質(zhì)。本發(fā)明的有益效果使用本發(fā)明能夠檢測(cè)其中混合了文本信息和非文本信息的文檔之間的相似度,并且在考慮每個(gè)對(duì)象的重要度的情況下檢測(cè)文檔之間的相似度。在本發(fā)明中,對(duì)象的面積越大,比較該對(duì)象的頻率也越高。因此,對(duì)象越大,該對(duì)象對(duì)相似度計(jì)算的貢獻(xiàn)也越大。在此布置中,可使計(jì)算機(jī)以非常符合人類在一瞥之下確定文檔之間相似度的方式執(zhí)行確定。
圖1示出了本發(fā)明的過程的概述;
圖2示出了將文檔數(shù)據(jù)段轉(zhuǎn)換為標(biāo)記有向圖的流程的更詳細(xì)的流程圖
圖3示出了節(jié)點(diǎn)和邊的示意性特征;
圖4示出了在將演示圖用作文檔數(shù)據(jù)的情況下到有向圖的示意性轉(zhuǎn)換
圖5示出了節(jié)點(diǎn)的特征的內(nèi)部數(shù)據(jù)結(jié)構(gòu);
圖6示出了邊的標(biāo)記的數(shù)據(jù)結(jié)構(gòu);
圖7是本發(fā)明的文檔相似度確定系統(tǒng)的方塊圖8是本發(fā)明的文檔相似度確定系統(tǒng)的詳細(xì)流程圖9是比較頁(yè)面相似度的過程的更詳細(xì)的流程圖10是本發(fā)明的文檔數(shù)據(jù)相似度確定系統(tǒng)的示意性硬件方塊圖;以及
圖11是示出更實(shí)際的比較方法的圖。
具體實(shí)施例方式圖1示出了本發(fā)明的過程的概述。在步驟110,將每個(gè)都包括對(duì)象的文檔數(shù)據(jù)段轉(zhuǎn)換為標(biāo)記有向圖(labeled directed graph)。此時(shí),將每個(gè)對(duì)象轉(zhuǎn)換為節(jié)點(diǎn)并計(jì)算所述對(duì)象的特征。然后,通過邊連接所述節(jié)點(diǎn)。要被連接的節(jié)點(diǎn)之間的地理位置關(guān)系被用作分配給對(duì)應(yīng)邊的標(biāo)記。然后,在步驟120,使用獲取有向圖之間的相似度的函數(shù)計(jì)算所述文檔數(shù)據(jù)段之間的相似度。此時(shí),除了每個(gè)節(jié)點(diǎn)的特征和邊的位置關(guān)系以外,還使用每個(gè)對(duì)象的重要度執(zhí)行計(jì)算。在本發(fā)明中,對(duì)象的面積被視為對(duì)象的重要度。備選地,可以在不偏離本發(fā)明本質(zhì)的情況下使用其他指標(biāo),例如,與特殊形狀成比例的信息或使用數(shù)字水印技術(shù)嵌入的重要度。在本發(fā)明的一個(gè)實(shí)施例中,在節(jié)點(diǎn)和邊的相似度計(jì)算中,將對(duì)象的面積與所有對(duì)象的總面積的比(面積比)用作對(duì)象的重要度。圖2示出了將文檔數(shù)據(jù)段轉(zhuǎn)換為標(biāo)記有向圖的步驟110的更詳細(xì)的流程圖。在步驟210,將文檔數(shù)據(jù)中的每個(gè)對(duì)象首先轉(zhuǎn)換為節(jié)點(diǎn)。此時(shí),對(duì)象的屬性被設(shè)為節(jié)點(diǎn)的特征。 然后,在步驟220,通過邊連接各節(jié)點(diǎn)。將要連接的節(jié)點(diǎn)之間的位置關(guān)系分配給對(duì)應(yīng)的邊作為標(biāo)記。圖3示出了對(duì)象的涉及節(jié)點(diǎn)和邊的屬性。在將文檔數(shù)據(jù)轉(zhuǎn)換為標(biāo)記有向圖時(shí),節(jié)點(diǎn)所擁有的特征主要包括文本、位像和圖形屬性。文本的內(nèi)容包括字符串。位像包括作者的用戶ID和面積。圖形屬性包括前景顏色、背景顏色、線型、寬度、高度、形狀以及面積。邊所擁有的特征包括方向和標(biāo)記。方向包含指示方向從哪個(gè)節(jié)點(diǎn)延伸到哪個(gè)節(jié)點(diǎn)的信息。標(biāo)記包含地理位置信息。
圖4示出了在將演示圖用作文檔數(shù)據(jù)的情況下到有向圖的示意性轉(zhuǎn)換。在兩個(gè)圖中,上圖示出了原始圖,下圖示出了原始圖轉(zhuǎn)換而成的有向圖。符號(hào)vl、v2、v3、v4、v5和v6 均表示一個(gè)節(jié)點(diǎn)。原始圖中的符號(hào)Vl、v2、v3、v4、v5和v6是為了清晰地表達(dá)與圖的對(duì)應(yīng), 實(shí)際圖中沒有這些符號(hào)。在有向圖中,節(jié)點(diǎn)中的E指示原始對(duì)象的形狀為橢圓,節(jié)點(diǎn)中的R 指示原始對(duì)象的形狀為矩形,并且節(jié)點(diǎn)中的B指示原始對(duì)象為位形。另外,邊的標(biāo)記A、 B、L和R分別表示上方、下方、左側(cè)和右側(cè)。例如,在節(jié)點(diǎn)vl與v2之間的關(guān)系中,對(duì)應(yīng)的標(biāo)記指示節(jié)點(diǎn)v2位于節(jié)點(diǎn)Vl右側(cè)的位置關(guān)系。另外,每個(gè)節(jié)點(diǎn)都具有特征。例如,在節(jié)點(diǎn)v3 中,文本為“風(fēng)險(xiǎn)”,線條顏色為黑色,填充色為淺綠色。節(jié)點(diǎn)v6具有對(duì)位圖唯一的標(biāo)識(shí)符并且 UID 為 A593F7。圖5示出了節(jié)點(diǎn)的特征的內(nèi)部數(shù)據(jù)結(jié)構(gòu)。此數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)在存儲(chǔ)器中。在圖5中, 示出了節(jié)點(diǎn)v3。應(yīng)該理解,針對(duì)每個(gè)節(jié)點(diǎn)號(hào)存儲(chǔ)了特征名以及值。在圖5中,對(duì)應(yīng)對(duì)象的形狀為橢圓。例如,對(duì)于節(jié)點(diǎn)v6,對(duì)應(yīng)對(duì)象的形狀為B,唯一 ID包含在特征名中,并且A593F7 包含在值中。圖5僅示出了一個(gè)實(shí)例,并且取決于對(duì)象類型,可以適當(dāng)?shù)乜紤]使用多種特征類型。圖6示出了邊的標(biāo)記的數(shù)據(jù)結(jié)構(gòu)。此數(shù)據(jù)結(jié)構(gòu)也存儲(chǔ)在存儲(chǔ)器中。在圖6中,示出了節(jié)點(diǎn)v4與v5之間的邊。邊包括以下特征方向和標(biāo)記。方向包括指示方向從哪個(gè)節(jié)點(diǎn)延伸到哪個(gè)節(jié)點(diǎn)的“自”和“至”,在“自”和“至”中將節(jié)點(diǎn)號(hào)設(shè)為值。在標(biāo)記中設(shè)置地理位置信息值“上方”、“下方”、“左側(cè)”和“右側(cè)”之一。地理位置信息指示相對(duì)于對(duì)應(yīng)邊起點(diǎn)處的節(jié)點(diǎn),所述邊的終點(diǎn)處的節(jié)點(diǎn)的位置。由于節(jié)點(diǎn)v5位于節(jié)點(diǎn)v4下方,因此在對(duì)應(yīng)值中設(shè)置“下方”。另外,由于節(jié)點(diǎn)v4位于節(jié)點(diǎn)v5上方,因此在對(duì)應(yīng)值中設(shè)置“上方”。實(shí)施例披露了通過核方法實(shí)現(xiàn)的采用圖挖掘的相似度確定方法作為實(shí)施例。圖挖掘可以計(jì)算可由諸如分子結(jié)構(gòu)之類的圖形表示的數(shù)據(jù)的相似度,并且用于例如根據(jù)獲取的相似度查找具有特定屬性的物質(zhì)。由于圖挖掘方法是公知的,因此將省略具體的方法。例如,非專利文獻(xiàn)2中提出了一種方法,其中結(jié)合了圖挖掘方法以外的隨機(jī)游動(dòng)和核方法。因此,現(xiàn)在將其中定義了適合確定文檔數(shù)據(jù)相似度的核函數(shù)并將其用于相似度確定的實(shí)例示為本發(fā)明的實(shí)施例。圖挖掘概述在基于隨機(jī)游動(dòng)的圖挖掘中,兩個(gè)標(biāo)記有向圖G和G'之間的核函數(shù)K(G,G')表示為[E1]
權(quán)利要求
1.一種支持確定兩個(gè)文檔數(shù)據(jù)段之間的相似度的計(jì)算機(jī)可執(zhí)行的方法,所述文檔數(shù)據(jù)段包括對(duì)象,所述對(duì)象包括文本、非文本或文本與非文本的組合,所述方法包括以下步驟將所述文檔數(shù)據(jù)段中的每個(gè)文檔數(shù)據(jù)段轉(zhuǎn)換為有向圖并存儲(chǔ)所述有向圖;以及使用每個(gè)對(duì)象的重要度計(jì)算轉(zhuǎn)換后的有向圖之間的相似度。
2.如權(quán)利要求1中所述的方法,其中每個(gè)對(duì)象的重要度是所述對(duì)象的面積與所有對(duì)象的總面積的比亦即面積比。
3.如權(quán)利要求1中所述的方法,其中轉(zhuǎn)換為有向圖的步驟包括以下步驟將文檔數(shù)據(jù)中的對(duì)象轉(zhuǎn)換為節(jié)點(diǎn)并將所述對(duì)象中的每個(gè)對(duì)象的屬性存儲(chǔ)為所述節(jié)點(diǎn)中的一個(gè)對(duì)應(yīng)節(jié)點(diǎn)所擁有的特征,以及通過邊連接所述節(jié)點(diǎn)并存儲(chǔ)指示要連接的節(jié)點(diǎn)之間的位置關(guān)系的信息。
4.如權(quán)利要求3中所述的方法,其中所述節(jié)點(diǎn)所擁有的特征包括文本、圖像或圖形屬性。
5.如權(quán)利要求3中所述的方法,其中指示所述位置關(guān)系的信息包括上方、下方、左側(cè)或右側(cè)。
6.如權(quán)利要求1中所述的方法,其中通過圖挖掘來執(zhí)行計(jì)算有向圖之間的相似度的步馬聚ο
7.如權(quán)利要求6中所述的方法,其中使用以下項(xiàng)執(zhí)行通過圖挖掘計(jì)算相似度的步驟 運(yùn)算從節(jié)點(diǎn)i開始的概率、發(fā)生通過邊轉(zhuǎn)移到與節(jié)點(diǎn)i相連的節(jié)點(diǎn)j的概率、運(yùn)算在節(jié)點(diǎn)i 結(jié)束的概率、指示一對(duì)節(jié)點(diǎn)(v,ν')之間的相似度的核函數(shù),以及指示一對(duì)邊(e,e')之間的相似度的核函數(shù)。
8.如權(quán)利要求7中所述的方法,其中通過基于隨機(jī)游動(dòng)的圖挖掘來執(zhí)行通過圖挖掘計(jì)算相似度的步驟,并且假設(shè)轉(zhuǎn)換后的有向圖為G和G',當(dāng)使用以下項(xiàng)計(jì)算指示有向圖G和 G'之間的相似度的核函數(shù)K(G,G')時(shí)ps (i)隨機(jī)游動(dòng)從節(jié)點(diǎn)i開始的概率,Pt (j I i)發(fā)生從節(jié)點(diǎn)i轉(zhuǎn)移到節(jié)點(diǎn)j的轉(zhuǎn)移概率,pq(i)隨機(jī)游動(dòng)在節(jié)點(diǎn)i結(jié)束的概率,K(ν, ν')指示所述一對(duì)節(jié)點(diǎn)(ν,ν')之間的相似度的核函數(shù),以及 K(e,e')指示所述一對(duì)邊(e,e')之間的相似度的核函數(shù), ps (i)或pt(j|i)的值隨每個(gè)對(duì)象的面積與所有對(duì)象的總面積的比亦即面積比而成比例地增大。
9.一種支持確定兩個(gè)文檔數(shù)據(jù)段之間的相似度的計(jì)算機(jī)可執(zhí)行的系統(tǒng),所述文檔數(shù)據(jù)段包括對(duì)象,所述對(duì)象包括文本、非文本或文本與非文本的組合,所述系統(tǒng)包括用于將所述文檔數(shù)據(jù)段中的每個(gè)文檔數(shù)據(jù)段轉(zhuǎn)換為有向圖并存儲(chǔ)所述有向圖的裝置;以及用于通過計(jì)算機(jī)的操作,使用每個(gè)對(duì)象的重要度計(jì)算轉(zhuǎn)換后的有向圖之間的相似度的直ο
10.如權(quán)利要求9中所述的系統(tǒng),其中每個(gè)對(duì)象的重要度是所述對(duì)象的面積與所有對(duì)象的總面積的比亦即面積比。
11.如權(quán)利要求9中所述的系統(tǒng),其中用于轉(zhuǎn)換為有向圖的裝置包括用于將文檔數(shù)據(jù)中的對(duì)象轉(zhuǎn)換為節(jié)點(diǎn)并將所述對(duì)象中的每個(gè)對(duì)象的屬性存儲(chǔ)為所述節(jié)點(diǎn)中的一個(gè)對(duì)應(yīng)節(jié)點(diǎn)所擁有的特征的裝置,以及用于通過邊連接所述節(jié)點(diǎn)并存儲(chǔ)指示要連接的節(jié)點(diǎn)之間的位置關(guān)系的信息的裝置。
12.如權(quán)利要求11中所述的系統(tǒng),其中所述節(jié)點(diǎn)所擁有的特征包括文本、圖像或圖形屬性。
13.如權(quán)利要求11中所述的系統(tǒng),其中指示所述位置關(guān)系的信息包括上方、下方、左側(cè)或右側(cè)。
14.如權(quán)利要求9中所述的系統(tǒng),其中通過圖挖掘來執(zhí)行有向圖之間的相似度的計(jì)算。
15.如權(quán)利要求14中所述的系統(tǒng),其中使用以下項(xiàng)執(zhí)行通過圖挖掘計(jì)算所述相似度 運(yùn)算從節(jié)點(diǎn)i開始的概率、發(fā)生通過邊轉(zhuǎn)移到與節(jié)點(diǎn)i相連的節(jié)點(diǎn)j的概率、運(yùn)算在節(jié)點(diǎn)i 結(jié)束的概率、指示一對(duì)節(jié)點(diǎn)(v,ν')之間的相似度的核函數(shù),以及指示一對(duì)邊(e,e')之間的相似度的核函數(shù)。
16.如權(quán)利要求15中所述的系統(tǒng),其中通過基于隨機(jī)游動(dòng)的圖挖掘來執(zhí)行通過圖挖掘計(jì)算所述相似度,并且假設(shè)轉(zhuǎn)換后的有向圖為G和G',當(dāng)使用以下項(xiàng)計(jì)算指示有向圖G和 G'之間的相似度的核函數(shù)K(G,G')時(shí)ps (i)隨機(jī)游動(dòng)從節(jié)點(diǎn)i開始的概率,Pt (j I i)發(fā)生從節(jié)點(diǎn)i轉(zhuǎn)移到節(jié)點(diǎn)j的轉(zhuǎn)移概率,pq(i)隨機(jī)游動(dòng)在節(jié)點(diǎn)i結(jié)束的概率,K(ν, ν')指示所述一對(duì)節(jié)點(diǎn)(ν,ν')之間的相似度的核函數(shù),以及 K(e,e')指示所述一對(duì)邊(e,e')之間的相似度的核函數(shù), ps (i)或pt(j|i)的值隨每個(gè)對(duì)象的面積與所有對(duì)象的總面積的比亦即面積比而成比例地增大。
全文摘要
本發(fā)明涉及一種確定文檔之間的相似度的方法和設(shè)備。本發(fā)明的目標(biāo)是提供一種檢測(cè)其中混合了文本信息和非文本信息的文檔之間的相似度的技術(shù)。為了實(shí)現(xiàn)上述目標(biāo),作為第一方面,提供了一種支持確定兩個(gè)文檔數(shù)據(jù)段之間的相似度的計(jì)算機(jī)可執(zhí)行的方法。所述文檔數(shù)據(jù)段包括對(duì)象,所述對(duì)象包括文本、非文本或文本與非文本的組合。所述方法包括以下步驟將所述文檔數(shù)據(jù)段中的每個(gè)文檔數(shù)據(jù)段轉(zhuǎn)換為有向圖并存儲(chǔ)所述有向圖;以及通過計(jì)算機(jī)的操作,使用每個(gè)對(duì)象的重要度計(jì)算轉(zhuǎn)換后的有向圖之間的相似度。
文檔編號(hào)G06F17/30GK102236693SQ20111010350
公開日2011年11月9日 申請(qǐng)日期2011年4月25日 優(yōu)先權(quán)日2010年4月28日
發(fā)明者三品拓也, 吉濱佐知子 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司