數(shù)據(jù)處理方法和數(shù)據(jù)處理設(shè)備的制作方法
【專利摘要】提供了一種數(shù)據(jù)處理方法和數(shù)據(jù)處理設(shè)備,該方法包括:圖片識別步驟,用于對圖片進行識別,以獲得多個識別結(jié)果詞,并根據(jù)特定組合形式從多個識別結(jié)果詞生成一個或多個檢索詞;初始化步驟,用于對利用檢索詞進行檢索而獲得的網(wǎng)頁進行初始化,以獲得多個語句;主題相關(guān)性確定步驟,用于確定所獲得的各個語句之間的主題相關(guān)性;主題段落劃分步驟,用于基于所確定的主題相關(guān)性將多個語句劃分為多個段落并確定各個段落的主題性值;以及主題段落選擇步驟,用于基于確定的各段落的主題性值,從多個段落中選擇滿足預(yù)定條件的主題段落。根據(jù)本發(fā)明的實施例,能夠高效準(zhǔn)確地獲取與圖片相關(guān)的網(wǎng)頁的主題段落并確定圖片的主題,有利于信息檢索、集成和共享。
【專利說明】數(shù)據(jù)處理方法和數(shù)據(jù)處理設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種數(shù)據(jù)處理方法和數(shù)據(jù)處理設(shè)備,更具體地,涉及一種用于從與圖片相關(guān)的網(wǎng)頁中提取與該圖片主題的相關(guān)程度較高的段落的數(shù)據(jù)處理方法和數(shù)據(jù)處理設(shè)備。
【背景技術(shù)】
[0002]圖片中的文本信息對于用戶了解該圖片的內(nèi)容具有重要的作用。由于采用例如光學(xué)字符識別(OCR)技術(shù)不能準(zhǔn)確地鎖定代表圖片主題的關(guān)鍵詞,因此借助于互聯(lián)網(wǎng)的大量文本信息驗證并提取圖片中的文本,可以更準(zhǔn)確全面地提取圖片的文本信息,從而幫助用戶快速、準(zhǔn)確地獲取所需的信息。
[0003]通過利用OCR結(jié)果在搜索引擎中進行檢索并借助于文本聚類和匹配等數(shù)據(jù)挖掘手段,可以獲取與圖片的主題相關(guān)的網(wǎng)頁。然而,由于通過網(wǎng)絡(luò)挖掘而獲得的網(wǎng)頁包含的信息量過大,可能會產(chǎn)生主題分散(例如,一個網(wǎng)頁包含多個主題)或者主題漂移(例如,從該圖片的主題轉(zhuǎn)移到其它主題)等問題,從而不利于圖片主題的確定。
【發(fā)明內(nèi)容】
[0004]在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。但是,應(yīng)當(dāng)理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖用來確定本發(fā)明的關(guān)鍵性部分或重要部分,也不是意圖用來限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出關(guān)于本發(fā)明的某些概念,以此作為稍后給出的更詳細(xì)描述的前序。
[0005]因此,鑒于上述情形,本發(fā)明的目的是提供一種數(shù)據(jù)處理方法和數(shù)據(jù)處理設(shè)備,其通過利用圖片的OCR結(jié)果進行檢索來獲得多個相關(guān)網(wǎng)頁,基于網(wǎng)頁中的語句之間的主題相關(guān)性來確定網(wǎng)頁的主題段落劃分,并且基于該主題段落劃分而選擇與該圖片相關(guān)程度較高的主題段落并輸出,從而使得用戶能夠高效準(zhǔn)確地獲取與該圖片相關(guān)的網(wǎng)頁信息,以有助于對圖片中的文本內(nèi)容的了解。
[0006]為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一方面,提供了一種數(shù)據(jù)處理方法,該方法包括:圖片識別步驟,用于對圖片進行識別,以獲得多個識別結(jié)果詞,并根據(jù)特定組合形式從多個識別結(jié)果詞生成一個或多個檢索詞;初始化步驟,用于對利用檢索詞進行檢索而獲得的網(wǎng)頁進行初始化,以獲得多個語句;主題相關(guān)性確定步驟,用于確定所獲得的各個語句之間的主題相關(guān)性;主題段落劃分步驟,用于基于所確定的主題相關(guān)性將多個語句劃分為多個段落并確定各個段落的主題性值;以及主題段落選擇步驟,用于基于確定的各段落的主題性值,從多個段落中選擇滿足預(yù)定條件的主題段落。
[0007]根據(jù)本發(fā)明的實施例,主題相關(guān)性確定步驟可以進一步包括:語句相似度計算子步驟,用于計算各個語句之間的相似度;匹配度計算子步驟,用于計算各個語句與圖片識別結(jié)果之間的匹配度;以及相關(guān)性確定子步驟,用于基于算出的相似度和匹配度來確定各個語句之間的主題相關(guān)性。[0008]根據(jù)本發(fā)明的另一實施例,在相關(guān)性確定子步驟中,可以基于下述方式來生成主題相關(guān)性矩陣,該主題相關(guān)性矩陣中的每個元素表示任意兩個語句之間的主題相關(guān)性:對于矩陣的主對角線上的元素,基于相應(yīng)的匹配度來確定該元素的值;并且對于矩陣的下三角陣中的元素,基于與該元素相鄰的元素以及與該元素相關(guān)的兩個語句之間的相似度來確定該元素的值,并且該主題相關(guān)性矩陣為對稱矩陣。
[0009]根據(jù)本發(fā)明的又一實施例,在段落劃分步驟中,可以基于所確定的主題相關(guān)性矩陣,利用動態(tài)規(guī)劃算法來確定該矩陣的劃分的最優(yōu)子結(jié)構(gòu),并根據(jù)所確定的最優(yōu)子結(jié)構(gòu)來劃分段落。
[0010]根據(jù)本發(fā)明的再一實施例,在主題段落選擇步驟中,可以基于確定的主題性值對所劃分的多個段落進行排序,并根據(jù)預(yù)定條件選擇輸出。
[0011]根據(jù)本發(fā)明的另一方面,還提供了一種數(shù)據(jù)處理設(shè)備,該設(shè)備包括:圖片識別單元,被配置成對圖片進行識別,以獲得多個識別結(jié)果詞,并根據(jù)特定組合形式從多個識別結(jié)果詞生成一個或多個檢索詞;初始化單元,被配置成對利用檢索詞進行檢索而獲得的網(wǎng)頁進行初始化,以獲得多個語句;主題相關(guān)性確定單元,被配置成確定所獲得的各個語句之間的主題相關(guān)性;主題段落劃分單元,被配置成基于所確定的主題相關(guān)性將多個語句劃分為多個段落并確定各個段落的主題性值;以及主題段落選擇單元,被配置成基于確定的各段落的主題性值,從多個段落中選擇滿足預(yù)定條件的主題段落。
[0012]根據(jù)本發(fā)明的又一方面,還提供了一種存儲介質(zhì),該存儲介質(zhì)包括機器可讀的程序代碼,當(dāng)在信息處理設(shè)備上執(zhí)行程序代碼時,該程序代碼使得信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的數(shù)據(jù)處理方法。
[0013]此外,根據(jù)本發(fā)明的實施例的再一方面,還提供了一種程序產(chǎn)品,該程序產(chǎn)品包括機器可執(zhí)行的指令,當(dāng)在信息處理設(shè)備上執(zhí)行指令時,該指令使得信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的數(shù)據(jù)處理方法。
[0014]因此,根據(jù)本發(fā)明的實施例,能夠提高數(shù)據(jù)處理效率,幫助用戶快速準(zhǔn)確地獲取與圖片相關(guān)程度較高的網(wǎng)頁信息并了解圖片的文本信息的主題,從而有利于信息檢索、集成和共享。
[0015]在下面的說明書部分中給出本發(fā)明實施例的其他方面,其中,詳細(xì)說明用于充分地公開本發(fā)明實施例的優(yōu)選實施例,而不對其施加限定。
【專利附圖】
【附圖說明】
[0016]本發(fā)明可以通過參考下文中結(jié)合附圖所給出的詳細(xì)描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標(biāo)記來表示相同或者相似的部件。所述附圖連同下面的詳細(xì)說明一起包含在本說明書中并形成說明書的一部分,用來進一步舉例說明本發(fā)明的優(yōu)選實施例和解釋本發(fā)明的原理和優(yōu)點。其中:
[0017]圖1是示出根據(jù)本發(fā)明的實施例的數(shù)據(jù)處理方法的示例的流程圖;
[0018]圖2是示出圖1所示的數(shù)據(jù)處理方法中的主題相關(guān)性確定步驟中的詳細(xì)處理的流程圖;
[0019]圖3是示出根據(jù)本發(fā)明的實施例的主題相關(guān)性矩陣及其劃分的示例的示意圖;
[0020]圖4是示出根據(jù)本發(fā)明的實施例的數(shù)據(jù)處理設(shè)備的功能配置的框圖;[0021]圖5是示出圖4所示的主題相關(guān)性確定單元的詳細(xì)功能配置的框圖;以及
[0022]圖6是示出作為本發(fā)明的實施例中所采用的信息處理設(shè)備的個人計算機的示例性結(jié)構(gòu)的框圖。
【具體實施方式】
[0023]在下文中將結(jié)合附圖對本發(fā)明的示范性實施例進行描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實際實施例的過程中必須做出很多特定于實施方式的決定,以便實現(xiàn)開發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費時的,但對得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。
[0024]在此,還需要說明的一點是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的設(shè)備結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其它細(xì)節(jié)。
[0025]以下將參照圖1至圖6來描述根據(jù)本發(fā)明的實施例的數(shù)據(jù)處理方法和數(shù)據(jù)處理設(shè)備。
[0026]首先,將參照圖1來描述根據(jù)本發(fā)明的實施例的數(shù)據(jù)處理方法。如圖1所示,數(shù)據(jù)處理方法可以包括圖片識別步驟S101、初始化步驟S102、主題相關(guān)性確定步驟S103、主題段落劃分步驟S104以及主題段落選擇步驟S105。
[0027]具體地,在圖片識別步驟SlOl中,可以對輸入的圖片進行識別,以獲得多個識別結(jié)果詞,并根據(jù)特定組合形式從多個識別結(jié)果詞生成一個或多個檢索詞。優(yōu)選地,作為示例而非限制,在圖片識別步驟SlOl中可以采用光學(xué)字符識別(OCR)技術(shù)。圖片可以是任意需要處理的圖片,例如,廣告圖片、從視頻中截取的圖片或任意其他圖片。
[0028]此外,對于識別結(jié)果詞中的命名實體的名稱、時間以及地點等詞,由于其具有較強的標(biāo)識性,因此更適合以適當(dāng)形式進行組合并被選作檢索詞。然而,本領(lǐng)域技術(shù)人員應(yīng)理解,也可以將通過光學(xué)字符識別獲得的識別結(jié)果詞直接用作檢索詞而無需任何處理。
[0029]接下來,在初始化步驟S102中,可以對利用所獲得的檢索詞進行檢索而獲得的網(wǎng)頁進行初始化,以獲得多個語句。具體地,利用在步驟SlOl中獲得的檢索詞在搜索引擎中進行檢索,從而返回多個相關(guān)的網(wǎng)頁,并且可以基于標(biāo)點符號(諸如,“,”、“?!薄ⅰ?? ”、“ !”等等)對返回的網(wǎng)頁進行語句劃分以獲得多個語句。優(yōu)選地,在初始化步驟S102中,保持從網(wǎng)頁所獲得的語句序列的順序與該網(wǎng)頁的原始語句順序相同以用于后續(xù)處理,這是由于假設(shè)網(wǎng)頁的主題段落存在于連續(xù)的文本片段中。
[0030]在主題相關(guān)性確定步驟S103中,可以確定所獲得的各個語句之間的主題相關(guān)性。
[0031]優(yōu)選地,如圖2所示,主題相關(guān)性確定步驟S103可以進一步包括語句相似度計算子步驟S201、匹配度計算子步驟S202以及相關(guān)性確定子步驟S203。接下來將參照圖2詳細(xì)描述主題相關(guān)性確定步驟S103中的詳細(xì)處理。
[0032]在語句相似度計算子步驟S201中,計算所獲得的各個語句之間的相似度。優(yōu)選地,作為示例,可以基于各個語句的詞頻、利用余弦公式來計算任意兩個語句之間的相似度,該計算過程可以通過以下公式(I)來表示:
【權(quán)利要求】
1.一種數(shù)據(jù)處理方法,包括: 圖片識別步驟,用于對圖片進行識別,以獲得多個識別結(jié)果詞,并根據(jù)特定組合形式從所述多個識別結(jié)果詞生成一個或多個檢索詞; 初始化步驟,用于對利用所述檢索詞進行檢索而獲得的網(wǎng)頁進行初始化,以獲得多個語句; 主題相關(guān)性確定步驟,用于確定所獲得的各個語句之間的主題相關(guān)性; 主題段落劃分步驟,用于基于所確定的主題相關(guān)性將所述多個語句劃分為多個段落并確定各個段落的主題性值;以及 主題段落選擇步驟,用于基于確定的各段落的主題性值,從所述多個段落中選擇滿足預(yù)定條件的主題段落。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其中,所述主題相關(guān)性確定步驟進一步包括: 語句相似度計算子步驟,用于計算各個語句之間的相似度; 匹配度計算子步驟,用于計算各個語句與圖片識別結(jié)果之間的匹配度;以及 相關(guān)性確定子步驟,用于基于算出的相似度和匹配度來確定各個語句之間的主題相關(guān)性。
3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)處理方法,其中,在所述相關(guān)性確定子步驟中,基于下述方式來生成主題相關(guān)性矩陣,所述主題相關(guān)性矩陣中的每個元素表示任意兩個語句之間的主題相關(guān)性:對于所述矩陣的主對角線上的元素,基于相應(yīng)的匹配度來確定該元素的值;并且對于所述矩陣的下三角陣中的元素,基于與該元素相鄰的元素以及與該元素相關(guān)的兩個語句之間的相似度來確定該元素的值,并且所述主題相關(guān)性矩陣為對稱矩陣。`
4.根據(jù)權(quán)利要求3所述的數(shù)據(jù)處理方法,其中,在所述段落劃分步驟中,基于所確定的主題相關(guān)性矩陣,利用動態(tài)規(guī)劃算法來確定所述矩陣的劃分的最優(yōu)子結(jié)構(gòu),并根據(jù)所確定的最優(yōu)子結(jié)構(gòu)來劃分段落。
5.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其中,在所述主題段落選擇步驟中,基于確定的主題性值對所劃分的多個段落進行排序,并根據(jù)預(yù)定條件選擇輸出。
6.一種數(shù)據(jù)處理設(shè)備,包括: 圖片識別單元,被配置成對圖片進行識別,以獲得多個識別結(jié)果詞,并根據(jù)特定組合形式從所述多個識別結(jié)果詞生成一個或多個檢索詞; 初始化單元,被配置成對利用所述檢索詞進行檢索而獲得的網(wǎng)頁進行初始化,以獲得多個語句; 主題相關(guān)性確定單元,被配置成確定所獲得的各個語句之間的主題相關(guān)性; 主題段落劃分單元,被配置成基于所確定的主題相關(guān)性將所述多個語句劃分為多個段落并確定各個段落的主題性值;以及 主題段落選擇單元,被配置成基于確定的各段落的主題性值,從所述多個段落中選擇滿足預(yù)定條件的主題段落。
7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)處理設(shè)備,其中,所述主題相關(guān)性確定單元進一步包括: 語句相似度計算模塊,被配置成計算各個語句之間的相似度; 匹配度計算模塊,被配置成計算各個語句與圖片識別結(jié)果之間的匹配度;以及 相關(guān)性確定模塊,被配置成基于算出的相似度和匹配度來確定各個語句之間的主題相關(guān)性。
8.根據(jù)權(quán)利要求7所述的數(shù)據(jù)處理設(shè)備,其中,所述相關(guān)性確定模塊進一步被配置成基于下述方式來生成主題相關(guān)性矩陣,所述主題相關(guān)性矩陣中的每個元素表示任意兩個語句之間的主題相關(guān)性:對于所述矩陣的主對角線上的元素,基于相應(yīng)的匹配度來確定該元素的值;并且對于所述矩陣的下三角陣中的元素,基于與該元素相鄰的元素以及與該元素相關(guān)的兩個語句之間的相似度來確定該元素的值,并且所述主題相關(guān)性矩陣為對稱矩陣。
9.根據(jù)權(quán)利要求8所述的數(shù)據(jù)處理設(shè)備,其中,所述段落劃分單元進一步被配置成基于所確定的主題相關(guān)性矩陣,利用動態(tài)規(guī)劃算法來確定所述矩陣的劃分的最優(yōu)子結(jié)構(gòu),并根據(jù)所確定 的最優(yōu)子結(jié)構(gòu)來劃分段落。
10.根據(jù)權(quán)利要求6所述的數(shù)據(jù)處理設(shè)備,其中,所述主題段落選擇單元進一步被配置成基于確定的主題性值對所劃分的多個段落進行排序,并根據(jù)預(yù)定條件選擇輸出。
【文檔編號】G06F17/30GK103678407SQ201210358626
【公開日】2014年3月26日 申請日期:2012年9月24日 優(yōu)先權(quán)日:2012年9月24日
【發(fā)明者】孫健, 夏迎炬, 楊宇航, 張明明 申請人:富士通株式會社