本公開涉及多媒體文檔概括。
背景技術(shù):
概括包括多媒體內(nèi)容(諸如文本和圖像)的文檔(諸如文章等)通常包含提供文本摘錄和圖像,該圖像被假定為提供對文檔的概述。然而,當(dāng)前的很多方法趨向于僅關(guān)于文檔的文本部分處理概括任務(wù)。對于圖像部分,這些方法使用第一幅或者頂部全尺寸圖像作為縮略圖,而不考慮圖像部分的上下文以及其可以如何關(guān)聯(lián)到文本部分。因此,實(shí)際上未包含關(guān)于圖像的概括方面。這忽略了如下事實(shí),即其它圖像或者部分可能與文本部分更相關(guān),使得集體地,其它圖像部分和文本部分將提供更好的、更相關(guān)的信息內(nèi)容。
技術(shù)實(shí)現(xiàn)要素:
對多媒體文檔概括技術(shù)進(jìn)行了描述。即,給定包括不同內(nèi)容類型(例如文本和一組圖像)的文檔,各種實(shí)施方式通過以下方式來生成概括:提取文檔中的相關(guān)文本區(qū)段和圖像的相關(guān)區(qū)段,其中對概括中的文本的量和圖像的數(shù)目/尺寸進(jìn)行約束。
在一個或者多個實(shí)施方式中,利用模型來產(chǎn)生考慮了諸如文本和圖像之類的不同內(nèi)容類型的文檔概括。對于文本和圖像上下文,該模型產(chǎn)生了在概括的圖像區(qū)段和文本區(qū)段之間具有高結(jié)合度的多模式概括,而同時將概括中的信息量(對文檔內(nèi)容的覆蓋范圍和由概括提供的信息的多樣性兩者而言)最大化。
在第一方法中,給定的文檔被分割成元素。元素的一個類涉及諸如文本單元之類的第一內(nèi)容類型,而元素的另一類涉及諸如圖像單元之類的第二不同的內(nèi)容類型。增益值和成本被分配到每個元素。與元素關(guān)聯(lián)的預(yù)算約束被確立,并且可以包括圖像的尺寸/數(shù)目、和句子、單詞、或者字符的數(shù)目。增益值是對于文檔的信息內(nèi)容而言元素所具有的覆蓋范圍和對于當(dāng)前概括而言元素所具有的信息多樣性的函數(shù)。制定目標(biāo)函數(shù),其考慮了信息內(nèi)容的覆蓋范圍、信息內(nèi)容的多樣性、以及概括的圖像和文本部分之間的結(jié)合度。對目標(biāo)函數(shù)進(jìn)行數(shù)學(xué)操作,以便就預(yù)算而言迭代地將目標(biāo)函數(shù)最大化。在一個實(shí)施方式中,這通過選擇元素包括在概括中來實(shí)現(xiàn),該元素提供目標(biāo)函數(shù)的增加相對于元素成本的最大比率。元素的增益可以在每個迭代之后改變。解是在預(yù)算約束內(nèi)具有針對目標(biāo)函數(shù)的近似最大值的概括。
在第二方法中,利用了基于圖的方法。特別地,創(chuàng)建了如下圖,其節(jié)點(diǎn)表示不同內(nèi)容類型,例如文本元素或者圖像元素。每個元素具有基于該元素的固有值的對應(yīng)獎勵,而不考慮對應(yīng)文檔中的其它元素。每個元素具有關(guān)聯(lián)的成本。例如,文本元素的成本可以在字符、單詞、或者句子的數(shù)目方面給出。每個圖像區(qū)段的成本可以基于其尺寸或者作為單位成本來分配。圖中的邊緣權(quán)重(edge weight)表示由一個元素捕獲的關(guān)于另一元素的信息量的概念。目標(biāo)函數(shù)被限定并且測量原始文檔中留下——即未被當(dāng)前概括捕獲——的剩余獎勵。對該目標(biāo)函數(shù)進(jìn)行數(shù)學(xué)操作以將該目標(biāo)函數(shù)最小化。
本發(fā)明內(nèi)容以簡化形式介紹了概念選擇,下面在具體實(shí)施方式中對它們進(jìn)行進(jìn)一步描述。因此,本發(fā)明內(nèi)容不旨在標(biāo)識所要求保護(hù)的主題的基本特征,也不旨在用于幫助確定所要求保護(hù)的主題的范圍。
附圖說明
參照附圖描述了具體實(shí)施方式。在圖中,附圖標(biāo)記的最左邊的位標(biāo)識附圖標(biāo)記首先出現(xiàn)的圖。相同附圖標(biāo)記在描述和圖中的不同實(shí)例中的使用可以指示相似或者相同的項(xiàng)。圖中表示的實(shí)體可以指示一個或者多個實(shí)體,并且因此可以互換地參照所討論的實(shí)體的單數(shù)或者復(fù)數(shù)形式。
圖1是可操作為采用本文中描述的多媒體文檔概括技術(shù)的示例實(shí)施方式中的環(huán)境的圖示。
圖2描繪了更詳細(xì)地示出了圖1中的多媒體文檔概括模塊的示例實(shí)施方式中的系統(tǒng)。
圖3是描繪其中處理多媒體文檔以提供概括的示例實(shí)施方式中的過程的流程圖。
圖4是描繪其中處理多媒體文檔以提供概括的示例實(shí)施方式中的過程的流程圖。
圖5是描繪其中處理多媒體文檔以提供概括的示例實(shí)施方式中的過程的流程圖。
圖6圖示了其中節(jié)點(diǎn)表示文本元素和圖像元素的基于圖的示例方法。
圖7圖示了包括示例設(shè)備的各種部件的示例系統(tǒng),該示例設(shè)備可以被實(shí)施為如參照圖1至圖6描述和/或利用以實(shí)施本文中描述的技術(shù)的任何類型的計算設(shè)備。
具體實(shí)施方式
綜述
描述了多媒體文檔概括技術(shù)。即,給定包括不同內(nèi)容類型(例如,文本和一組圖像)的文檔,各種實(shí)施方式通過提取文檔中的相關(guān)文本區(qū)段和圖像的相關(guān)區(qū)段來生成概括,其中約束了概括中的文本的量和圖像的數(shù)目/尺寸。
在一個或者多個實(shí)施方式中,利用模型產(chǎn)生考慮了諸如文本和圖像之類的不同內(nèi)容類型的文檔概括。對于文本和圖像上下文,該模型產(chǎn)生在概括的圖像區(qū)段和文本區(qū)段之間具有高結(jié)合度的多模式概括,而同時將概括中的信息量最大化(就文檔內(nèi)容的覆蓋范圍和由概括提供的信息的多樣性兩者而言)。
在本文檔的上下文中,“結(jié)合度”指代在概括中出現(xiàn)的不同內(nèi)容類型之間的相關(guān)性,例如在概括中出現(xiàn)的文本和圖像之間的相關(guān)性?!案采w范圍”指代在概括中出現(xiàn)的不同內(nèi)容類型將文章中的相應(yīng)的對應(yīng)內(nèi)容類型覆蓋得多好。“多樣性”指代對于每個內(nèi)容類型而言基于文章中的對應(yīng)內(nèi)容類型在概括中出現(xiàn)的多樣性信息的量。下文描述的每個方法都利用了所謂的目標(biāo)函數(shù),目標(biāo)函數(shù)包括考慮了與文章的不同內(nèi)容類型有關(guān)的結(jié)合度、覆蓋范圍、以及多樣性的項(xiàng)。對目標(biāo)函數(shù)進(jìn)行數(shù)學(xué)操作以產(chǎn)生具有對結(jié)合度、覆蓋范圍、以及多樣性的期望測量的概括。
在第一方法中,給定文檔被分割成元素。元素的一個類涉及諸如文本單元(諸如句子、句子片段、段落、或者任何其它合適的文本單元)之類的第一內(nèi)容類型。元素的另一類涉及諸如圖像單元(全圖像或者圖像區(qū)段)之類的第二不同內(nèi)容類型。增益值和成本被分配給每個元素——文本元素和圖像元素兩者。針對圖像元素和文本元素兩者的增益可以表示為跨文本和圖像類型可比較的實(shí)數(shù)。針對兩個類型的元素的成本可以或者不可以比較或者互換。確立與元素關(guān)聯(lián)的預(yù)算約束。預(yù)算約束可以從用戶確立并且可以包括諸如圖像的尺寸/數(shù)目、以及句子、單詞、或者字符的數(shù)目之類的東西。增益值是就文檔的信息內(nèi)容而言元素所具有的覆蓋范圍和就當(dāng)前概括而言元素所具有的信息多樣性的函數(shù)。由“當(dāng)前概括”意指因?yàn)樗枋龅慕馐堑猓韵乱坏蕾囉谠摻獾摹爱?dāng)前”狀態(tài)。
制定考慮到信息內(nèi)容的覆蓋范圍、信息內(nèi)容的多樣性、以及概括的圖像部分和文本部分之間的結(jié)合度的目標(biāo)函數(shù)。對目標(biāo)函數(shù)進(jìn)行數(shù)學(xué)操作,以就預(yù)算而言迭代地將目標(biāo)函數(shù)最大化。在一個實(shí)施方式中,這通過選擇元素包括在概括中來實(shí)現(xiàn),這提供目標(biāo)函數(shù)的增加相對于其成本的最大比率。元素的增益可以在每個迭代之后改變。通常,如果同一類(即文本類或者圖像類)的元素被選擇為被包括在概括中并且如果兩個元素相關(guān),則元素的增益將減少。這有助于保證具有相似信息內(nèi)容的來自同一類的元素更不可能在解中,從而增加解的多樣性。如果元素是從另一類選擇的,并且兩個元素相關(guān),則元素的增益將增加。這有助于保證具有相似信息內(nèi)容的來自不同類的元素更可能在解中,從而增加解的相關(guān)性。解是在預(yù)算約束內(nèi)具有針對目標(biāo)函數(shù)的近似最大值的概括。
在第二方法中,利用了基于圖的方法。特別地,創(chuàng)建了如下圖,其節(jié)點(diǎn)表示不同內(nèi)容類型,例如文本元素或者圖像元素。每個元素具有基于該元素的固有值的對應(yīng)獎勵,而不考慮對應(yīng)文檔中的其它元素。在一個方法中,文本元素的獎勵使用如在下文更詳細(xì)描述的詞性(POS)標(biāo)簽確定。每個元素具有關(guān)聯(lián)的成本。例如,文本元素的成本可以在字符、單詞、或者句子的數(shù)目方面給出。每個圖像區(qū)段的成本可以基于其尺寸或者作為單位成本分配。圖中的邊緣權(quán)重表示由一個元素捕獲的關(guān)于另一元素的信息量的概念(notion)。目標(biāo)函數(shù)被定義并且測量原始文檔中留下——即未被當(dāng)前概括捕獲——的剩余獎勵。對該目標(biāo)函數(shù)進(jìn)行數(shù)學(xué)操作以將該目標(biāo)函數(shù)最小化,從而提供得到的概括。
在下文的討論中,文本和圖像形式的特定內(nèi)容類型被用作討論不同方法的基礎(chǔ)。然而,要領(lǐng)會和理解的是,可以利用除了文本和圖像之外的不同內(nèi)容類型,而不脫離所要求保護(hù)的主題的精神和范圍。例如,一組內(nèi)容類型可以涉及視頻和文本。
上文和下文描述的各種方法考慮了用于概括的文檔中的文本和圖像兩者,并且因此構(gòu)成對僅考慮文本的之前的方法的改善。因此,所創(chuàng)建的概括不僅呈現(xiàn)信息的覆蓋范圍和信息內(nèi)容的多樣性,而且并入了組成概括的圖像和文本之間的結(jié)合度。通過查看恰當(dāng)?shù)囊曈X圖像區(qū)段和對應(yīng)的相關(guān)文本,使用所描述的技術(shù)生成的概括促進(jìn)了對關(guān)聯(lián)文檔的更好理解。這些技術(shù)足夠穩(wěn)健以單獨(dú)執(zhí)行對兩個分立媒體(即文本和圖像)的概括。特別地,這些技術(shù)可以被應(yīng)用在僅有圖像或者僅有文本的概括的上下文中,并且因此,可以創(chuàng)建文本文檔和圖像冊的概括。
在所描述的方法中,可以通過對文本部分中的句子的數(shù)目、單詞的數(shù)目、字符的數(shù)目等進(jìn)行約束,連同對圖像部分中的圖像的數(shù)目、圖像的尺寸等進(jìn)行約束,來限制概括的大小。這稱為預(yù)算。因此,用戶可以限定這一概括將是多大。
優(yōu)化問題以如下方式限定,即如果原始文檔包含圖像和句子,則將總是產(chǎn)生至少圖像區(qū)段和至少句子/單詞/字符(依賴于預(yù)算)。屬于文檔的不相關(guān)圖像可以在多模式概括中被避免,從而保證關(guān)于文檔,讀者未被文檔的概括誤導(dǎo)。還可以修改與句子和圖像關(guān)聯(lián)的獎勵,以將概括向著一組主題偏置。例如,可以檢測用戶的情趣,并且用戶的情趣可以被用于偏置獎勵并且針對讀者生成個性化的概括。
在以下討論中,首先描述了可以采用本文中描述的技術(shù)的示例數(shù)字媒體環(huán)境。接著描述了可以在示例環(huán)境以及其它環(huán)境中執(zhí)行的示例過程。因此,示例過程的執(zhí)行不限于示例環(huán)境,并且示例環(huán)境不限于示例過程的執(zhí)行。
示例數(shù)字媒體環(huán)境
圖1是對示例實(shí)施方式中的示例數(shù)字媒體環(huán)境100的圖示,該示例數(shù)字媒體環(huán)境100可操作為采用可用于執(zhí)行本文中描述的多媒體文檔概括的技術(shù)。如本文中所使用那樣,術(shù)語“數(shù)字媒體環(huán)境”指代可以用于實(shí)施本文中描述的技術(shù)的各種計算設(shè)備和資源。所圖示的數(shù)字媒體環(huán)境100包括可以以各種方式配置的計算設(shè)備102。
例如,計算設(shè)備102可以被配置為臺式計算機(jī)、膝上型計算機(jī)、移動設(shè)備(例如假設(shè)為諸如所圖示的平板電腦或者移動電話之類的手持式配置)等。因此,計算設(shè)備102的范圍可以從具有大量存儲器和處理器資源的全資源設(shè)備(例如個人計算機(jī)、游戲控制臺)到具有有限的存儲器和/或處理資源的低資源設(shè)備(例如移動設(shè)備)。此外,示出了單個計算設(shè)備102,但是計算設(shè)備102可以表示多個不同設(shè)備,諸如商用的用于如聯(lián)系圖7進(jìn)一步描述那樣“在云上”執(zhí)行操作的多個服務(wù)器。
計算設(shè)備102包括各種硬件部件,各種硬件部件的示例包括處理系統(tǒng)104、圖示為存儲器106的計算機(jī)可讀存儲介質(zhì)、以及顯示設(shè)備108。處理系統(tǒng)104表示通過對存儲在存儲器106中的指令的執(zhí)行以執(zhí)行操作的功能。雖然分開圖示,但是這些部件的功能可以被進(jìn)一步分割、組合(例如,在專用集成電路上)等。
計算設(shè)備102被進(jìn)一步圖示為包括多媒體文檔概括模塊110,多媒體文檔概括模塊110在這一示例中被體現(xiàn)為存儲在存儲器106中并且可由處理系統(tǒng)104執(zhí)行的計算機(jī)可讀指令。多媒體文檔概括模塊110表示如下功能,該功能可以處理包括諸如文本和一組圖像之類的不同內(nèi)容類型的多媒體文檔112,以及通過提取文檔中的相關(guān)文本區(qū)段和圖像的相關(guān)區(qū)段來生成概括114(具有對概括114中的文本量和圖像的數(shù)目/尺寸的約束)。如將在下文變得明顯的,多媒體文檔概括模塊110使得文本和圖像內(nèi)容兩者能夠被并入在捕獲相關(guān)信息的概括中,并且提供包含在概括中的信息的多樣性和相關(guān)性兩者。多媒體文檔概括模塊110可以使用允許并入針對文檔的文本部分和圖像部分兩者的信息覆蓋范圍和多樣性、以及利用文檔的文本部分和圖像部分之間的結(jié)合度的任何合適的方法實(shí)施。
雖然多媒體文檔概括模塊110被圖示為被本地包括在計算設(shè)備102處,但是如聯(lián)系圖7進(jìn)一步描述那樣,這一功能可以被分割和/或以分布方式實(shí)施或者單獨(dú)在云116上實(shí)施。
圖2更詳細(xì)地圖示了多媒體文檔概括模塊110。在這一示例中,多媒體文檔概括模塊110包括用戶接口模塊200和目標(biāo)函數(shù)模塊202。
用戶接口模塊200使得用戶能夠與多媒體文檔概括模塊110交互。特別地,用戶接口模塊200允許用戶選擇一個或者多個文檔用于處理和指定當(dāng)處理文檔時要被用作預(yù)算的概括參數(shù)(諸如一組參數(shù))。用戶可以指定諸如特定概括將具有的句子、單詞、或者字符的數(shù)目之類的參數(shù)。此外,用戶可以指定將被包含在概括中的圖像的數(shù)目和尺寸。
目標(biāo)函數(shù)模塊202表示處理多媒體文檔112以提供概括114的功能。在至少一些實(shí)施方式中,目標(biāo)函數(shù)模塊202被配置為通過采用目標(biāo)函數(shù)來執(zhí)行對多媒體文檔的優(yōu)化處理,該目標(biāo)函數(shù)被設(shè)計為考慮包含在概括中的文本和圖像的覆蓋范圍、包含在概括中的信息的多樣性、以及特定概括中的文本和圖像之間的結(jié)合度或相關(guān)性。因此,目標(biāo)函數(shù)模塊202使用包括覆蓋范圍分量204、多樣性分量206、以及結(jié)合度分量208的目標(biāo)函數(shù)。
覆蓋范圍分量204提供對包含在特定概括中的文本和圖像的覆蓋范圍的測量。多樣性分量206提供對包含在特定概括中的信息的多樣性的測量。結(jié)合度分量208提供對包含在概括中的文本和圖像之間的結(jié)合度或相關(guān)性的測量。下文描述了可以如何應(yīng)用覆蓋范圍、多樣性、以及結(jié)合度的概念的示例。
圖3描繪了根據(jù)一個實(shí)施方式的用于概括多媒體文檔的過程300。該過程的方面可以在硬件、固件、或者軟件、或者其組合中實(shí)施。在至少一些實(shí)施方式中,該過程通過諸如關(guān)于圖1和圖2描述的適當(dāng)配置的多媒體文檔概括模塊來實(shí)施。該過程被示出為一組塊,一組塊指定由一個或者多個設(shè)備執(zhí)行的操作并且不必限于所示的由相應(yīng)塊執(zhí)行操作的順序。
接收多媒體文檔用于處理以生成概括(塊302)。這可以以任何合適的方式執(zhí)行,諸如通過使用適當(dāng)配置的用戶接口以使得用戶能夠選擇多媒體文檔用于處理。接收與用于處理多媒體文檔的預(yù)算關(guān)聯(lián)的一組參數(shù)(塊304)。這可以以任何合適的方式執(zhí)行,在上文和下文提供了其示例。該組參數(shù)對概括的大小進(jìn)行約束并且限定概括可以包含第一內(nèi)容類型和第二內(nèi)容類型中的多少內(nèi)容類型。例如,該組參數(shù)可以指定概括將包含3個句子和1幅圖像。過程接著確立用于處理多媒體文檔的任何預(yù)算是否可用(塊306)。例如,可以確定是否滿足對概括的大小的約束。如果沒有預(yù)算可用,則最終概括被視為完成(塊308)。另一方面,如果用于處理多媒體文檔的預(yù)算可用,則執(zhí)行目標(biāo)函數(shù)(其提供對概括的質(zhì)量的測量)以生成概括。這可以包括以將目標(biāo)函數(shù)在期望的結(jié)果方向上移動的方式將元素(例如文本和圖像)添加到概括??梢匀绾螆?zhí)行這一點(diǎn)的示例在下文提供。過程接著返回到塊306以嘗試迭代地改善概括(只要預(yù)算剩余)。
在下文的討論中,描述了兩個示例方法。每個方法使用了不同的目標(biāo)函數(shù)。示例方法旨在用作示例并且因此不旨在進(jìn)行限制。因此,可以利用其它目標(biāo)函數(shù)而不脫離所要求保護(hù)的主題的精神和范圍。
已經(jīng)考慮了其中可以實(shí)踐各種實(shí)施方式的示例系統(tǒng),現(xiàn)在考慮用于概括多媒體文檔的第一方法。
第一方法
在下面的討論中,提供了對第一方法的簡要概括,并且更具體地,提供了對被最大化以便提供質(zhì)量概括的目標(biāo)函數(shù)的簡要概括。該簡要概括陳述了目標(biāo)函數(shù)并且提供了對其項(xiàng)的各種定義。其后,針對關(guān)于可以如何采用目標(biāo)函數(shù)的附加上下文,提供了對目標(biāo)函數(shù)的更詳細(xì)解釋。
第一方法——簡要概括
第一方法利用考慮了三個因素的目標(biāo)函數(shù):覆蓋范圍、多樣性、以及相關(guān)性。在這一示例中,測量概括的質(zhì)量的以下目標(biāo)函數(shù)被最大化:
F(S,I)=f(CT(S),RT(S),CV(I),RV(I),COH(S,I))
其中
T是要概括的文檔的文本內(nèi)容
V是要概括的文檔的圖像內(nèi)容
S是“當(dāng)前”概括的文本部分
I是“當(dāng)前”概括的圖像部分
F(S,I)是其值依賴于與文本和圖像部分對應(yīng)的當(dāng)前概括的目標(biāo)函數(shù)
f(.)是其所有變量的單調(diào)非減函數(shù)
CT(S)通過S來測量文檔的文本部分的覆蓋范圍。覆蓋文檔的更多文本信息的概括將獲得更高的得分。
CV(I)是針對圖像部分的相似的函數(shù)。其通過I來測量文檔的圖像部分的覆蓋范圍。覆蓋文檔的更多圖像的概括將獲得更高的得分。
RT(S)是測量包含在S中的多樣性信息的量的多樣性獎勵。提供更多的多樣性信息的概括將得到更高的得分。
RV(I)是針對圖像部分的相似的函數(shù)。其是測量包含在I中的多樣性信息的量的多樣性獎勵。
COH(S,I)是對S和I的元素之間的結(jié)合度(相關(guān)性)的測量。更加緊密結(jié)合的概括將得到更高的得分。
要注意的是,函數(shù)的單調(diào)性保證了當(dāng)其任何變量的值增加時,函數(shù)值不減少。這意味著當(dāng)五個變量中的任何變量增加時,目標(biāo)函數(shù)的值增加并且因此概括的質(zhì)量增加。
對于預(yù)算約束而言,在這一特定示例中使用了以下預(yù)算約束:
針對文本部分
針對圖像部分
其中
·di和dk分別是針對文本元素和圖像元素的決策變量。如果在概括中選擇了對應(yīng)的句子/圖像區(qū)段,則其取值1,否則取值0。
·Ci和Ck分別是添加對應(yīng)句子的成本和添加對應(yīng)圖像的成本。文本區(qū)段的成本可以被限定為句子的數(shù)目、或者單詞的數(shù)目、或者字符的數(shù)目。圖像區(qū)段的成本被設(shè)置為每區(qū)段為1。雖然圖像的區(qū)段可以具有變化的尺寸,但是它們通常被設(shè)定尺寸以適配期望的圖像尺寸。然而,可以針對圖像區(qū)段限定更全面的成本函數(shù)。
·Bs和BI分別是與文本部分和圖像部分對應(yīng)的預(yù)算。注意,可以針對概括的圖像部分和文本部分分開固定預(yù)算。
為了在以上約束下解決這一優(yōu)化問題,所謂的迭代貪婪(greedy)方法被用于將這一目標(biāo)函數(shù)最大化。
現(xiàn)在考慮對第一方法的更詳細(xì)討論,其提供對目標(biāo)函數(shù)的進(jìn)一步潤色和目標(biāo)函數(shù)在概括多媒體文檔中的使用。
第一方法——詳細(xì)討論
在以下討論中,以下符號將貫穿使用:
ri:將元素i包含在概括中的獎勵
Inf(i;j):由元素i捕獲的元素j的信息量
Infi(X):由元素i捕獲的集合X的信息量。例如,這可以被限定為
S:包含概括的文本部分的所有元素的集合
I:包含概括的圖像部分的所有元素的集合
這一方法在概括中并入了圖像以及文本和圖像區(qū)段的結(jié)合度。在這一方法中,如上文所述,測量概括的質(zhì)量的目標(biāo)函數(shù)F(S,I)被最大化。目標(biāo)函數(shù)如下:
F(S,I)=f(CT(S),RT(S),CV(I),RV(I),COH(S,I))
其中
f(.)如上文所述是其所有變量而言的單調(diào)非減函數(shù)。作為示例,f(.)可以是具有正系數(shù)的線性組合函數(shù),使得
F(S,I)=CT(S)+αRT(S)+βCV(I)+γRV(I),+δCOH(S,I)
其中α,β,γ,δ是正的常數(shù)。
CT(S)通過S測量文檔的文本部分的覆蓋范圍或者保真度。覆蓋文檔的更多文本部分的概括將獲得更高的得分。這一覆蓋范圍函數(shù)的示例可以為
其中T是文檔的整個文本部分。對于文檔中的每個文本元素i,這一函數(shù)捕獲該元素關(guān)于S的信息內(nèi)容,上限為依賴于文檔的常數(shù)。這一上限是為了保證覆蓋范圍不因?yàn)樵诟爬ㄖ写嬖诤芏嘞嗨频木渥佣蠞q。這是子模函數(shù),即其滿足報酬遞減性質(zhì)。其獲得的直覺是,增加S中的區(qū)段的數(shù)目增加原始文檔的覆蓋范圍。覆蓋范圍的其它定義也可以在這里使用而不脫離所要求保護(hù)的主題的精神和范圍。
CV(I)是針對圖像部分的相似函數(shù),并且通過I測量文檔的圖像部分的覆蓋范圍或者保真度。覆蓋文檔的圖像部分中的更多部分的概括將獲得更高的得分。作為示例,我們可以將以上定義延伸,使得
其中V是文檔的整個圖像部分。在這一情形下,覆蓋范圍函數(shù)對于文本和圖像部分而言是相似的。然而,可以針對兩者選擇不同的函數(shù)。在過去,未就此考慮過圖像部分。
RT(S)是測量包含在S中的多樣性信息的量的多樣性獎勵。提供更多信息的概括將獲得更高的得分。普通方法懲罰概括中的信息的重復(fù)。然而,在所圖示和描述的實(shí)施方式中,獎勵所提供的信息內(nèi)容的多樣性。作為示例,文檔的文本部分可以被劃分成集群:
其中Pi是使基集合(即,整個文檔的文本部分)成為不相交集群的劃分。集群可以基于項(xiàng)頻率-反向文檔頻率(tf-idf)距離或者文本區(qū)段之間的任何其它距離量度來獲得。平方根函數(shù)保證更加有益于從其任何元素都未被選擇的集群來選擇元素。這改善了最終的概括的文本部分中的信息的多樣性。
RV(I)是針對圖像部分的相似函數(shù)。引入這一項(xiàng)以便并入針對I的多樣性獎勵。以前的方法未將這種項(xiàng)包括在概括模型中。作為示例,可以將與上文相同的定義延伸到集合I以得到
其中Pi是使基集合(即,整個文檔的圖像部分)成為不相交集群的劃分。集群可以基于圖像區(qū)段之間的距離獲得。作為示例,針對每個區(qū)段獲得4096維的神經(jīng)編碼,并且獲得了作為針對集群的距離量度的矢量之間的余弦距離。這改善了最終的概括的圖像部分中的信息的多樣性。
COH(S,I)是對S和I的元素之間的結(jié)合度的測量。以前的方法不考慮以這一方式進(jìn)行的結(jié)合度測量。將這一項(xiàng)包括在內(nèi)以便并入結(jié)合度,使得更緊密結(jié)合的概括將獲得更高的得分。作為示例,我們限定
這一定義考慮了由概括中的文本區(qū)段和圖像區(qū)段提供的信息內(nèi)容的相似性。在由文本和圖像提供的信息之間具有更高重疊的概括將獲得更高的結(jié)合度值。
目標(biāo)函數(shù)并入了以下這些因素:文本和圖像兩者對文檔的覆蓋范圍;與概括的文本和圖像關(guān)聯(lián)的多樣性獎勵;以及概括中的S和I的元素之間的結(jié)合度。將這些因素包括在目標(biāo)函數(shù)中使得能夠獲得對文檔的更好概括。
上文描述了所利用的預(yù)算約束。預(yù)算針對概括的圖像部分和文本部分分別固定。這是因?yàn)槠谕诟爬ㄖ芯哂刑囟〝?shù)目的文本區(qū)段和圖像區(qū)段。如果要以考慮中的不同預(yù)算來生成概括,則還可以通過適當(dāng)?shù)匦薷念A(yù)算約束來實(shí)現(xiàn)。
將文本區(qū)段和圖像區(qū)段包括在內(nèi)的成本可以按需要限定。作為示例,文本區(qū)段的成本可以被限定為句子的數(shù)目、或者單詞的數(shù)目、或者字符的數(shù)目。圖像區(qū)段的成本設(shè)置為每區(qū)段為1。
為了實(shí)施這一點(diǎn),利用所謂的迭代貪婪方法將目標(biāo)函數(shù)最大化。已經(jīng)示出“貪婪”算法是一種好的近似解。
圖4描繪了根據(jù)利用上文的目標(biāo)函數(shù)的一個實(shí)施方式的用于概括多媒體文檔的示例實(shí)施方式中的過程400。該過程的方面可以以硬件、固件、或者軟件、或者其組合實(shí)施。在至少一些實(shí)施方式中,過程由諸如關(guān)于圖1和圖2描述的適當(dāng)配置的多媒體文檔概括模塊實(shí)施。該過程被示出為一組塊,該一組塊指定由一個或者多個設(shè)備執(zhí)行的操作并且不必限于所示的由相應(yīng)塊執(zhí)行操作的順序。下文的討論假設(shè)已經(jīng)接收了要經(jīng)歷如描述的處理的多媒體文檔。
確立用于執(zhí)行對多媒體文檔的概括的可用預(yù)算(塊402)。該預(yù)算涉及概括的文本和圖像內(nèi)容并且用作對概括可以包含的文本內(nèi)容和圖像內(nèi)容的量的約束。這可以以任何合適的方式執(zhí)行。例如,可以通過經(jīng)由適當(dāng)配置的用戶接口而從用戶輸入的方式確立可用預(yù)算。該預(yù)算可以允許用戶指定包括文本概括的長度以及圖像的數(shù)目和尺寸在內(nèi)的概括參數(shù)。接著,過程確立在可用預(yù)算內(nèi)的文本內(nèi)容或者圖像內(nèi)容的特定元素是否存在(塊404),使得未滿足對概括可以包含的文本內(nèi)容和圖像內(nèi)容的量的約束。這可以針對概括的文本部分或者圖像部分來執(zhí)行。如果不存在在可用預(yù)算內(nèi)的元素,則最終的概括被認(rèn)為完成(塊406)。另一方面,如果存在在可用預(yù)算內(nèi)的特定元素,則針對多媒體文檔中的每個可用元素計算目標(biāo)函數(shù)的值(塊408)。即,針對可用的并且可以在預(yù)算內(nèi)被添加到概括的每個元素(即元素的成本不多于用于該元素類型的可用預(yù)算)的,計算目標(biāo)函數(shù)的值。
接著在多媒體文檔中選擇元素,該元素的計算值將目標(biāo)函數(shù)的增加與所選擇的元素的成本的比率最大化(塊410)。所選擇的元素可以是圖像區(qū)段或者文本區(qū)段。所選擇的元素接著被添加到概括(塊412)并且針對每個元素的增益被更新(塊414)。接著通過將所選擇的元素的成本從用于對應(yīng)部分的預(yù)算中減掉,來更新預(yù)算(塊416)。過程接著返回到塊404并且迭代通過該過程,直到預(yù)算被用盡——即直到?jīng)]有留下具有低于或者等于可用預(yù)算的成本的未使用元素。此時,最終的概括可以被認(rèn)為完成。
在考慮第一方法之后,現(xiàn)在考慮使用基于圖的方法來提供多媒體文檔概括的第二方法。
第二方法
在下面的討論中,提供了對第二方法的簡要概括,并且更具體而言,提供了對目標(biāo)函數(shù)(其被最小化以便提供質(zhì)量概括)的簡要概括。此后,針對關(guān)于可以如何采用目標(biāo)函數(shù)的附加上下文,提供了對目標(biāo)函數(shù)的更詳細(xì)解釋。
第二方法——簡要概括
在第二方法中,利用了基于圖的方法。特別地,創(chuàng)建了如下圖,其節(jié)點(diǎn)表示文本元素或者圖像元素。每個元素具有基于該元素的固有值而分配的對應(yīng)獎勵,而不考慮對應(yīng)文檔中的其它元素。在一個方法中,如在下文更詳細(xì)地描述的,使用詞性(POS)標(biāo)簽確定文本元素的獎勵。每個元素還具有關(guān)聯(lián)的成本。例如,文本元素的成本可以在字符、單詞、或者句子的數(shù)目方面給出。每個圖像區(qū)段的成本可以基于其尺寸或者作為單位成本來分配。圖中的邊緣權(quán)重表示由一個元素捕獲的關(guān)于另一元素的信息量的概念。目標(biāo)函數(shù)被限定并且測量原始文檔中留下——即未被當(dāng)前概括捕獲——的剩余獎勵。對目標(biāo)函數(shù)進(jìn)行數(shù)學(xué)操作以將該目標(biāo)函數(shù)最小化。即,以力求將剩余獎勵最小化的方法對目標(biāo)函數(shù)進(jìn)行操作。
在所圖示和描述的實(shí)施方式中,目標(biāo)函數(shù)被限定如下:
其中
m是圖像區(qū)段的數(shù)目
n是文本區(qū)段的數(shù)目
S是“當(dāng)前”概括的文本部分
I是“當(dāng)前”概括的圖像部分
ri表示將第i個文本區(qū)段包括在概括中的獎勵
表示將第k個圖像區(qū)段包括在概括中的獎勵
di是∈{0,1}的決策變量,其告知第i個文本區(qū)段是否被包括在S中
是∈{0,1}的決策變量,其告知第k個圖像區(qū)段是否被包括在I中
是∈{0,1}的決策變量,其告知第p個圖像區(qū)段是否被包括在I中
dq是∈{0,1}的決策變量,其告知第k個文本區(qū)段是否被包括在S中
wij是由第i個文本區(qū)段覆蓋的第j個文本區(qū)段的信息量,即基于相似性的重量(weightage)
是由第k個圖像區(qū)段覆蓋的第j個文本區(qū)段的信息量
是由第p個圖像區(qū)段覆蓋的第l個圖像區(qū)段的信息量
是由第q個文本區(qū)段覆蓋的第l個圖像區(qū)段的信息量
以上方程的第一部分是
方程的這一部分處理剩余獎勵,即與文本部分一起存在的剩余信息。如果選擇了文本區(qū)段,則與該區(qū)段關(guān)聯(lián)的剩余獎勵應(yīng)該為零。這是通過被更新到1的di因子實(shí)現(xiàn)的,并且當(dāng)i=j(luò)時wij將為1。因此,(1-diwij)項(xiàng)將為零并且這一項(xiàng)將沒有貢獻(xiàn)。
當(dāng)選擇了(從信息的意義上說)相似的文本區(qū)段時,(1-diwij)項(xiàng)變小,因?yàn)閣ij高。這保證了與選擇這一文本區(qū)段關(guān)聯(lián)的增益是低的。這使得更多樣性的一組句子能夠出現(xiàn)在概括中。因此,顯示出概括中的多樣性。
當(dāng)選擇了(從信息的意義上說)相似的文本區(qū)段時,項(xiàng)增加相似圖像區(qū)段的權(quán)重。因?yàn)槟繕?biāo)函數(shù)正在被最小化,該項(xiàng)的權(quán)重的增加將實(shí)現(xiàn)挑選與文本區(qū)段高度相關(guān)的圖像區(qū)段,從而顯示出概括中的類(文本和圖像)之間的結(jié)合度。
在圖像區(qū)段的上下文中,相似的細(xì)節(jié)也適用于第二項(xiàng)。
現(xiàn)在,與第i個元素關(guān)聯(lián)的增益被限定為:
預(yù)算約束與在上文的第一方法中使用的相同。
考慮到以上信息,迭代貪婪方法被用于將目標(biāo)函數(shù)G最小化,因?yàn)槠涫菍κS嗒剟畹臏y量。
考慮了第二方法的簡要概括之后,現(xiàn)在來考慮包括說明性示例的詳細(xì)討論。
第二方法——詳細(xì)討論
如上文所述,第二方法是力求將測量留在原始文檔中的剩余獎勵的目標(biāo)函數(shù)最小化的基于圖的方法。回憶一下,目標(biāo)函數(shù)被限定如下:
更詳細(xì)地查看這一方程,方程的第一部分涉及與文檔的文本部分關(guān)聯(lián)的剩余獎勵。方程的第二部分涉及與文檔的圖像部分關(guān)聯(lián)的剩余獎勵。
如果選擇了文本區(qū)段,則與該區(qū)段關(guān)聯(lián)的剩余獎勵應(yīng)該為零。這是通過被更新到1的di因子來實(shí)現(xiàn)的,并且當(dāng)i=j(luò)時wij將為1。因此,(1-diwij)項(xiàng)將為零并且這一項(xiàng)將沒有貢獻(xiàn)。
當(dāng)選擇了(從信息的意義上說)相似的文本區(qū)段時,(1-diwij)項(xiàng)變小,因?yàn)閣ij高。這一因子對文本元素的獎勵具有乘法作用。這保證了與選擇這一文本區(qū)段關(guān)聯(lián)的增益是低的。這使得更多樣性的一組句子能夠出現(xiàn)在概括中,因此顯示出概括中的多樣性。
當(dāng)選擇了(從信息的意義上說)相似的圖像區(qū)段時,項(xiàng)大于1。這一乘法因子增加相似的文本區(qū)段的獎勵。因?yàn)槟繕?biāo)函數(shù)正在被最小化,該項(xiàng)的增加將實(shí)現(xiàn)選擇與圖像區(qū)段相關(guān)的該文本區(qū)段。這帶來了概括中的結(jié)合度。在圖像區(qū)段的上下文中,相似的細(xì)節(jié)適用于第二項(xiàng)。
為了實(shí)現(xiàn)這一點(diǎn),如上文所述,迭代貪婪方法被用于將目標(biāo)函數(shù)最小化。因此,如上文所述,我們首先將與第i個元素關(guān)聯(lián)的增益限定為:
圖5描繪了用于根據(jù)第二方法概括多媒體文檔的示例實(shí)施方式中的過程500。該過程的方面可以以硬件、固件、或者軟件、或者其組合來實(shí)施。在至少一些實(shí)施方式中,該過程由諸如關(guān)于圖1和圖2描述的適當(dāng)配置的多媒體文檔概括模塊來實(shí)施。該過程被示出為一組塊,該一組塊指定由一個或者多個設(shè)備執(zhí)行的操作并且不必限于所示的由相應(yīng)塊執(zhí)行操作的順序。下文的討論假設(shè),要經(jīng)歷如所描述那樣的處理的多媒體文檔已經(jīng)被接收。
確立用于執(zhí)行對多媒體文檔的概括的可用預(yù)算(塊502)。這可以以任何合適的方式執(zhí)行。例如,可以通過經(jīng)由適當(dāng)配置的用戶接口從用戶輸入的方式來確立可用預(yù)算。該預(yù)算可以允許用戶指定包括文本概括的長度以及圖像的數(shù)目和尺寸在內(nèi)的概括參數(shù)。接著,該過程確立是否存在在可用預(yù)算內(nèi)的元素(塊504)。這可以針對概括的文本部分或者圖像部分來執(zhí)行。如果不存在在可用預(yù)算內(nèi)的元素,則最終的概括被認(rèn)為完成(塊506)。另一方面,如果存在在可用預(yù)算內(nèi)的元素,則針對可以添加的每個可用元素,計算元素的增益與元素的成本的比率(塊508)。
接著,選擇提供塊508的增益和成本的最大比率的元素(圖像區(qū)段或者文本區(qū)段)(塊510)。所選擇的元素接著被添加到概括(塊512)并且用于對應(yīng)的分類的剩余預(yù)算被更新(塊514)。
不在概括中的相同類型的所有區(qū)段的獎勵被更新,不在概括中的其它類型的所有區(qū)段的獎勵也被更新(塊516)。例如,在一個實(shí)施方式中,不在概括中的相同類型的所有元素的獎勵按如下方式更新:
Rj=(1-wkj)Rj
相似地,不在概括中的其它類型的所有區(qū)段的獎勵按如下方式更新:
Rj=(1+wkj)Rj
該過程接著通過循環(huán)回到塊504進(jìn)行迭代,直到預(yù)算被用盡并且最終的概括完成。
這一過程被設(shè)計為將項(xiàng)(原始獎勵–剩余獎勵)最大化,其中原始獎勵是所有區(qū)段的獎勵的總和,并且剩余獎勵按上文限定并且力求最小化。這一基于圖的方法試圖保證不同類型(文本和圖像)的區(qū)段之間的最大交叉結(jié)合度,同時也從整體上保證內(nèi)容的多樣性和信息的覆蓋范圍?,F(xiàn)在考慮描述這一方法的各種實(shí)施方式方面的討論,包括如何獲得針對在這一方法中使用的各個項(xiàng)的值。
實(shí)施方式細(xì)節(jié)
首先考慮涉及將第i個文本區(qū)段包括在概括中的獎勵的ri項(xiàng)。為了獎勵文本區(qū)段,使用了句子的詞性(POS)標(biāo)簽。包含言語的重要部分(諸如名詞、動詞、形容詞、以及副詞)的文本區(qū)段被給予單位值1,而忽略介詞和連詞。其它方法可以向不同的POS元素給予不同的值,包括負(fù)值。還可以使用獎勵文本區(qū)段的其它方法,諸如基于tf-idf的那些方法。
考慮涉及將第j個圖像區(qū)段包括在概括中的獎勵的項(xiàng)。為了獎勵圖像元素,就區(qū)段多么不同做出確定。在一個方法中,這可以通過將4096維的神經(jīng)編碼分集群來實(shí)現(xiàn),如在Girshick,Ross等人的“Rich feature hierarchies for accurate object detection and semantic segmentation.”Computer Vision and Pattern Recognition(CVPR),2014IEEE Conference on.IEEE,2014中描述的那樣。當(dāng)然可以使用其它方法。
考慮涉及由第i個文本區(qū)段覆蓋的第j個文本區(qū)段的信息量的wij項(xiàng)。在所圖示和所描述的實(shí)施方式中,使用連續(xù)矢量表示來獲得對句子的語義感知表示,作為用于測量所捕獲的信息量的基礎(chǔ)。所生成的矢量表示使用遞歸自動編碼器(RAE)的概念,如在Socher,Richard等人的“Dynamic pooling and unfolding recursive autoencoders for paraphrase detection.”Advances in Neural Information Processing Systems.2011中描述的那樣。無監(jiān)管RAE基于非折疊目的并且學(xué)習(xí)語法樹中的短語的特征矢量。用于句子的非折疊遞歸自動編碼器具有解析樹(其中樹被反向)的形狀。非折疊自動編碼器實(shí)質(zhì)上嘗試編碼每個隱藏層,使得其最好地重建其整個子樹直到葉節(jié)點(diǎn)。
解析樹的根的矢量表示接著被取為使用訓(xùn)練矩陣生成的句子的表示矢量。這些矢量接著可以被用于計算兩個句子之間的余弦相似性,以便理解兩個句子在語義上多么相關(guān)。
這一相似性被用作由另一句子捕獲的一個句子的信息的測量。這一測量是對稱測量。還可能使用其它測量,諸如使用如技術(shù)人員將領(lǐng)會的單詞包模型。還可能使用導(dǎo)向信息測量。
考慮涉及由第q個文本區(qū)段覆蓋的第l個圖像區(qū)段的信息量的項(xiàng)。為了獲得這一測量,從句子和圖像提取了矢量??梢岳萌魏魏线m的處理以用于提取矢量,其示例在Karpathy,Andrej,Armand Joulin和Fei Fei F.Li的“Deep fragment embeddings for bidirectional image sentence mapping.”Advances in neural information processing systems.2014中進(jìn)行了描述。該處理包括首先將可能是對象的圖像的部分分割成區(qū)段,并且接著運(yùn)行RCNN以提取對應(yīng)于這些區(qū)段中的每個區(qū)段的4096維的矢量。該網(wǎng)絡(luò)與在Girshick,Ross等人的“Rich feature hierarchies for accurate object detection and semantic segmentation.”Computer Vision and Pattern Recognition(CVPR),2014IEEE Conference on.IEEE,2014中使用網(wǎng)絡(luò)的相同。在操作中,使用由這一處理計算的區(qū)段,并且取任何兩個區(qū)段之間的交集,使得圖像的更多相關(guān)區(qū)段也作為候選出現(xiàn)?;诿總€區(qū)段作為對象的可能性,選擇這些區(qū)段中的前20個。對象被限制為每類十個對象,以避免對任何類的過度表示(例如,圖像的挑選出的前20個區(qū)段中,13個可以屬于“背景”類。然而,我們不想讓圖像區(qū)段中只有背景。因此,選擇了每類十個對象的上限)。這一步驟之后,執(zhí)行非最大抑制,使得輸入到概括中的區(qū)段不是冗余的,而是多樣性的。我們接著將“整幅圖像”添加到該組區(qū)段中。
在所圖示和所描述的實(shí)施方式中,句子矢量通過以下方式來構(gòu)建:獲得來自句子的類型依賴度,并且使用對應(yīng)于句子的這些依賴度中的每個依賴度的矢量來生成針對該句子的矢量。我們接著進(jìn)行以下兩者:用RCNN矢量(用于圖像區(qū)段)乘以一個矩陣、以及還用句子矢量乘以一個矩陣,以將它們投影到共同的矢量空間中。這些矩陣已經(jīng)在圖像數(shù)據(jù)集上被訓(xùn)練,使得對圖像的描述可能接近共同空間中的圖像,如在Karpathy,Andrej,Armand Joulin和Fei Fei F.Li的“Deep fragment embeddings for bidirectional image sentence mapping.”Advances in neural information processing systems.2014中描述的那樣。接著計算這些矢量之間的余弦相似性。我們將這一測量定義為由文本區(qū)段捕獲的圖像區(qū)段的信息量,并且還用于由圖像區(qū)段捕獲的文本區(qū)段的信息,即我們的測量是對稱的。然而,情況不需要是這樣的。即,還可以使用測量的其它定義,而不脫離所要求保護(hù)的主題的精神和范圍。
考慮涉及由第p個圖像區(qū)段覆蓋的第l個圖像區(qū)段的信息量的項(xiàng)。這里,我們?nèi)∮迷谥安襟E中針對圖像提取的共同空間矢量,并且我們計算這些矢量之間的余弦相似性。使用共同空間投影而非直接使用RCNN矢量的原因是,4096維的矢量可以具有對應(yīng)于圖像的顏色、亮度、以及相關(guān)特征的額外特征;然而,我們僅關(guān)注圖像中存在的語義和概念。這一測量也是對稱的。還可以使用對該度量的其它定義,而不脫離所要求保護(hù)的主題的精神和范圍。
在考慮了第二方法的詳細(xì)討論之后,現(xiàn)在考慮說明第二方法的應(yīng)用的示例。
第二方法示例
為了理解這一方法,考慮一個基礎(chǔ)示例,其中從包含3個句子和1個圖像區(qū)段的文檔構(gòu)建出2個句子和1個圖像區(qū)段的概括。在這一示例中,句子的成本被認(rèn)為是單位1,并且圖像區(qū)段的成本被認(rèn)為是單位1。
考慮圖示了具有作為節(jié)點(diǎn)的3個文本區(qū)段和1個圖像區(qū)段的初始圖的圖6,并且認(rèn)為由這些區(qū)段捕獲的信息是對稱的。文本區(qū)段由節(jié)點(diǎn)400、402、以及404表示,并且圖像區(qū)段由節(jié)點(diǎn)406表示。相同元素的相似性與邊緣408、410、以及412關(guān)聯(lián),并且不同類型的區(qū)段之間的相似性與邊緣414、416、以及418關(guān)聯(lián)。自身權(quán)重取為1。現(xiàn)在考慮與區(qū)段關(guān)聯(lián)的獎勵為:
句子1:50
句子2:35
句子3:75
圖像區(qū)段1:70
此外,假設(shè)可用預(yù)算為2個句子和1個圖像區(qū)段。在第一迭代中,概括中什么都不存在。因此,預(yù)算可用。與所有區(qū)段關(guān)聯(lián)的增益被限定如下:
并且當(dāng)針對上面的句子和圖像區(qū)段計算時,產(chǎn)生以下值:
句子1:=1.0*50+0.9*35+0.5*75+0.7*70=168.0
句子2:=0.9*50+1.0*35+0.2*75+0.8*70=151.0
句子3:=0.5*50+0.2*35+1.0*75+0.1*70=114.0
圖像區(qū)段1:=0.7*50+0.8*35+0.1*75+1.0*70=140.5
這些值與相同,因?yàn)殛P(guān)聯(lián)的成本為1。這里,句子1將增益最大化,因此句子1被包括在概括中,并且所有句子的獎勵被更新為
Rj=(1-wkj)Rj
以便產(chǎn)生以下值:
句子1:=(1-1)*50=0
句子2:=(1-0.9)*35=3.5
句子3:=(1-0.5)*75=37.5
由此,觀察到句子2(在信息的上下文中,其與句子1非常相似)現(xiàn)在呈現(xiàn)較低的獎勵。這是為了在概括中提供內(nèi)容的多樣性。圖像區(qū)段的獎勵被更新為
Rj=(1+wkj)Rj
以便產(chǎn)生以下值:
圖像區(qū)段1:=(1+0.7)*70=119
由此,觀察到圖像區(qū)段1(在信息的上下文中,其與句子1非常相似)現(xiàn)在呈現(xiàn)更高的獎勵。這是為了提供概括的文本部分和圖像部分之間的結(jié)合度。
繼續(xù)進(jìn)行,注意,存在1個句子和1幅圖像的可用預(yù)算。如上文描述那樣,該處理從而繼續(xù)以找到下一元素。特別地,針對剩余句子和圖像區(qū)段的增益被計算如下:
句子2:=0.9*0+1.0*3.5+0.2*37.5+0.8*119=106.2
句子3:=0.5*0+0.2*3.5+1.0*37.5+0.1*119=50.1
圖像區(qū)段1:=0.7*0+0.8*3.5+0.1*37.5+1.0*119=125.55
注意,圖像區(qū)段將增益最大化。因此,圖像區(qū)段被包括在概括中,并且所有句子的獎勵被更新為
Rj=(1+wkj)Rj
這是因?yàn)榘藞D像,并且句子是文本類型的。計算獎勵產(chǎn)生了以下結(jié)果:
句子1:=(1+0.7)*0=0
句子2:=(1+0.8)*3.5=6.3
句子3:=(1+0.1)*37.5=41.25
我們將圖像區(qū)段的獎勵更新為Rj=(1-wkj)Rj以得到:
圖像區(qū)段1:=(1-1)*119=0
注意,仍然有一個句子的可用預(yù)算。因此,該處理繼續(xù)進(jìn)行以便如之前那樣找到下一元素。
句子2:=0.9*0+1.0*6.3+0.2*41.25+0.8*0=14.55
句子3:=0.5*0+0.2*6.3+1.0*41.25+0.1*0=42.51
這里,句子3將增益最大化,并且因此被包括在概括中。
所有句子的獎勵都被更新為
Rj=(1-wkj)Rj
以便產(chǎn)生:
句子1:=(1-5)*0=0
句子2:=(1-0.2)*6.3=5.04
句子3:=(1-1)*41.25=0
圖像區(qū)段的獎勵被更新為
Rj=(1+wkj)Rj
以便產(chǎn)生:
圖像區(qū)段1:=(1+0.1)*0=0
因?yàn)闆]有更多可用的預(yù)算,概括被輸出為句子1、句子3、以及圖像區(qū)段1。通過在每個步驟處將增益最大化,文檔中留下的剩余獎勵已經(jīng)被最小化。
在考慮了上文的各種實(shí)施方式之后,現(xiàn)在考慮對可以實(shí)施上文描述的實(shí)施方式的示例系統(tǒng)和設(shè)備的討論。
示例系統(tǒng)和設(shè)備
圖7在700處大體上圖示了示例系統(tǒng),該示例系統(tǒng)包括表示可以實(shí)施本文中描述的各種技術(shù)的一個或者多個計算系統(tǒng)和/或設(shè)備的示例計算設(shè)備702。這是通過將多媒體文檔概括模塊110包括在內(nèi)圖示的。例如,計算設(shè)備702可以是服務(wù)提供商的服務(wù)器、與客戶端關(guān)聯(lián)的設(shè)備(例如客戶端設(shè)備)、芯片上系統(tǒng)、和/或任何其它合適的計算設(shè)備或者計算系統(tǒng)。
所圖示的示例計算設(shè)備702包括通信地耦合到彼此的處理系統(tǒng)704、一個或者多個計算機(jī)可讀介質(zhì)706、以及一個或者多個I/O接口708。雖然未示出,但是計算設(shè)備702可以進(jìn)一步包括將各種部件耦合到彼此的系統(tǒng)總線或者其它數(shù)據(jù)和命令傳輸系統(tǒng)。系統(tǒng)總線可以包括不同的總線結(jié)構(gòu)(諸如存儲器總線或者存儲器控制器、外圍總線、通用串行總線、和/或利用了各種總線架構(gòu)中的任何總線架構(gòu)的處理器或者本地總線)中的任何一個或者組合。還設(shè)想各種其它示例,諸如控制和數(shù)據(jù)線路。
處理系統(tǒng)704表示使用硬件執(zhí)行一個或者多個操作的功能。因此,處理系統(tǒng)704被圖示為包括可以被配置為處理器、功能塊等的硬件元件710。這可以包括作為專用集成電路或者使用一個或者多個半導(dǎo)體形成的其它邏輯設(shè)備的以硬件的實(shí)施方式。硬件元件710不受形成它們的材料或者其中采用的處理機(jī)制的限制。例如,處理器可以由半導(dǎo)體和/或晶體管(例如電子集成電路(IC))組成。在這種上下文中,處理器可執(zhí)行指令可以是電子可執(zhí)行指令。
計算機(jī)可讀存儲介質(zhì)706被圖示為包括存儲器/存儲設(shè)備712。存儲器/存儲設(shè)備712表示與一個或者多個計算機(jī)可讀介質(zhì)關(guān)聯(lián)的存儲器/存儲設(shè)備容量。存儲器/存儲設(shè)備部件712可以包括易失性介質(zhì)(諸如隨機(jī)訪問存儲器(RAM))和/或非易失性介質(zhì)(諸如只讀存儲器(ROM))、閃存、光盤、磁盤等)。存儲器/存儲設(shè)備部件712可以包括固定介質(zhì)(例如RAM、ROM、固定硬盤驅(qū)動器等)以及可移除介質(zhì)(例如閃存、可移動硬盤驅(qū)動器、光盤等)。如在下文進(jìn)一步描述的,計算機(jī)可讀介質(zhì)706可以以各種其他方式配置。
輸入/輸出接口708表示允許用戶將命令和信息輸入到計算設(shè)備702的功能,以及還允許使用各種輸入/輸出設(shè)備將信息呈現(xiàn)給用戶和/或其它部件或設(shè)備的功能。輸入設(shè)備的示例包括鍵盤、光標(biāo)控制設(shè)備(例如鼠標(biāo))、麥克風(fēng)、掃描儀、觸摸功能(例如,被配置為檢測物理觸摸的電容式傳感器或者其它傳感器)、相機(jī)(例如,其可以采用可見光波長或者諸如紅外頻率之類的非可見光波長將移動識別為不包含接觸的手勢)等。輸出設(shè)備的示例包括顯示設(shè)備(例如,監(jiān)視器或者投影儀)、揚(yáng)聲器、打印機(jī)、網(wǎng)絡(luò)卡、觸覺響應(yīng)設(shè)備等。因此,如在下文進(jìn)一步描述的,計算設(shè)備702可以以各種方式配置以支持用戶交互。
在本文中可以在軟件、硬件元件、或者程序模塊的一般上下文中描述各種技術(shù)。通常,這種模塊包括執(zhí)行特定任務(wù)或者實(shí)施特定抽象數(shù)據(jù)類型的例程、程序、對象、元件、部件、數(shù)據(jù)結(jié)構(gòu)等。如本文中使用的術(shù)語“模塊”、“功能”、以及“部件”通常表示軟件、固件、硬件、或者其組合。本文中描述的技術(shù)的特征是不依賴于平臺的,這意味著這些技術(shù)可以在具有各種處理器的各種商用計算平臺上執(zhí)行。
所描述的模塊和技術(shù)的實(shí)施方式可以存儲在某種形式的計算機(jī)可讀介質(zhì)上或者跨某種形式的計算機(jī)可讀介質(zhì)傳輸。計算機(jī)可讀介質(zhì)可以包括可以由計算設(shè)備702訪問的各種介質(zhì)。通過示例并且非限制性的方式,計算機(jī)可讀介質(zhì)可以包括“計算機(jī)可讀存儲介質(zhì)”和“計算機(jī)可讀信號介質(zhì)”。
“計算機(jī)可讀存儲介質(zhì)”可以指代相比于僅信號傳輸、載波、或者信號本身而言實(shí)現(xiàn)信息的永久性和/或非瞬態(tài)存儲的介質(zhì)和/或設(shè)備。因此,計算機(jī)可讀存儲介質(zhì)指代不承載信號的介質(zhì)。計算機(jī)可讀存儲介質(zhì)包括硬件,諸如易失性和非易失性、可移除和非可移除介質(zhì)和/或存儲設(shè)備,它們以適合存儲諸如計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊、邏輯元件/電路、或者其它數(shù)據(jù)之類的信息的方法或者技術(shù)來實(shí)施。計算機(jī)可讀存儲介質(zhì)的示例可以包括但不限于RAM、ROM、EEPROM、閃存、或者其它存儲器技術(shù)、CD-ROM、數(shù)字通用盤(DVD)或者其它光學(xué)存儲設(shè)備、硬盤、磁盒、磁帶、磁盤存儲設(shè)備或者其它磁存儲設(shè)備、或者其它存儲設(shè)備、有形介質(zhì)、或者適合存儲期望的信息并且可以由計算機(jī)訪問的制品。
“計算機(jī)可讀信號介質(zhì)”可以指代被配置為向計算設(shè)備702的硬件傳輸指令(諸如經(jīng)由網(wǎng)絡(luò))的承載信號的介質(zhì)。信號介質(zhì)通常可以體現(xiàn)計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊、或者調(diào)制數(shù)據(jù)信號(諸如載波、數(shù)據(jù)信號、或者其它傳送機(jī)制)中的其它數(shù)據(jù)。信號介質(zhì)還包括任何信息遞送介質(zhì)。術(shù)語“調(diào)制數(shù)據(jù)信號”意指使其特性中的一個或者多個特性被設(shè)置或者改變以便編碼信號中的信息的信號。通過示例并且非限制性的方式,通信介質(zhì)包括:諸如有線網(wǎng)絡(luò)或者直接有線連接之類的有線介質(zhì);和諸如聲學(xué)、RF、紅外、以及其它無線介質(zhì)之類的無線介質(zhì)。
如之前所述,硬件元件710和計算機(jī)可讀介質(zhì)706表示可以在一些實(shí)施方式中采用以實(shí)施本文中描述的技術(shù)的至少一些方面(諸如用于執(zhí)行一個或者多個指令)的以硬件形式實(shí)施的模塊、可編程設(shè)備邏輯、和/或固定設(shè)備邏輯。硬件可以包括集成電路或者芯片上系統(tǒng)、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)、復(fù)雜可編程邏輯設(shè)備(CPLD)、以及硅或者其它硬件中的其它實(shí)施方式的部件。在這一上下文中,硬件可以作為執(zhí)行由通過硬件體現(xiàn)的指令和/或邏輯限定的程序任務(wù)的處理設(shè)備,以及作為被利用于存儲用于執(zhí)行的指令的硬件(例如,之前描述的計算機(jī)可讀存儲介質(zhì))進(jìn)行操作。
以上內(nèi)容的組合也可以被用于執(zhí)行本文中描述的各種技術(shù)。因此,軟件、硬件、或者可執(zhí)行模塊可以被實(shí)施為在某種形式的計算機(jī)可讀存儲介質(zhì)上體現(xiàn)的和/或由一個或者多個硬件元件710體現(xiàn)的一個或者多個指令和/或邏輯。計算設(shè)備702可以被配置為執(zhí)行對應(yīng)于軟件和/或硬件模塊的特定指令和/或功能。因此,可由計算設(shè)備702作為軟件執(zhí)行的模塊的實(shí)施方式可以至少部分地在硬件中實(shí)現(xiàn),例如通過使用計算機(jī)可讀存儲介質(zhì)和/或處理系統(tǒng)704的硬件元件710。指令和/或功能可以由一個或者多個制品(例如,一個或者多個計算設(shè)備702和/或處理系統(tǒng)704)執(zhí)行/操作以實(shí)施本文中描述的技術(shù)、模塊、以及示例。
本文中描述的技術(shù)可以由計算設(shè)備702的各種配置支持并且不限于本文中描述的技術(shù)的特定示例。這一功能還可以全部或者部分地通過使用分布式系統(tǒng)(諸如如下文描述那樣經(jīng)由平臺716在“云”714上)實(shí)施。
云714包括和/或表示用于資源718的平臺716。平臺716把云714的硬件(例如服務(wù)器)和軟件資源的底層功能抽象出來。資源718可以包括可以在計算機(jī)處理在遠(yuǎn)離計算設(shè)備702的服務(wù)器上被執(zhí)行時利用的應(yīng)用和/或數(shù)據(jù)。資源718還可以包括在因特網(wǎng)上提供和/或通過訂戶網(wǎng)絡(luò)(諸如蜂窩網(wǎng)絡(luò)或者Wi-Fi網(wǎng)絡(luò))提供的服務(wù)。
平臺716可以將資源和功能抽象出來以將計算設(shè)備702與其它計算設(shè)備連接。平臺716還可以用于將資源的縮放抽象出來,以向經(jīng)由平臺716實(shí)施的資源718所遇到的需求提供對應(yīng)的縮放水平。因此,在互連設(shè)備實(shí)施方式中,本文中描述的功能可以遍布系統(tǒng)700分布。例如,功能可以在計算設(shè)備702上以及經(jīng)由將云714的功能抽象出來的平臺716來部分地執(zhí)行。
結(jié)論
描述了多媒體文檔概括技術(shù)。即,給定包括文本和一組圖像的文檔,各種實(shí)施方式通過以下方式來生成概括:提取文檔中的相關(guān)文本區(qū)段和圖像的相關(guān)區(qū)段,其中對概括中的文本量和圖像的數(shù)目/尺寸進(jìn)行約束。
雖然用特定于結(jié)構(gòu)特征和/或方法動作的語言描述本發(fā)明,但是要理解的是,在所附權(quán)利要求中限定的本發(fā)明不必限于所描述的特定特征或者動作。更確切地說,特定特征和動作是作為實(shí)施所要求保護(hù)的發(fā)明的示例形式公開的。