因特網(wǎng)是為全世界數(shù)十億用戶服務(wù)的全球數(shù)據(jù)通信系統(tǒng)。因特網(wǎng)向用戶提供對大量在線信息資源和服務(wù)的訪問,包括由萬維網(wǎng)、基于內(nèi)聯(lián)網(wǎng)的企業(yè)等提供的在線信息資源和服務(wù)。萬維網(wǎng)當(dāng)前托管數(shù)十億的網(wǎng)頁,其共同托管了大量且不斷增長的文本內(nèi)容,文本內(nèi)容涵蓋用戶可能感興趣的任何主題。由于因特網(wǎng)、容易地并且成本高效地可獲得的各種類型的網(wǎng)絡(luò)啟用的個人計算設(shè)備(諸如個人計算機、膝上型/筆記本計算機、智能電話、平板計算機和專用電子閱讀器設(shè)備)、以及可以在這些設(shè)備上運行的各種類型的應(yīng)用程序的普遍存在,跨全球的用戶可以輕松地搜索、檢索和閱讀涵蓋他們感興趣的任何主題的任何類型的文本內(nèi)容。
技術(shù)實現(xiàn)要素:
提供本發(fā)明內(nèi)容以便以簡化形式介紹將在以下具體實施方式中進一步描述的概念的選擇。本發(fā)明內(nèi)容不旨在標(biāo)識所要求保護的主題的關(guān)鍵特征或必要特征,也不旨在用于幫助確定所要求保護的主題的范圍。
本文中所描述的問題生成技術(shù)實現(xiàn)通常涉及生成關(guān)于文本的段落的問題,該文本的段落包括兩個或更多個句子的序列。在一個示例性實現(xiàn)中,接收段落。然后生成關(guān)于段落的問題,其中問題涵蓋段落中的多個句子的內(nèi)容,并且包括段落的上下文部分以及與段落的上下文部分上下文相關(guān)的問題陳述。然后輸出所生成的問題。下面提供這樣的問題生成的示例。
附圖說明
關(guān)于以下描述、所附權(quán)利要求和附圖,將更好地理解本文中所描述的問題生成技術(shù)實現(xiàn)的具體的特征、方面和優(yōu)點,在附圖中:
圖1是以簡化形式示出用于生成關(guān)于文本的段落的問題的過程的一個實現(xiàn)的流程圖。
圖2是以簡化形式示出用于生成關(guān)于文本的段落的問題的過程的一個實現(xiàn)的流程圖,其中問題涵蓋段落中的多個句子的內(nèi)容,并且包括段落的上下文部分以及與該上下文部分上下文相關(guān)的問題陳述。
圖3是以簡化形式示出用于標(biāo)識文本的段落中的主題中的每個主題,并且根據(jù)所標(biāo)識的主題在段落中的重要性對所標(biāo)識的主題排名的過程的一個實現(xiàn)的流程圖。
圖4是以簡化形式示出用于標(biāo)識文本的段落中的主題中的每個主題,并且根據(jù)所標(biāo)識的主題在段落中的重要性對所標(biāo)識的主題排名的過程的另一實現(xiàn)的流程圖。
圖5是以簡化形式示出用于確定文本的段落中的所標(biāo)識的子句之間的話語關(guān)系的過程的示例性實現(xiàn)的流程圖。
圖6是以簡化形式示出用于將存在于文本的段落內(nèi)的分割點邊界處的話語關(guān)系轉(zhuǎn)換成問題陳述的過程的示例性實現(xiàn)的流程圖。
圖7是以簡化形式示出用于生成關(guān)于文本的段落的問題的過程的另一實現(xiàn)的流程圖,其中問題涵蓋段落中的多個句子的內(nèi)容,并且包括段落的上下文部分以及與該上下文部分上下文相關(guān)的問題陳述。
圖8是以簡化形式示出用于生成關(guān)于文本的段落的問題的過程的另一實現(xiàn)的流程圖,其中問題涵蓋段落中的多個句子的內(nèi)容,并且包括段落的上下文部分以及與該上下文部分上下文相關(guān)的問題陳述。
圖9是以簡化形式示出用于將存在于文本的段落內(nèi)的所選擇的話語標(biāo)記處的話語關(guān)系轉(zhuǎn)換成問題陳述的過程的示例性實現(xiàn)的流程圖。
圖10是以簡化形式示出用于生成關(guān)于文本的段落的問題的過程的另一實現(xiàn)的流程圖。
圖11是以簡化形式示出用于生成關(guān)于文本的段落的問題的過程的另一實現(xiàn)的流程圖,其中問題涵蓋段落中的多個句子的內(nèi)容,并且包括段落的上下文部分以及與該上下文部分上下文相關(guān)的問題陳述。
圖12是以簡化形式示出用于使用預(yù)先訓(xùn)練的分割點分類器結(jié)合針對文本的段落的主題的經(jīng)排名列表以及段落中的所標(biāo)識的子句之間的所確定的話語關(guān)系,來標(biāo)識段落內(nèi)的分割點邊界的過程的一個實現(xiàn)的流程圖。
圖13是以簡化形式示出用于向用戶提供關(guān)于他們正在閱讀的文本的段落的問題的過程的示例性實現(xiàn)的流程圖。
圖14是以簡化形式示出用于實現(xiàn)本文中所描述的問題生成技術(shù)實現(xiàn)的架構(gòu)框架的示例性實現(xiàn)的圖。
圖15是示出可以實現(xiàn)本文中所描述的問題生成技術(shù)的各種實現(xiàn)和元素的通用計算機系統(tǒng)的簡化示例的圖。
具體實施方式
在問題生成技術(shù)實現(xiàn)的以下描述中,參考附圖,附圖形成以下描述的一部分,并且附圖中通過說明示出了可以實踐問題生成技術(shù)的具體實現(xiàn)。應(yīng)當(dāng)理解,在不脫離問題生成技術(shù)實現(xiàn)的范圍的情況下,可以利用其他實現(xiàn)并且可以進行結(jié)構(gòu)改變。
還應(yīng)當(dāng)注意,為了清楚起見,在描述本文中所描述的問題生成技術(shù)實現(xiàn)時將采用具體術(shù)語,并且并不旨在將這些實現(xiàn)限制于所選擇的具體術(shù)語。此外,應(yīng)當(dāng)理解,每個具體術(shù)語包括以廣義上相似的方式操作以實現(xiàn)相似目的的所有技術(shù)等同物。本文中對“一個實現(xiàn)”或“另一實現(xiàn)”或“示例性實現(xiàn)”或“替選實現(xiàn)”的引用表示結(jié)合該實現(xiàn)描述的特定特征、特定結(jié)構(gòu)或特定特性可以被包括在問題生成技術(shù)的至少一個實現(xiàn)中。在說明書中的各個位置出現(xiàn)的短語“在一個實現(xiàn)中”、“在另一實現(xiàn)中”、“在示例性實現(xiàn)中”和“在替選實現(xiàn)中”不一定都指代相同的實現(xiàn),也不一定是與其他實現(xiàn)相互排斥的單獨的或替選的實現(xiàn)。此外,表示問題生成技術(shù)的一個或多個實現(xiàn)的處理流程的順序不固有地指示任何特定順序,也不暗示問題生成技術(shù)的任何限制。
1.0 Web上的文本內(nèi)容
如上所述,存在在萬維網(wǎng)(本文中有時簡稱為web)上當(dāng)前可獲得的大量并且不斷增長的文本內(nèi)容。跨全球的用戶可以使用各種類型的網(wǎng)絡(luò)啟用的個人計算設(shè)備(除了其他以外,諸如在此之前描述的那些),來搜索、檢索和讀取涵蓋他們感興趣的任何主題的任何類型的文本內(nèi)容。在給定用戶讀取給定文本的段落(例如,一段文本)之后,他們可能想要確定他們已經(jīng)從段落中理解和記住了多少(例如,用戶可能想要評估他們的閱讀理解)。如在心理學(xué)領(lǐng)域中所理解的,存在被稱為Dunning-Kruger效應(yīng)的心理現(xiàn)象,由此讀取給定文本的段落的用戶通常會高估他們對該段落的認(rèn)知/理解。從以下更詳細(xì)的描述中可以理解,本文中所描述的問題生成技術(shù)實現(xiàn)的優(yōu)點在于,它們可以用于各種各樣的應(yīng)用中,以自動地生成可以測量用戶對文本的段落的理解的問題。例如,在用戶正在專用電子閱讀器設(shè)備上閱讀給定電子書的情況下,問題生成技術(shù)實現(xiàn)可以用于自動地生成關(guān)于電子書的高級別問題,這些問題與電子書的不同部分上下文相關(guān)。在用戶正在閱讀網(wǎng)頁上的文本的段落的情況下,問題生成技術(shù)實現(xiàn)可以用于自動地生成關(guān)于段落的高級別問題,這些問題與段落的不同部分上下文相關(guān)。下文中描述問題生成技術(shù)實現(xiàn)的附加優(yōu)點。
如在因特網(wǎng)領(lǐng)域中所理解的,在web上可獲得的很多文本內(nèi)容本質(zhì)上是教育性的。在網(wǎng)絡(luò)上可獲得的教育性文本內(nèi)容的一部分是現(xiàn)有課程的一部分,并且被預(yù)先構(gòu)造為使得閱讀內(nèi)容的用戶(例如,學(xué)生)能夠確定(例如,衡量)他們對內(nèi)容的理解。這樣的教育性文本內(nèi)容的一個示例是教科書,其通常在每個章節(jié)的結(jié)尾處包括固定的預(yù)先創(chuàng)作的問題的集合,用戶可以回答這些問題以便確定他們對內(nèi)容的理解。在用戶想要在稍后的日期重新確定他們對內(nèi)容的理解的情況下,本文中所描述的問題生成技術(shù)實現(xiàn)可以用于自動地生成可以支持該重新確定的附加問題。在用戶想要對他們對內(nèi)容內(nèi)的一個或多個具體主題的理解的更深入(例如,更集中的)評估的另一情況下,問題生成技術(shù)實現(xiàn)可以用于自動地生成關(guān)于這些具體主題的更多問題。在教師正在使用教科書教授課程的另一情況下,問題生成技術(shù)實現(xiàn)可以用于自動地生成要被包括在被給予學(xué)生的考試中的測試問題。雖然一些測試問題可能在教科書的教師版本中可獲得,但是問題生成技術(shù)實現(xiàn)允許教師自動地生成年度不同的檢查,并且自動地生成更深入地練習(xí)某些主題的更集中的測試問題。
網(wǎng)絡(luò)上可獲得的教育性文本內(nèi)容的另一部分不是現(xiàn)有課程的一部分。例如,考慮第一次購房者正在閱讀描述可獲得的各種類型的貸款的文本內(nèi)容的情況。在購房者完成他們的閱讀之后,他們可能想知道他們在與他們的銀行官員見面之前已經(jīng)理解和記住了多少。還考慮另一種情況,其中患者被診斷為患有特定癌癥,并且在獲得URL(統(tǒng)一資源定位符,也稱為“鏈接”)的集合之后,從他們的醫(yī)生辦公室被送回到家里,該URL的集合指向患者必須閱讀以更多地了解關(guān)于他們的診斷和治療選擇的特定文本內(nèi)容項目。在患者完成他們的閱讀之后,他們可能想知道他們在與他們的醫(yī)生再次見面之前已經(jīng)理解和記住了多少。本文中所描述的問題生成技術(shù)實現(xiàn)可以用于自動地生成允許購房者和患者二者測量他們對他們閱讀的文本內(nèi)容的理解和記憶。問題生成技術(shù)實現(xiàn)還允許購房者和患者二者驗證他們不僅僅具有對內(nèi)容的粗略認(rèn)知/理解,并且還允許他們隨著時間推移刷新他們對內(nèi)容的認(rèn)知。
2.0 從句子生成高級別問題
給定包括兩個或更多個句子的序列的文本的段落(本文中有時簡稱為段落),術(shù)語“句子級別問題”在本文中用于指代僅涵蓋段落中的句子之一的內(nèi)容的問題,使得該問題的答案僅被包含在該一個句子中(例如,問題的答案不能被包含在段落中的任何其他句子中)。相反,本文中使用術(shù)語“高級別問題”來指代涵蓋段落中的多個句子的內(nèi)容的問題,使得該問題的答案可以被包含在段落中的任何句子中,或者段落中的兩個或更多個句子的組合中。因此,關(guān)于段落的高級別問題可以被認(rèn)為是段落級別問題,因為高級別問題及其答案跨越段落中的多個句子。
給定包括兩個或更多個句子的序列的文本的段落,本文中所描述的問題生成技術(shù)實現(xiàn)通常涉及自動地生成關(guān)于段落的高級別問題以及高級別問題中的每個高級別問題的答案。從下面更詳細(xì)的描述中可以理解,不是單獨地處理段落中的每個句子(例如,不是一次只處理段落中的一個句子,而不考慮段落中的其他句子),并且生成一個或多個句子級別問題,每個句子級別問題涵蓋僅該一個句子的內(nèi)容,問題生成技術(shù)實現(xiàn)將構(gòu)成該段落的句子的整個序列作為一組來處理,并且可以生成高級別問題的集合,每個高級別問題涵蓋段落中的多個句子的內(nèi)容。因此,問題生成技術(shù)實現(xiàn)的優(yōu)點在于,它們可以用于確定讀者對段落中的更高級別內(nèi)容的理解。問題生成技術(shù)實現(xiàn)還允許自動地生成高級別問題,這些高級別問題可以在上下文上探索段落的更深層面,諸如“為什么?”或“接下來發(fā)生了什么?”,而不是對段落中的單獨的句子進行簡單的語法修改,諸如“在哪里”或“何時”或“誰”。問題生成技術(shù)實現(xiàn)還確保自動地生成的高級別問題中的每個高級別問題在語法上是正確的。問題生成技術(shù)實現(xiàn)還確保高級別問題中的每個高級別問題的答案被包含在生成該高級別問題的文本的段落內(nèi)。
如在自然語言理解和問題生成領(lǐng)域中所理解的,可以通過簡單地在語法上修改句子來生成關(guān)于單個句子的句子級別問題。換言之,單個句子中的單詞或單詞短語可以被標(biāo)識為期望答案,然后可以用適當(dāng)?shù)膯栴}單詞替換該標(biāo)識的單詞或單詞短語,并且然后可以應(yīng)用規(guī)則的集合來生成語法上正確的句子級別問題。例如,考慮原始句子“John married Jane in Seattle in 2012.”??梢酝ㄟ^將“in Seattle”替換為“where”來生成關(guān)于原始句子的一個句子級別問題,得到問題“Where did John marry Jane in 2012?”??梢酝ㄟ^將“in 2012”替換為“when”來生成關(guān)于原始句子的另一句子級別問題,得到問題“When did John marry Jane in Seattle?”??梢酝ㄟ^將“John”替換為“who”來生成關(guān)于原始句子的另一句子級別問題,得到問題“Who married Jane in Seattle in 2012?”。應(yīng)當(dāng)指出,這三個句子級別問題中的每個的答案都被包含在原始句子本身中。但是,如果原始句子在語法上被變換成問題“Why did John marry Jane?”或者問題“What happened after John married Jane?”,則這兩個問題的答案顯然不被包含在原始句子本身中。
2.1 高級別問題生成示例
這一部分呈現(xiàn)用于進一步描述本文中所描述的問題生成技術(shù)實現(xiàn)的樣本文本的段落。這一部分還呈現(xiàn)了可以使用本文中所描述的問題生成技術(shù)實現(xiàn)自動地生成用于樣本文本的段落的示例性的高級別問題的集合。樣本文本的段落如下所示,并且包括三個句子的序列,即句子S1、緊接在句子S1之后的句子S2和緊接在句子S2之后的句子S3:
S1:Franklin saw the printing press as a device to instruct colonial Americans in moral virtue.
S2:He tried to influence American moral life through construction of a printing network based on a chain of partnerships from the Carolinas to New England.
S3:Franklin thereby invented the first newspaper chain.
上述文本的段落在下文中簡稱為段落S1-S3。
在接收并且處理段落S1-S3(下文將更詳細(xì)地描述)之后,本文中所描述的生成技術(shù)的示例性實現(xiàn)可以針對段落S1-S3生成兩個不同的高級別問題陳述和答案對,即高級別問題陳述和答案對Q1/A1和高級別問題陳述和答案對Q2/A2,如下所示:
Q1:What resulted from Franklin’s views on the role of the printing press?
A1:Because Franklin wanted to use printing press as a device to instruct colonial Americans in moral virtue,he constructed a chain of newspapers from the Carolinas to New England.
Q2:What precipitated Franklin’s invention of the first newspaper chain?
A2:Franklin invented the first newspaper chain because he tried to influence American moral life through the printing press and so constructed a printing network from the Carolinas to New England.
注意,高級別問題陳述Q1主要從句子S1來生成,但是Q1的答案A1被包含在句子S2和句子S3二者內(nèi)。類似地,高級別問題陳述Q2主要從句子S3來生成,但是Q2的答案A2被包含在段落S1-S3中在句子S3之前的句子S1和句子S2二者內(nèi)。
還應(yīng)當(dāng)注意,高級別問題陳述Q1的形式將單個句子S1的內(nèi)容與Q1和其答案A1之間的期望關(guān)系(其在Q1的情況下是“結(jié)果”)組合。類似地,高級別問題陳述Q2的形式將單個句子S3的內(nèi)容與Q2和其答案A2之間的期望關(guān)系(其在Q2的情況下是“在前”)組合。然而,從以下更詳細(xì)的描述中將理解,本文中所描述的問題生成技術(shù)實現(xiàn)還可以生成關(guān)于段落S1-S3的高級別問題,該高級別問題針對問題與其答案之間的關(guān)系,但是使用段落S1-S3中的句子的內(nèi)容來將問題置于上下文中。換言之,問題生成技術(shù)實現(xiàn)可以通過以下方式來生成關(guān)于段落S1-S3的高級別問題:首先標(biāo)識段落S1-S3的部分以用作針對問題的上下文(下文中簡稱為段落的上下文部分),并且然后通過用問題陳述來擴充段落的上下文部分,來將段落的上下文部分變換成問題,該問題陳述包括特定于問題及其答案之間的期望關(guān)系的少量文本(例如,“為什么?”或“這是怎么發(fā)生的?”)。因此,段落的上下文部分用于將關(guān)于段落S1-S3的問題置于上下文中。
關(guān)于段落S1-S3的高級別問題(其針對問題與其答案之間的關(guān)系,但是使用段落S1-S3中的句子的內(nèi)容來將問題置于上下文中)的一個示例如下:
S1:Franklin saw the printing press as a device to instruct colonial Americans in moral virtue.
Q3:What resulted?
注意,在上述示例中,句子S1是用于將高級別問題陳述Q3置于上下文中的段落S1-S3的上下文部分,得到Q3是由相對簡單的文本組成的復(fù)雜問題陳述。
關(guān)于段落S1-S3的高級別問題(其針對問題與其答案之間的關(guān)系,但是使用段落S1-S3中的句子的內(nèi)容來將問題置于上下文中)的另一示例如下:
S3:Franklin thereby invented the first newspaper chain.
Q4:What precipitated this?
注意,在上述示例中,句子S3是用于將高級別問題陳述Q4置于上下文中的段落S1-S3的上下文部分,得到Q4也是由相對簡單的文本組成的復(fù)雜問題。
2.2 過程框架
圖1以簡化形式示出了用于生成關(guān)于文本的段落的問題的過程的一個實現(xiàn),該文本的段落包括兩個或更多個句子的序列。如圖1中例示的,該過程開始于接收段落(動作100)。然后生成關(guān)于段落的問題,其中問題涵蓋段落中的多個句子的內(nèi)容,并且問題包括段落的上下文部分以及與段落的上下文部分上下文相關(guān)的問題陳述(動作102)。換言之,段落的上下文部分用作針對關(guān)于段落的問題的上下文。然后輸出問題(動作104)。在本文中所描述的問題生成技術(shù)的示例性實現(xiàn)中,段落還包括一個或多個主題、多個子句以及一個或多個名詞短語。段落也由單詞n元語法的序列組成。術(shù)語“單詞n元語法”在本文中用于指代給定文本的段落中的n個單詞的序列。
圖2以簡化形式示出了用于生成關(guān)于文本的段落的問題的過程的一個實現(xiàn)。如圖2中例示的,該過程開始于標(biāo)識段落中的主題中的每個主題,并且根據(jù)所標(biāo)識的主題在段落中的重要性對所標(biāo)識的主題排名,其中該排名得到針對段落的主題的經(jīng)排名列表(動作200);該主題標(biāo)識和排名動作在下文中更詳細(xì)地描述。然后標(biāo)識段落中的子句中的每個子句(動作202)。一般來說,并且如在自然語言處理領(lǐng)域中所理解的,子句是完整想法的單元,并且可以作為語法句子獨立存在。換言之,子句包括動詞和主語,并且可以可選地包括其他論元(argument)和修飾語,諸如賓語、補語和/或狀語。在本文中所描述的問題生成技術(shù)的示例性實現(xiàn)中,通過在句法上分析段落來標(biāo)識段落中的子句中的每個子句,其中所標(biāo)識的子句中的每個子句可以可選地被標(biāo)記為主要子句或從屬子句,從屬子句取決于特定主要子句,并且可能對于段落的內(nèi)容不太重要。注意,問題生成技術(shù)的替選實現(xiàn)也是可能的,其中可以使用各種其他方法來標(biāo)識段落中的子句中的每個子句。
再次參考圖2,在已經(jīng)標(biāo)識了文本的段落中的子句中的每個子句(動作202)之后,確定所標(biāo)識的子句之間的話語關(guān)系(動作204);該話語關(guān)系確定動作在下文中更詳細(xì)地描述。一般來說,并且如在自然語言處理領(lǐng)域中所理解的,話語關(guān)系(也被稱為修辭關(guān)系)是對兩個不同的文本的片段(例如,兩個不同的子句)如何在邏輯上彼此連接的描述。在確定所標(biāo)識的子句之間的話語關(guān)系(動作204)之后,然后使用預(yù)先訓(xùn)練的分割點分類器結(jié)合針對段落的主題的經(jīng)排名列表以及段落中的所標(biāo)識的子句之間的所確定的話語關(guān)系,來標(biāo)識段落內(nèi)的分割點邊界(動作206);該分割點邊界標(biāo)識動作也在下文中更詳細(xì)地描述。然后將在所標(biāo)識的分割點邊界之前的文本指派為上述段落的上下文部分(動作208)。然后將存在于所標(biāo)識的分割點邊界處的話語關(guān)系轉(zhuǎn)換成問題陳述(動作210),其中在所標(biāo)識的分割點邊界之后的文本是問題陳述的焦點;該分割點邊界話語關(guān)系轉(zhuǎn)換動作也在下文中更詳細(xì)地描述。下面還更詳細(xì)地描述用于訓(xùn)練分割點分類器的示例性方法。
標(biāo)識文本的段落中的主題中的每個主題,并且根據(jù)所標(biāo)識的主題在段落中的重要性對所標(biāo)識的主題排名的上述動作(圖2中的動作200)可以以各種方式實現(xiàn)。在下文中更詳細(xì)地描述用于標(biāo)識文本的段落中的主題中的每個主題,并且對所標(biāo)識的主題排名的示例性方法。注意,除了這些示例性方法之外,用于標(biāo)識段落中的主題中的每個主題,并且對所標(biāo)識的主題排名的各種其他方法也是可能的。
使用預(yù)先訓(xùn)練的分割點分類器結(jié)合針對文本的段落的主題的經(jīng)排名列表以及段落中的所標(biāo)識的子句之間的所確定的話語關(guān)系,來標(biāo)識段落內(nèi)的分割點邊界的上述動作(圖2中的動作206)也可以以各種方式實現(xiàn)。用于執(zhí)行該分割點邊界標(biāo)識的示例性方法在下文中更詳細(xì)地描述。注意,除了這些示例性方法之外,用于執(zhí)行該分割點邊界標(biāo)識的各種其它方法也是可能的。
圖12以簡化形式示出了用于使用預(yù)先訓(xùn)練的分割點分類器結(jié)合針對文本的段落的主題的經(jīng)排名列表以及段落中所標(biāo)識的子句之間的所確定的話語關(guān)系,來標(biāo)識段落內(nèi)的分割點邊界的過程的一個實現(xiàn)。如圖12中例示的,該過程開始于使用分割點分類器結(jié)合針對段落的主題的經(jīng)排名列表以及段落中的所標(biāo)識的子句之間的所確定的話語關(guān)系,來標(biāo)識段落內(nèi)的候選分割點邊界的集合(動作1200)。然后使用分割點分類器對候選分割點邊界中的每個候選分割點邊界評分(動作1202)。然后選擇具有最高得分的候選分割點邊界(動作1204)。然后將所選擇的候選分割點邊界指派為所標(biāo)識的分割點邊界(動作1206)。
圖12中例示的過程的以下替選實現(xiàn)(未示出)也是可能的。不是如本文中所描述的選擇具有最高得分的候選分割點邊界(動作1204),并且然后使用該所選擇的分割點邊界來生成關(guān)于文本的段落的問題,而是可以選擇具有高于規(guī)定得分閾值的得分的任何候選分割點邊界。然后,可以使用這些所選擇的候選分割點邊界中的每個候選分割點邊界用于生成關(guān)于段落的不同問題。
圖3以簡化形式示出了用于標(biāo)識文本的段落中的主題中的每個主題,并且根據(jù)所標(biāo)識的主題在段落中的重要性對所標(biāo)識的主題排名的過程的一個實現(xiàn)。如圖3中例示的,該過程開始于標(biāo)識段落中的名詞短語中的每個名詞短語(動作300)。應(yīng)當(dāng)理解,可以使用各種不同的方法來執(zhí)行該名詞短語標(biāo)識。作為示例而非限制,在本文中所描述的問題生成技術(shù)的示例性實現(xiàn)中,使用常規(guī)的成分(constituency)解析器來標(biāo)識段落中的名詞短語中的每個名詞短語。然后計算段落中的回指和所標(biāo)識的名詞短語的共指(動作302)。該共指計算可以使用各種不同的方法來執(zhí)行。作為示例而非限制,在問題生成技術(shù)的示例性實現(xiàn)中,使用用于解析代詞引用的傳統(tǒng)的Hobbs方法來計算段落中的回指和所標(biāo)識的名詞短語的共指。對上述段落S1-S3執(zhí)行動作300和302的示例性結(jié)果如下所示,其中所標(biāo)識的主題被加下劃線:
S1:Franklin saw the printing press as a device to instruct colonialAmericans in moral virtue.
S2:He(=Franklin)tried to influence American moral life through construction of a printing network based on a chain of partnerships from the Carolinas to New England.
S3:Franklin thereby invented the first newspaper chain.
通過經(jīng)由它們的中心名詞(通常是每個名詞短語的最后一個單詞)對上述標(biāo)識的主題分組,顯而易見的是,在段落S1-S3中,主題“Franklin”出現(xiàn)三次,主題“chain”出現(xiàn)兩次,并且所有其他標(biāo)識的主題僅出現(xiàn)一次。這反映了我們作為人類讀者的直覺——段落S1-S3的主旨是“Franklin”與“(newspaper)chain”之間的聯(lián)系。
再次參考圖3,在已經(jīng)標(biāo)識了文本的段落中的主題中的每個主題之后(動作300和302),然后如下對所標(biāo)識的主題排名。針對所標(biāo)識的名詞短語中的每個名詞短語,確定所標(biāo)識的名詞短語在所標(biāo)識的名詞短語出現(xiàn)在其中的段落的一個或多個句法單元中的句法角色(例如,所標(biāo)識的名詞短語所扮演的句法角色)(動作304)。然后確定所標(biāo)識的名詞短語中的每個名詞短語和指代該名詞短語的回指在該段落中的出現(xiàn)頻率(動作306)。然后使用所標(biāo)識的名詞短語中的每個名詞短語的句法角色以及所標(biāo)識的名詞短語中的每個名詞短語和指代該名詞短語的回指的出現(xiàn)頻率對所標(biāo)識的名詞短語排名(動作308)。
再次參考圖3,應(yīng)當(dāng)理解,剛才描述的用于對所標(biāo)識的主題排名的過程(動作304、306和308)使用來自“中心理論(Centering Theory)”的領(lǐng)域的某些見解。更具體地,中心理論認(rèn)為,與和謂語/動詞不直接相關(guān)的主題相比,文本的段落中作為段落中的動詞(或者主動詞或者從屬動詞)的論元的主題通常對于段落的意義更重要。因此,在段落S1-S3中,“Franklin”有三次作為主語,“printing press”有一次作為賓語,“newspaper chain”有一次作為賓語,“American moral life”有一次作為賓語,并且“colonial Americans”有一次是從屬子句中的動詞的賓語。通過區(qū)分在論元角色中出現(xiàn)的主題與在論元角色中沒有出現(xiàn)的主題,動作304、306和308的主題排名過程能夠?qū)Ψ駝t在段落中出現(xiàn)相等次數(shù)的所標(biāo)識的主題排名。動作304、306和308的主題排名過程因此將“printing press”和“American moral life”排在“partnerships”和“New England”之上。動作304、306和308的主題排名過程將基于具有較高凸顯性的主題生成更好的問題這一假定,根據(jù)所標(biāo)識的主題在段落中的凸顯性來對所標(biāo)識的主題排名。段落S1-S3中處于主語或賓語位置的所標(biāo)識的主題在下面被粗體顯示:
S1:Franklin saw the printing press as a device to instruct colonial Americans in moral virtue.
S2:He(=Franklin)tried to influence American moral life through construction of a printing network based on a chain of partnerships from the Carolinas to New England.
S3:Franklin thereby invented the first newspaper chain.
圖4以簡化形式示出了用于標(biāo)識文本的段落中的主題中的每個主題,并且根據(jù)所標(biāo)識的主題在段落中的重要性對所標(biāo)識的主題排名的過程的另一實現(xiàn)。如圖4中例示的,該過程開始于標(biāo)識文本的段落中的單詞n元語法中的每個單詞n元語法(動作400)。然后確定所標(biāo)識的單詞n元語法中的每個單詞n元語法的出現(xiàn)頻率(動作402)。然后,對于所標(biāo)識的單詞n元語法中的每個單詞n元語法,調(diào)節(jié)所標(biāo)識的單詞n元語法的出現(xiàn)頻率以考慮其長度(動作404)。然后根據(jù)所標(biāo)識的單詞n元語法的經(jīng)調(diào)節(jié)的出現(xiàn)頻率,對所標(biāo)識的單詞n元語法排名(動作406)。
可以用各種方式實現(xiàn)確定所標(biāo)識的子句之間的話語關(guān)系的上述動作(圖2中的動作204)。下文中更詳細(xì)地描述用于確定所標(biāo)識的子句之間的話語關(guān)系的示例性方法。注意,除了該示例性方法之外,用于確定所標(biāo)識的子句之間的話語關(guān)系的各種其他方法也是可能的。
圖5以簡化形式示出了用于確定所標(biāo)識的子句之間的話語關(guān)系的過程的示例性實現(xiàn)。如圖5中例示的,該過程涉及使用預(yù)先學(xué)習(xí)的話語關(guān)系預(yù)測模型,來標(biāo)識文本的段落中彼此相鄰的每對所標(biāo)識的子句之間的最可能的話語關(guān)系(動作500)。在本文中所描述的問題生成技術(shù)的示例性實現(xiàn)中,該預(yù)測模型包括如下操作的預(yù)先配置的(例如,預(yù)先學(xué)習(xí)的)關(guān)系模板(例如,關(guān)系查找表)和預(yù)先訓(xùn)練的關(guān)系類型分類器。每當(dāng)段落中彼此相鄰的一對所標(biāo)識的子句被明確地連接時,使用關(guān)系模板來標(biāo)識該對之間的話語關(guān)系(動作502)。每當(dāng)段落中彼此相鄰的一對所標(biāo)識的子句沒有被明確地連接時,使用關(guān)系類型分類器來標(biāo)識該對之間的話語關(guān)系(動作504)。
對段落S1-S3執(zhí)行剛才描述的用于確定所標(biāo)識的子句之間的話語關(guān)系的過程的示例性結(jié)果如下所示,其中在段落S1-S3中彼此相鄰的每對子句之間標(biāo)識的話語關(guān)系被大寫:
S1:Franklin saw the printing press as a device PURPOSE to instruct colonial Americans in moral virtue.CONSEQUENCE
S2:He tried to influence American moral life MANNER through construction of a printing network based on a chain of partnerships from the Carolinas to New England.RESULT
S3:Franklin thereby invented the first newspaper chain.
在上述結(jié)果中,相鄰的句子S2和S3通過單詞“thereby”被明確地連接,“thereby”表示由關(guān)系模板標(biāo)識的RESULT話語關(guān)系。相鄰的句子S1和S2沒有被明確地連接,因此關(guān)系類型分類器用于標(biāo)識CONSEQUENCE話語關(guān)系。
在本文中所描述的問題生成技術(shù)的示例性實現(xiàn)中,從話語關(guān)系的固定集合和大量文本中學(xué)習(xí)話語關(guān)系預(yù)測模型,該大量文本已經(jīng)用來自該固定集合(例如,賓州話語樹庫(Penn Discourse Treebank))的話語關(guān)系被注釋。話語關(guān)系的固定集合包括規(guī)定數(shù)目的不同話語關(guān)系,并且除了其他以外,包括諸如原因、結(jié)果、規(guī)范、后果、概括、時間之前、時間之后、目的、方式和條件等話語關(guān)系。應(yīng)當(dāng)理解,該規(guī)定數(shù)目可以從相對小的數(shù)目(例如25)到相對大的數(shù)目(例如,超過100)。更具體地,使用該被注釋的大量文本來配置關(guān)系模板。也使用該被注釋的大量文本來訓(xùn)練關(guān)系類型分類器。關(guān)系類型分類器的模型由各種特征組成,諸如句子的句法結(jié)構(gòu)、句子連接詞、時態(tài)、句子順序、詞性、詞匯表示(例如,詞簇)和其它相關(guān)特征。
在本文中所描述的問題生成技術(shù)的示例性實現(xiàn)中,用下面的方式來訓(xùn)練上述預(yù)先訓(xùn)練的分割點分類器。給定包括不同文本的段落的訓(xùn)練語料庫,如上所述生成針對訓(xùn)練語料庫中的段落中的每個段落的主題的經(jīng)排名列表;也如上所述確定訓(xùn)練語料庫中的段落中的每個段落中的話語關(guān)系。然后,要求一組個人(可以被認(rèn)為是判斷者)手動檢查訓(xùn)練語料庫中的段落中的每個段落,并且使用針對段落的主題的經(jīng)排名列表以及被確定為在段落中的話語關(guān)系,來標(biāo)識段落內(nèi)的分割點邊界,其中在所標(biāo)識的分割點邊界之前的文本是所提出的問題上下文,并且在所標(biāo)識的分割點邊界之后的文本是與所提出的問題上下文相關(guān)聯(lián)的問題焦點。然后注釋訓(xùn)練語料庫以標(biāo)識由該組個人標(biāo)識的分割點邊界中的每個分割點邊界。然后使用該注釋的訓(xùn)練語料庫來訓(xùn)練分割點分類器。分割點分類器的模型由廣泛的特征組成,除了其他以外,包括但不限于與關(guān)系類型分類器相關(guān)聯(lián)的上述特征、以及文本的段落的各種上下文特征,諸如高排名主題在所提出的問題上下文中的第一次出現(xiàn)、高排名主題在與所提出的問題上下文相關(guān)聯(lián)的問題焦點中的第一次出現(xiàn)、高排名主題在所提出的問題上下文中的存在、高排名主題在與所提出的問題上下文相關(guān)聯(lián)的問題焦點中的存在、給定文本的段落中的句子的順序、段落中的句子中的每個句子的長度、所提出的問題上下文的詞性、以及與所提出的問題上下文相關(guān)聯(lián)的問題焦點的詞性。
圖6以簡化形式示出了用于將存在于所標(biāo)識的分割點邊界處的話語關(guān)系轉(zhuǎn)換成與文本的段落的上下文部分上下文相關(guān)的上述問題陳述的過程的示例性實現(xiàn)。如圖6中例示的,該過程開始于使用所標(biāo)識的子句之間的所確定的話語關(guān)系,來計算存在于所標(biāo)識的分割點邊界處的話語關(guān)系(動作600)。然后選擇與所計算的話語關(guān)系相對應(yīng)的問題碎片(動作602)。從本文中所提供的各種問題生成技術(shù)實現(xiàn)的描述將理解的,給定的問題碎片可以是與給定的話語關(guān)系相對應(yīng)的單個單詞、或者與話語關(guān)系相對應(yīng)的兩個或更多個單詞的短語。除了其他以外,可以選擇的示例性問題碎片包括“為什么?”、“如何?”、“在哪里?”、“接下來是什么?”、“這之后接下來是什么?”、“結(jié)果是什么?”、“這樣的結(jié)果是什么?”。因此,問題碎片可以被認(rèn)為是與給定的話語關(guān)系相對應(yīng)的短的問題的規(guī)定的規(guī)范形式。
再次參考圖6,在已經(jīng)選擇了與存在于所標(biāo)識的分割點邊界處的話語關(guān)系相對應(yīng)的問題碎片(動作602)之后,將所選擇的問題碎片隨后指派為問題陳述(動作604)。然后,使用在所標(biāo)識的分割點邊界之后的文本來建立問題的答案(如本文中所描述的其包括文本的段落的上下文部分和問題陳述)(動作606)。然后可以可選地通過從問題的答案中省略(例如,從答案范圍中移除)不依賴于存在于所標(biāo)識的分割點邊界處的話語關(guān)系,并且不包括段落的上下文部分中的任何主題的任何文本片段,來提煉問題的答案(動作608),以得到僅包括依賴于存在于所標(biāo)識的分割點邊界處的話語關(guān)系,并且包括段落的上下文部分中的主題中的一個或多個主題的文本片段的經(jīng)提煉的答案。不依賴于存在于所標(biāo)識的分割點邊界處的話語關(guān)系,并且不包括段落的上下文部分中的任何主題的這樣的文本片段的一個示例是當(dāng)文本片段出現(xiàn)在所標(biāo)識的分割點邊界之后時,其與在所標(biāo)識的分割點邊界之前的文本無關(guān)的新想法相關(guān)聯(lián)。
可以使用各種不同的方法來執(zhí)行剛才描述的問題碎片選擇。作為示例而非限制,在本文中所描述的問題生成技術(shù)的一個實現(xiàn)中,可以使用預(yù)先配置的(例如,預(yù)先學(xué)習(xí)的)問題模板(例如,問題查找表)來選擇與存在于所標(biāo)識的分割點邊界處的話語關(guān)系相對應(yīng)的問題碎片,預(yù)先配置的問題模板將每個可能的話語關(guān)系映射到與其對應(yīng)的特定問題碎片。換言之,該問題模板指定與每個可能的話語關(guān)系相對應(yīng)的所規(guī)定的公式化問題碎片。在問題生成技術(shù)的另一實現(xiàn)中,可以使用考慮文本的段落的上下文特征的預(yù)先訓(xùn)練的問題類型分類器,來選擇與存在于所標(biāo)識的分割點邊界處的話語關(guān)系相對應(yīng)的問題碎片。在多個不同的問題碎片可以對應(yīng)于給定的話語關(guān)系的情況下,問題類型分類器是有用的。更具體地,在這種情況下,問題類型分類器可以使用段落的上下文特征,來選擇這些不同問題碎片中最佳地表示存在于所標(biāo)識的分割點邊界處的話語關(guān)系的一個問題碎片。
在本文中所描述的問題生成技術(shù)的另一實現(xiàn)中,不是如剛才描述的使用存在于所標(biāo)識的分割點邊界處的話語關(guān)系來選擇問題碎片,問題類型分類器可以分析文本的段落的上下文特征,并且從該分析來預(yù)測與在所標(biāo)識的分割點邊界之前和之后的文本最佳匹配的問題碎片。
對段落S1-S3執(zhí)行圖6所示的動作的示例性結(jié)果如下示出:
高級別問題1:
S1:Franklin saw the printing press as a device to instruct colonial Americans in moral virtue.
Q5:What followed from this?
高級別問題1的答案:
S2:He tried to influence American moral life through construction of a printing network based on a chain of partnerships from the Carolinas to New England.
S3:Franklin thereby invented the first newspaper chain.
在上述結(jié)果中,假定段落S1-S3內(nèi)的分割點邊界被標(biāo)識為在句子S1的結(jié)尾與句子S2的開始之間。因此,所生成的被置于上下文中的問題陳述Q5與存在于該分割點邊界處的上述CONSEQUENCE話語關(guān)系相對應(yīng)。
2.3 僅使用子句之間的話語關(guān)系的替選實現(xiàn)
圖7以簡化形式示出了用于生成關(guān)于文本的段落的問題的過程的另一實現(xiàn)。如圖7中例示的,該過程開始于標(biāo)識段落中的子句中的每個子句(動作700),如上所述。然后確定所標(biāo)識的子句之間的話語關(guān)系(動作702),如上所述。然后,使用上述預(yù)先訓(xùn)練的分割點分類器結(jié)合段落中的所標(biāo)識的子句之間的所確定的話語關(guān)系,來標(biāo)識段落內(nèi)的分割點邊界(動作704)。然后將在所標(biāo)識的分割點邊界之前的文本指派為段落的上下文部分(動作706)。然后將存在于所標(biāo)識的分割點邊界處的話語關(guān)系轉(zhuǎn)換成與段落的上下文部分上下文相關(guān)的上述問題陳述(動作708),如上所述,其中在所標(biāo)識的分割點邊界之后的文本是問題陳述的焦點。
應(yīng)當(dāng)理解,對段落S1-S3執(zhí)行剛才描述的用于生成關(guān)于文本的段落的問題的過程還可以產(chǎn)生由句子S1和問題陳述Q5組成的上述高級別問題1。
2.4 使用主題和顯式話語標(biāo)記的替選實現(xiàn)
圖8以簡化形式示出了用于生成關(guān)于文本的段落的問題的過程的另一實現(xiàn)。如從以下更詳細(xì)的描述將理解的,每當(dāng)段落包括一個或多個顯式話語標(biāo)記時,可以使用該特定實現(xiàn)。一般來說并且如在自然語言處理領(lǐng)域中所理解的,話語標(biāo)記(有時也被稱為語用標(biāo)記、或鏈接詞/短語、或句子連接符)是單詞或單詞短語,其在大多數(shù)情況下句法上獨立,使得從給定的句子中移除給定的話語標(biāo)記仍然使得句子結(jié)構(gòu)完整。話語標(biāo)記通常用于定向或重定向段落中的“會話”流,而不對該段落增加任何顯著的可解釋的含義。換言之,話語標(biāo)記具有某種“空的含義”,并且經(jīng)常被用作段落中的填充詞或虛詞。因此,話語標(biāo)記通常來自單詞類,諸如副詞或介詞短語。
圖8中例示的過程開始于標(biāo)識文本的段落中的主題中的每個主題,并且根據(jù)所標(biāo)識的主題在段落中的重要性對所標(biāo)識的主題排名,其中該排名得到針對段落的主題的經(jīng)排名列表(動作800);該主題標(biāo)識和排名動作如上所述地實現(xiàn)。然后標(biāo)識段落中的話語標(biāo)記中的每個話語標(biāo)記(動作802)。在本文中所描述的問題生成技術(shù)的示例性實現(xiàn)中,使用規(guī)定的話語標(biāo)記列表來標(biāo)識段落中的話語標(biāo)記中的每個話語標(biāo)記,規(guī)定的話語標(biāo)記列表包括已知用作話語標(biāo)記的有限集合的單詞和單詞短語。所標(biāo)識的話語標(biāo)記中的每個話語標(biāo)記可以可選地被標(biāo)記為出現(xiàn)在主要子句或者從屬子句中,從屬子句依賴于特定主要子句并且對于段落的內(nèi)容可能不太重要。然后選擇結(jié)合主題的經(jīng)排名列表中具有最高排名的主題出現(xiàn)的所標(biāo)識的話語標(biāo)記(動作804)。然后將在所選擇的話語標(biāo)記之前的文本指派為段落的上下文部分(動作806)。然后將存在于所選擇的話語標(biāo)記處的話語關(guān)系轉(zhuǎn)換成與段落的上下文部分上下文相關(guān)的上述問題陳述,其中在所選擇的話語標(biāo)記之后的文本是問題陳述的焦點(動作808)。
圖9以簡化形式示出了用于將存在于所選擇的話語標(biāo)記處的話語關(guān)系轉(zhuǎn)換成問題陳述的過程的示例性實現(xiàn)。如圖9中例示的,該過程開始于選擇與存在于所選擇的話語標(biāo)記處的話語關(guān)系相對應(yīng)的問題碎片(動作900)。然后將所選擇的問題碎片指派為問題陳述(動作902)。然后,使用在所選擇的話語標(biāo)記之后的文本來建立問題的答案(如本文中所描述的其包括文本的段落的上下文部分和問題陳述)(動作904)。然后可以可選地通過從問題的答案中省略不依賴于存在于所選擇的話語標(biāo)記處的話語關(guān)系,并且不包括段落的上下文部分中的任何主題的任何文本片段,來提煉問題的答案(動作906),以得到僅包括依賴于存在于所選擇的話語標(biāo)記處的話語關(guān)系,并且包括段落的上下文部分中的主題中的一個或多個主題的文本片段的經(jīng)提煉的答案。
可以使用各種不同的方法來執(zhí)行剛才描述的問題碎片選擇。作為示例而非限制,在本文中所描述的問題生成技術(shù)的一個實現(xiàn)中,可以使用上述預(yù)先配置的問題模板來選擇與存在于所選擇的話語標(biāo)記處的話語關(guān)系相對應(yīng)的問題碎片。在問題生成技術(shù)的另一實現(xiàn)中,可以使用上述預(yù)先訓(xùn)練的問題類型分類器來選擇與存在于所選擇的話語標(biāo)記處的話語關(guān)系相對應(yīng)的問題碎片。
對段落S1-S3執(zhí)行剛才描述的用于生成關(guān)于文本的段落的問題的過程的示例性結(jié)果如下所示:
高級別問題2:
S1:Franklin saw the printing press as a device to instruct colonial Americans in moral virtue.
S2:He tried to influence American moral life
Q6:How did he do this?
高級別問題2的答案:
S2:through construction of a printing network based on a chain of partnerships from the Carolinas to New England.
S3:Franklin thereby invented the first newspaper chain.
在上述結(jié)果中,假定“Franklin”是段落S1-S3中排名最高的(例如,最重要的)主題。還假定“through construction”是段落S1-S3中與“Franklin”結(jié)合出現(xiàn)的顯式話語標(biāo)記。
2.5 僅使用顯式話語標(biāo)記的替選實現(xiàn)
圖10以簡化形式示出了用于生成關(guān)于文本的段落的問題的過程的另一實現(xiàn),該文本的段落包括兩個或更多個句子的序列,其中段落還包括一個或多個顯式話語標(biāo)記。如從以下更詳細(xì)的描述可以理解的,該特定實現(xiàn)不依賴于標(biāo)識段落中的主題,并且也不依賴于標(biāo)識段落中的子句。相反,該特定實現(xiàn)僅僅從存在于段落中的顯式話語標(biāo)記來生成關(guān)于段落的問題。
圖10中例示的過程開始于接收文本的段落(動作1000)。然后標(biāo)識段落中的第一話語標(biāo)記(動作1002)。在本文中所描述的問題生成技術(shù)的示例性實現(xiàn)中,使用上述規(guī)定的話語標(biāo)記列表來標(biāo)識段落中的第一話語標(biāo)記。然后將在所標(biāo)識的第一話語標(biāo)記之前的文本指派為段落的上下文部分(動作1004)。然后生成關(guān)于段落的問題,其中問題涵蓋段落中的多個句子的內(nèi)容,問題包括段落的上下文部分以及與段落的上下文部分上下文相關(guān)的問題陳述,并且在所標(biāo)識的第一話語標(biāo)記之后的文本是問題陳述的焦點(動作1006)。然后輸出問題(動作1008)。
圖11以簡化形式示出了剛才描述的用于生成關(guān)于文本的段落的問題的動作(圖10中的動作1006)的過程的示例性實現(xiàn)。如圖11中例示的,該過程開始于選擇與存在于所標(biāo)識的第一話語標(biāo)記處的話語關(guān)系相對應(yīng)的問題碎片(動作1100)。然后將所選擇的問題碎片指派為與段落的上下文部分上下文相關(guān)的上述問題陳述(動作1102)。然后,使用在所標(biāo)識的第一話語標(biāo)記之后的文本來建立問題的答案(如本文中所描述的其包括段落的上下文部分和問題陳述)(動作1104)。然后可以可選地通過從問題的答案中省略不依賴于存在于所標(biāo)識的第一話語標(biāo)記處的話語關(guān)系,并且不包括段落的上下文部分中的任何主題的任何文本片段,來提煉問題的答案(動作1106),以得到僅包括依賴于存在于所標(biāo)識的第一話語標(biāo)記處的話語關(guān)系,并且包括段落的上下文部分中的主題中的一個或多個主題的文本片段的經(jīng)提煉的答案。
可以使用各種不同的方法來執(zhí)行剛才描述的問題碎片選擇。作為示例而非限制,在本文中所描述的問題生成技術(shù)的一個實現(xiàn)中,可以使用上述預(yù)先配置的問題模板來選擇與存在于所標(biāo)識的第一話語標(biāo)記處的話語關(guān)系相對應(yīng)的問題碎片。在問題生成技術(shù)的另一實現(xiàn)中,可以使用上述預(yù)先訓(xùn)練的問題類型分類器來選擇與存在于所標(biāo)識的第一話語標(biāo)記處的話語關(guān)系相對應(yīng)的問題碎片。
對段落S1-S3執(zhí)行剛才描述的用于生成關(guān)于文本的段落的問題的過程的示例性結(jié)果如下所示:
高級別問題:
S1:Franklin saw the printing press as a device to instruct colonial Americans in moral virtue.
S2:He tried to influence American moral life through construction of a printing network based on a chain of partnerships from the Carolinas to New England.
Q7:What did this result in?
高級別問題的答案:
S3:Franklin thereby invented the first newspaper chain.
在上述結(jié)果中,假定“thereby”是段落S1-S3中的第一話語標(biāo)記。因此,所生成的被置于上下文中的問題陳述Q7與存在于話語標(biāo)記“thereby”處的上述RESULT話語關(guān)系相對應(yīng)。
2.6 用戶界面
圖13以簡化形式示出了用于向用戶提供關(guān)于他們正在閱讀的文本的段落的問題的過程的示例性實現(xiàn),其中段落包括兩個或更多個句子的序列。如圖13中例示的,該過程開始于接收關(guān)于段落的問題,其中問題涵蓋段落中的多個句子的內(nèi)容,并且問題包括段落的上下文部分以及與段落的上下文部分上下文相關(guān)的問題陳述(動作1300)。然后將問題呈現(xiàn)給用戶(動作1302),其中該問題呈現(xiàn)包括顯示上述段落的上下文部分(動作1304)并且顯示問題陳述(動作1306)。然后接收問題的答案,其中該答案駐留在位于段落的上下文部分外部的段落的部分中的單個句子內(nèi),或者駐留在位于段落的上下文部分外部的段落的部分中的多個句子內(nèi)(動作1308)。每當(dāng)用戶不正確地回答問題(動作1310,否)時,向用戶呈現(xiàn)問題的答案(動作1312)。該答案呈現(xiàn)(動作1312)包括顯示位于段落的上下文部分外部的段落的部分(動作1314)。答案呈現(xiàn)(動作1312)還可以可選地包括突出顯示段落的所顯示的上下文部分的部位以及位于段落的上下文部分外部的段落的所顯示的部分的、與問題的答案相關(guān)的部位(動作1316)。
再次參考圖13,應(yīng)當(dāng)注意,剛才描述的答案呈現(xiàn)動作1312、1314和1316的優(yōu)點在于,其實現(xiàn)了用戶能夠在其中檢查他們的工作的自分級上下文。還應(yīng)當(dāng)注意,動作1314和1316的組合的優(yōu)點在于,其允許用戶結(jié)合查看問題與其上下文相關(guān)的段落的部分(例如,段落的問題區(qū)域)來查看在其中尋到問題的答案的段落的部分(例如,段落的答案區(qū)域)。
2.7 架構(gòu)框架
圖14以簡化形式示出了用于實現(xiàn)本文中所描述的問題生成技術(shù)實現(xiàn)的架構(gòu)框架的示例性實現(xiàn)。如圖14中例示的,架構(gòu)框架1400包括在用于生成關(guān)于文本的段落1404的問題的上述過程中采用的問題生成模塊1406。更具體地,問題生成模塊1406接收段落1404并且生成關(guān)于段落的問題1422,問題1422涵蓋段落中的多個句子的內(nèi)容,并且包括段落的上下文部分以及與該上下文部分上下文相關(guān)的問題陳述。問題生成模塊1406包括主題標(biāo)識和排名模塊1408、子句標(biāo)識模塊1410、話語標(biāo)記標(biāo)識模塊1412、話語關(guān)系確定模塊1414、分割點邊界標(biāo)識模塊1416、問題陳述創(chuàng)建模塊1418和答案確定模塊1420。
再次參考圖14,主題標(biāo)識和排名模塊1408標(biāo)識文本的段落1404中的主題中的每個主題,并且根據(jù)所標(biāo)識的主題在段落1404中的重要性對所標(biāo)識的主題排名,其中該排名得到針對段落的主題的經(jīng)排名列表。子句標(biāo)識模塊1410標(biāo)識段落1404中的子句中的每個子句。話語關(guān)系確定模塊1414使用上述預(yù)先學(xué)習(xí)的話語關(guān)系預(yù)測模型1432來確定所標(biāo)識的子句之間的話語關(guān)系,其中話語關(guān)系預(yù)測模型1432包括預(yù)先配置的關(guān)系模板1434和預(yù)先訓(xùn)練的關(guān)系類型分類器1436,如上所述。分割點邊界標(biāo)識模塊1416使用上述預(yù)先訓(xùn)練的分割點分類器1426結(jié)合主題的經(jīng)排名列表和所標(biāo)識的子句之間的所確定的話語關(guān)系,來標(biāo)識段落1404內(nèi)的分割點邊界。問題陳述創(chuàng)建模塊1418使用上述預(yù)先配置的問題模板1428或上述預(yù)先訓(xùn)練的問題類型分類器1430,來將存在于所標(biāo)識的分割點邊界處的話語關(guān)系轉(zhuǎn)換成與段落1404的上下文部分上下文相關(guān)的問題陳述。答案確定模塊1420使用在所標(biāo)識的分割點邊界之后的文本來建立問題的答案1424,并且如上所述可選地提煉該答案。
再次參考圖14,在文本的段落1404包括一個或多個顯式話語標(biāo)記的情況下,話語標(biāo)記標(biāo)識模塊1412可以標(biāo)識段落1404中的話語標(biāo)記中的每個話語標(biāo)記,并且然后選擇所標(biāo)識的話語標(biāo)記中結(jié)合段落中排名最高的主題出現(xiàn)的一個話語標(biāo)記。問題陳述創(chuàng)建模塊1418然后可以使用預(yù)先配置的問題模板1428或預(yù)先訓(xùn)練的問題類型分類器1430將存在于所選擇的話語標(biāo)記處的話語關(guān)系轉(zhuǎn)換成與段落1404的上下文部分上下文相關(guān)的問題陳述。答案確定模塊1420然后可以使用在所選擇的話語標(biāo)記之后的文本來建立問題的答案1424,并且如上所述可選地提煉該答案。
再次參考圖14,在文本的段落1404包括一個或多個顯式話語標(biāo)記的情況下,話語標(biāo)記標(biāo)識模塊1412還可以標(biāo)識段落1404中的第一話語標(biāo)記。問題陳述創(chuàng)建模塊1418然后可以使用預(yù)先配置的問題模板1428或預(yù)先訓(xùn)練的問題類型分類器1430,來將存在于所標(biāo)識的第一話語標(biāo)記處的話語關(guān)系轉(zhuǎn)換成與段落1404的上下文部分上下文相關(guān)的問題陳述。然后,答案確定模塊1420可以使用在所標(biāo)識的第一話語標(biāo)記之后的文本來建立問題的答案1424,并且如上所述可選地提煉該答案。
再次參考圖14,架構(gòu)框架1400還包括問題呈現(xiàn)模塊1438,其在上述過程中被采用用于向用戶1402提供關(guān)于他們正在閱讀的文本的段落1404的問題。更具體地,問題呈現(xiàn)模塊1438接收關(guān)于段落1404的問題1422,問題1422涵蓋段落中的多個句子的內(nèi)容,并且包括段落的上下文部分以及與該上下文部分上下文相關(guān)的問題陳述。問題呈現(xiàn)模塊1438還接收問題的答案1424。然后,問題呈現(xiàn)模塊1438向用戶1402呈現(xiàn)關(guān)于段落1404的問題1422,如上所述。每當(dāng)用戶1402不正確地回答問題1422時,問題呈現(xiàn)模塊1438然后向用戶呈現(xiàn)問題的答案1424,如上所述。
3.0 另外的實現(xiàn)
雖然已經(jīng)通過具體參考問題生成技術(shù)的實現(xiàn)描述了問題生成技術(shù),但是應(yīng)當(dāng)理解,在不脫離問題生成技術(shù)的真實精神和范圍的情況下,可以對其做出變化和修改。例如,本文中所描述的問題生成技術(shù)實現(xiàn)可以以問題生成系統(tǒng)的形式實現(xiàn),該問題生成系統(tǒng)可以由教師和其他類型的教育者使用,以從教科書或者用于教授給定課程的任何其他類型的教育性文本內(nèi)容,自動地生成測試問題的集合。另外,問題生成技術(shù)的替選實現(xiàn)是可能的,其中正在閱讀給定文本的段落的用戶可以指定他們感興趣的特定類型的話語關(guān)系(例如,用戶可以指定他們想要僅被呈現(xiàn)CONSEQUENCE問題,或僅被呈現(xiàn)RESULTS問題),并且該指定的特定類型的話語關(guān)系可以用于過濾被呈現(xiàn)給用戶的關(guān)于段落的問題。更具體地,在使用預(yù)先訓(xùn)練的分割點分類器結(jié)合針對段落的主題的經(jīng)排名列表以及段落中的所標(biāo)識的子句之間的所確定的話語關(guān)系,來標(biāo)識段落內(nèi)的候選分割點邊界的集合之后,分割點分類器可以過濾候選分割點邊界的集合,使得集合中沒有與用戶感興趣的特定類型的話語關(guān)系相對應(yīng)的任何候選分割點邊界從集合中被省略,得到候選分割點邊界的過濾后的集合,其僅包括與用戶感興趣的特定類型的話語關(guān)系相對應(yīng)的候選分割點邊界。
此外,應(yīng)當(dāng)理解,在給定的文本的段落中的給定的一對子句之間可以存在多于一個話語關(guān)系。例如,在一對子句之間可以存在多于一個顯式話語關(guān)系,或者在一對子句之間可以存在混合的顯式/隱式話語關(guān)系,或者在一對子句之間可以存在多于一個隱式話語關(guān)系。在給定的一對子句之間存在多個顯式話語關(guān)系的情況下,可以使用上述預(yù)先訓(xùn)練的關(guān)系類型分類器用于消除這些關(guān)系的歧義。
還應(yīng)當(dāng)注意,可以以期望的任何組合來使用任何或所有上述實現(xiàn)以形成另外的混合實現(xiàn)。盡管已經(jīng)以特定于結(jié)構(gòu)特征和/或方法動作的語言描述了問題生成技術(shù)實現(xiàn),但是應(yīng)當(dāng)理解,所附權(quán)利要求中定義的主題不一定限于上文中描述的具體特征或動作。相反,上文中描述的具體特征和動作被公開作為實現(xiàn)權(quán)利要求的示例形式。
4.0 示例操作環(huán)境
本文中所描述的問題生成技術(shù)實現(xiàn)在多種類型的通用或?qū)S糜嬎阆到y(tǒng)環(huán)境或配置中操作。圖15示出了可以在其上實現(xiàn)本文中所描述的問題生成技術(shù)的各種實現(xiàn)和元素的通用計算機系統(tǒng)的簡化示例。注意,在圖15所示的簡化的計算設(shè)備10中由折線(broken line)或虛線表示的任何框表示簡化的計算設(shè)備的替選實現(xiàn)。如下所述,這些替選實現(xiàn)中的任一個或全部可以與貫穿本文檔描述的其它替選實現(xiàn)結(jié)合使用。簡化的計算設(shè)備10通常在具有至少某種最小計算能力的設(shè)備中被找到,諸如個人計算機(PC)、服務(wù)器計算機、手持計算設(shè)備、膝上型或移動計算機、諸如蜂窩電話和個人數(shù)字助理(PDA)的通信設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機頂盒、可編程消費電子產(chǎn)品、網(wǎng)絡(luò)PC、小型計算機、大型計算機、以及音頻或視頻媒體播放器。
為了允許設(shè)備實現(xiàn)本文中所描述的問題生成技術(shù)實現(xiàn),設(shè)備應(yīng)當(dāng)具有足夠的計算能力和系統(tǒng)存儲器以實現(xiàn)基本的計算操作。具體地,圖15中所示的簡化的計算設(shè)備10的計算能力一般由一個或多個處理單元12示出,并且還可以包括與系統(tǒng)存儲器16通信的一個或多個圖形處理單元(GPU)14。注意,簡化的計算設(shè)備10的一個或多個處理單元12可以是專用微處理器(諸如數(shù)字信號處理器(DSP)、超長指令字(VLIW)處理器、現(xiàn)場可編程門陣列(FPGA)或其他微控制器),或者可以是具有一個或多個處理核心的傳統(tǒng)的中央處理單元(CPU)。
另外,圖15中所示的簡化的計算設(shè)備10還可以包括其他部件,諸如通信接口18。簡化的計算設(shè)備10還可以包括一個或多個傳統(tǒng)的計算機輸入設(shè)備20(例如,指點設(shè)備、鍵盤、音頻(例如,語音)輸入設(shè)備、視頻輸入設(shè)備、觸覺輸入設(shè)備、手勢識別設(shè)備、用于接收有線或無線數(shù)據(jù)傳輸?shù)脑O(shè)備等)。簡化的計算設(shè)備10還可以包括其它可選部件,諸如一個或多個傳統(tǒng)的計算機輸出設(shè)備22(例如,一個或多個顯示設(shè)備24、音頻輸出設(shè)備、視頻輸出設(shè)備、用于傳輸有線或無線數(shù)據(jù)傳輸?shù)脑O(shè)備等)。注意,用于通用計算機的典型的通信接口18、輸入設(shè)備20、輸出設(shè)備22和存儲設(shè)備26是本領(lǐng)域技術(shù)人員公知的,并且在此不再詳細(xì)描述。
圖15中所示的簡化的計算設(shè)備10還可以包括各種計算機可讀介質(zhì)。計算機可讀介質(zhì)可以是可以由計算機10經(jīng)由存儲設(shè)備26訪問的任何可用介質(zhì),并且可以包括易失性介質(zhì)和作為可移除存儲裝置28和/或不可移除存儲裝置30的非易失性介質(zhì),用于存儲信息,諸如計算機可讀或計算機可執(zhí)行指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)。計算機可讀介質(zhì)包括計算機存儲介質(zhì)和通信介質(zhì)。計算機存儲介質(zhì)是指有形的計算機可讀或機器可讀介質(zhì)或存儲設(shè)備,諸如數(shù)字多功能盤(DVD)、光盤(CD)、軟盤、磁帶驅(qū)動器、硬盤驅(qū)動器、光驅(qū)動器、固態(tài)存儲器設(shè)備、隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、閃存或其它存儲器技術(shù)、磁帶盒、磁帶、磁盤存儲裝置或其它磁存儲設(shè)備。
諸如計算機可讀或計算機可執(zhí)行指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊等信息的保留也可以通過使用各種上述通信介質(zhì)中的任一個(與計算機存儲介質(zhì)相反)編碼一個或多個調(diào)制的數(shù)據(jù)信號或載波、或者其他傳輸機制或通信協(xié)議來實現(xiàn),并且可以包括任何有線或無線信息傳遞機制。注意,術(shù)語“調(diào)制的數(shù)據(jù)信號”或“載波”通常是指以使得在信號中編碼信息的方式設(shè)置或改變其特性中的一個或多個特性的信號。例如,通信介質(zhì)可以包括用于傳送和/或接收一個或多個調(diào)制的數(shù)據(jù)信號或載波的有線介質(zhì)(諸如攜帶一個或多個調(diào)制的數(shù)據(jù)信號的有線網(wǎng)絡(luò)或直接有線連接)以及無線介質(zhì)(諸如聲學(xué)、射頻(RF)、紅外線、激光和其他無線介質(zhì))。
此外,實施本文中所描述的各種問題生成技術(shù)實現(xiàn)中的一些或全部的軟件、程序和/或計算機程序產(chǎn)品或其部分可以從計算機可讀或機器可讀介質(zhì)或存儲設(shè)備以及以計算機可執(zhí)行指令或其他數(shù)據(jù)結(jié)構(gòu)形式的通信介質(zhì)的任何期望組合中存儲、接收、傳送或讀取。
最后,可以在由計算設(shè)備執(zhí)行的計算機可執(zhí)行指令(諸如程序模塊)的一般上下文中進一步描述本文中所描述的問題生成技術(shù)實現(xiàn)。通常,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、部件、數(shù)據(jù)結(jié)構(gòu)等。問題生成技術(shù)實現(xiàn)也可以在分布式計算環(huán)境中實踐,其中任務(wù)由一個或多個遠(yuǎn)程處理設(shè)備執(zhí)行,或者在通過一個或多個通信網(wǎng)絡(luò)鏈接的一個或多個設(shè)備的云內(nèi)執(zhí)行。在分布式計算環(huán)境中,程序模塊可以位于包括媒體存儲設(shè)備的本地和遠(yuǎn)程計算機存儲介質(zhì)中。另外,上述指令可以部分或全部實現(xiàn)為硬件邏輯電路,其可以包括或可以不包括處理器。