專利名稱:解決方案數(shù)據(jù)編輯處理及自動概括處理裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于編輯在由機(jī)器學(xué)習(xí)方法自動概括文檔、文章之類的處理中使用的解決方案數(shù)據(jù)的解決方案數(shù)據(jù)編輯處理,本發(fā)明也涉及利用可編輯的解決方案數(shù)據(jù)采用機(jī)器學(xué)習(xí)方法的自動概括處理。
背景技術(shù):
近年來,利用計(jì)算機(jī)概括文檔、文章等的處理,隨著信息技術(shù)的發(fā)展已經(jīng)變得更加普遍。然而,期望的摘要傾向被認(rèn)為由于個人偏好和概括目的的多樣化而已經(jīng)多樣化。
利用以下的參考文獻(xiàn)1,將描述摘要評估傾向的個人差異。在參考文獻(xiàn)1中,當(dāng)多個評估者通過個別地抽取重要句子進(jìn)行概括時,獲得表4中所表示的、作為對結(jié)果的相互評估測量的一個再現(xiàn)比率(reproduction ratio)和一個相關(guān)比率(relevance ratio)。從參考文獻(xiàn)1的表4中顯然可見,在通過從一組句子中抽取20句子進(jìn)行概括的情況中,就評估者之間的相互評估(一個再現(xiàn)比率和一個相關(guān)比率)而言,評估者A、B、C的每一個的相合度(coincidence degree)在50-70%的范圍,這并不太高。因此估計(jì)在摘要的評估中存在著個人差異。[參考文獻(xiàn)1Yamahiko Ito等“從講義句子中抽取重要句子”,語言處理學(xué)會,第七屆語言處理學(xué)會年會論文集(伊藤山彥 他、講演文を?qū)澫螭摔筏恐匾某槌?、言語処理學(xué)會第7回年次大會発表論文集),2001,pp305-308]在以下的參考文獻(xiàn)2中,也是關(guān)于重要句子抽取處理,表4中表示處理集合A、B、C的交叉驗(yàn)證(cross-verification)精度是最佳的。參考文獻(xiàn)2的表4中所示的交叉驗(yàn)證的目標(biāo)可被認(rèn)為是與同一個評估者所作的處理是相同的。無從知道表4中的集合A、B、C是否由同一個人創(chuàng)建的。然而,處理精度至少在學(xué)習(xí)數(shù)據(jù)是同時地或者被同一個人創(chuàng)建時是良好的,這是很好理解的。[參考文獻(xiàn)2Tsutomu Hirao等“通過支持向量機(jī)抽取重要句子”,信息學(xué)會,基礎(chǔ)論文集(平尾勉他、Support Vector Machineによる重要文抽出、情報(bào)學(xué)會基礎(chǔ)論文),63-16,2001,pp121-127]常規(guī)的研究結(jié)果認(rèn)為,在摘要的評估中存在著個人差異和使用差異。在采用機(jī)器學(xué)習(xí)方法的自動概括處理中,需要創(chuàng)建專用于個別用戶的摘要,而不是根據(jù)相同的評估進(jìn)行概括。為了實(shí)現(xiàn)這一點(diǎn),在自動概括處理中,需要建立這樣一種機(jī)制,其中,用戶能自由地編輯要成為機(jī)器學(xué)習(xí)方法中的被監(jiān)視數(shù)據(jù)(supervised data)的解決方案數(shù)據(jù)。
發(fā)明內(nèi)容
因此,本發(fā)明的目的是實(shí)現(xiàn)一種解決方案數(shù)據(jù)編輯處理裝置和方法,其中,用戶能任意地編輯要成為在機(jī)器學(xué)習(xí)方法或摘要的評估中使用的解決方案數(shù)據(jù)的摘要。
本發(fā)明的另一個目的是實(shí)現(xiàn)一種自動概括處理裝置和方法,其中,對應(yīng)于每個用戶的概括處理,能被機(jī)器學(xué)習(xí)方法用上述解決方案數(shù)據(jù)編輯處理的解決方案數(shù)據(jù)進(jìn)行。
在本發(fā)明中,將摘要及其評估安排得使得用戶能任意地編輯它們,以便能反饋就使用用以前提供的解決方案數(shù)據(jù)作為被監(jiān)視數(shù)據(jù)的機(jī)器學(xué)習(xí)方法的自動概括處理而言什么摘要是被用戶高度評價的信息。
按照本發(fā)明,提供一種解決方案數(shù)據(jù)編輯處理的方法,用于編輯在由機(jī)器學(xué)習(xí)方法進(jìn)行的數(shù)字化文本的自動概括處理中使用的解決方案數(shù)據(jù),該方法包含在顯示器上顯示從文本生成的摘要;接收由用戶設(shè)定的用作該摘要的評估的關(guān)于該摘要的評估信息;以及輸出用該文本和摘要作為問題和用該評估作為解決方案的解決方案數(shù)據(jù)。
在本發(fā)明的解決方案數(shù)據(jù)編輯處理的方法中,該方法也包括在顯示器上顯示文本;接收用戶從文本規(guī)定的部分?jǐn)?shù)據(jù)并用該部分?jǐn)?shù)據(jù)作為摘要;以及輸出用該文本和摘要作為問題并且其中給予該問題一個預(yù)定解決方案的解決方案數(shù)據(jù)?;蛘?,在本發(fā)明的處理的方法中,該方法也包括在顯示器上顯示文本;接收用戶從文本規(guī)定的部分?jǐn)?shù)據(jù)并用該部分?jǐn)?shù)據(jù)作為摘要;以及輸出用該文本作為問題并且其中給予該問題一個包括該摘要的預(yù)定解決方案的解決方案數(shù)據(jù)。
在上述的解決方案數(shù)據(jù)編輯處理的方法中,當(dāng)用該部分?jǐn)?shù)據(jù)作為摘要時,該方法進(jìn)一步包括按照用戶的指令改變該部分?jǐn)?shù)據(jù)的短語;以及用改變了的部分?jǐn)?shù)據(jù)作為摘要。
此外,在本發(fā)明的解決方案數(shù)據(jù)編輯處理的方法中,該方法包含在顯示器上顯示從文本生成的摘要;接收由用戶關(guān)于該摘要的對每個評估質(zhì)量規(guī)定的評估信息并用該評估信息作為質(zhì)量評估;以及輸出用每個評估質(zhì)量的文本和摘要作為問題和用該質(zhì)量評估作為解決方案的解決方案數(shù)據(jù)。
此外,本發(fā)明的解決方案數(shù)據(jù)編輯處理裝置執(zhí)行上述的每個處理過程。
在本發(fā)明中,通過將由用戶編輯的摘要及其評估作為解決方案數(shù)據(jù)反饋給自動概括處理,在機(jī)器學(xué)習(xí)處理中也進(jìn)行對應(yīng)于個別用戶的學(xué)習(xí),以便進(jìn)行專用于該用戶的概括。
按照本發(fā)明的另一個方面,提供一種自動概括處理的方法,用于由機(jī)器學(xué)習(xí)方法利用用文本和文本的摘要作為問題和用摘要的評估作為解決方案的解決方案數(shù)據(jù)自動地概括數(shù)字化文本,該方法包括按照用戶的指令改變解決方案數(shù)據(jù),訪問存儲改變了的解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲裝置;從解決方案數(shù)據(jù)中抽取一對問題的特征集合和解決方案,學(xué)習(xí)從該對中什么特征易于產(chǎn)生什么解決方案,將學(xué)習(xí)結(jié)果數(shù)據(jù)存儲在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲裝置中;從輸入文本數(shù)據(jù)中生成摘要候選;從該文本數(shù)據(jù)和摘要候選中抽取一個特征集合,根據(jù)學(xué)習(xí)結(jié)果數(shù)據(jù)估計(jì)從該特征集合中易于產(chǎn)生什么解決方案,獲得一個是估計(jì)解決方案的可靠度因子(certainty factor),生成摘要候選和估計(jì)解決方案對;以及從來自摘要候選和估計(jì)解決方案的各對中的估計(jì)解決方案的各對中,選擇估計(jì)解決方案的可靠度因子最大的一對,并用該對的摘要候選作為摘要。
在本發(fā)明的自動概括處理的方法中,該方法也包括按照用戶的指令改變解決方案數(shù)據(jù),訪問存儲改變了的解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲裝置;從解決方案數(shù)據(jù)中抽取一對解決方案或解決方案候選和問題的特征集合,學(xué)習(xí)從所抽取的各對中什么解決方案或解決方案候選和特征集合產(chǎn)生肯定性例子的概率或否定性例子的概率,將學(xué)習(xí)結(jié)果數(shù)據(jù)存儲在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲裝置中;從輸入文本數(shù)據(jù)中生成摘要候選;從文本數(shù)據(jù)和摘要候選中抽取特征集合和解候選的一對,就特征集合和摘要候選的一對而言,估計(jì)肯定性例子的概率或否定性例子的概率,生成一對摘要候選和估計(jì)解決方案;以及從摘要候選和估計(jì)解決方案的各對中選擇該估計(jì)解決方案的肯定性例子的可靠度因子最大的一對,并用所選擇的該對的摘要候選作為摘要。
在上述自動概括處理的方法中,當(dāng)訪問解決方案數(shù)據(jù)存儲裝置時,被訪問的解決方案數(shù)據(jù)存儲裝置存儲其解決方案是關(guān)于摘要對每個評估質(zhì)量的評估信息的解決方案數(shù)據(jù);在從摘要候選和估計(jì)解決方案的一對中選擇摘要時,接受每一個評估質(zhì)量的成對的評估信息,選擇摘要候選和具有與該成對信息最相似的估計(jì)解決方案的估計(jì)解決方案的一對,用該對的摘要候選作為摘要。
在本發(fā)明的自動概括處理的方法中,該方法也包括按照用戶的指令改變解決方案數(shù)據(jù),訪問存儲改變了的解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲裝置;從解決方案數(shù)據(jù)中抽取一對問題的特征集合和解決方案,學(xué)習(xí)從該對中什么特征易于產(chǎn)生什么解決方案,將學(xué)習(xí)結(jié)果數(shù)據(jù)存儲在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲裝置中;以及從輸入文本數(shù)據(jù)中抽取特征集合,并根據(jù)學(xué)習(xí)結(jié)果數(shù)據(jù)估計(jì)從該特征集合中易于產(chǎn)生什么解決方案。
此外,本發(fā)明的自動概括處理裝置是一種執(zhí)行上述的自動概括處理方法的每個處理過程的裝置。
按照本發(fā)明的處理裝置的每個裝置、功能或元件也可以由計(jì)算機(jī)可執(zhí)行的處理程序?qū)崿F(xiàn)。處理程序可以存儲在適當(dāng)?shù)挠?jì)算機(jī)可讀的記錄介質(zhì)中,諸如可拆卸介質(zhì)的存儲器、半導(dǎo)體存儲器或硬盤等中。處理程序也通過在這些記錄介質(zhì)上的記錄而提供?;蛘撸幚沓绦蛲ㄟ^利用通過通信接口的通信網(wǎng)絡(luò)的發(fā)送/接收而提供。
圖1是表示按照本發(fā)明第一實(shí)施例的處理裝置的配置的例于的圖示;圖2是表示按照第一實(shí)施例的評估用戶化處理的流程圖;
圖3是表示一例要作為目標(biāo)的文本的圖示;圖4A是表示一例摘要的圖示;圖4B是表示一例摘要的圖示;圖4C是表示一例摘要的圖示;圖5是表示圖1中所示的處理裝置中的機(jī)器學(xué)習(xí)處理和自動概括處理的流程圖;圖6是表示按照本發(fā)明第一實(shí)施例的處理裝置的配置的另一個例子的圖示;圖7是表示圖6中所示的處理裝置中的機(jī)器學(xué)習(xí)處理和自動概括處理的流程圖;圖8是表示按照本發(fā)明第二實(shí)施例的處理裝置的配置的例子的圖示;圖9是表示按照第二實(shí)施例的評估用戶化處理的流程圖;圖10是表示一例要顯示的文本和一例由用戶A規(guī)定的范圍的圖示;圖11是表示一例要顯示的文本和一例由用戶B規(guī)定的范圍的圖示;圖12是表示一例要顯示的文本和一例由用戶C規(guī)定的范圍的圖示;圖13是表示一例由用戶規(guī)定的范圍的顯示的圖示;圖14是表示按照本發(fā)明第二實(shí)施例的處理裝置的配置的另一個例子的圖示;圖15是表示按照本發(fā)明第三實(shí)施例的處理裝置的配置的例子的圖示;圖16是表示按照第三實(shí)施例的評估用戶化處理的流程圖;圖17是表示質(zhì)量信息設(shè)置屏的例子的圖示;圖18是表示質(zhì)量信息設(shè)置屏的例子的圖示;圖19是表示按照本發(fā)明第三實(shí)施例的處理裝置的配置的另一個例子的圖示;圖20是表示按照本發(fā)明第四實(shí)施例的處理裝置的配置的例子的圖示;圖21是表示圖20中所示的處理裝置中的機(jī)器學(xué)習(xí)處理和自動概括處理的流程圖。
具體實(shí)施例方式
以下,描述第一實(shí)施例。
圖1表示按照本發(fā)明第一實(shí)施例的處理裝置的配置的例子。自動摘要處理裝置10包含評估用戶化裝置110,解決方案數(shù)據(jù)存儲單元120,解決方案和特征對抽取單元121,機(jī)器學(xué)習(xí)單元122,學(xué)習(xí)結(jié)果數(shù)據(jù)存儲單元123,摘要候選生成單元124,特征抽取單元125,摘要候選和估計(jì)解決方案對生成單元126,以及摘要選擇單元128。
評估用戶化裝置110是用于實(shí)現(xiàn)解決方案數(shù)據(jù)編輯處理的處理裝置。解決方案數(shù)據(jù)存儲單元120、解決方案和特征對抽取單元121、機(jī)器學(xué)習(xí)單元122和學(xué)習(xí)結(jié)果數(shù)據(jù)存儲單元123是用于實(shí)現(xiàn)在自動概括處理中執(zhí)行的機(jī)器學(xué)習(xí)處理的處理裝置。
評估用戶化裝置110是用于為每個用戶定制一個摘要及其評估的裝置,包括一個摘要顯示單元111和一個評估創(chuàng)建單元112。
摘要顯示單元111是一個用于在顯示器(圖1中未予示出)上顯示預(yù)先準(zhǔn)備的文本和摘要4的顯示裝置。文本和摘要4是包含文本及其摘要的數(shù)據(jù)。這里,文本的意思是包含一個或多個句子、段或章節(jié)一諸如文檔、新聞、文章、雜志或書籍的文本數(shù)據(jù)。摘要是從文本中概括的文檔數(shù)據(jù)。例如,摘要是由手工創(chuàng)建的,是由自動概括處理裝置10為輸入文本2輸出的摘要3,或者是由摘要候選生成單元124生成的、存儲在解決方案數(shù)據(jù)存儲單元120中的摘要候選。
評估創(chuàng)建單元112是用于創(chuàng)建由用戶為用摘要顯示單元111顯示的摘要輸入的評估、或者把預(yù)先與摘要一起提供的評估改變成由用戶輸入的評估的裝置。
解決方案數(shù)據(jù)存儲單元120是用于存儲要在機(jī)器學(xué)習(xí)單元122執(zhí)行機(jī)器學(xué)習(xí)方法時作為被監(jiān)督的數(shù)據(jù)的解決方案數(shù)據(jù)的裝置。解決方案數(shù)據(jù)存儲單元120以解決方案數(shù)據(jù)的形式存儲一個案例,它是一對“問題”和“解決方案”,問題是由一個文本和文本的摘要組成的,解決方案是對摘要的評估。
解決方案和特征對抽取單元121,是用于為存儲在解決方案數(shù)據(jù)存儲單元120的每個案例抽取一對解決方案和特征集合的裝置。特征的意思是用于分析的詳細(xì)信息單位,在這里有如下的意思(1)指示句子順暢性的信息,(2)指示內(nèi)容是否被適當(dāng)表達(dá)的信息,(3)用于自動概括處理的特征信息。
機(jī)器學(xué)習(xí)單元122是用于由機(jī)器學(xué)習(xí)方法學(xué)習(xí)用解決方案和特征對抽取單元121從解決方案和特征集合的各對中抽取什么特征集合易于產(chǎn)生什么解決方案、并將學(xué)習(xí)結(jié)果保存在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲單元123中的裝置。機(jī)器學(xué)習(xí)單元122可以通過應(yīng)用使用任何方法的處理方法實(shí)現(xiàn)—條件是該方法是使用解決方案數(shù)據(jù)的機(jī)器學(xué)習(xí)方法。對于某處理方法來說,例如有決策樹方法、支持向量方法、參數(shù)調(diào)整方法、簡單貝葉斯(Baysian)方法、最大熵(entropy)方法和決策列表方法。
學(xué)習(xí)結(jié)果數(shù)據(jù)存儲單元123是用于存儲機(jī)器學(xué)習(xí)單元122的學(xué)習(xí)結(jié)果數(shù)據(jù)的裝置。
摘要候選生成單元124是用于根據(jù)預(yù)定方法從輸入文本2生成摘要候選的裝置。摘要候選生成單元124用各種現(xiàn)有方法生成摘要候選,這些方法例如是重要句子選擇模型、重要位置選擇模型、使用轉(zhuǎn)換規(guī)則的模型、使用隨機(jī)生成的模型。
特征抽取單元125是用于抽取關(guān)于測試2和由摘要候選生成單元124生成的摘要候選的特征集合并把該特征集合傳送給摘要候選和估計(jì)解決方案對生成單元126的裝置。
摘要候選和估計(jì)解決方案對生成單元126是用于參考學(xué)習(xí)結(jié)果數(shù)據(jù)存儲單元123中的學(xué)習(xí)結(jié)果數(shù)據(jù)就從特征抽取單元125傳送的特征集合而言估計(jì)什么解決方案易于產(chǎn)生、并用于生成一對摘要候選和估計(jì)解決方案(摘要候選和估計(jì)解決方案對)127的裝置。摘要候選和估計(jì)解決方案對生成單元126進(jìn)一步獲得一個可靠度因子(概率)并將其賦予摘要候選和估計(jì)解決方案對127。
摘要選擇單元128是用于接收摘要候選和估計(jì)解決方案對127、并用于選擇有最大可靠度因子的摘要候選和估計(jì)解決方案對127和用該摘要候選作為摘要3的裝置。
為了解釋按照第一實(shí)施例的評估用戶化處理,考察三個用戶A、B、C定制每一個摘要的情形。假設(shè)用戶A通過重視摘要包括對精度的描述這一點(diǎn)來評估摘要。假設(shè)用戶B通過重視摘要包括對方法的描述這一點(diǎn)來評估摘要。假設(shè)用戶C通過重視摘要包括對精度和方法二者的描述這一點(diǎn)來評估摘要。也假設(shè)通過劃分成三個等級,即通過分組(評估)成下述之一評估1=好,評估2=中,評估3=差,來進(jìn)行對摘要的評估。
圖2表示按照第一實(shí)施例的評估用戶化處理的流程圖。首先假設(shè)已經(jīng)準(zhǔn)備好文本和摘要4。圖3表示一例文本和摘要4,圖4A、4B和4C表示摘要的例子。圖4A-4C分別表示r1、r2和r3這三個摘要。
摘要顯示單元111在顯示屏上顯示從文本和摘要4提取的摘要(步驟S1)。評估創(chuàng)建單元112接收用戶輸入的評估并用該輸入評估作為所顯示摘要的解決方案(評估)(步驟S2)。
這里,假設(shè)用戶A使用自動概括處理裝置10。用戶A賦予圖4A中的摘要r1“評估1”,因?yàn)榕c精度有關(guān)的某些東西被抽取作為摘要。當(dāng)評估創(chuàng)建單元112接收用戶輸入的“評估1”時,評估創(chuàng)建單元112將評估1設(shè)置為案例c1的解決方案。
下一步,當(dāng)摘要顯示單元111顯示圖4B中所示的案例c2的摘要r2時,用戶A賦予摘要r2“評估3”,因?yàn)榕c精度有關(guān)的某些東西沒有被抽取在摘要r2中。評估創(chuàng)建單元112將評估3設(shè)置為案例c2的解決方案。
此外,當(dāng)摘要顯示單元111顯示圖4C中所示的案例c3的摘要r3時,用戶A賦予摘要r3“評估2”,因?yàn)楸M管與精度有關(guān)的某些東西被抽取在摘要r3中,但摘要r3還有些長。評估創(chuàng)建單元112將評估2設(shè)置為案例c3的解決方案。
以同樣的方式,考察用戶B的情形。用戶B賦予圖4A中的摘要r1“評估3”,因?yàn)橛信c方法有關(guān)的某些東西沒有被抽取。用戶B還賦予圖4B中的摘要r2“評估1”,因?yàn)榕c方法有關(guān)的某些東西被抽取在摘要r2中。此外,用戶B賦予圖4C中的摘要r3“評估2”,因?yàn)楸M管與方法有關(guān)的某些東西被抽取,但摘要r3還有些長。
以同樣的方式,考察用戶C的情形。用戶C賦予圖4A中的摘要r1“評估2,因?yàn)榕c精度有關(guān)的某些東西被抽取,然而,與方法有關(guān)的某些東西沒有被抽取。用戶C還賦予圖4B中的摘要r2“評估2”,因?yàn)榕c方法有關(guān)的某些東西被抽取,然而,與精度有關(guān)的某些東西沒有被抽取。此外,用戶C賦予圖4C中的摘要r3“評估1”,因?yàn)楸M管摘要r3還有些長,但與方法有關(guān)的某些東西和與精度有關(guān)的某些東西都被抽取。
評估創(chuàng)建單元112分別為用戶B和用戶C設(shè)置對摘要r1-r3的輸入評估,作為案例c1-c3的解決方案(評估)。
然后,評估用戶化裝置110將由文本和摘要4給出的文本、文本的摘要和解決方案作為一個案例存儲在解決方案數(shù)據(jù)存儲裝置120中(步驟S3)。
圖5表示機(jī)器學(xué)習(xí)處理和自動概括處理的流程圖。解決方案和特征對抽取單元121從解決方案數(shù)據(jù)存儲單元120為每個案例抽取一對解決方案和特征集合(步驟S11)。
解決方案和特征對抽取單元121例如抽取以下特征(1)作為指示句子流暢性的信息—主體中k語法詞素串的存在、具有修飾關(guān)系的從句之間的語義一致性,等等,(2)作為指示內(nèi)容是否被表達(dá)的信息—概括之前的文本中含有的關(guān)鍵短語的包含率,等等,(3)作為用于自動概括的信息—句子位置和是否該句子是引導(dǎo)句子、TF/IDF(TF(Term Frequency)詞條頻率,表示文檔中單詞的出現(xiàn)次數(shù)或指示文檔中詞頻的值;IDF(Inversed Document Frequency)逆文檔頻率,表示在預(yù)先具有的許多組文檔中包含該單詞的文檔數(shù)的倒數(shù))、文檔的長度、諸如特定措辭的關(guān)鍵措辭的存在、連詞和功能詞等等。
然后,機(jī)器學(xué)習(xí)單元122學(xué)習(xí)從解決方案和特征集合的各對中什么特征集易于產(chǎn)生什么解決方案,并將學(xué)習(xí)結(jié)果存儲在學(xué)習(xí)結(jié)構(gòu)數(shù)據(jù)存儲單元123中(步驟S12)。
這里,就用戶A的處理而言,在解決方案數(shù)據(jù)存儲單元120中存儲的解決方案數(shù)據(jù)“案例問題→解決方案”如下案例c1文本-摘要r1→評估1,案例c2文本-摘要r2→評估3,案例c3文本-摘要r3→評估2,機(jī)器學(xué)習(xí)單元122通過機(jī)器學(xué)習(xí),根據(jù)解決方案數(shù)據(jù)學(xué)到評估1到評估3是在什么情況中產(chǎn)生的。例如,從案例c1→評估1和案例c3→評估2,機(jī)器學(xué)習(xí)單元122學(xué)到,當(dāng)出現(xiàn)精確的措辭時,例如出現(xiàn)措辭“數(shù)值字符+[%]”時,評估提高。這里,措辭“數(shù)值字符+[%]”是一例用于機(jī)器學(xué)習(xí)處理的特征。
另外,就用戶B的處理而言,解決方案數(shù)據(jù)“案例問題→解決方案”如下
案例c1文本-摘要r1→評估3,案例c2文本-摘要r2→評估1,案例c3文本-摘要r3→評估2,機(jī)器學(xué)習(xí)單元122學(xué)到,當(dāng)出現(xiàn)對應(yīng)于諸如“關(guān)鍵措辭”和“例子”之類的方法的技術(shù)術(shù)語時,評估提高。
另外,就用戶C的處理而言,解決方案數(shù)據(jù)“案例問題→解決方案”如下案例c1文本-摘要r1→評估2,案例c2文本-摘要r2→評估2,案例c3文本-摘要r3→評估1,機(jī)器學(xué)習(xí)單元122學(xué)到,當(dāng)出現(xiàn)對應(yīng)于精度和方法的兩種措辭時,評估提高。此外,由于要作為摘要輸出的句子越短,就被評估得越好,就個別處理來說,進(jìn)行學(xué)習(xí),使得句子越短,就被評估得越好。
用作機(jī)器學(xué)習(xí)方法的,例如有簡單貝葉斯方法、決策列表方法、最大熵方法和支持向量機(jī)方法。
簡單貝葉斯方法是根據(jù)貝葉斯定理估計(jì)落入每個類別的概率的方法,將概率值最高的類別設(shè)置為要獲得的類別。
決策列表方法中,設(shè)定特征和類別目標(biāo)(classificationdestination)的各對作為規(guī)則,并以預(yù)定的優(yōu)先順序存儲在一個列表中,當(dāng)要成為檢查目標(biāo)的輸入被給出時,從具有高優(yōu)先級的對開始將輸入數(shù)據(jù)與特征規(guī)則作比較,將具有匹配的特征的規(guī)則的類別目標(biāo)設(shè)定為該輸入的類別目標(biāo)。
最大熵方法中,當(dāng)假設(shè)預(yù)定的特征fj(1<=j(luò)<=k)集合是F時,當(dāng)滿足預(yù)定的條件措辭時、在最大化指示熵的措辭的時刻獲得概率分布,將具有最高概率值的類別設(shè)定為要在按照概率分布獲得的每個類別的概率中獲得的類別。
支持向量機(jī)方法是一種通過將空間劃分成超平面對包含兩個類別的數(shù)據(jù)分類的方法。
決策列表方法和最大熵方法在下面的參考文獻(xiàn)3中有說明,支持向量機(jī)方法在下面的參考文獻(xiàn)4和5中有說明。[參考文獻(xiàn)3Masaki Murata、Masao Uchiyama、Kiyotaka Uchimoto、Ma Sei、Hitoshi Isahara,Resolving Multisense experiment usingvarious machine learning methods(采用各種機(jī)器學(xué)習(xí)方法解析多意試驗(yàn)),The Institute of Electronics,Information,andCommunication Engineers,Study group on languageunderstanding and communication(電子、信息和通信工程師學(xué)會,語言理解和通信研究組),(村田真樹、內(nèi)山將夫、內(nèi)元清貴、馬青、井佐原均、種マの機(jī)械學(xué)習(xí)法を用いた多義解消実験、電子情報(bào)通信學(xué)會言語理解とコミユニケ一シヨン研究會),NCL2001-2,(2001)][參考文獻(xiàn)4Nello Crstianini和John Shawe-TaylorAnIntroduction to Support Vector Machines and other kernel-based learning methods(Cambridge University Press,2000)(支持向量機(jī)和其它基于內(nèi)核的學(xué)習(xí)方法的介紹,劍橋大學(xué)出版社,2000年)][參考文獻(xiàn)5Taku Kudoh,TinysvmSupport Vector Machines(支持向量機(jī))(http//c1.aist-nara.ac.jp/taku-ku//software/TnySvM/index.html,2000)”]之后,輸入要獲得其摘要的文本2(步驟S13)。摘要候選生成單元124例如用下文所示的處理模型從文本2生成一個摘要候選(步驟S14) (a)重要句子選擇模型重要句子選擇模型是一種用于通過設(shè)定句子為單位(unit)并只留下目標(biāo)文本中被認(rèn)為是重要的句子而獲得摘要的模型。就這個模型而言,將在所有狀態(tài)中選擇的句子設(shè)定為解決方案候選是有效的。另外,如果所有解決方案都被選作候選而產(chǎn)生計(jì)算速度的問題時,采用一個預(yù)先準(zhǔn)備好準(zhǔn)則的選擇規(guī)則,只有處于滿足該選擇規(guī)則的狀態(tài)的句子才可以被設(shè)定為解決方案候選。這意味著通過使用預(yù)定的選擇規(guī)則減少候選的數(shù)量而降低處理負(fù)荷。在這點(diǎn)上,選擇規(guī)則數(shù)據(jù)可以是手工創(chuàng)建的規(guī)則。
(b)重要部分選擇模型重要位置選擇模型是一種用于通過設(shè)定句子的較小部分為單位并從目標(biāo)文本的句子中去除不必要的部分而獲得摘要的模型。除了摘要的單位被設(shè)定為句子的較小部分以外,這個方法與上述的(a)重要句子選擇模型相同。例如,單詞、短語之類被用作句子的較小部分。具體來說,通過選擇已經(jīng)去除了不必要的部分的句子而獲得摘要。就重要部分選擇模型而言,選擇所有狀態(tài)中的所有予句(clause)設(shè)定為解決方案候選。另外,如果所有解決方案都被選作候選而產(chǎn)生計(jì)算速度的問題時,與上述的(a)重要句子選擇模型中的方式相同,預(yù)先準(zhǔn)備一個選擇規(guī)則,只把處于滿足該選擇規(guī)則的狀態(tài)的句子設(shè)定為解決方案候選。
(c)轉(zhuǎn)換規(guī)則使用模型轉(zhuǎn)換規(guī)則使用模型是一種其中用預(yù)先準(zhǔn)備的轉(zhuǎn)換規(guī)則生成摘要的模型。轉(zhuǎn)換規(guī)則是通過自動處理獲得的或者是手工創(chuàng)建的。例如,預(yù)先創(chuàng)建一個將“執(zhí)行X,然后執(zhí)行Y”轉(zhuǎn)換成“執(zhí)行X”和“執(zhí)行Y”的轉(zhuǎn)換規(guī)則。當(dāng)給出“執(zhí)行A,然后執(zhí)行B”這個輸入時,就生成摘要候選“執(zhí)行A”和“執(zhí)行B”。
(d)隨機(jī)生成使用模型隨機(jī)生成使用模型是這樣一個模型,例如,如果給出輸入“…X…”,則將“…Y…”設(shè)定為摘要候選。此時,要作替換的X可以隨機(jī)地選擇,或者可以按照一個預(yù)先準(zhǔn)備的替換規(guī)則數(shù)據(jù)來規(guī)定。替換規(guī)則數(shù)據(jù)是通過手工創(chuàng)建的或自動獲得的。替換目標(biāo)措辭Y可以從某個字典或字符串集合的單詞中隨機(jī)地選擇,或者可以由預(yù)先準(zhǔn)備的替換規(guī)則數(shù)據(jù)來規(guī)定。如替換規(guī)則數(shù)據(jù)一樣,用手工創(chuàng)建的數(shù)據(jù)或自動獲得的數(shù)據(jù)等作為轉(zhuǎn)換規(guī)則數(shù)據(jù)。此時,如果措辭X和措辭Y不是隨機(jī)選擇的,而是根據(jù)轉(zhuǎn)換規(guī)則數(shù)據(jù)選擇的,則輸出與轉(zhuǎn)換規(guī)則使用模型的輸出相同。
特征抽取單元125通過與解決方案和特征對抽取單元121的幾乎相同的處理,從輸入的文本2和摘要候選中抽取一個特征集合,并把該特征集合傳送給摘要候選和估計(jì)解決方案對生成單元126(步驟S15) 。
摘要候選和估計(jì)解決方案對生成單元126根據(jù)學(xué)習(xí)結(jié)果數(shù)據(jù),就所接收的特征集合而言,估計(jì)易于產(chǎn)生什么解決方案。具體來說,根據(jù)學(xué)習(xí)結(jié)果數(shù)據(jù)計(jì)算多個摘要候選的各個解決方案(評估)和可靠度因子,然后生成摘要候選和估計(jì)解決方案的一個例(摘要候選和估計(jì)解決方案對)127(步驟S16)。
然后,摘要選擇單元128從所生成的各個摘要候選和估計(jì)解決方案對127中選擇具有最高可靠度因子的摘要候選和估計(jì)解決方案對127,并將該摘要候選設(shè)定為摘要3(步驟S17)。
圖6表示按照本發(fā)明第一實(shí)施例的處理裝置的配置的另一個例子。在本實(shí)施實(shí)例中,許多候選都可以被考慮作為解決方案(類別目標(biāo))。然而,可能會發(fā)生類別目標(biāo)的種類數(shù)變得太多以至用一般機(jī)器學(xué)習(xí)方法不能進(jìn)行處理的情形。在這種情況下,在圖6中所示的自動概括處理裝置20中,機(jī)器學(xué)習(xí)單元132使用這樣一種機(jī)器學(xué)習(xí)方法,其中在實(shí)際的機(jī)器學(xué)習(xí)處理中,只考慮兩類解決方案(類別目標(biāo)),即肯定性例子和否定性例子。通過這個手段,即使在許多候選都被考慮作為解決方案(類別目標(biāo)),并且有許多種類的類別目標(biāo)時,也能進(jìn)行處理。
此外,在圖6中所示的自動概括處理裝置20中,作為評估的信息,可被用作機(jī)器學(xué)習(xí)單元132中的學(xué)習(xí)的特征。
自動概括處理裝置20包括評估用戶化裝置110、解決方案數(shù)據(jù)存儲單元130、特征和解決方案對/特征和解決方案候選對抽取單元131、機(jī)器學(xué)習(xí)單元132、學(xué)習(xí)結(jié)果數(shù)據(jù)存儲單元133、摘要候選生成單元134、特征和解決方案候選抽取單元135、摘要候選和估計(jì)解決方案對生成單元136、以及摘要選擇單元138。
解決方案數(shù)據(jù)存儲單元130、特征和解決方案對/特征和解決方案候選對抽取單元131、機(jī)器學(xué)習(xí)單元132和學(xué)習(xí)結(jié)果數(shù)據(jù)存儲單元133是用于實(shí)現(xiàn)在自動概括處理中的機(jī)器學(xué)習(xí)處理的處理裝置。摘要候選生成單元134、特征和解決方案候選對抽取單元135和摘要候選和估計(jì)解決方案對生成單元136是用于實(shí)現(xiàn)摘要候選生成處理的處理裝置。
評估用戶化裝置110和摘要候選生成單元134執(zhí)行與圖1中所示的自動概括處理裝置10中的評估用戶化裝置110和摘要候選生成單元124的相同的處理。
特征和解決方案對/特征和解決方案候選對抽取單元131,是用于從存儲在解決方案數(shù)據(jù)存儲單元130的每個案例抽取成對的解決方案或解決方案候選和特征集合的裝置。這里,解決方案候選的意思是解決方案以外的候選解決方案,由用戶設(shè)定的評估被設(shè)定為解決方案。另外,一對解決方案和特征集合被設(shè)定為肯定性例子,而一對解決方案候選和特征集合則被設(shè)定為否定性例子。
機(jī)器學(xué)習(xí)單元132是用于學(xué)習(xí)在來自解決方案或解決方案候選和特征集合的各對的什么解決方案或解決方案候選和特征集合中肯定性例子的概率和否定性例子的概率、并將學(xué)習(xí)結(jié)果保存在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲單元133中的裝置。
特征和解決方案候選抽取單元135是用于用與特征和解決方案對/特征和解決方案候選對抽取單元131的相同的處理從輸入的文本和摘要候選抽取一對解決方案候選和特征集合的裝置。
摘要候選和估計(jì)解決方案對生成單元136是用于就從特征和解決方案候選抽取單元135傳送的一對解決方案候選和特征集合而獲得肯定性例子的概率和否定性例子的概率、將具有最高的肯定性例子的概率的解決方案設(shè)定為估計(jì)解決方案并在這個情況下生成一對摘要候選和估計(jì)解決方案(摘要候選和估計(jì)解決方案對)137的裝置。
摘要選擇單元138是用于將摘要候選和估計(jì)解決方案對137的摘要候選設(shè)定為摘要3的裝置。
圖7表示自動概括處理裝置20中的機(jī)器學(xué)習(xí)處理和自動概括處理的流程圖。特征和解決方案對/特征和解決方案候選對抽取單元131從解決方案數(shù)據(jù)存儲單元130為每個案例抽取一對解決方案候選和特征集合(步驟S21)。
然后,機(jī)器學(xué)習(xí)單元132學(xué)習(xí)從解決方案或解決方案候選和特征集合的各對中選擇的什么解決方案或解決方案候選和特征集合產(chǎn)生哪個肯定性例子的概率或否定性例子的概率,并將學(xué)習(xí)結(jié)果存儲在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲單元133中(步驟S22)。
之后,輸入要獲得其摘要的文本2(步驟S23)。摘要候選生成單元134通過預(yù)定的方法從文本2生成一個摘要候選(步驟S24)。特征和解決方案候選抽取單元135從輸入的文本2和摘要候選抽取一對特征集合和解決方案候選,將該對傳送到摘要候選和估計(jì)解決方案對生成單元136(步驟S25)。
摘要候選和估計(jì)解決方案對生成單元136就所收到的解決方案候選和特征集合根據(jù)學(xué)習(xí)結(jié)果數(shù)據(jù)估計(jì)肯定性例子的概率或否定性例子的概率,將具有最高概率的候選設(shè)定為估計(jì)解決方案,然后生成摘要候選和估計(jì)解決方案對137(步驟S26)。摘要選擇單元138設(shè)定摘要候選和估計(jì)解決方案對137的摘要候選作為摘要3(步驟S27)。
在第一實(shí)施例中,用戶可以在必要時使用自動概括處理裝置10,并可以在使用該裝置時賦予該摘要輸出以評估1到3。于是,用戶定制摘要的評估時就能不感到操作上的工作負(fù)荷。
以下,將描述第二個實(shí)施例。
圖8表示按照本發(fā)明第二實(shí)施例的處理裝置的配置的例子。圖8中所示的自動摘要處理裝置30包括圖1中所示的自動摘要處理裝置10的除了評估用戶化裝置110以外的每個處理裝置,并且也包括替代評估用戶化裝置110的評估用戶化裝置140。
評估用戶化裝置140包括文本顯示單元141和一個摘要編輯單元142。
文本顯示單元141是用于在顯示器(圖8中未予示出)上顯示預(yù)先準(zhǔn)備的文本5的裝置。
摘要編輯單元142是用于從文本顯示單元141所顯示的文本5中抽取用戶規(guī)定作為摘要的部分或者通過改變用戶規(guī)定的部分中的措辭而編輯摘要的裝置。
圖9表示按照第二實(shí)施例的評估用戶化處理的流程圖。文本顯示單元141提取預(yù)先準(zhǔn)備的文本5,并在顯示器上顯示之(步驟S31)。
在顯示的文本5上,用戶規(guī)定適合作為摘要的部分,用戶規(guī)定的范圍被接受和抽取(步驟S32)。如果所規(guī)定的范圍被編輯,則也接收編輯內(nèi)容,然后,將編輯后的規(guī)定范圍的部分作為摘要來使用(步驟S33) 。
用戶通過使用諸如鼠標(biāo)的指針設(shè)備在所顯示的文本上拖動、或者通過移動光標(biāo)鍵規(guī)定起點(diǎn)位置和終點(diǎn)位置,規(guī)定要用作摘要的范圍。文本顯示單元141通過使用顯示器上的反色調(diào)或標(biāo)記來區(qū)分未被規(guī)定的范圍,而顯示規(guī)定的范圍。
圖10表示一例要顯示的文本和一例由用戶A規(guī)定的范圍。用戶A規(guī)定以下部分為適合作為摘要的部分。
“在對目標(biāo)小說進(jìn)行實(shí)驗(yàn)時,對測試樣本作過的分析,具有再現(xiàn)率84%和相關(guān)率82%的精確度?!?
摘要編輯單元142用用戶A規(guī)定的該部分(圖10中由虛線矩形所指示的部分)作為摘要。
另外,用戶B規(guī)定以下部分為適合作為摘要的部分?!霸谧匀徽Z言中,動詞有時被省略?;謴?fù)被省略的動詞對于實(shí)現(xiàn)交互式系統(tǒng)和高質(zhì)量機(jī)器翻譯系統(tǒng)來說是絕對必要的。因此,在這個研究中,根據(jù)表面措辭(關(guān)鍵詞)和例子補(bǔ)充被省略的動詞?!闭庉媶卧?42用用戶B規(guī)定的該部分(圖11中由虛線矩形所指示的部分)作為摘要。
另外,用戶C規(guī)定以下部分為適合作為摘要的部分?!霸谧匀徽Z言中,動詞有時被省略。恢復(fù)被省略的動詞對于實(shí)現(xiàn)交互式系統(tǒng)和高質(zhì)量機(jī)器翻譯系統(tǒng)來說是絕對必要的。因此,在這個研究中,根據(jù)表面措辭(關(guān)鍵詞)和例子補(bǔ)充被省略的動詞”?!霸趯δ繕?biāo)小說進(jìn)行實(shí)驗(yàn)時,對測試樣本作過的分析,具有再現(xiàn)率84%和相關(guān)率82%的精確度。”摘要編輯單元142用用戶C規(guī)定的該部分(圖12中由虛線矩形所指示的部分)作為摘要。
在這點(diǎn)上,在顯示屏上用戶規(guī)定的范圍可以與文本分開顯示,對于規(guī)定范圍內(nèi)的措辭,用戶還可以通過刪除任意位置或改變措辭來編輯內(nèi)容。例如,如圖13中所示,摘要編輯單元142在與文本不同的域中顯示在文本上規(guī)定的范圍,在該范圍中接受用戶進(jìn)行刪除、增加、改變短語等的輸入。
當(dāng)圖13中所示的顯示屏上的摘要確定按鈕被一個諸如點(diǎn)擊鼠標(biāo)的操作選擇時,摘要編輯單元142接受選擇,抽取該規(guī)定范圍內(nèi)的內(nèi)容作為摘要。然后,當(dāng)圖13中所示的顯示屏上的取消按鈕被選擇時,該規(guī)定范圍內(nèi)的內(nèi)容被清除。
下一步,摘要編輯單元142將文本5和所抽取的摘要與預(yù)定的解決方案(好評估)一起存儲在解決方案數(shù)據(jù)存儲單元130中(步驟S34) 。
評估用戶化裝置140設(shè)定通過把一個預(yù)定的解決方案(差評估)加到一個用戶規(guī)定的摘要以外的摘要而產(chǎn)生的數(shù)據(jù)—該摘要例如是按照第一實(shí)施例由自動概括處理裝置20生成的摘要、由自動概括處理裝置20的摘要候選生成單元124生成的摘要候選、或者作為解決方案數(shù)據(jù)隨機(jī)手工創(chuàng)建的摘要,并把數(shù)據(jù)存儲在解決方案數(shù)據(jù)存儲單元130中。
隨后,機(jī)器學(xué)習(xí)處理和自動概括處理的流程與圖5中所示的處理的流程相同。這里,機(jī)器學(xué)習(xí)單元122為每個用戶學(xué)習(xí)由圖3中所示的文本和圖10至12中所示的任何一個摘要(具體來說,用戶所規(guī)定的范圍)和解決方案構(gòu)成的案例。
圖14是表示按照本發(fā)明第二實(shí)施例的處理裝置的另一個配置例子。在這個實(shí)施例中,會出現(xiàn)存在太多的解決方案(類別目標(biāo))和處理不能被一般機(jī)器學(xué)習(xí)方法執(zhí)行的情況。
因此,在圖14中所示的自動概括處理裝置40中,機(jī)器學(xué)習(xí)單元132通過使用一種機(jī)器學(xué)習(xí)方法使得能夠進(jìn)行處理,在該機(jī)器學(xué)習(xí)方法中,只考慮兩類解決方案(類別目標(biāo)),即肯定性例子和否定性例子。
自動概括處理裝置40包括圖6中所示的自動摘要處理裝置20的除了評估用戶化裝置110以外的每個處理裝置,并且進(jìn)一步包括替代評估用戶化裝置110的評估用戶化裝置140。
在本實(shí)施例中,由于用戶在文本上規(guī)定適合作為摘要的范圍,用戶的工作負(fù)荷比第一實(shí)施例中的工作負(fù)荷重。然而,由于更接近于用戶所需的摘要的數(shù)據(jù)被用作解決方案數(shù)據(jù)(被監(jiān)督的數(shù)據(jù)),又可能更快地學(xué)習(xí)輸出用戶所需的摘要。
以下,將描述第三個實(shí)施例。
圖15是表示按照本發(fā)明第三實(shí)施例的處理裝置的配置的例子。圖15中所示的自動概括處理裝置50包括一個取代圖1中所示的自動摘要處理裝置10的評估用戶化裝置110的評估用戶化裝置150,并且也包括與構(gòu)成自動摘要處理裝置10的處理裝置相同的處理裝置,作為其它處理裝置。
評估用戶化裝置150包括摘要顯示單元151和質(zhì)量信息設(shè)定單元152。
摘要顯示單元151是用于在顯示器(圖15中未予示出)上顯示文本的摘要及預(yù)先準(zhǔn)備的摘要4的裝置。
質(zhì)量信息設(shè)定單元152是用于生成多條關(guān)于摘要的評估的質(zhì)量信息和設(shè)定每個質(zhì)量信息的評估的裝置。
質(zhì)量信息是關(guān)于構(gòu)成摘要的評估的各種質(zhì)量的信息,例如是(1)是否要重視短句子(重視短句子)的信息;(2)是否重視摘要中包括關(guān)于數(shù)量的措辭的事實(shí)(重視定量措辭)的信息;(3)是否重視摘要中包括關(guān)于方法的措辭的事實(shí)(重視方法措詞)的信息;(4)是否重視摘要摘要的寫作風(fēng)格(重視寫作風(fēng)格)的信息;(5)是否重視摘要的可讀性(重視可讀性)的信息。
評估用戶化裝置150的形成,使用戶能設(shè)定多條關(guān)于符合用戶需要的評估的質(zhì)量信息,使得機(jī)器學(xué)習(xí)單元122能學(xué)習(xí)多條關(guān)于摘要的評估的質(zhì)量信息的每一條。然后用多條質(zhì)量信息定義用戶對摘要的評估。
在本實(shí)施例中,解決方案數(shù)據(jù)存儲單元120是對應(yīng)于在質(zhì)量信息設(shè)定單元152中設(shè)定的質(zhì)量信息的條數(shù)準(zhǔn)備的,并且對每條質(zhì)量信息進(jìn)行機(jī)器學(xué)習(xí)。相應(yīng)地,對應(yīng)于質(zhì)量信息的條數(shù),提供解決方案和特征對抽取單元121、機(jī)器學(xué)習(xí)單元122、學(xué)習(xí)結(jié)果數(shù)據(jù)存儲單元123、摘要候選和估計(jì)解決方案對生成單元126的每一個。
圖16表示該評估用戶化處理的流程圖。摘要顯示單元151顯示從文本和摘要4中提取的摘要(步驟S41)。質(zhì)量信息設(shè)定單元152為所顯示的摘要顯示多個質(zhì)量信息項(xiàng),提示用戶輸入每項(xiàng)值、新項(xiàng)設(shè)定等等,并接收用戶的輸入(步驟S42)。
圖17和18表示質(zhì)量信息設(shè)置屏的例子。在質(zhì)量信息設(shè)置屏上,提供對應(yīng)于多條位置信息的每一條的滑動條。用戶通過在任何位置設(shè)定一個滑動鈕,例如在每個質(zhì)量信息滑動條的右邊或左邊設(shè)定滑動按鈕,就能規(guī)定每個質(zhì)量信息的評估。例如,用戶通過移動滑動條上的滑動鈕,就每個質(zhì)量信息項(xiàng),例如就“重視短句子、重視定量措辭、重視方法、重視寫作風(fēng)格、重視可讀性”,設(shè)定給予所顯示摘要什么評估。在圖17和18中,隨著滑動鈕在滑動條的方向上從左邊移向右邊,形成越來越高的評估。用戶通過在滑動條的那一邊上輸入任何質(zhì)量信息,就能自由地定義某個滑動條代表什么。
當(dāng)摘要顯示單元151顯示圖4A中所示的摘要r1時,如圖17中所示,用戶A將“重視短句子”滑動鈕定位在右邊,因?yàn)檎猺1是個短句子;將“重視定量措辭”滑動鈕定位在右邊,因?yàn)檫@里有關(guān)于數(shù)量的措辭;將“重視方法”滑動鈕定位在左邊,因?yàn)檫@里沒有關(guān)于方法的描述;將“重視寫作風(fēng)格”滑動鈕和“重視可讀性”滑動鈕定位在右邊,因?yàn)閷懽黠L(fēng)格和可讀性不是那么差。
另外,當(dāng)摘要顯示單元151顯示圖4B中所示的摘要r2時,如圖18中所示,用戶A將“重視短句子”滑動鈕移動到左邊,以便給出低的評估,因?yàn)檎猺2不是那么短。由于其它質(zhì)量信息相當(dāng)好,將其它質(zhì)量信息的滑動鈕移到右邊,以便給出高的評估。
然后,質(zhì)量信息設(shè)定單元152設(shè)定每個質(zhì)量信息的輸入值作為每個解決方案,將對每個質(zhì)量信息的解決方案與文本和摘要一起存儲在解決方案數(shù)據(jù)存儲單元120中(步驟S43)。
隨后,機(jī)器學(xué)習(xí)處理和自動概括處理的流程幾乎與圖5中所示的處理的流程相同。這里,為每個質(zhì)量信息提供的機(jī)器學(xué)習(xí)單元122用存儲在對應(yīng)的質(zhì)量信息的解決方案數(shù)據(jù)存儲單元120中的案例作為解決方案。
機(jī)器學(xué)習(xí)單元122對每個質(zhì)量信息進(jìn)行學(xué)習(xí)。例如,關(guān)于質(zhì)量信息“重視短句子”,每個案例的解決方案如下在案例c1(摘要r1)中,“解決方案=最右邊”,在案例c2(摘要r2)中,“解決方案=左邊”。機(jī)器學(xué)習(xí)單元122用這些解決方案數(shù)據(jù)作為被監(jiān)視的數(shù)據(jù)來學(xué)習(xí)在什么案例中用重視短句子進(jìn)行評估。對其他質(zhì)量信息也進(jìn)行同樣的學(xué)習(xí)。
在本實(shí)施例中,在機(jī)器學(xué)習(xí)處理之后,摘要候選生成單元123通過預(yù)定的方法從輸入文本2中生成一個摘要候選,特征抽取單元125從輸入文本2和該摘要候選抽取一個特征集合。
然后,摘要候選和估計(jì)解決方案對生成單元126對應(yīng)于每個質(zhì)量信息,根據(jù)學(xué)習(xí)結(jié)果數(shù)據(jù)就所收到的特征集合估計(jì)易于產(chǎn)生什么解決方案,并生成摘要候選和估計(jì)解決方案的一對(摘要候選和估計(jì)解決方案對)127。例如,摘要候選和估計(jì)解決方案對生成單元126根據(jù)學(xué)習(xí)結(jié)果數(shù)據(jù)計(jì)算多個摘要候選的每個估計(jì)解決方案及其可靠度因子,為每個質(zhì)量信息生成摘要候選和估計(jì)解決方案對127。
摘要選擇單元128接收其中賦予了摘要的評估的質(zhì)量信息的多少重要性的用戶評估設(shè)定信息7,按摘要候選和估計(jì)解決方案對127比較每個質(zhì)量信息的評估值和用戶評估設(shè)定信息7,為用戶評估設(shè)定信息7選擇最相似的摘要候選和估計(jì)解決方案對、或者最適合的摘要候選和估計(jì)解決方案對,以設(shè)定摘要候選和估計(jì)解決方案對127的摘要候選作為摘要3。
摘要選擇單元128可以顯示如圖17中所示的質(zhì)量信息設(shè)定屏,提示用戶通過改變每項(xiàng)質(zhì)量信息的滑動條上的滑動鈕的位置來設(shè)定當(dāng)前必需的是摘要質(zhì)量的用戶評估設(shè)定信息7。
例如,當(dāng)“重視短句子”滑動鈕、“重視定量措辭”滑動鈕和“重視方法”滑動鈕移動到最右邊,并將“重視寫作風(fēng)格”滑動鈕和“重視可讀性”滑動鈕移動到最左邊時,用戶評估設(shè)定信息7的意思是,用戶請求將摘要3改編成其中句子最好較短、有定量措詞和方法、但是不管寫作風(fēng)格和可讀性的質(zhì)量評估。
作為摘要候選和估計(jì)解決方案對127的一個簡單選擇方法,摘要選擇單元128也可以利用例如以下的表達(dá)式來獲得所有解決方案的組合值Total_Score(總分)。
Total_Score=a(重視短句子)×score(重視短句子)+a(重視定量措辭)×score(重視定量措辭)+a(重視方法)×score(重視方法)+a(重視寫作風(fēng)格)×score(重視寫作風(fēng)格)+a(重視可讀性)×score(重視可讀性)其中a(X)是一個從由用戶規(guī)定的質(zhì)量信息X的滑動條上的滑動鈕的位置獲得的值。該值隨滑動鈕在滑動條的右邊的位置而變大。值score(X)是根據(jù)學(xué)習(xí)結(jié)果數(shù)據(jù)計(jì)算的質(zhì)量信息X的評估的值。摘要選擇單元128選擇具有最大組合值Total-Score的摘要候選和估計(jì)解決方案對127,并輸出該摘要候選作為摘要3。
在本實(shí)施例中,其中摘要被用在機(jī)器學(xué)習(xí)單元122中的處理方法,被顯示并被用戶評估,并且類似于在第一實(shí)施例中的處理。然而,在本實(shí)施例中,作為第二實(shí)施例中的機(jī)器學(xué)習(xí)方法,用戶可以從文本中規(guī)定一個適合作為摘要的范圍,用戶進(jìn)一步利用滑動條等評估多個關(guān)于評估的質(zhì)量,并且可以收集是監(jiān)督人信號的解決方案數(shù)據(jù)。在這種處理的情況下,就能應(yīng)對即使同一個用戶對每個處理請求一個不同類型的摘要的情形。并且也能同時學(xué)習(xí)多條質(zhì)量信息,由此能在用戶給出評估(解決方案)時降低整個處理負(fù)荷。
在本實(shí)施例中,可以使用具有如圖19中所示的處理裝置的配置的自動概括處理裝置60。圖19的自動概括處理裝置60包括構(gòu)成圖6中所示的自動摘要處理裝置20的、除了評估用戶化裝置110以外的每個處理裝置的處理裝置,并且包括取代評估用戶化裝置110的評估用戶化裝置150。
自動概括處理裝置60通過采用一種在實(shí)際的機(jī)器學(xué)習(xí)處理中只考慮兩類解決方案(類別目標(biāo))—即肯定性例子和否定性例子—的機(jī)器學(xué)習(xí)方法,能夠避免機(jī)器學(xué)習(xí)處理中過重的處理負(fù)荷。
如上所述,通過本發(fā)明的各個實(shí)施例對本發(fā)明進(jìn)行了說明,但是在本發(fā)明的范圍內(nèi)可以作出各種改變。例如,有可能對從第一到第三的實(shí)施例中的任意實(shí)施例進(jìn)行組合。
以下,將說明第四個實(shí)施例。
圖20表示按照本發(fā)明第四實(shí)施例的處理裝置的配置的例子。圖20中所示的自動概括處理裝置70包括解決方案數(shù)據(jù)存儲單元120、解決方案和特征對抽取單元121、機(jī)器學(xué)習(xí)單元122、學(xué)習(xí)結(jié)果數(shù)據(jù)存儲單元123、特征抽取單元125、解決方案估計(jì)單元160以及評估用戶化裝置140。
自動概括處理裝置70的每個單元,即解決方案數(shù)據(jù)存儲單元120、解決方案和特征對抽取單元121、機(jī)器學(xué)習(xí)單元122、學(xué)習(xí)結(jié)果數(shù)據(jù)存儲單元123、特征抽取單元125和評估用戶化裝置140,都是執(zhí)行與圖8中所示的具有相同標(biāo)號的處理裝置所執(zhí)行的幾乎類似的處理的處理裝置。
解決方案估計(jì)單元160是用于參考學(xué)習(xí)結(jié)果數(shù)據(jù)存儲單元123中的學(xué)習(xí)結(jié)果數(shù)據(jù)、估計(jì)就從特征抽取單元125傳送的特征集合而言易于產(chǎn)生什么解決方案、并將估計(jì)解決方案161設(shè)定為摘要3的裝置。
在本實(shí)施例中,解決方案數(shù)據(jù)存儲單元120存儲具有一個作為問題的文本和一個作為解決方案的該文本的摘要的解決方案數(shù)據(jù),機(jī)器學(xué)習(xí)單元122利用從這些解決方案數(shù)據(jù)中抽取的解決方案和特征對進(jìn)行機(jī)器學(xué)習(xí)。特征抽取單元125也抽取輸入文本2的特征,并將其傳送到解決方案估計(jì)單元160。
圖21表示按照第四實(shí)施例的機(jī)器學(xué)習(xí)處理和自動概括處理。
解決方案和特征對抽取單元121從解決方案數(shù)據(jù)存儲單元120為每個案例抽取一對解決方案和特征集合(步驟S51)。下一步,機(jī)器學(xué)習(xí)單元122學(xué)習(xí)從解決方案和特征集合的各對中什么特征集合易于產(chǎn)生什么解決方案,并將學(xué)習(xí)結(jié)果存儲在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲單元123(步驟S52)。在這點(diǎn)上,步驟S51和S52中的處理與圖5中所示的步驟S11和S12中的處理是相同的。
之后,輸入要獲得其摘要的文本2(步驟S53)。特征抽取單元125通過與解決方案和特征對抽取單元121幾乎相同的處理,從輸入的文本2抽取一個特征集合,并將其傳送給解決方案估計(jì)單元160(步驟S54)。然后,解決方案估計(jì)單元160根據(jù)學(xué)習(xí)結(jié)果就所接收的特征集合而言估計(jì)易于產(chǎn)生什么解決方案,且設(shè)定該估計(jì)解決方案161作為摘要3(步驟S55)。
在本實(shí)施例中,利用具有作為解決方案的一個文本的摘要的解決方案數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),要成為摘要的估計(jì)解決方案是參考該學(xué)習(xí)結(jié)果直接在解決方案估計(jì)處理中獲得的。
如上所述,通過本發(fā)明,用戶能任意地設(shè)定對要成為機(jī)器學(xué)習(xí)的解決方案數(shù)據(jù)的摘要的估計(jì)。通過這種手段,即使在使用計(jì)算機(jī)的自動概括處理中,也能進(jìn)行專用于用戶的概括而不是按一個類別的概括。
另外,即使是同一個人作的摘要的評估,也被認(rèn)為是變化的。通過本發(fā)明,即使由同一個人評估,也能按需設(shè)定一個摘要的評估。這樣,通過用新的解決方案數(shù)據(jù)再次進(jìn)行機(jī)器學(xué)習(xí),就能進(jìn)行適合新的評估方面的概括。
權(quán)利要求
1.解決方案數(shù)據(jù)編輯處理裝置,用于編輯在由機(jī)器學(xué)習(xí)方法進(jìn)行的數(shù)字化文本的自動概括處理中使用的解決方案數(shù)據(jù),該裝置包含摘要顯示處理裝置,用于在顯示器上顯示從文本生成的摘要;評估創(chuàng)建處理裝置,用于接收由用戶設(shè)定的用作該摘要的評估的關(guān)于該摘要的評估信息;和解決方案數(shù)據(jù)輸出處理裝置,用于輸出用該文本和摘要作為問題和用該評估作為解決方案的解決方案數(shù)據(jù)。
2.解決方案數(shù)據(jù)編輯處理裝置,用于編輯在由機(jī)器學(xué)習(xí)方法進(jìn)行的數(shù)字化文本的自動概括處理中使用的解決方案數(shù)據(jù),該裝置包含文本顯示處理裝置,用于在顯示器上顯示文本;摘要編輯處理裝置,用于接收用戶從文本規(guī)定的部分?jǐn)?shù)據(jù)并用該部分?jǐn)?shù)據(jù)作為摘要;和解決方案數(shù)據(jù)輸出處理裝置,用于輸出用該文本和摘要作為問題并且其中給予該問題一個預(yù)定解決方案的解決方案數(shù)據(jù)。
3.按照權(quán)利要求2的解決方案數(shù)據(jù)編輯處理裝置,其中,摘要編輯處理裝置進(jìn)一步按照用戶的指令改變該部分?jǐn)?shù)據(jù)的短語,用改變了的部分?jǐn)?shù)據(jù)作為摘要。
4.解決方案數(shù)據(jù)編輯處理裝置,用于編輯在由機(jī)器學(xué)習(xí)方法進(jìn)行的數(shù)字化文本的自動概括處理中使用的解決方案數(shù)據(jù),該裝置包含文本顯示處理裝置,用于在顯示器上顯示文本;摘要編輯處理裝置,用于接收用戶從文本規(guī)定的部分?jǐn)?shù)據(jù)并用該部分?jǐn)?shù)據(jù)作為摘要;和解決方案數(shù)據(jù)輸出處理裝置,用于輸出用該文本作為問題并且其中給予該問題一個包括該摘要的預(yù)定解決方案的解決方案數(shù)據(jù)。
5.按照權(quán)利要求4的解決方案數(shù)據(jù)編輯處理裝置,其中,摘要編輯處理裝置進(jìn)一步按照用戶的指令改變部分?jǐn)?shù)據(jù)的短語;用改變了的部分?jǐn)?shù)據(jù)作為摘要。
6.解決方案數(shù)據(jù)編輯處理裝置,用于編輯在由機(jī)器學(xué)習(xí)方法進(jìn)行的數(shù)字化文本的自動概括處理中使用的解決方案數(shù)據(jù),該裝置包含摘要顯示處理裝置,用于在顯示器上顯示從文本生成的摘要;評估創(chuàng)建處理裝置,用于接收由用戶規(guī)定的關(guān)于該摘要的每個評估質(zhì)量的評估信息并用該評估信息作為質(zhì)量評估;和解決方案數(shù)據(jù)輸出處理裝置,用于輸出用文本和摘要作為問題和用該質(zhì)量評估作為每個評估質(zhì)量的解決方案的解決方案數(shù)據(jù)。
7.解決方案數(shù)據(jù)編輯處理方法,用于編輯在由機(jī)器學(xué)習(xí)方法進(jìn)行的數(shù)字化文本的自動概括處理中使用的解決方案數(shù)據(jù),該方法包含在顯示器上顯示從文本生成的摘要;接收由用戶設(shè)定的用作該摘要的評估的關(guān)于該摘要的評估信息;和輸出用該文本和摘要作為問題和用該評估作為解決方案的解決方案數(shù)據(jù)。
8.解決方案數(shù)據(jù)編輯處理方法,用于編輯在由機(jī)器學(xué)習(xí)方法進(jìn)行的數(shù)字化文本的自動概括處理中使用的解決方案數(shù)據(jù),該方法包含在顯示器上顯示文本;接收用戶從文本規(guī)定的部分?jǐn)?shù)據(jù)并用該部分?jǐn)?shù)據(jù)作為摘要;和輸出用該文本和摘要作為問題并且其中給予該問題一個預(yù)定解決方案的解決方案數(shù)據(jù)。
9.按照權(quán)利要求8的解決方案數(shù)據(jù)編輯處理方法,其中,在概括該部分?jǐn)?shù)據(jù)時,該方法進(jìn)一步包括按照用戶的指令改變該部分?jǐn)?shù)據(jù)的短語;用改變了的部分?jǐn)?shù)據(jù)作為摘要。
10.解決方案數(shù)據(jù)編輯處理方法,用于編輯在由機(jī)器學(xué)習(xí)方法進(jìn)行的數(shù)字化文本的自動概括處理中使用的解決方案數(shù)據(jù),該方法包含在顯示器上顯示文本;接收用戶從文本規(guī)定的部分?jǐn)?shù)據(jù)并用該部分?jǐn)?shù)據(jù)作為摘要;和輸出用該文本作為問題并且其中給予該問題一個包括該摘要的預(yù)定解決方案的解決方案數(shù)據(jù)。
11.按照權(quán)利要求10的解決方案數(shù)據(jù)編輯處理方法,其中,當(dāng)用該部分?jǐn)?shù)據(jù)作為摘要時,該方法進(jìn)一步包括按照用戶的指令改變該部分?jǐn)?shù)據(jù)的短語;用改變了的部分?jǐn)?shù)據(jù)作為摘要。
12.解決方案數(shù)據(jù)編輯處理方法,用于編輯在由機(jī)器學(xué)習(xí)方法進(jìn)行的數(shù)字化文本的自動概括處理中使用的解決方案數(shù)據(jù),該方法包含在顯示器上顯示從文本生成的摘要;接收由用戶關(guān)于該摘要的對每個評估質(zhì)量規(guī)定的評估信息并用該評估信息作為質(zhì)量評估;和輸出用每個評估質(zhì)量的文本和摘要作為問題和用該質(zhì)量評估作為解決方案的解決方案數(shù)據(jù)。
13.自動概括處理裝置,用于由機(jī)器學(xué)習(xí)方法利用用文本和文本的摘要作為問題和用摘要的評估作為解決方案的解決方案數(shù)據(jù)自動地概括數(shù)字化文本,該處理裝置包含解決方案數(shù)據(jù)存儲裝置,用于按照用戶的指令改變解決方案數(shù)據(jù),并存儲改變了的解決方案數(shù)據(jù);機(jī)器學(xué)習(xí)處理裝置,用于從解決方案數(shù)據(jù)中抽取一對問題的特征集合、和解決方案,學(xué)習(xí)從該對中什么特征易于產(chǎn)生什么解決方案,并將學(xué)習(xí)結(jié)果數(shù)據(jù)存儲在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲裝置中;摘要候選生成處理裝置,用于從輸入文本數(shù)據(jù)中生成摘要候選;摘要候選和估計(jì)解決方案對的生成裝置,用于從文本數(shù)據(jù)和摘要候選中抽取一個特征集合,根據(jù)學(xué)習(xí)結(jié)果數(shù)據(jù)估計(jì)從該特征集合中易于產(chǎn)生什么解決方案,獲得一個是估計(jì)解決方案的可靠度因子,用以生成一對摘要候選和估計(jì)解決方案;和摘要選擇處理裝置,用于從摘要候選和估計(jì)解決方案的各對中選擇估計(jì)解決方案的可靠度因子最大的一對,并用該對的摘要候選作為摘要。
14.按照權(quán)利要求13的自動概括處理裝置,其中,解決方案數(shù)據(jù)存儲裝置存儲其解決方案是關(guān)于摘要的對每個評估質(zhì)量的評估信息的解決方案數(shù)據(jù);摘要選擇處理裝置接受每一個質(zhì)量評估的一個成對的評估信息,選擇一對摘要候選和具有與該成對信息最相似的估計(jì)解決方案的估計(jì)解決方案,用該對的摘要候選作為摘要。
15.自動概括處理裝置,用于由機(jī)器學(xué)習(xí)方法利用用文本和文本的摘要作為問題和用摘要的評估作為解決方案的解決方案數(shù)據(jù)自動地概括數(shù)字化文本,該處理裝置包含解決方案數(shù)據(jù)存儲裝置,它按照用戶的指令改變解決方案數(shù)據(jù);機(jī)器學(xué)習(xí)處理裝置,用于從解決方案數(shù)據(jù)中抽取一對解決方案或解決方案候選和問題特征集合,學(xué)習(xí)從所抽取的各對中什么解決方案或解決方案候選和特征集合何時產(chǎn)生肯定性例子的概率或否定性例子的概率,將學(xué)習(xí)結(jié)果數(shù)據(jù)存儲在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲裝置中;摘要候選生成處理裝置,它從輸入文本數(shù)據(jù)中生成摘要候選;摘要候選和估計(jì)解決方案對的生成裝置,它從文本數(shù)據(jù)和摘要候選中抽取一對特征集合和解決方案候選,根據(jù)學(xué)習(xí)結(jié)果數(shù)據(jù)估計(jì)什么解決方案或解決方案候選和特征集合對產(chǎn)生肯定性例子的概率或否定性例子的概率,生成一對摘要候選和估計(jì)解決方案;和摘要選擇處理裝置,它從來自摘要候選和估計(jì)解決方案的各對中的估計(jì)解決方案的各對中,選擇估計(jì)解決方案的可靠度因子最大的一對,并用該對的摘要候選作為摘要。
16.按照權(quán)利要求15的自動概括處理裝置,其中,解決方案數(shù)據(jù)存儲裝置存儲其解決方案是關(guān)于摘要的對每個評估質(zhì)量的評估信息的解數(shù)據(jù);摘要選擇處理裝置接受每一個評估質(zhì)量的一個成對信息,選擇摘要候選和具有與該對信息最相似的估計(jì)解決方案的估計(jì)解決方案的一對,用該對的摘要候選作為摘要。
17.自動概括處理裝置,用于由機(jī)器學(xué)習(xí)方法利用用文本作為問題和用文本的摘要作為解決方案的解決方案數(shù)據(jù)自動地概括數(shù)字化文本,該處理裝置包含解決方案數(shù)據(jù)存儲裝置,它按照用戶的指令改變解決方案數(shù)據(jù);機(jī)器學(xué)習(xí)處理裝置,它從解決方案數(shù)據(jù)中抽取一對問題的特征集合和解決方案,學(xué)習(xí)從該對中什么特征易于生成什么解決方案,將學(xué)習(xí)結(jié)果數(shù)據(jù)存儲在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲裝置中;摘要候選生成處理裝置,它從輸入文本數(shù)據(jù)中生成摘要候選;摘要候選和估計(jì)解決方案對的生成裝置,它從文本數(shù)據(jù)和摘要候選中抽取一對特征集合和解決方案候選,根據(jù)學(xué)習(xí)結(jié)果數(shù)據(jù)估計(jì)什么解決方案或解決方案候選和特征集合對產(chǎn)生的肯定性例子的概率或否定性例子的概率,生成一對摘要候選和估計(jì)解決方案;和解決方案估計(jì)處理裝置,它從輸入文本數(shù)據(jù)抽取一個特征集合,根據(jù)學(xué)習(xí)結(jié)果數(shù)據(jù)估計(jì)從該特征集合易于產(chǎn)生什么解決方案。
18.自動概括處理方法,用于由機(jī)器學(xué)習(xí)方法利用用文本和文本的摘要作為問題和用摘要的評估作為解決方案的解決方案數(shù)據(jù)自動地概括數(shù)字化文本,該方法包含按照用戶的指令改變解決方案數(shù)據(jù),并訪問存儲改變了的解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲裝置;從解決方案數(shù)據(jù)中抽取一對問題的特征集合和解決方案,學(xué)習(xí)從該對中什么特征易于產(chǎn)生什么解決方案,并將學(xué)習(xí)結(jié)果數(shù)據(jù)存儲在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲裝置中;從輸入文本數(shù)據(jù)中生成摘要候選;從文本數(shù)據(jù)和摘要候選中抽取一個特征集合,根據(jù)學(xué)習(xí)結(jié)果數(shù)據(jù)估計(jì)從該特征集合中易于產(chǎn)生什么解決方案,獲得一個是估計(jì)解決方案的可靠度因子,生成一對摘要候選和估計(jì)解決方案;和從摘要候選和估計(jì)解決方案中選擇估計(jì)解決方案的可靠度因子最大的一對,并用該對的摘要候選作為摘要。
19.按照權(quán)利要求18的自動摘要概括處理方法,其中,當(dāng)訪問解決方案數(shù)據(jù)存儲裝置時,要被訪問的解決方案數(shù)據(jù)存儲裝置存儲其解決方案是關(guān)于摘要的每個評估質(zhì)量的評估信息的解決方案數(shù)據(jù);在從一對摘要候選和估計(jì)解決方案中選擇摘要時,選擇摘要候選和具有與該對信息最相似的估計(jì)解決方案的一對估計(jì)解決方案,用該對的摘要候選作為摘要。
20.自動概括處理方法,用于由機(jī)器學(xué)習(xí)方法利用用文本和文本的摘要作為問題和用摘要的評估作為解決方案的解決方案數(shù)據(jù)自動地概括數(shù)字化文本,該方法包含按照用戶的指令改變解決方案數(shù)據(jù),并訪問存儲改變了的解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲裝置;從解決方案數(shù)據(jù)中抽取一對解決方案或解決方案候選和問題的特征集合,學(xué)習(xí)從所抽取的各對中什么解決方案或解決方案候選和特征集合產(chǎn)生肯定性例子的概率或否定性例子的概率,將學(xué)習(xí)結(jié)果數(shù)據(jù)存儲在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲裝置中;從輸入文本數(shù)據(jù)中生成摘要候選;從文本數(shù)據(jù)和摘要候選中抽取一對特征集合和解決方案候選,就特征集合和摘要候選的一對,估計(jì)肯定性例子的概率或否定性例子的概率,生成一對摘要候選和估計(jì)解決方案;和從摘要候選和估計(jì)解決方案的各對中選擇估計(jì)解決方案的肯定性例子的可靠度因子最大的一對,并用所選擇的該對的摘要候選作為摘要。
21.按照權(quán)利要求20的自動概括處理方法,其中,當(dāng)訪問解決方案數(shù)據(jù)存儲裝置時,被訪問的解決方案數(shù)據(jù)存儲裝置存儲其解決方案是關(guān)于摘要的對每個評估質(zhì)量的評估信息的解數(shù)據(jù);在從一對摘要候選和估計(jì)解決方案中選擇摘要時,接受每一個評估質(zhì)量的成對的評估信息,選擇摘要候選和具有與該成對信息最相似的估計(jì)解決方案的估計(jì)解決方案的一對,用該對的摘要候選作為摘要。
22.自動概括處理方法,用于由機(jī)器學(xué)習(xí)方法利用用文本作為問題和用文本的摘要作為解決方案的解決方案數(shù)據(jù)自動地概括數(shù)字化文本,該方法包合按照用戶的指令改變解決方案數(shù)據(jù),并訪問存儲改變了的解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲裝置;從解決方案數(shù)據(jù)中抽取一對問題的特征集合和解決方案,學(xué)習(xí)從該對中什么特征易于產(chǎn)生什么解決方案,將學(xué)習(xí)結(jié)果數(shù)據(jù)存儲在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲裝置中;和從輸入文本數(shù)據(jù)中抽取特征集,并根據(jù)學(xué)習(xí)結(jié)果數(shù)據(jù)估計(jì)從該特征集合中易于產(chǎn)生什么解決方案。
全文摘要
本發(fā)明實(shí)現(xiàn)使用戶能自由地編輯在利用機(jī)器學(xué)習(xí)處理自動概括時變成被監(jiān)視數(shù)據(jù)的解決方案數(shù)據(jù)的編輯處理,并用該解決方案數(shù)據(jù)實(shí)現(xiàn)專用于用戶的概括處理。創(chuàng)建一個用戶對通過文本的自動處理而產(chǎn)生的摘要的評估,存儲用文本和摘要作為問題和用輸入的評估作為解決方案的案例數(shù)據(jù)。從所存儲的案例中抽取一對解決方案和特征集合,并存儲在什么特征易于產(chǎn)生什么解決方案的學(xué)習(xí)結(jié)果。之后,從處理目標(biāo)文本中生成一個摘要候選,從文本和摘要候選中抽取一個特征集合,通過參考所存儲的學(xué)習(xí)結(jié)果估計(jì)一個特征集合而生成一對摘要候選和估計(jì)解決方案,用該對的摘要候選作為摘要。
文檔編號G06F17/28GK1439979SQ03105460
公開日2003年9月3日 申請日期2003年2月21日 優(yōu)先權(quán)日2002年2月22日
發(fā)明者村田真樹 申請人:獨(dú)立行政法人通訊綜合研究所