非事實型詢問應答系統(tǒng)以及計算機程序的制作方法
【專利摘要】為了提供在非事實型詢問應答系統(tǒng)中能進一步提高精度的詢問應答系統(tǒng),詢問應答系統(tǒng)(160)包含:候選句檢索部(222),其響應于詢問而從語料庫存儲部(178)中取出回答候選;特征向量生成部(232),其針對詢問與各個回答候選的組合來生成特征;SVM(176),其進行了學習,使得:在被給出特征向量時,對成為基礎(chǔ)的詢問以及回答候選的組合,來計算表示為正確的組合的程度的得分;以及回答句排序部(234),其將計算出的得分最高的回答候選作為回答進行輸出。特征是基于針對詢問的詞素解析及句法解析的結(jié)果、詢問當中被進行了正或負的評價的詞組及其極性、以及特征內(nèi)的名詞的含義類而生成的。
【專利說明】非事實型詢問應答系統(tǒng)以及計算機程序
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及詢問應答系統(tǒng),尤其涉及針對詢問某事的理由等的所謂的how型、why型詢問等被稱為非事實詢問的詢問的應答系統(tǒng)。
【背景技術(shù)】
[0002]與針對一些事實的詢問應答(QA)相關(guān)的研究最近取得了大的進展。例如美國的競猜節(jié)目中這種系統(tǒng)戰(zhàn)勝人類的情況記憶猶新。針對與事實相關(guān)的詢問,其精度據(jù)說為85%程度。即便在這樣的與事實相關(guān)的詢問應答系統(tǒng)以外的領(lǐng)域,同樣地關(guān)于針對精度高的詢問應答系統(tǒng)的研究,其必要性也開始被認可。然而,關(guān)于并非與事實相關(guān)的詢問,例如與“為何”相關(guān)的詢問,以及與“如何”相關(guān)的詢問,實情是研究還未取得進展。
[0003]作為這樣的系統(tǒng)的例子,有在后述的非專利文獻I中記載的系統(tǒng)。在該系統(tǒng)中,對詢問和語料庫內(nèi)的各句進行詞素解析,進而使用其結(jié)果來計算利用了從詢問中所得到的單詞的文檔頻度、各句中的單詞頻度、文檔總數(shù)、文檔的長度等的得分,并從語料庫中選擇得分上位的給定個數(shù)的文檔。將在選擇出的文檔中所含的段落、以及I?3個連續(xù)的段落作為回答候選,主要通過詢問中的單詞與回答候選中所含的單詞之間所計算的得分,來選擇針對詢問的回答。
[0004]然而,如后述可知,在該系統(tǒng)中得不到足夠的性能。為此,作為對該系統(tǒng)進一步改良后的系統(tǒng),能考慮后述的非專利文獻2中所記載的那樣的系統(tǒng)。該系統(tǒng)例如在通過非專利文獻I所記載的技術(shù)而選擇了幾個回答候選后,進而通過給定的得分來對各回答候選進行重新排序。
[0005]以下,基于非專利文獻2的記載來說明被認為是典型的實現(xiàn)該系統(tǒng)時的實現(xiàn)例。此外,以下將關(guān)于并非與事實相關(guān)的詢問稱為“非事實型詢問”。
[0006]參照圖1,該詢問應答系統(tǒng)30例如將在互聯(lián)網(wǎng)上能檢索的非常多的句子(在此限定為日語來考慮。)所組成的語料庫存儲至語料庫存儲部48,接受從可實現(xiàn)文本通信的便攜式電話等的服務利用終端44發(fā)送的非事實型詢問,回答處理部40從存儲在語料庫存儲部48中的眾多句子當中選擇作為其回答的概率高的幾個回答句,并作為回答句列表50而返回給服務利用終端44?;卮鹛幚聿?0在進行回答句的排序時使用支持向量機(SVM)46,由學習處理部42預先進行針對該SVM46的帶監(jiān)督的機器學習。
[0007]學習處理部42包含:QA句存儲部60,其用于預先對非事實型詢問、針對該詢問的正確的回答或錯誤的回答、表示回答是否正確的標志所組成的幾個日語的QA句進行存儲;學習數(shù)據(jù)生成部62,其用于針對QA句存儲部60中所存儲的QA句進行解析,生成預先選擇出的與語法相關(guān)的統(tǒng)計學信息的各種組合、以及表示該QA句的回答是否為針對詢問的正確回答的標志所組成的學習數(shù)據(jù),來作為用在SVM46的學習中的特征;學習數(shù)據(jù)存儲部64,其存儲由學習數(shù)據(jù)生成部62生成的學習數(shù)據(jù);以及學習處理部66,其使用學習數(shù)據(jù)存儲部64中所存儲的學習數(shù)據(jù),來進行SVM46的帶監(jiān)督的機器學習。該學習的結(jié)果是,當SVM46接受到與由學習數(shù)據(jù)生成部62生成的學習數(shù)據(jù)為同種組合的特征時,SVM46輸出表示使該特征的組合被生成的詢問句以及回答候選的組合是否為正確的組合,即回答候選是否為針對詢問的正確的答案這樣的尺度。
[0008]針對語料庫存儲部48中所存儲的各句,預先執(zhí)行與學習數(shù)據(jù)生成部62對各回答句進行過的解析處理相同的解析處理,并對各句附加為了生成賦予給SVM46的特征所需的信息。
[0009]對此,回答處理部40包含:詢問句解析部86,其用于響應于從服務利用終端44接受到詢問句的情況,對該詢問句進行預先規(guī)定的文法性解析,針對該詢問句中所含的各單詞,輸出為了生成特征所需的信息(詞類、活用形、修飾被修飾結(jié)構(gòu)等);候選句檢索部82,其用于響應于服務利用終端44接受到詢問句的情況,從語料庫存儲部48之中檢索并提取針對詢問的給定個數(shù)(例如300個)的回答候選句;以及回答候選句存儲部84,其用于將候選句檢索部82所輸出的給定個數(shù)的候選句與其文法信息一起存儲。
[0010]此外,在本實施方式中,雖然從語料庫存儲部48中檢索并提取候選句而存儲至回答候選句存儲部84,但是無需如此縮減候選句。例如,可以將語料庫存儲部48中所存儲的所有句子作為回答候選句。在此情況下,既可以是,候選句檢索部82僅具有將語料庫存儲部48中所存儲的句子全部讀出的功能,也可以是,回答候選句存儲部84發(fā)揮將由候選句檢索部82讀出的句子僅臨時蓄積的功能。進而,語料庫存儲部48在本實施方式中雖然是詢問應答系統(tǒng)30在本地保持,但本發(fā)明不限于這樣的實施方式。例如語料庫48還可以為遠程,也不限于I個,還可以分布于多個存儲裝置來執(zhí)行存儲。
[0011]回答處理部40還包含:特征向量生成部88,其用于基于從詢問句解析部86輸出的信息與回答候選句存儲部84中所存儲的各個回答候選句的組合,來生成應該賦予給SVM46的特征向量;以及回答句排序部90,其用于對于詢問句與各回答候選句的組合,將從特征向量生成部88給出的特征向量賦予給SVM46,其結(jié)果是基于從SVM46輸出的結(jié)果來對回答候選句存儲部84中所存儲的各回答句進行排序,將上位的給定個數(shù)的回答句候選作為回答句列表50進行輸出。SVM46通常以數(shù)學方法來求取把對象分類為2個類(class)的超平面,基于其結(jié)果來確定輸入屬于哪一類,并將其結(jié)果以正/負的極性信息進行輸出,這些是基本的功能,但還能輸出從該超平面起到通過輸入而確定的點為止的距離。該距離被認定為表征作為回答句的適合度的距離,因此回答句排序部90將該距離與SVM46所輸出的極性信息的組合用作回答候選句的得分。
[0012]在該詢問應答系統(tǒng)30中,預先在QA句存儲部60中存儲眾多詢問句與作為針對該詢問句的回答而適合的句子的組合、以及與作為針對詢問句的回答而錯誤的句子的組合。對于各組合,預先手工地賦予表示該回答是否正確的標志。學習數(shù)據(jù)生成部62根據(jù)這些組合來生成用于進行SVM46的學習的學習數(shù)據(jù),并保存至學習數(shù)據(jù)存儲部64。學習處理部66使用學習數(shù)據(jù)存儲部64中所存儲的學習數(shù)據(jù)來進行SVM46的學習。該處理的結(jié)果是,SVM46在接受到與由學習數(shù)據(jù)生成部62生成的學習數(shù)據(jù)為相同種類的特征的組合時,能輸出表示與作為獲得其特征的基礎(chǔ)的句子的組合(詢問句和回答候選)的組合是否正確,即回答候選作為針對該詢問句的回答是否正確的尺度的值。
[0013]另一方面,在語料庫存儲部48中存儲有由眾多的句子組成的語料庫。這些各句被預先執(zhí)行了與學習數(shù)據(jù)生成部62所進行的處理為同種的解析處理,被賦予了與學習數(shù)據(jù)的一部分同樣的用于回答候選的排序的信息。在從服務利用終端44接受到詢問句時,候選句檢索部82進行現(xiàn)有的候選句檢索處理,從語料庫存儲部48之中提取給定個數(shù)的針對詢問句的回答候選。由候選句檢索部82提取出的回答候選句與用于回答候選的排序的信息一起被保存至回答候選句存儲部84。
[0014]另一方面,詢問句解析部86對詢問句進行給定的解析處理,生成為了生成特征所需的信息并賦予給特征向量生成部88。特征向量生成部88在從詢問句解析部86接受到信息時,通過與回答候選句存儲部84中所存儲的各回答候選句的用于回答候選的排序的信息合在一起,來生成與由學習數(shù)據(jù)生成部62生成的學習數(shù)據(jù)相同的構(gòu)成(其中,將表示回答候選是否為正確回答的標志除外。)的特征向量,并賦予給回答句排序部90。
[0015]回答句排序部90將從特征向量生成部88給出的、根據(jù)各回答候選與詢問句的組合而得到的特征向量賦予給SVM46。SVM46按所賦予的各組合的特征向量的每一個,輸出表示該組合中所含的回答候選作為針對該組合中所含的詢問的回答適合到何種程度的得分?;卮鹁渑判虿?0將詢問句與各回答候選的組合以它們的得分來降序地排序,并將得分上位的給定個數(shù)的回答候選作為針對從服務利用終端44給出的詢問句的回答句列表50而返給服務利用終端44。
[0016]在先技術(shù)文獻
[0017]非專利文獻
[0018]非專利文獻1:?寸今么7夕、寸予力7今、卜'>二今力于7卟、予>7、匕卜
'> 4 '> ο 9,「7 >.7 r夕卜4卜''型Q日本語乃質(zhì)問(二対、回答Θ型C応I;亡重?付If ^ 回答検索全用 t:回答 t ' 吁 L.(A system for answering non-factoidJapanesequest1ns by using passage retrieval weighted based on type ofanswer)」,In Proc.0f NTCIR-6.
[0019]非專利文獻2: 1J 二 9 4子口 9匕力' 夕于力、匕r今4 乂廿今,「水7 4型質(zhì)問乃尨的 O、^ 一 A ^ I 用 P t 質(zhì)問佑答? ' 吁 (Corpus-basedquest1n answering forwhy-quest1ns)」,In Proc.0f IJCNLP, pp.418-425.
[0020]非專利文獻3:亍義夕f力方7、夕 > 夕口々44、寸夕、才夕口 ο》,「依存木(二基d <、潛在変數(shù)&持。CRF I 用 P ☆感情 O 分類(Tetsuji Nakagawa, Kentaro Inui,and Sadao Kurohashi, Dependencytree-based sentiment classificat1n using CRFswith hidden variables.)」,In Proc.0f Human Language Technologies:The 201AnnualConference of Computat1nal Linguistics,Pp.786—794,Los Angeles,California,June.Associat1n for Computat1nalLinguisties.
【發(fā)明內(nèi)容】
[0021]發(fā)明要解決的課題
[0022]在非專利文獻I所記載的系統(tǒng)中可知得不到足夠的精度。特別是,在同與事實相關(guān)的詢問應答系統(tǒng)的性能比較時,非事實型詢問應答系統(tǒng)的性能極低,從而尋求提高非事實型詢問應答系統(tǒng)的性能。特別是,今后不僅是與單純的事實相關(guān)的詢問,還需要從一些現(xiàn)象中知曉其理由,或從一些現(xiàn)象中推論其結(jié)論。
[0023]因此,本發(fā)明的目的在于,提供在關(guān)于與理由或方法相關(guān)的詢問的詢問應答系統(tǒng)中能進一步提高精度的詢問應答系統(tǒng)。
[0024]用于解決課題的手段
[0025]本發(fā)明的第I局面所涉及的詢問應答系統(tǒng)是接受非事實型詢問的輸入并生成針對該詢問的回答的非事實型詢問應答系統(tǒng)。該系統(tǒng)與用于對由處理對象的語言的文檔亦即計算機可讀取的文檔組成的語料庫進行存儲的語料庫存儲單元相連接而被使用。該系統(tǒng)包含:候選檢索單元,其用于響應于已接受詢問的輸入的情況,從語料庫存儲單元之中檢索并取出針對該詢問的多個回答候選;特征生成單元,其用于響應于已接受詢問的輸入的情況,針對該詢問與存儲在候選檢索單元中的各個回答候選的組合,來生成給定的特征的集合;得分計算單元,其預先進行了學習,使得:在被給出由特征生成單元生成的特征的集合時,針對成為生成該特征的集合的基礎(chǔ)的詢問以及回答候選的組合,來計算表示該回答候選是針對該詢問的正確回答的程度的得分;以及回答選擇單元,其針對詢問與存儲在回答候選中的各個回答候選的組合,基于由得分計算單元計算出的得分,將針對詢問為正確回答的可能性最高的回答候選作為針對詢問的回答進行輸出。針對由候選檢索單元檢索出的各個回答候選,賦予了由特征生成單元生成特征所需的信息。特征生成單元包含:句法解析單元,其用于針對詢問進行詞素解析以及句法解析,并輸出詞素信息以及語法信息;以及評價單元,其用于從詢問當中確定遵照某評價基準而被分類為第I類的詞組以及被分類為第2類的詞組。針對第I類以及第2類各自分配了彼此相反的評價的極性。該詢問應答系統(tǒng)還包含:特征集合生成單元,其用于針對詢問與各個回答候選的組合,基于句法解析單元的解析結(jié)果、由評價單元確定出的詞組的位置及其評價類的極性、以及對回答候選所賦予的特征生成用信息,來生成特征的集合。
[0026]優(yōu)選地,特征生成單元還包含:含義類變換單元,其用于將包含在句法解析單元的輸出中的各名詞分類成預先準備的多個單詞的含義類中的任一者,并將該名詞變換成對應的含義類。特征集合生成單元包含:第I單元,其用于針對詢問與各個回答候選的組合,基于句法解析單元的解析結(jié)果、由評價單元確定出的詞組的位置及其評價類的極性、由含義類變換單元被進行了變換后的句法解析單元的輸出、以及對回答候選所賦予的特征生成用信息,來生成特征的集合。
[0027]第I單元基于由評價單元確定出的詞組的位置以及評價類的極性而生成的特征可以包含:表示詢問中的詞組的評價類的極性與回答候選中的詞組的評價類的極性是否一致的信息。
[0028]更優(yōu)選地,第I單元基于由評價單元確定出的詞組的位置以及評價類的極性而生成的特征還包含:表示當詢問中的詞組的評價類的極性與回答候選中的詞組的評價類的極性一致時的該極性的信息。
[0029]第I單元所生成的特征可以包含:從句法解析單元的輸出得到且未使用評價單元的輸出或含義類變換單元的輸出而得到的特征、對句法解析單元的輸出組合評價單元的輸出而得到的特征、以及對句法解析單元的輸出組合含義類變換單元的輸出而得到的特征。
[0030]或者,第I單元所生成的特征可以包含:對句法解析單元的輸出組合評價單元的輸出,進而組合含義類變換單元的輸出而得到的特征。
[0031]本發(fā)明的第2局面所涉及的計算機程序是由計算機來實現(xiàn)接受非事實型詢問的輸入并生成針對該詢問的回答的非事實型詢問應答系統(tǒng)的計算機程序。該計算機與用于對由處理對象的語言的文檔亦即計算機可讀取的文檔組成的語料庫進行存儲的語料庫存儲單元相連接。第2局面所涉及的計算機程序使計算機作為如下單元發(fā)揮功能,即,候選檢索單元,其用于響應于已接受詢問的輸入的情況,從語料庫存儲單元之中檢索并取出針對該詢問的多個回答候選;特征生成單元,其用于響應于已接受詢問的輸入的情況,針對該詢問與存儲在候選檢索單元中的各個回答候選的組合,來生成給定的特征的集合;得分計算單元,其預先進行了學習,使得:在被給出由特征生成單元生成的特征的集合時,針對成為生成該特征的集合的基礎(chǔ)的詢問以及回答候選的組合,來計算表示該回答候選是針對該詢問的正確回答的程度的得分;以及回答選擇單元,其針對詢問與存儲在回答候選中的各個回答候選的組合,基于由得分計算單元計算出的得分,將針對詢問為正確回答的可能性最高的回答候選作為針對詢問的回答進行輸出。針對由候選檢索單元檢索出的各個回答候選,賦予了由特征生成單元生成特征所需的信息。使計算機作為特征生成單元發(fā)揮功能的程序部分使計算機作為如下單元發(fā)揮功能,即,句法解析單元,其用于針對詢問進行詞素解析以及句法解析,并輸出詞素信息以及語法信息;以及評價單元,其用于從詢問當中確定遵照某評價基準而被分類為第I評價類的詞組以及被分類為第2評價類的詞組。該計算機程序還使計算機作為如下單元發(fā)揮功能,即,特征集合生成單元,其用于針對詢問與各個回答候選的組合,基于句法解析單元的解析結(jié)果、由評價單元評價出的詞組的位置及其評價類的極性、以及對回答候選所賦予的特征生成用信息,來生成特征的集合。
【專利附圖】
【附圖說明】
[0032]圖1是表示現(xiàn)有的非事實型詢問應答系統(tǒng)的簡要構(gòu)成的框圖。
[0033]圖2是表不非事實型詢問和其回答候選的例子的圖。
[0034]圖3是表示非事實型詢問的回答候選的例子的圖。
[0035]圖4是說明對本發(fā)明的I實施方式所涉及的詢問應答系統(tǒng)進行利用的場景的圖。
[0036]圖5是本發(fā)明的I實施方式所涉及的詢問應答系統(tǒng)的框圖。
[0037]圖6是用于說明n-gram的構(gòu)成的示意圖。
[0038]圖7是用于說明依賴于語法結(jié)構(gòu)的n-gram的構(gòu)成的圖。
[0039]圖8是以表格形式來表示本發(fā)明的I實施方式所涉及的詢問應答系統(tǒng)中使用的特征的一覽的圖。
[0040]圖9是表示非事實型詢問與其回答候選的組合的例子的圖。
[0041]圖10是將本發(fā)明所涉及的詢問應答系統(tǒng)的實驗結(jié)果與現(xiàn)有技術(shù)的性能進行比較并以表格形式來表示的圖。
[0042]圖11是將在本發(fā)明所涉及的詢問應答系統(tǒng)中改變了要使用的特征的組合時的性能相互比較并以表格形式來表示的圖。
[0043]圖12是表示用于實現(xiàn)本發(fā)明的I實施方式所涉及的詢問應答系統(tǒng)的計算機的外觀的示意圖。
[0044]圖13是說明圖12所示的計算機的硬件構(gòu)成的框圖。
【具體實施方式】
[0045]在以下的說明以及附圖中,對同一部件賦予了同一參照編號。因此,不重復針對它們的詳細說明。
[0046][引言]
[0047]在本申請發(fā)明中,著眼于非事實型詢問與其回答之間存在以下那樣的關(guān)系,并將其設為了第I假定。即,著眼于以下的點:
[0048].當令人不滿意的狀況發(fā)生時其理由也有些令人不滿意的情況多,
[0049].當令人滿意的狀況發(fā)生時其理由也令人滿意的情況多。
[0050]例如,考慮圖2所示那樣的詢問Ql與其回答候選Al-1以及Al_2的組合110?;卮鸷蜻xAl-1的下線部120描述了關(guān)于癌的令人不滿意的現(xiàn)象,與此相對,回答候選A1-2的下線部122描述了用于預防癌的令人滿意的對應。本發(fā)明在上面的組合中,作為針對詢問Ql的回答,可以說回答候選Al-1更加適合。在本說明書中,為了簡化說明,將這種“令人滿意的”以及“令人不滿意的”這樣的評價的方向稱為“極性”,將“描述令人滿意的現(xiàn)象的詞組”以及“描述令人不滿意的現(xiàn)象的詞組”那樣的、成為伴隨極性的評價的對象的詞組稱為“評價詞組”。即,在本申請發(fā)明中,針對詞組,來確定遵照某評價基準而被分類至“描述令人滿意的現(xiàn)象的詞組”這樣的第I評價類、以及“描述令人不滿意的現(xiàn)象的詞組”這樣的第2評價類當中的任一者的詞組。對于這些評價類,如“令人滿意的”以及“令人不滿意的”那樣,分配了彼此相反的極性。此外,在此,作為極性,雖然考慮了 “令人滿意的/令人不滿意的”這樣的表達,但除此以外,還能基于評價基準來以各種方式考慮極性。例如能考慮“增加/減少”、“活性/惰性”、“美味/難吃”、“改善/惡化”、“采納/不采納”、“高興/悲傷”等。
[0051]本發(fā)明的第2假定是在詢問中的單詞的詞匯語義論的類與回答句中的它們之間存在極強的聯(lián)系的假定。例如,針對像圖2所示的詢問Ql那樣關(guān)于病的詢問句的回答在多數(shù)情況下,包含(像回答候選Al-1那樣)與化學物質(zhì)相關(guān)的回答、或者與病毒或身體的一部分相關(guān)的提及。如此,例如,通過使病以及與病關(guān)聯(lián)的有害物質(zhì)等之間的統(tǒng)計性關(guān)聯(lián)明確,從而能提高作為針對詢問句的回答可列舉適合的回答的可能性。為此,在以下敘述的實施方式中,將含義相近的單詞歸為含義類而用作了特征。盡管也能人工進行含義類的構(gòu)筑,或利用了基于現(xiàn)有含義的同類詞匯編,但在本實施方式中,利用了從Web文檔所組成的大規(guī)模語料庫中使用EM法而自動構(gòu)筑的單詞類群。關(guān)于該方法,詳細記載于:Kazama and Torisawa, Inducing Gazetteers for Named Entity Recognit1n byLarge-scale Clustering of Dependency Relat1ns,,(http://http://www.aclweb.0rg/anthology-new/P/P08/P08-1047.pdf)。
[0052]進而成為問題的可以說是,在回答候選之中存在包含極性不同的多個詞組的回答候選。
[0053]例如,在圖3中示出與圖2的回答候選A1-2類似的回答候選A1-3。圖3所示的回答候選A1-3包含:關(guān)于癌的令人不滿意的評價詞組140、以及關(guān)于癌的令人滿意的評價詞組142。在此情況下,留下如下問題:作為針對圖2所示的詢問Ql的回答,應該采用圖2所示的回答候選Al-1與圖3所示的回答候選A1-3的哪一者。在本發(fā)明中,為了應對這樣的問題,使用了評價的極性、與詢問句以及回答候選雙方的與該極性關(guān)聯(lián)的評價詞組的內(nèi)容的組合。
[0054]為了解決針對評價詞組的內(nèi)容進行統(tǒng)計學處理時的數(shù)據(jù)的稀疏性,開發(fā)了將評價的極性與單詞含義類有效組合后的特征的組。對于這些特征,通過帶監(jiān)督的學習,進行了執(zhí)行針對非事實型詢問句的回答候選的評分的分類器的學習。實驗的結(jié)果將在后面敘述。
[0055][構(gòu)成]
[0056]參照圖4,本實施方式所涉及的非事實型詢問應答系統(tǒng)160預先獲得互聯(lián)網(wǎng)上的大量的文檔所組成的文檔集合164,響應于經(jīng)由互聯(lián)網(wǎng)162而從服務利用終端166接受到非事實型詢問的情況,從所蓄積的文檔集合164中生成作為針對該詢問的回答而適合的回答的列表,并返給服務利用終端166。在本實施方式中,來自服務利用終端166的詢問作為到Web的形式的輸入數(shù)據(jù)而被發(fā)送至非事實型詢問應答系統(tǒng)160。
[0057]參照圖5,該詢問應答系統(tǒng)160包含:語料庫存儲部178,其用于預先存儲從互聯(lián)網(wǎng)取得的大量的文檔所組成的文檔集合164,該文檔集合是針對各句賦予了用于排序回答候選的特征形成所需的信息后的文檔的集合;回答處理部170,其用于響應于從服務利用終端166接受到詢問句的情況,從語料庫存儲部178中所存儲的文章中提取幾個作為針對接受到的詢問的回答而言適合的回答,進行排序,對服務利用終端166輸出將上位的給定個數(shù)列表后的回答句列表174 ;SVM176,其在回答處理部170進行回答候選的排序時使用;以及學習處理部172,其通過預先準備的學習數(shù)據(jù)來進行針對SVM176的帶監(jiān)督的機器學習,在SVM176接受到根據(jù)詢問句與回答句的組合所得到的預先確定的特征的組合時,輸出得分,該得分不僅表示該組合是否正確,即對于該組合中的詢問,該組合中的回答句是否為正確的回答,而且表示該回答的正確度是何種程度。
[0058]回答處理部170包含:候選句檢索部222,其用于響應于從服務利用終端166接受到詢問的情況,通過與現(xiàn)有技術(shù)同樣的處理來檢索語料庫存儲部178,并從眾多句子之中提取給定個數(shù)(例如300個)的回答候選句;回答候選句存儲部224,其用于存儲由候選句檢索部222提取出的候選句;詢問句解析部226,其用于響應于從服務利用終端166接受到詢問句的情況,進行針對詢問句的解析處理,進行特征所利用的詞素解析以及句法解析(語法性解析),來輸出詞素信息以及語法信息;含義類變換部230,其通過從詢問句解析部226所輸出的信息當中,對單詞應用給定的統(tǒng)計學概率模型來估計含義類,并賦予表征含義類的信息來輸出;以及評價處理部228,其用于對詢問句解析部226的輸出進行評價,如已敘述那樣確定評價詞組和其極性,并按各個評價詞組來進行輸出。
[0059]此外,盡管未圖示,但針對語料庫存儲部178中所存儲的文檔的各句子,也預先進行與由詢問句解析部226、評價處理部228以及含義類變換部230所進行的處理相同的處理。如此,能降低在后用于根據(jù)詢問與回答候選的組來生成特征向量的處理量。
[0060]回答處理部170還包含:特征向量生成部232,其用于接受詢問句解析部226的輸出、評價處理部228的輸出、以及含義類變換部230的輸出,進而從回答候選句存儲部224讀出各回答候選句和附隨信息,并基于詢問句與回答候選的雙方的信息來生成應用于SVM176的特征向量;以及回答句排序部234,其用于按每個回答候選句,基于通過將特征向量生成部232所輸出的特征向量應用于SVM176而從SVM176得到的得分,來對回答候選進行排序,生成上位的給定個數(shù)的回答候選所組成的回答句列表174,并返給服務利用終端166。
[0061]學習處理部172包含:QA句存儲部190,其用于將眾多的QA句與表示其組合的適當與否的標志一起存儲;QA句解析部192,其用于對于QA句存儲部190中所存儲的詢問句與回答候選的各個組合,進行與詢問句解析部226同樣的處理;含義類變換部196,其用于對QA句解析部192的輸出中的各單詞,使用統(tǒng)計學模型來附加含義類信息;評價處理部194,其用于通過對QA句的詢問句以及回答句各自進行評價處理,來附加表示評價詞組的標簽及其極性來進行輸出;學習數(shù)據(jù)生成部198,其通過將QA句解析部192、評價處理部194、以及含義類變換部196所輸出的信息進行組合,來生成用于進行SVM176的學習的學習數(shù)據(jù)(特征向量)并輸出;學習數(shù)據(jù)存儲部200,其用于存儲學習數(shù)據(jù)生成部198所輸出的學習數(shù)據(jù);以及SVM學習部202,其用于使用學習數(shù)據(jù)存儲部200中所存儲的學習數(shù)據(jù),來對SVM176進行帶監(jiān)督的機器學習。
[0062]在本實施方式中,從互聯(lián)網(wǎng)收集了 6億個日語文檔并保存至語料庫存儲部178。
[0063](回答候選的提取)
[0064]作為候選句檢索部222,在本實施方式中使用以http://lucene.apache, org/solr所分發(fā)的Solr。在本實施方式中,候選句檢索部222按照如下方式進行調(diào)整:對于一個詢問句,從語料庫存儲部178中所保存的6億個文檔當中,例如按照包含回答的可能性從高到低的順序,提取位于前面的給定個數(shù)(例如300個)的文檔。各候選進而被分割成由5個連續(xù)的句子組成的回答候選的集合。為了減小因文檔的分割方法的錯誤而得不到正確的回答的可能性,針對所分割的文檔,使其能彼此共享至2個句子。
[0065]在候選句檢索部222中,進而通過以下的式(I)所示的評分函數(shù)S(q,ac)來對如此針對詢問q所得到的各回答候選ac進行評分。此外,在本實施方式中,為了提取回答候選,檢索包含詢問中所含的詞語的部分,進而檢索包含表示因果關(guān)系的3個線索語(理由、原因以及要因)的部分。候選句檢索部222基于式(I)的排序,選擇300個針對詢問的回答候選,并經(jīng)回答候選句存儲部224而賦予給回答句排序部234。
[0066]式(I)所示的評分函數(shù)S(q,ac)對各回答候選分配與tf (對數(shù)指數(shù)詞頻)_idf (文檔頻度的倒數(shù))相似的得分。在此,式⑴的IMista1, t2起到tf那樣的作用,i/df(t2)是詢問q以及回答候選ac所共有的針對所給的h以及t2的idf。
[0067][數(shù)式I]
[0068]
【權(quán)利要求】
1.一種非事實型詢問應答系統(tǒng),接受非事實型詢問的輸入并生成針對該詢問的回答, 所述非事實型詢問應答系統(tǒng)與用于對由處理對象的語言的文檔亦即計算機可讀取的文檔組成的語料庫進行存儲的語料庫存儲單元相連接而被使用, 所述非事實型詢問應答系統(tǒng)包含: 候選檢索單元,其用于響應于已接受詢問的輸入的情況,從所述語料庫存儲單元之中檢索并取出針對該詢問的多個回答候選; 特征生成單元,其用于響應于已接受詢問的輸入的情況,針對該詢問與存儲在所述候選檢索單元中的各個回答候選的組合,來生成給定的特征的集合; 得分計算單元,其預先進行了學習,使得:在被給出由所述特征生成單元生成的所述特征的集合時,針對成為生成該特征的集合的基礎(chǔ)的詢問以及回答候選的組合,來計算表示該回答候選是針對該詢問的正確回答的程度的得分;以及 回答選擇單元,其針對所述詢問與存儲在所述回答候選中的各個回答候選的組合,基于由所述得分計算單元計算出的得分,將針對所述詢問為正確回答的可能性最高的回答候選作為針對所述詢問的回答進行輸出, 針對由所述候選檢索單元檢索出的各個回答候選,賦予了由所述特征生成單元生成特征所需的信息, 所述特征生成單元,包含: 句法解析單元,其用于針對所述詢問進行詞素解析以及句法解析,并輸出詞素信息以及語法信息;以及 評價單元,其用于從所述詢問當中確定遵照某評價基準而被分類為第I評價類的詞組以及被分類為第2評價類的詞組, 針對所述第I評價類以及第2評價類各自分配了彼此相反的評價的極性, 所述詢問應答系統(tǒng)還包含:特征集合生成單元,其用于針對所述詢問與各個所述回答候選的組合,基于所述句法解析單元的解析結(jié)果、由所述評價單元確定出的詞組的位置及其評價類的極性、以及對所述回答候選所賦予的特征生成用信息,來生成所述特征的集合。
2.根據(jù)權(quán)利要求1所述的非事實型詢問應答系統(tǒng),其中, 所述特征生成單元還包含:含義類變換單元,其用于將包含在所述句法解析單元的輸出中的各名詞分類成預先準備的多個單詞的含義類中的任一者,并將該名詞變換成對應的含義類, 所述特征集合生成單元包含:第I單元,其用于針對所述詢問與各個所述回答候選的組合,基于所述句法解析單元的解析結(jié)果、由所述評價單元確定出的詞組的位置及其評價類的極性、由所述含義類變換單元被進行了變換后的所述句法解析單元的輸出、以及對所述回答候選所賦予的特征生成用信息,來生成所述特征的集合。
3.根據(jù)權(quán)利要求2所述的非事實型詢問應答系統(tǒng),其中, 所述第I單元基于由所述評價單元確定出的詞組的位置以及評價類的極性而生成的特征包含:表示詢問中的詞組的評價類的極性與回答候選中的詞組的評價類的極性是否一致的信息。
4.根據(jù)權(quán)利要求2所述的非事實型詢問應答系統(tǒng),其中, 所述第I單元所生成的特征包含:從所述句法解析單元的輸出得到且未使用所述評價單元的輸出或所述含義類變換單元的輸出而得到的特征、對所述句法解析單元的輸出組合所述評價單元的輸出而得到的特征、以及對所述句法解析單元的輸出組合所述含義類變換單元的輸出而得到的特征。
5.根據(jù)權(quán)利要求2所述的非事實型詢問應答系統(tǒng),其中, 所述第I單元所生成的特征包含:對所述句法解析單元的輸出組合所述評價單元的輸出,進而組合所述含義類變換單元的輸出而得到的特征。
6.一種計算機程序,由計算機來實現(xiàn)接受非事實型詢問的輸入并生成針對該詢問的回答的非事實型詢問應答系統(tǒng), 所述計算機與用于對由處理對象的語言的文檔亦即計算機可讀取的文檔組成的語料庫進行存儲的語料庫存儲單元相連接, 所述計算機程序使所述計算機作為如下單元發(fā)揮功能,即, 候選檢索單元,其用于響應于已接受詢問的輸入的情況,從所述語料庫存儲單元之中檢索并取出針對該詢問的多個回答候選; 特征生成單元,其用于響應于已接受詢問的輸入的情況,針對該詢問與存儲在所述候選檢索單元中的各個回答候選的組合,來生成給定的特征的集合; 得分計算單元,其預先進行了學習,使得:在被給出由所述特征生成單元生成的所述特征的集合時,針對成為生成該特征的集合的基礎(chǔ)的詢問以及回答候選的組合,來計算表示該回答候選是針對該詢問的正確回答的程度的得分;以及 回答選擇單元,其針對所述詢問與存儲在所述回答候選中的各個回答候選的組合,基于由所述得分計算單元計算出的得分,將針對所述詢問為正確回答的可能性最高的回答候選作為針對所述詢問的回答進行輸出, 針對由所述候選檢索單元檢索出的各個回答候選,賦予了由所述特征生成單元生成特征所需的信息, 使所述計算機作為所述特征生成單元發(fā)揮功能的程序部分,使所述計算機作為如下單元發(fā)揮功能,即, 句法解析單元,其用于針對所述詢問進行詞素解析以及句法解析,并輸出詞素信息以及語法信息;以及 評價單元,其用于從所述詢問當中確定遵照某評價基準而被分類為第I評價類的詞組以及被分類為第2評價類的詞組, 針對所述第I評價類以及第2評價類各自分配了彼此相反的評價的極性, 所述計算機程序還使所述計算機作為如下單元發(fā)揮功能,即, 特征集合生成單元,其用于針對所述詢問與各個所述回答候選的組合,基于所述句法解析單元的解析結(jié)果、由所述評價單元確定出的詞組的位置及其評價類的極性、以及對所述回答候選所賦予的特征生成用信息,來生成所述特征的集合。
【文檔編號】G06F17/30GK104137102SQ201380010249
【公開日】2014年11月5日 申請日期:2013年1月23日 優(yōu)先權(quán)日:2012年2月23日
【發(fā)明者】吳鐘勛, 鳥澤健太郎, 橋本力, 川田拓也, 史蒂恩·德薩哲, 風間淳一, 王軼謳 申請人:獨立行政法人情報通信研究機構(gòu)