應(yīng)用于自動問答系統(tǒng)的問句分類方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及人工智能領(lǐng)域,特別涉及一種應(yīng)用于自動問答系統(tǒng)的問句分類方法及 裝置。
【背景技術(shù)】
[0002] 自動問答系統(tǒng),又稱QA(Question Answering)系統(tǒng),可稱為新一代的搜索引擎,用 戶不需要把自己的問題分解成關(guān)鍵字,可把整個問題直接交給該系統(tǒng),既能用自然語言句 子提問,又能為用戶直接返回答案,可更好地滿足用戶的檢索需求。
[0003] 從知識領(lǐng)域、答案來源等角度對問答系統(tǒng)進(jìn)行分類,可分為封閉領(lǐng)域自動問答系 統(tǒng)及開放領(lǐng)域自動問答系統(tǒng)。其中,開放領(lǐng)域問答系統(tǒng)因具有處理自然語言形式問句的能 力而受到越來越多的關(guān)注,自然語言處理是目前的研宄難點(diǎn)及熱點(diǎn)。
[0004] 開放領(lǐng)域問答系統(tǒng)的工作過程主要包括問句分類、答案搜索及答案抽取三個階 段,其中的問句分類是關(guān)鍵步驟,其主要任務(wù)是通過對用戶提出的中文問題進(jìn)行分詞、詞性 標(biāo)注、去掉停用詞等一系列預(yù)處理,進(jìn)而明確問題的意圖、確定問題答案的語義類型。如問 句:北京理工大學(xué)的校長是誰?其答案的語義類型為人名,所以該問句分類為人名問句。問 句分類用公式可以表示為f :A - B,其中,A為待分類的問題集合,B為答案的分類體系,f 為問題分類的具體方法。
[0005] 人類憑借自身的經(jīng)驗(yàn)、知識即可在第一時間確定問題所對應(yīng)答案的語義類型,但 OA系統(tǒng)不具備這個能力,因此,如何準(zhǔn)確高效地確定問題答案的語義類型、將用戶提出的問 題歸類到某個具體的類別體系中是需要解決的難點(diǎn)。
[0006] 目前,解決問句分類的常用方法可包括如下三種:
[0007] 第一種,基于模式匹配的方法,是指根據(jù)問句表面的提問形式來抽取問句中的詞 語、語義及句法結(jié)構(gòu)等信息手工設(shè)計問句分類規(guī)則,將問句與事先定義好的規(guī)則進(jìn)行匹配 以確定答案類別,該方法的可擴(kuò)展性較差,針對形式多種多樣的問句,無法包含全部的分類 規(guī)則,因此很難滿足實(shí)際應(yīng)用的需求;
[0008] 第二種,基于機(jī)器學(xué)習(xí)的方法,該方法涉及決策樹、SNOW及支持向量機(jī)SVM等,其 中,支持向量機(jī)SVM由于使用不同的核函數(shù)在實(shí)現(xiàn)問句分類時的效果有所不同且其效果優(yōu) 于決策樹及SN0W,但在問句分類的實(shí)際應(yīng)用中也表現(xiàn)欠佳;
[0009] 第三種,基于句法結(jié)構(gòu)分析的方法,該方法近年來被越來越多地應(yīng)用于自然語言 處理領(lǐng)域且在研宄上取得了一定進(jìn)展,但以往的分析存在僅停留于問句中的詞語表面,忽 略了詞語所標(biāo)注詞性之間的關(guān)鍵依存關(guān)系中存在的規(guī)律等問題。
[0010] 因此,如何解決上述現(xiàn)有的問句分類方法存在的問題,成為目前最需要解決的問 題。
【發(fā)明內(nèi)容】
[0011] 本發(fā)明提供了一種應(yīng)用于自動問答系統(tǒng)的問句分類方法及裝置,可解決上述現(xiàn)有 問句分類方法中存在的問題,可提高問句分類的效率及準(zhǔn)確率,具有更強(qiáng)的可擴(kuò)展性,更能 滿足于實(shí)際應(yīng)用的需求。
[0012] 根據(jù)本發(fā)明的一方面,本發(fā)明提出了一種應(yīng)用于自動問答系統(tǒng)的問句分類方法, 預(yù)先設(shè)置詞性對照表,所述詞性對照表中包括名詞細(xì)粒度詞性對照信息及疑問代詞細(xì)粒度 詞性對照信息,所述方法包括:
[0013] 調(diào)用用于執(zhí)行詞性標(biāo)注操作的預(yù)置接口,將接收到的問句劃分為多個分詞以組成 分詞序列,并根據(jù)所述詞性對照表對所述分詞序列中的分詞進(jìn)行細(xì)粒度詞性標(biāo)注,以得到 所述分詞序列對應(yīng)的細(xì)粒度詞性標(biāo)注序列;
[0014] 將所述細(xì)粒度詞性標(biāo)注序列與預(yù)設(shè)一級分類模式進(jìn)行匹配以對問句的類別進(jìn)行 第一次確定;
[0015] 若第一次確定的類別不是唯一的,則將所述細(xì)粒度詞性標(biāo)注序列與預(yù)設(shè)二級分類 模式進(jìn)行匹配以對問句的類別進(jìn)行第二次確定;
[0016] 若第二次確定的類別不是唯一的,則將所述細(xì)粒度詞性標(biāo)注序列與預(yù)設(shè)三級分類 模式進(jìn)行匹配以對問句的類別進(jìn)行第三次確定,以便當(dāng)?shù)谌未_定的類別為唯一時,則確 定該唯一的類別為所述問句的類別并將所述問句的類別返回,以完成針對所述問句的分類 操作;
[0017] 其中,預(yù)設(shè)一級分類模式、預(yù)設(shè)二級分類模式及預(yù)設(shè)三級分類模式為基于依存句 法分析方法抽取問句中的主謂、動賓及定中三種依存句法關(guān)系特征而形成的逐級分類模 式。
[0018] 進(jìn)一步,所述方法還包括:當(dāng)?shù)谌未_定的類別不是唯一的,則確定問句分類操作 失敗并將問句分類操作失敗的結(jié)果返回。
[0019] 進(jìn)一步的,名詞細(xì)粒度詞性對照信息中的名詞包括人稱名詞、地點(diǎn)名詞、組織機(jī)構(gòu) 名詞、時間名詞、數(shù)學(xué)名詞、抽象名詞及實(shí)體名詞;
[0020] 疑問代詞細(xì)粒度對照信息中的疑問代詞包括人稱疑問代詞、地點(diǎn)疑問代詞、組織 機(jī)構(gòu)疑問代詞、時間疑問代詞、數(shù)學(xué)疑問代詞及謂詞疑問代詞。
[0021] 進(jìn)一步的,所述用于執(zhí)行詞性標(biāo)注操作的預(yù)置接口為基于最大間隔隱馬爾夫模型 的接口;
[0022] 其中,定義詞性標(biāo)注集合為T = It1, t2, "·?η},其中,&表示詞性標(biāo)注,問句為q,問 句經(jīng)過劃分形成的分詞序列為q = (W1, W2, ···%},其中,Wi表示問句中的分詞,I < i < η ;
[0023] 將接收到的問句劃分為多個分詞以組成分詞序列,并根據(jù)所述詞性對照表對所述 分詞序列中的分詞進(jìn)行細(xì)粒度詞性標(biāo)注,以得到所述分詞序列對應(yīng)的細(xì)粒度詞性標(biāo)注序 列,包括:
[0024] 為問句中的每個分詞Wi指定一個詞性標(biāo)注,其中對名詞和疑問代詞根據(jù)名詞細(xì)粒 度詞性對照信息及疑問代詞細(xì)粒度對照信息進(jìn)行細(xì)粒度詞性標(biāo)注,以得到所述分詞序列對 應(yīng)的細(xì)粒度詞性標(biāo)注序列,
[0025] 其中,對于一個分詞序列,其對應(yīng)的細(xì)粒度詞性標(biāo)注序列的條件概率ρ的最大值 的求解公式為
【主權(quán)項(xiàng)】
1. 一種應(yīng)用于自動問答系統(tǒng)的問句分類方法,其特征在于,預(yù)先設(shè)置詞性對照表,所述 詞性對照表中包括名詞細(xì)粒度詞性對照信息及疑問代詞細(xì)粒度詞性對照信息,所述方法包 括: 調(diào)用用于執(zhí)行詞性標(biāo)注操作的預(yù)置接口,將接收到的問句劃分為多個分詞以組成分詞 序列,并根據(jù)所述詞性對照表對所述分詞序列中的分詞進(jìn)行細(xì)粒度詞性標(biāo)注,以得到所述 分詞序列對應(yīng)的細(xì)粒度詞性標(biāo)注序列; 將所述細(xì)粒度詞性標(biāo)注序列與預(yù)設(shè)一級分類模式進(jìn)行匹配以對問句的類別進(jìn)行第一 次確定; 若第一次確定的類別不是唯一的,則將所述細(xì)粒度詞性標(biāo)注序列與預(yù)設(shè)二級分類模式 進(jìn)行匹配以對問句的類別進(jìn)行第二次確定; 若第二次確定的類別不是唯一的,則將所述細(xì)粒度詞性標(biāo)注序列與預(yù)設(shè)三級分類模 式進(jìn)行匹配以對問句的類別進(jìn)行第三次確定,以便當(dāng)?shù)谌未_定的類別為唯一時,則