支持信息裂變查詢方法及裝置的制造方法
【專利摘要】本發(fā)明涉及一種支持信息裂變查詢方法及裝置,其中,所述方法包括根據(jù)預(yù)設(shè)語料中的句子所包含的詞語的詞性以及包含預(yù)設(shè)裂變?cè)~的句子確定裂變模式,并根據(jù)所述裂變模式的第一支持信息將裂變模式加入裂變模集合;從預(yù)設(shè)語料中提取包含所述裂變模式的句子,并獲取該句子中裂變?cè)~的位置所對(duì)應(yīng)的詞語,并根據(jù)所述詞語的第二支持信息將該詞語加入到裂變?cè)~集合中;根據(jù)所述裂變?cè)~集合以及所述裂變模集合進(jìn)行迭代裂變搜索,以根據(jù)最終得到的裂變?cè)~集合和最終得到的裂變模集合對(duì)待查詢語句進(jìn)行裂變處理,并根據(jù)處理結(jié)果獲取查詢結(jié)果。本發(fā)明提高了數(shù)據(jù)的離線挖掘效率,縮短了數(shù)據(jù)挖掘時(shí)間,進(jìn)而提高了查詢準(zhǔn)確度和查詢效率,提升了用戶體驗(yàn)。
【專利說明】
支持信息裂變查詢方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及一種支持信息裂變查詢方法及裝置。
【背景技術(shù)】
[0002] 網(wǎng)絡(luò)、通訊及計(jì)算機(jī)技術(shù)的迅猛發(fā)展也極大程度地推動(dòng)了人工智能技術(shù)的進(jìn)步。 而隨著文本情感分析以及自然語言處理技術(shù)的日益成熟,通過計(jì)算機(jī)應(yīng)用智能分析研究大 數(shù)據(jù)已經(jīng)成為互聯(lián)網(wǎng)時(shí)代的一大需求和趨勢(shì)。在此背景下,語音處理及數(shù)據(jù)挖掘也受到了 越來越多的關(guān)注。
[0003] 語音處理可識(shí)別出說話人所說的內(nèi)容,并將其轉(zhuǎn)化為文本數(shù)據(jù),進(jìn)而可以將這些 總量持續(xù)增長(zhǎng)的數(shù)據(jù)持久保存下來,以為后續(xù)進(jìn)行數(shù)據(jù)挖掘,進(jìn)而進(jìn)行數(shù)據(jù)查詢提供基礎(chǔ)。
[0004] 現(xiàn)有技術(shù)中,采用人工制定關(guān)鍵詞及模式,通過模式匹配識(shí)別目標(biāo)的數(shù)據(jù)挖掘方 法擴(kuò)展性低,難以大規(guī)模應(yīng)用;而根據(jù)關(guān)鍵詞和句型結(jié)構(gòu)制定模式,通過與模式計(jì)算相似度 識(shí)別目標(biāo)的數(shù)據(jù)挖掘方法則需要大量標(biāo)注數(shù)據(jù),其效果很大程度上依賴樣本的覆蓋,前期 投入過大。
【發(fā)明內(nèi)容】
[0005] 為消除現(xiàn)有數(shù)據(jù)查詢中進(jìn)行離線數(shù)據(jù)挖掘時(shí)存在的數(shù)據(jù)挖掘方法擴(kuò)展性低、難以 大規(guī)模應(yīng)用,以及依賴樣本的覆蓋程度高、前期投入過大的弊端,本發(fā)明提出如下技術(shù)方 案:
[0006] -種支持信息裂變查詢方法,包括:
[0007] 根據(jù)預(yù)設(shè)語料中每個(gè)句子所包含的詞語的詞性以及包含預(yù)設(shè)裂變?cè)~的句子確定 所述包含預(yù)設(shè)裂變?cè)~的句子的裂變模式,并根據(jù)所述預(yù)設(shè)裂變?cè)~對(duì)所述裂變模式的第一支 持信息將所述裂變模式加入到裂變模集合中;
[0008] 從所述預(yù)設(shè)語料中提取包含所述裂變模集合中的任一裂變模式的句子,并獲取該 句子中裂變?cè)~的位置所對(duì)應(yīng)的詞語,并根據(jù)所述裂變?cè)~的位置所對(duì)應(yīng)的詞語的所屬裂變模 式對(duì)該詞語的第二支持信息將該詞語作為裂變?cè)~加入到裂變?cè)~集合中;
[0009] 根據(jù)所述裂變?cè)~集合以及所述裂變模集合進(jìn)行迭代裂變搜索,以根據(jù)最終得到的 裂變?cè)~集合和最終得到的裂變模集合對(duì)待查詢語句進(jìn)行裂變處理,并根據(jù)處理結(jié)果獲取查 詢結(jié)果。
[0010] 可選地,所述根據(jù)預(yù)設(shè)語料中每個(gè)句子所包含的詞語的詞性以及包含預(yù)設(shè)裂變?cè)~ 的句子確定所述包含預(yù)設(shè)裂變?cè)~的句子的裂變模式,并根據(jù)所述預(yù)設(shè)裂變?cè)~對(duì)所述裂變模 式的第一支持信息將所述裂變模式加入到裂變模集合中,包括:
[0011] 根據(jù)預(yù)設(shè)語料中的每個(gè)句子所包含的詞語的詞性生成所述每個(gè)句子的分詞模式, 并提取所述預(yù)設(shè)語料中包含預(yù)設(shè)裂變?cè)~的句子,以根據(jù)所述預(yù)設(shè)裂變?cè)~將所述句子的分詞 模式轉(zhuǎn)換為裂變模式;
[0012] 計(jì)算所述裂變模式的第一置信度和所述預(yù)設(shè)裂變?cè)~到所述裂變模式的第一支持 度,以根據(jù)所述第一置信度和所述第一支持度將所述裂變模式加入到裂變模集合中。
[0013] 可選地,根據(jù)預(yù)設(shè)語料中的每個(gè)句子所包含的詞語的詞性生成所述每個(gè)句子的分 詞模式,包括:
[0014] 通過分詞程序?qū)λ鲱A(yù)設(shè)語料中的每個(gè)句子進(jìn)行分詞,并進(jìn)行實(shí)體標(biāo)注,以生成 每個(gè)句子的分詞模式。
[0015] 可選地,所述從所述預(yù)設(shè)語料中提取包含所述裂變模集合中的裂變模式的句子, 并獲取該句子中裂變?cè)~的位置所對(duì)應(yīng)的詞語,并根據(jù)該詞語的所屬裂變模式對(duì)該詞語的第 二支持信息將該詞語作為裂變?cè)~加入到裂變?cè)~集合中,包括:
[0016] 從所述預(yù)設(shè)語料中提取包含所述裂變模集合中的任一裂變模式的句子,并提取該 句子中裂變?cè)~位置所對(duì)應(yīng)的詞語;
[0017] 計(jì)算所述裂變?cè)~的位置所對(duì)應(yīng)的詞語的第二置信度和該詞語的所屬裂變模式到 該詞語的第二支持度,以根據(jù)所述第二置信度和所述第二支持度將所述詞語作為裂變?cè)~加 入到裂變?cè)~集合中。
[0018] 可選地,所述根據(jù)預(yù)設(shè)語料中每個(gè)句子所包含的詞語的詞性以及包含預(yù)設(shè)裂變?cè)~ 的句子確定所述包含預(yù)設(shè)裂變?cè)~的句子的裂變模式,并根據(jù)所述預(yù)設(shè)裂變?cè)~對(duì)所述裂變模 式的第一支持信息將所述裂變模式加入到裂變模集合中之前,所述方法還包括:
[0019] 初始化所述裂變?cè)~集合,并向初始化后的所述裂變?cè)~集合中添加若干疑問句的裂 變?cè)~和詞組作為預(yù)設(shè)裂變?cè)~;
[0020] 初始化所述裂變模集合,以將所述裂變模集合設(shè)置為空集合。
[0021] 可選地,所述根據(jù)所述裂變?cè)~集合以及所述裂變模集合進(jìn)行迭代裂變搜索,以根 據(jù)最終得到的裂變?cè)~集合和最終得到的裂變模集合對(duì)待查詢語句進(jìn)行裂變處理,并根據(jù)處 理結(jié)果獲取查詢結(jié)果,包括:
[0022] 接收根據(jù)所述最終得到的裂變?cè)~集合和最終得到的裂變模集合進(jìn)行人工標(biāo)注的 問答目標(biāo),以根據(jù)所述問答目標(biāo)獲取查詢結(jié)果。
[0023] 一種支持信息裂變查詢裝置,包括:
[0024] 裂變模集合確定單元,用于根據(jù)預(yù)設(shè)語料中每個(gè)句子所包含的詞語的詞性以及包 含預(yù)設(shè)裂變?cè)~的句子確定所述包含預(yù)設(shè)裂變?cè)~的句子的裂變模式,并根據(jù)所述預(yù)設(shè)裂變?cè)~ 對(duì)所述裂變模式的第一支持信息將所述裂變模式加入到裂變模集合中;
[0025] 裂變?cè)~集合確定單元,用于從所述預(yù)設(shè)語料中提取包含所述裂變模集合中的任一 裂變模式的句子,并獲取該句子中裂變?cè)~的位置所對(duì)應(yīng)的詞語,并根據(jù)所述裂變?cè)~的位置 所對(duì)應(yīng)的詞語的所屬裂變模式對(duì)該詞語的第二支持信息將該詞語作為裂變?cè)~加入到裂變 詞集合中;
[0026] 裂變查詢單元,用于根據(jù)所述裂變?cè)~集合以及所述裂變模集合進(jìn)行迭代裂變搜 索,以根據(jù)最終得到的裂變?cè)~集合和最終得到的裂變模集合對(duì)待查詢語句進(jìn)行裂變處理, 并根據(jù)處理結(jié)果獲取查詢結(jié)果。
[0027] 可選地,所述裂變模確定單元進(jìn)一步用于根據(jù)預(yù)設(shè)語料中的每個(gè)句子所包含的詞 語的詞性生成所述每個(gè)句子的分詞模式,并提取所述預(yù)設(shè)語料中包含預(yù)設(shè)裂變?cè)~的句子, 以根據(jù)所述預(yù)設(shè)裂變?cè)~將所述句子的分詞模式轉(zhuǎn)換為裂變模式;以及,
[0028] 用于計(jì)算所述裂變模式的第一置信度和所述預(yù)設(shè)裂變?cè)~到所述裂變模式的第一 支持度,以根據(jù)所述第一置信度和所述第一支持度將所述裂變模式加入到裂變模集合中。
[0029] 可選地,所述裂變?cè)~確定單元進(jìn)一步用于從所述預(yù)設(shè)語料中提取包含所述裂變模 集合中的任一裂變模式的句子,并提取該句子中裂變?cè)~位置所對(duì)應(yīng)的詞語;以及,
[0030] 用于計(jì)算所述裂變?cè)~的位置所對(duì)應(yīng)的詞語的第二置信度和該詞語的所屬裂變模 式到該詞語的第二支持度,以根據(jù)所述第二置信度和所述第二支持度將所述詞語作為裂變 詞加入到裂變?cè)~集合中。
[0031] 可選地,所述裝置還包括:
[0032] 集合初始化單元,用于初始化所述裂變?cè)~集合,并向初始化后的所述裂變?cè)~集合 中添加若干疑問句的裂變?cè)~和詞組作為預(yù)設(shè)裂變?cè)~;以及,
[0033] 用于初始化所述裂變模集合,以將所述裂變模集合設(shè)置為空集合。
[0034] 本發(fā)明的支持信息裂變查詢方法及裝置,基于支持信息以及迭代裂變搜索得到的 裂變?cè)~集合和裂變模集合,對(duì)用戶輸入的待查詢語句進(jìn)行裂變處理模式匹配并返回查詢結(jié) 果,消除了現(xiàn)有數(shù)據(jù)查詢中進(jìn)行離線數(shù)據(jù)挖掘時(shí)存在的數(shù)據(jù)挖掘方法擴(kuò)展性低、難以大規(guī) 模應(yīng)用,以及依賴樣本的覆蓋程度高、前期投入過大的弊端,提高了數(shù)據(jù)的離線挖掘效率, 縮短了數(shù)據(jù)挖掘時(shí)間,進(jìn)而提高了查詢準(zhǔn)確度和查詢效率,提升了用戶體驗(yàn)。
【附圖說明】
[0035] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明 的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù) 這些附圖獲得其他的附圖。
[0036] 圖1為本發(fā)明一個(gè)實(shí)施例提供的支持信息裂變查詢方法的流程示意圖;
[0037] 圖2為本發(fā)明另一個(gè)實(shí)施例提供的支持信息裂變查詢方法的流程示意圖;
[0038] 圖3為本發(fā)明一個(gè)實(shí)施例提供的支持信息裂變查詢裝置的結(jié)構(gòu)示意圖;
[0039] 圖4為本發(fā)明另一個(gè)實(shí)施例提供的支持信息裂變查詢裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0040] 為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例 中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚地描述,顯然,所描述的實(shí)施例是本發(fā)明 一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有 做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0041] 圖1為本發(fā)明一個(gè)實(shí)施例提供的支持信息裂變查詢方法的流程示意圖;如圖1所 示,該方法包括:
[0042] S1:根據(jù)預(yù)設(shè)語料以及預(yù)設(shè)裂變?cè)~確定所述預(yù)設(shè)裂變?cè)~對(duì)應(yīng)的裂變模式,并根據(jù) 所述預(yù)設(shè)裂變?cè)~對(duì)所述裂變模式的第一支持信息將所述裂變模式加入到裂變模集合中;
[0043]具體來說,根據(jù)預(yù)設(shè)語料中每個(gè)句子所包含的詞語的詞性(如[人名]、[動(dòng)詞]、[代 詞]等)以及包含預(yù)設(shè)裂變?cè)~的句子確定所述包含預(yù)設(shè)裂變?cè)~的句子的裂變模式(如[人名] + [裂變?cè)~]等),并根據(jù)所述預(yù)設(shè)裂變?cè)~對(duì)所述裂變模式的第一支持信息(包括支持度、置信 度、信息增益以及卡方等信息)將所述裂變模式加入到裂變模集合中;
[0044] S2:從所述預(yù)設(shè)語料中查找出匹配所述裂變模集合中的裂變模式的句子,并提取 所述句子中裂變?cè)~的位置所對(duì)應(yīng)的詞語,以根據(jù)所述詞語的所屬裂變模式對(duì)所述詞語的第 二支持信息將所述詞語加入到裂變?cè)~集合中;
[0045] 具體地,從所述預(yù)設(shè)語料中提取包含所述裂變模集合中的任一裂變模式的句子, 并獲取該句子中裂變?cè)~的位置所對(duì)應(yīng)的詞語,并根據(jù)所述裂變?cè)~的位置所對(duì)應(yīng)的詞語的所 屬裂變模式對(duì)該詞語的第二支持信息(包括支持度、置信度、信息增益以及卡方等信息)將 該詞語作為裂變?cè)~加入到裂變?cè)~集合中;
[0046] S3:根據(jù)所述裂變?cè)~集合以及所述裂變模集合通過迭代裂變搜索獲取最終的裂變 詞集合和最終的裂變模集合,并對(duì)待查詢語句進(jìn)行裂變處理,以獲取查詢結(jié)果;
[0047] 具體地,根據(jù)所述裂變?cè)~集合以及所述裂變模集合進(jìn)行迭代裂變搜索(即重復(fù)步 驟S1~S2,直至所述裂變?cè)~集合以及所述裂變模集合收斂,即不再出現(xiàn)新的裂變?cè)~和裂變 模式),以根據(jù)最終得到的裂變?cè)~集合和最終得到的裂變模集合對(duì)待查詢語句進(jìn)行裂變處 理,并根據(jù)處理結(jié)果獲取查詢結(jié)果。
[0048] 本實(shí)施例的支持信息裂變查詢方法,基于支持信息以及迭代裂變搜索得到的裂變 詞集合和裂變模集合,對(duì)用戶輸入的待查詢語句進(jìn)行裂變處理模式匹配并返回查詢結(jié)果, 消除了現(xiàn)有數(shù)據(jù)查詢中進(jìn)行離線數(shù)據(jù)挖掘時(shí)存在的數(shù)據(jù)挖掘方法擴(kuò)展性低、難以大規(guī)模應(yīng) 用,以及依賴樣本的覆蓋程度高、前期投入過大的弊端,提高了數(shù)據(jù)的離線挖掘效率,縮短 了數(shù)據(jù)挖掘時(shí)間,進(jìn)而提高了查詢準(zhǔn)確度和查詢效率,提升了用戶體驗(yàn)。
[0049 ]進(jìn)一步地,作為本實(shí)施例的優(yōu)選,上述步驟S1可以包括:
[0050] S11:根據(jù)預(yù)設(shè)語料中的每個(gè)句子所包含的詞語的詞性生成所述每個(gè)句子的分詞 模式,并提取所述預(yù)設(shè)語料中包含預(yù)設(shè)裂變?cè)~的句子,以根據(jù)所述預(yù)設(shè)裂變?cè)~將所述句子 的分詞模式轉(zhuǎn)換為裂變模式;
[0051] 其中,每個(gè)句子所包含的詞語的詞性包括名詞、動(dòng)詞以及代詞等等,在此基礎(chǔ)上, 根據(jù)每個(gè)句子所包含的詞語的詞性而生成的分詞模式例如為[人名]、[動(dòng)詞][代詞]、[人 名][動(dòng)詞][代詞]等等。
[0052] 具體來說,可通過分詞程序(如hadoop的map/reduce調(diào)用分詞程序)對(duì)所述預(yù)設(shè)語 料中的每個(gè)句子進(jìn)行分詞,并按照詞性進(jìn)行實(shí)體標(biāo)注,以生成每個(gè)句子的分詞模式,其中, 裂變?cè)~為用于將語句劃分成裂變模式的關(guān)鍵詞,例如"為什么"、"是什么"、"是誰"、"劉德 華"等[動(dòng)詞+代詞]或[名詞];所述的裂變模式為根據(jù)所述語句包含的所述關(guān)鍵詞的詞性以 及包含的其他詞語的詞性將所述語句進(jìn)行劃分所得的模式,例如對(duì)于語句"劉德華是誰"而 言,若其裂變?cè)~為"是誰",則其裂變模式可確定為"[人名]+ [裂變?cè)~]"。
[0053]具體地,例如在裂變?cè)~集合中加入的"是誰",并掃描上述語料中的包含"是誰"的 原句子,得到該原句子及其模式:
[0054] 劉德華是誰[人名][動(dòng)詞][代詞][動(dòng)詞][代詞]=[裂變?cè)~],以將得到的模式"[人 名][動(dòng)詞][代詞]"加入裂變模集合中。
[0055] S12:計(jì)算所述裂變模式的第一置信度和所述預(yù)設(shè)裂變?cè)~到所述裂變模式的第一 支持度,以根據(jù)所述第一置信度和所述第一支持度將所述裂變模式加入到裂變模集合中。
[0056] 具體地,即將裂變模式的第一置信度和所述預(yù)設(shè)裂變?cè)~到所述裂變模式的第一支 持度分別與置信度閾值和支持度閾值進(jìn)行比較,并在第一置信度與第一支持度均大于相應(yīng) 的閾值的情況下,將該裂變模式加入到裂變模集合中。
[0057] 進(jìn)一步地,作為本實(shí)施例的優(yōu)選,上述步驟S2還可以包括:
[0058] S21:從所述預(yù)設(shè)語料中提取包含所述裂變模集合中的任一裂變模式的句子,并提 取該句子中裂變?cè)~位置所對(duì)應(yīng)的詞語;
[0059] 具體地,例如從預(yù)設(shè)語料中掃描出裂變模集合中的裂變模式"[人名][動(dòng)詞][代 詞]"的句子:"梁朝偉在哪",由前所述,[動(dòng)詞][代詞]=[裂變?cè)~],因此可提取出裂變?cè)~位 置上的新詞"在哪"。
[0060] S22:計(jì)算所述裂變?cè)~的位置所對(duì)應(yīng)的詞語的第二置信度和該詞語的所屬裂變模 式到該詞語的第二支持度,以根據(jù)所述第二置信度和所述第二支持度將所述詞語作為裂變 詞加入到裂變?cè)~集合中。
[0061] 具體地,即將裂變?cè)~的位置所對(duì)應(yīng)的詞語的第二置信度和該詞語的所屬裂變模式 到該詞語的第二支持度分別與置信度閾值和支持度閾值進(jìn)行比較,并在第二置信度與第二 支持度均大于相應(yīng)的閾值的情況下,將該詞語作為新的裂變?cè)~加入到裂變?cè)~集合中。
[0062] 圖2為本發(fā)明另一個(gè)實(shí)施例提供的支持信息裂變查詢方法的流程示意圖;如圖2所 示,在上一實(shí)施例的基礎(chǔ)上,步驟S1中根據(jù)預(yù)設(shè)語料以及預(yù)設(shè)裂變?cè)~確定所述預(yù)設(shè)裂變?cè)~ 對(duì)應(yīng)的裂變模式,并根據(jù)所述預(yù)設(shè)裂變?cè)~對(duì)所述裂變模式的第一支持信息將所述裂變模式 加入到裂變模集合中之前,該方法還可以進(jìn)一步包括:
[0063] S0:初始化所述裂變?cè)~集合,并向初始化后的所述裂變?cè)~集合中添加若干疑問句 的裂變?cè)~和詞組作為預(yù)設(shè)裂變?cè)~;初始化所述裂變模集合,以將所述裂變模集合設(shè)置為空 集合。
[0064] 具體地,上述初始化裂變?cè)~集合,包括保留用于放置查詢出的裂變?cè)~的裂變?cè)~集 合,并向初始化后的裂變?cè)~集合中添加若干疑問句的裂變?cè)~和詞組作為預(yù)設(shè)裂變?cè)~,例如 [在哪]、[是誰]等等,以存儲(chǔ)后續(xù)通過迭代處理所獲取的裂變?cè)~。
[0065]而初始化所述裂變模集合,包括保留一個(gè)用于放置查詢出的裂變模式的裂變模集 合,以存儲(chǔ)后續(xù)通過迭代處理所獲取的裂變模式。
[0066] 作為本實(shí)施例的優(yōu)選,步驟S3中根據(jù)所述裂變?cè)~集合以及所述裂變模集合通過迭 代裂變搜索獲取最終的裂變?cè)~集合和最終的裂變模集合,并對(duì)待查詢語句進(jìn)行裂變處理, 以獲取查詢結(jié)果,可以進(jìn)一步包括:
[0067] 接收根據(jù)所述最終得到的裂變?cè)~集合和最終得到的裂變模集合進(jìn)行人工標(biāo)注的 問答目標(biāo),以根據(jù)所述問答目標(biāo)獲取查詢結(jié)果。
[0068] 本實(shí)施例的支持信息裂變查詢方法基于支持信息以及迭代搜索方式獲得的裂變 詞集合和裂變模集合,可以縮短數(shù)據(jù)處理時(shí)間,提高了數(shù)據(jù)挖掘與數(shù)據(jù)查詢的效率。
[0069] 圖3為本發(fā)明一個(gè)實(shí)施例提供的支持信息裂變查詢裝置的結(jié)構(gòu)示意圖;如圖3所 示,該裝置包括:
[0070] 裂變模集合確定單元10,用于根據(jù)預(yù)設(shè)語料以及預(yù)設(shè)裂變?cè)~確定所述預(yù)設(shè)裂變?cè)~ 對(duì)應(yīng)的裂變模式,并根據(jù)所述預(yù)設(shè)裂變?cè)~對(duì)所述裂變模式的第一支持信息將所述裂變模式 加入到裂變模集合中;
[0071] 具體地,裂變模集合確定單元10用于根據(jù)預(yù)設(shè)語料中每個(gè)句子所包含的詞語的詞 性(如[人名]、[動(dòng)詞]、[代詞]等)以及包含預(yù)設(shè)裂變?cè)~的句子確定所述包含預(yù)設(shè)裂變?cè)~的 句子的裂變模式(如[人名]+[裂變?cè)~]等),并根據(jù)所述預(yù)設(shè)裂變?cè)~對(duì)所述裂變模式的第一 支持信息(包括支持度、置信度、信息增益以及卡方等信息)將所述裂變模式加入到裂變模 集合中;
[0072] 裂變?cè)~集合確定單元20,用于從所述預(yù)設(shè)語料中查找出匹配所述裂變模集合中的 裂變模式的句子,并提取所述句子中裂變?cè)~的位置所對(duì)應(yīng)的詞語,以根據(jù)所述詞語的所屬 裂變模式對(duì)所述詞語的第二支持信息將所述詞語加入到裂變?cè)~集合中;
[0073] 具體地,裂變?cè)~集合確定單元20用于從所述預(yù)設(shè)語料中提取包含所述裂變模集合 中的任一裂變模式的句子,并獲取該句子中裂變?cè)~的位置所對(duì)應(yīng)的詞語,并根據(jù)所述裂變 詞的位置所對(duì)應(yīng)的詞語的所屬裂變模式對(duì)該詞語的第二支持信息(包括支持度、置信度、信 息增益以及卡方等信息)將該詞語作為裂變?cè)~加入到裂變?cè)~集合中;
[0074]裂變查詢單元30,用于根據(jù)所述裂變?cè)~集合以及所述裂變模集合通過迭代裂變搜 索獲取最終的裂變?cè)~集合和最終的裂變模集合,并對(duì)待查詢語句進(jìn)行裂變處理,以獲取查 詢結(jié)果;
[0075] 具體地,裂變查詢單元30用于根據(jù)所述裂變?cè)~集合以及所述裂變模集合進(jìn)行迭代 裂變搜索(即重復(fù)步驟S1~S2,直至所述裂變?cè)~集合以及所述裂變模集合收斂,即不再出現(xiàn) 新的裂變?cè)~和裂變模式),以根據(jù)最終得到的裂變?cè)~集合和最終得到的裂變模集合對(duì)待查 詢語句進(jìn)行裂變處理,并根據(jù)處理結(jié)果獲取查詢結(jié)果。
[0076] 本實(shí)施例所述的支持信息裂變查詢裝置可以用于執(zhí)行上述方法實(shí)施例,其原理和 技術(shù)效果類似,此處不再贅述。
[0077] 進(jìn)一步地,作為本實(shí)施例的優(yōu)選,裂變模確定單元10可進(jìn)一步用于根據(jù)預(yù)設(shè)語料 中的每個(gè)句子所包含的詞語的詞性生成所述每個(gè)句子的分詞模式,并提取所述預(yù)設(shè)語料中 包含預(yù)設(shè)裂變?cè)~的句子,以根據(jù)所述預(yù)設(shè)裂變?cè)~將所述句子的分詞模式轉(zhuǎn)換為裂變模式;
[0078] 其中,每個(gè)句子所包含的詞語的詞性包括名詞、動(dòng)詞以及代詞等等,在此基礎(chǔ)上, 根據(jù)每個(gè)句子所包含的詞語的詞性而生成的分詞模式例如為[人名]、[動(dòng)詞][代詞]、[人 名][動(dòng)詞][代詞]等等。
[0079] 具體來說,可通過分詞程序(如hadoop的map/reduce調(diào)用分詞程序)對(duì)所述預(yù)設(shè)語 料中的每個(gè)句子進(jìn)行分詞,并按照詞性進(jìn)行實(shí)體標(biāo)注,以生成每個(gè)句子的分詞模式,其中, 裂變?cè)~為用于將語句劃分成裂變模式的關(guān)鍵詞,例如"為什么"、"是什么"、"是誰"、"劉德 華"等[動(dòng)詞+代詞]或[名詞];所述的裂變模式為根據(jù)所述語句包含的所述關(guān)鍵詞的詞性以 及包含的其他詞語的詞性將所述語句進(jìn)行劃分所得的模式,例如對(duì)于語句"劉德華是誰"而 言,若其裂變?cè)~為"是誰",則其裂變模式可確定為"[人名]+ [裂變?cè)~]"。
[0080] 具體地,例如在裂變?cè)~集合中加入的"是誰",并掃描上述語料中的包含"是誰"的 原句子,得到該原句子及其模式:
[0081] 劉德華是誰[人名][動(dòng)詞][代詞][動(dòng)詞][代詞]=[裂變?cè)~],以將得到的模式"[人 名][動(dòng)詞][代詞]"加入裂變模集合中。
[0082] 在此基礎(chǔ)上,裂變模確定單元10還可用于計(jì)算所述裂變模式的第一置信度和所述 預(yù)設(shè)裂變?cè)~到所述裂變模式的第一支持度,以根據(jù)所述第一置信度和所述第一支持度將所 述裂變模式加入到裂變模集合中。
[0083] 具體地,即將裂變模式的第一置信度和所述預(yù)設(shè)裂變?cè)~到所述裂變模式的第一支 持度分別與置信度閾值和支持度閾值進(jìn)行比較,并在第一置信度與第一支持度均大于相應(yīng) 的閾值的情況下,將該裂變模式加入到裂變模集合中。
[0084] 進(jìn)一步地,作為本實(shí)施例的優(yōu)選,裂變?cè)~確定單元20可進(jìn)一步用于從所述預(yù)設(shè)語 料中提取包含所述裂變模集合中的任一裂變模式的句子,并提取該句子中裂變?cè)~位置所對(duì) 應(yīng)的詞語;
[0085] 具體地,例如從預(yù)設(shè)語料中掃描出裂變模集合中的裂變模式"[人名][動(dòng)詞][代 詞]"的句子:"梁朝偉在哪",由前所述,[動(dòng)詞][代詞]=[裂變?cè)~],因此可提取出裂變?cè)~位 置上的新詞"在哪"。
[0086] 在此基礎(chǔ)上,裂變?cè)~確定單元20還可用于計(jì)算所述裂變?cè)~的位置所對(duì)應(yīng)的詞語的 第二置信度和該詞語的所屬裂變模式到該詞語的第二支持度,以根據(jù)所述第二置信度和所 述第二支持度將所述詞語作為裂變?cè)~加入到裂變?cè)~集合中。
[0087] 具體地,即將裂變?cè)~的位置所對(duì)應(yīng)的詞語的第二置信度和該詞語的所屬裂變模式 到該詞語的第二支持度分別與置信度閾值和支持度閾值進(jìn)行比較,并在第二置信度與第二 支持度均大于相應(yīng)的閾值的情況下,將該詞語作為新的裂變?cè)~加入到裂變?cè)~集合中。
[0088] 圖4為本發(fā)明另一個(gè)實(shí)施例提供的支持信息裂變查詢裝置的結(jié)構(gòu)示意圖;如圖4所 示,在上一實(shí)施例的基礎(chǔ)上,本實(shí)施例的裝置還可以進(jìn)一步包括:
[0089] 集合初始化單元40,用于初始化所述裂變?cè)~集合,并向初始化后的所述裂變?cè)~集 合中添加若干疑問句的裂變?cè)~和詞組作為預(yù)設(shè)裂變?cè)~;初始化所述裂變模集合,以將所述 裂變模集合設(shè)置為空集合。
[0090] 具體地,上述初始化裂變?cè)~集合,包括保留用于放置查詢出的裂變?cè)~的裂變?cè)~集 合,并向初始化后的裂變?cè)~集合中添加若干疑問句的裂變?cè)~和詞組作為預(yù)設(shè)裂變?cè)~,例如 [在哪]、[是誰]等等,以存儲(chǔ)后續(xù)通過迭代處理所獲取的裂變?cè)~。
[0091] 而初始化所述裂變模集合,包括保留一個(gè)用于放置查詢出的裂變模式的裂變模集 合,以存儲(chǔ)后續(xù)通過迭代處理所獲取的裂變模式。
[0092] 作為上述所有裝置實(shí)施例的優(yōu)選,裂變查詢單元30可進(jìn)一步用于:
[0093] 接收根據(jù)所述最終得到的裂變?cè)~集合和最終得到的裂變模集合進(jìn)行人工標(biāo)注的 問答目標(biāo),以根據(jù)所述問答目標(biāo)獲取查詢結(jié)果。
[0094]下面以一具體的實(shí)施例來說明本發(fā)明,但不限定本發(fā)明的保護(hù)范圍。本實(shí)施例的 支持信息裂變查詢方法的步驟如下:
[0095] 1、預(yù)處理語料結(jié)果如下表一所示:
[0096] 表一語料預(yù)處理結(jié)果
[0098] 2、初始化裂變模集合為空,初始化裂變?cè)~集合為空;
[0099] 3、在裂變?cè)~集合中加入"是誰"(預(yù)設(shè)裂變?cè)~);
[0100] 4、掃描原句子中包含"是誰"的句子,得到原句子及其裂變模式,例如:
[0101] 劉德華是誰(原句子)[人名][動(dòng)詞][代詞](裂變模式),其中,[動(dòng)詞][代詞]=[裂 變?cè)~]。
[0102] 5、計(jì)算上述裂變模式的支持信息,并根據(jù)經(jīng)驗(yàn)制定支持信息閾值,當(dāng)支持度大于 該閾值時(shí),將上述裂變模式加入到裂變模集合中;
[0103] 其中,支持信息包括支持度、置信度、信息增益、卡方等信息;以支持度和置信度為 例:
[0104] 假設(shè)裂變模式的置信度閾值為0.6、支持度閾值為0.6,則:
[0105][人名]和[動(dòng)詞][代詞]置信度為:2/3 = 0.67;
[0106][人名]對(duì)[動(dòng)詞][代詞]的支持度為:2/3 = 0 · 67;
[0107] 即均大于閾值,因此將裂變模式"[人名][動(dòng)詞][代詞]"加入裂變模集合中。
[0108] 6、在原句子中掃描出[人名][動(dòng)詞][代詞]模式的句子,例如:梁朝偉在哪。
[0109] 7、計(jì)算"在哪"的支持信息,并根據(jù)經(jīng)驗(yàn)制定支持信息閾值,當(dāng)支持度大于該閾值 時(shí),將該裂變?cè)~加入到裂變?cè)~集合中;
[0110]其中,支持信息包括支持度、置信度、信息增益、卡方等信息;以支持度和置信度為 例:
[0111]假設(shè)裂變?cè)~的置信度閾值為〇. 3、支持度閾值為0.3,則:
[0112][人名]和"在哪"置信度為:1/3 = 0.33 [0113][人名]對(duì)"在哪"的支持度為:1/3 = 0.33
[0114] 即均大于閾值,因此將裂變?cè)~"在哪"加入裂變?cè)~集合中。
[0115] 8、結(jié)束,得到裂變?cè)~集合:是誰、在哪;
[0116]得到裂變模集合:[人名][動(dòng)詞][代詞];
[0117] 9、標(biāo)注:
[0118] [人名]+ "是誰"的目標(biāo)是who;
[0119] [人名]+ "在哪"的目標(biāo)是where;
[0120] 10、線上使用時(shí),符合[人名]+ "是誰"模式的,問題目標(biāo)為who,將返回該[人名]是 誰的答案。
[0121] 符合[人名]+ "在哪"模式的,問題目標(biāo)為where,將返回該[人名]在什么地方的答 案。
[0122] 本發(fā)明的支持信息裂變查詢方法及裝置,基于支持信息以及迭代裂變搜索得到的 裂變?cè)~集合和裂變模集合,對(duì)用戶輸入的待查詢語句進(jìn)行裂變處理模式匹配并返回查詢結(jié) 果,消除了現(xiàn)有數(shù)據(jù)查詢中進(jìn)行離線數(shù)據(jù)挖掘時(shí)存在的數(shù)據(jù)挖掘方法擴(kuò)展性低、難以大規(guī) 模應(yīng)用,以及依賴樣本的覆蓋程度高、前期投入過大的弊端,提高了數(shù)據(jù)的離線挖掘效率, 縮短了數(shù)據(jù)挖掘時(shí)間,進(jìn)而提高了查詢準(zhǔn)確度和查詢效率,提升了用戶體驗(yàn)。
[0123] 以上實(shí)施例僅用于說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例 對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施 例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或替 換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。
【主權(quán)項(xiàng)】
1. 一種支持信息裂變查詢方法,其特征在于,包括: 根據(jù)預(yù)設(shè)語料以及預(yù)設(shè)裂變?cè)~確定所述預(yù)設(shè)裂變?cè)~對(duì)應(yīng)的裂變模式,并根據(jù)所述預(yù)設(shè) 裂變?cè)~對(duì)所述裂變模式的第一支持信息將所述裂變模式加入到裂變模集合中; 從所述預(yù)設(shè)語料中查找出匹配所述裂變模集合中的裂變模式的句子,并提取所述句子 中裂變?cè)~的位置所對(duì)應(yīng)的詞語,以根據(jù)所述詞語的所屬裂變模式對(duì)所述詞語的第二支持信 息將所述詞語加入到裂變?cè)~集合中; 根據(jù)所述裂變?cè)~集合以及所述裂變模集合通過迭代裂變搜索獲取最終的裂變?cè)~集合 和最終的裂變模集合,并對(duì)待查詢語句進(jìn)行裂變處理,以獲取查詢結(jié)果。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)預(yù)設(shè)語料以及預(yù)設(shè)裂變?cè)~確定所 述預(yù)設(shè)裂變?cè)~對(duì)應(yīng)的裂變模式,并根據(jù)所述預(yù)設(shè)裂變?cè)~對(duì)所述裂變模式的第一支持信息將 所述裂變模式加入到裂變模集合中,包括: 根據(jù)預(yù)設(shè)語料中的每個(gè)句子所包含的詞語的詞性生成所述每個(gè)句子的分詞模式,并提 取所述預(yù)設(shè)語料中包含預(yù)設(shè)裂變?cè)~的句子,以根據(jù)所述預(yù)設(shè)裂變?cè)~將所述句子的分詞模式 轉(zhuǎn)換為裂變模式; 計(jì)算所述裂變模式的第一置信度和所述預(yù)設(shè)裂變?cè)~到所述裂變模式的第一支持度,以 根據(jù)所述第一置信度和所述第一支持度將所述裂變模式加入到裂變模集合中。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)預(yù)設(shè)語料中的每個(gè)句子所包含的詞語 的詞性生成所述每個(gè)句子的分詞模式,包括: 通過分詞程序?qū)λ鲱A(yù)設(shè)語料中的每個(gè)句子進(jìn)行分詞,并進(jìn)行實(shí)體標(biāo)注,以生成每個(gè) 句子的分詞模式。4. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述從所述預(yù)設(shè)語料中查找出匹配所述裂 變模集合中的裂變模式的句子,并提取所述句子中裂變?cè)~的位置所對(duì)應(yīng)的詞語,以根據(jù)所 述詞語的所屬裂變模式對(duì)所述詞語的第二支持信息將所述詞語加入到裂變?cè)~集合中,包 括: 從所述預(yù)設(shè)語料中提取包含所述裂變模集合中的任一裂變模式的句子,并提取該句子 中裂變?cè)~位置所對(duì)應(yīng)的詞語; 計(jì)算所述裂變?cè)~的位置所對(duì)應(yīng)的詞語的第二置信度和該詞語的所屬裂變模式到該詞 語的第二支持度,以根據(jù)所述第二置信度和所述第二支持度將所述詞語作為裂變?cè)~加入到 裂變?cè)~集合中。5. 根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其特征在于,所述根據(jù)預(yù)設(shè)語料以及預(yù)設(shè) 裂變?cè)~確定所述預(yù)設(shè)裂變?cè)~對(duì)應(yīng)的裂變模式,并根據(jù)所述預(yù)設(shè)裂變?cè)~對(duì)所述裂變模式的第 一支持信息將所述裂變模式加入到裂變模集合中之前,所述方法還包括: 初始化所述裂變?cè)~集合,并向初始化后的所述裂變?cè)~集合中添加若干疑問句的裂變?cè)~ 和詞組作為預(yù)設(shè)裂變?cè)~; 初始化所述裂變模集合,以將所述裂變模集合設(shè)置為空集合。6. 根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述裂變?cè)~集合以 及所述裂變模集合通過迭代裂變搜索獲取最終的裂變?cè)~集合和最終的裂變模集合,并對(duì)待 查詢語句進(jìn)行裂變處理,以獲取查詢結(jié)果,包括: 接收根據(jù)所述最終得到的裂變?cè)~集合和最終得到的裂變模集合進(jìn)行人工標(biāo)注的問答 目標(biāo),以根據(jù)所述問答目標(biāo)獲取查詢結(jié)果。7. -種支持信息裂變查詢裝置,其特征在于,包括: 裂變模集合確定單元,用于根據(jù)預(yù)設(shè)語料以及預(yù)設(shè)裂變?cè)~確定所述預(yù)設(shè)裂變?cè)~對(duì)應(yīng)的 裂變模式,并根據(jù)所述預(yù)設(shè)裂變?cè)~對(duì)所述裂變模式的第一支持信息將所述裂變模式加入到 裂變模集合中; 裂變?cè)~集合確定單元,用于從所述預(yù)設(shè)語料中查找出匹配所述裂變模集合中的裂變模 式的句子,并提取所述句子中裂變?cè)~的位置所對(duì)應(yīng)的詞語,以根據(jù)所述詞語的所屬裂變模 式對(duì)所述詞語的第二支持信息將所述詞語加入到裂變?cè)~集合中; 裂變查詢單元,用于根據(jù)所述裂變?cè)~集合以及所述裂變模集合通過迭代裂變搜索獲取 最終的裂變?cè)~集合和最終的裂變模集合,并對(duì)待查詢語句進(jìn)行裂變處理,以獲取查詢結(jié)果。8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裂變模確定單元進(jìn)一步用于根據(jù)預(yù)設(shè) 語料中的每個(gè)句子所包含的詞語的詞性生成所述每個(gè)句子的分詞模式,并提取所述預(yù)設(shè)語 料中包含預(yù)設(shè)裂變?cè)~的句子,以根據(jù)所述預(yù)設(shè)裂變?cè)~將所述句子的分詞模式轉(zhuǎn)換為裂變模 式;以及, 用于計(jì)算所述裂變模式的第一置信度和所述預(yù)設(shè)裂變?cè)~到所述裂變模式的第一支持 度,以根據(jù)所述第一置信度和所述第一支持度將所述裂變模式加入到裂變模集合中。9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述裂變?cè)~確定單元進(jìn)一步用于從所述預(yù) 設(shè)語料中提取包含所述裂變模集合中的任一裂變模式的句子,并提取該句子中裂變?cè)~位置 所對(duì)應(yīng)的詞語;以及,用于計(jì)算所述裂變?cè)~的位置所對(duì)應(yīng)的詞語的第二置信度和該詞語的 所屬裂變模式到該詞語的第二支持度,以根據(jù)所述第二置信度和所述第二支持度將所述詞 語作為裂變?cè)~加入到裂變?cè)~集合中。10. 根據(jù)權(quán)利要求7至9任一項(xiàng)所述的裝置,其特征在于,所述裝置還包括: 集合初始化單元,用于初始化所述裂變?cè)~集合,并向初始化后的所述裂變?cè)~集合中添 加若干疑問句的裂變?cè)~和詞組作為預(yù)設(shè)裂變?cè)~;以及, 用于初始化所述裂變模集合,以將所述裂變模集合設(shè)置為空集合。
【文檔編號(hào)】G06F17/27GK106095956SQ201610425294
【公開日】2016年11月9日
【申請(qǐng)日】2016年6月15日
【發(fā)明人】郭祥, 郭瑞
【申請(qǐng)人】北京智能管家科技有限公司