歸一化方法及裝置的制造方法
【專利摘要】本發(fā)明實施例提供一種歸一化方法及裝置。獲取輸入語句,調(diào)用預(yù)先生成的、不同應(yīng)用場景對應(yīng)的領(lǐng)域切詞詞典對所述輸入語句進(jìn)行切詞;根據(jù)所述切詞的結(jié)果,調(diào)用預(yù)先設(shè)置的、所述不同應(yīng)用場景對應(yīng)的歸一化語法,與所述切詞的結(jié)果進(jìn)行語義匹配;當(dāng)判定所述切詞的結(jié)果中包含歸一化目標(biāo),則查詢預(yù)設(shè)的歸一化映射表,獲取所述歸一化目標(biāo)的歸一化結(jié)果。實現(xiàn)了快速而靈活的歸一化處理。
【專利說明】
歸_化方法及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明實施例涉及自然語言處理技術(shù)領(lǐng)域,尤其涉及一種歸一化方法及裝置。
【背景技術(shù)】
[0002]對于語音識別結(jié)果進(jìn)行解析時,語音識別結(jié)果中的數(shù)字部分包括阿拉伯?dāng)?shù)字、大寫漢字、小數(shù)、分?jǐn)?shù)等,識別結(jié)果難以控制,經(jīng)常出現(xiàn)我們不想要的結(jié)果,所以需要對識別結(jié)果進(jìn)行歸一化,使得顯示美觀且方便后續(xù)進(jìn)行語義解析。比如將識別結(jié)果“二零零五年”歸一化成“2005年”,將“十二點(diǎn)一刻”歸一化成“12:15”等。
[0003]另外,對于很多異形同義詞,其表述含義相同,然而在語音識別過程中,也經(jīng)常出現(xiàn)并不符合用戶意圖的識別結(jié)果。例如,用戶通過帶有語音識別的電視進(jìn)行節(jié)目搜索時,用戶的語音輸入為“我想看芒果臺”,然而,在電視的語音識別設(shè)備中,預(yù)先可能并沒有存有“芒果臺”這一電視頻道關(guān)鍵詞,因此,對用戶的語音輸入的識別結(jié)果可能會出錯,也許會得到許多跟“芒果”有關(guān)的電視節(jié)目。因此,需要在識別之前進(jìn)一步將異形同義詞進(jìn)行歸一化,例如,將“芒果臺”歸一化至“湖南臺”,從而,不論用戶的語音輸入結(jié)果是“芒果臺”還是“湖南臺”都能準(zhǔn)確識別用戶意圖,并為用戶提供相應(yīng)服務(wù)。
[0004]目前比較主流的歸一化方案都是對待歸一化的目標(biāo)進(jìn)行簡單的映射,這種辦法歸一化結(jié)果完全依賴歸一化映射表包含的內(nèi)容,十分不靈活,需要人工維護(hù),并且歸一化結(jié)果蠻力生硬,容易出錯。
[0005]因此,一種改進(jìn)的歸一化方法亟待提出。
【發(fā)明內(nèi)容】
[0006]本發(fā)明實施例提供一種歸一化方法及裝置,用以解決現(xiàn)有技術(shù)歸一化結(jié)果完全依賴歸一化映射表式的缺陷,實現(xiàn)快速而靈活的歸一化處理。
[0007]本發(fā)明實施例提供一種歸一化方法,包括:
[0008]獲取輸入語句,調(diào)用預(yù)先生成的、不同應(yīng)用場景對應(yīng)的領(lǐng)域切詞詞典對所述輸入語句進(jìn)行切詞;
[0009]根據(jù)所述切詞的結(jié)果,調(diào)用預(yù)先設(shè)置的、所述不同應(yīng)用場景對應(yīng)的歸一化語法,與所述切詞的結(jié)果進(jìn)行語義匹配;
[0010]當(dāng)判定所述切詞的結(jié)果中包含歸一化目標(biāo),則查詢預(yù)設(shè)的歸一化映射表,獲取所述歸一化目標(biāo)的歸一化結(jié)果。
[0011]本發(fā)明實施例提供一種歸一化裝置,包括:
[0012]解析模塊,用于獲取輸入語句,對所述輸入語句進(jìn)行解析從而獲得所述輸語句對應(yīng)的應(yīng)用場景;
[0013]切詞模塊,用于獲取輸入語句,調(diào)用預(yù)先生成的、不同應(yīng)用場景對應(yīng)的領(lǐng)域切詞詞典對所述輸入語句進(jìn)行切詞;
[0014]匹配模塊,用于根據(jù)所述切詞的結(jié)果,調(diào)用預(yù)先設(shè)置的、所述不同應(yīng)用場景對應(yīng)的歸一化語法,與所述切詞的結(jié)果進(jìn)行語義匹配;
[0015]查詢模塊,用于當(dāng)判定所述切詞的結(jié)果中包含歸一化目標(biāo),則查詢預(yù)設(shè)的歸一化映射表,獲取所述歸一化目標(biāo)的歸一化結(jié)果。
[0016]本發(fā)明實施例提供的歸一化方法及裝置,通過判斷輸入語句對應(yīng)的應(yīng)用場景并根據(jù)所述應(yīng)用場景調(diào)用相應(yīng)的領(lǐng)域切詞詞典對所述輸入語句進(jìn)行切詞,從而根據(jù)預(yù)設(shè)的歸一化語法以及預(yù)設(shè)的歸一化映射表對所述輸入語句進(jìn)行歸一化處理,改變了現(xiàn)有技術(shù)中進(jìn)行歸一化處理時,歸一化結(jié)果完全依賴歸一化映射表式的缺陷,實現(xiàn)快速而靈活的歸一化處理。
【附圖說明】
[0017]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0018]圖1為本申請實施例一的技術(shù)流程圖;
[0019]圖2a為本申請實施例一的歸一化場景示例圖;
[0020]圖2b為本申請實施例一的歸一化語法樹示例圖;
[0021]圖2c為本申請實施例一的歸一化示例圖;
[0022]圖3為本申請實施例二的技術(shù)流程圖;
[0023]圖4為本申請實施例二的地址信息部分示例圖;
[0024]圖5為本申請實施例二的詞典組成部分示例圖;
[0025]圖6為本申請實施例三的裝置結(jié)構(gòu)示意圖。
【具體實施方式】
[0026]為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
[0027]圖1是本申請實施例一的技術(shù)流程圖,結(jié)合圖1,本申請實施例一種歸一化方法,可由如下的步驟實現(xiàn):
[0028]步驟S110:獲取輸入語句,調(diào)用預(yù)先生成的、不同應(yīng)用場景對應(yīng)的領(lǐng)域切詞詞典對所述輸入語句進(jìn)行切詞;
[0029]步驟S120:根據(jù)所述切詞的結(jié)果,調(diào)用預(yù)先設(shè)置的、所述不同應(yīng)用場景對應(yīng)的歸一化語法,與所述切詞的結(jié)果進(jìn)行語義匹配;
[0030]步驟S130:當(dāng)判定所述切詞的結(jié)果中包含歸一化目標(biāo),則查詢預(yù)設(shè)的歸一化映射表,獲取所述歸一化目標(biāo)的歸一化結(jié)果。
[0031]具體的,在步驟SllO中,所述輸入語句可以是用戶輸入語音的識別對應(yīng)的文字結(jié)果,也可以是用戶直接的文字輸入結(jié)果。所述應(yīng)用場景相應(yīng)的所述領(lǐng)域切詞詞典是預(yù)先訓(xùn)練的到的。對于一個詞或者一個數(shù)字,其對應(yīng)的每一種應(yīng)用場景都相應(yīng)的有一個專屬于這一應(yīng)用領(lǐng)域的切詞詞典,從而輸入語句能夠按照其所處領(lǐng)域的語法規(guī)則來進(jìn)行切詞,從而能夠正確提取歸一化目標(biāo)部分。本步驟中,對于一輸入語句而言,并無法得知其中的歸一化目標(biāo)屬于哪一應(yīng)用場景,因此,本步驟中,需要采用不用應(yīng)用場景的領(lǐng)域切詞詞典對輸入語句進(jìn)行切詞,能夠得到多種應(yīng)用場景。
[0032]例如,在電視應(yīng)用領(lǐng)域,“芒果臺”是一個能夠代表湖南電視臺的詞,在用電視應(yīng)用領(lǐng)域的領(lǐng)域切詞詞典對“我想看芒果臺”進(jìn)行切詞的時候,可能得到的結(jié)果是“我想I看I芒果臺”;而在食物領(lǐng)域,“芒果”就是一種水果,所以,在用食物領(lǐng)域的領(lǐng)域切詞詞典對“我想看芒果臺”進(jìn)行切詞的時候,可能得到的結(jié)果是“我想I看I芒果I臺”。
[0033]根據(jù)現(xiàn)有技術(shù)中的做法,對于每一個字或者詞的不同應(yīng)用領(lǐng)域,共同采用同一個切詞詞典對用戶語音識別的結(jié)果進(jìn)行切詞,切詞結(jié)果是不可控的。若是切詞結(jié)果為“我想看I芒果I臺”,那么相應(yīng)的語義解析以及搜索結(jié)果,可能并不是用戶想要的湖南臺,也許是與“芒果”這一水果有關(guān)的任意節(jié)目。因此,本發(fā)明實施例中,將通用的切詞詞典,按照用戶輸入語句的應(yīng)用場景進(jìn)行分類,從而得到每個應(yīng)用場景分類對應(yīng)的領(lǐng)域切詞詞典,切詞結(jié)果可控且語義匹配的正確率更高。
[0034]具體的,在步驟S120中,對上一步驟所切分得到的結(jié)果進(jìn)行語義匹配,其目的在于,尋找用戶輸入的語句中是否包含需要進(jìn)行歸一化的目標(biāo),例如數(shù)字的書寫以及同義詞。
[0035]本步驟中,在進(jìn)行語義匹配時,針對所述不同應(yīng)用場景的領(lǐng)域詞典的切詞結(jié)果,采用對應(yīng)的歸一化語法進(jìn)行語義匹配。由此,才能夠保證語義匹配的正確性。
[0036]例如,“我想I看I芒果I臺”是用電視應(yīng)用場景的鄰域切詞詞典進(jìn)行切詞得到的結(jié)果,需要用電視應(yīng)用場景的歸一化語法進(jìn)行語義匹配,那么將能夠得到正確的匹配結(jié)果,即“我想看湖南臺” ο “我想I看I芒果I臺”是食物應(yīng)用領(lǐng)域切詞詞典進(jìn)行切詞得到的結(jié)果,若是用食物場景的歸一化語法進(jìn)行語義匹配,則“看”和“臺”,在食物應(yīng)用領(lǐng)域的歸一化語法中是匹配不上的,因此,在這個應(yīng)用場景,用戶的輸入沒有匹配結(jié)果。
[0037]本發(fā)明實施例采用基于BNF語法的語義解析語法,并在其基礎(chǔ)上進(jìn)行了擴(kuò)展,增加數(shù)字提取等關(guān)鍵函數(shù)。BNF(BackUS-NaUr Form),即巴科斯范式,是一種用形式化符號來描述給定語言的語法。
[0038]現(xiàn)有技術(shù)中已有BNF語法有如下規(guī)則:
[0039]在雙引號中的字(〃word〃)代表著這些字符本身。而double_quote用來代表雙引號。
[0040]在雙引號外的字(有可能有下劃線)代表著語法部分。
[0041 ] <>:內(nèi)包含的為必選項,是語法必須進(jìn)一步解釋的非終結(jié)節(jié)點(diǎn);
[0042][]:內(nèi)包含的為可選項,表示其內(nèi)容可以跳過;
[0043]1:表示在其左右兩邊任選一項,相當(dāng)于〃或〃的意思;
[0044]():表示組合;
[0045]大括號({})內(nèi)包含的為可重復(fù)O至無數(shù)次的項。
[0046]::=是“被定義為”的意思。
[0047]本發(fā)明實施例中采用的語法規(guī)則在BNF的基礎(chǔ)之上進(jìn)行了擴(kuò)展,具體加了如下規(guī)則:
[0048]#:表示注釋;
[0049]::非終結(jié)節(jié)點(diǎn)與其解釋的分隔符;
[0050]表示語法中語句的結(jié)束;
[0051 ]μ:表示引用外部詞典文件;
[0052]&root(<name>):寫在歸一化語法的開始部分,表示該歸一化語法的名字為name ;
[0053]&norm( “MappingTable.diet” ):是歸一化方法最重要的函數(shù),它用來提取輸入文本的歸一化目標(biāo)部分,并查找映射表MappingTable.diet,從而以歸一化的結(jié)果對歸一化目標(biāo)進(jìn)行替換。
[0054]在本發(fā)明實施例中,&root(〈name>)中,name寫在歸一化語法的開始部分,表示所述歸一化語法名字,也能夠表示所述歸一化語法的種類以及應(yīng)用場景。
[0055]以下部分以數(shù)字的年代應(yīng)用場景為例,按照語法規(guī)則書寫好如下語法文件,對應(yīng)的語法文件的名字是“年代數(shù)字歸一化”:
[0056]fcoot(〈年代數(shù)字歸一化>);
[0057]〈年代數(shù)字歸一化〉:〈一到九X零〉年代;
[0058]<一到九>:&norm( “DigitNormalize.die” );
[0059]〈零>:&norm(“DigitNormalize.die” );
[0060]其中DigitNormalize.die內(nèi)容如下:
[0061 ]一 = 1
[0062]二 = 2
[0063]三=3
[0064]四=4
[0065]五=5
[0066]六=6
[0067]七=7
[0068]八=8
[0069]九=9
[0070]十=0
[0071]零=0
[0072]映射成哈希表,得到:
[0073]key = 一 Value = I
[0074]key = 二 value = 2
[0075]key =三 value = 3
[0076]key =四 value = 4
[0077]key =五 value = 5
[0078]key =六 value = 6
[0079]key =七 value = 7
[0080]key =八 value = 8
[0081]key =九 value = 9
[0082]key =十 value = 0
[0083]key =零 value = 0
[0084]在本發(fā)明實施例中,&norm( “MappingTable.diet”)函數(shù)主要用于提取輸入語句中的任何形式出現(xiàn)的數(shù)字以及異構(gòu)異形的同義詞。
[0085]具體的,在步驟S130中,若是在上一步的語義匹配中,發(fā)現(xiàn)用戶的所述輸入語句中包含以任何形式出現(xiàn)的數(shù)字、以及異構(gòu)異形的同義詞等歸一化目標(biāo),則根據(jù)這些歸一化目標(biāo)查詢預(yù)先建立的歸一化映射表,并從所述歸一化映射表中獲取所屬歸一化目標(biāo)的替代項,即歸一化結(jié)果,從而對所述輸入語句進(jìn)行更新,將更新后的歸一化結(jié)果送至下一步操作。
[0086]需要說明的是,本步驟中的所述歸一化映射表,可以是多個所述應(yīng)用場景公用一個歸一化映射表,也可以是每個所述應(yīng)用場景單獨(dú)設(shè)置一個歸一化映射表,本發(fā)明實施例并不限制于此。所述歸一化映射表中,針對不同的使用環(huán)境,可以設(shè)計不同的應(yīng)用場景,如圖2a所示,數(shù)字的應(yīng)用場景可以包括:年份、年代、月份、日、時間、貨幣、電話號碼、比分、分?jǐn)?shù)、小數(shù)、劇集、年齡、車次星期等。當(dāng)然,應(yīng)當(dāng)理解,上述數(shù)字的應(yīng)用場景僅供舉例使用,對本發(fā)明實施例并不構(gòu)成限制。
[0087]為方便語義匹配,需要將所有歸一語法編譯成語法樹,最終輸出一個歸一語法森林。上述“年代數(shù)字歸一化語法”編譯成語法樹如圖2b所示:
[0088]其中數(shù)字歸一化映射表DigitNormalize.die以哈希表的形式存放在語法樹中,作為哈希類型的節(jié)點(diǎn)。哈希表中含有鍵和值,也就是key和value ,DigitNormalize.die中等號左邊的作為key,右邊作為value,匹配成功時將識別結(jié)果中的key映射成value。
[0089]比如識別語句為“播放九十年代的電影”,切詞結(jié)果為“播I放I九I十I年代的I電影”,將這一待匹配語句與所有數(shù)字歸一語法樹進(jìn)行匹配,提取數(shù)字部分,將key映射為value,最終輸出歸一化結(jié)果,具體如圖5所示。
[0090]本實施例中,通過判斷輸入語句對應(yīng)的應(yīng)用場景并根據(jù)所述應(yīng)用場景調(diào)用相應(yīng)的領(lǐng)域切詞詞典對所述輸入語句進(jìn)行切詞,從而根據(jù)預(yù)設(shè)的歸一化語法以及預(yù)設(shè)的歸一化映射表對所述輸入語句進(jìn)行歸一化處理,改變了現(xiàn)有技術(shù)中進(jìn)行歸一化處理時,歸一化結(jié)果完全依賴歸一化映射表式的缺陷,實現(xiàn)快速而靈活的歸一化處理。
[0091]圖3是本申請實施二的技術(shù)流程圖,結(jié)合圖3,本申請實施例一種歸一化方法中,生成每一應(yīng)用場景的所述領(lǐng)域切詞詞典的過程可進(jìn)一步由以下步驟實現(xiàn):
[0092]步驟S310:根據(jù)預(yù)先訓(xùn)練得到的語言模型獲取通用的切詞詞典;
[0093]步驟S320:計算所述通用的切詞詞典中所有詞的平均概率值;
[0094]步驟S330:獲取每一所述應(yīng)用場景對應(yīng)的所述歸一化語法的終結(jié)詞在所述通用的切詞詞典中的概率值;
[0095]步驟S340:在所述應(yīng)用場景的領(lǐng)域切詞詞典中,以所述概率值為所述終結(jié)詞賦值從而生成所述應(yīng)用場景的領(lǐng)域切詞詞典。
[0096]具體的,步驟S310中,首先通過語言模型得到一個通用的切詞詞典,詞典格式如圖4以及圖5所示,詞典包含兩部分,地址信息部分和詞典組成部分。
[0097]其中,地址信息部分包含10個阿拉伯?dāng)?shù)字、26個大寫英文字母(數(shù)字和大寫字母都用全角格式,占用兩個字節(jié))和6768個常用漢字所對應(yīng)的詞組的地址信息,每個字相應(yīng)的地址用4個字節(jié)保存,并且按漢字GB2312的編碼順序排列,所以地址部分占用大小為:(10+26+6768)*4 = 27216字節(jié)。因此,如果詞典的首地址為uniDict,那么詞組區(qū)域首地址:uniDict+27216ο
[0098]其中,詞典組成部分存儲的是地址區(qū)域?qū)?yīng)的漢字的詞組,比如以全角字母“O”為例,在地址區(qū)域,“O”對應(yīng)的地址是“27216”,所以在詞組區(qū)域,“O”對應(yīng)的詞組區(qū)域的地址為“uniDict+27216”,可以看到,以“O”為首字的組詞可以為:“05毫米”,當(dāng)我們需要在字典里查找以“O”為首字的詞時,從地址“uniDict+27216”開始向下查找即可,直到遇到邊界guard標(biāo)記。如此,所有組詞按首字劃分區(qū)域,可以大大提高字典的查找效率,并且詞組部分不需要存儲首字,從而節(jié)省了字典的空間。
[0099]詞典種包含的每個參數(shù)含義如下:
[0100]wordlen:詞組的長度;
[0101 ] buf:去掉首字的詞組內(nèi)容,sizeof(buf) =wordlen_2字節(jié);
[0102]frequency:由一元模型概率轉(zhuǎn)換得到的詞頻,sizeof (frequency) =2字節(jié);
[0103]reclen:存儲一個詞占用的總空間,sizeof (reclen) = 1字節(jié),
[0104]reclen=sizeof(reclen)+sizeof(wordlen)+sizeof(buf)+sizeof(frequency);
[0105]guard:代表每個分區(qū)的結(jié)束,sizeof (guard) = 1字節(jié)。
[0106]具體的,在步驟S320中,計算所述通用的切詞詞典中所有詞的平均概率,記為meanFo
[0107]具體的,在步驟S330中,針對每一種應(yīng)用場景,計算其對應(yīng)的歸一化語法中,每一個終結(jié)詞在所述通用的切詞詞典中的概率值。
[0108]承接上一實施例中步驟S130的歸一化語法---“年代數(shù)字歸一化”為例,遍歷所述歸一化語法,得到所有終結(jié)詞,即:一、二、三、四、五、六、七、八、九、十、零、年代。對于每個終結(jié)詞都去所述通用的切詞詞典中查找,如果在所述通用的切詞詞典中找到,獲取其對應(yīng)的概率值,記為fi,其中i為大于等于O的正數(shù),表示終結(jié)詞的個數(shù)。
[0109]具體的,在步驟340,建立每個所述應(yīng)用場景專屬的領(lǐng)域切詞詞典,并將每一種應(yīng)用場景對應(yīng)的歸一化語法中的終結(jié)詞的概率值以f i賦值。
[0110]例如,在所述通用的切詞詞典中,終結(jié)詞“一”的概率是0.2,那么在新建立的年代領(lǐng)域切詞詞典中,也以0.2給“一”賦值。
[0111]需要說明的是,若是某一歸一化語法中的終結(jié)詞在所述通用的切詞詞典中概率值為0,則以步驟S320中計算出的所述平均概率值meanF在所述應(yīng)用場景的領(lǐng)域切詞詞典中為所述終結(jié)詞賦值從而更新所述應(yīng)用場景的領(lǐng)域切詞詞典。
[0112]由此,得到格式與通用的切詞詞典相同的領(lǐng)域切詞詞典,但是它只包含當(dāng)前歸一化語法中有的終結(jié)詞。例如,電視領(lǐng)域的切詞詞典中只包含電視領(lǐng)域的歸一化語法的終結(jié)詞、音樂領(lǐng)域的切詞詞典中只包含音樂領(lǐng)域的歸一化語法的終結(jié)詞。
[0113]對于每個應(yīng)用領(lǐng)域的歸一化語法,都相應(yīng)的生成領(lǐng)域切詞詞典。由此,在對輸入語句進(jìn)行切詞的時候通過相應(yīng)的所述領(lǐng)域切詞詞典可以得到正確想要的切詞結(jié)果。比如假設(shè)“年代”一詞在通用的切詞詞典中是不存在的,也就是說它的概率是0,按照通用的切詞詞典的切詞方法會被切碎成“年I代”,但是如果用領(lǐng)域切詞詞典,由于其概率賦值為meanFiAF會被切碎。
[0114]本實施例中,通過將通用的切詞詞典更新生成不用應(yīng)用場景的領(lǐng)域切詞詞典,以使得判定輸入語句應(yīng)用場景之后采用相應(yīng)的領(lǐng)域切詞詞典對所述輸入語句進(jìn)行切詞,進(jìn)一步提高了切詞以及歸一化結(jié)果的正確性;與此同時,需要增加應(yīng)用場景時增加相應(yīng)的歸一化語法和歸一化映射表映射即可達(dá)到目的,并且多個場景可以共用映射表,使用靈活,方便維護(hù)。
[0115]圖6是本申請實施例三的裝置結(jié)構(gòu)示意圖,結(jié)合圖6,本申請一種歸一化裝置,包括、切詞模塊61、匹配模塊62、查詢模塊63以及預(yù)處理模塊64。
[0116]所述切詞模塊61,用于獲取輸入語句,調(diào)用預(yù)先生成的、不同應(yīng)用場景對應(yīng)的領(lǐng)域切詞詞典對所述輸入語句進(jìn)行切詞;
[0117]所述匹配模塊62,用于根據(jù)所述切詞的結(jié)果,調(diào)用預(yù)先設(shè)置的、所述不同應(yīng)用場景對應(yīng)的歸一化語法,與所述切詞的結(jié)果進(jìn)行語義匹配;
[0118]所述查詢模塊63,用于當(dāng)判定所述切詞的結(jié)果中包含歸一化目標(biāo),則查詢預(yù)設(shè)的歸一化映射表,獲取所述歸一化目標(biāo)的歸一化結(jié)果。
[0119]其中,所述歸一化目標(biāo)包括數(shù)字書寫和/或同義詞。
[0120]其中,所述裝置還包括預(yù)處理模塊64,所述預(yù)處理模塊64用于:對所述歸一化目標(biāo)的應(yīng)用場景進(jìn)行分類,并根據(jù)每一所述應(yīng)用場景定義相應(yīng)的歸一化語法以及相應(yīng)的歸一化映射表。
[0121]其中,所述預(yù)處理模塊64還用于:根據(jù)所述歸一化語法以及預(yù)先獲取的通用的切詞詞典生成每一所述應(yīng)用場景的領(lǐng)域切詞詞典。
[0122]其中,所述預(yù)處理模塊64具體用于:根據(jù)預(yù)先訓(xùn)練得到的語言模型獲取通用的切詞詞典;計算所述通用的切詞詞典中所有詞的平均概率值;獲取每一所述應(yīng)用場景對應(yīng)的所述歸一化語法的終結(jié)詞在所述通用的切詞詞典中的概率值;在所述應(yīng)用場景的領(lǐng)域切詞詞典中,以所述概率值為所述終結(jié)詞賦值從而生成所述應(yīng)用場景的領(lǐng)域切詞詞典。
[0123]其中,所述預(yù)處理模塊64還用于,若所述終結(jié)詞在所述通用的切詞詞典中概率值為0,則以所述平均概率值在所述應(yīng)用場景的領(lǐng)域切詞詞典中為所述終結(jié)詞賦值從而更新所述應(yīng)用場景的領(lǐng)域切詞詞典。
[0124]圖6所示裝置可以執(zhí)行圖1?圖5所示實施例的方法,實現(xiàn)原理和技術(shù)效果參考圖1?圖5所示實施例,不再贅述。
[0125]以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上。可以根據(jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性的勞動的情況下,即可以理解并實施。
[0126]通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到各實施方式可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當(dāng)然也可以通過硬件?;谶@樣的理解,上述技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機(jī)軟件產(chǎn)品可以存儲在計算機(jī)可讀存儲介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機(jī)裝置(可以是個人計算機(jī),服務(wù)器,或者網(wǎng)絡(luò)裝置等)執(zhí)行各個實施例或者實施例的某些部分所述的方法。
[0127]最后應(yīng)說明的是:以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精神和范圍。
【主權(quán)項】
1.一種歸一化方法,其特征在于,包括如下的步驟: 獲取輸入語句,調(diào)用預(yù)先生成的、不同應(yīng)用場景對應(yīng)的領(lǐng)域切詞詞典對所述輸入語句進(jìn)行切詞; 根據(jù)所述切詞的結(jié)果,調(diào)用預(yù)先設(shè)置的、所述不同應(yīng)用場景對應(yīng)的歸一化語法,與所述切詞的結(jié)果進(jìn)行語義匹配; 當(dāng)判定所述切詞的結(jié)果中包含歸一化目標(biāo),則查詢預(yù)設(shè)的歸一化映射表,獲取所述歸一化目標(biāo)的歸一化結(jié)果。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述歸一化目標(biāo)包括數(shù)字書寫和/或同義Τ.κ| ο3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在獲取輸入語句之前,所述方法還包括: 對所述歸一化目標(biāo)的應(yīng)用場景進(jìn)行分類,并根據(jù)每一所述應(yīng)用場景定義相應(yīng)的歸一化語法以及相應(yīng)的歸一化映射表。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括: 根據(jù)所述歸一化語法以及預(yù)先獲取的通用的切詞詞典生成每一所述應(yīng)用場景的領(lǐng)域切詞詞典。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述方法,生成每一所述應(yīng)用場景的領(lǐng)域切詞詞典,具體包括: 根據(jù)預(yù)先訓(xùn)練得到的語言模型獲取通用的切詞詞典; 計算所述通用的切詞詞典中所有詞的平均概率值; 獲取每一所述應(yīng)用場景對應(yīng)的所述歸一化語法的終結(jié)詞在所述通用的切詞詞典中的概率值; 在所述應(yīng)用場景的領(lǐng)域切詞詞典中,以所述概率值為所述終結(jié)詞賦值從而生成所述應(yīng)用場景的領(lǐng)域切詞詞典。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述方法還包括, 若所述終結(jié)詞在所述通用的切詞詞典中概率值為O,則以所述平均概率值在所述應(yīng)用場景的領(lǐng)域切詞詞典中為所述終結(jié)詞賦值從而更新所述應(yīng)用場景的領(lǐng)域切詞詞典。7.一種歸一化裝置,其特征在于,包括如下的模塊: 切詞模塊,用于獲取輸入語句,調(diào)用預(yù)先生成的、不同應(yīng)用場景對應(yīng)的領(lǐng)域切詞詞典對所述輸入語句進(jìn)行切詞; 匹配模塊,用于根據(jù)所述切詞的結(jié)果,調(diào)用預(yù)先設(shè)置的、所述不同應(yīng)用場景對應(yīng)的歸一化語法,與所述切詞的結(jié)果進(jìn)行語義匹配; 查詢模塊,用于當(dāng)判定所述切詞的結(jié)果中包含歸一化目標(biāo),則查詢預(yù)設(shè)的歸一化映射表,獲取所述歸一化目標(biāo)的歸一化結(jié)果。8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述歸一化目標(biāo)包括數(shù)字書寫和/或同義Τ.κ| ο9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括預(yù)處理模塊,所述預(yù)處理模塊用于: 對所述歸一化目標(biāo)的應(yīng)用場景進(jìn)行分類,并根據(jù)每一所述應(yīng)用場景定義相應(yīng)的歸一化語法以及相應(yīng)的歸一化映射表。10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述預(yù)處理模塊還用于: 根據(jù)所述歸一化語法以及預(yù)先獲取的通用的切詞詞典生成每一所述應(yīng)用場景的領(lǐng)域切詞詞典。11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述預(yù)處理模塊具體用于: 根據(jù)預(yù)先訓(xùn)練得到的語言模型獲取通用的切詞詞典; 計算所述通用的切詞詞典中所有詞的平均概率值; 獲取每一所述應(yīng)用場景對應(yīng)的所述歸一化語法的終結(jié)詞在所述通用的切詞詞典中的概率值; 在所述應(yīng)用場景的領(lǐng)域切詞詞典中,以所述概率值為所述終結(jié)詞賦值從而生成所述應(yīng)用場景的領(lǐng)域切詞詞典。12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述預(yù)處理模塊還用于, 若所述終結(jié)詞在所述通用的切詞詞典中概率值為0,則以所述平均概率值在所述應(yīng)用場景的領(lǐng)域切詞詞典中為所述終結(jié)詞賦值從而更新所述應(yīng)用場景的領(lǐng)域切詞詞典。
【文檔編號】G06F17/22GK105843797SQ201610193023
【公開日】2016年8月10日
【申請日】2016年3月30日
【發(fā)明人】周蕾蕾
【申請人】樂視控股(北京)有限公司, 樂視致新電子科技(天津)有限公司