語義解析方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種語義解析方法和裝置。
【背景技術(shù)】
[0002]口語語義解析是語音交互中必不可少的一個環(huán)節(jié),主要通過分析用戶輸入的意圖,提取能夠表達(dá)該意圖的知識,并轉(zhuǎn)換成機(jī)器能夠理解的結(jié)構(gòu)化數(shù)據(jù)格式。
[0003]目前,主要使用預(yù)設(shè)的規(guī)則串與語音轉(zhuǎn)換后的文本串進(jìn)行字符串匹配的方法來對語義進(jìn)行解析。具體地,可將關(guān)鍵詞組合編譯成正則表達(dá)式,將提取出的功能參數(shù)表示成通配符,并將該正則表達(dá)式與相應(yīng)的服務(wù)建立映射關(guān)系,從而實(shí)現(xiàn)語義的解析。例如,關(guān)鍵詞組合為“(給)(.+ )(發(fā)/回)(信息/短信)”,功能參數(shù)設(shè)置為第二個關(guān)鍵詞。當(dāng)用戶輸入的文本為“給劉德華發(fā)短信”時,則經(jīng)過匹配可得知功能參數(shù)為“劉德華”,對應(yīng)的服務(wù)為“發(fā)短
IΠ O
[0004]但是,由于口語的隨意性和多樣性,同一意圖的語句可以有多種說法,也會出現(xiàn)一義多詞的情況。因此,在建立預(yù)設(shè)的規(guī)則串的時候,需要對同義詞進(jìn)行大量的枚舉,對同一意圖的語句如“北京天氣”、“天氣北京”也需要分別建立不同的規(guī)則串,工作量大,耗費(fèi)時間。另外,口語中的噪音會影響語義解析的正確率。
【發(fā)明內(nèi)容】
[0005]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。為此,本發(fā)明的一個目的在于提出一種語義解析方法,針對同一意圖的多種說法的語句,只需通過統(tǒng)一的正向環(huán)視正則表達(dá)式即可解析,能夠降低編寫正則表達(dá)式的工作量,節(jié)省時間。
[0006]此外,本發(fā)明還需要提供一種語義解析裝置。
[0007]為了實(shí)現(xiàn)上述目的,本發(fā)明第一方面實(shí)施例提出了一種語義解析方法,包括:S1、獲取輸入的語音數(shù)據(jù),并對所述語音數(shù)據(jù)進(jìn)行文本轉(zhuǎn)換以生成文本數(shù)據(jù);S2、對所述文本數(shù)據(jù)進(jìn)行實(shí)體識別以獲取所述文本數(shù)據(jù)中的實(shí)體類型標(biāo)簽;S3、根據(jù)所述文本數(shù)據(jù)中的實(shí)體信息及對應(yīng)的實(shí)體類型標(biāo)簽將所述文本數(shù)據(jù)轉(zhuǎn)換為具有實(shí)體類型標(biāo)簽的文本數(shù)據(jù);以及
S4、根據(jù)所述具有實(shí)體類型標(biāo)簽的文本數(shù)據(jù)與正向環(huán)視正則表達(dá)式進(jìn)行匹配,以生成語義解析結(jié)果。
[0008]本發(fā)明實(shí)施例的語義解析方法,通過獲取輸入的語音數(shù)據(jù),并對語音數(shù)據(jù)進(jìn)行文本轉(zhuǎn)換以生成文本數(shù)據(jù),并對文本數(shù)據(jù)進(jìn)行實(shí)體識別以獲取文本數(shù)據(jù)中的實(shí)體類型標(biāo)簽,以及根據(jù)文本數(shù)據(jù)中的實(shí)體信息及對應(yīng)的實(shí)體類型標(biāo)簽將文本數(shù)據(jù)轉(zhuǎn)換為具有實(shí)體類型標(biāo)簽的文本數(shù)據(jù),并根據(jù)具有實(shí)體類型標(biāo)簽的文本數(shù)據(jù)與正向環(huán)視正則表達(dá)式進(jìn)行匹配,以生成語義解析結(jié)果,針對同一意圖的多種說法的語句,只需通過統(tǒng)一的正向環(huán)視正則表達(dá)式即可解析,降低了編寫正則表達(dá)式的工作量,節(jié)省時間。
[0009]本發(fā)明第二方面實(shí)施例提供了一種語義解析裝置,包括:獲取模塊,用于獲取輸入的語音數(shù)據(jù),并對所述語音數(shù)據(jù)進(jìn)行文本轉(zhuǎn)換以生成文本數(shù)據(jù);識別模塊,用于對所述文本數(shù)據(jù)進(jìn)行實(shí)體識別以獲取所述文本數(shù)據(jù)中的實(shí)體類型標(biāo)簽;轉(zhuǎn)換模塊,用于根據(jù)所述文本數(shù)據(jù)中的實(shí)體信息及對應(yīng)的實(shí)體類型標(biāo)簽將所述文本數(shù)據(jù)轉(zhuǎn)換為具有實(shí)體類型標(biāo)簽的文本數(shù)據(jù);以及生成模塊,用于根據(jù)所述具有實(shí)體類型標(biāo)簽的文本數(shù)據(jù)與正向環(huán)視正則表達(dá)式進(jìn)行匹配,以生成語義解析結(jié)果。
[0010]本發(fā)明實(shí)施例的語義解析裝置,通過獲取輸入的語音數(shù)據(jù),并對語音數(shù)據(jù)進(jìn)行文本轉(zhuǎn)換以生成文本數(shù)據(jù),并對文本數(shù)據(jù)進(jìn)行實(shí)體識別以獲取文本數(shù)據(jù)中的實(shí)體類型標(biāo)簽,以及根據(jù)文本數(shù)據(jù)中的實(shí)體信息及對應(yīng)的實(shí)體類型標(biāo)簽將文本數(shù)據(jù)轉(zhuǎn)換為具有實(shí)體類型標(biāo)簽的文本數(shù)據(jù),并根據(jù)具有實(shí)體類型標(biāo)簽的文本數(shù)據(jù)與正向環(huán)視正則表達(dá)式進(jìn)行匹配,以生成語義解析結(jié)果,針對同一意圖的多種說法的語句,只需通過統(tǒng)一的正向環(huán)視正則表達(dá)式即可解析,降低了編寫正則表達(dá)式的工作量,節(jié)省時間。
[0011]本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0012]圖1是根據(jù)本發(fā)明一個實(shí)施例的語義解析方法的流程圖。
[0013]圖2是根據(jù)本發(fā)明一個實(shí)施例的語義解析裝置的結(jié)構(gòu)示意圖一。
[0014]圖3是根據(jù)本發(fā)明一個實(shí)施例的語義解析裝置的結(jié)構(gòu)示意圖二。
[0015]圖4是根據(jù)本發(fā)明一個實(shí)施例的語義解析裝置的結(jié)構(gòu)示意圖三。
【具體實(shí)施方式】
[0016]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0017]下面參考附圖描述本發(fā)明實(shí)施例的語義解析方法和裝置。
[0018]圖1是根據(jù)本發(fā)明一個實(shí)施例的語義解析方法的流程圖,如圖1所示,該方法包括:
[0019]S1、獲取輸入的語音數(shù)據(jù),并對語音數(shù)據(jù)進(jìn)行文本轉(zhuǎn)換以生成文本數(shù)據(jù)。
[0020]舉例來說,輸入的語音數(shù)據(jù)為“查詢一下北京的天氣”,則可將該語音數(shù)據(jù)轉(zhuǎn)換成對應(yīng)的文本數(shù)據(jù)。
[0021 ] S2、對文本數(shù)據(jù)進(jìn)行實(shí)體識別以獲取文本數(shù)據(jù)中的實(shí)體類型標(biāo)簽。
[0022]其中,可通過條件隨機(jī)場CRF模型獲取文本數(shù)據(jù)中的實(shí)體類型標(biāo)簽,例如時間、人名、地點(diǎn)等。舉例來說,文本數(shù)據(jù)為“查詢一下北京的天氣”,實(shí)體信息“北京”對應(yīng)的實(shí)體類型標(biāo)簽為“city”。
[0023]S3、根據(jù)文本數(shù)據(jù)中的實(shí)體信息及對應(yīng)的實(shí)體類型標(biāo)簽將文本數(shù)據(jù)轉(zhuǎn)換為具有實(shí)體類型標(biāo)簽的文本數(shù)據(jù)。
[0024]舉例來說,文本數(shù)據(jù)為“查詢一下北京的天氣”,其中,實(shí)體信息包括“北京”,而實(shí)體信息“北京”對應(yīng)的實(shí)體類型標(biāo)簽為“city”,則具有實(shí)體類型標(biāo)簽的文本數(shù)據(jù)為“查詢一下北京(city)的天氣”。
[0025]S4、根據(jù)具有實(shí)體類型標(biāo)簽的文本數(shù)據(jù)與正向環(huán)視正則表達(dá)式進(jìn)行匹配,以生成語義解析結(jié)果。
[0026]具體地,可根據(jù)正向環(huán)視正則表達(dá)式從具有實(shí)體類型標(biāo)簽的文本數(shù)據(jù)中提取對應(yīng)的實(shí)體信息,并根據(jù)實(shí)體信息生成語義解析結(jié)果。
[0027]舉例來說,文本數(shù)據(jù)為“查詢一下北京的天氣”,可得知“查詢”為動詞,“北京”、“天氣”為名詞,還可得知它們對應(yīng)的位置關(guān)系。然后可確定所屬的領(lǐng)域?yàn)樘鞖忸I(lǐng)域。其對應(yīng)的正向環(huán)視正則表達(dá)式為(?=.*?(city) )(?=.*?(天氣I氣候I氣溫))。應(yīng)當(dāng)理解的是,“查詢一下北京的天氣”這一意圖可還可對應(yīng)其他多種說法,如“查一下,嗯,北京的天氣”、“天氣北京的,幫我查一下”、“北京的那個天氣怎么樣啊”、“幫我看一下北京的天氣好不好”等等。均可已通過該正向環(huán)視正則表達(dá)式進(jìn)行匹配。最后,匹配獲得實(shí)體信息為“北京”、“天氣”,由此可生成語義解析結(jié)果,得知用戶的意圖為查詢北京的天氣情況。另外,語音中的噪音“嗯”、“啊”等,均無需進(jìn)行匹配,降低了噪音對語義解析的影響,提高了語義解析的正確率。
[0028]在獲取對應(yīng)的解析結(jié)果之后,還可獲取解析結(jié)果對應(yīng)的解析分值,并根據(jù)解析分值判斷語音數(shù)據(jù)是否被正確解析。如果解析分值大于預(yù)設(shè)閾值,則可確定語音數(shù)據(jù)被正確解析;如果解析分值小于預(yù)設(shè)閾值,則可確定語音數(shù)據(jù)未被正確解析。舉例來說,語音數(shù)據(jù)“查詢一下北京