專利名稱:使用自然語言的車載信息服務系統(tǒng)語音操作方法及系統(tǒng)的制作方法
技術領域:
本發(fā)明屬于通信技術領域,涉及一種車載信息服務系統(tǒng)的語音操作方法,尤其涉及一種使用自然語言的車載信息服務系統(tǒng)的語音操作方法,以及一種語音操作系統(tǒng)。
背景技術:
遠程信息服務(Telematics)是通信(Telecommunication)和信息科學 (Informatics)的合成詞,所謂Telematics系統(tǒng)即通過內(nèi)置在汽車上的計算機系統(tǒng)、無線通信設備、衛(wèi)星導航裝置、互聯(lián)網(wǎng)技術等,來提供文字、語音、圖像等信息傳送的服務系統(tǒng)。 TSP平臺(Telematics ServicePlatform)為一種基于無線通信技術、衛(wèi)星定位(GPS)技術、 地理信息系統(tǒng)技術、互聯(lián)網(wǎng)技術和呼叫中心平臺而為駕車者提供Telematics服務的軟件平臺。其中OMter系統(tǒng)與G-B00K系統(tǒng)是兩個主要成功的應用Telematics系統(tǒng)的廠商,而國內(nèi)在Telematics正處于起步階段,隨著語音合成技術在導航領域大量成功應用,在部分導航系統(tǒng)中語音識別技的應用也開始嶄露頭角。語音識別技術能減少用戶操作的次數(shù),提高用戶體驗。通過語音識別技術讓用戶體驗到“只需動口,不需要動手”的目標。尤其對于駕車者得用戶,在開車過程中,盡量減少操作動作,一方面方便用戶,一方面提供駕駛者的安全保障。如中國發(fā)明專利申請“車輛導航裝置語音控制系統(tǒng)”(公開號CN 1841312A)公開了一種車輛導航裝置控制系統(tǒng),包含一能識別出語音信息的語音識別模塊、判斷語音信息是控制指令還是地圖地名的指令判別模塊。語音識別模塊識別出結果后,在語音控制指令庫中查詢結果,看識別出的語音為控制指令還是地圖地名。如果在語音控制指令庫中查到結果,則為控制指令;如果在語音控制指令庫中未查到結果,則認為是地圖地名。可以看出,該語音控制系統(tǒng)的語音輸入必須為控制指令或地圖地名;且控制指令限于地圖控制指令、導航控制指令和地圖查詢指令三種指令,無法滿足車載信息服務系統(tǒng)的需求。中國發(fā)明專利申請“可用于汽車的語音命令控制方法及系統(tǒng)”(公開號CN 101217584A)公開的語音識別模塊使用非特定人中文語音識別技術,利用麥克風輸入語音命令,通過EM220CN對語音命令進行識別。因此,該方法的語音輸入也限定在命令短語上。隨著車載信息服務系統(tǒng)的發(fā)展,目前語音識別在導航儀終端上的使用場景為先選定需要識別的類型,然后錄音按鈕,然后開始說話,之后系統(tǒng)自動識別并返回識別結果, 如下圖所示。其中操作類型為查詢目的地、查詢周邊設施、查詢交叉路口等等。這種應用雖然能為用戶帶來一定便利,但是其局限性也非常明顯。主要表現(xiàn)為1)用戶需要先限定待識別的操作類型。通過限定待識別的操作類型,對于語音識別的難度系數(shù)減少,增加了查詢命中率, 但是帶來負面效果是,用戶多執(zhí)行了一步操作,降低了用戶體驗的便捷性。
2)用戶交互內(nèi)容。用戶說的內(nèi)容需要為短語,而不是句子。如用戶選定查詢目的地的操作類型,用戶說的內(nèi)容為“北京火車站”,而不是“我要去北京火車站”,這樣的設計不符合用戶自然語言交互的要求。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種使用自然語言的車載信息服務系統(tǒng)的語音操作方法。本發(fā)明的另一目的在于提供一種使用自然語言的車載信息服務系統(tǒng)的語音操作系統(tǒng)。本發(fā)明的使用自然語言的車載信息服務系統(tǒng)的語音操作方法,其步驟包括1、啟動語音輸入,接收自然語言的語音輸入并生成語音文件;2、將語音文件轉換成純文本文件;3、對所述純文本文件進行文本分詞;4、根據(jù)分詞后的文本識別操作類型及其操作關鍵詞和操作屬性;5、根據(jù)所述操作類型及其操作關鍵詞和操作屬性,執(zhí)行相應操作。所述類型包括目的地查詢;周邊設施查詢;交叉路口查詢;音樂下推;撥打電話。本發(fā)明通過啟動導航儀語音輸入按鈕,接收自然語言的語音輸入并生成語音文件;導航儀將語音文件通過無線通信方式發(fā)送給互聯(lián)網(wǎng)上的語音處理服務器;所述語音服務器調(diào)用語音云服務器接口,將語音文件發(fā)送給語音云服務器;由語音云服務器將語音文件轉換成純文本文件,發(fā)送給語音服務器的語言處理模塊;通過語言處理模塊對所書純文本文件進行文本分詞并識別操作類型及其操作關鍵詞和操作屬性;由導航儀根據(jù)所述操作類型及其操作關鍵詞和操作屬性,執(zhí)行相應操作。本發(fā)明還包括去除口語化詞的步驟,去除分詞后的文本中的口語化詞。本發(fā)明設口語化詞詞庫,將文本中的分詞與口語化詞詞庫進行匹配,根據(jù)匹配結果去除文本中的口語化詞。本發(fā)明設操作模式庫,存儲各種操作類型及其操作關鍵詞和操作屬性。將分詞后的文本與操作模式庫進行匹配,以識別操作類型及其操作關鍵詞和操作屬性。本發(fā)明設分詞用中文詞典,中文詞典采用樹狀結構,第一層以中文詞條的首字作為索引,采用哈希表存儲;第二層,采用線性順序表存儲詞條的第二個字,去除相同的字并形成一個有序的線性表,線性表結點以提取漢字的內(nèi)碼值排序,同時存儲以此漢字為首的單詞的剩余部分構成的線性表的指針以及一個是否為詞的標志;在樹的其余層次的節(jié)點, 采用按順序存儲詞條中的一個字和指向它所有可能后繼字的線性表的指針。本發(fā)明設用戶行為習慣規(guī)則表,對于未能完成識別的文本,與用戶行為習慣表規(guī)則表進行匹配以確定操作類型及其操作關鍵詞和操作屬性。本發(fā)明的使用自然語言的車載信息服務系統(tǒng)的語音操作系統(tǒng),包括一導航儀,設錄音鍵和語音輸入裝置,用以接收語音輸入并生成語音文件;一車載信息服務系統(tǒng)語音服務器,與導航儀無線通信,接收導航儀發(fā)送的語音文件;一語音云服務器,與所述車載信息服務系統(tǒng)設語音云服務器網(wǎng)絡連接,接收語音文件并將其轉換為純文本文件并發(fā)送給車載信息服務系統(tǒng)語音服務器的語言處理模塊;所述語音處理模塊含中文詞典和操作模式庫,用以將純文本文件分詞,并識別操作類型及其操作關鍵詞和操作屬性,并將識別結果發(fā)送導航儀的操作執(zhí)行模塊,由其執(zhí)行相應操作。上述語音處理模塊還含ロ語化詞詞庫,用以去除分詞后的文本中的ロ語化詞。本發(fā)明實現(xiàn)了使用自然語言的車載信息服務系統(tǒng)的語音操作方法,用戶只需要在導航儀上用ロ語化的交流方式說出自已想要進行的操作,而不需要先選定操作類型,再用短語的交互方式來對機器進行操作。本發(fā)明與現(xiàn)有技術相比具有如下優(yōu)勢1)是減少了用戶操作步驟。由原來三步操作,降低為ニ步操作;2)使用ロ語化的自然語言,代替原來的短語/詞組的交互方式。
圖1現(xiàn)有語音操作方法示意圖;圖2本發(fā)明語音操作方法示意圖;圖3本發(fā)明ー實施例的語音操作方法示意圖;圖4本發(fā)明文本識別流程圖。
具體實施例方式本發(fā)明首先要研究了用戶使用自然語言識別技術的應用環(huán)境、場景、流程。通過對導航用戶進行電話回訪、調(diào)查問卷、論壇收集信息等方式,同時利用Telematics平臺的服務錄音功能,統(tǒng)計分析用戶的真實需求,通過分析實際用戶使用情況的分析、研究,我們利用歸納、分類方法,得出真實的應用需求,確定了用戶操作的各種類型,其中主要的操作類型包括1)目的地查詢;2)周邊設施查詢;3)交叉路ロ查詢;4)音樂下推;5)撥打電話。當然,隨著信息服務的不斷拓展,還會有更多的操作類型,但都可采用本發(fā)明的方法和系統(tǒng)來實現(xiàn)語音操作。如圖3所示,本發(fā)明的語音操作系統(tǒng)包括三大部分導航儀、Telematics語音處理服務器、語音云。語音操作流程如下第一歩用戶在導航儀上按下錄音按鈕后,啟動語音輸入,然后以自然語言的方式向導航系統(tǒng)發(fā)布操作信息。導航系統(tǒng)生成錄音文件,將錄音文件進行加密、壓縮、編碼處理, 通過無線通信方式,將處理后的錄音文件發(fā)送給Telematics語音服務器;第二步語音服務器收到錄音文件,進行解碼、解壓、解密處理,然后調(diào)用語音云服務器的接ロ,將錄音文件傳遞給語音云處理。第三步語音云收到錄音文件,對錄音文件進行處理生成TXT文本(純文本)文件,并返回給語音服務器的自然語言處理模塊。第四步自然語言處理模塊收到TXT文本文件后,進行自然語言處理,解析出用戶欲達成的操作,如查詢POI目的地操作,將識別結果返回給導航儀的操作執(zhí)行模塊。第五步導航儀對收到的識別結果進行處理,執(zhí)行相應操作。如果是查詢結果,則直接顯示。如果是撥打電話,則直接撥電話。下面詳細說明本發(fā)明的自然語言文本的識別過程。由于在車載服務系統(tǒng)中的自然語言處理是特定應用領域,而且是ロ語化的自然語言交互處理流程,經(jīng)過對問題域的研究,得出該技術的應用就具體應用場景,能歸納總結出主要的應用模式,使用自然語言模式匹配算法處理,能解決自然語言在車載系統(tǒng)的應用問題。模式匹配算法主要包括文本分詞、去噪處理、操作關鍵詞識別、操作模式匹配、識別結果返回等幾部分。對于不能識別的文本內(nèi)容,本發(fā)明提供了系統(tǒng)自學習功能,能夠對模式庫及其關鍵詞庫、ロ語庫進行不斷完善與豐富。一、文本分詞對交互的自然語言處理首先要進行分詞處理,目前常用的分詞技術有“正向最大匹配分詞”、“逆向最大匹配分詞”、“基于TRIE索引樹的分詞詞典機制”、“基于逐字二分的分詞詞典機制”等,這些分詞技術在效率、空間使用率都各有優(yōu)缺點。本發(fā)明的中文詞典采用樹狀結構。詞典的第一層以中文詞條的首字作為索引,采用哈希表存儲,以提高首字的查找速度。這樣,首字成為根節(jié)點,所有首字相同的詞成為一組,屬于同一棵樹。因為在漢語中二字詞較多,如果詞條的次字仍以哈希表存儲的話,雖然可以提高查找速度,但是這種詞典的大小和最為龐大的TRIE樹結構比起來改進甚微,所以在森林的第二層,采用線性順序表來存儲詞條的第二個字,去除相同的字并形成一個有序的線性表,線性表結點以提取漢字的內(nèi)碼值排序,同時存儲以此漢字為首的單詞的剰余部分構成的線性表的指針以及ー個是否為詞的標志。在樹的其余層次的節(jié)點,仍然采用按順序存儲詞條中的一個字和指向它所有可能后繼字的線性表的指針。為了使用二分查找來提高匹配速度,第二層以下都是線性表,但是邏輯結構則是ー棵漢字構成的單詞數(shù),這樣構成 ー個支持逐字查找的、在第一層首字以哈希表存儲,以下逐層依照線性有序表存儲的森林結構。在分詞過程中利用上述數(shù)據(jù)結構進行逐層分詞匹配查詢,來解決文本的分詞問題。ニ、去噪處理(去ロ語化詞)ロ語話的語言中經(jīng)常會夾雜著遲疑、綴語、重復等ロ頭語的詞匯,如“啊”、“呢”、 “這個”等,去噪處理的作用是將ロ語自然語言中的ロ語化詞去棹。一)ロ語化詞詞庫建立首先建立日常ロ語詞庫Si,然后對Telematics運營過程中積累的客戶錄音文件中的常用ロ語整理和統(tǒng)計,得到詞庫S2。在S2中按照每個詞的詞頻高低不同降序排列,將 Sl庫和S2做合并處理,得到新集合S3,即ロ語化詞詞庫,S3詞庫中的ロ語化詞是按照在日常生活中出現(xiàn)詞頻的從高到低進行排列的。ニ )去噪過程處理流程1)依次取出文本L中各個分詞Ql,Q2,…,Qn ;2)用Qi逐條和S3庫中每個詞Pi進行全字匹配;
3)如果匹配成功,則Qi為ロ語詞,則去棹,如果匹配失敗,則繼續(xù)直到結尾;4)最后整理出新的分詞詞組為去噪后的分詞后的文本。三、操作類型、操作關鍵詞和操作屬性識別— )操作模式庫通過對Telematics平臺中用戶服務錄音文件的分析和日常生活中ロ語化語言分 折,歸納總結,本發(fā)明建立了用戶常見的自然語言操作模式庫,該模式庫存儲各類型下的操 作模式,每ー類型操作模式包含本模式的操作關鍵詞和操作屬性,如下表所示表一
操fi.:炎咽編り 操fi.:炎喂 校式編''J校ズ內(nèi)界
Al打電話MAll{給}<人名>{打電話}
MA12{打}{電話}{給}<人名>
A2POI查詢 MA21{去}<行政區(qū)><POI名稱>
MA22{查/找}<行政區(qū) >的401名稱>
MA23{到}<行政區(qū)><POI名稱>
A3周邊設施查MA31{找}<附近的><設施分類名>詢MA32{周邊的}<設施分類>
MA33<POI名稱>{附近:}<設施名>
A4交叉路ロ查MA41<路名 >與<路名 > 的丨交叉ロ:}
詢MA42{查/找}<路名{路/街/里弄/胡同}>,I、<路名
{路/街/里弄湖同}>
A5音視頻下推 MA51{聽丨< 人名 >的<歌曲視頻名>
MA52{下載丨< 人名 >的<歌曲視頻名>其中,對于每一操作類型下的每條操作模式,都存在一條或者多條的操作關鍵詞 和操作屬性,如編號為MA12的操作模式中“ {}”內(nèi)為操作關鍵字,“ ”內(nèi)為操作屬性。ニ)用戶習慣行為規(guī)則表用戶使用習慣行為的數(shù)據(jù)是通過車載終端設備中ΝΓ‘用戶習慣收集模塊”,收集所 有用戶行為,如在一段時間內(nèi),用戶打電話的次數(shù)為10次、打電話的時間、聽本地存儲的歌 曲次數(shù),歌曲名字,聽歌曲時間、地點等等,然后通過無線通信技木,在一定條件下(如開機 后的某個空閑時間)將“用戶習慣數(shù)據(jù)”在車機上傳輸?shù)絋elematics語音處理服務器中,由 其N2 “用戶習慣處理”模塊處理,N2從用戶在后臺的服務記錄數(shù)據(jù)庫中(數(shù)據(jù)庫中記錄用 戶請求服務相關信息,如請求目的地查詢的次數(shù)8次、給好友打電話轉接3次數(shù)等等)取出 已有的類似的用戶習慣數(shù)據(jù),N2將二者按照操作類型進行數(shù)據(jù)融合統(tǒng)計形成用戶的“ POI 查詢使用習慣庫”、“打電話庫”、“查詢周邊數(shù)據(jù)庫”……等等,然后根據(jù)多個數(shù)據(jù)的數(shù)據(jù)按 照某個用戶進行統(tǒng)計,得出用戶的某個操作的次數(shù)列表,然后對經(jīng)常性行為按照出現(xiàn)頻率 分成從高到低進行排序,形成用戶習慣行為規(guī)則表。如表ニ所示表ニ
優(yōu)先級動作名稱比例
1A2POI 查詢82%
2Al打電話78%
3A5音視頻下推63%三)操作關鍵詞識別1)逐條取出自然語言文本L中的每個分詞Qi,用Qi與每個模式規(guī)則MAj中的關鍵詞 MAKm(MAK1,MAK2,…,MAKn)進行匹配;2)計算每個關鍵詞的匹配率Rm = Qi/MAKm(Rl, R2,…,Rn);3)然后計算平均匹配率Ri = (R1+R2+···+! !!)/!!,如果Ri大于約定的匹配率值,則認為該文本L的動作為Aj條動作。否則,繼續(xù)匹配下去;4)如果沒有任何規(guī)則滿足文本L,則使用“用戶習慣規(guī)則表”進行逐項匹文本L,當二者的文字匹配度達到一定值以上,認為這項內(nèi)容符合文本L,如此會返回給用戶多個選擇結果。如用戶的自然語言是“青花瓷”,當匹配不到具體規(guī)則時,按照用戶習慣規(guī)則表中該用戶使用習慣的高低,先選擇查詢是否有“青花瓷”的信息點,如果有,則保存起來;然后繼續(xù)查詢是否有好友叫“青花瓷”的人,如果有,保存起來表示要給這個人打電話等等,然后將保存的多個內(nèi)容和操作需要的相關數(shù)據(jù)(如信息點名稱、坐標、好友電話號碼等)發(fā)送給終端設備,并提示用戶選擇某項服務內(nèi)容,當用戶選擇后,終端車機執(zhí)行相應的操作。四)操作類型及操作屬性識別如果確定文本L屬于某個操作類型Ai后,驗證每個操作類型Ai的操作模式庫中的每條操作模式MAj。每條MAj操作模式的屬性匹配率要達到一定閾值以上,即可以認為該文本L符合該操作模式MAj,然后按照該操作模式進行后續(xù)處理。操作模式庫建立后,每條操作模式都包含有限的操作屬性信息。如POI查詢,模式模式表示為MA2i = {Key}, <POINameXDistrName>。POI查詢中基本包含兩類操作屬性, ー個為POI名稱,ー個為行政區(qū)名。系統(tǒng)對每個操作屬性建立ー套屬性數(shù)據(jù)庫PDi和ー套匹配規(guī)則PMi。例如,對于行政區(qū)名建立行政區(qū)屬性數(shù)據(jù)庫PDi,存儲全國所有的省、市、縣、 鄉(xiāng)/鎮(zhèn)、村的行政區(qū)名稱,而匹配規(guī)則PMi為計算〈DistrName〉中所有漢字與PDi中各個詞的匹配度,當匹配度達到一定閾值以上,如90%,就可以認定這個屬性就是行政區(qū)的屬性, 并且屬于中的PDi某ー個項,標明文本L中含有該操作屬性信息。四、操作執(zhí)行對于匹配到操作的文本L,進行相應操作執(zhí)行。如查詢Ρ0Ι,導航儀依據(jù)行政區(qū)劃分可以進行查詢,并顯示查詢結果。對于沒有匹配到任何動作的文本L,則由語音處理服務系統(tǒng)會通知呼叫中心平臺的坐席員給用戶打電話,人工處理用戶的操作請求。然后將該操作文本L,加入未識別知識庫中,由人工進行分析,解析為某個操作的模式,如MAk = {keyl***keyn},<Propertyl>, <Property2>,…,<Propertym>0將該操作模式加入到操作模式庫中,系統(tǒng)在下次遇到類似自然語言后,會自動識別并解析出正確操作需求。其中未識別知識庫是用來保證閉環(huán)和系統(tǒng)自我完善、再學習的。本發(fā)明給出了在車載信息服務平臺下,利用自然語言的模式匹配算法解決用戶與導航儀自由交互的問題。利用本發(fā)明提出的自然語言語音操作方法,會極大提高用戶與導航儀進行人機交互的體驗度,増加用戶的粘性。
權利要求
1.一種使用自然語言的車載信息服務系統(tǒng)的語音操作方法,其步驟包括1)啟動語音輸入,接收自然語言的語音輸入并生成語音文件;2)將語音文件轉換成純文本文件;3)對所述純文本文件進行文本分詞;4)根據(jù)分詞后的文本識別操作類型及其操作關鍵詞和操作屬性;5)根據(jù)所述操作類型及其操作關鍵詞和操作屬性,執(zhí)行相應操作。
2.如權利要求1所述的方法,其特征在于,所述類型包括目的地查詢;周邊設施查詢; 交叉路口查詢;音樂下推;撥打電話。
3.如權利要求1所述的方法,其特征在于,啟動導航儀語音輸入按鈕,接收自然語言的語音輸入并生成語音文件;導航儀將語音文件通過無線通信方式發(fā)送給互聯(lián)網(wǎng)上的語音處理服務器;所述語音服務器調(diào)用語音云服務器接口,將語音文件發(fā)送給語音云服務器;由語音云服務器將語音文件轉換成純文本文件,發(fā)送給語音服務器的語言處理模塊;通過語言處理模塊對所書純文本文件進行文本分詞并識別操作類型及其操作關鍵詞和操作屬性; 由導航儀根據(jù)所述操作類型及其操作關鍵詞和操作屬性,執(zhí)行相應操作。
4.如權利要求1所述的方法,其特征在于,還包括去除口語化詞的步驟,去除分詞后的文本中的口語化詞。
5.如權利要求1所述的方法,其特征在于,所述分詞采用中文詞典,所述中文詞典采用樹狀結構,第一層以中文詞條的首字作為索引,采用哈希表存儲;第二層,采用線性順序表存儲詞條的第二個字,去除相同的字并形成一個有序的線性表,線性表結點以提取漢字的內(nèi)碼值排序,同時存儲以此漢字為首的單詞的剩余部分構成的線性表的指針以及一個是否為詞的標志;在樹的其余層次的節(jié)點,采用按順序存儲詞條中的一個字和指向它所有可能后繼字的線性表的指針。
6.如權利要求1所述的方法,其特征在于,對于未能完成識別的文本,與事先建立的用戶行為習慣表規(guī)則表進行匹配以確定操作類型及其操作關鍵詞和操作屬性。
7.如權利要求1所述的方法,其特征在于,所述語音文件經(jīng)過加密、壓縮、編碼處理,所述語音服務器對所述語音文件先進行解碼、解壓、解密處理。
8.如權利要求1所述的方法,其特征在于,解析未識別的文本,通過自學習的方式引入下次識別。
9.一種使用自然語言的車載信息服務系統(tǒng)的語音操作系統(tǒng),包括一導航儀,設錄音鍵和語音輸入裝置,用以接收語音輸入并生成語音文件;一車載信息服務系統(tǒng)語音服務器,與導航儀無線通信,接收導航儀發(fā)送的語音文件;一語音云服務器,與所述車載信息服務系統(tǒng)設語音云服務器網(wǎng)絡連接,接收語音文件并將其轉換為純文本文件并發(fā)送給車載信息服務系統(tǒng)語音服務器的語言處理模塊;所述語音處理模塊含中文詞典和操作模式庫,用以將純文本文件分詞,并識別操作類型及其操作關鍵詞和操作屬性,并將識別結果發(fā)送導航儀的操作執(zhí)行模塊,由其執(zhí)行相應操作。
10.如權利要求9所述的系統(tǒng),其特征在于,所述語音處理模塊還包含一口語化詞詞庫,用以去除分詞后的文本中的口語化詞;一用戶行為習慣規(guī)則表,用以與未能完成識別的文本進行匹配以確定操作類型及其操作關鍵詞和操作屬性;一未識別知識庫,用以存儲未能識別的文本,并經(jīng)解析后存入操作模式庫。
全文摘要
本發(fā)明屬于通信技術領域,涉及一種使用自然語言的車載信息服務系統(tǒng)的語音操作方法及一種語音操作系統(tǒng)。本發(fā)明先啟動語音輸入,接收自然語言的語音輸入并生成語音文件;將語音文件轉換成純文本文件;對所述純文本文件進行文本分詞;根據(jù)分詞后的文本識別操作類型及其操作關鍵詞和操作屬性;根據(jù)所述操作類型及其操作關鍵詞和操作屬性,執(zhí)行相應操作。本發(fā)明實現(xiàn)了使用自然語言的車載信息服務系統(tǒng)的語音操作,減少了用戶操作步驟。
文檔編號H04M11/00GK102543082SQ20121001810
公開日2012年7月4日 申請日期2012年1月19日 優(yōu)先權日2012年1月19日
發(fā)明者王剛 申請人:北京賽德斯汽車信息技術有限公司