本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種基于人工智能的人機(jī)交互車載系統(tǒng)。
背景技術(shù):
人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計算機(jī)科學(xué)的一個分支,它企圖了解智能的實質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語音識別、圖像識別、自然語言處理和專家系統(tǒng)等。其中,人工智能非常重要的方面就是語音交互技術(shù)。
目前,在使用非常廣泛的交通工具——小型電動車領(lǐng)域,包括電動自行車、電動摩托車、電動三輪車等,由于產(chǎn)品主要面向工薪階層,出于成本考慮,難以采用與汽車和聲控機(jī)器人相類似的、價格高昂、設(shè)計復(fù)雜的語音交互系統(tǒng),另一方面,在該領(lǐng)域仍然具有智能語音的應(yīng)用需求,例如部分小型電動車通過語音合成,播報里程、電量、故障信息,但這種車型存在明顯缺陷和不足:車載語音芯片性能較弱,音庫模型較小,導(dǎo)致語音合成效果聽感生硬、服務(wù)內(nèi)容有限、缺乏人性化,用戶體驗較差。此外,小型電動車的社會保有量目前已超過兩億輛,在龐大的用戶中,每天有不少車輛使用人經(jīng)常一手騎電動車,一手打電話、看手機(jī)信息,這種頻頻出現(xiàn)的非常不安全的操作行為急待改善。因此開發(fā)一種成本適合于小型電動車、具有豐富語音交互功能的智能化車載系統(tǒng)成為迫切需要。
因此,本領(lǐng)域的技術(shù)人員致力于開發(fā)一種低成本、高集成、性能強(qiáng)的基于人工智能的人機(jī)交互車載系統(tǒng),為用戶提供一種全新的用車體驗。
技術(shù)實現(xiàn)要素:
有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明所要解決的技術(shù)問題是提供一種低成本、高集成、性能強(qiáng)的基于人工智能的人機(jī)交互車載系統(tǒng)。
為實現(xiàn)上述目的,本發(fā)明提供了一種基于人工智能的人機(jī)交互車載系統(tǒng),包括車載端子系統(tǒng)和移動端子系統(tǒng);所述車載端子系統(tǒng)包括語音采集模塊、語音輸出模塊、中央控制模塊和第一無線通信模塊,所述移動端子系統(tǒng)包括信息處理模塊和第二無線通信模塊,其中所述第一無線通信模塊和第二無線通信模塊連接,以實現(xiàn)所述車載端子系統(tǒng)和移動端子系統(tǒng)之間的信息傳輸,所述中央控制模塊分別與所述語音采集模塊、語音輸出模塊和第一無線通信模塊連接,進(jìn)行模塊之間的信息傳輸,同時也根據(jù)接收指令和操作信息對上述模塊進(jìn)行控制;所述語音采集模塊用于采集用戶語音信息和環(huán)境噪聲信息并傳送至所述移動端子系統(tǒng);所述語音輸出模塊用于播放從所述移動端子系統(tǒng)接收的語音;所述信息處理模塊用于將接收的信息識別編輯合成語音并傳送至所述車載端子系統(tǒng)。
進(jìn)一步地,所述語音采集模塊是采用麥克風(fēng)陣列來采集語音信息,其中所述麥克風(fēng)陣列包含一個主麥克風(fēng)和至少一個副麥克風(fēng),主麥克風(fēng)設(shè)置在距離使用者近的位置主要用于采集用戶語音信息,副麥克風(fēng)設(shè)置在距離使用者遠(yuǎn)的位置主要用于采集環(huán)境噪聲信息。
進(jìn)一步地,所述信息處理模塊包括第一語音降噪子模塊或語音采集模塊包括第二語音降噪子模塊。
進(jìn)一步地,所述第一無線通信模塊和第二無線通信模塊之間采用雙向傳輸音頻數(shù)據(jù)和數(shù)字?jǐn)?shù)據(jù)的方式進(jìn)行點對點通信。
進(jìn)一步地,所述第一無線通信模塊和第二無線通信模塊之間通過Wi-Fi、藍(lán)牙或Wi-Fi結(jié)合藍(lán)牙方式進(jìn)行信息交互。
進(jìn)一步地,所述車載端子系統(tǒng)還包括第一信息采集模塊,其用于采集車輛的狀態(tài)信息并通過所述中央控制模塊發(fā)送至所述信息處理模塊;并且/或者所述移動端子系統(tǒng)還包括第二信息采集模塊,其用于采集移動設(shè)備的狀態(tài)信息包括電話信息、手機(jī)本地文件信息和顯示于移動設(shè)備屏幕的文字信息等并發(fā)送至所述信息處理模塊。
進(jìn)一步地,所述信息處理模塊還包括內(nèi)容整合子模塊,其用于將接收的信息結(jié)合場景風(fēng)格進(jìn)行編輯整合。
進(jìn)一步地,所述信息處理模塊還包括第三方應(yīng)用接口子模塊,其用于啟動第三方應(yīng)用程序。
進(jìn)一步地,所述車載端子系統(tǒng)還包括解鎖模塊,其用于響應(yīng)接收的解鎖指令,所述移動端子系統(tǒng)還包括解鎖請求模塊,其用于獲取移動設(shè)備輸入的解鎖請求并發(fā)送至所述第二無線通信模塊,其中在移動端通過手動輸入方式或其自帶麥克風(fēng)采集語音信息發(fā)出解鎖請求。
進(jìn)一步地,所述語音采集模塊還包括擋風(fēng)子模塊,其按照車輛前進(jìn)方向被設(shè)置在所述語音采集模塊前面,用于減少環(huán)境噪音。
與現(xiàn)有技術(shù)相比,本發(fā)明存在以下技術(shù)效果:充分體現(xiàn)低成本、高性能的橄欖型架構(gòu)設(shè)計,即本發(fā)明在車載端僅需設(shè)計前端的語音采集和后端的語音外放硬件,優(yōu)選智能手機(jī)作為移動端設(shè)備,通過在車輛與手機(jī)之間利用無線傳輸模塊建立點對點的音頻和數(shù)據(jù)雙向傳輸通道,從而將語音交互的中間過程部分——語音識別、內(nèi)容整合、語音合成等大運算量的復(fù)雜數(shù)據(jù)處理交由手機(jī)端完成,充分利用了手機(jī)芯片強(qiáng)大的計算能力、存儲能力以及可聯(lián)網(wǎng)的海量信息搜集能力,同時還充分利用手機(jī)應(yīng)用軟件的第三方程序接口,實現(xiàn)語音識別后的豐富功能響應(yīng)。由于語音識別和語音合成引擎設(shè)置在手機(jī)端,其程序易于安裝集成、易于迭代更新,從而可以同步保持最新最完善的智能語音交互服務(wù)。整個系統(tǒng)硬件成本低、軟件性能強(qiáng),非常適合在成本敏感的小型電動車市場推廣。系統(tǒng)不僅可以實現(xiàn)音質(zhì)清晰的免提通話,并且基于全面的車載信息和用戶手機(jī)信息搜集、解析、描像,可以提供精準(zhǔn)的人性化的智能語音交互服務(wù),同時提高行車安全性。
以下將結(jié)合附圖對本發(fā)明的構(gòu)思、具體結(jié)構(gòu)及產(chǎn)生的技術(shù)效果作進(jìn)一步說明,以充分地了解本發(fā)明的目的、特征和效果。
附圖說明
圖1是本發(fā)明的優(yōu)選實施例第一語音降噪子模塊設(shè)置在移動端的人機(jī)交互車載系統(tǒng)示意圖;
圖2是本發(fā)明的優(yōu)選實施例第二語音降噪子模塊設(shè)置在車載端的人機(jī)交互車載系統(tǒng)示意圖。
下面將結(jié)合本發(fā)明實施例,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
具體實施方式
如圖1所示,本發(fā)明的優(yōu)選實施例第一語音降噪模塊設(shè)置在移動端的人機(jī)交互車載系統(tǒng),包括車載端子系統(tǒng)和手機(jī)端子系統(tǒng);
車載端子系統(tǒng)包括第一無線通信模塊、語音采集模塊、語音輸出模塊、車輛信息采集模塊、解鎖模塊和中央控制模塊;
手機(jī)端子系統(tǒng)包括信息處理模塊、手機(jī)信息采集模塊、解鎖請求模塊和第二無線通信模塊;
第一無線通信模塊和第二無線通信模塊連接,以實現(xiàn)車載端子系統(tǒng)和移動端子系統(tǒng)之間的信息傳輸;第一無線通信模塊與第二無線通信模塊之間采用雙向傳輸音頻數(shù)據(jù)和數(shù)字?jǐn)?shù)據(jù)的方式進(jìn)行點對點通信;音頻數(shù)據(jù)既可以是數(shù)字音頻也可以是模擬音頻,用于傳遞由麥克風(fēng)陣列獲取的語音信號和經(jīng)由手機(jī)端輸出的音頻信號。數(shù)字?jǐn)?shù)據(jù)用于傳遞車載端與手機(jī)端之間的指令信息交互。當(dāng)音頻數(shù)據(jù)采用數(shù)字音頻格式時,第一無線通信模塊與第二無線通信模塊之間的通信可以采用單一的數(shù)字傳輸方式。當(dāng)音頻數(shù)據(jù)采用模擬音頻時,第一無線通信模塊與第二無線通信模塊之間的通信采用模擬傳輸和數(shù)字傳輸兩種不同的傳輸方式,分別用于模擬音頻的傳輸和數(shù)字?jǐn)?shù)據(jù)的傳輸。進(jìn)一步說明,車載端的第一無線通信模塊和手機(jī)端的第二無線通信模塊可以采用Wi-Fi、藍(lán)牙或者是Wi-Fi結(jié)合藍(lán)牙等連接方式,不同的數(shù)據(jù)傳輸方式意味著采用不同的通信協(xié)議,硬件采用不同的設(shè)計電路。
語音采集模塊用于采集用戶語音信息和環(huán)境信息并傳送至手機(jī)端子系統(tǒng);其采用麥克風(fēng)陣列,其中麥克風(fēng)陣列包含一個主麥克風(fēng)和至少一個副麥克風(fēng),主麥克風(fēng)設(shè)置在距離車輛使用者近的位置主要用于采集用戶語音信息,副麥克風(fēng)設(shè)置在距離車輛使用者遠(yuǎn)的位置主要用于采集環(huán)境噪聲,可設(shè)置多個副麥克風(fēng)位于車載端的不同位置,采集和甄別不同方向的環(huán)境噪聲,有助于在經(jīng)過語音降噪后提高語音識別率和打電話過程中的通話清晰度,此時,第一語音降噪子模塊需處理至少兩路音頻信號,其包含主麥克風(fēng)語音信號和至少一路副麥克風(fēng)的噪音信號。
語音輸出模塊用于播放從移動端子系統(tǒng)接收的語音,例如語音輸出模塊是揚聲器將經(jīng)由手機(jī)端下行傳輸至車載端的音頻信息外放。
車輛信息采集模塊和手機(jī)信息采集模塊均是為了增加人機(jī)交互內(nèi)容的廣泛性、實用性,本發(fā)明包括安裝在車載端的車輛信息采集模塊和設(shè)置在手機(jī)端的手機(jī)信息采集模塊這兩者中的至少一個,當(dāng)然,如果在車輛端和手機(jī)端都具有信息采集模塊,可以使得信息來源更加豐富。
車輛信息采集模塊用于采集車輛狀態(tài)信息并通過中央控制模塊發(fā)送至信息處理模塊,所獲得的信息可以是直觀型的,例如包括里程、速度、電壓、電流、充電時間、充電頻率等,可以是推理型的,例如包括可行駛剩余里程(估值)、車輛使用人的用車習(xí)慣(安全行為例如減速滑行,危險行為例如急剎車)以及電池等部件的折舊損耗趨勢等。
手機(jī)信息采集模塊用于采集移動設(shè)備的狀態(tài)信息并發(fā)送至信息處理模塊,其包括采集電話信息、手機(jī)本地文件信息、顯示于手機(jī)屏幕的文字內(nèi)容信息等,所獲得的信息可以是直觀型的,例如包括天氣、時間、來電、短信、通知、剩余電量、地理位置、音樂文件等,可以是推理型的,例如根據(jù)手機(jī)應(yīng)用安裝清單、某一應(yīng)用的開啟頻率、使用時長、關(guān)注內(nèi)容、選擇習(xí)慣等,分析用戶特征,包括性別、年齡層、偏向喜好等等。此外,手機(jī)信息采集模塊還可以基于手機(jī)的聯(lián)網(wǎng)優(yōu)勢,根據(jù)需要隨時搜索和獲得來自互聯(lián)網(wǎng)的海量信息。通過來自車載端和手機(jī)端采集的信息所建立的信息庫,既是為車輛使用者建立用戶分析描像的基礎(chǔ),也是后續(xù)為車輛使用者提供精準(zhǔn)個性化人機(jī)交互服務(wù)的信息來源。
中央控制模塊分別與第一無線通信模塊、語音采集模塊、語音輸出模塊、車輛信息采集模塊和解鎖模塊連接,進(jìn)行模塊之間的信息傳輸,同時也根據(jù)接收指令和操作信息對上述模塊進(jìn)行控制;其擔(dān)任與手機(jī)端實現(xiàn)通信和交互的控制中樞。
信息處理模塊用于將接收的信息識別編輯合成語音并傳送至車載端子系統(tǒng),其具體而言包含語音識別、內(nèi)容編輯、語音合成功能。其還包括第一語音降噪子模塊,用于提高語音識別率和免提通話清晰度。其還包括內(nèi)容整合子模塊,用于將接收的信息結(jié)合場景風(fēng)格進(jìn)行編輯整合,具體的根據(jù)獲得的車輛端信息和/或手機(jī)端信息結(jié)合相關(guān)場景風(fēng)格模型編制整合用于輸出的被動回答型和/或主動推送型內(nèi)容。其既包含在不同場景下的需求邏輯模型也包含特定發(fā)音者的語義風(fēng)格特征模型。需要說明的是,前述需求邏輯模型中的“需求”是涉及人機(jī)交互雙方的,既包括來自車輛使用者提出的——“人”的問詢需求,也包括手機(jī)端基于大量信息數(shù)據(jù)分析獲得的結(jié)果需要告知車輛使用者的——“機(jī)”的推送需求,因而內(nèi)容整合子模塊根據(jù)需求邏輯模型分別產(chǎn)生了因應(yīng)的“人”的被動回答型內(nèi)容和因應(yīng)“機(jī)”的主動推送型內(nèi)容。具體地,首先識別來自車載端的車輛使用者的語音請求,然后通過內(nèi)容整合子模塊將接收的信息根據(jù)場景風(fēng)格模型整合成被動回答型和/或主動推送型內(nèi)容,最后將被動回答型和/或主動推送型內(nèi)容合成音頻語音信息發(fā)送到車載端子系統(tǒng)播放;
信息處理模塊還包括第三方應(yīng)用接口子模塊,其用于啟動第三方應(yīng)用程序,這將使得人機(jī)交互車載系統(tǒng)的功能大大增加,例如很多車輛使用者喜歡一邊騎車一邊戴著耳機(jī)聽音樂,這種行為不僅忽視安全而且在騎車時無法選曲,現(xiàn)在通過本系統(tǒng)提供的車載免提功能可以實現(xiàn)手機(jī)音樂在車上的播放,而且可以通過語音識別自由選曲。由于受制于音樂版權(quán)問題,越來越多的音樂只在某個第三方音樂軟件上播放,因此,本系統(tǒng)的第三方應(yīng)用接口子模塊可以實現(xiàn)與這些音樂軟件的無縫對接。
還包括設(shè)置在手機(jī)端的解鎖請求模塊,其用于獲取手機(jī)輸入的解鎖請求并發(fā)送至第二無線通信模塊和在車載端的解鎖模塊,解鎖模塊用于響應(yīng)接收的解鎖指令,其中解鎖請求模塊可以采用手動輸入方式或是使用手機(jī)端自帶麥克風(fēng)通過聲紋識別發(fā)出解鎖指令,這一解鎖裝置的設(shè)計目的在于:目前小型電動車的解鎖普遍采用普通遙控器方式,如果本系統(tǒng)沒有設(shè)置經(jīng)由手機(jī)端的解鎖請求模塊,則車輛使用者在實際操作中勢必需要操作如下步驟:先拿出普通遙控器解鎖車輛、再拿出手機(jī)實現(xiàn)與車載端的通信聯(lián)機(jī),兩步操作增加了繁瑣性,非常容易導(dǎo)致車輛使用者忘記或者懶于拿出手機(jī)操作第二步,這會大大降低本系統(tǒng)的利用率,因此在手機(jī)端設(shè)置解鎖請求模塊,可以將車輛解鎖和手機(jī)與車輛聯(lián)機(jī)這兩步操作并作一步完成,幾乎不改變車輛使用人的解鎖習(xí)慣,同時還可省卻車輛使用人出門攜帶車輛遙控器的繁瑣,對提高本系統(tǒng)的使用頻率非常有利。
還包括語音采集模塊中的擋風(fēng)子模塊,具體地是擋風(fēng)裝置被設(shè)置在麥克風(fēng)前端,在車輛前進(jìn)時,用于遮擋和減少麥克風(fēng)受到的風(fēng)噪干擾。這一擋風(fēng)裝置可以是為麥克風(fēng)定制的風(fēng)罩,也可以利用一些既有的擋風(fēng)裝置,例如某些車輛在車把前方為車輛使用人設(shè)置的透明擋風(fēng)板。
以下通過語音交互示例對本發(fā)明做進(jìn)一步的說明:
例如,小型電動車的儀表部件由于震動、防水、防塵、陽光照射以及成本等因素,無論是機(jī)械指針儀表還是液晶儀表都是損壞率較高的部件,此時車輛使用者通過車載端麥克風(fēng)詢問:“現(xiàn)在幾點了,還能跑多少公里?”,該語音信息通過麥克風(fēng)陣列傳達(dá)到第一語音降噪模塊過濾噪音,再經(jīng)由信息處理模塊識別為文字,然后將文字輸出到內(nèi)容整合子模塊,此時,內(nèi)容整合子模塊從存儲于手機(jī)端的信息庫中搜索基于手機(jī)信息采集模塊獲得時間信息、基于車輛信息采集模塊獲得電量信息,同時根據(jù)該車輛使用者的用戶信息描像特征結(jié)合場景風(fēng)格模型,例如喜歡網(wǎng)購型,編制語義風(fēng)格可以稱呼為“親”,喜歡動漫女仆型,編制語義風(fēng)格可以稱呼為“主人”,內(nèi)容整合子模塊編制完成這樣一段具有擬人化的被動回答型文字:“主人,現(xiàn)在是下午六點鐘,我還可以再跑8公里?!贝藭r基于內(nèi)容整合子模塊中的需求邏輯模型——“機(jī)”的需求,例如來自車輛信息采集模塊的數(shù)據(jù)分析,可以同步編制一段主動推送型文字:“主人,您上次充電不及時,今天回家要記得哦?!?/p>
由內(nèi)容整合子模塊編制的上述文字結(jié)合目前通用的語音合成引擎中所包含的不同音色的男聲、女聲以及明星等特定發(fā)音人的模擬語音,依靠手機(jī)芯片強(qiáng)大的計算處理能力和存儲的大容量音庫,可以提供非常精細(xì)化的、仿真自然度高的語音合成效果,最終,語音音頻傳送至車載端語音輸出模塊(例如揚聲器)播放,從而完成一段非常具有人性化、感染力、體現(xiàn)“人工智能”的人機(jī)交互,讓車輛使用者具有全新的體驗。
在本系統(tǒng)表述的“基于人工智能的人機(jī)交互車載系統(tǒng)”中,所涉及的信息處理模塊包括語音識別和語音合成功能通常采用由第三方提供的語音引擎,這些語音引擎所具有的“人工智能”特征可以稱作公有智能,在本系統(tǒng)中,基于車載端和手機(jī)端的信息采集和分析結(jié)合內(nèi)容整合子模塊,特別是內(nèi)容整合子模塊中涉及的場景風(fēng)格模型所包含的需求邏輯模型,因為依賴于深度理解人與車信息交互應(yīng)用場景下的、定制化的構(gòu)建大量模型和邏輯算法,所以也具有明顯的“人工智能”特征,可以稱作專有智能。不同于語音引擎的“公有智能”,“專有智能”依賴于車輛制造方獨立開發(fā),其設(shè)計的內(nèi)容整合子模塊中交互邏輯模型越豐富,則體現(xiàn)的人機(jī)交互服務(wù)越精細(xì),用戶體驗越具感染力和人性化,也會相應(yīng)使得小型電動車產(chǎn)品具有超出常規(guī)的市場競爭力。
如圖2所示,本發(fā)明的優(yōu)選實施例第二語音降噪子模塊設(shè)置在車載端的人機(jī)交互車載系統(tǒng)中,將第二語音降噪子模塊設(shè)置在車載端,其實質(zhì)是通過硬件降噪,這意味著硬件成本會適度增加,但可以獲得的增益是,第一無線通信模塊向第二無線通信模塊只需傳輸經(jīng)過降噪過濾后的單聲道形式的音頻數(shù)據(jù),可以降低對第一無線通信模塊的具備音頻數(shù)據(jù)傳輸能力的要求。同時,有不少小型電動車已裝有旨在防盜追蹤的GPS+SIM卡的衛(wèi)星定位模塊,并且利用SIM卡模塊實現(xiàn)車輛被盜后的自動撥打電話和監(jiān)聽,因此,第二語音降噪子模塊設(shè)置于車輛端,不僅可以提高監(jiān)聽電話的清晰度,進(jìn)而可以讓車輛使用人在騎車時直接通過車上的SIM卡模塊撥打電話,并且具有清晰的通話質(zhì)量。
以上詳細(xì)描述了本發(fā)明的較佳具體實施例。應(yīng)當(dāng)理解,本領(lǐng)域的普通技術(shù)人員無需創(chuàng)造性勞動就可以根據(jù)本發(fā)明的構(gòu)思作出諸多修改和變化。因此,凡本技術(shù)領(lǐng)域中技術(shù)人員依本發(fā)明的構(gòu)思在現(xiàn)有技術(shù)的基礎(chǔ)上通過邏輯分析、推理或者有限的實驗可以得到的技術(shù)方案,皆應(yīng)在由權(quán)利要求書所確定的保護(hù)范圍內(nèi)。