本發(fā)明涉及面向聾人的提示技術(shù)領(lǐng)域,尤其涉及一種聾人提示系統(tǒng)、方法及智能手機(jī)。
背景技術(shù):
隨著信息技術(shù)的發(fā)展,語音技術(shù)的應(yīng)用越來越廣,例如在銀行、醫(yī)院、餐廳等地,普遍使用排號機(jī),并通過語音的方式進(jìn)行叫號;在公交車、高鐵等場合,也采用語音報站的方式提醒旅客。這種語音提示的方式,在極大地方便了普通大眾的同時,卻給聾人帶來了很多不便,經(jīng)常會發(fā)生錯過排號或坐過站等情況。
為了給聾人提供便利,出現(xiàn)了一些技術(shù)方案,例如:
一種具有藍(lán)牙提醒功能的聾人用公交報站器(申請?zhí)枺?01520256936.0)
這個方案是在目前公交車報站系統(tǒng)上安裝藍(lán)牙模塊,將報站的文字內(nèi)容通過藍(lán)牙模塊向外發(fā)送,然后聾人通過自己的手機(jī)接收文字信息,并在手機(jī)上顯示,同時也可以通過振動提醒聾人。
這個方案存在的不足:首先要改裝公交車的報站系統(tǒng),而且還要加裝藍(lán)牙等模塊,工程量很大,實施成本也很高。其次是用戶使用起來也不方便,因為藍(lán)牙設(shè)備是需要配對后才能使用的,即使公交車都安裝了藍(lán)牙系統(tǒng),那聾人要得到這樣的提醒服務(wù),必須在上車后要將自己的手機(jī)與公交車的系統(tǒng)進(jìn)行藍(lán)牙的配對并綁定,如果一個聾人要轉(zhuǎn)三次車,就需要在三個車上分別配對才能使用;此外這個方案是每個站都報,不能做到用戶定制(當(dāng)?shù)竭_(dá)用戶指定的那一站才提醒),會帶來不必要的干擾。
聾啞人軌道交通到站提醒設(shè)備(申請?zhí)枺?01310268098.4)
這個方案是為聾啞人提供一種軌道交通到站提醒設(shè)備,這個設(shè)備包括GPS定位模塊,用于從衛(wèi)星獲取GPS定位數(shù)據(jù);存儲模塊,用于存儲軌道交通各站點的經(jīng)緯度數(shù)據(jù);振動模塊,用于到站提醒;參數(shù)設(shè)置模塊,用于聾啞人設(shè)置提醒站點以及提醒持續(xù)時間;控制模塊,用于檢測GPS定位數(shù)據(jù)是否與提醒站點的經(jīng)緯度數(shù)據(jù)相同,若相同,則指令振動模塊按照設(shè)定的提醒持續(xù)時間進(jìn)行振動提醒。
這個方案存在的不足:首先是它依賴于GPS定位,而GPS在軌道交通工具中,特別是在地鐵中,往往接收不到衛(wèi)星導(dǎo)航信號,這樣提醒設(shè)備就無法獲取到定位數(shù)據(jù),也就無法正確提醒聾人到站;其次是這個設(shè)備必須存儲所有站點的經(jīng)緯度數(shù)據(jù),而這些站點的數(shù)據(jù)獲取,其工作量也是不小,而且還要后期維護(hù)的問題(新增的線路等)。如果要推廣到所有公交車上,其站點數(shù)據(jù)就更加龐大。
技術(shù)實現(xiàn)要素:
為了解決上述問題,本發(fā)明提出了一種聾人提示系統(tǒng)、方法及智能手機(jī),以解決聾人經(jīng)常會發(fā)生錯過排號或坐過站等問題。
具體地說,本發(fā)明公開了一種基于智能終端的聾人提示系統(tǒng),其中該提示系統(tǒng)基于智能手機(jī)且包括總控模塊、用戶交互模塊、場景感知模塊、數(shù)據(jù)采集及預(yù)處理模塊、語音識別模塊、關(guān)鍵詞匹配模塊,其中:
用戶交互模塊,用于聾人與系統(tǒng)之間的交互;
場景感知模塊,用于感知并確定聾人的運用場景;
數(shù)據(jù)采集及預(yù)處理模塊,用于采集廣播聲音,生成聲音數(shù)據(jù),并對該聲音數(shù)據(jù)進(jìn)行預(yù)處理,生成廣播語音數(shù)據(jù);
語音識別模塊,用于接收識別該廣播語音數(shù)據(jù),加載對應(yīng)該運用場景的語音識別模型,并根據(jù)該語音識別模型將該廣播語音數(shù)據(jù)轉(zhuǎn)換成文字信息,在總控模塊的控制下,將該文字信息發(fā)送到關(guān)鍵詞匹配模塊;
關(guān)鍵詞匹配模塊,用于將該文字信息與關(guān)鍵詞進(jìn)行匹配,如果該文字信息包含該關(guān)鍵詞,則向用戶交互模塊發(fā)送一個匹配成功的標(biāo)記;
總控模塊用于控制整個系統(tǒng)按流程運行。
該基于智能終端的聾人提示系統(tǒng),其中該用戶交互模塊,包括:
關(guān)鍵詞輸入模塊,用于聾人在觸摸屏上輸入提醒內(nèi)容的關(guān)鍵詞;
提醒模塊,用于接收匹配成功的該標(biāo)記,控制智能終端上的振動部件來提醒聾人,并在智能手機(jī)上顯示提醒信息。
該基于智能終端的聾人提示系統(tǒng),其中該數(shù)據(jù)采集及預(yù)處理模塊,包括根據(jù)該運用場景對該聲音數(shù)據(jù)進(jìn)行起始點和結(jié)束點檢測,去除噪音。
該基于智能終端的聾人提示系統(tǒng),其中該場景感知模塊,包括:
位置分析模塊,通過定位部件,獲取用戶當(dāng)時所處的位置數(shù)據(jù),并根據(jù)該位置數(shù)據(jù),通過調(diào)用地圖軟件確定聾啞人位置屬性;
運動分析模塊,通過運動傳感器,獲取聾人當(dāng)時的運動屬性;
語義分析模塊,通過分析該關(guān)鍵詞得到其語義屬性;
場景確定模塊,根據(jù)該位置屬性、該運動屬性以及該語義屬性,通過加權(quán)融合的算法確定運用場景。
該基于智能終端的聾人提示系統(tǒng),其中該數(shù)據(jù)采集及預(yù)處理模塊,包括:
數(shù)據(jù)采集子模塊,用于持續(xù)實時采集聲音數(shù)據(jù)并存入緩沖池;
數(shù)據(jù)預(yù)處理子模塊,用于從該緩沖池中取出該聲音數(shù)據(jù),并從該聲音數(shù)據(jù)中提取該廣播語音數(shù)據(jù),對該廣播語音數(shù)據(jù)進(jìn)行語音增強處理后發(fā)送給該語音識別模塊。
本發(fā)明還提出了一種基于智能終端的聾人提示方法,其中該數(shù)據(jù)采集及預(yù)處理方法,包括以下步驟:
場景感知步驟,感知并確定聾人的運用場景;
數(shù)據(jù)采集及預(yù)處理步驟,采集廣播聲音,生成聲音數(shù)據(jù),并對該聲音數(shù)據(jù)進(jìn)行預(yù)處理,生成廣播語音數(shù)據(jù);
語音識別步驟,接收識別該廣播語音數(shù)據(jù),加載對應(yīng)該運用場景的語音識別模型,并根據(jù)該語音識別模型將該廣播語音數(shù)據(jù)轉(zhuǎn)換成文字信息,在總控步驟的控制下,將該文字信息發(fā)送到關(guān)鍵詞匹配步驟;
關(guān)鍵詞匹配步驟,將該文字信息與關(guān)鍵詞進(jìn)行匹配,如果該文字信息包含該關(guān)鍵詞,則向用戶交互步驟發(fā)送一個匹配成功的標(biāo)記;
用戶交互步驟,實現(xiàn)聾人與系統(tǒng)之間的交互。
該基于智能終端的聾人提示方法,其中該用戶交互步驟,包括:
關(guān)鍵詞輸入步驟,聾人在觸摸屏上輸入提醒內(nèi)容的關(guān)鍵詞;
提醒步驟,接收匹配成功的該標(biāo)記,控制智能終端上的振動部件來提醒聾人,并在智能手機(jī)上顯示提醒信息。
該基于智能終端的聾人提示方法,其中該數(shù)據(jù)采集及預(yù)處理步驟,包括:
數(shù)據(jù)采集步驟,持續(xù)實時采集聲音數(shù)據(jù)并存入緩沖池;
數(shù)據(jù)預(yù)處理步驟,從該緩沖池中取出該聲音數(shù)據(jù),并從該聲音數(shù)據(jù)中提取該廣播語音數(shù)據(jù),對該廣播語音數(shù)據(jù)進(jìn)行語音增強處理后發(fā)送給該語音識別步驟。
該基于智能終端的聾人提示方法,其中該數(shù)據(jù)預(yù)處理步驟,包括:
每次從該緩沖池中取一段固定時長的該聲音數(shù)據(jù);
判斷該聲音數(shù)據(jù)中是否包含有廣播語音,采用的判斷方法為基于預(yù)先訓(xùn)練的分類器的方法:預(yù)先為每種場景訓(xùn)練一個語音分類器,該分類器為混合高斯模型、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)模型中的一種;
若判斷包含有廣播語音,則進(jìn)行記錄后,繼續(xù)取后續(xù)該聲音數(shù)據(jù)進(jìn)行處理;
若判斷未包含有廣播語音,則查詢是否有廣播語音記錄,若沒有,則繼續(xù)取后續(xù)聲音處理,若有,則計算累計間隔時間,若該累計間隔時間小于預(yù)先規(guī)定的閾值,則繼續(xù)取后續(xù)該聲音數(shù)據(jù)進(jìn)行處理,若該累計間隔時間大于預(yù)先規(guī)定的該閾值,則根據(jù)廣播語音記錄,截取從第一次記錄到最后一次記錄時間內(nèi)所包含的全部該聲音數(shù)據(jù)作為該廣播語音數(shù)據(jù),并對該廣播語音數(shù)據(jù)進(jìn)行語音增強處理后發(fā)送給該語音識別步驟。
本發(fā)明還包括一種采用該提示系統(tǒng)的智能手機(jī),其包括外置遠(yuǎn)講拾音器,采用直接插入或者無線方式與智能手機(jī)連接。
本發(fā)明技術(shù)效果在于基于常用的智能終端(手機(jī)),采用其自帶的麥克風(fēng)(或可方便外接的遠(yuǎn)講拾音器)、運動傳感器、定位模塊等,通過智能語音識別和關(guān)鍵詞匹配,為聾人提供適用于排隊叫號、公交到站提醒等場景的智能提示服務(wù)。與現(xiàn)有技術(shù)相比,該技術(shù)主要依賴于多傳感器融合的智能場景感知和音頻感知廣播語音,無需對相應(yīng)的環(huán)境或場景進(jìn)行改造,在地鐵、室內(nèi)等GPS模塊失效的場合也可正常使用,可大大提高聾人生活的便利性。
附圖說明
圖1、為系統(tǒng)環(huán)境組成圖;
圖2、為系統(tǒng)框圖組成圖;
圖3、為提示方法的操作與運行過程圖;
圖4、為總控模塊流程圖;
圖5、為用戶交互模塊流程圖;
圖6、為場景感知模塊流程圖;
圖7、為數(shù)據(jù)采集及預(yù)處理模塊流程圖;
圖8、為關(guān)鍵詞匹配模塊流程圖。
具體實施方式
如圖1所示,本發(fā)明包括智能終端(手機(jī))及外置遠(yuǎn)講拾音器。智能終端(手機(jī))應(yīng)具有CPU、存儲器、觸摸屏、無線通信、振動部件、麥克風(fēng)(MIC)、定位部件(GPS)、音頻接口等模塊和器件,還具加速度和陀螺儀等運動傳感器模塊。智能手機(jī)上內(nèi)置的MIC適合近距離拾音,如果聾人離廣播源比較遠(yuǎn)的話,采集聲音的效果就會降低,從而影響語音識別的準(zhǔn)確性,通過外置遠(yuǎn)講拾音器,就可以避免這種情況。外置遠(yuǎn)講拾音器可以是直接插在智能手機(jī)的MIC插孔中,也可以是通過藍(lán)牙無線連接。
如圖2所示,本發(fā)明還包括運行在智能終端(手機(jī))的一種應(yīng)用系統(tǒng)(app),包括總控模塊,用戶交互模塊、場景感知模塊、數(shù)據(jù)采集及預(yù)處理模塊、語音識別模塊、關(guān)鍵詞匹配模塊。
總控模塊用于控制整個系統(tǒng)按流程運行。
用戶交互模塊用于用戶與系統(tǒng)之間的交互,包括兩個子模塊:關(guān)鍵詞輸入模塊,用于用戶(聾人)在觸摸屏上輸入提醒內(nèi)容的關(guān)鍵詞(文字),如銀行排號中的號碼;提醒模塊,用于該關(guān)鍵詞匹配成功后,控制智能終端上的振動部件來提醒用戶,并在智能終端上顯示提示信息。
場景感知模塊用于感知并確定用戶的運用場景,利用智能終端上的定位、加速度、陀螺儀等多個傳感器,分別獲取位置屬性和運動屬性,通過分析用戶輸入的關(guān)鍵詞得到其語義屬性,再通過加權(quán)融合算法,可以自動判斷用戶在使用提示功能時的運用場景,為后續(xù)的處理提供有效的依據(jù)(噪音背景及廣播語音的句式),該場景感知模塊包括以下4個模塊:
位置分析模塊,通過智能終端(手機(jī))上的定位部件,獲取用戶當(dāng)時所處的位置數(shù)據(jù),并根據(jù)該位置數(shù)據(jù),通過調(diào)用第三方地圖軟件確定聾啞人位置屬性;
運動分析模塊,通過智能終端(手機(jī))上的運動傳感器,獲取聾人當(dāng)時的運動屬性;
語義分析模塊,通過分析該關(guān)鍵詞得到其語義屬性;
場景確定模塊,根據(jù)該位置屬性、該運動屬性以及該語義屬性,通過加權(quán)融合的算法確定用戶的運用場景。
數(shù)據(jù)采集及預(yù)處理模塊用于采集廣播聲音,生成聲音數(shù)據(jù),對該聲音數(shù)據(jù)進(jìn)行預(yù)處理,生成廣播語音數(shù)據(jù),包括根據(jù)預(yù)先判斷的該運用場景特征對該聲音數(shù)據(jù)進(jìn)行起始點和結(jié)束點檢測,去除噪音等,并將采集到的一段完整的廣播語音數(shù)據(jù)發(fā)送給語音識別模塊。采集聲音時可采用智能終端內(nèi)置的麥克風(fēng),也可采用外置遠(yuǎn)講拾音器。數(shù)據(jù)采集及預(yù)處理的好處是,根據(jù)不同運用場景的特點,可以更加準(zhǔn)確地確定一段廣播語音的起始點和結(jié)束點,有針對性地去除聲音采集過程中的噪音(如汽車上的喇叭聲、場景中的人聲等等),從而獲取這段完整的廣播語音數(shù)據(jù),送到后續(xù)的語音識別模塊進(jìn)行識別。
語音識別模塊,用于接收識別該廣播語音數(shù)據(jù),加載對應(yīng)該運用場景的語音識別模型,并根據(jù)該語音識別模型將該廣播語音數(shù)據(jù)轉(zhuǎn)換成文字信息,在總控模塊的控制下,將該文字信息發(fā)送到關(guān)鍵詞匹配模塊。
關(guān)鍵詞匹配模塊用于接收該文字信息,并將該文字信息與該關(guān)鍵詞進(jìn)行匹配,如果該文字信息包含該關(guān)鍵詞,則向用戶交互模塊發(fā)送一個匹配成功的標(biāo)記。
圖3為本發(fā)明的提示方法的操作與運行過程圖,首先啟動系統(tǒng),聾人通過關(guān)鍵詞輸入模塊輸入關(guān)鍵詞,之后場景感知模塊通過感知分析聾人的位置、運動信息以及該關(guān)鍵詞信息,確定運用場景,數(shù)據(jù)采集及預(yù)處理模塊根據(jù)該運用場景采集對方輸入語音,對其進(jìn)行預(yù)處理,并判斷采集到的廣播語音是否完整,若不完整,則繼續(xù)采集廣播語音,若完整,則將處理后的廣播語音發(fā)送給語音識別模塊,總控制模塊調(diào)用語音識別模塊,將處理后的該廣播語音轉(zhuǎn)換成文字信息,并將該文字信息發(fā)送給關(guān)鍵詞匹配模塊,該關(guān)鍵詞匹配模塊判斷該文字信息是否與該關(guān)鍵詞相符,若相符則向用戶交互模塊發(fā)送一個匹配成功的標(biāo)記,用戶交互模塊收到該標(biāo)記,便控制智能終端上的振動部件來提醒用戶,并在智能終端上顯示提示信息。
下面用一個實施例來進(jìn)一步說明本發(fā)明。
本實施例包括智能終端及外置遠(yuǎn)講拾音器。其中:
智能終端采用某品牌的智能手機(jī),其主要性能指標(biāo)如下:
CPU:4核1.6GHz;
操作系統(tǒng):Android 6.0;
數(shù)據(jù)無線網(wǎng)絡(luò):支持2G/3G/4G移動網(wǎng)絡(luò);
存儲器:32G ROM/4G RAM;
觸摸屏:5.5英寸2560×1440分辨率;
音頻接口類型:3.5mm 4極耳機(jī)插頭;
無線接口:WIFI、NFC、藍(lán)牙;
麥克風(fēng):MEMS麥克風(fēng);
主要傳感器:GPS、加速度計、陀螺儀。
外置遠(yuǎn)講拾音器采用某品牌的全指向麥克風(fēng),其主要性能指標(biāo)如下:
輸入聲壓:110db;
頻率響應(yīng):20Hz~20kHz;
靈敏度:-43dB;
阻抗:2.2Ω;
接口類型:3.5mm 4極耳機(jī)插頭;
指向性:全指向。
外置遠(yuǎn)講拾音器采用直接插入的方式與智能手機(jī)連接。
本實施例是在上述智能手機(jī)的Android 6.0操作系統(tǒng)環(huán)境上開發(fā)的一種應(yīng)用系統(tǒng)(app),包括總控模塊,用戶交互模塊、場景感知模塊、數(shù)據(jù)采集及預(yù)處理模塊、語音識別模塊、關(guān)鍵詞匹配模塊。其中:
總控模塊用于控制整個系統(tǒng)按流程運行,其控制流程見圖4。
用戶交互模塊用于用戶與系統(tǒng)之間的交互,其流程見圖5。該模塊包括兩個子模塊,由總控模塊根據(jù)需要來調(diào)用,其中:圖5左側(cè)虛線部分為關(guān)鍵詞輸入模塊,用于用戶在觸摸屏上輸入提醒內(nèi)容的關(guān)鍵詞,如銀行排號中的號碼或公交站的站名;圖5右側(cè)虛線部分為提醒模塊,用于該關(guān)鍵詞匹配成功后,控制智能終端上的振動部件來提醒用戶,并在智能終端上顯示提醒信息。兩個模塊在運行中調(diào)用了智能終端系統(tǒng)對外提供的觸摸屏輸入、振動、顯示輸出等模塊。
場景感知模塊用于感知并確定用戶的運用場景,其流程見圖6。該模塊由總控模塊來調(diào)用,其包含四個子模塊:
位置分析模塊,通過智能終端(手機(jī))上的定位部件,獲取用戶當(dāng)時所處的位置數(shù)據(jù),然后調(diào)用第三方的地圖軟件,根據(jù)該位置數(shù)據(jù),獲得用戶當(dāng)時所處的位置屬性,本實施例中,位置屬性定義為下述四個類別之一:銀行、醫(yī)院、馬路、其它;
運動分析模塊,通過智能終端(手機(jī))上的運動傳感器,獲取聾人當(dāng)時的運動屬性,本實施例中,具體實施方式為:調(diào)用智能終端上的加速度計模塊,獲取加速度數(shù)據(jù),將加速度數(shù)據(jù)積分得到速度數(shù)據(jù),計算一段時長(參考值5-60秒,本實施例中為30秒)內(nèi)的平均速度,利用預(yù)設(shè)的閾值,根據(jù)平均速度確定其運動屬性。在本實施例中,將運動屬性定義為下述三個類別之一:靜止、步行、交通工具;
語義分析模塊,用于分析該關(guān)鍵詞得到其語義屬性,本實施例中,具體實施方式為:定義語義屬性為下述兩個類別之一:號碼、站名,對該關(guān)鍵詞進(jìn)行分析,若該關(guān)鍵詞為數(shù)字號碼則判定為“號碼”,從該位置數(shù)據(jù)提供的信息中可得到用戶所處的城市信息,利用預(yù)存的全國各城市的公交/地鐵站名與用戶輸入的關(guān)鍵詞進(jìn)行匹配,若匹配成功則將語義屬性判定為“站名”;
場景確定模塊,根據(jù)該位置屬性、該運動屬性以及該語義屬性,通過加權(quán)融合的算法確定用戶的運用場景,在本實施例中,將場景定義為如下兩個類別之一:室內(nèi)叫號、公交報站。所述加權(quán)融合算法的具體過程為:首先,建立位置屬性、運動屬性、關(guān)鍵詞語義屬性的取值與場景信息的取值之間的對應(yīng)關(guān)系。本實施例中,定義的對應(yīng)關(guān)系為:
位置屬性:{銀行、醫(yī)院}->室內(nèi)叫號,{馬路、其它}->公交報站
運動屬性:{靜止、步行}->室內(nèi)叫號,交通工具->公交報站
關(guān)鍵詞語義屬性:號碼->室內(nèi)叫號,站名->公交報站
接照該對應(yīng)關(guān)系,可得到每種屬性下每種運用場景的得分:設(shè)p1,m1,s1分別表示位置屬性、運動屬性、關(guān)鍵詞語義屬性下“室內(nèi)叫號”場景的得分,p2,m2,s2分別表示位置屬性、運動屬性、關(guān)鍵詞語義屬性下“公交報站”場景的得分,若每種屬性的取值對應(yīng)相應(yīng)的運用場景,則該得分為1,否則為0。定義
Si=cp*pi+cm*mi+cs*si,i=1,2
其中,S1和S2分別表示最終確定的場景為“室內(nèi)叫號”和“公交報站”的得分,cp,cm,cs分別為各屬性對應(yīng)的權(quán)重,在本實施例中,取值分別為:0.3,0.3,0.4。根據(jù)S1,S2,選取得分最高的運用場景為最終確定的運用場景。
數(shù)據(jù)采集及預(yù)處理模塊用于采集廣播聲音,生成聲音數(shù)據(jù),并對該聲音數(shù)據(jù)進(jìn)行預(yù)處理,生成廣播語音數(shù)據(jù)。在本實施例中,采用連接至智能終端(手機(jī))MIC口的外置遠(yuǎn)講拾音器采集廣播聲音。在另一個實施例中,采用與智能終端(手機(jī))通過藍(lán)牙進(jìn)行無線連接的外置遠(yuǎn)講拾音器采集廣播聲音。在另一個實施例中,采用智能終端(手機(jī))內(nèi)置的麥克風(fēng)采集廣播聲音。在本實施例中,采集的廣播聲音數(shù)據(jù)為16KHz采樣、16位量化的單聲道PCM編碼數(shù)據(jù)。數(shù)據(jù)采集及預(yù)處理模塊的流程圖見圖7。該模塊包括兩個子模塊:圖7左側(cè)虛線部分為數(shù)據(jù)采集子模塊,用于持續(xù)實時采集聲音數(shù)據(jù)并存入緩沖池。圖7右側(cè)虛線部分為數(shù)據(jù)預(yù)處理子模塊,用于從該緩沖池中取出該聲音數(shù)據(jù),并從該聲音數(shù)據(jù)中提取廣播語音數(shù)據(jù),對該廣播語音數(shù)據(jù)進(jìn)行語音增強處理后發(fā)送給該語音識別模塊。其具體過程包括:
(1)每次從緩沖池中取一段固定時長的聲音數(shù)據(jù)。本實施例中,設(shè)定取1秒的聲音數(shù)據(jù);
(2)對該固定時長的聲音數(shù)據(jù),進(jìn)行基于運用場景的廣播語音檢測,即判斷該聲音數(shù)據(jù)中是否包含有廣播語音。采用的方法為基于預(yù)先訓(xùn)練的分類器的方法:預(yù)先為每種場景訓(xùn)練一個廣播語音分類器。分類器可采用混合高斯模型(GMM)、支持向量機(jī)(SVM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)等已有模型。在本實施例中,采用SVM模型。預(yù)先在每種場景下采集大量包含和不包含廣播語音的聲音數(shù)據(jù)并進(jìn)行相應(yīng)的標(biāo)記,形成訓(xùn)練數(shù)據(jù)集。然后用訓(xùn)練數(shù)據(jù)集訓(xùn)練分類器模型。訓(xùn)練方法采用當(dāng)前已有的方法和工具,如libSVM工具。在數(shù)據(jù)預(yù)處理時,根據(jù)場景感知模塊所得到的運用場景,采用該運用場景對應(yīng)的分類器,對當(dāng)前聲音數(shù)據(jù)進(jìn)行分類,判斷其是否包含有廣播語音;
(3)若判定包含有廣播語音,則進(jìn)行記錄后繼續(xù)取后續(xù)聲音數(shù)據(jù)進(jìn)行處理;若判定未包含有廣播語音,則查詢是否有廣播語音的記錄,如沒有則繼續(xù)取后續(xù)聲音處理。如果有,則計算累計間隔時間,即最后一次記錄到廣播語音數(shù)據(jù)的時間與當(dāng)前數(shù)據(jù)的時間差,若累計間隔時間小于預(yù)先規(guī)定的閾值,則認(rèn)為可能仍存在連續(xù)的廣播語音,繼續(xù)取后續(xù)聲音處理;若累計間隔時間大于預(yù)先規(guī)定的閾值,則認(rèn)為廣播語音已經(jīng)結(jié)束,進(jìn)行下一步處理;
(4)根據(jù)廣播語音記錄,截取從第一次記錄到最后一次記錄時間所包含的全部聲音數(shù)據(jù)作為廣播語音數(shù)據(jù),對其進(jìn)行語音增強操作后返回。語音增強用于去除背景噪音,可采用當(dāng)前常用的各種語音增強方法,如背景譜減、維納濾波等。本實施例中采用維納濾波方法。
語音識別模塊,用于接收識別該廣播語音數(shù)據(jù),加載對應(yīng)該運用場景的語音識別模型,并根據(jù)該語音識別模型將該廣播語音數(shù)據(jù)轉(zhuǎn)換成文字信息,在總控模塊的控制下,將該文字信息發(fā)送到關(guān)鍵詞匹配模塊,其中該語音識別模型包括針對特別運用場景的聲學(xué)模型和語言模型,從而提高語音識別的正確率,更加適應(yīng)多種運用場景。本實施例中使用第三方提供的語音識別引擎。
關(guān)鍵詞匹配模塊用于接收該文字信息,并將該文字信息與該關(guān)鍵詞進(jìn)行匹配,如果該文字信息包含該關(guān)鍵詞,則向用戶交互模塊發(fā)送一個匹配成功的標(biāo)記,其流程圖見圖8。
此外,本發(fā)明還提供一種基于智能終端的聾人提示方法,該數(shù)據(jù)采集及預(yù)處理方法,包括以下步驟:
場景感知步驟,感知并確定聾人的運用場景;
數(shù)據(jù)采集及預(yù)處理步驟,采集廣播聲音,生成聲音數(shù)據(jù),并對該聲音數(shù)據(jù)進(jìn)行預(yù)處理,生成廣播語音數(shù)據(jù);
語音識別步驟,接收識別該廣播語音數(shù)據(jù),加載對應(yīng)該運用場景的語音識別模型,并根據(jù)該語音識別模型將該廣播語音數(shù)據(jù)轉(zhuǎn)換成文字信息,在總控步驟的控制下,將該文字信息發(fā)送到關(guān)鍵詞匹配步驟;
關(guān)鍵詞匹配步驟,將該文字信息與關(guān)鍵詞進(jìn)行匹配,如果該文字信息包含該關(guān)鍵詞,則向用戶交互步驟發(fā)送一個匹配成功的標(biāo)記;
用戶交互步驟,實現(xiàn)聾人與系統(tǒng)之間的交互。
其中該用戶交互步驟,包括:
關(guān)鍵詞輸入步驟,聾人在觸摸屏上輸入提醒內(nèi)容的關(guān)鍵詞;
提醒步驟,接收匹配成功的該標(biāo)記,控制智能終端上的振動部件來提醒聾人,并在智能手機(jī)上顯示提醒信息。
該數(shù)據(jù)采集及預(yù)處理步驟,包括:
數(shù)據(jù)采集步驟,持續(xù)實時采集聲音數(shù)據(jù)并存入緩沖池;
數(shù)據(jù)預(yù)處理步驟,從該緩沖池中取出該聲音數(shù)據(jù),并從該聲音數(shù)據(jù)中提取該廣播語音數(shù)據(jù),對該廣播語音數(shù)據(jù)進(jìn)行語音增強處理后發(fā)送給該語音識別步驟。
該數(shù)據(jù)預(yù)處理步驟,包括:
每次從該緩沖池中取一段固定時長的該聲音數(shù)據(jù);
判斷該聲音數(shù)據(jù)中是否包含有廣播語音,采用的判斷方法為基于預(yù)先訓(xùn)練的分類器的方法:預(yù)先為每種場景訓(xùn)練一個語音分類器,該分類器為混合高斯模型、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)模型中的一種;
若判斷包含有廣播語音,則進(jìn)行記錄后,繼續(xù)取后續(xù)該聲音數(shù)據(jù)進(jìn)行處理;
若判斷未包含有廣播語音,則查詢是否有廣播語音記錄,若沒有,則繼續(xù)取后續(xù)聲音處理,若有,則計算累計間隔時間,若該累計間隔時間小于預(yù)先規(guī)定的閾值,則繼續(xù)取后續(xù)該聲音數(shù)據(jù)進(jìn)行處理,若該累計間隔時間大于預(yù)先規(guī)定的該閾值,則根據(jù)廣播語音記錄,截取從第一次記錄到最后一次記錄時間內(nèi)所包含的全部該聲音數(shù)據(jù)作為該廣播語音數(shù)據(jù),并對該廣播語音數(shù)據(jù)進(jìn)行語音增強處理后發(fā)送給該語音識別步驟。
本發(fā)明還提供一種智能手機(jī),包括外置遠(yuǎn)講拾音器,該拾音器采用直接插入或者無線方式與智能手機(jī)連接。
雖然本發(fā)明以上述實施例公開,但具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明,任何本技術(shù)領(lǐng)域技術(shù)人員,在不脫離本發(fā)明的構(gòu)思和范圍內(nèi),可作一些的變更和完善,故本發(fā)明的權(quán)利保護(hù)范圍以權(quán)利要求書為準(zhǔn)。