專利名稱:一種抑郁情緒電話自動語音識別篩查系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及生物和醫(yī)藥技術(shù)領(lǐng)域,具體涉及一種抑郁情緒電話自動語音識別篩查系統(tǒng)。
背景技術(shù):
抑郁情緒電話自動語音識別篩查系統(tǒng)是交互式語音應答和現(xiàn)代醫(yī)學的結(jié)合。交互式語音應答(Interactive Voice Response, IVR)系統(tǒng)是基于計算機處理過程和語音電話的自動系統(tǒng),通過電話輸入信息即可以和IVR系統(tǒng)進行交互,獲得所需的信息。交互式語音應答主要功能是代替人工進行自動語音處理。抑郁癥是全球第四大疾病負擔。在女性疾病負擔中占第四位,在男性疾病負擔中占第七位。抑郁癥是全球范圍內(nèi)最大的非致死性疾病負擔,死亡率到達12%。我國情況不容樂觀,北京市抑郁終生患病率為6. 87%,時點患病率為3. 31%。北京綜合醫(yī)院患者抑郁障礙的現(xiàn)患率為5. 23%。將交互式語音應答系統(tǒng)(IVR) 與抑郁篩查量表相結(jié)合有可能成為在家庭中篩查抑郁障礙的一個新的有效方法。抑郁癥是全球范圍內(nèi)最大的非致死性疾病負擔,死亡率到達12%。人們因抑郁問題至醫(yī)院門診求助醫(yī)生的比例較低,原因主要是缺乏簡便有效的應用于社區(qū)的抑郁篩查工具。
發(fā)明內(nèi)容
本發(fā)明的目的在于,為克服現(xiàn)有技術(shù)由于缺乏簡便有效的應用于社區(qū)的抑郁篩查系統(tǒng),導致針對抑郁對抑郁癥患者早期發(fā)現(xiàn)晚、干預晚,因而導致了抑郁癥患者病情不能及時診斷延誤病情的問題,從而提供一種抑郁情緒電話自動語音識別篩查系統(tǒng)。為實現(xiàn)上述目的,本發(fā)明提供的抑郁癥電話篩查量表編制和優(yōu)化,信度、效度測量。開發(fā)設(shè)計交互式語音識別自動應答程序。將量表、軟件、硬件組裝成為一個系統(tǒng),與電話和互連網(wǎng)連接,利用語音識別和語音合成系統(tǒng)將篩查量表應用到社區(qū)抑郁障礙的篩查中。本發(fā)明提供一種抑郁情緒電話自動語音識別篩查系統(tǒng),包含錄音/放音模塊,用于通過Dialogic語音卡接通電話并進行錄音或者放音,播放系統(tǒng)提示信息及問題錄音,錄制問題回答的原始語音并通過控制模塊傳給語音識別模塊,或者記錄按鍵輸入并傳給控制模塊;語音識別處理模塊,用于接收所述錄音/放音模塊傳來的原始語音,調(diào)用識別模型庫進行語音識別,并將識別結(jié)果通過控制模塊傳給評估模塊;評估模塊,用于對所述語音識別模塊的識別結(jié)果并進行評估,通過與數(shù)據(jù)庫中保存的評價等級比較,得出評估結(jié)果并傳給控制模塊,以及最終給出評估評價;和控制模塊,用于控制所述抑郁情緒電話自動語音識別篩查系統(tǒng)的工作流程,該模塊還負責所述錄音/放音模塊、語音識別模塊和評估模塊之間的相互通信;其中,所述數(shù)據(jù)庫保存問卷流程的系統(tǒng)問題、問卷問題、評價等級及評分標準和用戶信息,用Microsoft SQL Server 2000實現(xiàn)。上述技術(shù)方案中,所述的系統(tǒng)還包含顯示模塊,用于負責監(jiān)視界面中錄音波形與日志的顯示,負責記錄每個問題的回答結(jié)果。
所述控制模塊還用于維護管理所述的數(shù)據(jù)庫;所述錄音/放音模塊包含的語音卡將用戶回答時間設(shè)定為3秒。所述語音識別處理模塊進一步包含PCM格式轉(zhuǎn)換模塊,用于將A律語音數(shù)據(jù)變換為線性PCM語音數(shù)據(jù);VAD模塊,用于將輸入線性PCM語音數(shù)據(jù)進行靜音消除;語音識別模塊,根據(jù)識別準則判斷輸入消去靜音的PCM語音數(shù)據(jù)的識別結(jié)果;和置信度判斷模塊,用于判斷評價所述語音識別模塊得到的識別結(jié)果。所述置信度判斷模塊進一步包含若干識別結(jié)果存儲模塊,用于存儲每次識別結(jié)果的信息;判斷模塊,用于判斷得到的識別結(jié)果是否大約置信度閾值,若是則進入下一段語音的處理,否則需再進行若干次針對該段語音的重新識別;大小判斷模塊,用于判斷前后兩次得到的識別結(jié)果的大小。如果用戶回答兩次均不能被正確識別時,若兩次識別結(jié)果相同, 則認為該識別結(jié)果為正確的,否則繼續(xù)第三次重復提問;當用戶回答三次均不能被正確識別時,若第三次的識別結(jié)果與前兩次中的任意一個相同,則認為識別結(jié)果正確,否則將此題轉(zhuǎn)為按鍵回答。所述語音識別處理模塊還包含緩存模塊,用于將用戶語音進行緩存;和波形顯示模塊,用于顯示線性PCM語音數(shù)據(jù)的波形。所述VAD模塊進一步包含語音端點檢測模塊,采用基于交叉熵順序統(tǒng)計濾波。針對上述技術(shù)方案所述的系統(tǒng)還提供一種抑郁情緒電話自動語音識別篩查方法, 包含錄音/放音步驟,用于通過Dialogic語音卡接通電話并進行錄音或者放音;語音識別處理步驟,用于接收所述錄音/放音步驟傳來的原始語音,進行語音識別;評估步驟,用于對所述語音識別結(jié)果并進行評估,通過與數(shù)據(jù)庫中保存的評價等級比較,得出評估結(jié)果得出最終給出評估評價;和輸出評估結(jié)果的步驟,用于輸出評估結(jié)果;協(xié)調(diào)控制步驟,用于負責所述錄音/放音步驟、語音識別步驟和評估步驟之間的相互通信。上述技術(shù)方案中,所述語音識別處理步驟進一步包含錄音到緩存的步驟,用于將電話錄音進行緩存;上傳錄音數(shù)據(jù)到數(shù)據(jù)庫服務器的步驟,將錄音數(shù)據(jù)存放在所述數(shù)據(jù)庫服務器,便于數(shù)據(jù)的管理、查詢及結(jié)果輸出;PCM格式轉(zhuǎn)換的步驟,用于將存放的A律語音數(shù)據(jù)進行格式轉(zhuǎn)換,轉(zhuǎn)換為線性PCM語音數(shù)據(jù);顯示波形的步驟,用于顯示線性PCM語音數(shù)據(jù)的波形;VAD處理的步驟,用于將線性PCM語音數(shù)據(jù)進行消去靜音的處理;語音識別的步驟,用于對消去靜音的線性PCM語音數(shù)據(jù)進行語音識別;置信度判斷的步驟,用于對語音識別判斷的結(jié)果驚醒評估,以便找出最合適的語音識別結(jié)果。所述VAD處理的步驟為采用一種基于交叉熵順序統(tǒng)計濾波的語音端點檢測算法,先將每幀語音劃分成若干子帶,計算每個子帶與背景噪聲之間的交叉熵,將子帶交叉熵經(jīng)過一組順序統(tǒng)計濾波器進行平滑處理該處理用于得到比較平緩的曲線以方便閾值的選取。本發(fā)明的優(yōu)點在于,將交互式語音應答系統(tǒng)(IVR)與抑郁篩查量表相結(jié)合在家庭評估中篩查抑郁障礙患者將會成為提高抑郁狀態(tài)早期識別率的一個新的有效系統(tǒng)。
圖1是本發(fā)明的系統(tǒng)模塊劃分示意圖2是本發(fā)明的一種抑郁情緒電話自動語音識別篩查系統(tǒng)的組成框圖;圖3是本發(fā)明的一種抑郁情緒電話自動語音識別篩查方法的流程圖;圖4是本發(fā)明的一種抑郁情緒電話自動語音識別篩查方法包含的語音識別處理步驟的流程圖;圖5是本發(fā)明的一種抑郁情緒電話自動語音識別篩查方法包含的語音識別處理置信度判斷的流程圖。
具體實施例方式下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步詳細描述。如圖1所示,該圖形象的示意了該系統(tǒng)的組成框圖。其中(1)電話問卷的編制和優(yōu)化為錄音/放音模塊播放的內(nèi)容1.初選條目池的建立1.1備選條目池的確定量表初始問卷的編制主要采用文獻研究及臨床調(diào)研的方法。查閱現(xiàn)有的抑郁量表包括HAMD抑郁量表、MADS抑郁量表、BDI抑郁自評量表、Zung抑郁自評量表、HAMA焦慮量表、^mg焦慮自評量表獲得條目。同時,在抑郁門診了解抑郁相關(guān)的癥狀,咨詢專家,編制條目。共獲得條目105條。1.2建立初選條目池首先將條目按照漢語語言習慣及中國傳統(tǒng)文化背景改編。然后進行量表條目重要性的評價。請專家和量表將來的使用者對各個條目的重要性進行評分,計算每個條目的重要性的平均得分,按分數(shù)的高低排序從而得到重要性大的條目。請抑郁方面的專家98人, 并請專家對量表的條目編制提出修改意見。同時,對初始量表進行小樣本預試驗,在抑郁門診調(diào)查抑郁癥患者45人,要求其選出能反映其癥狀的通俗易懂的條目。另外,我們也調(diào)查了 20名的正常人,從條目的可接受程度上進行評定。經(jīng)核心小組討論,篩選、刪除或者合并重復條目,并對多含義的條目進行拆分,按照少而精的原則,選擇出代表性、區(qū)分性較好的條目,形成新的條目池。條目篩選是量表編制中的關(guān)鍵問題。應遵循重要性大、敏感性高、獨立性強、代表性好、確定性好的原則,主要采取以下方法選擇。1.區(qū)分度分析法;2.極端值的臨界比; 3.相關(guān)系數(shù)法;4.因子分析法;5.克朗巴赫系數(shù)法。共得到條目20條,組合成量表。該量表與“金標準”漢密爾頓抑郁量表、漢密爾頓焦慮量表、抑郁自評量表、焦慮自評量表進行一致性比較,結(jié)果肯定。面訪問卷與電話量表的一致性對比。篩查門診的抑郁癥患者,面訪有專門的神經(jīng)心理師完成。電話量表由交互式語音篩查系統(tǒng)完成。二者一致性較好。如圖2所示,該圖為一種抑郁情緒電話自動語音識別篩查系統(tǒng)的組成框圖。其中,自動語音應答支持用戶的語音回答,且能自動根據(jù)用戶的語音回答進入流程運轉(zhuǎn),完成相應的問卷。自動語音應答系統(tǒng)是由多個軟硬件搭建起來的系統(tǒng),使用到的硬件主要有=Dialogic語音卡,型號D41JCT ;電腦服務器,內(nèi)存IG以上;使用到的軟件主要有數(shù)據(jù)庫服務器Microsoft SQL Server 2000。使用到的關(guān)鍵技術(shù)主要有VAD (靜音檢測),連續(xù)語音識別及置信度判斷。參考圖2對系統(tǒng)主要模塊進行簡單介紹
a)控制模塊104控制模塊控制整個系統(tǒng)的工作流程。該模塊直接控制其他四個模塊和對數(shù)據(jù)庫進行維護。b)錄音/放音模塊101錄音/放音模塊負責通過Dialogic語音卡接通電話并進行錄音或者放音。該模塊受控于控制模塊,播放系統(tǒng)提示信息及問題錄音,錄制問題回答的原始語音并通過控制模塊傳給語音識別模塊,或者記錄按鍵輸入并傳給控制模塊。c)語音識別處理模塊102語音識別模塊從控制模塊接收錄音/放音模塊傳來的原始語音,調(diào)用識別模型庫進行語音識別,并將識別結(jié)果通過控制模塊傳給評估模塊。d)顯示模塊108顯示模塊負責監(jiān)視界面中錄音波形與日志的顯示。e)評估模塊103評估模塊負責接收通過控制模塊傳來的識別結(jié)果并進行評估,通過與數(shù)據(jù)庫中保存的評價等級比較,得出評估結(jié)果并傳給控制模塊,以及最終給出評估評價。f)數(shù)據(jù)庫 105數(shù)據(jù)庫中保存了問卷流程的系統(tǒng)問題、問卷問題、評價等級及評分標準和用戶信息等。數(shù)據(jù)庫用Microsoft SQL Server 2000實現(xiàn)。用戶的語音經(jīng)過Dialogic電話卡從電話信道錄入,最后需要將識別的結(jié)果觸發(fā)其他的流程處理。如圖3所示,該圖為本發(fā)明提供的一種抑郁情緒電話自動語音識別篩查系統(tǒng)的流程圖,具體步驟描述如下步驟301 錄音/放音步驟,用于通過Dialogic語音卡接通電話并進行錄音或者放音;步驟302 語音識別處理步驟,用于接收所述錄音/放音步驟傳來的原始語音,進行語音識別;步驟303 評估步驟,用于對所述語音識別結(jié)果并進行評估,通過與數(shù)據(jù)庫中保存的評價等級比較,得出評估結(jié)果得出最終給出評估評價;和步驟304 輸出判斷結(jié)果的步驟,用于輸出心境狀態(tài)評價結(jié)果;此外,還包含協(xié)調(diào)控制步驟,用于負責所述錄音/放音步驟、語音識別步驟和評估步驟之間的相互通信。作為整個系統(tǒng)中最關(guān)鍵的處理流程,復雜的語音處理流程主要經(jīng)過以下幾步過程如圖4所示,由于我國電話采用A律PCM編碼,錄音得到的原始語音數(shù)據(jù)是非線性的,語音波形的繪制及其后的相應處理均要求是線性PCM數(shù)據(jù),故在上傳錄音數(shù)據(jù)到服務器(直接保存A律數(shù)據(jù))后,將數(shù)據(jù)格式進行轉(zhuǎn)換,即可依次進行畫波形、靜音檢測(VAD)、 語音識別等程序。其中,用戶的語音是通過Dialogic語音卡錄入的,Dialogic語音卡提供的錄音接口函數(shù)為
int RecordBuffer(char*a_buf, int a_len, int a—maxTime, I0_Format a_ format);int Record (char*a—fiIeName,int a—maxTime);分別實現(xiàn)將語音數(shù)據(jù)錄入文件或者錄入緩存。錄音函數(shù)為異步模式,調(diào)用時開啟錄音子線程,當?shù)竭_設(shè)置的錄音最大時間時,該線程結(jié)束時發(fā)出消息TDX_REC0RD,表示異步錄音的結(jié)束。主程序采用事件消息驅(qū)動機制,在收到錄音結(jié)束消息時才進行相應的語音處理。并且由于用戶的語音回答是長度有限的可以預先設(shè)定的語音應答,在綜合考慮不同用戶的回答速度、反應時間和等待時間后,經(jīng)過測試,所以我們設(shè)置用戶的回答時間為3 秒鐘,認為這個時間最適宜用戶接受。所以語音數(shù)據(jù)的錄入方式是,從Dialogic語音卡錄入3秒鐘的語音數(shù)據(jù),將之作為用戶的完整回答,進行相應的處理。如圖5所示,為提高系統(tǒng)的穩(wěn)健性和實用性,對識別結(jié)果采取如下策略進行處理用戶回答兩次均不能被正確識別時,若兩次識別結(jié)果相同,則認為該識別結(jié)果為正確的,否則繼續(xù)第三次重復提問;當用戶回答三次均不能被正確識別時,若第三次的識別結(jié)果與前兩次中的任意一個相同,則認為識別結(jié)果正確,否則將此題轉(zhuǎn)為按鍵回答。適用于電話信道語音的VAD技術(shù)的設(shè)計和實現(xiàn)在錄入用戶語音后,進行語音識別之前,為了排除噪聲對識別的影響,并減少語音識別的計算量,對語音進行VAD處理。通常的VAD算法分為兩類,一類是基于閾值的方法,一類是基于模型的方法,其中基于閾值的方法更適合于嵌入式語音識別系統(tǒng)。基于電話信道語音的特點,我們提出了一種基于交叉熵順序統(tǒng)計濾波的語音端點檢測算法,先將每幀語音劃分成若干子帶,計算每個子帶與背景噪聲之間的交叉熵。為了得到比較平緩的曲線以方便閾值的選取,將子帶交叉熵經(jīng)過一組順序統(tǒng)計濾波器進行平滑處理。經(jīng)過多次對本系統(tǒng)的測試,我們將VAD算法的幾個參數(shù)取值分別為幀長為480個采樣點,幀移為160個采樣點,采樣率為8000赫茲,子帶數(shù)為8。另外,語音識別具體描述如下本系統(tǒng)的語音輸入是簡單的對話詞語,因此語音識別采用你連續(xù)語音孤立詞識別方法。在語音識別算法中,人類語言中的最小發(fā)音單位一音節(jié)一被進一步劃分為子詞 (subword),在漢語中子詞即對應漢語的聲母(consonant)和韻母(vowel),對于漢語普通話來說,共有22個聲母和38個韻母,總計60個子詞。對于給定的待識別詞條文本,可將其根據(jù)發(fā)音辭典拆分成子詞序列,進而將子詞進行簡單拼接得到識別詞中各詞條的識別網(wǎng)絡。考慮到漢語中存在的大量含義迥異的多音字,這個網(wǎng)絡可能很復雜。為提高語音識別正確率,減少識別過程中無效的計算,我們精簡了在生成網(wǎng)表的過程中使用的字典。該字典原有八千多字,考慮里面有一些不常用的生僻字和多音字,而在識別過程中會影響識別效果,因此將字典減少到四千多字,對語音識別的功能不會有影響, 但是提高了識別的準確度和速度。另外,考慮到問卷的內(nèi)容和答案可能會修改,所以待識別詞表可能需要相應更新。在我們的系統(tǒng)中,采用了修改問卷答案時重新生成網(wǎng)表的方法,可以任意改變待識別詞表,實現(xiàn)了系統(tǒng)的靈活性。因為識別的對象是通過電話信道傳輸?shù)恼Z音,而電話信道傳輸具有多樣性,并且用戶語音可能存在方言等多方面的影響,在訓練識別模型中,我們選用了 triphone三音子模型作為訓練模型,使用電話語音庫作為訓練數(shù)據(jù),進行了充分的訓練。訓練數(shù)據(jù)覆蓋了五大方言區(qū)的普通話,這樣我們的識別系統(tǒng)可以識別不同地域用戶的普通話。由于在實際應用系統(tǒng)中,對系統(tǒng)存儲器資源、CPU計算資源以及處理的速度都有較高的要求,所以,在保證高識別性能的基礎(chǔ)上,如何來改進傳統(tǒng)的語音識別算法,到達內(nèi)存和CPU資源利用的高效率是一個關(guān)鍵,具體實現(xiàn)可參考參考申請?zhí)枮椤?00910242404. 0”, 名稱為“嵌入式平臺大詞匯量語音命令詞的識別方法”的申請文件。在語音詞識別系統(tǒng)中, 我們首先利用漢語的語音學發(fā)音規(guī)則,采用聲母右相關(guān)的簡化的biphone雙音子模型來對漢語的聲韻模進行建模,得到一套緊湊且區(qū)分度較高的模型集合。然后構(gòu)建樹形的解碼網(wǎng)絡結(jié)構(gòu)來表示搜索空間,壓縮所占用的內(nèi)存資源。為了提高識別速度并且保持識別精度,識別解碼過程采用兩階段束搜索識別算法,在一階段使用模型規(guī)模較簡單的小規(guī)模模型集合進行初略識別,快速地選出前若干候選,然后再利用精細的復雜模型對一階段的候選進行二次重新識別,得到最佳識別結(jié)果。這種基于樹形結(jié)構(gòu)的兩階段識別策略在保證識別精度的情況下,提高了識別速度,保證了語音識別的快速完成。考慮到語音詞識別應用于實際系統(tǒng)當中,所以環(huán)境和背景噪聲的干擾必定存在, 保證識別系統(tǒng)在有噪環(huán)境下的識別性能也是需要考慮的。我們首先采用基于語音功率譜熵的語音端點檢測算法來準確估計語音命令的到達,在一定程度上濾除了無關(guān)語音的干擾。 然后建立獨立的噪聲和靜音聲學模型來吸收一些背景噪聲等垃圾語音,從而保證實際應用環(huán)境下的識別率,提高系統(tǒng)魯棒性和穩(wěn)健性??烧{(diào)的置信度的設(shè)計與實現(xiàn),在語音識別中,置信度(Confidence Measure)分析的目的是利用語音識別中尚未被充分利用的有用信息,通過衡量語音模型和觀測適量的匹配程度,對識別結(jié)果進行驗證和分析,從而找出錯誤所在,判斷識別結(jié)果是否可信。雖然連續(xù)孤立詞語音識別系統(tǒng)已經(jīng)達到97%的識別率,但是由于用戶的語音數(shù)據(jù)經(jīng)過了電話信道的傳輸,加大了噪聲,并且可能存在信號干擾、音量過小、用戶所處環(huán)境嘈雜等條件的影響,為了能加強系統(tǒng)運行的穩(wěn)健性,我們引入的了置信度的判斷。在語音識別后,對識別結(jié)果的置信度進行判斷,當置信度大于某個閾值時,認為識別結(jié)果可靠,否則認為識別結(jié)果不可靠。置信度閾值一共設(shè)置了三個,當識別的待選詞條小于4時設(shè)定一個置信度閾值, 當識別的待選詞條小于9時設(shè)定一個置信度閾值,其余的(即識別的待選詞條大于9時) 設(shè)定一個置信度閾值。在多次實驗后,系統(tǒng)設(shè)置的三個閾值大小分別為10,20,25。在這種設(shè)置下,對識別結(jié)果的判斷最佳。對于置信度閾值,我們還應根據(jù)實際環(huán)境來適當調(diào)節(jié)其大小。因為在實際應用中, 由于電話信道的傳輸干擾不可預見,而置信度閾值的大小影響著對語音識別可靠性的判斷,所以需要根據(jù)實際情況來適當調(diào)節(jié)其大小。所以自動語音應答系統(tǒng)支持置信度閾值可調(diào)。本發(fā)明的系統(tǒng)在具體使用時包含監(jiān)視系統(tǒng)、管理系統(tǒng)和查詢系統(tǒng)三個獨立子系統(tǒng)。
將該系統(tǒng)設(shè)計拆分為監(jiān)視系統(tǒng)、管理系統(tǒng)和查詢系統(tǒng)三個獨立子系統(tǒng),分工協(xié)同完成相應的功能。三個子系統(tǒng)通過數(shù)據(jù)庫來實現(xiàn)數(shù)據(jù)的共享。監(jiān)視系統(tǒng),是控制應答流程的主要系統(tǒng)。管理系統(tǒng),方便錄入問卷,可以根據(jù)需要靈活添加修改問卷內(nèi)容,選定問卷的評價方式,并設(shè)定評價的不同分數(shù)等級;查詢系統(tǒng),用于查看用戶問卷結(jié)果的,可以查看用戶的留言并回復,查看所有用戶的問卷信息,并支持導出單份用戶問卷和所有用戶信息,還支持播放問題以及用戶的回答。下面將會對這三個子系統(tǒng)做更詳細的說明。監(jiān)視系統(tǒng)監(jiān)視系統(tǒng)支持以下功能能夠同時進行多路電話信號處理,每一路設(shè)備可以通過服務器單獨開啟或關(guān)閉;能夠自動接聽來電,并進入問卷流程;可以根據(jù)用戶的選擇進入篩查流程或者宣教流程;宣教流程中支持用戶留言,并可以在用戶下次登錄時播放相應的醫(yī)生回答;宣教流程支持轉(zhuǎn)人工回答;系統(tǒng)工作時每一路信號的事件顯示在服務器上該路的日志框中,并支持文本形式查看日志;用戶可以聽到問題描述及備選答案;用戶回答的聲音波形可在服務器顯示,聲音文件可上傳;支持按鍵回答功能;問題回答異常時自動重放問題;問卷結(jié)束后根據(jù)總分給出病情評估及就診建議。管理系統(tǒng),管理系統(tǒng)包括用戶管理、問卷管理和系統(tǒng)管理。管理系統(tǒng)支持以下功能對系統(tǒng)用戶進行管理,添加、修改、刪除,該用戶是指對抑郁癥篩查系統(tǒng)具有使用權(quán)限的用戶;對問卷進行管理,添加、修改、刪除問卷,包括對問卷中各問題的文本內(nèi)容、答案、答案對應的分數(shù)、錄音、回答方式的設(shè)置;設(shè)置系統(tǒng)的聲音文件以及日志文件等的存放路徑;更改問卷的評價方法,包括平均分、總分和加權(quán)平均分;設(shè)定評價等級和各級的分數(shù)標準查詢系統(tǒng),查詢系統(tǒng)用于管理用戶留言以及用戶的問卷信息。查詢系統(tǒng)支持以下功能顯示所有進行問卷的用戶的基本信息,并能將所有用戶信息導出到Excel中;可以根據(jù)性別、測試日期、得分等來查詢出相應的用戶;可以查看用戶完整的回答記錄,并播放記錄的聲音文件;可以手動給用戶添加評估;可以打印單個用戶的完整問卷;可以查看用戶留言,并給用戶留言相應的回答,在用戶下次登錄后播放。綜上,本發(fā)明的抑郁情緒電話自動語音識別篩查系統(tǒng)是現(xiàn)代醫(yī)學和交互式語音應答的結(jié)合。交互式語音應答系統(tǒng)是基于計算機處理過程和語音電話的自動系統(tǒng),通過電話輸入信息即可以和系統(tǒng)進行交互,獲得所需的信息。將抑郁篩查量表與交互式語音應答系統(tǒng)相結(jié)合在家庭評估中篩查抑郁患者成為提高就診率的重要方法。自行編制抑郁情緒電話量表,并開發(fā)抑郁情緒電話自動語音識別篩查系統(tǒng),在社區(qū)中篩查抑郁癥患者及其高危人群,依托社區(qū)衛(wèi)生服務系統(tǒng),達到對抑郁癥患者早期發(fā)現(xiàn)、早期干預的目的。需要說明的是,以上介紹的本發(fā)明的實施方案而并非限制。本領(lǐng)域的技術(shù)人員應當理解,任何對本發(fā)明技術(shù)方案的修改或者等同替代都不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應涵蓋在本發(fā)明的權(quán)利要求范圍內(nèi)。
權(quán)利要求
1.一種抑郁情緒電話自動語音識別篩查系統(tǒng),包含錄音/放音模塊,用于通過Dialogic語音卡接通電話并進行錄音或者放音,播放系統(tǒng)提示信息及問題錄音,錄制問題回答的原始語音并通過控制模塊傳給語音識別模塊,或者記錄按鍵輸入并傳給控制模塊;語音識別處理模塊,用于接收所述錄音/放音模塊傳來的原始語音,調(diào)用識別模型庫進行語音識別,并將識別結(jié)果通過控制模塊傳給評估模塊;評估模塊,用于對所述語音識別模塊的識別結(jié)果并進行評估,通過與數(shù)據(jù)庫中保存的評價等級比較,得出評估結(jié)果并傳給控制模塊,以及最終給出心境狀態(tài)的評價;和控制模塊,用于控制所述抑郁情緒電話自動語音識別篩查系統(tǒng)的工作流程,該模塊還負責所述錄音/放音模塊、語音識別模塊和評估模塊之間的相互通信;其中,所述數(shù)據(jù)庫保存問卷流程的系統(tǒng)問題、問卷問題、評價等級及評分標準和用戶信息;所述語音識別處理模塊進一步包含PCM格式轉(zhuǎn)換模塊,用于將A律語音數(shù)據(jù)變換為線性PCM語音數(shù)據(jù);VAD模塊,用于將輸入線性PCM語音數(shù)據(jù)進行靜音消除;語音識別模塊,根據(jù)識別準則判斷輸入消去靜音的PCM語音數(shù)據(jù)的識別結(jié)果;和置信度判斷模塊,用于判斷評價所述語音識別模塊得到的識別結(jié)果;所述VAD模塊進一步包含語音端點檢測模塊,該模塊采用基于交叉熵順序統(tǒng)計濾波; 所述采用基于交叉熵順序統(tǒng)計濾波的方法為先將每幀語音劃分成若干子帶,,計算每個子帶與背景噪聲之間的交叉熵,將子帶交叉熵經(jīng)過一組順序統(tǒng)計濾波器進行平滑處理該處理用于得到比較平緩的曲線以方便閾值的選取。
2.根據(jù)權(quán)利要求1所述的抑郁情緒電話自動語音識別篩查系統(tǒng),其特征在于,所述的系統(tǒng)還包含顯示模塊,用于負責監(jiān)視界面中錄音波形與日志的顯示。
3.根據(jù)權(quán)利要求1所述的抑郁情緒電話自動語音識別篩查系統(tǒng),其特征在于,所述控制模塊還用于維護管理所述的數(shù)據(jù)庫。
4.根據(jù)權(quán)利要求1所述的抑郁情緒電話自動語音識別篩查系統(tǒng),其特征在于,所述錄音/放音模塊包含的語音卡將用戶回答時間設(shè)定為3秒。
5.根據(jù)權(quán)利要求1所述的抑郁情緒電話自動語音識別篩查系統(tǒng),其特征在于,所述置信度判斷模塊進一步包含若干識別結(jié)果存儲模塊,用于存儲每次識別結(jié)果的信息;判斷模塊,用于判斷得到的識別結(jié)果是否大約置信度閾值,若大于置信度閾值則進入下一段語音的處理,否則需再進行若干次針對該段語音的重新識別;大小判斷模塊,用于判斷前后兩次得到的識別結(jié)果的大小。
6.根據(jù)權(quán)利要求5所述的抑郁情緒電話自動語音識別篩查系統(tǒng),其特征在于,所述的需再進行若干次針對該段語音的重新識別具體包含如下步驟用戶回答兩次均不能被正確識別時,若兩次識別結(jié)果相同,則認為該識別結(jié)果為正確的,否則繼續(xù)第三次重復提問;當用戶回答三次均不能被正確識別時,若第三次的識別結(jié)果與前兩次中的任意一個相同,則認為識別結(jié)果正確,否則將此題轉(zhuǎn)為按鍵回答。
7.根據(jù)權(quán)利要求1所述的抑郁情緒電話自動語音識別篩查系統(tǒng),其特征在于,所述語音識別處理模塊還包含緩存模塊,用于將用戶語音進行緩存;和波形顯示模塊,用于顯示線性PCM語音數(shù)據(jù)的波形。
全文摘要
本發(fā)明提供了一種抑郁情緒電話自動語音識別篩查系統(tǒng),包含錄音/放音模塊,用于通過Dialogic語音卡接通電話并進行錄音或者放音;語音識別處理模塊,用于接收所述錄音/放音模塊傳來的原始語音,調(diào)用識別模型庫進行語音識別,并將識別結(jié)果通過控制模塊傳給評估模塊;評估模塊,用于對所述語音識別模塊的識別結(jié)果并進行評估,通過與數(shù)據(jù)庫中保存的評價等級比較,得出評估結(jié)果并傳給控制模塊,以及最終給出評估評價;和控制模塊,用于控制所述抑郁情緒電話自動語音識別篩查系統(tǒng)的工作流程,該模塊還負責所述錄音/放音模塊、語音識別模塊和評估模塊之間的相互通信;其中,所述數(shù)據(jù)庫保存問卷流程的系統(tǒng)問題、問卷問題、評價等級及評分標準和用戶信息。
文檔編號H04M3/487GK102339606SQ20111012751
公開日2012年2月1日 申請日期2011年5月17日 優(yōu)先權(quán)日2011年5月17日
發(fā)明者周景升, 張新卿, 田德財 申請人:首都醫(yī)科大學宣武醫(yī)院