一種基于語音識別的數(shù)據(jù)挖掘方法和系統(tǒng)的制作方法

文檔序號：2823834閱讀：172來源：國知局

專利名稱：一種基于語音識別的數(shù)據(jù)挖掘方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)，尤其涉及一種基于語音識別的數(shù)據(jù)挖掘方法和系統(tǒng)。
背景技術(shù)：
數(shù)據(jù)挖掘技術(shù)是一種用于得到產(chǎn)品反饋信息的主要技術(shù)。很多產(chǎn)品(如游戲、應(yīng)用軟件、聊天工具、殺毒軟件等)在用戶使用后，為了收集用戶的反饋信息，都會為用戶提供諸多的平臺，讓用戶進行信息反饋，這些平臺包括電話投訴中心、投訴網(wǎng)站、客戶郵件咨詢中心等等。通過對用戶的反饋信息進行數(shù)據(jù)挖掘，可以得到大量有用的信息，如用戶對某產(chǎn)品的售后服務(wù)的滿意程度，如何改進產(chǎn)品的建議，產(chǎn)品常見問題待解決等等。目前的數(shù)據(jù)挖掘主要是對文本數(shù)據(jù)的挖掘，即利用用戶反饋的文本信息進行搜集、整理、數(shù)據(jù)篩選等處理，以便得到用戶反饋的信息成果，例如可以先通過論壇、投訴郵箱、投訴網(wǎng)站等平臺收集大量的反饋信息，再對這些收集的信息進行分類、分析，將分析結(jié)果報告給相關(guān)人員，相關(guān)人員根據(jù)報告做出相應(yīng)的具體策劃和針對性處理，最終根據(jù)策劃和針對性處理來改進相關(guān)產(chǎn)品。隨著市場競爭的越來越激烈，不斷要求以更快、更方便、更準確的數(shù)據(jù)挖掘方法來實現(xiàn)對產(chǎn)品反饋信息的收集、分析等處理，以實現(xiàn)對相關(guān)產(chǎn)品的更快、更好改進?，F(xiàn)有的數(shù)據(jù)挖掘方法主要有兩種，如圖1所示，一種是收錄用戶通過網(wǎng)頁、郵件輸入的文本信息，根據(jù)對這些信息的分析結(jié)果做出相應(yīng)的策劃和針對性處理；另一種是通過問卷調(diào)查的方式，即用戶通過回答問卷來反饋信息，通過對問卷的統(tǒng)計進行信息的挖掘，從而做出相應(yīng)的策劃和針對性處理。然而，現(xiàn)有的數(shù)據(jù)挖掘方法都是基于網(wǎng)絡(luò)渠道的文本信息挖掘，并不涉及到電話/ 語音方面的語音數(shù)據(jù)挖掘方案，而電話/語音也是用戶比較常用的一種信息反饋方式。由于缺少對語音數(shù)據(jù)的挖掘方案，因此現(xiàn)有技術(shù)無法對用戶通過電話/語音反饋的信息進行較好的利用，這也不利于對相關(guān)產(chǎn)品的更快、更好改進。

發(fā)明內(nèi)容
有鑒于此，本發(fā)明的主要目的在于提供一種基于語音識別的數(shù)據(jù)挖掘方法和系統(tǒng)，以實現(xiàn)對語音信息的數(shù)據(jù)挖掘。為達到上述目的，本發(fā)明的技術(shù)方案是這樣實現(xiàn)的本發(fā)明提供了一種基于語音識別的數(shù)據(jù)挖掘方法，該方法包括從語音文件數(shù)據(jù)庫中提取語音文件，并通過語音識別操作對提取的語音文件進行語義分析，將所述語音文件轉(zhuǎn)換為文本數(shù)據(jù)；對轉(zhuǎn)換的文本數(shù)據(jù)進行數(shù)據(jù)挖掘，得到最終的可用數(shù)據(jù)。所述從語音文件數(shù)據(jù)庫中提取語音文件，具體為根據(jù)預設(shè)的查詢條件遍歷所述語音文件數(shù)據(jù)庫，提取符合所述查詢條件的語音文件。
所述對轉(zhuǎn)換的文本數(shù)據(jù)進行數(shù)據(jù)挖掘，得到最終的可用數(shù)據(jù)，具體為預先設(shè)定數(shù)據(jù)挖掘的方向，并根據(jù)所述數(shù)據(jù)挖掘的方向預設(shè)分類集合；分別計算提取的每個語音文件所對應(yīng)的文本數(shù)據(jù)與預設(shè)分類集合的相關(guān)度，并對所述相關(guān)度的計算結(jié)果進行統(tǒng)計，得到最終的可用數(shù)據(jù)。所述數(shù)據(jù)挖掘的方向為以下至少一種產(chǎn)品分類、類型分類。所述相關(guān)度用浮點數(shù)表示，取值范圍在0到1之間。本發(fā)明還提供了一種基于語音識別的數(shù)據(jù)挖掘系統(tǒng)，該系統(tǒng)包括語音文件數(shù)據(jù)庫，用于存儲語音文件；文件提取模塊，用于從語音文件數(shù)據(jù)庫中提取語音文件；語音識別模塊，用于通過語音識別操作對提取的語音文件進行語義分析，將所述語音文件轉(zhuǎn)換為文本數(shù)據(jù)；數(shù)據(jù)挖掘模塊，用于對轉(zhuǎn)換的文本數(shù)據(jù)進行數(shù)據(jù)挖掘，得到最終的可用數(shù)據(jù)。所述文件提取模塊進一步用于，根據(jù)預設(shè)的查詢條件遍歷所述語音文件數(shù)據(jù)庫，提取符合所述查詢條件的語音文件。所述數(shù)據(jù)挖掘模塊進一步用于，預先設(shè)定數(shù)據(jù)挖掘的方向，并根據(jù)所述數(shù)據(jù)挖掘的方向預設(shè)分類集合；分別計算提取的每個語音文件所對應(yīng)的文本數(shù)據(jù)與預設(shè)分類集合的相關(guān)度，并對所述相關(guān)度的計算結(jié)果進行統(tǒng)計，得到最終的可用數(shù)據(jù)。所述數(shù)據(jù)挖掘的方向為以下至少一種產(chǎn)品分類、類型分類。所述相關(guān)度用浮點數(shù)表示，取值范圍在0到1之間。本發(fā)明所提供的一種基于語音識別的數(shù)據(jù)挖掘方法和系統(tǒng)，從語音文件數(shù)據(jù)庫中提取語音文件，并通過語音識別操作對提取的語音文件進行語義分析，將該語音文件轉(zhuǎn)換為文本數(shù)據(jù)；對轉(zhuǎn)換的文本數(shù)據(jù)進行數(shù)據(jù)挖掘，得到最終的可用數(shù)據(jù)。本發(fā)明采用語音識別技術(shù)對語音信息進行數(shù)據(jù)挖掘，提高了語音渠道的客服數(shù)據(jù)統(tǒng)計的準確性，通過對語音數(shù)據(jù)的分析、統(tǒng)計，最終挖掘得到完整、準確的數(shù)據(jù)。

圖1為現(xiàn)有的數(shù)據(jù)挖掘示意圖；圖2為本發(fā)明一種基于語音識別的數(shù)據(jù)挖掘方法的流程圖；圖3為本發(fā)明實施例中基于語音識別的數(shù)據(jù)挖掘示意圖；圖4為本發(fā)明一種基于語音識別的數(shù)據(jù)挖掘系統(tǒng)的組成結(jié)構(gòu)示意圖。
具體實施例方式下面結(jié)合附圖和具體實施例對本發(fā)明的技術(shù)方案進一步詳細闡述。為實現(xiàn)對語音信息的數(shù)據(jù)挖掘，本發(fā)明提供的一種基于語音識別的數(shù)據(jù)挖掘方法，如圖2所示，主要包括以下步驟步驟201，從語音文件數(shù)據(jù)庫中提取語音文件，并通過語音識別操作對提取的語音文件進行語義分析，將該語音文件轉(zhuǎn)換為文本數(shù)據(jù)。語音文件數(shù)據(jù)庫是用于存儲語音文件的數(shù)據(jù)庫，例如在電話投訴中心的數(shù)據(jù)庫中，存儲的是用戶通過語音渠道反饋的產(chǎn)品相關(guān)信息(即電話錄音)，該信息通常是以rm或mp3等音頻格式存儲在數(shù)據(jù)庫中的。其中，語音文件的提取可以根據(jù)預設(shè)的查詢條件來執(zhí)行，即根據(jù)預設(shè)的查詢條件遍歷語音文件數(shù)據(jù)庫，提取符合該查詢條件的語音文件；例如假設(shè)預設(shè)的查詢條件為“上一周的所有電話記錄”，那么語音文件的提取操作是遍歷語音文件數(shù)據(jù)庫，將該數(shù)據(jù)庫中符合“上一周的所有電話記錄”查詢條件的所有語音文件都提取出來。在提取語音文件之后，可以通過語音識別操作對提取的語音文件進行語義分析，將該語音文件轉(zhuǎn)換為由自然語言組成的文本數(shù)據(jù)，并對轉(zhuǎn)換的文本數(shù)據(jù)進行存儲。步驟202，對轉(zhuǎn)換的文本數(shù)據(jù)進行數(shù)據(jù)挖掘，得到最終的可用數(shù)據(jù)。具體的，可以預先設(shè)定數(shù)據(jù)挖掘的方向，并根據(jù)該數(shù)據(jù)挖掘的方向預設(shè)分類集合；然后，分別計算提取的每個語音文件所對應(yīng)的文本數(shù)據(jù)與預設(shè)分類集合的相關(guān)度，并對該相關(guān)度的計算結(jié)果進行統(tǒng)計，進而得到最終的可用數(shù)據(jù)。關(guān)于文本數(shù)據(jù)與預設(shè)分類集合的相關(guān)度計算，以及計算結(jié)果的統(tǒng)計操作，將在后續(xù)的實施例中詳細說明。其中，數(shù)據(jù)挖掘的方向可以為以下至少一種產(chǎn)品分類、類型分類、滿意度分類等等。所謂產(chǎn)品分類，是指將上述文本數(shù)據(jù)按照產(chǎn)品的不同種類進行分類，例如區(qū)分哪些是屬于產(chǎn)品A的文本數(shù)據(jù)，哪些是屬于產(chǎn)品B的文本數(shù)據(jù)等等。所謂類型分類，是指將上述文本數(shù)據(jù)按照內(nèi)容反映的不同類型進行分類，例如區(qū)分哪些是屬于用戶建議的文本數(shù)據(jù)，哪些是屬于用戶投訴的文本數(shù)據(jù)，哪些是屬于用戶表揚的文本數(shù)據(jù)等等。所謂滿意度分類，是指將上述文本數(shù)據(jù)按照內(nèi)容反映的用戶滿意度進行分類，例如區(qū)分哪些是表現(xiàn)用戶滿意的文本數(shù)據(jù)，哪些是表現(xiàn)用戶不滿意的文本數(shù)據(jù)等等。需要說明的是，數(shù)據(jù)挖掘的方向并不僅限于上述所舉，可以根據(jù)實際需要進行擴展。另外，相關(guān)度的值可以用浮點數(shù)來表示，相關(guān)度的取值范圍在0到1之間，取值為 0表示完全不相關(guān)，取值為1表示非常相關(guān)。下面以產(chǎn)品分類為例，對上述基于語音識別的數(shù)據(jù)挖掘方法進一步詳細闡述。如圖3所示，為本發(fā)明實施例中基于語音識別的數(shù)據(jù)挖掘示意圖，用戶通過撥打客服電話進行產(chǎn)品的相關(guān)信息反饋，電話投訴中心的服務(wù)器對電話內(nèi)容進行錄音，并將錄音得到的語音文件以rm或mp3的格式存儲在專門的語音文件數(shù)據(jù)庫中；隨后進行的數(shù)據(jù)挖掘操作具體包括以下步驟步驟1，預先設(shè)定提取語音文件時的查詢條件，以及預先設(shè)定數(shù)據(jù)挖掘的方向為產(chǎn)品分類，并預設(shè)產(chǎn)品分類的集合。例如預設(shè)的查詢條件為“上一周的所有電話記錄”；預設(shè)數(shù)據(jù)挖掘的方向為產(chǎn)品分類，且產(chǎn)品分類的集合A = {QQ直播、QQ游戲}，則集合A即為包含兩個產(chǎn)品(QQ直播和 QQ游戲)的集合。步驟2，根據(jù)預設(shè)的查詢條件遍歷語音文件數(shù)據(jù)庫，提取符合該查詢條件的所有語音文件。接續(xù)上述舉例，當預設(shè)的查詢條件為“上一周的所有電話記錄”時，語音文件的提取操作是遍歷語音文件數(shù)據(jù)庫，將該數(shù)據(jù)庫中符合“上一周的所有電話記錄”查詢條件的所有語音文件都提取出來；可以以&來標識提取的各個語音文件。步驟3，通過語音識別操作對提取的各個語音文件Xi進行語義分析，將語音文件\ 轉(zhuǎn)換為由自然語言組成的文本數(shù)據(jù)，并對該文本數(shù)據(jù)進行存儲。
實際應(yīng)用中，語音識別的技術(shù)有多種，本發(fā)明的實施例并不對語音識別的具體實現(xiàn)手段進行限定，將音頻格式的語音文件識別為由自然語言組成的文本數(shù)據(jù)的任何實現(xiàn)手段，應(yīng)當都屬于本發(fā)明的保護范圍內(nèi)。步驟4，分別計算各個語音文件\與預設(shè)產(chǎn)品分類的集合的相關(guān)度。首先，定義一個相關(guān)度向量a = [31，32]，該向量是一個一維向量，其中，31表示& 對QQ直播的相關(guān)度，使用浮點數(shù)表示，取值范圍為0到1，0表示完全不相關(guān)，1表示非常相關(guān)；a2表示\對QQ游戲的相關(guān)度，使用浮點數(shù)表示，取值范圍為0到1，0表示完全不相關(guān)， 1表示非常相關(guān)。隨后，采用向量概率統(tǒng)計的方式計算所得\對QQ直播的相關(guān)度、Xi對QQ 游戲的相關(guān)度分別寫入向量a中的al、a2。步驟5，對相關(guān)度的計算結(jié)果進行統(tǒng)計，進而得到最終的可用數(shù)據(jù)。對上述對應(yīng)各個\的相關(guān)度計算結(jié)果a進行數(shù)據(jù)統(tǒng)計，即可以得到用戶對產(chǎn)品集合中的各個產(chǎn)品(QQ直播、QQ游戲)的關(guān)注度信息，該關(guān)注度信息反映了用戶對各個產(chǎn)品的關(guān)注程度。參考該關(guān)注度信息，有利于進行有針對性的市場策劃。需要說明的是，以上是以產(chǎn)品分類為例進行的說明，通過基于產(chǎn)品分類的數(shù)據(jù)挖掘，可以獲得用戶對各個產(chǎn)品的關(guān)注度信息。對于基于類型分類、或基于滿意度分類的數(shù)據(jù)挖掘，其具體操作與前述類似，此處不再贅述?；陬愋头诸惖臄?shù)據(jù)挖掘，可以區(qū)分出用戶對產(chǎn)品的不同類型的反饋信息；基于滿意度分類的數(shù)據(jù)挖掘，可以獲得用戶對各個產(chǎn)品的滿意程度。對應(yīng)上述基于語音識別的數(shù)據(jù)挖掘方法，本發(fā)明還提供了一種基于語音識別的數(shù)據(jù)挖掘系統(tǒng)，如圖4所示，該系統(tǒng)包括語音文件數(shù)據(jù)庫10、文件提取模塊20、語音識別模塊 30和數(shù)據(jù)挖掘模塊40。其中，語音文件數(shù)據(jù)庫10，用于存儲語音文件。文件提取模塊20，連接語音文件數(shù)據(jù)庫10，用于從語音文件數(shù)據(jù)庫10中提取語音文件。語音識別模塊30，連接文件提取模塊20，用于通過語音識別操作對文件提取模塊20提取的語音文件進行語義分析，將該語音文件轉(zhuǎn)換為文本數(shù)據(jù)。數(shù)據(jù)挖掘模塊40，連接語音識別模塊30，用于對轉(zhuǎn)換的文本數(shù)據(jù)進行數(shù)據(jù)挖掘，得到最終的可用數(shù)據(jù)。較佳的，文件提取模塊20進一步用于，根據(jù)預設(shè)的查詢條件遍歷語音文件數(shù)據(jù)庫 10，從中提取符合該查詢條件的語音文件。較佳的，數(shù)據(jù)挖掘模塊40進一步用于，預先設(shè)定數(shù)據(jù)挖掘的方向，并根據(jù)該數(shù)據(jù)挖掘的方向預設(shè)分類集合；分別計算提取的每個語音文件所對應(yīng)的文本數(shù)據(jù)與預設(shè)分類集合的相關(guān)度，并對該相關(guān)度的計算結(jié)果進行統(tǒng)計，得到最終的可用數(shù)據(jù)。其中，數(shù)據(jù)挖掘的方向為以下至少一種產(chǎn)品分類、類型分類、滿意度分類等等。相關(guān)度可以用浮點數(shù)表示，取值范圍在0到1之間，取值為0表示完全不相關(guān)，取值為1表示非常相關(guān)。綜上所述，本發(fā)明從語音文件數(shù)據(jù)庫中提取語音文件，然后通過語音識別系統(tǒng)對這些語音文件進行語義分析，轉(zhuǎn)化為由自然語言組成的文本數(shù)據(jù)后存儲；再通過自然語言處理和語義分析的系統(tǒng)對這些數(shù)據(jù)進行分句、分詞后，從這些數(shù)中挖掘出可用的數(shù)據(jù)，刪除無用的數(shù)據(jù)后再次存儲，最終再由人工對存儲的數(shù)據(jù)進行處理。本發(fā)明通過采用基于語音識別的數(shù)據(jù)挖掘，提高了語音渠道的客服數(shù)據(jù)統(tǒng)計的準確性，通過對語音數(shù)據(jù)的分析、統(tǒng)計，最終挖掘得到完整、準確的數(shù)據(jù)。
以上所述，僅為本發(fā)明的較佳實施例而已，并非用于限定本發(fā)明的保護范圍。
權(quán)利要求
1.一種基于語音識別的數(shù)據(jù)挖掘方法，其特征在于，該方法包括從語音文件數(shù)據(jù)庫中提取語音文件，并通過語音識別操作對提取的語音文件進行語義分析，將所述語音文件轉(zhuǎn)換為文本數(shù)據(jù)；對轉(zhuǎn)換的文本數(shù)據(jù)進行數(shù)據(jù)挖掘，得到最終的可用數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述基于語音識別的數(shù)據(jù)挖掘方法，其特征在于，所述從語音文件數(shù)據(jù)庫中提取語音文件，具體為根據(jù)預設(shè)的查詢條件遍歷所述語音文件數(shù)據(jù)庫，提取符合所述查詢條件的語音文件。
3.根據(jù)權(quán)利要求1或2所述基于語音識別的數(shù)據(jù)挖掘方法，其特征在于，所述對轉(zhuǎn)換的文本數(shù)據(jù)進行數(shù)據(jù)挖掘，得到最終的可用數(shù)據(jù)，具體為預先設(shè)定數(shù)據(jù)挖掘的方向，并根據(jù)所述數(shù)據(jù)挖掘的方向預設(shè)分類集合；分別計算提取的每個語音文件所對應(yīng)的文本數(shù)據(jù)與預設(shè)分類集合的相關(guān)度，并對所述相關(guān)度的計算結(jié)果進行統(tǒng)計，得到最終的可用數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述基于語音識別的數(shù)據(jù)挖掘方法，其特征在于，所述數(shù)據(jù)挖掘的方向為以下至少一種產(chǎn)品分類、類型分類。
5.根據(jù)權(quán)利要求3所述基于語音識別的數(shù)據(jù)挖掘方法，其特征在于，所述相關(guān)度用浮點數(shù)表示，取值范圍在0到1之間。
6.一種基于語音識別的數(shù)據(jù)挖掘系統(tǒng)，其特征在于，該系統(tǒng)包括語音文件數(shù)據(jù)庫，用于存儲語音文件；文件提取模塊，用于從語音文件數(shù)據(jù)庫中提取語音文件；語音識別模塊，用于通過語音識別操作對提取的語音文件進行語義分析，將所述語音文件轉(zhuǎn)換為文本數(shù)據(jù)；數(shù)據(jù)挖掘模塊，用于對轉(zhuǎn)換的文本數(shù)據(jù)進行數(shù)據(jù)挖掘，得到最終的可用數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述基于語音識別的數(shù)據(jù)挖掘系統(tǒng)，其特征在于，所述文件提取模塊進一步用于，根據(jù)預設(shè)的查詢條件遍歷所述語音文件數(shù)據(jù)庫，提取符合所述查詢條件的語音文件。
8.根據(jù)權(quán)利要求6或7所述基于語音識別的數(shù)據(jù)挖掘系統(tǒng)，其特征在于，所述數(shù)據(jù)挖掘模塊進一步用于，預先設(shè)定數(shù)據(jù)挖掘的方向，并根據(jù)所述數(shù)據(jù)挖掘的方向預設(shè)分類集合；分別計算提取的每個語音文件所對應(yīng)的文本數(shù)據(jù)與預設(shè)分類集合的相關(guān)度，并對所述相關(guān)度的計算結(jié)果進行統(tǒng)計，得到最終的可用數(shù)據(jù)。
9.根據(jù)權(quán)利要求8所述基于語音識別的數(shù)據(jù)挖掘系統(tǒng)，其特征在于，所述數(shù)據(jù)挖掘的方向為以下至少一種產(chǎn)品分類、類型分類。
10.根據(jù)權(quán)利要求8所述基于語音識別的數(shù)據(jù)挖掘系統(tǒng)，其特征在于，所述相關(guān)度用浮點數(shù)表示，取值范圍在0到1之間。
全文摘要
本發(fā)明公開了一種語音識別的數(shù)據(jù)挖掘方法和系統(tǒng)，方法包括從語音文件數(shù)據(jù)庫中提取語音文件，并通過語音識別操作對提取的語音文件進行語義分析，將該語音文件轉(zhuǎn)換為文本數(shù)據(jù)；對轉(zhuǎn)換的文本數(shù)據(jù)進行數(shù)據(jù)挖掘，得到最終的可用數(shù)據(jù)。通過本發(fā)明的方法和系統(tǒng)，實現(xiàn)了對語音信息的數(shù)據(jù)挖掘，并提高了語音渠道的客服數(shù)據(jù)統(tǒng)計的準確性。
文檔編號G10L15/08GK102419975SQ20101029559
公開日2012年4月18日申請日期2010年9月27日優(yōu)先權(quán)日2010年9月27日
發(fā)明者劉致遠申請人:深圳市騰訊計算機系統(tǒng)有限公司

完整全部詳細技術(shù)資料下載