專利名稱:一種基于語音識別的數(shù)據(jù)挖掘方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘技術(shù),尤其涉及一種基于語音識別的數(shù)據(jù)挖掘方法和系統(tǒng)。
背景技術(shù):
數(shù)據(jù)挖掘技術(shù)是一種用于得到產(chǎn)品反饋信息的主要技術(shù)。很多產(chǎn)品(如游戲、應(yīng)用軟件、聊天工具、殺毒軟件等)在用戶使用后,為了收集用戶的反饋信息,都會為用戶提供諸多的平臺,讓用戶進行信息反饋,這些平臺包括電話投訴中心、投訴網(wǎng)站、客戶郵件咨詢中心等等。通過對用戶的反饋信息進行數(shù)據(jù)挖掘,可以得到大量有用的信息,如用戶對某產(chǎn)品的售后服務(wù)的滿意程度,如何改進產(chǎn)品的建議,產(chǎn)品常見問題待解決等等。目前的數(shù)據(jù)挖掘主要是對文本數(shù)據(jù)的挖掘,即利用用戶反饋的文本信息進行搜集、整理、數(shù)據(jù)篩選等處理,以便得到用戶反饋的信息成果,例如可以先通過論壇、投訴郵箱、投訴網(wǎng)站等平臺收集大量的反饋信息,再對這些收集的信息進行分類、分析,將分析結(jié)果報告給相關(guān)人員,相關(guān)人員根據(jù)報告做出相應(yīng)的具體策劃和針對性處理,最終根據(jù)策劃和針對性處理來改進相關(guān)產(chǎn)品。隨著市場競爭的越來越激烈,不斷要求以更快、更方便、更準確的數(shù)據(jù)挖掘方法來實現(xiàn)對產(chǎn)品反饋信息的收集、分析等處理,以實現(xiàn)對相關(guān)產(chǎn)品的更快、更好改進?,F(xiàn)有的數(shù)據(jù)挖掘方法主要有兩種,如圖1所示,一種是收錄用戶通過網(wǎng)頁、郵件輸入的文本信息,根據(jù)對這些信息的分析結(jié)果做出相應(yīng)的策劃和針對性處理;另一種是通過問卷調(diào)查的方式, 即用戶通過回答問卷來反饋信息,通過對問卷的統(tǒng)計進行信息的挖掘,從而做出相應(yīng)的策劃和針對性處理。然而,現(xiàn)有的數(shù)據(jù)挖掘方法都是基于網(wǎng)絡(luò)渠道的文本信息挖掘,并不涉及到電話/ 語音方面的語音數(shù)據(jù)挖掘方案,而電話/語音也是用戶比較常用的一種信息反饋方式。由于缺少對語音數(shù)據(jù)的挖掘方案,因此現(xiàn)有技術(shù)無法對用戶通過電話/語音反饋的信息進行較好的利用,這也不利于對相關(guān)產(chǎn)品的更快、更好改進。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種基于語音識別的數(shù)據(jù)挖掘方法和系統(tǒng),以實現(xiàn)對語音信息的數(shù)據(jù)挖掘。為達到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的本發(fā)明提供了一種基于語音識別的數(shù)據(jù)挖掘方法,該方法包括從語音文件數(shù)據(jù)庫中提取語音文件,并通過語音識別操作對提取的語音文件進行語義分析,將所述語音文件轉(zhuǎn)換為文本數(shù)據(jù);對轉(zhuǎn)換的文本數(shù)據(jù)進行數(shù)據(jù)挖掘,得到最終的可用數(shù)據(jù)。所述從語音文件數(shù)據(jù)庫中提取語音文件,具體為根據(jù)預設(shè)的查詢條件遍歷所述語音文件數(shù)據(jù)庫,提取符合所述查詢條件的語音文件。
所述對轉(zhuǎn)換的文本數(shù)據(jù)進行數(shù)據(jù)挖掘,得到最終的可用數(shù)據(jù),具體為預先設(shè)定數(shù)據(jù)挖掘的方向,并根據(jù)所述數(shù)據(jù)挖掘的方向預設(shè)分類集合;分別計算提取的每個語音文件所對應(yīng)的文本數(shù)據(jù)與預設(shè)分類集合的相關(guān)度,并對所述相關(guān)度的計算結(jié)果進行統(tǒng)計,得到最終的可用數(shù)據(jù)。所述數(shù)據(jù)挖掘的方向為以下至少一種產(chǎn)品分類、類型分類。所述相關(guān)度用浮點數(shù)表示,取值范圍在0到1之間。本發(fā)明還提供了一種基于語音識別的數(shù)據(jù)挖掘系統(tǒng),該系統(tǒng)包括語音文件數(shù)據(jù)庫,用于存儲語音文件;文件提取模塊,用于從語音文件數(shù)據(jù)庫中提取語音文件;語音識別模塊,用于通過語音識別操作對提取的語音文件進行語義分析,將所述語音文件轉(zhuǎn)換為文本數(shù)據(jù);數(shù)據(jù)挖掘模塊,用于對轉(zhuǎn)換的文本數(shù)據(jù)進行數(shù)據(jù)挖掘,得到最終的可用數(shù)據(jù)。所述文件提取模塊進一步用于,根據(jù)預設(shè)的查詢條件遍歷所述語音文件數(shù)據(jù)庫, 提取符合所述查詢條件的語音文件。所述數(shù)據(jù)挖掘模塊進一步用于,預先設(shè)定數(shù)據(jù)挖掘的方向,并根據(jù)所述數(shù)據(jù)挖掘的方向預設(shè)分類集合;分別計算提取的每個語音文件所對應(yīng)的文本數(shù)據(jù)與預設(shè)分類集合的相關(guān)度,并對所述相關(guān)度的計算結(jié)果進行統(tǒng)計,得到最終的可用數(shù)據(jù)。所述數(shù)據(jù)挖掘的方向為以下至少一種產(chǎn)品分類、類型分類。所述相關(guān)度用浮點數(shù)表示,取值范圍在0到1之間。本發(fā)明所提供的一種基于語音識別的數(shù)據(jù)挖掘方法和系統(tǒng),從語音文件數(shù)據(jù)庫中提取語音文件,并通過語音識別操作對提取的語音文件進行語義分析,將該語音文件轉(zhuǎn)換為文本數(shù)據(jù);對轉(zhuǎn)換的文本數(shù)據(jù)進行數(shù)據(jù)挖掘,得到最終的可用數(shù)據(jù)。本發(fā)明采用語音識別技術(shù)對語音信息進行數(shù)據(jù)挖掘,提高了語音渠道的客服數(shù)據(jù)統(tǒng)計的準確性,通過對語音數(shù)據(jù)的分析、統(tǒng)計,最終挖掘得到完整、準確的數(shù)據(jù)。
圖1為現(xiàn)有的數(shù)據(jù)挖掘示意圖;圖2為本發(fā)明一種基于語音識別的數(shù)據(jù)挖掘方法的流程圖;圖3為本發(fā)明實施例中基于語音識別的數(shù)據(jù)挖掘示意圖;圖4為本發(fā)明一種基于語音識別的數(shù)據(jù)挖掘系統(tǒng)的組成結(jié)構(gòu)示意圖。
具體實施例方式下面結(jié)合附圖和具體實施例對本發(fā)明的技術(shù)方案進一步詳細闡述。為實現(xiàn)對語音信息的數(shù)據(jù)挖掘,本發(fā)明提供的一種基于語音識別的數(shù)據(jù)挖掘方法,如圖2所示,主要包括以下步驟步驟201,從語音文件數(shù)據(jù)庫中提取語音文件,并通過語音識別操作對提取的語音文件進行語義分析,將該語音文件轉(zhuǎn)換為文本數(shù)據(jù)。語音文件數(shù)據(jù)庫是用于存儲語音文件的數(shù)據(jù)庫,例如在電話投訴中心的數(shù)據(jù)庫中,存儲的是用戶通過語音渠道反饋的產(chǎn)品相關(guān)信息(即電話錄音),該信息通常是以rm或mp3等音頻格式存儲在數(shù)據(jù)庫中的。其中,語音文件的提取可以根據(jù)預設(shè)的查詢條件來執(zhí)行,即根據(jù)預設(shè)的查詢條件遍歷語音文件數(shù)據(jù)庫,提取符合該查詢條件的語音文件;例如假設(shè)預設(shè)的查詢條件為“上一周的所有電話記錄”,那么語音文件的提取操作是遍歷語音文件數(shù)據(jù)庫,將該數(shù)據(jù)庫中符合“上一周的所有電話記錄”查詢條件的所有語音文件都提取出來。在提取語音文件之后, 可以通過語音識別操作對提取的語音文件進行語義分析,將該語音文件轉(zhuǎn)換為由自然語言組成的文本數(shù)據(jù),并對轉(zhuǎn)換的文本數(shù)據(jù)進行存儲。步驟202,對轉(zhuǎn)換的文本數(shù)據(jù)進行數(shù)據(jù)挖掘,得到最終的可用數(shù)據(jù)。具體的,可以預先設(shè)定數(shù)據(jù)挖掘的方向,并根據(jù)該數(shù)據(jù)挖掘的方向預設(shè)分類集合; 然后,分別計算提取的每個語音文件所對應(yīng)的文本數(shù)據(jù)與預設(shè)分類集合的相關(guān)度,并對該相關(guān)度的計算結(jié)果進行統(tǒng)計,進而得到最終的可用數(shù)據(jù)。關(guān)于文本數(shù)據(jù)與預設(shè)分類集合的相關(guān)度計算,以及計算結(jié)果的統(tǒng)計操作,將在后續(xù)的實施例中詳細說明。其中,數(shù)據(jù)挖掘的方向可以為以下至少一種產(chǎn)品分類、類型分類、滿意度分類等等。所謂產(chǎn)品分類,是指將上述文本數(shù)據(jù)按照產(chǎn)品的不同種類進行分類,例如區(qū)分哪些是屬于產(chǎn)品A的文本數(shù)據(jù),哪些是屬于產(chǎn)品B的文本數(shù)據(jù)等等。所謂類型分類,是指將上述文本數(shù)據(jù)按照內(nèi)容反映的不同類型進行分類,例如區(qū)分哪些是屬于用戶建議的文本數(shù)據(jù),哪些是屬于用戶投訴的文本數(shù)據(jù),哪些是屬于用戶表揚的文本數(shù)據(jù)等等。所謂滿意度分類,是指將上述文本數(shù)據(jù)按照內(nèi)容反映的用戶滿意度進行分類,例如區(qū)分哪些是表現(xiàn)用戶滿意的文本數(shù)據(jù),哪些是表現(xiàn)用戶不滿意的文本數(shù)據(jù)等等。需要說明的是,數(shù)據(jù)挖掘的方向并不僅限于上述所舉,可以根據(jù)實際需要進行擴展。另外,相關(guān)度的值可以用浮點數(shù)來表示,相關(guān)度的取值范圍在0到1之間,取值為 0表示完全不相關(guān),取值為1表示非常相關(guān)。下面以產(chǎn)品分類為例,對上述基于語音識別的數(shù)據(jù)挖掘方法進一步詳細闡述。如圖3所示,為本發(fā)明實施例中基于語音識別的數(shù)據(jù)挖掘示意圖,用戶通過撥打客服電話進行產(chǎn)品的相關(guān)信息反饋,電話投訴中心的服務(wù)器對電話內(nèi)容進行錄音,并將錄音得到的語音文件以rm或mp3的格式存儲在專門的語音文件數(shù)據(jù)庫中;隨后進行的數(shù)據(jù)挖掘操作具體包括以下步驟步驟1,預先設(shè)定提取語音文件時的查詢條件,以及預先設(shè)定數(shù)據(jù)挖掘的方向為產(chǎn)品分類,并預設(shè)產(chǎn)品分類的集合。例如預設(shè)的查詢條件為“上一周的所有電話記錄”;預設(shè)數(shù)據(jù)挖掘的方向為產(chǎn)品分類,且產(chǎn)品分類的集合A = {QQ直播、QQ游戲},則集合A即為包含兩個產(chǎn)品(QQ直播和 QQ游戲)的集合。步驟2,根據(jù)預設(shè)的查詢條件遍歷語音文件數(shù)據(jù)庫,提取符合該查詢條件的所有語音文件。接續(xù)上述舉例,當預設(shè)的查詢條件為“上一周的所有電話記錄”時,語音文件的提取操作是遍歷語音文件數(shù)據(jù)庫,將該數(shù)據(jù)庫中符合“上一周的所有電話記錄”查詢條件的所有語音文件都提取出來;可以以&來標識提取的各個語音文件。步驟3,通過語音識別操作對提取的各個語音文件Xi進行語義分析,將語音文件\ 轉(zhuǎn)換為由自然語言組成的文本數(shù)據(jù),并對該文本數(shù)據(jù)進行存儲。
實際應(yīng)用中,語音識別的技術(shù)有多種,本發(fā)明的實施例并不對語音識別的具體實現(xiàn)手段進行限定,將音頻格式的語音文件識別為由自然語言組成的文本數(shù)據(jù)的任何實現(xiàn)手段,應(yīng)當都屬于本發(fā)明的保護范圍內(nèi)。步驟4,分別計算各個語音文件\與預設(shè)產(chǎn)品分類的集合的相關(guān)度。首先,定義一個相關(guān)度向量a = [31,32],該向量是一個一維向量,其中,31表示& 對QQ直播的相關(guān)度,使用浮點數(shù)表示,取值范圍為0到1,0表示完全不相關(guān),1表示非常相關(guān);a2表示\對QQ游戲的相關(guān)度,使用浮點數(shù)表示,取值范圍為0到1,0表示完全不相關(guān), 1表示非常相關(guān)。隨后,采用向量概率統(tǒng)計的方式計算所得\對QQ直播的相關(guān)度、Xi對QQ 游戲的相關(guān)度分別寫入向量a中的al、a2。步驟5,對相關(guān)度的計算結(jié)果進行統(tǒng)計,進而得到最終的可用數(shù)據(jù)。對上述對應(yīng)各個\的相關(guān)度計算結(jié)果a進行數(shù)據(jù)統(tǒng)計,即可以得到用戶對產(chǎn)品集合中的各個產(chǎn)品(QQ直播、QQ游戲)的關(guān)注度信息,該關(guān)注度信息反映了用戶對各個產(chǎn)品的關(guān)注程度。參考該關(guān)注度信息,有利于進行有針對性的市場策劃。需要說明的是,以上是以產(chǎn)品分類為例進行的說明,通過基于產(chǎn)品分類的數(shù)據(jù)挖掘,可以獲得用戶對各個產(chǎn)品的關(guān)注度信息。對于基于類型分類、或基于滿意度分類的數(shù)據(jù)挖掘,其具體操作與前述類似,此處不再贅述?;陬愋头诸惖臄?shù)據(jù)挖掘,可以區(qū)分出用戶對產(chǎn)品的不同類型的反饋信息;基于滿意度分類的數(shù)據(jù)挖掘,可以獲得用戶對各個產(chǎn)品的滿意程度。對應(yīng)上述基于語音識別的數(shù)據(jù)挖掘方法,本發(fā)明還提供了一種基于語音識別的數(shù)據(jù)挖掘系統(tǒng),如圖4所示,該系統(tǒng)包括語音文件數(shù)據(jù)庫10、文件提取模塊20、語音識別模塊 30和數(shù)據(jù)挖掘模塊40。其中,語音文件數(shù)據(jù)庫10,用于存儲語音文件。文件提取模塊20, 連接語音文件數(shù)據(jù)庫10,用于從語音文件數(shù)據(jù)庫10中提取語音文件。語音識別模塊30,連接文件提取模塊20,用于通過語音識別操作對文件提取模塊20提取的語音文件進行語義分析,將該語音文件轉(zhuǎn)換為文本數(shù)據(jù)。數(shù)據(jù)挖掘模塊40,連接語音識別模塊30,用于對轉(zhuǎn)換的文本數(shù)據(jù)進行數(shù)據(jù)挖掘,得到最終的可用數(shù)據(jù)。較佳的,文件提取模塊20進一步用于,根據(jù)預設(shè)的查詢條件遍歷語音文件數(shù)據(jù)庫 10,從中提取符合該查詢條件的語音文件。較佳的,數(shù)據(jù)挖掘模塊40進一步用于,預先設(shè)定數(shù)據(jù)挖掘的方向,并根據(jù)該數(shù)據(jù)挖掘的方向預設(shè)分類集合;分別計算提取的每個語音文件所對應(yīng)的文本數(shù)據(jù)與預設(shè)分類集合的相關(guān)度,并對該相關(guān)度的計算結(jié)果進行統(tǒng)計,得到最終的可用數(shù)據(jù)。其中,數(shù)據(jù)挖掘的方向為以下至少一種產(chǎn)品分類、類型分類、滿意度分類等等。相關(guān)度可以用浮點數(shù)表示,取值范圍在0到1之間,取值為0表示完全不相關(guān),取值為1表示非常相關(guān)。綜上所述,本發(fā)明從語音文件數(shù)據(jù)庫中提取語音文件,然后通過語音識別系統(tǒng)對這些語音文件進行語義分析,轉(zhuǎn)化為由自然語言組成的文本數(shù)據(jù)后存儲;再通過自然語言處理和語義分析的系統(tǒng)對這些數(shù)據(jù)進行分句、分詞后,從這些數(shù)中挖掘出可用的數(shù)據(jù),刪除無用的數(shù)據(jù)后再次存儲,最終再由人工對存儲的數(shù)據(jù)進行處理。本發(fā)明通過采用基于語音識別的數(shù)據(jù)挖掘,提高了語音渠道的客服數(shù)據(jù)統(tǒng)計的準確性,通過對語音數(shù)據(jù)的分析、統(tǒng)計,最終挖掘得到完整、準確的數(shù)據(jù)。
以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。
權(quán)利要求
1.一種基于語音識別的數(shù)據(jù)挖掘方法,其特征在于,該方法包括從語音文件數(shù)據(jù)庫中提取語音文件,并通過語音識別操作對提取的語音文件進行語義分析,將所述語音文件轉(zhuǎn)換為文本數(shù)據(jù);對轉(zhuǎn)換的文本數(shù)據(jù)進行數(shù)據(jù)挖掘,得到最終的可用數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述基于語音識別的數(shù)據(jù)挖掘方法,其特征在于,所述從語音文件數(shù)據(jù)庫中提取語音文件,具體為根據(jù)預設(shè)的查詢條件遍歷所述語音文件數(shù)據(jù)庫,提取符合所述查詢條件的語音文件。
3.根據(jù)權(quán)利要求1或2所述基于語音識別的數(shù)據(jù)挖掘方法,其特征在于,所述對轉(zhuǎn)換的文本數(shù)據(jù)進行數(shù)據(jù)挖掘,得到最終的可用數(shù)據(jù),具體為預先設(shè)定數(shù)據(jù)挖掘的方向,并根據(jù)所述數(shù)據(jù)挖掘的方向預設(shè)分類集合;分別計算提取的每個語音文件所對應(yīng)的文本數(shù)據(jù)與預設(shè)分類集合的相關(guān)度,并對所述相關(guān)度的計算結(jié)果進行統(tǒng)計,得到最終的可用數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述基于語音識別的數(shù)據(jù)挖掘方法,其特征在于,所述數(shù)據(jù)挖掘的方向為以下至少一種產(chǎn)品分類、類型分類。
5.根據(jù)權(quán)利要求3所述基于語音識別的數(shù)據(jù)挖掘方法,其特征在于,所述相關(guān)度用浮點數(shù)表示,取值范圍在0到1之間。
6.一種基于語音識別的數(shù)據(jù)挖掘系統(tǒng),其特征在于,該系統(tǒng)包括語音文件數(shù)據(jù)庫,用于存儲語音文件;文件提取模塊,用于從語音文件數(shù)據(jù)庫中提取語音文件;語音識別模塊,用于通過語音識別操作對提取的語音文件進行語義分析,將所述語音文件轉(zhuǎn)換為文本數(shù)據(jù);數(shù)據(jù)挖掘模塊,用于對轉(zhuǎn)換的文本數(shù)據(jù)進行數(shù)據(jù)挖掘,得到最終的可用數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述基于語音識別的數(shù)據(jù)挖掘系統(tǒng),其特征在于,所述文件提取模塊進一步用于,根據(jù)預設(shè)的查詢條件遍歷所述語音文件數(shù)據(jù)庫,提取符合所述查詢條件的語音文件。
8.根據(jù)權(quán)利要求6或7所述基于語音識別的數(shù)據(jù)挖掘系統(tǒng),其特征在于,所述數(shù)據(jù)挖掘模塊進一步用于,預先設(shè)定數(shù)據(jù)挖掘的方向,并根據(jù)所述數(shù)據(jù)挖掘的方向預設(shè)分類集合;分別計算提取的每個語音文件所對應(yīng)的文本數(shù)據(jù)與預設(shè)分類集合的相關(guān)度,并對所述相關(guān)度的計算結(jié)果進行統(tǒng)計,得到最終的可用數(shù)據(jù)。
9.根據(jù)權(quán)利要求8所述基于語音識別的數(shù)據(jù)挖掘系統(tǒng),其特征在于,所述數(shù)據(jù)挖掘的方向為以下至少一種產(chǎn)品分類、類型分類。
10.根據(jù)權(quán)利要求8所述基于語音識別的數(shù)據(jù)挖掘系統(tǒng),其特征在于,所述相關(guān)度用浮點數(shù)表示,取值范圍在0到1之間。
全文摘要
本發(fā)明公開了一種語音識別的數(shù)據(jù)挖掘方法和系統(tǒng),方法包括從語音文件數(shù)據(jù)庫中提取語音文件,并通過語音識別操作對提取的語音文件進行語義分析,將該語音文件轉(zhuǎn)換為文本數(shù)據(jù);對轉(zhuǎn)換的文本數(shù)據(jù)進行數(shù)據(jù)挖掘,得到最終的可用數(shù)據(jù)。通過本發(fā)明的方法和系統(tǒng),實現(xiàn)了對語音信息的數(shù)據(jù)挖掘,并提高了語音渠道的客服數(shù)據(jù)統(tǒng)計的準確性。
文檔編號G10L15/08GK102419975SQ20101029559
公開日2012年4月18日 申請日期2010年9月27日 優(yōu)先權(quán)日2010年9月27日
發(fā)明者劉致遠 申請人:深圳市騰訊計算機系統(tǒng)有限公司