亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種語音處理方法及裝置與流程

文檔序號(hào):12128583閱讀:231來源:國(guó)知局
一種語音處理方法及裝置與流程
本發(fā)明涉及自然語言處理和語音信號(hào)處理領(lǐng)域,尤其是涉及一種語音處理方法及裝置。
背景技術(shù)
:當(dāng)前隨著智能硬件的快速發(fā)展及存儲(chǔ)設(shè)備容量的不斷提高,越來越多的人使用錄音來記錄信息,如會(huì)議錄音、采訪錄音等。對(duì)于一些重要的會(huì)議、采訪或通話等錄音,經(jīng)常會(huì)包含一些特殊內(nèi)容,如敏感信息,進(jìn)一步例如說話人的個(gè)人隱私信息等。以說話人的錄音中包含隱私信息為例,在該錄音向外傳播時(shí),其他人聽到該錄音后,有可能憑借其中所含的隱私信息而辨認(rèn)出說話人身份,或者得到說話人的個(gè)人隱私,如說話人的住址、工作單位等。這些隱私信息一旦通過錄音遭到泄露,則可能會(huì)對(duì)說話人造成很多不利影響,損壞說話人的權(quán)益。也正因?yàn)檎f話人的錄音中可能包含了隱私信息,導(dǎo)致很多錄音數(shù)據(jù)無法作為通用信息,存在顧忌,例如無法公開、無法上傳、無法分享等,從而阻礙了語音數(shù)據(jù)的傳播。為了使錄制的語音數(shù)據(jù)更具有通用性,降低對(duì)說話人的影響,現(xiàn)有技術(shù)中一般采用對(duì)語音數(shù)據(jù)進(jìn)行變聲的處理,改變說話人的音色或語速,以達(dá)到保護(hù)說話人隱私的目的。然而,發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中發(fā)現(xiàn),這些方法僅僅是對(duì)聲音本身做了處理,讓人很難從聲音分辨出說話人的身份,但是,說話人所說的內(nèi)容卻無法受到保護(hù),說話人的隱私依然會(huì)從錄音內(nèi)容中被泄露??梢姮F(xiàn)有技術(shù)中并未能很好的處理錄音數(shù)據(jù)中的隱私問題,所以仍未解決隱私信息等內(nèi)容對(duì)語音數(shù)據(jù)傳播所造成的阻礙。技術(shù)實(shí)現(xiàn)要素:本發(fā)明提供一種語音處理方法及裝置,以解決語音數(shù)據(jù)在傳播時(shí)因內(nèi)容而存在阻礙或顧忌的問題。根據(jù)本發(fā)明實(shí)施例的第一方面,提供一種語音處理方法,所述方法包括:獲取語音數(shù)據(jù);將所述語音數(shù)據(jù)轉(zhuǎn)換為文本信息;根據(jù)預(yù)設(shè)規(guī)則,識(shí)別出所述文本信息中所包含的目標(biāo)信息;對(duì)所述語音數(shù)據(jù)中與所述目標(biāo)信息相對(duì)應(yīng)的語音片段進(jìn)行預(yù)設(shè)處理。可選的,所述目標(biāo)信息包括說話人的隱私信息;根據(jù)預(yù)設(shè)規(guī)則,識(shí)別出所述文本信息中所包含的目標(biāo)信息,包括:對(duì)于所述文本信息中每句文本,獲取當(dāng)前句的隱私特征,其中當(dāng)前句的隱私特征與當(dāng)前句中所含有的隱私詞的數(shù)量正相關(guān);根據(jù)預(yù)先構(gòu)建的隱私句檢測(cè)模型及當(dāng)前句的隱私特征,判斷當(dāng)前句是否為隱私句;如果當(dāng)前句為隱私句,則根據(jù)預(yù)先構(gòu)建的隱私詞表,將當(dāng)前句中的隱私詞標(biāo)記為所述目標(biāo)信息??蛇x的,獲取當(dāng)前句的隱私特征,包括:獲取當(dāng)前句中每個(gè)詞的詞向量;根據(jù)所述隱私詞表及所述隱私句檢測(cè)模型的訓(xùn)練數(shù)據(jù),獲取當(dāng)前句中每個(gè)詞的隱私系數(shù);根據(jù)當(dāng)前句中每個(gè)詞的詞向量與隱私系數(shù)乘積的和,獲取當(dāng)前句的隱私特征??蛇x的,根據(jù)所述隱私詞表及所述隱私句判定模型的訓(xùn)練數(shù)據(jù),獲取當(dāng)前句中每個(gè)詞的隱私系數(shù),包括:在所述隱私詞表中查找當(dāng)前詞;如果在所述隱私詞表中未查到當(dāng)前詞,則根據(jù)隱私句檢測(cè)模型的訓(xùn)練數(shù)據(jù)及當(dāng)前詞在當(dāng)前句中出現(xiàn)的次數(shù)計(jì)算當(dāng)前詞的隱私系數(shù);如果在所述隱私詞表中查到當(dāng)前詞,則將當(dāng)前詞的隱私系數(shù)設(shè)置為隱私系數(shù)取值的最大值。可選的,所述目標(biāo)信息包括說話人的習(xí)慣用語;根據(jù)預(yù)設(shè)規(guī)則,識(shí)別出所述文本信息中所包含的目標(biāo)信息,包括:對(duì)于所述文本信息中每句文本,獲取當(dāng)前句中當(dāng)前詞的習(xí)慣用語特征,其中所述習(xí)慣用語特征包括以下特征中的至少一種:當(dāng)前詞的詞向量、當(dāng)前詞包含的字?jǐn)?shù)、當(dāng)前詞在當(dāng)前句中出現(xiàn)的次數(shù)、當(dāng)前詞在當(dāng)前句中重復(fù)出現(xiàn)的平均間隔距離;根據(jù)當(dāng)前詞的習(xí)慣用語特征及預(yù)先構(gòu)建的習(xí)慣用語檢測(cè)模型,判斷當(dāng)前詞是否為說話人的習(xí)慣用語;如果當(dāng)前詞是說話人的習(xí)慣用語,則將當(dāng)前詞標(biāo)記為所述目標(biāo)信息??蛇x的,當(dāng)所述習(xí)慣用語特征包括當(dāng)前詞在當(dāng)前句中重復(fù)出現(xiàn)的平均間隔距離時(shí),獲取當(dāng)前詞在當(dāng)前句中重復(fù)出現(xiàn)的平均間隔距離,包括:獲取當(dāng)前詞在當(dāng)前句中每次出現(xiàn)的位置;計(jì)算相鄰兩個(gè)所述位置之間的距離;將所述距離的平均值作為所述平均間隔距離??蛇x的,對(duì)所述語音數(shù)據(jù)中與所述目標(biāo)信息相對(duì)應(yīng)的語音片段進(jìn)行預(yù)設(shè)處理,包括:刪除所述語音片段;或者,將所述語音片段中人聲與背景音分離后,將人聲濾除,僅保留背景音;或者,對(duì)所述語音片段進(jìn)行快進(jìn)處理。根據(jù)本發(fā)明實(shí)施例的第二方面,提供一種語音處理裝置,所述裝置包括:語音獲取模塊,用于獲取語音數(shù)據(jù);文本轉(zhuǎn)換模塊,用于將所述語音數(shù)據(jù)轉(zhuǎn)換為文本信息;信息識(shí)別模塊,用于根據(jù)預(yù)設(shè)規(guī)則,識(shí)別出所述文本信息中所包含的目標(biāo)信息;語音處理模塊,用于對(duì)所述語音數(shù)據(jù)中與所述目標(biāo)信息相對(duì)應(yīng)的語音片段進(jìn)行預(yù)設(shè)處理??蛇x的,所述目標(biāo)信息包括說話人的隱私信息;所述信息識(shí)別模塊包括:隱私特征獲取子模塊,用于對(duì)于所述文本信息中每句文本,獲取當(dāng)前句的隱私特征,其中當(dāng)前句的隱私特征與當(dāng)前句中所含有的隱私詞的數(shù)量正相關(guān);隱私句判斷子模塊,用于根據(jù)預(yù)先構(gòu)建的隱私句檢測(cè)模型及當(dāng)前句的隱私特征,判斷當(dāng)前句是否為隱私句;隱私句處理子模塊,用于當(dāng)當(dāng)前句為隱私句時(shí),根據(jù)預(yù)先構(gòu)建的隱私詞表,將當(dāng)前句中的隱私詞標(biāo)記為所述目標(biāo)信息??蛇x的,所述隱私特征獲取子模塊用于:獲取當(dāng)前句中每個(gè)詞的詞向量;根據(jù)所述隱私詞表及所述隱私句檢測(cè)模型的訓(xùn)練數(shù)據(jù),獲取當(dāng)前句中每個(gè)詞的隱私系數(shù);根據(jù)當(dāng)前句中每個(gè)詞的詞向量與隱私系數(shù)乘積的和,獲取當(dāng)前句的隱私特征。可選的,所述隱私特征獲取子模塊在根據(jù)所述隱私詞表及所述隱私句判定模型的訓(xùn)練數(shù)據(jù),獲取當(dāng)前句中每個(gè)詞的隱私系數(shù)時(shí),用于:在所述隱私詞表中查找當(dāng)前詞;如果在所述隱私詞表中未查到當(dāng)前詞,則根據(jù)隱私句檢測(cè)模型的訓(xùn)練數(shù)據(jù)及當(dāng)前詞在當(dāng)前句中出現(xiàn)的次數(shù)計(jì)算當(dāng)前詞的隱私系數(shù);如果在所述隱私詞表中查到當(dāng)前詞,則將當(dāng)前詞的隱私系數(shù)設(shè)置為隱私系數(shù)取值的最大值??蛇x的,所述目標(biāo)信息包括說話人的習(xí)慣用語;所述信息識(shí)別模塊包括:習(xí)慣用語特征獲取子模塊,用于對(duì)于所述文本信息中每句文本,獲取當(dāng)前句中當(dāng)前詞的習(xí)慣用語特征,其中所述習(xí)慣用語特征包括以下特征中的至少一種:當(dāng)前詞的詞向量、當(dāng)前詞包含的字?jǐn)?shù)、當(dāng)前詞在當(dāng)前句中出現(xiàn)的次數(shù)、當(dāng)前詞在當(dāng)前句中重復(fù)出現(xiàn)的平均間隔距離;習(xí)慣用語判斷子模塊,用于根據(jù)當(dāng)前詞的習(xí)慣用語特征及預(yù)先構(gòu)建的習(xí)慣用語檢測(cè)模型,判斷當(dāng)前詞是否為說話人的習(xí)慣用語;習(xí)慣用語處理子模塊,用于當(dāng)當(dāng)前詞是說話人的習(xí)慣用語時(shí),將當(dāng)前詞標(biāo)記為所述目標(biāo)信息??蛇x的,當(dāng)所述習(xí)慣用語特征包括當(dāng)前詞在當(dāng)前句中重復(fù)出現(xiàn)的平均間隔距離時(shí),所述習(xí)慣用語特征獲取子模塊用于:獲取當(dāng)前詞在當(dāng)前句中每次出現(xiàn)的位置;計(jì)算相鄰兩個(gè)所述位置之間的距離;將所述距離的平均值作為所述平均間隔距離??蛇x的,所述語音處理模塊用于:刪除所述語音片段;或者,將所述語音片段中人聲與背景音分離后,將人聲濾除,僅保留背景音;或者,對(duì)所述語音片段進(jìn)行快進(jìn)處理。本發(fā)明的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:在本發(fā)明實(shí)施例中,將語音數(shù)據(jù)轉(zhuǎn)換為文本信息后,可根據(jù)預(yù)設(shè)規(guī)則識(shí)別出文本信息中所包含的說話人隱私等目標(biāo)信息,然后對(duì)所述語音數(shù)據(jù)中與所述目標(biāo)信息相對(duì)應(yīng)的語音片段進(jìn)行預(yù)設(shè)處理,例如刪除該語音片段等。這樣便使說話人隱私等目標(biāo)信息的內(nèi)容無法被別人獲知,保護(hù)了說話人的權(quán)益,從而消除了語音數(shù)據(jù)在傳播過程中的顧慮和阻礙,實(shí)現(xiàn)了隱私保護(hù)與語音傳播的兼顧。應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本發(fā)明。附圖說明為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,對(duì)于本領(lǐng)域普通技術(shù)人員而言,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。此外,這些介紹并不構(gòu)成對(duì)實(shí)施例的限定,附圖中具有相同參考數(shù)字標(biāo)號(hào)的元件表示為類似的元件,除非有特別申明,附圖中的圖不構(gòu)成比例限制。圖1是根據(jù)本發(fā)明一示例性實(shí)施例示出的一種語音處理方法的流程圖;圖2是根據(jù)本發(fā)明一示例性實(shí)施例示出的一種語音處理方法的流程圖;圖3是根據(jù)本發(fā)明一示例性實(shí)施例示出的一種語音處理方法的流程圖;圖4是根據(jù)本發(fā)明一示例性實(shí)施例示出的一種語音處理方法的流程圖;圖5是根據(jù)本發(fā)明一示例性實(shí)施例示出的一種語音處理裝置的示意圖;圖6是根據(jù)本發(fā)明一示例性實(shí)施例示出的一種語音處理裝置的示意圖;圖7是根據(jù)本發(fā)明一示例性實(shí)施例示出的一種語音處理裝置的示意圖。具體實(shí)施方式這里將詳細(xì)地對(duì)示例性實(shí)施例進(jìn)行說明,其示例表示在附圖中。下面的描述涉及附圖時(shí),除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實(shí)施例中所描述的實(shí)施方式并不代表與本發(fā)明相一致的所有實(shí)施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。圖1是根據(jù)本發(fā)明一示例性實(shí)施例示出的一種語音處理方法的流程圖。作為示例該方法可用于手機(jī)、錄音機(jī)、平板電腦、臺(tái)式機(jī)電腦、筆記本電腦、服務(wù)器等設(shè)備。參見圖1所示,該方法可以包括如下步驟:步驟S101,獲取語音數(shù)據(jù)。例如,語音數(shù)據(jù)可以是采訪錄音或會(huì)議錄音等。這些錄音中可能包含一些特殊信息如敏感信息,進(jìn)一步例如說話人的隱私等,當(dāng)其他人聽錄音時(shí)聽到這些特殊信息后,可能會(huì)給說話人帶來不利影響,損壞說話人的權(quán)益。步驟S102,將所述語音數(shù)據(jù)轉(zhuǎn)換為文本信息。作為示例,可以使用語音識(shí)別技術(shù)將語音轉(zhuǎn)換為文本信息。容易理解的是,在將語音轉(zhuǎn)換為文本信息的過程中,需要為文本添加標(biāo)點(diǎn)。例如添加的標(biāo)點(diǎn)主要可以包括頓號(hào)“、”、逗號(hào)“,”、句號(hào)“?!?、問號(hào)“?”及感嘆號(hào)“!”等。在本發(fā)明中,一般將句號(hào)“?!?、問號(hào)“?”或感嘆號(hào)“!”作為一句話的結(jié)束標(biāo)點(diǎn)。具體添加時(shí),例如可以使用長(zhǎng)短時(shí)記憶模型(LSTM)為文本添加標(biāo)點(diǎn)。另外,為了使添加的標(biāo)點(diǎn)更準(zhǔn)確,可以設(shè)置語音段間與段中添加標(biāo)點(diǎn)的閾值,如語音段間添加標(biāo)點(diǎn)的閾值設(shè)置小一些,語音段中添加標(biāo)點(diǎn)的閾值設(shè)置大一些,從而增加語音段間添加標(biāo)點(diǎn)的可能性,降低語音段中添加標(biāo)點(diǎn)的可能性。對(duì)于語音識(shí)別技術(shù)以及添加標(biāo)點(diǎn)的具體處理技術(shù),本實(shí)施例不再贅述。此外,為了使接下來的處理時(shí)更準(zhǔn)確,還可以在轉(zhuǎn)換為文本信息時(shí)或轉(zhuǎn)換為文本信息之后,對(duì)文本信息進(jìn)行規(guī)整處理,例如:1)文本過濾:主要是過濾掉文本中錯(cuò)誤、異常的詞語,可以根據(jù)詞語置信度以及句法分析的結(jié)果來過濾。2)數(shù)字規(guī)整:由于語音識(shí)別的文本結(jié)果中所有數(shù)字可能都是用中文表示的,而有些數(shù)字要用阿拉伯?dāng)?shù)字表示才符合用戶的閱讀習(xí)慣,如二十八點(diǎn)五元,應(yīng)該表示為28.5元。數(shù)字規(guī)整即將一些中文數(shù)字轉(zhuǎn)換成阿拉伯?dāng)?shù)字,例如可采用基于ABNF文法的方法。3)文本替換:例如可以進(jìn)行英文大小寫之間的替換,如“ibm”替換為“IBM”,等等。步驟S103,根據(jù)預(yù)設(shè)規(guī)則,識(shí)別出所述文本信息中所包含的目標(biāo)信息。目標(biāo)信息例如可以為敏感信息,進(jìn)一步例如可以為說話人的隱私或者違法信息(如“搖頭丸”),等等。對(duì)于目標(biāo)信息的具體內(nèi)容,本實(shí)施例無需進(jìn)行限制。可以預(yù)先為識(shí)別這些目標(biāo)信息而制定預(yù)設(shè)規(guī)則,對(duì)于預(yù)設(shè)規(guī)則的具體內(nèi)容本實(shí)施例也并不進(jìn)行限制,本領(lǐng)域技術(shù)人員可以根據(jù)不同需求\不同場(chǎng)景而自行選擇、設(shè)計(jì),可以在此處使用的這些選擇和設(shè)計(jì)都沒有背離本發(fā)明的精神和保護(hù)范圍。步驟S104,對(duì)所述語音數(shù)據(jù)中與所述目標(biāo)信息相對(duì)應(yīng)的語音片段進(jìn)行預(yù)設(shè)處理。例如,可以為文本信息中的每個(gè)字或每個(gè)詞添加時(shí)間戳,以指示該字或該詞在語音數(shù)據(jù)中所對(duì)應(yīng)的語音片段。當(dāng)時(shí)識(shí)別出目標(biāo)信息之后,便可以確定相應(yīng)的語音片段(這些相應(yīng)的語音片段可稱為目標(biāo)語音片段),然后進(jìn)行預(yù)設(shè)處理,例如模糊或屏蔽目標(biāo)語音片段,從而使得其他人無法聽到目標(biāo)語音片段的內(nèi)容,進(jìn)而達(dá)到了保護(hù)說話人隱私等權(quán)益的目的。具體如何對(duì)目標(biāo)語音片段進(jìn)行處理,本實(shí)施例并不進(jìn)行限制。作為示例,對(duì)所述語音數(shù)據(jù)中與所述目標(biāo)信息相對(duì)應(yīng)的語音片段進(jìn)行預(yù)設(shè)處理,即步驟S104,可以包括:刪除所述語音片段;或者,將所述語音片段中人聲與背景音分離后,將人聲濾除,僅保留背景音;或者,對(duì)所述語音片段進(jìn)行快進(jìn)處理。等等。在本實(shí)施例中,將語音數(shù)據(jù)轉(zhuǎn)換為文本信息后,可根據(jù)預(yù)設(shè)規(guī)則識(shí)別出文本信息中所包含的說話人隱私等目標(biāo)信息,然后對(duì)所述語音數(shù)據(jù)中與所述目標(biāo)信息相對(duì)應(yīng)的語音片段進(jìn)行預(yù)設(shè)處理,例如刪除該語音片段等。這樣便使說話人隱私等目標(biāo)信息的內(nèi)容無法被別人獲知,保護(hù)了說話人的權(quán)益,從而消除了語音數(shù)據(jù)在傳播過程中的顧慮和阻礙,實(shí)現(xiàn)了隱私保護(hù)與語音傳播的兼顧。下面對(duì)與目標(biāo)信息的內(nèi)容及識(shí)別方法進(jìn)一步舉例說明:在本實(shí)施例或本發(fā)明其他某些實(shí)施例中,作為一種示例,所述目標(biāo)信息可以包括說話人的隱私信息。相應(yīng)的參見圖2所示,根據(jù)預(yù)設(shè)規(guī)則,識(shí)別出所述文本信息中所包含的目標(biāo)信息,即步驟S103,可以包括:步驟S201,對(duì)于所述文本信息中每句文本,獲取當(dāng)前句的隱私特征,其中當(dāng)前句的隱私特征與當(dāng)前句中所含有的隱私詞的數(shù)量正相關(guān)。例如,隱私詞可以為與以下至少一項(xiàng)內(nèi)容相關(guān)的詞語:姓名、身份、住址、工作單位、銀行卡號(hào)、密碼、電話號(hào)碼、社交賬號(hào),等等。作為示例,隱私特征可以使用多維向量來表示,具體維數(shù)可以與句子中每個(gè)詞的詞向量的維數(shù)相同。每句文本數(shù)據(jù)中包含的隱私詞越多,該句的隱私特征的取值就越大。容易理解的是,當(dāng)隱私特征用向量表示時(shí),隱私特征的取值可以為向量的模。步驟S202,根據(jù)預(yù)先構(gòu)建的隱私句檢測(cè)模型及當(dāng)前句的隱私特征,判斷當(dāng)前句是否為隱私句。隱私句檢測(cè)模型可以預(yù)先通過收集大量訓(xùn)練數(shù)據(jù)而訓(xùn)練得到。訓(xùn)練數(shù)據(jù)可以為會(huì)議錄音、采訪錄音等語音數(shù)據(jù)所對(duì)應(yīng)的文本數(shù)據(jù)等,當(dāng)然也可以根據(jù)應(yīng)用需求收集特定領(lǐng)域的文本數(shù)據(jù)。在訓(xùn)練時(shí),先對(duì)所收集的文本數(shù)據(jù)以句為單位進(jìn)行隱私句標(biāo)注,即標(biāo)注當(dāng)前句是否為隱私句,如果是,標(biāo)注為1,否則,則標(biāo)注為0,同時(shí)提取每句文本數(shù)據(jù)的隱私特征;然后將每句文本數(shù)據(jù)的隱私特征及相應(yīng)標(biāo)注結(jié)果作為訓(xùn)練數(shù)據(jù),訓(xùn)練得到隱私句檢測(cè)模型。具體訓(xùn)練時(shí),將每句文本數(shù)據(jù)的隱私特征作為隱私句檢測(cè)模型的輸入,輸出為當(dāng)前句文本數(shù)據(jù)是否為隱私句。隱私句檢測(cè)模型可以使用模式識(shí)別中常用的分類模型,如支持向量機(jī)模型、神經(jīng)網(wǎng)絡(luò)模型等,對(duì)此本實(shí)施例不進(jìn)行限制。當(dāng)隱私句檢測(cè)模型訓(xùn)練完成后,以句為單位,將當(dāng)前句待判別文本數(shù)據(jù)的隱私特征作為隱私句檢測(cè)模型的輸入,進(jìn)行判定,從而得到當(dāng)前句是否為隱私句的判定結(jié)果。步驟S203,如果當(dāng)前句為隱私句,則根據(jù)預(yù)先構(gòu)建的隱私詞表,將當(dāng)前句中的隱私詞標(biāo)記為所述目標(biāo)信息。例如可以依次查找隱私句中每個(gè)詞在隱私表中是否存在,如果存在,則認(rèn)為當(dāng)前詞是隱私詞,并在隱私句中將當(dāng)前詞標(biāo)記為目標(biāo)信息;否則,不是隱私詞,不需要標(biāo)記?;蛘咭部梢栽陔[私句中將人名、地名、組織機(jī)構(gòu)名等命名實(shí)體作為隱私詞,可以使用命名實(shí)體檢測(cè)算法檢測(cè)出隱私句中的命名實(shí)體,并予以標(biāo)記。此外在隱私句檢測(cè)時(shí),為了防止出現(xiàn)一句文本數(shù)據(jù)太短的情況,可以預(yù)先設(shè)定每句文本數(shù)據(jù)包含的最低字?jǐn)?shù),如最低包含15字,在每句文本數(shù)據(jù)包含最低字?jǐn)?shù)的前提下,結(jié)合標(biāo)點(diǎn)進(jìn)行隱私句的劃分,如從當(dāng)前字開始,依次遍歷文本數(shù)據(jù)中每個(gè)字,統(tǒng)計(jì)相應(yīng)字?jǐn)?shù),當(dāng)字?jǐn)?shù)達(dá)到每句文本數(shù)據(jù)包含的最低字?jǐn)?shù)時(shí),下次遇到標(biāo)點(diǎn)符號(hào)時(shí),則直接將當(dāng)前字到該標(biāo)點(diǎn)符號(hào)位置的語句作為一句文本數(shù)據(jù)。所述標(biāo)點(diǎn)符號(hào)一般考慮句號(hào)“?!?、嘆號(hào)“!”、問號(hào)“?”,當(dāng)然也可以考慮其它標(biāo)點(diǎn)符號(hào),如逗號(hào)“,”,具體本發(fā)明實(shí)施例不作限定。參見圖3所示,在本實(shí)施例或本發(fā)明其他某些實(shí)施例中,獲取當(dāng)前句的隱私特征,即步驟S201,可以包括:步驟S301,獲取當(dāng)前句中每個(gè)詞的詞向量。將每句文本數(shù)據(jù)包含的詞進(jìn)行向量化后,可以得到每個(gè)詞對(duì)應(yīng)的詞向量。例如可以使用word2vec等技術(shù)將文本數(shù)據(jù)中的每個(gè)詞向量化,對(duì)此本實(shí)施例不再贅述。步驟S302,根據(jù)所述隱私詞表及所述隱私句檢測(cè)模型的訓(xùn)練數(shù)據(jù),獲取當(dāng)前句中每個(gè)詞的隱私系數(shù)。每個(gè)詞的隱私系數(shù)用于指示每個(gè)詞為隱私詞的可能程度。例如可以通過如下方式獲取當(dāng)前詞(也即當(dāng)前句中的第i個(gè)詞)的隱私系數(shù):在所述隱私詞表中查找當(dāng)前詞;如果在所述隱私詞表中未查到當(dāng)前詞,則根據(jù)隱私句檢測(cè)模型的訓(xùn)練數(shù)據(jù)及當(dāng)前詞在當(dāng)前句中出現(xiàn)的次數(shù)計(jì)算當(dāng)前詞的隱私系數(shù),例如根據(jù)公式:獲取當(dāng)前詞的隱私系數(shù)αi,其中ni為當(dāng)前詞在當(dāng)前句中出現(xiàn)的次數(shù),n為當(dāng)前句中總詞數(shù),di為所述隱私句檢測(cè)模型的訓(xùn)練數(shù)據(jù)中包含當(dāng)前詞的文本總數(shù),a為防止分母為零的常數(shù)(取值較小,例如可以為0.000001),D為隱私句檢測(cè)模型的訓(xùn)練數(shù)據(jù)所含的文本總數(shù);如果在所述隱私詞表中查到當(dāng)前詞,則將當(dāng)前詞的隱私系數(shù)設(shè)置為隱私系數(shù)取值的最大值,即Max{ai}。步驟S303,根據(jù)當(dāng)前句中每個(gè)詞的詞向量與隱私系數(shù)乘積的和,獲取當(dāng)前句的隱私特征。即可以根據(jù)公式獲取當(dāng)前句的隱私特征Ws,其中,wi為當(dāng)前句包含的第i個(gè)詞的詞向量,αi為第i個(gè)詞的隱私系數(shù)。在本實(shí)施例或本發(fā)明其他某些實(shí)施例中,作為另一種示例,所述目標(biāo)信息也可以包括說話人的習(xí)慣用語。說話人的習(xí)慣用語例如可以為說話人的口頭禪、說話人常用語氣詞或說話人常用詞等。一般口頭禪、語氣詞及常用詞在句子中出現(xiàn)次數(shù)通常比普通詞多,通過這些習(xí)慣用語往往很容易辨認(rèn)說話人的身份,故說話人的習(xí)慣用語也涉及到說話人的隱私問題。參見圖4所示,根據(jù)預(yù)設(shè)規(guī)則,識(shí)別出所述文本信息中所包含的目標(biāo)信息,也即步驟S103,可以包括:步驟S401,對(duì)于所述文本信息中每句文本,獲取當(dāng)前句中當(dāng)前詞的習(xí)慣用語特征,其中所述習(xí)慣用語特征包括以下特征中的至少一種:當(dāng)前詞的詞向量、當(dāng)前詞包含的字?jǐn)?shù)、當(dāng)前詞在當(dāng)前句中出現(xiàn)的次數(shù)、當(dāng)前詞在當(dāng)前句中重復(fù)出現(xiàn)的平均間隔距離。若當(dāng)前詞在當(dāng)前句中重復(fù)出現(xiàn),則可以獲得相鄰兩次出現(xiàn)時(shí)的間隔距離(例如間隔距離可以使用間隔的字?jǐn)?shù)來表示),這些間隔距離的均值即平均間隔距離。具體的,當(dāng)所述習(xí)慣用語特征包括當(dāng)前詞在當(dāng)前句中重復(fù)出現(xiàn)的平均間隔距離時(shí),獲取當(dāng)前詞在當(dāng)前句中重復(fù)出現(xiàn)的平均間隔距離,可以包括:獲取當(dāng)前詞在當(dāng)前句中每次出現(xiàn)的位置;計(jì)算相鄰兩個(gè)所述位置之間的距離;將所述距離的平均值作為所述平均間隔距離。例如可根據(jù)公式:獲取當(dāng)前詞在當(dāng)前句中重復(fù)出現(xiàn)的平均間隔距離其中,wi為當(dāng)前詞在當(dāng)前句中第i次出現(xiàn)時(shí)的位置,N為當(dāng)前詞在當(dāng)前句子中出現(xiàn)的次數(shù)。舉例來講,假設(shè)當(dāng)前句的內(nèi)容為“嗯,是的,嗯嗯你完全可以這么說,嗯這也是事實(shí)”當(dāng)前詞為“嗯”,則可以得到下表:嗯,是的,嗯嗯你完全可以這么說,嗯這也是事實(shí)。0123456789101112131415161718W0W1W2W3該表的第二行表示每個(gè)詞的位置編號(hào),第三行表示“嗯”重復(fù)出現(xiàn)的位置。則根據(jù)公式可算得:步驟S402,根據(jù)當(dāng)前詞的習(xí)慣用語特征及預(yù)先構(gòu)建的習(xí)慣用語檢測(cè)模型,判斷當(dāng)前詞是否為說話人的習(xí)慣用語。步驟S403,如果當(dāng)前詞是說話人的習(xí)慣用語,則將當(dāng)前詞標(biāo)記為所述目標(biāo)信息。習(xí)慣用語檢測(cè)模型可以通過預(yù)先收集大量說話人語音數(shù)據(jù)構(gòu)建得到,作為示例,具體構(gòu)建時(shí),首先對(duì)所述語音數(shù)據(jù)進(jìn)行語音識(shí)別后,得到對(duì)應(yīng)文本數(shù)據(jù);再以詞為單位,標(biāo)注文本數(shù)據(jù)中每個(gè)詞是否為習(xí)慣用語,如使用1表示是習(xí)慣用語,0表示不是習(xí)慣用語,并提取每個(gè)詞的習(xí)慣用語特征;最后,將每個(gè)詞的標(biāo)注結(jié)果及提取的習(xí)慣用語特征作為訓(xùn)練數(shù)據(jù),訓(xùn)練得到習(xí)慣用語檢測(cè)模型。具體訓(xùn)練時(shí),將每個(gè)詞的習(xí)慣用語特征作為模型輸入,輸出則為每個(gè)詞的標(biāo)注結(jié)果。所述習(xí)慣用語檢測(cè)模型可以為模式識(shí)別中常用分類模型,例如支持向量機(jī)模型、條件隨機(jī)場(chǎng)模型、神經(jīng)網(wǎng)絡(luò)模型,等等,對(duì)此本實(shí)施例并不進(jìn)行限制。利用所述習(xí)慣用語檢測(cè)模型進(jìn)行檢測(cè)時(shí),將當(dāng)前詞的習(xí)慣用語特征作為習(xí)慣用語檢測(cè)模型的輸入,輸出為該詞的檢測(cè)結(jié)果,如果為習(xí)慣用語,則標(biāo)記為1,否則標(biāo)記為0。例如當(dāng)前句為“嗯,是的,嗯嗯你完全可以這么說,嗯這也是事實(shí)”,則可得到如下檢測(cè)結(jié)果:“嗯/1,是/0的/0,嗯/1嗯/1你/0完/0全/0可/0以/0這/0么/0說/0,嗯/1這/0也/0是/0事/0實(shí)/0”。此外,為了使隱私詞定位的更加準(zhǔn)確,還可以對(duì)隱私詞的定位結(jié)果進(jìn)行人工檢查,為漏掉的隱私詞也添加標(biāo)記。由于一般文本數(shù)據(jù)中包含的隱私句較少,人工檢查隱私句中的隱私詞通常并不會(huì)占用太多時(shí)間,工作量也較少。例如,檢測(cè)到的隱私句如下:“你把錢打到張三的農(nóng)行卡上,號(hào)碼是6666623847294748,一會(huì)把卡號(hào)發(fā)給你”利用隱私詞表檢測(cè)到的隱私詞為“農(nóng)行”,利用命名實(shí)體檢測(cè)算法檢測(cè)到的命名實(shí)體為“張三”,人工檢查到的隱私詞為“6666623847294748”。那么對(duì)所述隱私句中的隱私詞和命名實(shí)體進(jìn)行標(biāo)記,可以如下:“你/0把/0錢/0打到/0張三/1的/0農(nóng)行/1卡上,號(hào)碼/0是/06666623847294748/1,一會(huì)把卡號(hào)發(fā)你”。其中隱私詞和命名實(shí)體使用“1”表示,其它詞使用“0”表示,當(dāng)然也可以使用其它符號(hào)進(jìn)行標(biāo)記,本發(fā)明實(shí)施例并不進(jìn)行限制。在本實(shí)施例中,將語音數(shù)據(jù)轉(zhuǎn)換為文本信息后,可根據(jù)預(yù)設(shè)規(guī)則識(shí)別出文本信息中所包含的說話人隱私等目標(biāo)信息,然后對(duì)所述語音數(shù)據(jù)中與所述目標(biāo)信息相對(duì)應(yīng)的語音片段進(jìn)行預(yù)設(shè)處理,例如刪除該語音片段等。這樣便使說話人隱私等目標(biāo)信息的內(nèi)容無法被別人獲知,保護(hù)了說話人的隱私等權(quán)益,從而消除了語音數(shù)據(jù)在傳播過程中的顧慮和阻礙,實(shí)現(xiàn)了隱私保護(hù)與語音傳播的兼顧。下述為本發(fā)明裝置實(shí)施例,可以用于執(zhí)行本發(fā)明方法實(shí)施例。對(duì)于本發(fā)明裝置實(shí)施例中未披露的細(xì)節(jié),請(qǐng)參照本發(fā)明方法實(shí)施例。圖5是根據(jù)本發(fā)明一示例性實(shí)施例示出的一種語音處理裝置的示意圖。作為示例該裝置可用于手機(jī)、錄音機(jī)、平板電腦、臺(tái)式機(jī)電腦、筆記本電腦、服務(wù)器等設(shè)備。參見圖5所示,該裝置可以包括:語音獲取模塊501,用于獲取語音數(shù)據(jù)。文本轉(zhuǎn)換模塊502,用于將所述語音數(shù)據(jù)轉(zhuǎn)換為文本信息。信息識(shí)別模塊503,用于根據(jù)預(yù)設(shè)規(guī)則,識(shí)別出所述文本信息中所包含的目標(biāo)信息。語音處理模塊504,用于對(duì)所述語音數(shù)據(jù)中與所述目標(biāo)信息相對(duì)應(yīng)的語音片段進(jìn)行預(yù)設(shè)處理。在本實(shí)施例或本發(fā)明其他某些實(shí)施例中,作為一種示例,所述目標(biāo)信息可以包括說話人的隱私信息;相應(yīng)的,參見圖6所示,所述信息識(shí)別模塊可以包括:隱私特征獲取子模塊601,用于對(duì)于所述文本信息中每句文本,獲取當(dāng)前句的隱私特征,其中當(dāng)前句的隱私特征與當(dāng)前句中所含有的隱私詞的數(shù)量正相關(guān);隱私句判斷子模塊602,用于根據(jù)預(yù)先構(gòu)建的隱私句檢測(cè)模型及當(dāng)前句的隱私特征,判斷當(dāng)前句是否為隱私句;隱私句處理子模塊603,用于當(dāng)當(dāng)前句為隱私句時(shí),根據(jù)預(yù)先構(gòu)建的隱私詞表,將當(dāng)前句中的隱私詞標(biāo)記為所述目標(biāo)信息。在本實(shí)施例或本發(fā)明其他某些實(shí)施例中,所述隱私特征獲取子模塊具體可以用于:獲取當(dāng)前句中每個(gè)詞的詞向量;根據(jù)所述隱私詞表及所述隱私句檢測(cè)模型的訓(xùn)練數(shù)據(jù),獲取當(dāng)前句中每個(gè)詞的隱私系數(shù);根據(jù)當(dāng)前句中每個(gè)詞的詞向量與隱私系數(shù)乘積的和,獲取當(dāng)前句的隱私特征。在本實(shí)施例或本發(fā)明其他某些實(shí)施例中,所述隱私特征獲取子模塊在根據(jù)所述隱私詞表及所述隱私句判定模型的訓(xùn)練數(shù)據(jù),獲取當(dāng)前句中每個(gè)詞的隱私系數(shù)時(shí),可以用于:在所述隱私詞表中查找當(dāng)前詞;如果在所述隱私詞表中未查到當(dāng)前詞,則根據(jù)隱私句檢測(cè)模型的訓(xùn)練數(shù)據(jù)及當(dāng)前詞在當(dāng)前句中出現(xiàn)的次數(shù)計(jì)算當(dāng)前詞的隱私系數(shù);如果在所述隱私詞表中查到當(dāng)前詞,則將當(dāng)前詞的隱私系數(shù)設(shè)置為隱私系數(shù)取值的最大值。在本實(shí)施例或本發(fā)明其他某些實(shí)施例中,作為另一種示例,所述目標(biāo)信息也可以包括說話人的習(xí)慣用語;相應(yīng)的,參見圖7所示,所述信息識(shí)別模塊可以包括:習(xí)慣用語特征獲取子模塊701,用于對(duì)于所述文本信息中每句文本,獲取當(dāng)前句中當(dāng)前詞的習(xí)慣用語特征,其中所述習(xí)慣用語特征包括以下特征中的至少一種:當(dāng)前詞的詞向量、當(dāng)前詞包含的字?jǐn)?shù)、當(dāng)前詞在當(dāng)前句中出現(xiàn)的次數(shù)、當(dāng)前詞在當(dāng)前句中重復(fù)出現(xiàn)的平均間隔距離;習(xí)慣用語判斷子模塊702,用于根據(jù)當(dāng)前詞的習(xí)慣用語特征及預(yù)先構(gòu)建的習(xí)慣用語檢測(cè)模型,判斷當(dāng)前詞是否為說話人的習(xí)慣用語;習(xí)慣用語處理子模塊703,用于當(dāng)當(dāng)前詞是說話人的習(xí)慣用語時(shí),將當(dāng)前詞標(biāo)記為所述目標(biāo)信息。在本實(shí)施例或本發(fā)明其他某些實(shí)施例中,當(dāng)所述習(xí)慣用語特征包括當(dāng)前詞在當(dāng)前句中重復(fù)出現(xiàn)的平均間隔距離時(shí),所述習(xí)慣用語特征獲取子模塊可以用于:獲取當(dāng)前詞在當(dāng)前句中每次出現(xiàn)的位置;計(jì)算相鄰兩個(gè)所述位置之間的距離;將所述距離的平均值作為所述平均間隔距離。此外在本實(shí)施例或本發(fā)明其他某些實(shí)施例中,所述語音處理模塊可以用于:刪除所述語音片段;或者,將所述語音片段中人聲與背景音分離后,將人聲濾除,僅保留背景音;或者,對(duì)所述語音片段進(jìn)行快進(jìn)處理。在本實(shí)施例中,將語音數(shù)據(jù)轉(zhuǎn)換為文本信息后,可根據(jù)預(yù)設(shè)規(guī)則識(shí)別出文本信息中所包含的說話人隱私等目標(biāo)信息,然后對(duì)所述語音數(shù)據(jù)中與所述目標(biāo)信息相對(duì)應(yīng)的語音片段進(jìn)行預(yù)設(shè)處理,例如刪除該語音片段等。這樣便使說話人隱私等目標(biāo)信息的內(nèi)容無法被別人獲知,保護(hù)了說話人的權(quán)益,從而消除了語音數(shù)據(jù)在傳播過程中的顧慮和阻礙,實(shí)現(xiàn)了隱私保護(hù)與語音傳播的兼顧。關(guān)于上述實(shí)施例中的裝置,其中各個(gè)單元\模塊執(zhí)行操作的具體方式已經(jīng)在有關(guān)該方法的實(shí)施例中進(jìn)行了詳細(xì)描述,此處將不做詳細(xì)闡述說明。本領(lǐng)域技術(shù)人員在考慮說明書及實(shí)踐這里公開的發(fā)明后,將容易想到本發(fā)明的其它實(shí)施方案。本申請(qǐng)旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本發(fā)明未公開的本
技術(shù)領(lǐng)域
中的公知常識(shí)或慣用技術(shù)手段。說明書和實(shí)施例僅被視為示例性的,本發(fā)明的真正范圍和精神由所附的權(quán)利要求指出。應(yīng)當(dāng)理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進(jìn)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制。當(dāng)前第1頁(yè)1 2 3 
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1