生成音頻的圖形表示的方法和設(shè)備、音頻搜索方法和設(shè)備的制作方法
【專利摘要】公開了一種生成音頻內(nèi)容的圖形化表示的方法和設(shè)備。所述方法包括:獲取有關(guān)音頻內(nèi)容中要圖形化表示的對象的元數(shù)據(jù);分析元數(shù)據(jù)以確定要圖形化表示的對象之間的關(guān)聯(lián)關(guān)系;從圖形化表示元素的集合中選擇分別與感興趣的要圖形化表示的對象以及關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素;基于所選擇的圖形化表示元素,生成所述音頻內(nèi)容的圖形化表示。通過所述方法和設(shè)備,用戶能夠快速了解音頻的具體內(nèi)容。還公開了在音頻內(nèi)容庫中搜索音頻內(nèi)容的方法和設(shè)備,通過該方法和設(shè)備,用戶能夠了解特定話題的談?wù)摎v史,跟蹤話題的演進(jìn)。
【專利說明】生成音頻的圖形表示的方法和設(shè)備、音頻搜索方法和設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及音頻處理領(lǐng)域,更具體地,涉及一種生成音頻內(nèi)容的圖形化表示的方法和設(shè)備、以及在音頻內(nèi)容庫中搜索音頻內(nèi)容的方法和設(shè)備。
【背景技術(shù)】
[0002]現(xiàn)階段,音頻的可視化已經(jīng)有了一些研究。常見的音頻可視化表示例如圖2 (a)中所示的波形圖以及如圖2 (b)所示的可視化效果圖。然而,這些可視化表示示出的往往都是聲音強(qiáng)度、音樂節(jié)奏等的圖譜,其并不能表示音頻中的具體內(nèi)容,例如該音頻是關(guān)于什么具體話題的、音頻中有多少參與者、每個(gè)參與者談?wù)摿四男┚唧w的話題等等。目前,人們?nèi)绻M私庖纛l中的上述具體內(nèi)容信息,需要聽完整個(gè)音頻或者閱讀從該音頻轉(zhuǎn)述得到的文字表示,這是非常麻煩并且耗時(shí)的。
【發(fā)明內(nèi)容】
[0003]鑒于以上問題而提出了本發(fā)明。本發(fā)明的目的是提供一種生成音頻內(nèi)容的圖形化表示的方法和設(shè)備,用戶通過觀看該圖形化表示能夠快速了解包括音頻中的說話者、談?wù)摰脑掝}、說話者之間的談話模式等等的具體音頻內(nèi)容。本發(fā)明的另一目的是提供一種在音頻內(nèi)容庫中搜索音頻內(nèi)容的方法,其使得用戶能夠從音頻內(nèi)容庫中搜索出有關(guān)預(yù)定說話者關(guān)于某一話題的談?wù)摰乃幸纛l內(nèi)容,由此能夠了解該話題的談?wù)摎v史,跟蹤該話題的演進(jìn)。
[0004]根據(jù)本發(fā)明的一個(gè)方面,提供了一種生成音頻內(nèi)容的圖形化表示的方法,包括:獲取有關(guān)音頻內(nèi)容中的要圖形化表示的對象的元數(shù)據(jù);分析所述元數(shù)據(jù)以確定要圖形化表示的對象之間的關(guān)聯(lián)關(guān)系;從圖形化表示元素的集合中選擇分別與感興趣的要圖形表示的對象對應(yīng)的圖形化表示元素以及關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素;以及基于所選擇的圖形化表示元素,生成所述音頻內(nèi)容的圖形化表示。
[0005]根據(jù)本發(fā)明的另一個(gè)方面,提供了一種生成音頻內(nèi)容的圖形化表示的設(shè)備,包括:獲取裝置,被配置為獲取有關(guān)音頻內(nèi)容中的要圖形化表示的對象的元數(shù)據(jù);分析裝置,被配置為分析所述元數(shù)據(jù)以確定要圖形化表示的對象之間的關(guān)聯(lián)關(guān)系;選擇裝置,被配置為從圖形化表示元素的集合中選擇分別與感興趣的要圖形化表示的對象以及關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素;以及生成裝置,被配置為基于所選擇的圖形化表示元素,生成所述音頻內(nèi)容的圖形化表示。
[0006]根據(jù)本發(fā)明的又一個(gè)方面,提供了一種在音頻內(nèi)容庫中搜索音頻內(nèi)容的方法,包括:在與音頻內(nèi)容庫中的音頻內(nèi)容對應(yīng)的圖形化表示中搜索具有預(yù)定特征的音頻片段的子圖形化表示,其中音頻內(nèi)容庫中的音頻內(nèi)容具有對應(yīng)的圖形化表示,該圖形化表示由用于表示音頻內(nèi)容中被圖形化表示的對象的圖形化表示元素以及用于表示被圖形化表示的對象之間的關(guān)聯(lián)關(guān)系的圖形化表示元素組成,所述子圖形化表示是具有預(yù)定特征的音頻片段所屬于的音頻內(nèi)容的圖形化表示的一部分;呈現(xiàn)與搜索到的子圖形化表示對應(yīng)的音頻片段所屬于的音頻內(nèi)容。
[0007]根據(jù)本發(fā)明的再一個(gè)方面,提供了一種在音頻內(nèi)容庫中搜索音頻內(nèi)容的設(shè)備,包括:搜索裝置,被配置為在與音頻內(nèi)容庫中的音頻內(nèi)容對應(yīng)的圖形化表示中搜索具有預(yù)定特征的音頻片段的子圖形化表示,其中音頻內(nèi)容庫中的音頻內(nèi)容具有對應(yīng)的圖形化表示,該圖形化表示由用于表示音頻內(nèi)容中被圖形化表示的對象的圖形化表示元素以及用于表示被圖形化表示的對象之間的關(guān)聯(lián)關(guān)系的圖形化表示元素組成,所述子圖形化表示是具有預(yù)定特征的音頻片段所屬于的音頻內(nèi)容的圖形化表示的一部分;呈現(xiàn)裝置,被配置為呈現(xiàn)與搜索到的子圖形化表示對應(yīng)的音頻片段所屬于的音頻內(nèi)容。
[0008]根據(jù)本發(fā)明上述生成音頻內(nèi)容的圖形化表示的方法和設(shè)備可以通過呈現(xiàn)由表示音頻中的說話者、討論的話題、說話者之間的談話模式、話題之間的關(guān)聯(lián)關(guān)系等的圖形化表示元素組成的圖形化表示,使得用戶快速了解音頻中的具體內(nèi)容,從而節(jié)省時(shí)間同時(shí)提高便利性。另外,根據(jù)本發(fā)明上述在音頻內(nèi)容庫中搜索音頻內(nèi)容的方法和設(shè)備,可以通過從音頻內(nèi)容庫中搜索出有關(guān)預(yù)定說話者關(guān)于某一話題的談?wù)摰乃幸纛l片段,使得用戶能夠了解該話題的談?wù)摎v史,跟蹤該話題的演進(jìn)。
【專利附圖】
【附圖說明】
[0009]通過結(jié)合附圖對本公開示例性實(shí)施方式進(jìn)行更詳細(xì)的描述,本公開的上述以及其它目的、特征和優(yōu)勢將變得更加明顯,其中,在本公開示例性實(shí)施方式中,相同的參考標(biāo)號通常代表相同部件。
[0010]圖1示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)系統(tǒng)/服務(wù)器12的框圖。
[0011]圖2 Ca)和2 (b)示出了現(xiàn)有技術(shù)中音頻可視化表示的示例。
[0012]圖3示出了根據(jù)本發(fā)明實(shí)施例的生成音頻內(nèi)容的圖形化表示的方法的流程圖。
[0013]圖4示意性地示出了根據(jù)本發(fā)明實(shí)施例所生成的音頻內(nèi)容的圖形化表示的一個(gè)示例。
[0014]圖5 (a)-5 (c)示出了根據(jù)本發(fā)明實(shí)施例的生成音頻內(nèi)容的圖形化表示的方法生成的圖形化表示的示例。
[0015]圖6示出了根據(jù)本發(fā)明實(shí)施例的選擇圖形化表示元素以生成音頻內(nèi)容的圖形化表示的過程的流程圖。
[0016]圖7示出了根據(jù)本發(fā)明實(shí)施例的生成音頻內(nèi)容的圖形化表示的方法的示例性應(yīng)用。
[0017]圖8示出了根據(jù)本發(fā)明實(shí)施例的生成音頻內(nèi)容的圖形化表示的方法的一個(gè)變型的示例性應(yīng)用。
[0018]圖9示出了根據(jù)本發(fā)明實(shí)施例的、在音頻內(nèi)容庫中搜索包含有具有預(yù)定特征的音頻片段的音頻內(nèi)容的方法的流程圖。
[0019]圖10例示了根據(jù)本發(fā)明實(shí)施例的搜索包含有具有預(yù)定特征的音頻片段的音頻內(nèi)容的方法的示例性應(yīng)用情景。
[0020]圖11示出了根據(jù)本發(fā)明實(shí)施例的生成音頻內(nèi)容的圖形化表示的設(shè)備的結(jié)構(gòu)框圖。
[0021]圖12示出了圖11中的生成裝置的結(jié)構(gòu)框圖。
[0022]圖13示出了根據(jù)本發(fā)明實(shí)施例的搜索包含有具有預(yù)定特征的音頻片段的音頻內(nèi)容的設(shè)備的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0023]下面將參照附圖更詳細(xì)地描述本公開的優(yōu)選實(shí)施方式。雖然附圖中顯示了本公開的優(yōu)選實(shí)施方式,然而應(yīng)該理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施方式所限制。相反,提供這些實(shí)施方式是為了使本公開更加透徹和完整,并且能夠?qū)⒈竟_的范圍完整地傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0024]所屬【技術(shù)領(lǐng)域】的技術(shù)人員知道,本發(fā)明可以實(shí)現(xiàn)為系統(tǒng)、方法或計(jì)算機(jī)程序產(chǎn)品。因此,本公開可以具體實(shí)現(xiàn)為以下形式,即:可以是完全的硬件、也可以是完全的軟件(包括固件、駐留軟件、微代碼等),還可以是硬件和軟件結(jié)合的形式,本文一般稱為“電路”、“模塊”或“系統(tǒng)”。此外,在一些實(shí)施例中,本發(fā)明還可以實(shí)現(xiàn)為在一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)中的計(jì)算機(jī)程序產(chǎn)品的形式,該計(jì)算機(jī)可讀介質(zhì)中包含計(jì)算機(jī)可讀的程序代碼。
[0025]可以采用一個(gè)或多個(gè)計(jì)算機(jī)可讀的介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是一但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、設(shè)備或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可擦式可編程只讀存儲(chǔ)器(EPR0M或閃存)、光纖、便攜式緊湊磁盤只讀存儲(chǔ)器(CD-ROM)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、設(shè)備或者器件使用或者與其結(jié)合使用。
[0026]計(jì)算機(jī)可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括——但不限于——電磁信號、光信號或上述的任意合適的組合。計(jì)算機(jī)可讀的信號介質(zhì)還可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、設(shè)備或者器件使用或者與其結(jié)合使用的程序。
[0027]計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括一但不限于一無線、電線、光纜、RF等等,或者上述的任意合適的組合。
[0028]可以以一種或多種程序設(shè)計(jì)語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言一諸如Java、Smalltalk、C++,還包括常規(guī)的過程式程序設(shè)計(jì)語言一諸如”C”語言或類似的程序設(shè)計(jì)語言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過任意種類的網(wǎng)絡(luò)一包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)—連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。
[0029]下面將參照本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或框圖描述本發(fā)明。應(yīng)當(dāng)理解,流程圖和/或框圖的每個(gè)方框以及流程圖和/或框圖中各方框的組合,都可以由計(jì)算機(jī)程序指令實(shí)現(xiàn)。這些計(jì)算機(jī)程序指令可以提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其它可編程數(shù)據(jù)處理設(shè)備的處理器,從而生產(chǎn)出一種機(jī)器,這些計(jì)算機(jī)程序指令通過計(jì)算機(jī)或其它可編程數(shù)據(jù)處理設(shè)備執(zhí)行,產(chǎn)生了實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的設(shè)備。
[0030]也可以把這些計(jì)算機(jī)程序指令存儲(chǔ)在能使得計(jì)算機(jī)或其它可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀介質(zhì)中,這樣,存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中的指令就產(chǎn)生出一個(gè)包括實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令設(shè)備(instruct1nmeans)的制造品(manufacture)。
[0031]也可以把計(jì)算機(jī)程序指令加載到計(jì)算機(jī)、其它可編程數(shù)據(jù)處理設(shè)備、或其它設(shè)備上,使得在計(jì)算機(jī)、其它可編程數(shù)據(jù)處理設(shè)備或其它設(shè)備上執(zhí)行一系列操作步驟,以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的過程,從而使得在計(jì)算機(jī)或其它可編程設(shè)備上執(zhí)行的指令能夠提供實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。
[0032]圖1示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)系統(tǒng)/服務(wù)器12的框圖。圖1顯示的計(jì)算機(jī)系統(tǒng)/服務(wù)器12僅僅是一個(gè)示例,不應(yīng)對本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。
[0033]如圖1所示,計(jì)算機(jī)系統(tǒng)/服務(wù)器12以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算機(jī)系統(tǒng)/服務(wù)器12的組件可以包括但不限于:一個(gè)或者多個(gè)處理器或者處理單元16,系統(tǒng)存儲(chǔ)器28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲(chǔ)器28和處理單元16)的總線18。
[0034]總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲(chǔ)器總線或者存儲(chǔ)器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線,微通道體系結(jié)構(gòu)(MAC)總線,增強(qiáng)型ISA總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(VESA)局域總線以及外圍組件互連(PCI)總線。
[0035]計(jì)算機(jī)系統(tǒng)/服務(wù)器12典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計(jì)算機(jī)系統(tǒng)/服務(wù)器12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動(dòng)的和不可移動(dòng)的介質(zhì)。
[0036]系統(tǒng)存儲(chǔ)器28可以包括易失性存儲(chǔ)器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲(chǔ)器(RAM)30和/或高速緩存存儲(chǔ)器32。計(jì)算機(jī)系統(tǒng)/服務(wù)器12可以進(jìn)一步包括其它可移動(dòng)/不可移動(dòng)的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲(chǔ)介質(zhì)。僅作為舉例,存儲(chǔ)系統(tǒng)34可以用于讀寫不可移動(dòng)的、非易失性磁介質(zhì)(圖1未顯示,通常稱為“硬盤驅(qū)動(dòng)器”)。盡管圖1中未示出,可以提供用于對可移動(dòng)非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動(dòng)器,以及對可移動(dòng)非易失性光盤(例如⑶-ROM,DVD-ROM或者其它光介質(zhì))讀寫的光盤驅(qū)動(dòng)器。在這些情況下,每個(gè)驅(qū)動(dòng)器可以通過一個(gè)或者多個(gè)數(shù)據(jù)介質(zhì)接口與總線18相連。存儲(chǔ)器28可以包括至少一個(gè)程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個(gè))程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實(shí)施例的功能。
[0037]具有一組(至少一個(gè))程序模塊42的程序/實(shí)用工具40,可以存儲(chǔ)在例如存儲(chǔ)器28中,這樣的程序模塊42包括——但不限于——操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實(shí)施例中的功能和/或方法。
[0038]計(jì)算機(jī)系統(tǒng)/服務(wù)器12也可以與一個(gè)或多個(gè)外部設(shè)備14 (例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個(gè)或者多個(gè)使得用戶能與該計(jì)算機(jī)系統(tǒng)/服務(wù)器12交互的設(shè)備通信,和/或與使得該計(jì)算機(jī)系統(tǒng)/服務(wù)器12能與一個(gè)或多個(gè)其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(I/O)接口 22進(jìn)行。并且,計(jì)算機(jī)系統(tǒng)/服務(wù)器12還可以通過網(wǎng)絡(luò)適配器20與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(LAN),廣域網(wǎng)(WAN)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20通過總線18與計(jì)算機(jī)系統(tǒng)/服務(wù)器12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計(jì)算機(jī)系統(tǒng)/服務(wù)器12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動(dòng)器、冗余處理單元、外部磁盤驅(qū)動(dòng)陣列、RAID系統(tǒng)、磁帶驅(qū)動(dòng)器以及數(shù)據(jù)備份存儲(chǔ)系統(tǒng)等。
[0039]圖3示出了根據(jù)本發(fā)明實(shí)施例的生成音頻內(nèi)容的圖形化表示的方法的流程圖。根據(jù)本發(fā)明的實(shí)施例,音頻內(nèi)容的圖形化表示是示出音頻內(nèi)容中的例如說話者、談?wù)摰脑掝}等感興趣對象以及這些對象之間的關(guān)聯(lián)關(guān)系的網(wǎng)狀圖譜。如圖3所示,在步驟S301,獲取有關(guān)音頻內(nèi)容中的要圖形化表示的對象的元數(shù)據(jù)。
[0040]音頻內(nèi)容中的要圖形化表示的對象是將在所生成的圖形化表示中呈現(xiàn)的實(shí)體,其可以根據(jù)實(shí)際需要來選擇。例如,在本實(shí)施例中,假設(shè)用戶對音頻內(nèi)容中的說話者和/或談?wù)摰脑掝}感興趣,因而要圖形化表示的對象包括音頻內(nèi)容中的說話者和談?wù)摰脑掝}中的至少一種。圖4示意性地示出了根據(jù)本發(fā)明實(shí)施例所生成的音頻內(nèi)容的圖形化表示的一個(gè)示例。在圖4中,說話者用例如帶有名字標(biāo)識的人形圖案來表示,談?wù)摰脑掝}用例如帶有實(shí)線框的文字來表示。從圖4可以看出,在該圖形化表示所代表的音頻內(nèi)容中有五個(gè)參與者,SP說話者“A”、“B”、“C”、“D”和“E”,其中例如說話者“A”與“B”關(guān)于“專家系統(tǒng)”和“語音識另O”這兩個(gè)話題進(jìn)行了討論,說話者“A”與“C”關(guān)于“可視化分析”這一話題進(jìn)行了討論,等等。應(yīng)當(dāng)明白,圖4中所示出的圖形化表示僅僅是為了便于描述本發(fā)明而給出的一種示例,其不應(yīng)被理解為對本發(fā)明的限制。
[0041]要圖形化表示的對象的元數(shù)據(jù)是后續(xù)處理的基礎(chǔ)數(shù)據(jù),其可以根據(jù)用戶的需要進(jìn)行設(shè)定。例如,作為一種示例,對于說話者而言,其元數(shù)據(jù)可以是:有關(guān)說話者的基本屬性的數(shù)據(jù),如姓名、性別、年齡、社會(huì)關(guān)系、背景描述等,以及有關(guān)說話者的語音特性的數(shù)據(jù),如語速、聲音大小、情緒等;對于談?wù)摰脑掝}而言,其元數(shù)據(jù)可是談?wù)摰脑掝}的基本屬性信息,如話題的關(guān)鍵字、參與者、開始時(shí)間、結(jié)束時(shí)間等。能夠理解,要圖形化表示的對象的各個(gè)元數(shù)據(jù)可以通過不同的方式來獲取,例如說話者的性別、年齡等基本屬性可以是從外部獲知的,而說話者的語音特性是分析音頻內(nèi)容而確定的。
[0042]如何識別音頻內(nèi)容中的說話者以及談?wù)摰脑掝}、以及分析音頻內(nèi)容來確定說話者以及談?wù)摰脑掝}的部分元數(shù)據(jù)在本領(lǐng)域中已有研究。例如,可以通過聲紋識別判斷說話者,以及可以通過大詞匯量的語音識別將語音轉(zhuǎn)換為文本后,對文本做文本分析(如主題提取),得到談?wù)摰脑掝},等等,此處不進(jìn)行詳細(xì)描述。
[0043]所獲取的要圖形化表示的對象的元數(shù)據(jù)可以進(jìn)行存儲(chǔ),以用于后續(xù)的生成圖形化表示的處理。作為一種可選的方式,對于元數(shù)據(jù)中例如說話者的姓名、性別、說話者的語音特性、談?wù)摰脑掝}的開始時(shí)間、結(jié)束時(shí)間等靜態(tài)數(shù)據(jù),可以直接存儲(chǔ)在一個(gè)本地?cái)?shù)據(jù)文件中;而對于元數(shù)據(jù)中例如說話者的社會(huì)關(guān)系的動(dòng)態(tài)數(shù)據(jù)、以及例如說話者的背景描述的大數(shù)據(jù),則不直接存儲(chǔ)在該本地?cái)?shù)據(jù)文件中,而是將這些數(shù)據(jù)的統(tǒng)一資源標(biāo)識符存儲(chǔ)在該本地?cái)?shù)據(jù)文件中。動(dòng)態(tài)數(shù)據(jù)會(huì)隨著時(shí)間的經(jīng)過而發(fā)生變換,因此如果將動(dòng)態(tài)數(shù)據(jù)存儲(chǔ)在本地?cái)?shù)據(jù)文件中,那么除非隨時(shí)對該數(shù)據(jù)文件進(jìn)行更新,否則在經(jīng)過一段時(shí)間后該動(dòng)態(tài)數(shù)據(jù)可能會(huì)與實(shí)際情況不符。另一方面,在說話者是企業(yè)員工的情況下,其社會(huì)關(guān)系等動(dòng)態(tài)數(shù)據(jù)往往會(huì)有企業(yè)相關(guān)人員在專門數(shù)據(jù)庫中加以更新和維護(hù)。因此通過在前述的本地?cái)?shù)據(jù)文件中存儲(chǔ)動(dòng)態(tài)數(shù)據(jù)的統(tǒng)一資源標(biāo)識符,可以保證后續(xù)的生成圖形化表示的處理能夠獲得最新的動(dòng)態(tài)數(shù)據(jù)。說話者的背景描述是例如說話者的維基詞條描述、說話者的博客等。由于這些背景描述往往數(shù)據(jù)量很大并且數(shù)據(jù)結(jié)構(gòu)很復(fù)雜的大數(shù)據(jù),因此為了避免本地?cái)?shù)據(jù)文件太大、結(jié)構(gòu)太復(fù)雜,可以僅將這些大數(shù)據(jù)的統(tǒng)一資源標(biāo)識符存儲(chǔ)在該本地?cái)?shù)據(jù)文件,這樣后續(xù)的生成圖形化表示的處理在要用到這些大數(shù)據(jù)時(shí),可以通過本地?cái)?shù)據(jù)文件中存儲(chǔ)的統(tǒng)一資源標(biāo)識符找到并讀出它們。當(dāng)然,應(yīng)當(dāng)明白,上述存儲(chǔ)方式僅僅是為了描述本發(fā)明而給出的一種示例,將靜態(tài)數(shù)據(jù)、動(dòng)態(tài)數(shù)據(jù)和大數(shù)據(jù)都存儲(chǔ)在本地?cái)?shù)據(jù)文件中也是可以的。
[0044]在步驟S302,分析所述元數(shù)據(jù)以確定要圖形化表示的對象之間的關(guān)聯(lián)關(guān)系。
[0045]關(guān)聯(lián)關(guān)系用于反映要圖形化表示的對象之間的各種相互關(guān)系,其可以根據(jù)實(shí)際需要來設(shè)定。例如,在本實(shí)施例中,關(guān)聯(lián)關(guān)系可以是說話者之間的談話模式、說話者說話的先后順序或談?wù)摰脑掝}之間的承接關(guān)系。以下將舉例對此進(jìn)行詳細(xì)說明。
[0046]圖5 (a)例示了在對音頻內(nèi)容中有哪些說話者以及說話者說話的先后順序感興趣的情況下,生成的示例性圖形化表示。如圖所示,在該圖形化表示中,示出了音頻內(nèi)容中的說話者A-E,并用帶箭頭的連接線示出了各個(gè)說話者說話的先后順序。例如,對于說話者A和C而言,箭頭從A指向C,表示A先說話,C后說話。在該示例中,圖形化表示的對象之間的關(guān)聯(lián)關(guān)系是說話者說話的先后順序。
[0047]圖5 (b)例示了在對音頻內(nèi)容中談?wù)摿四男┰掝}以及各話題之間的承接關(guān)系感興趣的情況下,生成的示例性圖形化表示。如圖所示,在該圖形化表示中,示出了音頻內(nèi)容中談?wù)摰脑掝},并用帶箭頭的連接線示出了談?wù)摰脑掝}之間的承接關(guān)系。例如,對于話題“專家系統(tǒng)”和“語音識別”而言,箭頭從“專家系統(tǒng)”指向“語音識別”,表示在談?wù)摿?“專家系統(tǒng)”這一話題之后,接著討論了“語音識別”。在該示例中,圖形化表示的對象之間的關(guān)聯(lián)關(guān)系是談?wù)摰脑掝}之間的承接關(guān)系。
[0048]圖5 (C)例示了在對音頻內(nèi)容中有哪些說話者以及說話者之間的談話模式感興趣的情況下,生成的示例性圖形化表示。根據(jù)劃分的角度不同,談話模式可以有很多種。例如,按照交互模式分,談話模式可以有提問-回答模式、自由討論模式、頭腦風(fēng)暴模式、爭論模式、報(bào)告模式、建議模式、評論模式;按照參與方式分,談話模式可以有一對一模式、一對多模式、多對多模式、多對一模式;按照說話者之間的職務(wù)等級分,談話模式可以有從最高級職務(wù)向下模式、從最低級職務(wù)向上模式、同級員工模式,等等。在圖5 (C)例示的圖形化表示中,示出了說話者A和B,并用帶箭頭的連接線示出了他們之間是說話者A提問、說話者B回答的提問-回答模式。在該示例中,圖形化表示的對象之間的關(guān)聯(lián)關(guān)系是說話者之間的談話模式。
[0049]以上,已經(jīng)參照附圖對要圖形化表示的對象之間的關(guān)聯(lián)關(guān)系進(jìn)行了描述??傊?,連接關(guān)系是反映要圖形化表示的對象之間的各種相互關(guān)系的總稱,可以根據(jù)實(shí)際需要來選定希望在圖形化表示中顯示的連接關(guān)系。
[0050]回到步驟S302,在該步驟中通過分析要圖形化表示的對象的元數(shù)據(jù),來確定上述關(guān)聯(lián)關(guān)系。具體的,對于要圖形化表示的對象是談?wù)摰脑掝}的情形,可以根據(jù)談?wù)摰脑掝}的諸如開始時(shí)間和結(jié)束時(shí)間等時(shí)間信息,確定各個(gè)談?wù)摰脑掝}之間的承接關(guān)系。對于要圖形化表示的對象是說話者的情形,則可以先根據(jù)談?wù)摰脑掝},將音頻內(nèi)容劃分為音頻片段,隨后,對個(gè)每個(gè)音頻片段,分析其中的說話者的語音特性信息,確定說話者之間的談話模式和說話者說話的先后順序中的至少一個(gè)。下面將對該情形進(jìn)行具體的說明。
[0051]根據(jù)談?wù)摰脑掝}將音頻內(nèi)容劃分為音頻片段的技術(shù)在本領(lǐng)域中已有研究,此處不再詳細(xì)描述。作為示例,本實(shí)施例中采用對音頻片段進(jìn)行識別以獲得對應(yīng)的文本、然后通過文字的語義分析來劃分討論的話題的實(shí)現(xiàn)方式。
[0052]對于劃分出的每個(gè)音頻片段,通過分析元數(shù)據(jù)中包含的說話者的語音特性信息,基于預(yù)定的規(guī)則,可以確定說話者之間的談話模式。所述預(yù)定的規(guī)則用于規(guī)定說話者的語音特性與談話模式之間的對應(yīng)關(guān)系。例如,可以規(guī)定如果某一語音片段中有兩個(gè)說話者,兩個(gè)說話者之間有多次交互,并且通過語音、語調(diào)確定其中一個(gè)說話者總是在提問,另一個(gè)說話者則是在陳述,且一個(gè)說話者說話結(jié)束之后稍加停頓另一個(gè)人開始說話,則可以認(rèn)為說話者處于提問-回答模式;再比如,還可以規(guī)定如果語音片段中有多個(gè)說話者,多個(gè)說話者關(guān)于同一個(gè)話題無規(guī)律的發(fā)言,有時(shí)兩次發(fā)言之間有或長或短的停頓,有時(shí)多個(gè)說話者在同一時(shí)刻同時(shí)發(fā)言,則可以認(rèn)為說話者處于一對多模式。當(dāng)然,上面描述的規(guī)則僅僅是示例性的,實(shí)際上,用于判斷談話模式的規(guī)則要精確復(fù)雜得多,并且可能還需要結(jié)合音頻轉(zhuǎn)述得到文本內(nèi)容。關(guān)于這一技術(shù)本領(lǐng)域中已有研究,此處不做詳細(xì)說明。在預(yù)先設(shè)定了判斷規(guī)則之后,將分析說話者的語音特性信息得到的分析結(jié)果與各個(gè)預(yù)定的規(guī)則進(jìn)行匹配,可以確定說話者處于何種談話模式。值得一提的是,由于預(yù)定的規(guī)則可能并不能覆蓋所有的談話模式,某一語音特性信息的分析結(jié)果可能不符合任何一種預(yù)定規(guī)則。在這樣的情況下,可選的,可以為該分析結(jié)果定義一種新的規(guī)則,以建立一種新的談話模式,即一種新的關(guān)聯(lián)關(guān)系O
[0053]此外,對劃分出的每個(gè)音頻片段,可以分析其中的說話者的語音特性信息,通過例如語音的音頻、音色等信息區(qū)別不同說話者,并根據(jù)說話者說話的開始時(shí)間和結(jié)束時(shí)間等時(shí)間信息,來確定說話者說話的先后順序。
[0054]以上以關(guān)聯(lián)關(guān)系是說話者之間的談話模式、說話者說話的先后順序或談?wù)摰脑掝}之間的承接關(guān)系為例,對步驟S302中的操作進(jìn)行了描述。能夠理解,關(guān)聯(lián)關(guān)系可以是以上舉例說明的三種關(guān)聯(lián)關(guān)系之外的其他關(guān)系,并且在這樣的情況下,同樣可以通過分析元數(shù)據(jù)來確定要圖形化表示的對象之間的關(guān)聯(lián)關(guān)系。
[0055]回到圖3,在步驟S303,從圖形化表示元素的集合中選擇與感興趣的要圖形化表示的對象以及關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素。
[0056]圖形化表示元素是用于表示各種要圖形化表示的對象、要圖形化表示的對象之間的關(guān)聯(lián)關(guān)系等的圖形元素。更明確的說,對于每種要圖形化表示的對象和每種關(guān)聯(lián)關(guān)系都有各自對應(yīng)的圖形化表示元素,用來代表該要圖形化表示的對象和該關(guān)聯(lián)關(guān)系。例如,如圖4中所示,可以用帶有名字標(biāo)識的人形圖案代表說話者,用帶實(shí)線框的文字代表談?wù)摰脑掝},用帶有箭頭的連接線代表說話者之間的關(guān)聯(lián)關(guān)系。更具體的,可以通過不同線型、粗細(xì)、顏色的直線連接線或者通過在連接線上標(biāo)注文字等來區(qū)分連接線所代表的不同的連接關(guān)系;如果需要,可以用不同顏色的人形圖案來代表不同職務(wù)級別的說話者,用不同形狀的人形圖案來代表女性說話者和男性說話者,用不同顏色的字體來代表話題談?wù)摰臅r(shí)間的長短,等等。當(dāng)然,以上描述的僅僅是一種示例,圖形化表示元素并不限于以上種類并且可以采用其他不同的表示形狀、方式。例如,上述關(guān)聯(lián)關(guān)系也可以用曲線、虛線、不帶箭頭的線等其他表示連接關(guān)系的線來表示。
[0057]通過前面的步驟S301和S302,確定了音頻內(nèi)容中的各種要圖形化表示的對象及其之間的各種關(guān)聯(lián)關(guān)系。如前文中參照圖5 (a)到5 (C)描述的,用戶可能僅對音頻內(nèi)容中的某些要圖形化表示的對象以及某些要圖形化表示的對象之間的關(guān)聯(lián)關(guān)系感興趣,因此,在本步驟中,將從圖形化表示元素的集合中選擇與感興趣的要圖形化表示的對象對應(yīng)的圖形化表示元素、以及與感興趣的要圖形化表示的對象之間的關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素。以下將參考圖6進(jìn)行詳細(xì)描述。
[0058]如圖6所示,在步驟S601,讀取存儲(chǔ)在本地?cái)?shù)據(jù)文件中的所獲取到的元數(shù)據(jù)中的靜態(tài)數(shù)據(jù)。該步驟從本地?cái)?shù)據(jù)文件中讀取生成圖形化表示所需要的靜態(tài)數(shù)據(jù),例如說話者的姓名、性別、話題的參與者。
[0059]在步驟S602,根據(jù)存儲(chǔ)在本地?cái)?shù)據(jù)文件中的所獲取到的元數(shù)據(jù)中的動(dòng)態(tài)數(shù)據(jù)和大數(shù)據(jù)的統(tǒng)一資源標(biāo)識符,獲取對應(yīng)的動(dòng)態(tài)數(shù)據(jù)和大數(shù)據(jù)。該步驟中從由統(tǒng)一資源標(biāo)識符指示的地址獲取例如說話者的職務(wù)級別等動(dòng)態(tài)數(shù)據(jù)、以及例如說話者的博客內(nèi)容等大數(shù)據(jù)。
[0060]在步驟S603,根據(jù)所述靜態(tài)數(shù)據(jù)、動(dòng)態(tài)數(shù)據(jù)、大數(shù)據(jù)和關(guān)聯(lián)關(guān)系,從圖形化表示元素的集合中選擇與感興趣的要圖形化表示的對象對應(yīng)的圖形化表示元素、以及與感興趣的要圖形化表示的對象之間的關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素。在該步驟中,將選擇對應(yīng)的圖形化表示元素,以用于生成最終的圖形化表示。下面參照圖4所示的圖形化表示進(jìn)行說明。
[0061]如圖4所示,所生成的圖形化表示中包括說話者和談?wù)摰脑掝}兩種圖形化表示對象,并且關(guān)聯(lián)關(guān)系表示說話者之間的說話模式(提問-回答模式)。針對該圖形化表示,在該步驟中將根據(jù)讀取的說話者的姓名,確定人形圖標(biāo)標(biāo)注的名字(此處用“A” - “E”來代表);根據(jù)讀取的說話者性別,選擇對應(yīng)形狀的人形圖標(biāo);根據(jù)讀取的說話者的職務(wù)級別,確定人形圖標(biāo)的顏色;根據(jù)分析元數(shù)據(jù)確定的說話模式,選擇對應(yīng)的連接線;根據(jù)讀取的討論的話題,確定實(shí)線框中的文字,等等。
[0062]需要說明的是,動(dòng)態(tài)數(shù)據(jù)和大數(shù)據(jù)大多是為了使生成的圖形化表示的信息更完整,內(nèi)容更豐富(例如通過人形圖標(biāo)的顏色示出說話者的職務(wù)級別,點(diǎn)擊人形圖標(biāo)的名字可以顯示說話者的博客內(nèi)容等),因此其并非是生成基本的圖形化表示所必需的數(shù)據(jù)。也就是說,上述步驟S602并不是必須的,而是可選的。
[0063]以上對步驟S603的描述是以感興趣的要圖形化表示的對象之間的關(guān)聯(lián)關(guān)系均存在對應(yīng)的圖形化表示元素為例進(jìn)行說明的。然而事實(shí)上,某一關(guān)聯(lián)關(guān)系在圖形化表示元素的集合中可能不存在對應(yīng)的圖形化表示元素。例如,在上文關(guān)于步驟S302的描述中提到,在某一語音特性信息的分析結(jié)果不符合任何一種預(yù)定規(guī)則的情況下,可以為該分析結(jié)果定義一種新的規(guī)則,以建立一種新的談話模式,即一種新的關(guān)聯(lián)關(guān)系。而對于這樣的新的關(guān)聯(lián)關(guān)系,并不存在對應(yīng)的圖形化表示元素。在這樣的情況下,最后形成的圖形化表示可能會(huì)不完整。為了獲得更好的圖形化表示效果,對于這一情況,本實(shí)施例提供了兩種可選的處理方式。
[0064]根據(jù)第一種方式,在某一關(guān)聯(lián)關(guān)系在圖形化表示元素的集合中不存在對應(yīng)的圖形化表示元素的情況下,選擇圖形化表示元素的集合中用于表示與該某一關(guān)聯(lián)關(guān)系類似的關(guān)聯(lián)關(guān)系的圖形化表示元素,作為與該某一關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素。例如,假設(shè)在前述步驟S302中,分析某一語音片段中要圖形化表示的對象的元數(shù)據(jù)的分析結(jié)果是:有兩個(gè)說話者,兩個(gè)說話者之間有多次交互,并且通過語音、語調(diào)確定其中一個(gè)說話者總是以嚴(yán)厲的語氣在提問或者質(zhì)問,另一個(gè)說話者則是以較小的聲音簡短地陳述或者保持沉默。雖然這一分析結(jié)果與預(yù)先定義的各個(gè)規(guī)則均不完全匹配,并且因此為其定義了新的談話模式(新的關(guān)聯(lián)關(guān)系),但是該分析結(jié)果與提問-回答談話模式的規(guī)則類似,因此,可以選擇用于表示提問-回答模式的圖形化表示作為與該新的關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素。
[0065]根據(jù)第二種方式,在某一關(guān)聯(lián)關(guān)系在所述圖形化表示元素的集合中不存在對應(yīng)的圖形化表示元素的情況下,可以向用戶呈現(xiàn)該關(guān)聯(lián)關(guān)系,并響應(yīng)于用戶為該關(guān)聯(lián)關(guān)系定義的新的圖形化表示元素,將該新的圖形化表示元素作為與該關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素。還是以上面的第一種方式中提到的分析結(jié)果為例。首先,向用戶呈現(xiàn)為該分析結(jié)果定義新的關(guān)聯(lián)關(guān)系,其中包含所述分析結(jié)果,并且可選的,可以同時(shí)向用戶提示該新的關(guān)聯(lián)關(guān)系與提問-回答談話模式的關(guān)聯(lián)關(guān)系近似。隨后,響應(yīng)于用戶查看該分析結(jié)果后為代表該分析結(jié)果的新的關(guān)聯(lián)關(guān)系定義的新的圖形化表示元素,將該新的圖形化表示元素作為對應(yīng)的圖形化表示元素。
[0066]回到圖3,在步驟S304,基于所選擇的圖形化表示元素,生成所述音頻內(nèi)容的圖形化表示。
[0067]在該步驟中,將利用所選擇的圖形化表示元素,通過確定各圖形化表示元素的布局、位置等來生成最終的圖形化表示。例如,針對如圖4所示的圖形化表示,在該步驟中將采用預(yù)定的包括5個(gè)說話者的布局確定說話者A-E的位置;根據(jù)話題的參與者,確定話題在圖形化表示中的位置(例如,話題“可視分析”的參與者是說話者A和C,因此其位于連接A和C的連接線附近),等等。
[0068]另外,如果需要,可以通過顯示裝置等來顯示在該步驟S304中生成的所述音頻內(nèi)容的圖形化表示。
[0069]以上,已經(jīng)描述了根據(jù)本發(fā)明實(shí)施例的生成音頻內(nèi)容的圖形化表示的方法。該方法既可以在例如音頻會(huì)議進(jìn)行過程中實(shí)時(shí)生成對應(yīng)的圖形化表示,也可以應(yīng)用于錄制得到的音頻內(nèi)容。
[0070]下面將結(jié)合圖7-10簡要描述根據(jù)本發(fā)明實(shí)施例的生成音頻內(nèi)容的圖形化表示的方法的示例性應(yīng)用和變型。
[0071]圖7示出了根據(jù)本發(fā)明實(shí)施例的生成音頻內(nèi)容的圖形化表示的方法的示例性應(yīng)用。
[0072]假設(shè)對于記錄會(huì)議的整個(gè)音頻文件A應(yīng)用上述方法生成的圖形化表示如圖4所示,該圖形化表示是反映整個(gè)會(huì)議的主要參與者、主要談?wù)撛掝}以及談話模式等內(nèi)容的最高層級的圖譜。根據(jù)本發(fā)明實(shí)施例的生成音頻內(nèi)容的圖形化表示的方法也可以應(yīng)用于音頻文件中的某一時(shí)間段內(nèi)的音頻內(nèi)容,以得到更多的細(xì)節(jié)。例如,如圖7所示,可以將整個(gè)音頻文件A劃分為三個(gè)時(shí)間段,對于其中每個(gè)時(shí)間段應(yīng)用上述方法,從而得到對應(yīng)的三個(gè)子圖形化表示,并且每個(gè)子圖形化表示都是如圖4所示的整個(gè)音頻文件A的圖形化表示的一部分。由此,可以獲知有關(guān)會(huì)議議程的更多細(xì)節(jié),即在會(huì)議中,首先是參與者A和B關(guān)于“專家系統(tǒng)”和“語音識別”進(jìn)行交談,隨后是參與者B分別和參與者D和E進(jìn)行交談,最后是參與者A和C關(guān)于“可視分析”進(jìn)行交談。能夠理解,上述音頻文件中的時(shí)間段的長度可以任意選擇。例如,該時(shí)間段可以是音頻操作的最小時(shí)間單位(諸如10秒)的非常短的時(shí)間。
[0073]圖8示出了根據(jù)本發(fā)明實(shí)施例的生成音頻內(nèi)容的圖形化表示的方法的一個(gè)變型的示例性應(yīng)用。
[0074]假設(shè)用戶同時(shí)選擇了兩個(gè)音頻文件,希望生成對應(yīng)的圖形化表示。在這樣的情況下,上述生成音頻內(nèi)容的圖形化表示的方法先對于每個(gè)音頻文件生成一個(gè)對應(yīng)的圖形化表示;隨后將兩個(gè)圖形化表示進(jìn)行比較,以確定是否包含相同的說話者、相同的話題等;如果存在,則將兩個(gè)圖形化表示合并。例如,如圖8所示,音頻文件I和音頻文件2對應(yīng)的兩個(gè)圖形化表示合并成了一個(gè)圖形化表示,并且其中用黑色外框標(biāo)示了說話者A、說話者B、“語音識別”和“可視化分析”,由此說明在音頻文件I和音頻文件2中,說話者A和說話者B均關(guān)于“語音識別”和“可視化分析”進(jìn)行了交談。這樣,通過將具有相同談?wù)撛掝}的多個(gè)圖形化表示合并成為一個(gè),用戶可以容易地了解所談?wù)摰脑掝}的演進(jìn)。
[0075]根據(jù)本發(fā)明實(shí)施例的生成音頻內(nèi)容的圖形化表示的方法還有一個(gè)重要的應(yīng)用,即通過對于預(yù)定范圍(例如某一音頻內(nèi)容庫)內(nèi)的每個(gè)音頻內(nèi)容生成對應(yīng)的圖形化表示,可以利用圖形匹配容易地搜索出該音頻內(nèi)容庫中所有包含有具有預(yù)定特征的音頻片段的音頻內(nèi)容。下面將結(jié)合圖9進(jìn)行具體的描述。
[0076]圖9示出了根據(jù)本發(fā)明實(shí)施例的在音頻內(nèi)容庫中搜索音頻內(nèi)容的方法的流程圖。
[0077]如圖9所示,在步驟S901,在與音頻內(nèi)容庫中的音頻內(nèi)容對應(yīng)的圖形化表示中搜索具有預(yù)定特征的音頻片段的子圖形化表示,其中音頻內(nèi)容庫中的音頻內(nèi)容具有對應(yīng)的圖形化表示,該圖形化表示由用于表示音頻內(nèi)容中被圖形化表示的對象的圖形化表示元素以及用于表示被圖形化表示的對象之間的關(guān)聯(lián)關(guān)系的圖形化表示元素組成,所述子圖形化表示是具有預(yù)定特征的音頻片段所屬于的音頻內(nèi)容的圖形化表示的一部分。
[0078]如前所述,音頻內(nèi)容庫中的每個(gè)音頻內(nèi)容都具有上文中描述的根據(jù)本發(fā)明實(shí)施例的生成音頻內(nèi)容的圖形化表示的方法所生成的對應(yīng)的圖形化表示。預(yù)定特征可以是在音頻內(nèi)容的圖形化表示中具有對應(yīng)的圖形化表示元素的任意特征,例如,其可以是音頻內(nèi)容中的說話者、談?wù)摰脑掝}、各說話者之間的談話模式、各說話者說話的先后順序、各個(gè)話題之間的承接關(guān)系中的任意一個(gè)或多個(gè)。因此,對于具有預(yù)定特征的音頻片段,其具有由表示所述預(yù)定特征的圖形化元素形成的圖形化表示。由于音頻內(nèi)容通常包含多個(gè)音頻片段,因此具有預(yù)定特征的音頻片段的圖形化表示往往是該音頻片段所屬于的音頻內(nèi)容的圖形化表示的一部分(在下文的描述中稱為子圖形化表示)。當(dāng)然,上述具有預(yù)定特征的音頻片段也可能是整個(gè)音頻內(nèi)容,此時(shí),該音頻片段的子圖形化表示即整個(gè)音頻內(nèi)容的圖形化表示在該步驟中,將確定的子圖形化表示與音頻內(nèi)容庫中的各個(gè)音頻內(nèi)容的各個(gè)圖形化表示進(jìn)行比較,以確定哪個(gè)圖形化表示中包含該子圖形化表示。例如,如果所述預(yù)定特征是音頻內(nèi)容中的說話者,具有預(yù)定特征的音頻片段的圖形化表示是表示所述說話者的圖形化元素,則在該步驟中,將在各個(gè)音頻內(nèi)容的各個(gè)圖形化表示中搜索該圖形化元素。
[0079]在步驟S902,呈現(xiàn)與搜索到的子圖形化表示對應(yīng)的音頻片段所屬于的音頻內(nèi)容。在搜索到了包含有所述子圖形化表示的圖形化表示之后,可以向例如用戶呈現(xiàn)該圖形化表示對應(yīng)的音頻內(nèi)容,該音頻內(nèi)容即為包含有具有預(yù)定特征的音頻片段的音頻內(nèi)容。
[0080]通過上述音頻內(nèi)容搜索方法,用戶能夠從音頻內(nèi)容庫中搜索出其中預(yù)定說話者關(guān)于某一話題進(jìn)行了談?wù)摰乃幸纛l內(nèi)容,由此能夠了解該話題的談?wù)摎v史,跟蹤該話題的演進(jìn)。
[0081]圖10例示了根據(jù)本發(fā)明實(shí)施例的搜索包含有具有預(yù)定特征的音頻片段的音頻內(nèi)容的方法的示例性應(yīng)用情景。
[0082]如圖10所示,用戶希望搜索出所有說話者A在其中談?wù)摿?“語音識別”的音頻內(nèi)容。為此,用戶可以在如圖10左側(cè)所示的圖形化表示中框選說話者A和“語音識別”,圖10的右側(cè)則列出了通過應(yīng)用根據(jù)本發(fā)明實(shí)施例的音頻內(nèi)容搜索方法所搜索到的、音頻內(nèi)容庫中所有說話者A在其中談?wù)摿恕罢Z音識別”的音頻內(nèi)容,并顯示了該音頻內(nèi)容的一些相關(guān)信肩、O
[0083]圖10所示的僅僅是一種示例情形,根據(jù)本發(fā)明實(shí)施例的上述音頻內(nèi)容搜索方法可以搜索具有其他預(yù)定特征的音頻片段。例如,用戶可以以說話者之間的關(guān)聯(lián)關(guān)系作為所述預(yù)定特征進(jìn)行搜索。明確地說,用戶可以通過在如圖10左側(cè)所示的圖形化表示中框選例如說話者A、說話者B、“語音識別”、以及說話者A和B之間的連接線,搜索出音頻內(nèi)容庫中所有說話者A和說話者B以提問-回答模式談?wù)摿恕罢Z音識別”的音頻內(nèi)容,而這種搜索根據(jù)現(xiàn)有的音頻搜索技術(shù)是很難實(shí)現(xiàn)的。
[0084]下面,參照圖11來描述根據(jù)本發(fā)明實(shí)施例的生成音頻內(nèi)容的圖形化表示的設(shè)備的結(jié)構(gòu)框圖。該設(shè)備可以執(zhí)行上文所述的生成音頻內(nèi)容的圖形化表示的方法。
[0085]如圖11所示,根據(jù)本發(fā)明實(shí)施例的生成音頻內(nèi)容的圖形化表示的設(shè)備1100包括獲取裝置1101、分析裝置1102、選擇裝置1103和生成裝置1104。該設(shè)備1100既可以在例如音頻會(huì)議進(jìn)行過程中實(shí)時(shí)生成對應(yīng)的圖形化表示,也可以應(yīng)用于錄制得到的音頻內(nèi)容。
[0086]獲取裝置1101獲取有關(guān)音頻內(nèi)容中的要圖形化表示的對象的元數(shù)據(jù)。
[0087]音頻內(nèi)容中的要圖形化表示的對象是將在所生成的圖形化表示中呈現(xiàn)的實(shí)體,其可以根據(jù)實(shí)際需要來選擇。例如,在本實(shí)施例中,圖形化表示的對象包括音頻內(nèi)容中的說話者和談?wù)摰脑掝}中的至少一種。要圖形化表示的對象的元數(shù)據(jù)是后續(xù)處理的基礎(chǔ)數(shù)據(jù),其可以根據(jù)用戶的需要進(jìn)行設(shè)定。例如,作為一種示例,對于說話者而言,其元數(shù)據(jù)可以是有關(guān)說話者的基本屬性的數(shù)據(jù),以及有關(guān)說話者的語音特性的數(shù)據(jù)等;對于談?wù)摰脑掝}而言,其元數(shù)據(jù)可是談?wù)摰脑掝}的基本屬性信息。所述各個(gè)元數(shù)據(jù)可以通過不同的方式來獲取,例如說話者的性別、年齡等基本屬性可以是從外部預(yù)先獲知的,而說話者的語音特性則是分析音頻內(nèi)容而確定的。
[0088]在獲取了要圖形化表示的對象的元數(shù)據(jù)之后,獲取裝置1101可以將其存儲(chǔ)在內(nèi)部或外部存儲(chǔ)器中,以用于后續(xù)的生成圖形化表示的處理。作為一種可選的方式,對于元數(shù)據(jù)中不會(huì)隨時(shí)間而變化的靜態(tài)數(shù)據(jù),可以存儲(chǔ)在本地?cái)?shù)據(jù)文件中;而對于元數(shù)據(jù)中隨時(shí)間而變化的動(dòng)態(tài)數(shù)據(jù)和大數(shù)據(jù),則僅將這些數(shù)據(jù)的統(tǒng)一資源標(biāo)識符存儲(chǔ)在該本地?cái)?shù)據(jù)文件中。
[0089]分析裝置1102分析所述元數(shù)據(jù)以確定要圖形化表示的對象之間的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)關(guān)系用于反映要圖形化表示的對象之間的各種相互關(guān)系,其可以根據(jù)實(shí)際需要來設(shè)定。例如,在本實(shí)施例中,關(guān)聯(lián)關(guān)系可以是說話者之間的談話模式、說話者說話的先后順序或談?wù)摰脑掝}之間的承接關(guān)系。關(guān)聯(lián)關(guān)系在上文中已有詳細(xì)描述,此處不再贅述。分析裝置1102可以包括音頻片段劃分單元11021和關(guān)聯(lián)關(guān)系確定單元11022。片段劃分單元11021可以采用本領(lǐng)域中任何已知的技術(shù),根據(jù)談?wù)摰脑掝},將音頻內(nèi)容劃分為音頻片段。如果要圖形化表示的對象是說話者,關(guān)聯(lián)關(guān)系確定單元11022根據(jù)談?wù)摰脑掝}的諸如開始時(shí)間和結(jié)束時(shí)間等時(shí)間信息,確定各個(gè)談?wù)摰脑掝}之間的承接關(guān)系,作為關(guān)聯(lián)關(guān)系;如果要圖形化表示的對象是說話者,關(guān)聯(lián)關(guān)系確定單元11022針對每個(gè)音頻片段,分析其中的說話者的語音特性信息,確定說話者之間的談話模式和說話者說話的先后順序中的至少一個(gè),作為所述關(guān)聯(lián)關(guān)系。關(guān)聯(lián)關(guān)系確定單元11022可以按照上文所述的具體方式來確定關(guān)聯(lián)關(guān)系,在這里不再贅述。
[0090]回到圖11,選擇裝置1103從圖形化表示元素的集合中選擇與感興趣的要圖形化表示的對象對應(yīng)的圖形化表示元素以及與感興趣的要圖形化表示的對象之間的關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素。
[0091 ] 如上文中提到的,對于每種要圖形化表不的對象和每種關(guān)聯(lián)關(guān)系都有各自對應(yīng)的圖形化表示元素,用來代表該要圖形化表示的對象和該關(guān)聯(lián)關(guān)系。圖形化表示元素有哪些種類,以及具體采用什么形狀可以由用戶預(yù)先任意設(shè)定,只要能夠區(qū)分表示各種每種要圖形化表示的對象和每種關(guān)聯(lián)關(guān)系即可。
[0092]下面,參照圖12來詳細(xì)描述選擇裝置1103。如圖12所示,選擇裝置1103可以包括數(shù)據(jù)讀取單元11031、選擇單元11032、顯示單元11033和輸入單元11034。
[0093]數(shù)據(jù)讀取單元11031用于從存儲(chǔ)器中讀取元數(shù)據(jù)。具體的,在本實(shí)施例中,數(shù)據(jù)讀取單元11031從本地?cái)?shù)據(jù)文件中讀取靜態(tài)數(shù)據(jù),并從由本地?cái)?shù)據(jù)文件中存儲(chǔ)的統(tǒng)一資源標(biāo)識符指示的地址獲取動(dòng)態(tài)數(shù)據(jù)和大數(shù)據(jù)。需要說明的是,動(dòng)態(tài)數(shù)據(jù)和大數(shù)據(jù)大多是為了使生成的圖形化表示的信息更完整,內(nèi)容更豐富,因此其并非是生成基本的圖形化表示所必需的數(shù)據(jù)。所以,數(shù)據(jù)讀取單元11031也可以僅從本地?cái)?shù)據(jù)文件中讀取靜態(tài)數(shù)據(jù),而不根據(jù)統(tǒng)一資源標(biāo)識符獲取對應(yīng)的動(dòng)態(tài)數(shù)據(jù)和大數(shù)據(jù)。
[0094]選擇單元11032基于來自數(shù)據(jù)讀取單元11031的靜態(tài)數(shù)據(jù)、動(dòng)態(tài)數(shù)據(jù)和大數(shù)據(jù)以及來自分析裝置1102的分析確定的關(guān)聯(lián)關(guān)系,從圖形化表示元素的集合中選擇與感興趣的要圖形化表示的對象對應(yīng)的圖形化表示元素以及與感興趣的要圖形化表示的對象之間的關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素。
[0095]與要圖形化表示的對象對應(yīng)的圖形化表示元素比較容易定義,因此通常對于要圖形化表示的對象,在圖形化表示元素的集合中存在對應(yīng)的圖形化表示元素。然而,如上文中舉例說明的,對于關(guān)聯(lián)關(guān)系,在圖形化表示元素的集合中有可能不存在對應(yīng)的圖形化表示元素。在某一關(guān)聯(lián)關(guān)系在圖形化表示元素的集合中不存在對應(yīng)的圖形化表示元素的情況下,選擇單元11032可以配置為按照兩種不同的方式進(jìn)行處理。具體的,選擇單元11032可以直接選擇圖形化表示元素的集合中用于表示與該某一關(guān)聯(lián)關(guān)系類似的關(guān)聯(lián)關(guān)系的圖形化表示元素,作為與該某一關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素?;蛘哌x擇單元11032可以經(jīng)由顯示單元11033通知用戶不存在對應(yīng)的圖形化表示元素,并向用戶呈現(xiàn)該關(guān)聯(lián)關(guān)系、以及與該關(guān)聯(lián)關(guān)系對應(yīng)的由分析裝置1102分析得到的具體分析結(jié)果。另外,可選的,顯示單元11033還可以向用戶顯示該新的關(guān)聯(lián)關(guān)系與哪種關(guān)聯(lián)關(guān)系近似等提示信息。如果用戶通過輸入單元11034輸入了為該關(guān)聯(lián)關(guān)系定義的新的圖形化表示元素,則選擇單元11034將該新的圖形化表示元素作為與該關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素。能夠理解,顯示單元11033和輸入單元11034并非是必需的,例如如果選擇單元11032被配置為按照上述第一種方式進(jìn)行處理,則顯示單元11033和輸入單元11034可以被去除。
[0096]生成裝置1104基于所選擇的圖形化表示元素,生成所述音頻內(nèi)容的圖形化表示。具體的,該生成裝置1104基于所選擇的圖形化表示元素,通過例如按照上文所述的方式來確定各圖形化表示元素的布局、位置等,生成最終的圖形化表示。
[0097]另外,可選的,根據(jù)本發(fā)明實(shí)施例的生成音頻內(nèi)容的圖形化表示的設(shè)備1100還可以包括顯示裝置1105,用于顯示生成的圖形化表示。
[0098]下面,參照圖13來描述根據(jù)本發(fā)明實(shí)施例的在音頻內(nèi)容庫中搜索音頻內(nèi)容的設(shè)備的結(jié)構(gòu)框圖。該設(shè)備可以執(zhí)行上文所述的搜索音頻內(nèi)容的方法。
[0099]如圖13所示,根據(jù)本發(fā)明實(shí)施例的搜索音頻內(nèi)容的設(shè)備1300包括搜索裝置1301和呈現(xiàn)裝置1302。該設(shè)備1300可以利用圖形匹配容易地搜索出音頻內(nèi)容庫中所有包含有具有預(yù)定特征的音頻片段的音頻內(nèi)容。
[0100]搜索裝置1301在與音頻內(nèi)容庫中的音頻內(nèi)容對應(yīng)的圖形化表示中搜索具有預(yù)定特征的音頻片段的子圖形化表示,其中音頻內(nèi)容庫中的音頻內(nèi)容具有對應(yīng)的圖形化表示,該圖形化表示由用于表示音頻內(nèi)容中被圖形化表示的對象的圖形化表示元素以及用于表示被圖形化表示的對象之間的關(guān)聯(lián)關(guān)系的圖形化表示元素組成,所述子圖形化表示是具有預(yù)定特征的音頻片段所屬于的音頻內(nèi)容的圖形化表示的一部分。
[0101 ] 如前所述,音頻內(nèi)容庫中的每個(gè)音頻內(nèi)容都具有上文中描述的根據(jù)本發(fā)明實(shí)施例的生成音頻內(nèi)容的圖形化表示的方法所生成的對應(yīng)的圖形化表示。預(yù)定特征可以是在音頻內(nèi)容的圖形化表示中具有對應(yīng)的圖形化表示元素的任意特征,例如,其可以是音頻內(nèi)容中的說話者、談?wù)摰脑掝}、各說話者之間的談話模式、各說話者說話的先后順序、各個(gè)話題之間的承接關(guān)系中的任意一個(gè)或多個(gè)。因此,對于具有預(yù)定特征的音頻片段,其具有由表示所述預(yù)定特征的圖形化元素形成的圖形化表示。由于音頻內(nèi)容通常包含多個(gè)音頻片段,因此具有預(yù)定特征的音頻片段的圖形化表示往往是該音頻片段所屬于的音頻內(nèi)容的圖形化表示的一部分(在下文的描述中稱為子圖形化表示)。搜索裝置1301將確定的子圖形化表示與音頻內(nèi)容庫中的各個(gè)音頻內(nèi)容的各個(gè)圖形化表示進(jìn)行比較,以確定哪個(gè)圖形化表示中包含該子圖形化表示。例如,如果所述預(yù)定特征是音頻內(nèi)容中的說話者,具有預(yù)定特征的音頻片段的圖形化表示是表示所述說話者的圖形化元素,則該搜索裝置1301將在各個(gè)音頻內(nèi)容的各個(gè)圖形化表示中搜索該圖形化元素。
[0102]確定裝置1302確定與搜索到的子圖形化表示對應(yīng)的音頻片段所屬于的音頻內(nèi)容。在搜索到了包含有所述子圖形化表示的圖形化表示之后,呈現(xiàn)裝置1302呈現(xiàn)出該圖形化表示對應(yīng)的音頻內(nèi)容,該音頻內(nèi)容即為包含有具有預(yù)定特征的音頻片段的音頻內(nèi)容。該呈現(xiàn)裝置1302可以將所述音頻內(nèi)容及其相關(guān)信息列出在顯示設(shè)備上,作為音頻內(nèi)容的搜索結(jié)果。
[0103]根據(jù)本發(fā)明上述生成音頻內(nèi)容的圖形化表示的方法和設(shè)備通過呈現(xiàn)由表示音頻中的說話者、討論的話題、說話者之間的談話模式、話題之間的關(guān)聯(lián)關(guān)系等的圖形化表示元素組成的圖形化表示,使得用戶快速了解音頻中的具體內(nèi)容,從而節(jié)省時(shí)間同時(shí)提高便利性。
[0104]另外,通過應(yīng)用上述生成音頻內(nèi)容的圖形化表示的技術(shù),用戶能夠通過圖形匹配從音頻內(nèi)容庫中搜索出其中預(yù)定說話者關(guān)于某一話題進(jìn)行了談?wù)摰乃幸纛l內(nèi)容,由此能夠了解該話題的談?wù)摎v史,跟蹤該話題的演進(jìn)。
[0105]附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個(gè)實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來實(shí)現(xiàn)。
[0106]以上已經(jīng)描述了本發(fā)明的各實(shí)施例,上述說明是示例性的,并非窮盡性的,并且也不限于所披露的各實(shí)施例。在不偏離所說明的各實(shí)施例的范圍和精神的情況下,對于本【技術(shù)領(lǐng)域】的普通技術(shù)人員來說許多修改和變更都是顯而易見的。本文中所用術(shù)語的選擇,旨在最好地解釋各實(shí)施例的原理、實(shí)際應(yīng)用或?qū)κ袌鲋械募夹g(shù)的技術(shù)改進(jìn),或者使本【技術(shù)領(lǐng)域】的其它普通技術(shù)人員能理解本文披露的各實(shí)施例。
【權(quán)利要求】
1.一種生成音頻內(nèi)容的圖形化表示的方法,包括: 獲取有關(guān)音頻內(nèi)容中的要圖形化表示的對象的元數(shù)據(jù); 分析所述元數(shù)據(jù)以確定要圖形化表示的對象之間的關(guān)聯(lián)關(guān)系; 從圖形化表示元素的集合中選擇分別與感興趣的要圖形化表示的對象以及關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素;以及 基于所選擇的圖形化表示元素,生成所述音頻內(nèi)容的圖形化表示。
2.如權(quán)利要求1所述的方法,所述要圖形化表示的對象包括音頻內(nèi)容中的說話者和談?wù)摰脑掝}中的至少一種。
3.如權(quán)利要求1所述的方法,其中所述要圖形化表示的對象之間的關(guān)聯(lián)關(guān)系是說話者之間的談話模式、說話者說話的先后順序和談?wù)摰脑掝}之間的承接關(guān)系中的至少一種。
4.如權(quán)利要求3所述的方法,其中所述要圖形化表示的對象的元數(shù)據(jù)包括以下至少一種:談?wù)摰脑掝}的基本屬性信息;說話者的基本屬性信息和說話者的語音特性信息。
5.如權(quán)利要求4所述的方法,其中, 響應(yīng)于所述要圖形化表示的對象是談?wù)摰脑掝},分析所述元數(shù)據(jù)以確定要圖形化表示的對象之間的關(guān)聯(lián)關(guān)系包括:根據(jù)談?wù)摰脑掝}的基本屬性信息中的時(shí)間信息,確定各個(gè)談?wù)摰脑掝}之間的承接關(guān)系; 響應(yīng)于所述要圖形化表示的對象是說話者,分析所述元數(shù)據(jù)以確定要圖形化表示的對象之間的關(guān)聯(lián)關(guān)系包括:根據(jù)談?wù)摰脑掝},將所述音頻內(nèi)容劃分為音頻片段;對每個(gè)音頻片段,分析其中的說話者的語音特性信息,確定說話者之間的談話模式和說話者說話的先后順序中的至少一個(gè)。
6.如權(quán)利要求1所述的方法,其中所述從圖形化表示元素的集合中選擇分別與感興趣的要圖形化表示的對象以及關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素包括: 讀取存儲(chǔ)在本地?cái)?shù)據(jù)文件中的所獲取到的元數(shù)據(jù)中的靜態(tài)數(shù)據(jù); 根據(jù)存儲(chǔ)在本地?cái)?shù)據(jù)文件中的所獲取到的元數(shù)據(jù)中的動(dòng)態(tài)數(shù)據(jù)和大數(shù)據(jù)的統(tǒng)一資源標(biāo)識符,讀取對應(yīng)的動(dòng)態(tài)數(shù)據(jù)和大數(shù)據(jù); 根據(jù)所述靜態(tài)數(shù)據(jù)、動(dòng)態(tài)數(shù)據(jù)、大數(shù)據(jù)和關(guān)聯(lián)關(guān)系,從圖形化表示元素的集合中選擇分別與感興趣的要圖形化表示的對象以及關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素。
7.如權(quán)利要求1-6中任一項(xiàng)所述的方法,其中從圖形化表示元素的集合中選擇分別與感興趣的要圖形化表示的對象以及關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素還包括: 響應(yīng)于某一關(guān)聯(lián)關(guān)系在所述圖形化表示元素的集合中不存在對應(yīng)的圖形化表示元素,選擇所述圖形化表示元素的集合中用于表示與該某一關(guān)聯(lián)關(guān)系類似的關(guān)聯(lián)關(guān)系的圖形化表示元素,作為與該某一關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素。
8.如權(quán)利要求1-6中任一項(xiàng)所述的方法,其中從圖形化表示元素的集合中選擇分別與感興趣的要圖形化表示的對象以及關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素還包括: 響應(yīng)于某一關(guān)聯(lián)關(guān)系在所述圖形化表示元素的集合中不存在對應(yīng)的圖形化表示元素:向用戶呈現(xiàn)該關(guān)聯(lián)關(guān)系;并響應(yīng)于用戶為該關(guān)聯(lián)關(guān)系定義的新的圖形化表示元素,將該新的圖形化表示元素作為與該關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素。
9.如權(quán)利要求1-6中任一項(xiàng)所述的方法,還包括:顯示所述音頻內(nèi)容的圖形化表示。
10.如權(quán)利要求1-6中任一項(xiàng)所述的方法,其中所述音頻內(nèi)容可以劃分為一個(gè)或多個(gè)音頻片段,該音頻片段具有與其對應(yīng)的子圖形化表示,該子圖形化表示是所述音頻內(nèi)容的圖形化表不的一部分。
11.一種生成音頻內(nèi)容的圖形化表示的設(shè)備,包括: 獲取裝置,被配置為獲取有關(guān)音頻內(nèi)容中的要圖形化表示的對象的元數(shù)據(jù); 分析裝置,被配置為分析所述元數(shù)據(jù)以確定要圖形化表示的對象之間的關(guān)聯(lián)關(guān)系; 選擇裝置,被配置為從圖形化表示元素的集合中選擇分別與感興趣的要圖形化表示的對象和關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表不兀素;以及 生成裝置,被配置為基于所選擇的圖形化表示元素,生成所述音頻內(nèi)容的圖形化表示。
12.如權(quán)利要求11所述的設(shè)備,所述要圖形化表示的對象包括音頻內(nèi)容中的說話者和談?wù)摰脑掝}中的至少一種。
13.如權(quán)利要求11所述的設(shè)備,其中所述要圖形化表示的對象之間的關(guān)聯(lián)關(guān)系是說話者之間的談話模式、說話者說話的先后順序和談?wù)摰脑掝}之間的承接關(guān)系中的至少一種。
14.如權(quán)利要求13所述的設(shè)備,其中所述要圖形化表示的對象的元數(shù)據(jù)包括以下至少一種:談?wù)摰脑掝}的基本屬性信息;說話者的基本屬性信息和說話者的語音特性信息。
15.如權(quán)利要求14所述的設(shè)備,其中所述分析裝置包括: 音頻片段劃分單元,被配置為根據(jù)談?wù)摰脑掝},將音頻內(nèi)容劃分為音頻片段; 關(guān)聯(lián)關(guān)系確定單元,被配置為根據(jù)以下的至少一種確定關(guān)聯(lián)關(guān)系:根據(jù)談?wù)摰脑掝}的基本屬性信息中的時(shí)間信息,確定各個(gè)談?wù)摰脑掝}之間的承接關(guān)系,作為關(guān)聯(lián)關(guān)系;對于每個(gè)音頻片段,分析其中的說話者的語音特性信息,確定說話者之間的談話模式和說話者說話的先后順序中的至少一個(gè),作為關(guān)聯(lián)關(guān)系。
16.如權(quán)利要求11所述的設(shè)備,其中,所述選擇裝置包括: 數(shù)據(jù)讀取單元,被配置為讀取存儲(chǔ)在本地?cái)?shù)據(jù)文件中的所獲取到的元數(shù)據(jù)中的靜態(tài)數(shù)據(jù),以及根據(jù)存儲(chǔ)在本地?cái)?shù)據(jù)文件中的所獲取到的元數(shù)據(jù)中的動(dòng)態(tài)數(shù)據(jù)和大數(shù)據(jù)的統(tǒng)一資源標(biāo)識符,讀取對應(yīng)的動(dòng)態(tài)數(shù)據(jù)和大數(shù)據(jù);和 選擇單元,被配置為根據(jù)所述靜態(tài)數(shù)據(jù)、動(dòng)態(tài)數(shù)據(jù)、大數(shù)據(jù)和關(guān)聯(lián)關(guān)系,從圖形化表示元素的集合中選擇分別與感興趣的要圖形化表示的對象以及關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素。
17.如權(quán)利要求16所述的設(shè)備,其中,所述選擇單元被進(jìn)一步配置為: 響應(yīng)于某一關(guān)聯(lián)關(guān)系在所述圖形化表示元素的集合中不存在對應(yīng)的圖形化表示元素,選擇所述圖形化表示元素的集合中用于表示與該某一關(guān)聯(lián)關(guān)系類似的關(guān)聯(lián)關(guān)系的圖形化表示元素,作為與該某一關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素。
18.如權(quán)利要求16所述的設(shè)備,其中,所述選擇裝置還包括: 顯示單元,被配置為響應(yīng)于某一關(guān)聯(lián)關(guān)系在所述圖形化表示元素的集合中不存在對應(yīng)的圖形化表示元素,向用戶呈現(xiàn)該關(guān)聯(lián)關(guān)系;和 輸入單元,被配置為輸入為該某一關(guān)聯(lián)關(guān)系定義的新的圖形化表示元素, 其中,所述選擇單元被進(jìn)一步配置為選擇該新的圖形化表示元素作為與該某一關(guān)聯(lián)關(guān)系對應(yīng)的圖形化表示元素。
19.如權(quán)利要求11-15中任一項(xiàng)所述的設(shè)備,還包括配置為顯示所述音頻內(nèi)容的圖形化表示的顯示裝置。
20.如權(quán)利要求11-15中任一項(xiàng)所述的設(shè)備,其中所述音頻內(nèi)容包括一個(gè)或多個(gè)音頻片段,該音頻片段具有與其對應(yīng)的子圖形化表示,該子圖形化表示是所述音頻內(nèi)容的圖形化表不的一部分。
21.一種在音頻內(nèi)容庫中搜索音頻內(nèi)容的方法,包括: 在與音頻內(nèi)容庫中的音頻內(nèi)容對應(yīng)的圖形化表示中搜索具有預(yù)定特征的音頻片段的子圖形化表示,其中音頻內(nèi)容庫中的音頻內(nèi)容具有對應(yīng)的圖形化表示,該圖形化表示由用于表示音頻內(nèi)容中被圖形化表示的對象的圖形化表示元素以及用于表示同一種被圖形化表示的對象之間的關(guān)聯(lián)關(guān)系的圖形化表示元素組成,所述子圖形化表示是具有預(yù)定特征的音頻片段所屬于的音頻內(nèi)容的圖形化表示的一部分; 呈現(xiàn)與搜索到的子圖形化表示對應(yīng)的音頻片段所屬于的音頻內(nèi)容。
22.如權(quán)利要求21所述的方法,其中所述預(yù)定特征是音頻片段中的說話者、談?wù)摰脑掝}、各說話者之間的談話模式、各說話者說話的先后順序、各個(gè)話題之間的承接關(guān)系中的至少一個(gè)。
23.一種在音頻內(nèi)容庫中搜索音頻內(nèi)容的設(shè)備,包括: 搜索裝置,被配置為在與音頻內(nèi)容庫中的音頻內(nèi)容對應(yīng)的圖形化表示中搜索具有預(yù)定特征的音頻片段的子圖形化表示,其中音頻內(nèi)容庫中的音頻內(nèi)容具有對應(yīng)的圖形化表示,該圖形化表示由用于表示音頻內(nèi)容中被圖形化表示的對象的圖形化表示元素以及用于表示被圖形化表示的對象之間的關(guān)聯(lián)關(guān)系的圖形化表示元素組成,所述子圖形化表示是具有預(yù)定特征的音頻片段所屬于的音頻內(nèi)容的圖形化表示的一部分; 呈現(xiàn)裝置,被配置為呈現(xiàn)與搜索到的子圖形化表示對應(yīng)的音頻片段所屬于的音頻內(nèi)容。
【文檔編號】G10L21/10GK104424955SQ201310385132
【公開日】2015年3月18日 申請日期:2013年8月29日 優(yōu)先權(quán)日:2013年8月29日
【發(fā)明者】廖勤櫻, 張世磊, 劉 文, 錢偉紅 申請人:國際商業(yè)機(jī)器公司