專利名稱:搜索裝置、搜索方法以及程序的制作方法
技術(shù)領(lǐng)域:
本公開涉及搜索裝置、搜索方法以及程序,尤其涉及能夠在聲音搜索中獲得靈活搜索結(jié)果的搜索裝置、搜索方法以及程序。
背景技術(shù):
作為使用由用戶輸入的聲音來搜索與該聲音對應(yīng)的詞語串(諸如,一組文本)的聲音搜索方法,舉例說明僅使用聲音識別裝置的方法(例如,參見日本未審查專利申請公開 No. 2001-242884)。在僅使用聲音識別裝置的聲音搜索中,對輸入聲音執(zhí)行聲音識別,同時預(yù)先登記在字典中的詞語(詞匯)序列被用作聲音識別裝置中的聲音識別結(jié)果的目標,并且聲音識別結(jié)果被輸出作為搜索結(jié)果詞語串,搜索結(jié)果詞語串是搜索與輸入聲音對應(yīng)的詞語串的結(jié)^ ο從而,由于作為用于與輸入聲音對應(yīng)的詞語串的搜索結(jié)果的目標的詞語串(以下還被稱為搜索結(jié)果目標詞語串)限于作為登記在詞典中的詞語的序列的詞語串(在本說明書中包括一個詞語),其在僅使用聲音識別裝置的聲音搜索中是聲音識別結(jié)果的目標,用戶的話語被限于登記在用于聲音識別的字典中的詞語的序列。從而,近年來已經(jīng)提出了被稱為語音搜索的聲音搜索方法。根據(jù)該語音搜索,語言模型(諸如,N-gram等)被用于執(zhí)行連續(xù)聲音識別,并且執(zhí)行聲音識別結(jié)果和登記在除用于聲音識別(從登記在DB中的多組文本中搜索與聲音識別結(jié)果對應(yīng)的多組文本)的字典之外還單獨準備的DB(數(shù)據(jù)庫)中的多組文本之間的匹配。然后,基于匹配結(jié)果,與聲音識別結(jié)果匹配的一個最高排列組的文本或N個最高排列組的文本被輸出為搜索結(jié)果詞語串。根據(jù)語音搜索,由于登記在除用于聲音識別的字典之外還單獨準備的DB中的多組文本變?yōu)樗阉鹘Y(jié)果目標詞語串,可以通過將多組文本登記在DB中并且使用多組文本作為搜索結(jié)果目標詞語串來執(zhí)行聲音搜索。S卩,根據(jù)語音搜索,可以在登記在DB中的多組文本的范圍內(nèi)執(zhí)行具有達到某一程度的準確度的聲音搜索,作為搜索結(jié)果目標詞語串,甚至用于包括除登記在用于聲音識別的字典中的詞語之外的詞語的用戶的話語。另外,已經(jīng)提出了一種方法,其中,對存儲聲音和圖像的多媒體文件執(zhí)行聲音識別,以從多媒體文件中的聲音生成用于編索引的多組文本,并且基于說話者指明來搜索多媒體文件中的聲音(參見日本未審查專利申請公開No. 2000-348064)。
發(fā)明內(nèi)容
根據(jù)相關(guān)技術(shù)中的語音搜索,如果用戶說相同的話(如果用戶發(fā)出相同的輸入聲音),則輸出相同搜索結(jié)果詞語串。S卩,根據(jù)相關(guān)技術(shù)中的語音搜索,當用戶A說特定話U時可以獲得的搜索結(jié)果詞語串也可以在用戶B說相同話U時獲得。然而,在一些情況下,用戶A和與用戶A不同的用戶B( S卩,例如,男性用戶A和女性用戶B)說相同的話的而希望不同搜索結(jié)果詞語串。從而,存在對可以根據(jù)用戶(說話者)而獲得不同和靈活的搜索結(jié)果詞語串的語音搜索的需求??紤]以上情況作出本公開,并且希望可以在聲音搜索中獲得靈活的搜索結(jié)果。根據(jù)本公開的實施例的搜索裝置或使計算機用作這種搜索裝置的程序包括聲音識別單元,其識別輸入聲音;用戶信息估計單元,其基于輸入聲音來估計輸入聲音的說話者的身體狀態(tài)和情感行為中的至少一個,并且輸出表示估計結(jié)果的用戶信息;匹配單元,其對于多個搜索結(jié)果目標詞語串中的每個,在搜索結(jié)果目標發(fā)音符號串和識別結(jié)果發(fā)音符號串之間執(zhí)行匹配,其中,搜索結(jié)果目標發(fā)音符號串是表示搜索結(jié)果目標詞語串的發(fā)音的發(fā)音符號的序列,識別結(jié)果發(fā)音符號串是表示用于輸入聲音的聲音識別結(jié)果的發(fā)音的發(fā)音符號的序列,多個搜索結(jié)果目標詞語串是作為與輸入聲音對應(yīng)的詞語串的搜索結(jié)果的目標的詞語串;以及生成單元,其基于搜索結(jié)果目標發(fā)音符號串和識別結(jié)果發(fā)音符號串之間的匹配結(jié)果,從多個搜索結(jié)果目標詞語串中生成搜索結(jié)果詞語串,作為用于與輸入聲音對應(yīng)的詞語串的搜索結(jié)果,其中,匹配單元和生成單元中的至少一個根據(jù)用戶信息來改變處理。根據(jù)本公開的實施例的由搜索與輸入聲音對應(yīng)的詞語串的搜索裝置進行的搜索方法包括識別輸入聲音;基于輸入聲音來估計輸入聲音的說話者的身體狀態(tài)和情感行為中的至少一個,并且輸出表示估計結(jié)果的用戶信息;對于多個搜索結(jié)果目標詞語串中的每個,在搜索結(jié)果目標發(fā)音符號串和識別結(jié)果發(fā)音符號串之間執(zhí)行匹配,其中,搜索結(jié)果目標發(fā)音符號串是表示搜索結(jié)果目標詞語串的發(fā)音的發(fā)音符號的序列,識別結(jié)果發(fā)音符號串是表示用于輸入聲音的聲音識別結(jié)果的發(fā)音的發(fā)音符號的序列,多個搜索結(jié)果目標詞語串是作為與輸入聲音對應(yīng)的詞語串的搜索結(jié)果的目標的詞語串;以及基于搜索結(jié)果目標發(fā)音符號串和識別結(jié)果發(fā)音符號串之間的匹配結(jié)果,從多個搜索結(jié)果目標詞語串中生成搜索結(jié)果詞語串,作為與輸入聲音對應(yīng)的詞語串的搜索結(jié)果,其中,在執(zhí)行匹配和生成搜索結(jié)果詞語串中的至少一個期間,根據(jù)用戶信息來改變處理。根據(jù)上述本公開的實施例,識別輸入聲音,基于輸入聲音來估計輸入聲音的說話者的身體狀態(tài)和情感行為中的至少一個,并且輸出表示估計結(jié)果的用戶信息。對于多個搜索結(jié)果目標詞語串中的每個,在搜索結(jié)果目標發(fā)音符號串和識別結(jié)果發(fā)音符號串之間執(zhí)行匹配,其中,搜索結(jié)果目標發(fā)音符號串是表示搜索結(jié)果目標詞語串的發(fā)音的發(fā)音符號的序列,識別結(jié)果發(fā)音符號串是表示用于輸入聲音的聲音識別結(jié)果的發(fā)音的發(fā)音符號的序列, 多個搜索結(jié)果目標詞語串是作為與輸入聲音對應(yīng)的詞語串的搜索結(jié)果的目標的詞語串,并且基于搜索結(jié)果目標發(fā)音符號串和識別結(jié)果發(fā)音符號串之間的匹配結(jié)果,從多個搜索結(jié)果目標詞語串中生成搜索結(jié)果詞語串,作為與輸入聲音對應(yīng)的詞語串的搜索結(jié)果。在該情況下,在搜索結(jié)果目標發(fā)音符號串和識別結(jié)果發(fā)音符號串之間的匹配和搜索結(jié)果詞語串的生成中的至少一個中,根據(jù)用戶信息來改變處理。搜索裝置可以是獨立裝置或者構(gòu)成一裝置的內(nèi)部塊。另外,可以通過發(fā)射介質(zhì)發(fā)射或記錄在記錄介質(zhì)中來提供程序。根據(jù)本公開的實施例,可以在聲音搜索中獲得靈活搜索結(jié)果。
圖1是示出根據(jù)應(yīng)用本公開的實施例的記錄器的配置示例的框圖;圖2是示出聲音搜索裝置的配置示例的框圖;圖3是示出在使用記法符號的匹配中關(guān)于由不同記法表達的話語而獲得用于聲音識別結(jié)果的不同匹配結(jié)果對于聲音搜索性能是不利的示意圖;圖4是示出當雙音節(jié)串接(two-syllable concatenation)被用作匹配單位時發(fā)音符號轉(zhuǎn)換單元的處理的示意圖;圖5是示出當雙音節(jié)串接被用作匹配單位時發(fā)音符號轉(zhuǎn)換單元的處理的示意圖;圖6是示出以詞語為單位的匹配、以音節(jié)為單位的匹配以及以雙音節(jié)串接為單位的匹配的結(jié)果的示意圖;圖7是示出當余弦距離、第一校正距離以及第二校正距離被用作聲音識別結(jié)果和搜索結(jié)果目標詞語串之間的相似度時匹配仿真結(jié)果的示意圖;圖8是示出當余弦距離、第一校正距離以及第二校正距離被用作聲音識別結(jié)果和搜索結(jié)果目標詞語串之間的相似度時另一匹配仿真結(jié)果的示意圖;圖9是示出搜索結(jié)果目標向量和向量代替信息的示意圖;圖10是示出當向量代替信息代替搜索結(jié)果目標向量使用時,聲音識別結(jié)果和搜索結(jié)果目標詞語串之間的相似度的計算的示意圖;圖11是示出聲音搜索裝置的處理的流程圖;圖12是示出由用戶信息估計單元進行的用戶信息估計處理的示意圖;圖13是示出由用戶信息估計單元進行的用戶信息估計處理的示意圖;圖14是示出通過輔助語言信息提取單元估計輸入聲音的聲音區(qū)段中的強調(diào)區(qū)段作為輔助語言信息的方法的示意圖;圖15是示出通過輔助語言信息提取單元使用說話速度來估計輸入聲音的聲音區(qū)段中的強調(diào)區(qū)段的方法的示意圖;圖16是示出在相關(guān)詞語使用匹配模式下的匹配處理的流程圖;圖17是示出在相關(guān)詞語使用排序(sort)模式下生成搜索結(jié)果詞語串的處理的流程圖;圖18是示出在相關(guān)詞語使用排序模式下生成的搜索結(jié)果詞語串的示意圖;圖19是示出分別在正常模式和在相關(guān)詞語使用排序模式下生成的搜索結(jié)果詞語串的示意圖;圖20是示出在加權(quán)匹配模式下的匹配處理的流程圖;圖21A和圖21B是示出在加權(quán)匹配模式下的匹配處理的示意圖;圖22是示出分別在正常模式下和在加權(quán)匹配模式下獲得的搜索結(jié)果詞語串的示意圖;以及圖23是示出根據(jù)應(yīng)用本公開的實施例的計算機的配置示例的框圖。
具體實施例方式[應(yīng)用本公開的記錄器的一個實施例]
圖1是示出根據(jù)應(yīng)用本公開的搜索裝置的實施例的記錄器的配置示例的框圖。在圖1中,記錄器包括聲音搜索裝置10、記錄器功能單元20、操作單元31、控制單元32以及輸出I/F(接口)33。由用戶發(fā)出的輸入聲音(的數(shù)據(jù))通過在圖中未示出的麥克風等提供給聲音搜索裝置10。聲音搜索裝置10使用提供到其的輸入聲音,以通過例如語音搜索執(zhí)行聲音搜索, 并且將被獲得作為結(jié)果的搜索結(jié)果詞語串提供給輸出I/F33。記錄器功能單元20包括調(diào)諧器21、記錄和再現(xiàn)單元22以及記錄介質(zhì)23,并且執(zhí)行電視廣播節(jié)目的記錄(視頻記錄)和再現(xiàn)。即,通過例如在圖中未示出的天線接收的數(shù)字廣播將電視廣播信號提供給調(diào)諧器 21。調(diào)諧器21接收提到其的電視廣播信號,從電視廣播信號中提取預(yù)定頻道的電視廣播信號,對比特流進行解調(diào),并且將解調(diào)后的比特流提供給記錄和再現(xiàn)單元22。記錄和再現(xiàn)單元22從由調(diào)諧器21提供的比特流中提取EPG(電子節(jié)目指南)、節(jié)目數(shù)據(jù)等,并且將它們提供給輸出I/F 33。另外,記錄和再現(xiàn)單元22將EPG和節(jié)目數(shù)據(jù)(視頻記錄)記錄在記錄介質(zhì)23中。此外,記錄和再現(xiàn)單元22從記錄介質(zhì)23再現(xiàn)節(jié)目數(shù)據(jù)并且將該數(shù)據(jù)提供給輸出 I/F 33。記錄介質(zhì)23是例如HD (硬盤)等,并且EPG和節(jié)目數(shù)據(jù)通過記錄和再現(xiàn)單元22 被記錄在記錄介質(zhì)23中。操作單元31包括遠程指揮者、提供在記錄器的盒體上的按鈕、在圖中未示出的顯示器上顯示為GUI (圖形用戶界面)的按鈕等。操作單元31由用戶操作并且將與該操作對應(yīng)的操作信號提供給控制單元32??刂茊卧?2控制構(gòu)成記錄器的框,包括聲音搜索裝置10、記錄器功能單元20等, 并且響應(yīng)于來自操作單元31的操作信號等執(zhí)行其他處理。將EPG和節(jié)目數(shù)據(jù)從記錄和再現(xiàn)單元22提供給輸出I/F 33。另外,將作為關(guān)于輸入聲音的聲音搜索的結(jié)果的搜索結(jié)果詞語串從聲音搜索裝置10提供給輸出I/F 33。另外,輸出I/F 33是連接至諸如TV(電視接收器)等的顯示裝置(其至少可以顯示圖像)的接口,并且將來自記錄和再現(xiàn)單元22的EPG和節(jié)目數(shù)據(jù)以及來自聲音搜索裝置 10的搜索結(jié)果詞語串提供給例如連接至輸出單元I/F 33的在圖中未示出的TV。[聲音搜索裝置10的配置示例]根據(jù)實施例的聲音搜索裝置可以包括聲音識別單元,其識別輸入聲音;用戶信息估計單元,其基于輸入聲音來估計輸入聲音的說話者的身體狀態(tài)和情感行為中的至少一個,并且輸出表示估計結(jié)果的用戶信息;匹配單元,其對于多個搜索結(jié)果目標詞語串中的每個,在搜索結(jié)果目標發(fā)音符號串和識別結(jié)果發(fā)音符號串之間執(zhí)行匹配,其中,搜索結(jié)果目標發(fā)音符號串是表示搜索結(jié)果目標詞語串的發(fā)音的發(fā)音符號的序列,識別結(jié)果發(fā)音符號串是表示用于輸入聲音的聲音識別結(jié)果的發(fā)音的發(fā)音符號的序列,多個搜索結(jié)果目標詞語串是作為與輸入聲音對應(yīng)的詞語串的搜索結(jié)果的目標的詞語串;以及生成單元,其基于搜索結(jié)果目標發(fā)音符號串和識別結(jié)果發(fā)音符號串之間的匹配結(jié)果,從多個搜索結(jié)果目標詞語串中生成搜索結(jié)果詞語串,作為用于與輸入聲音對應(yīng)的詞語串的搜索結(jié)果,其中,匹配單元和生成單元中的至少一個根據(jù)用戶信息來改變處理。圖2是示出圖1中的聲音搜索裝置10的配置示例的框圖。在圖2中,聲音搜索裝置10包括聲音識別單元51、發(fā)音符號轉(zhuǎn)換單元52、搜索結(jié)果目標存儲單元53、語素分析單元M、發(fā)音符號轉(zhuǎn)換單元55、匹配單元56、生成單元57以及用戶信息估計單元58,并且通過語音搜索執(zhí)行聲音搜索。在此,根據(jù)相關(guān)技術(shù)中的語音搜索,使用作為表示音頻識別結(jié)果和搜索結(jié)果目標詞語串的各個記法的符號的記法符號,以詞語為單位或者以記法符號為單位,在聲音識別結(jié)果和作為搜索結(jié)果目標詞語串的該組文本之間執(zhí)行匹配。從而,如果聲音識別結(jié)果中的記法符號存在錯誤,則與對應(yīng)于輸入聲音的詞語串完全不同的搜索結(jié)果目標詞語串在匹配期間與聲音識別結(jié)果匹配,并且作為結(jié)果,與對應(yīng)于輸入聲音的詞語串完全不同的這種搜索結(jié)果目標詞語串被輸出為搜索結(jié)果詞語串。S卩,當用戶發(fā)出例如“T0SHIN0SEKAI”作為輸入聲音,并且聲音識別結(jié)果的記法符號串是例如“TOSHI NO SEKAI (城市的世界),,時,聲音識別結(jié)果“TOSHI NO SEKAI"的記法符號串被分成每個詞語為“T0SHI/N0/SEKAI/(城市的世界)”(斜線(/)表示分離),并且以詞語為單位執(zhí)行匹配,同時聲音識別結(jié)果的記法符號串“TOSHI NO SEKAI (城市的世界)” 被劃分為每個記法符號為“T0/SHI/N0/SE/KAI (城市的世界)”,并且以記法符號為單位執(zhí)行匹配。另一方面,如果用于輸入聲音“T0SHIN0SEKAI”的聲音識別結(jié)果的記法符號串是 "TOSHI NO SE KAI (是年尾?)”,則聲音識別結(jié)果的記法符號串“TOSHI NO SE KAI (是年尾?)”被劃分為每個詞語為“/T0SHI/N0/SE/KAI/(是年尾?)”,并且以詞語為單位執(zhí)行匹配,同時聲音識別結(jié)果的記法符號串“TOSHI NO SE KAI (是年尾?)”被劃分為每個記法符號為“T0SHI/N0/SE/KA/I (是年尾?)”,并且以記法符號為單位執(zhí)行匹配。從而,與聲音識別結(jié)果匹配的搜索結(jié)果目標詞語串在用于輸入聲音 "T0SHIN0SEKAI,,的聲音識別結(jié)果的記法符號串是“TOSHI NO SEKAI (城市的世界),,的情況下和在用于輸入聲音“T0SHIN0SEKAI”的聲音識別結(jié)果的記法符號串是“TOSHI NO SE ΚΑΙ”(是年尾?)的情況下非常不同,并且作為結(jié)果,與對應(yīng)于輸入聲音的詞語串完全不同的搜索結(jié)果目標詞語串被輸出為搜索結(jié)果詞語串,同時與輸入聲音對應(yīng)的詞語串在一些情況下不被輸出為搜索結(jié)果詞語串。結(jié)果,使用記法符號的匹配不一定與聲音識別結(jié)果具有密切關(guān)系,并且與輸入聲音對應(yīng)的詞語串在一些情況下不被獲得作為搜索結(jié)果詞語串。為此原因,聲音搜索裝置10可以通過使用作為表示聲音識別結(jié)果的各個發(fā)音的符號的發(fā)音符號和搜索結(jié)果目標詞語串,以健壯方式(robust manner)執(zhí)行對與輸入聲音對應(yīng)的詞語串的搜索,以在聲音識別結(jié)果和搜索結(jié)果目標詞語串之間執(zhí)行匹配,從而防止與輸入聲音對應(yīng)的詞語串不被輸出作為搜索結(jié)果詞語串。S卩,在圖2中的聲音搜索裝置10中,將作為用戶話語的輸入聲音(的數(shù)據(jù))從圖中未示出的麥克風等提供給聲音識別單元51。聲音識別單元51識別提供到其的輸入聲音并且將聲音識別結(jié)果(例如,其記法符號)提供給發(fā)音符號轉(zhuǎn)換單元52。
發(fā)音符號轉(zhuǎn)換單元52將從聲音識別單元51提供的用于輸入聲音的聲音識別結(jié)果 (例如,其記法符號)轉(zhuǎn)換為具有表示聲音識別結(jié)果的發(fā)音的發(fā)音符號序列的識別結(jié)果發(fā)音符號串,并且將轉(zhuǎn)換后的識別結(jié)果發(fā)音符號串提供給匹配單元56。對多個搜索結(jié)果目標詞語串(即,在匹配單元56中)執(zhí)行與聲音識別結(jié)果的匹配,并且搜索結(jié)果目標存儲單元53將可以作為搜索結(jié)果詞語串的詞語串(例如,詞語串的作為記法符號的一組文本)存儲為用于與輸入聲音對應(yīng)的詞語串的搜索的結(jié)果。在此,節(jié)目的標題、表演者的名稱、包括節(jié)目的內(nèi)容的詳細信息等(例如作為存儲在圖1中的記錄器的記錄介質(zhì)23中的EPG的組分)被提供給并且存儲在搜索結(jié)果目標存儲單元53中。另外,節(jié)目的標題、表演者的名稱、詳細信息等(例如,其是在圖1中的記錄器的記錄介質(zhì)23中被視頻記錄(記錄)的節(jié)目(視頻記錄節(jié)目)的元數(shù)據(jù))被提供給并且存儲在搜索結(jié)果目標存儲單元53中。從而,根據(jù)本實施例,聲音搜索裝置10執(zhí)行聲音搜索,同時使用節(jié)目的標題、表演者的名稱、詳細信息等作為搜索結(jié)果目標詞語串。語素分析單元M通過對存儲在搜索結(jié)果目標存儲單元53中的搜索結(jié)果目標詞語串執(zhí)行語素分析,將搜索結(jié)果目標詞語串劃分為詞語(語素)單位,并且將劃分單位提供給發(fā)音符號轉(zhuǎn)換單元55。發(fā)音符號轉(zhuǎn)換單元55將從語素分析單元M提供的搜索結(jié)果目標詞語串(例如, 其記法符號)轉(zhuǎn)換為搜索結(jié)果目標發(fā)音符號串,作為表示搜索結(jié)果目標詞語串的發(fā)音的發(fā)音符號序列,并且將搜索結(jié)果目標發(fā)音符號串提供給匹配單元56。 匹配單元56在來自發(fā)音符號轉(zhuǎn)換單元52的識別結(jié)果發(fā)音符號串和來自發(fā)音符號轉(zhuǎn)換單元55的搜索結(jié)果目標發(fā)音符號串之間執(zhí)行匹配,并且將匹配結(jié)果提供給生成單元 57。S卩,匹配單元56在存儲在搜索結(jié)果目標存儲單元53中的所有搜索結(jié)果目標詞語串中的每個和用于使用聲音識別結(jié)果的發(fā)音符號及搜索結(jié)果目標詞語串的發(fā)音符號的輸入聲音的聲音識別結(jié)果之間執(zhí)行匹配。匹配單元56在存儲在搜索結(jié)果目標存儲單元53中的所有搜索結(jié)果目標詞語串中的每個和用于輸入聲音的聲音識別結(jié)果之間執(zhí)行匹配,并且將匹配結(jié)果提供給生成單元 57。另外,在識別結(jié)果發(fā)音符號串和搜索結(jié)果目標發(fā)音符號串之間的匹配中,獲得表示識別結(jié)果發(fā)音符號串和搜索結(jié)果目標發(fā)音符號串相互類似的程度的相似度。可以使用例如向量空間方法的余弦距離等作為相似度。生成單元57基于來自匹配單元56的匹配結(jié)果,從存儲在搜索結(jié)果目標存儲單元 53中的搜索結(jié)果目標詞語串中生成搜索結(jié)果詞語串,作為用于與輸入聲音對應(yīng)的詞語串的搜索結(jié)果。即,生成單元57從存儲在搜索結(jié)果目標存儲單元53中的搜索結(jié)果目標詞語串中, 選擇具有排列最高的相似度的搜索結(jié)果目標詞語串作為匹配結(jié)果,并且將所選搜索結(jié)果目標詞語串作為搜索結(jié)果詞語串。將提供給聲音識別單元51的相同輸入聲音提供給用戶信息估計單元58。
用戶信息估計單元58基于輸入聲音來估計作為輸入聲音的說話者的用戶的身體狀態(tài)和情感行為中的至少一個,并且輸出表示估計結(jié)果的用戶信息。由用戶信息估計單元 58輸出的用戶信息被提供給匹配單元56和生成單元57。在此,用戶信息估計單元58包括非言語信息提取單元58A和輔助語言信息提取單元 58B。非言語信息提取單元58A基于提供給用戶信息估計單元58的用戶的輸入聲音來提取非言語信息,作為與用戶的身體狀態(tài)相關(guān)的信息。輔助語言信息提取單元58B基于提供給用戶信息估計單元58的用戶的輸入聲音提取輔助語言信息,作為與用戶的思想方法相關(guān)的信息。然后,用戶信息估計單元58將由非言語信息提取單元58A提取的非言語信息和由輔助語言信息提取單元58B提取的輔助語言信息中的一個或兩者提供給匹配單元56和生成單元57作為用戶信息。從而,用戶信息包括非言語信息和輔助語言信息。非言語信息提取單元58A基于例如用戶輸入聲音的音調(diào)檢測、使用輸入聲音的說話者指明等,從輸入聲音中提取(估計)與用戶的身體狀態(tài)相關(guān)的信息作為非言語信息,與用戶的身體狀態(tài)相關(guān)的信息包括發(fā)出輸入聲音的用戶(說話者)的性別、發(fā)出輸入聲音的用戶的年齡組(例如,關(guān)于用戶是孩子還是成人的信息)、指明發(fā)出輸入聲音的用戶對應(yīng)于哪個用戶的信息(例如,用戶的名稱、指明用戶的ID(標識)等)等。另外,輔助語言信息提取單元58B基于韻律信息(諸如,例如用戶的輸入聲音的音調(diào)(語音的音調(diào))、功率(語音的音量)、說話速度(語音的速度)m等),從輸入聲音中提取(估計)與情感行為(諸如,用戶的意圖、情感等)相關(guān)的信息作為輔助語言信息,與情感行為相關(guān)的信息包括用戶想要強調(diào)一部分的信息。特別地,例如,通過輔助語言信息提取單元58B將用戶在輸入聲音的聲音區(qū)段中作出強調(diào)話語的強調(diào)區(qū)段估計為輔助語言信息。用戶信息估計單元58將前述非言語信息和輔助語言信息提供給匹配單元56和生成單元57作為用戶信息。另外,匹配單元56和生成單元57中的至少一個根據(jù)從用戶信息估計單元58提供的用戶信息改變處理。S卩,在圖2中的聲音搜索裝置10中準備多個操作模式,并且匹配單元56和生成單元57在作為多個操作模式中的一個的正常模式下,在不使用從用戶信息估計單元58提供的用戶信息的情況下,分別執(zhí)行匹配處理和生成搜索結(jié)果詞語串的處理。另外,除正常模式之外,操作模式還包括隨后將描述的相關(guān)詞語使用匹配模式、相關(guān)詞語使用排序模式以及加權(quán)匹配模式。當相關(guān)詞語使用匹配模式或加權(quán)匹配模式被設(shè)置為操作模式時,匹配單元56使用從用戶信息估計單元58提供的用戶信息執(zhí)行匹配處理,隨后將描述。另外,當相關(guān)詞語使用排序模式被設(shè)置為操作模式時,生成單元57使用從用戶信息估計單元58提供的用戶信息執(zhí)行生成搜索結(jié)果詞語串的處理,隨后將描述。例如通過操作單元31的用戶操作來設(shè)置聲音搜索裝置10的操作模式。基于語音搜索的聲音搜索處理根據(jù)依照上述聲音搜索裝置10的用戶話語執(zhí)行。
10
S卩,當用戶說話,并且將作為話語的輸入聲音提供給聲音識別單元51時,聲音識別單元51識別輸入聲音并且將用于輸入聲音的聲音識別結(jié)果提供給發(fā)音符號轉(zhuǎn)換單元 52。發(fā)音符號轉(zhuǎn)換單元52將來自聲音識別單元51的用于輸入聲音的聲音識別結(jié)果轉(zhuǎn)換為識別結(jié)果發(fā)音符號串,并且將識別結(jié)果發(fā)音符號串提供給匹配單元56。另一方面,語素分析單元M對存儲在搜索結(jié)果目標存儲單元53中的所有搜索結(jié)果目標詞語串執(zhí)行語素分析,并且將搜索結(jié)果目標詞語串提供給發(fā)音符號轉(zhuǎn)換單元55。發(fā)音符號轉(zhuǎn)換單元55將來自語素分析單元M的搜索結(jié)果目標詞語串轉(zhuǎn)換為搜索結(jié)果目標發(fā)音符號串,并且將搜索結(jié)果目標發(fā)音符號串提供給匹配單元56。匹配單元56使用來自發(fā)音符號轉(zhuǎn)換單元52的識別結(jié)果發(fā)音符號串和來自發(fā)音符號轉(zhuǎn)換單元55的搜索結(jié)果目標發(fā)音符號串,在存儲在搜索結(jié)果目標存儲單元53中的所有搜索結(jié)果目標詞語串中的每個與用于輸入聲音的聲音識別結(jié)果之間執(zhí)行匹配,并且將匹配結(jié)果提供給生成單元57。生成單元57基于來自匹配單元56的匹配結(jié)果,從存儲在搜索結(jié)果目標存儲單元 53中的搜索結(jié)果目標詞語串中選擇和輸出(假設(shè)的搜索結(jié)果目標詞語串)搜索結(jié)果詞語串,作為用于與輸入聲音對應(yīng)的詞語串的搜索的結(jié)果。從而,用戶可以僅通過說話而從存儲在搜索結(jié)果目標存儲單元53中的搜索結(jié)果目標詞語串中獲得(搜索結(jié)果目標詞語串作為)與用戶話語匹配的搜索結(jié)果詞語串。另外,用戶發(fā)出的輸入聲音不僅被提供給聲音識別單元51,而且還被提供給聲音搜索裝置10中的用戶信息估計單元58。用戶信息估計單元58基于提供到其的輸入聲音來估計用戶信息,并且將所估計的用戶信息提供給匹配單元56和生成單元57。匹配單元56和生成單元57根據(jù)操作模式,在使用或者不使用來自用戶信息估計單元58的信息的情況下分別執(zhí)行處理。根據(jù)具有上述聲音搜索裝置10的圖1中的記錄器,可以從例如被視頻記錄的節(jié)目 (視頻記錄節(jié)目)中通過聲音搜索來搜索和再現(xiàn)用戶希望的節(jié)目。S卩,例如,如果用戶發(fā)出輸入聲音“SEKAI ISAN(世界遺產(chǎn))”作為用于將被再現(xiàn)的節(jié)目的聲音搜索的關(guān)鍵字,則聲音搜索裝置10通過對作為搜索結(jié)果目標詞語串的存儲在搜索結(jié)果目標存儲單元53中的視頻記錄器節(jié)目的標題等執(zhí)行聲音搜索,來生成與輸入聲音“SEKAI ISAN(世界遺產(chǎn))”具有類似發(fā)音的預(yù)定數(shù)量的節(jié)目標題作為搜索結(jié)果詞語串, 并且將所生成的搜索結(jié)果詞語串提供給輸出I/F 33。然后,輸出I/F 33使作為搜索結(jié)果詞語串的節(jié)目標題(在連接至記錄器的TV (電視接收器)等上)顯示為將被再現(xiàn)的候選節(jié)目(再現(xiàn)候選節(jié)目)。此后,當用戶通過對操作單元31等進行操作而從再現(xiàn)候選節(jié)目中選擇將被再現(xiàn)的一個節(jié)目時,記錄器功能單元20再現(xiàn)該節(jié)目。雖然在圖2中提供兩個發(fā)音符號轉(zhuǎn)換單元52和55,但是可以通過一個發(fā)音符號轉(zhuǎn)換單元實現(xiàn)這兩個發(fā)音符號轉(zhuǎn)換單元52和55。雖然作出了(多組文本作為)搜索結(jié)果目標詞語串的記法符號被存儲在搜索結(jié)果目標存儲單元53中的圖2的描述,但是還可以允許搜索結(jié)果目標存儲單元53不僅存儲搜索結(jié)果目標詞語串(的記法符號),而且還存儲通過將搜索結(jié)果目標詞語串轉(zhuǎn)換為發(fā)音符號而獲得的搜索結(jié)果目標發(fā)音符號串。在這種情況下,可以在不提供語素分析單元M和發(fā)音符號轉(zhuǎn)換單元55的情況下配置聲音搜索裝置10。雖然作出了聲音識別單元51執(zhí)行用于輸入聲音的聲音識別并且輸出聲音識別結(jié)果的記法符號的圖2的描述,但是還可以允許聲音識別單元51輸出聲音識別結(jié)果的發(fā)音符號(識別結(jié)果發(fā)音符號串)。在這種情況下,可以在不提供發(fā)音符號轉(zhuǎn)換單元52的情況下配置聲音搜索裝置 10。[匹配單元56進行的匹配]將參考圖3至圖10作出由圖2中的匹配單元56進行的匹配的描述。圖3是示出聲音識別結(jié)果和作為搜索結(jié)果目標詞語串的一組文本之間的匹配的示意圖,其中,使用表示聲音識別結(jié)果和搜索結(jié)果目標詞語串中的每個的記法符號來執(zhí)行匹配。在此,在一些情況下,記法符號與發(fā)音不相符。特別地,雖然平假名“ha”的發(fā)音(讀音)在一些情況下是“HA”或者在其他情況下是“WA”,但是發(fā)音的差異不由記法符號表達。另外,例如,對于具有多個讀音的中文字符,諸如“shi”,讀音(發(fā)音)是“SHI”還是“ICHI”不由記法符號表達。另一方面,例如,由記法符號表達的詞語串“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”和“TOSHI NO SE KAISAN(在年尾解散)”具有相同發(fā)音,但是除“NO”之外具有不同記法符號。為此原因,當聲音識別結(jié)果是“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”和當聲音識別結(jié)果是“TOSHI NO SE KAISAN(在年尾解散)”時,在使用記法符號的匹配中獲得不同匹配結(jié)果,這不一定對聲音搜索性能有益。S卩,圖3是示出在使用記法符號的匹配中關(guān)于用相同發(fā)音和不同記法表達的話語獲得用于聲音識別結(jié)果的不同匹配結(jié)果對聲音搜索性能是不利的示意圖。在圖3中,輸入聲音“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”經(jīng)過聲音識別,并且錯誤地獲得聲音識別結(jié)果“TOSHI NO SE KAISAN(在年尾解散)”(其與輸入聲音 "TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”具有相同的發(fā)音)和不同記法。在圖3中,聲音識別結(jié)果“TOSHI NO SE KAISAN(在年尾解散)”被劃分為記法符號單位為“T0SHI/N0/SE/KAISAN(在年尾解散),,(斜線(/)表示隔離),并且以記法符號為單位執(zhí)行匹配。此外,例如,包括“SEKAI ISAN TOSHI NO ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”、“SET0 NO HAISHA SAN(Seto中的牙科醫(yī)生)”以及“SHUIN KAISAN NO TOSHI (眾議院解體發(fā)生的一年)”的三個節(jié)目標題被準備為將經(jīng)過圖3中的匹配的搜索結(jié)果目標詞語串。按照以記法符號為單位,僅在圖中畫圈的一個記法符號“N0”與聲音識別結(jié)果 "TOSHI NO SE KAISAN(在年尾解散)”和搜索結(jié)果目標詞語串“SEKAI ISAN TOSHI NO ISAN (世界遺產(chǎn)城市中的遺產(chǎn))”相符。另外,按照以記法符號為單位,在圖中畫圈的兩個記法符號“SE”和“No”與聲音識別結(jié)果“TOSHI NO SE KAISAN(在年尾解散)”和搜索結(jié)果目標詞語串“SETO NO HAISHA SAN (Seto中的牙科醫(yī)生)”相符。此外,按照以記法符號為單元,圖中畫圈的四個記法符號“ΚΑΙ ”、“SAN”、“NO”和 “T0SHI”與聲音識別結(jié)果“TOSHI NO SE KAISAN(在年尾解散)”和搜索結(jié)果目標詞語串 "SHUIN KAISAN NO TOSHI (眾議院解體發(fā)生的一年)”相符。從而,對于聲音識別單元和搜索結(jié)果目標詞語串之間的相似度(其在以記法符號為單位的匹配中獲得),聲音識別結(jié)果“TOSHI NO SE KAISAN(在年尾解散)”和搜索結(jié)果目標詞語串“SHUIN KAISAN NO TOSHI (眾議院解體發(fā)生的一年)”之間的相似度是最高的。S卩,例如,采用余弦距離作為在以記法符號為單位的匹配中獲得的相似度。另外,用1表示與詞語串中存在的記法符號對應(yīng)的成分和用0表示與詞語串中不存在的記法符號對應(yīng)的成分的向量被用作表示詞語串的向量,并且使用表示兩個詞語串的向量來獲得作為這兩個詞語串之間的相似度的余弦距離。在這種情況下,在以記法符號為單位的匹配中,0. 15被獲得作為聲音識別結(jié)果 "TOSHI NO SE KAISAN(在年尾解散)”和搜索結(jié)果目標詞語串“SEKAI ISAN TOSHI NO ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”之間的相似度,0. 32被獲得作為聲音識別結(jié)果“TOSHI NO SE KAISAN(在年尾解散)”和搜索結(jié)果目標詞語串“SETO NO HAISHA SAN^eto中的牙科醫(yī)生)”之間的相似度,并且0.73被獲得作為聲音識別結(jié)果“TOSHI NO SE KAISAN(在年尾解散)”和搜索結(jié)果目標詞語串“SHUIN KAISAN NO TOSHI (眾議院解體發(fā)生的一年)”之間的相似度。從而,例如,如果被獲得作為匹配結(jié)果的具有排列最高的相似度的搜索結(jié)果目標詞語串被假設(shè)為搜索結(jié)果詞語串,并且甚至當用于輸入聲音“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”的聲音識別是錯誤的,并且獲得聲音識別結(jié)果“TOSHI NO SE KAISAN(在年尾解散)”時,在包括作為搜索結(jié)果目標詞語串的“SEKAI ISAN TOSHI NO ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”、“SET0 NO HAISHA SAN(Seto中的牙科醫(yī)生)”以及“SHUIN KAISAN NO TOSHI (眾議院解體發(fā)生的一年),,的三個節(jié)目標題中“SHUIN KAISAN NO TOSHI (眾議院解體發(fā)生的一年)”被認為是搜索結(jié)果詞語串。關(guān)于輸入聲音“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”,在包括“SEKAI ISAN TOSHI NO ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”、“SET0 NO HAISHA SAN(Seto中的牙科醫(yī)生)” 以及“SHUIN KAISAN NO TOSHI (眾議院解體發(fā)生的一年)”的前述三個節(jié)目標題中,第一節(jié)目標題“SEKAI ISAN TOSHI NO ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”被認為是搜索結(jié)果詞語串是合適的。然而,如果用于輸入聲音“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”的聲音識別被錯誤地執(zhí)行,并且獲得具有相同發(fā)音(讀音)和不同記法的“TOSHI NO SE KAISAN(在年尾解散)”,則關(guān)于輸入聲音“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”不是合適節(jié)目標題“SEKAI ISAN TOSHI NO ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”而是節(jié)目標題“SHUIN KAISAN NO TOSHI (眾議院解體發(fā)生的一年)”(其與“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))” 無關(guān))被獲得作為搜索結(jié)果詞語串。另外,當具有相同記法的“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”被獲得作為用于輸入聲音“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”的聲音識別結(jié)果時,與適合于輸入聲音“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”的節(jié)目標題“SEKAI ISAN T0SHIN0 ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”的相似度是排列最高的,并且“SEKAI ISAN TOSHI NO ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”被獲得作為搜索結(jié)果詞語串。如上所述,當聲音識別結(jié)果是“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”時并且當聲音識別結(jié)果是“TOSHI NO SE KAISAN(在年尾解散)”時,在使用記法符號的匹配中獲得不同匹配結(jié)果(聲音識別結(jié)果和每個搜索結(jié)果目標詞語串之間的相似度),并且結(jié)果, 在一些情況下,適合于輸入聲音“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”的節(jié)目標題“SEKAI ISAN TOSHI NO ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”被獲得作為搜索結(jié)果目標詞語串,并且在其他情況下,這種合適標題不被獲得作為搜索結(jié)果詞語串,而與輸入聲音“T0SHI NOSEKAI ISAN(城市中的世界遺產(chǎn))”無關(guān)的節(jié)目標題“SHUIN KAISAN NO TOSHI (眾議院解體發(fā)生的一年)”被獲得作為搜索結(jié)果詞語串。從而,聲音搜索裝置10(圖幻中的匹配單元56使用發(fā)音符號執(zhí)行匹配,以防止適合于輸入聲音的節(jié)目標題不被輸出為搜索結(jié)果詞語串。在此,例如,發(fā)音符號是表達音節(jié)或音素的符號,并且例如對于日語可以采用平假名(其表達讀音)。在使用發(fā)音符號的匹配中,可以采用(一個)音節(jié)、兩個或更多音節(jié)串接、(一個) 音素、兩個或更多語素串接等作為匹配的單位。另外,匹配結(jié)果和這樣的聲音搜索性能根據(jù)在使用發(fā)音符號的匹配中采用哪個匹配單位而不同。圖4是示出當兩個音節(jié)串接(連續(xù)的兩個音節(jié))被用作匹配單元56 (圖2)進行匹配的單位時,圖2中的發(fā)音符號轉(zhuǎn)換單元55的處理的示意圖。用于輸入聲音的聲音識別結(jié)果(例如,其記法符號)被從聲音識別單元51提供給發(fā)音符號轉(zhuǎn)換單元52。發(fā)音符號轉(zhuǎn)換單元52將從聲音識別單元51提供的聲音識別結(jié)果轉(zhuǎn)換為音節(jié)序列。此外,發(fā)音符號轉(zhuǎn)換單元55提取雙音節(jié)串接,雙音節(jié)串接包括受到關(guān)注的音節(jié)和緊接在受到關(guān)注的音節(jié)之后的音節(jié)的兩個音節(jié),同時從搜索結(jié)果目標詞語串中的音節(jié)序列的頂部朝向音節(jié)序列的末端一個接一個地關(guān)注音節(jié),并且將雙音節(jié)串接的序列提供給匹配單元56 (圖2)作為識別結(jié)果發(fā)音符號串。圖5是示出當雙音節(jié)串接被用作用于由匹配單元56(圖2)進行匹配的單位時,圖 2中的發(fā)音符號轉(zhuǎn)換單元52的處理的示意圖。作為存儲在搜索結(jié)果目標存儲單元53中的搜索結(jié)果目標詞語串的節(jié)目標題等經(jīng)過由語素分析單元M的語素分析,然后被提供給發(fā)音符號轉(zhuǎn)換單元陽。發(fā)音符號轉(zhuǎn)換單元55將從語素分析單元M提供的搜索結(jié)果目標詞語串轉(zhuǎn)換為音節(jié)序列。此外,發(fā)音符號轉(zhuǎn)換單元55提取雙音節(jié)串接,雙音節(jié)串接包括受到關(guān)注的音節(jié)和緊接在受到關(guān)注的音節(jié)之后的音節(jié)的兩個音節(jié),同時從聲音識別結(jié)果中的音節(jié)序列的頂部朝向音節(jié)序列的末端一個接一個地關(guān)注音節(jié),并且將雙音節(jié)串接的序列提供給匹配單元 56(圖2)作為搜索結(jié)果目標發(fā)音符號串。
當以雙音節(jié)串接為單位,在識別結(jié)果發(fā)音符號串和搜索結(jié)果目標發(fā)音符號串之間的匹配中,獲得例如作為識別結(jié)果發(fā)音符號串和搜索結(jié)果目標發(fā)音符號串之間的相似度的余弦距離時,匹配單元56基于構(gòu)成識別結(jié)果發(fā)音符號串的雙音節(jié)串接獲得識別結(jié)果向量, 其是表達識別結(jié)果發(fā)音符號串的向量。S卩,匹配單元56獲得用1表達與識別結(jié)果發(fā)音符號串中出現(xiàn)的雙音節(jié)串接對應(yīng)的成分并且用0表達與識別結(jié)果發(fā)音符號串中未出現(xiàn)的雙音節(jié)串接對應(yīng)的成分的向量,例如作為表達識別結(jié)果發(fā)音符號串的識別結(jié)果向量。此外,例如,至于存儲在搜索結(jié)果目標存儲單元53中的作為每個搜索結(jié)果目標詞語串,匹配單元56以與用于節(jié)目標題等相同的方式基于構(gòu)成搜索結(jié)果目標詞語串的搜索結(jié)果目標發(fā)音符號串的雙音節(jié)串接獲得作為表達搜索結(jié)果目標發(fā)音符號串的向量的搜索結(jié)果目標向量。另外,匹配單元56以雙音節(jié)串接為單位執(zhí)行匹配,以獲得余弦距離,作為聲音識別結(jié)果和與搜索結(jié)果目標向量對應(yīng)的搜索結(jié)果目標詞語串之間的相似度,余弦距離是通過將識別結(jié)果向量和搜索結(jié)果目標向量之間的內(nèi)積除以識別結(jié)果向量的大小和搜索結(jié)果目標向量的大小之間的乘積值獲得的值。圖6是示出以詞語為單位進行匹配、以(一個)音節(jié)為單位進行匹配以及以雙音節(jié)串接為單位進行匹配的結(jié)果的示意圖。在圖6中,以與圖3中相同的方式對于輸入聲音“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”錯誤地獲得聲音識別結(jié)果“TOSHI NO SE KAISAN(在年尾解散)”,并且包括 "SEKAI ISAN TOSHI NO ISAN (世界遺產(chǎn)城市中的遺產(chǎn)),V‘SET0 NO HAISHA SAN(Seto 中的牙科醫(yī)生)”以及“SHUIN KAISAN NO TOSHI (眾議院解體發(fā)生的一年)”的三個節(jié)目標題被準備用作搜索結(jié)果目標詞語串。在圖6中,執(zhí)行以使用記法符號的詞語為單位的匹配、以使用發(fā)音符號的音節(jié)為單位的匹配以及以使用發(fā)音符號的兩個音節(jié)串接為單位的匹配。此外,與聲音識別結(jié)果“TOSHI NO SE KAISAN(在年尾解散)”中的詞語或發(fā)音符號(音節(jié))相符的搜索結(jié)果目標詞語串中的詞語或發(fā)音符號在圖6中畫圈。在以詞語為單位的匹配中,0.22、0. 25和0.75分別被獲得作為聲音識別結(jié)果 "TOSHI NO SE KAISAN(在年尾解散)”與搜索結(jié)果目標詞語串“SEKAI ISAN TOSHI NO ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”、“SET0 NO HAISHA SAN(Seto中的牙科醫(yī)生)”以及“SHUIN KAISAN NO TOSHI (眾議院解體發(fā)生的一年)”中的每個之間的相似度(余弦距離)。從而,如果假設(shè)被獲得作為匹配結(jié)果的具有排列最高的相似度的搜索結(jié)果目標詞語串被輸出作為搜索結(jié)果詞語串,并且甚至當用于輸入聲音“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”的聲音識別被錯誤地執(zhí)行,并且聲音識別結(jié)果“TOSHI NO SE KAISAN(在年尾解散)”被獲得時,在以使用記法符號的詞語為單位的匹配中,在包括作為搜索結(jié)果目標詞語串的“SEKAI ISAN TOSHI NO ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”、“SET0 NO HAISHA SAN(Seto中的牙科醫(yī)生)”以及“SHUIN KAISAN NO TOSHI (眾議院解體發(fā)生的一年)”的三個節(jié)目標題中,關(guān)于聲音識別結(jié)果“TOSHI NO SE KAISAN (在年尾解散)”,具有排列最高的相似度0. 75的搜索結(jié)果目標詞語串“SHUIN KAISAN NO TOSHI (眾議院解體發(fā)生的一年)” 被獲得作為搜索結(jié)果詞語串。
關(guān)于輸入聲音“TOSHI NO SEKAI ISAN (城市中的世界遺產(chǎn))”,在包括“SEKAI ISAN TOSHI NO ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”、“SET0 NO HAISHA SAN(Seto中的牙科醫(yī)生)” 以及“SHUIN KAISAN NO TOSHI (眾議院解體發(fā)生的一年)”的前述三個節(jié)目標題中,選擇第一節(jié)目標題“SEKAI ISAN TOSHI NO ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”是合適的。然而,在以使用記法符號的詞語為單位的匹配中,如果用于輸入聲音“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn)),,的聲音識別被錯誤地執(zhí)行,并且具有相同發(fā)音(讀音) 和不同記法的“TOSHI NO SE KAISAN(在年尾解散)”被獲得時,關(guān)于輸入聲音“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”,不是合適節(jié)目標題“SEKAI ISAN T0SHIN0 ISAN(世界遺產(chǎn)城市中的遺產(chǎn)),而是與“TOSHI NO SEKAI ISAN (城市中的世界遺產(chǎn))”無關(guān)的節(jié)目標題“SHUIN KAISAN NO TOSHI (眾議院解體發(fā)生的一年)”被獲得作為搜索結(jié)果詞語串。另外,甚至當使用記法符號的匹配不以詞語為單位而是以記法符號為單位執(zhí)行時,如參考圖3所描述的,至于關(guān)于輸入聲音“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))” 錯誤地獲得的聲音識別結(jié)果“TOSHI NO SE KAISAN(在年尾解散)”,與輸入聲音“TOSHI NO SEKAI ISAN (城市中的世界遺產(chǎn))”無關(guān)的節(jié)目標題“SHUIN KAISAN NO TOSHI (眾議院解體發(fā)生的一年)”被獲得作為搜索結(jié)果詞語串。在使用發(fā)音符號的音節(jié)為單位的匹配中,0. 82,1. 0和0. 75分別被獲得作為聲音識別結(jié)果“TOSHI NO SE KAISAN(在年尾解散)”和包括“SEKAI ISAN TOSHI NO ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”、“SET0N0 HAISHA SAN(Seto中的牙科醫(yī)生),,以及“SHUIN KAISAN NO TOSHI (眾議院解體發(fā)生的一年),,的搜索結(jié)果目標詞語串中的每個之間的相似度。從而,例如,在以使用發(fā)音符號的音節(jié)為單位的匹配中,如果被獲得作為匹配結(jié)果的具有最高相似度的搜索結(jié)果目標詞語串被輸出作為搜索結(jié)果詞語串,并且甚至當用于輸入聲音“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”的聲音識別被錯誤地執(zhí)行,并且聲音識別結(jié)果“TOSHI NO SE KAISAN(在年尾解散)”被獲得時,在包括作為搜索結(jié)果目標詞語串的“SEKAI ISAN TOSHI NO ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”、“SET0 NO HAISHA SAN(Seto 中的牙科醫(yī)生)”以及“SHUIN KAISAN NO TOSHI (眾議院解體發(fā)生的一年)”的三個節(jié)目標題中,關(guān)于聲音識別結(jié)果“TOSHI NO SE KAISAN(在年尾解散)”具有排列最高的相似度1.0 的搜索結(jié)果目標詞語串“SET0 NO HAISHA SAN(Seto中的牙科醫(yī)生)”被獲得作為搜索結(jié)果詞語串。即,如果用于輸入聲音“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”的聲音識別被錯誤地執(zhí)行,并且具有相同發(fā)音和不同記法的“TOSHI NO SE KAISAN(在年尾解散)” 被獲得,則在以使用發(fā)音符號的音節(jié)為單位的匹配中,不是關(guān)于輸入聲音“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”的合適節(jié)目標題“SEKAI ISAN TOSHI N0ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”,而是與“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”無關(guān)的節(jié)目標題“SET0 NO HAISHA SAN(Setc)中的牙科醫(yī)生)”被獲得作為搜索結(jié)果詞語串。在以使用記法符號的詞語為單位的匹配中,適合于輸入聲音“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”的節(jié)目標題“SEKAI ISAN TOSHI NO ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”的相似度的值是0. 22,其在三個搜索結(jié)果目標詞語串中是排列第三高的(排列最低), 而在以使用發(fā)音符號的音節(jié)為單位的匹配中,適合于輸入聲音“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”的節(jié)目標題“TOSHI NO SEKAI ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”的相似度的值是0. 82,其在三個搜索結(jié)果目標詞語串中是排列第二高的。從而,可以認為,以使用發(fā)音符號的音節(jié)為單位的匹配比以使用記法符號的詞語為單位的匹配更有效,這是因為適合于輸入聲音“T0SHIN0 SEKAI ISAN(城市中的世界遺產(chǎn)),,的節(jié)目標題“ SEKAI ISANTOSHI NO ISAN(世界遺產(chǎn)城市中的遺產(chǎn)),,的相似度比在以使用記法符號的詞語為單位的匹配的情況下的排列更高。在以使用發(fā)音符號的雙音節(jié)串接為單位的匹配中,0. 68,0. 43、和0. 48分別被獲得作為聲音識別結(jié)果“TOSHI NO SE KAISAN(在年尾解散)”和包括“SEKAI ISAN TOSHI NO ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”、“SET0 NO HAISHA SAN(Seto中的牙科醫(yī)生)”以及“SHUIN KAISAN NO TOSHI(眾議院解體發(fā)生的一年)”的搜索結(jié)果目標詞語串中的每個之間的相似度。從而,在以使用發(fā)音符號的雙音節(jié)串接為單位的匹配中,如果假設(shè)被獲得作為匹配結(jié)果的具有最高相似度的搜索結(jié)果目標詞語串被輸出作為搜索結(jié)果詞語串,并且甚至當用于輸入聲音“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn))”的聲音識別被錯誤地執(zhí)行,并且聲音識別結(jié)果“TOSHI NO SE KAISAN(在年尾解散)”被獲得時,則在包括作為搜索結(jié)果目標詞語串的“SEKAI ISAN TOSHI NO ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”、“SET0 NO HAISHA SAN(Seto中的牙科醫(yī)生)”以及“SHUIN KAISAN NO TOSHI (眾議院解體發(fā)生的一年)”的三個節(jié)目標題中,關(guān)于聲音識別結(jié)果“TOSHI NO SE KAISAN (在年尾解散)”具有排列最高的相似度0.68的搜索結(jié)果目標詞語串,即適合于輸入聲音“TOSHI NO SEKAI ISAN(城市中的世界遺產(chǎn)),,的節(jié)目標題“SEKAIISAN TOSHI NO ISAN(世界遺產(chǎn)城市中的遺產(chǎn))”被獲得作為搜索結(jié)果詞語串。根據(jù)使用發(fā)音符號的匹配,與如上所述執(zhí)行使用記法符號的匹配的情況相比,可以以健壯方式執(zhí)行對與輸入聲音對應(yīng)的詞語串的搜索。S卩,根據(jù)使用發(fā)音符號的匹配,甚至當聲音識別被錯誤地執(zhí)行時,可以防止(減少)與輸入聲音對應(yīng)的詞語串不被輸出作為搜索結(jié)果詞語串的情況。順便提及,當在匹配單元56中(圖1)余弦距離被用作聲音識別結(jié)果(的識別結(jié)果發(fā)音符號串)和搜索結(jié)果目標詞語串(的搜索結(jié)果目標發(fā)音符號串)之間的相似度時, 用1表達與在識別結(jié)果發(fā)音符號串中出現(xiàn)的音節(jié)(雙音節(jié)串接)對應(yīng)的成分并且用0表達與在識別結(jié)果發(fā)音符號串中未出現(xiàn)的音節(jié)對應(yīng)的成分的向量被獲得例如作為表達上述識別結(jié)果發(fā)音符號串的識別結(jié)果向量。此外,匹配單元56以相同方式獲得表達搜索結(jié)果目標詞語串的搜索結(jié)果目標發(fā)音符號串的搜索結(jié)果目標向量。在此,根據(jù)與成分對應(yīng)的音節(jié)是否出現(xiàn)在識別結(jié)果發(fā)音符號串中,識別結(jié)果向量的成分值被設(shè)置為1或0。然而,可以采用tf (詞頻)(其是與成分對應(yīng)的音節(jié)出現(xiàn)在識別結(jié)果發(fā)音符號串中的頻率)作為識別結(jié)果向量的成分值。另外,還可以采用idf (逆文檔頻率)(其關(guān)于頻繁出現(xiàn)在特定搜索結(jié)果目標詞語串中的音節(jié)變?yōu)榇笾挡⑶谊P(guān)于均勻地出現(xiàn)在多個搜索結(jié)果目標詞語串中的音節(jié)變?yōu)樾≈? 以及考慮了 tf和idf的TF-IDF例如作為識別結(jié)果向量的成分值。這對于搜索結(jié)果目標向量也是正確的。如果假設(shè)Vutk表示識別結(jié)果向量,并且VTmE(i)表示存儲在搜索結(jié)果目標存儲單元53(圖1)中的第i個搜索結(jié)果目標詞語串的搜索結(jié)果目標向量,則基于等式(1)計算作為聲音識別結(jié)果和第i個搜索結(jié)果目標詞語串之間的相似度的余弦距離D。D = VUTE · VTITLE ⑴ / (I VUTE | | VTITLE ⑴ |) · · · (1)在等式(1)中, 表示內(nèi)積,并且|x|表示向量χ的大小(標準)。從而,可以通過將識別結(jié)果向量Vutk和搜索結(jié)果目標向量Vt■⑴之間的內(nèi)積Vutk · Vtitle(i)除以識別結(jié)果向量Vutk的大小IVutkI和搜索結(jié)果目標向量Vt■⑴的大小|vT■⑴|之間的乘積值
VuteI VTITLE(i) I獲得余弦距離D。余弦距離D的范圍從0. 0到1. 0。余弦距離值越大,由識別結(jié)果向量Vutk表示的識別結(jié)果發(fā)音符號串和由搜索結(jié)果目標向量vTmE⑴表示的搜索結(jié)果目標發(fā)音符號串之間的相似度變得越高。由于余弦距離D可以通過將識別結(jié)果向量Vutk和搜索結(jié)果目標向量VTmE⑴之間的內(nèi)積vUTK*vTmE⑴除以識別結(jié)果向量νυτκ的大小IvutkI和搜索結(jié)果目標向量vTmE⑴的大小|vTmE(i) I之間的乘積值獲得,因而聲音識別結(jié)果和搜索結(jié)果目標詞語串的長度之間的差值影響余弦距離D。在此,當聲音識別結(jié)果和搜索結(jié)果目標詞語串之間匹配時,S卩,以使用記法符號的記法符號為單位執(zhí)行作為相似度的余弦距離D的計算,聲音識別結(jié)果和搜索結(jié)果目標詞語串的長度分別意味著聲音識別結(jié)果中和搜索結(jié)果目標詞語串中的記法符號的數(shù)量。另外,當以使用記法符號的詞語為單位執(zhí)行相似度的計算時,聲音識別結(jié)果和搜索結(jié)果目標詞語串的長度分別意味著聲音識別結(jié)果中和搜索結(jié)果目標詞語串中的詞語的數(shù)量。此外,當以使用發(fā)音符號的音節(jié)為單位執(zhí)行相似度的計算時,聲音識別結(jié)果和搜索結(jié)果目標詞語串的長度分別意味著聲音識別結(jié)果和搜索結(jié)果目標詞語串中的音節(jié)的數(shù)量。此外,當以使用發(fā)音符號的雙音節(jié)串接為單位執(zhí)行相似度的計算時,聲音識別結(jié)果和搜索結(jié)果目標詞語串的長度分別意味著聲音識別結(jié)果中和搜索結(jié)果目標詞語串中的雙音節(jié)串接的數(shù)量。假設(shè)以使用記法符號的詞語為單位執(zhí)行作為聲音識別結(jié)果和搜索結(jié)果目標詞語串之間的匹配的余弦距離D的計算,以簡化解釋。由于通過等式⑴計算作為相似度的余弦距離D包括除以搜索結(jié)果目標向量vTmE⑴的大小|vT■⑴|,因而當長搜索結(jié)果目標詞語串和短搜索結(jié)果目標詞語串相比較時,包括與聲音識別結(jié)果中相同的詞語串的具有較短長度(在此為詞語的數(shù)量)的搜索結(jié)果目標詞語串更可能呈現(xiàn)較高相似度(余弦距離D較長),而包括與聲音識別結(jié)果中相同的詞語串的具有較長長度的搜索結(jié)果目標詞語串更可能呈現(xiàn)較低相似度(余弦距離D較短)。從而,由于即使當長搜索結(jié)果目標詞語串的一部分被獲得作為聲音識別結(jié)果時, 聲音識別結(jié)果和長搜索結(jié)果目標詞語串之間的相似度仍不變?yōu)榕帕凶罡卟⑶疫@樣的搜索結(jié)果目標詞語串不被輸出為搜索結(jié)果詞語串,所以在一些情況下,對與輸入聲音對應(yīng)的詞語串的搜索的準確度惡化。S卩,例如,當長標題的一部分被說出時,長標題的相似度不變?yōu)榕帕凶罡?,并且長標題不被輸出作為搜索結(jié)果詞語串。
為了相同原因,當包括與預(yù)定搜索結(jié)果目標詞語串相同的詞語串的長聲音識別結(jié)果和短聲音識別結(jié)果相比較時,長聲音識別結(jié)果和預(yù)定搜索結(jié)果目標詞語串之間的相似度可能較低,而短聲音識別結(jié)果和預(yù)定搜索結(jié)果目標詞語串之間的相似度可能較高。從而,由于對于包括與預(yù)定搜索結(jié)果目標詞語串相同的詞語串的長聲音識別結(jié)果,預(yù)定搜索結(jié)果目標詞語串的相似度不變?yōu)榕帕凶罡?,并且預(yù)定搜索結(jié)果目標詞語串不被輸出作為搜索結(jié)果詞語串,所以在一些情況下對與輸入聲音對應(yīng)的詞語串的搜索的準確度惡化。S卩,例如,在包括短標題的長話語的情況下,短標題的相似度不變?yōu)榕帕凶罡?,并且在一些情況下,短標題不被輸出作為搜索結(jié)果詞語串。從而,可以采用通過校正余弦距離D獲得的校正距離作為聲音識別結(jié)果和搜索結(jié)果目標詞語串之間的相似度,以減少在匹配單元56 (圖2)中聲音識別結(jié)果和搜索結(jié)果目標詞語串的長度之間的差異的影響。當校正距離被用作聲音識別結(jié)果和搜索結(jié)果目標詞語串之間的相似度時,可以防止聲音識別結(jié)果和長搜索結(jié)果目標詞語串之間的前述相似度以及長聲音識別結(jié)果和搜索結(jié)果目標詞語串之間的相似度變低,結(jié)果以健壯方式執(zhí)行對與輸入聲音對應(yīng)的詞語串的搜索,從而防止對與輸入聲音對應(yīng)的詞語串的搜索的準確度惡化。校正距離包括第一校正距離和第二校正距離。在用于獲得余弦距離D的等式⑴的計算中,使用不與搜索結(jié)果目標詞語串的長度成比例的值IvutkI Χ ν |vTmE⑴|/|νυτκ|,即,識別結(jié)果向量Vutk的大小IvutkI和搜索結(jié)果目標向量Vtim⑴的大小|vTmE(i)|之間的乘積值平均方根 IvuteIX ν |ντ■⑴|/|vUTK| (其不與搜索結(jié)果目標詞語串的長度成比例),來獲得第一校正距離。在此,在用于獲得余弦距離D的等式(1)的計算中,代替搜索結(jié)果目標向量 VTITLE(i)的大小I Vt■⑴I使用的值還被稱為代替大小S (i)?;诘仁絆)獲得第一校正距離Dl。Dl = VUTE · VTITLE ⑴ / (I VUTE | S ⑴)= Vute · Vtitle ⑴ / (I Vute I I Vute | X V | Vtitle (i) | / | Vute |))= Vute · Vtitle ⑴ / (I Vutk I V I Vtitle ⑴ I I Vute ))... (2)在等式⑵中,當|vT■⑴I小時,即,當搜索結(jié)果目標詞語串的長度短時,識別結(jié)果向量νυτκ的大小IVutkI和搜索結(jié)果目標向量vTmE⑴的大小|ντ■⑴|之間的乘積值的平方根ν (|vTITLE(i) I IvuteD大于|ντ■⑴|,并且當|ντ■⑴|大時,即,當搜索結(jié)果目標詞語串的長度長時,平方根V (|Vtitle(i) I VuteD小于|vTmE(i) |。結(jié)果,與基于等式⑴獲得的余弦距離D相比,基于等式⑵獲得的第一校正距離Dl是較少受到作為搜索結(jié)果目標詞語串的長度的搜索結(jié)果目標向量VTmE(i)的大小 I Vtitle(I) I相對于聲音識別結(jié)果的長度的差值影響的值,即,通過減少聲音識別結(jié)果和搜索結(jié)果目標詞語串的長度之間的差值的影響獲得的值。在用于獲得余弦距離D的等式(1)的計算中,代替與搜索結(jié)果目標詞語串的長度成比例的搜索結(jié)果目標向量VTmE(i)的大小|VTmE⑴|,使用識別結(jié)果向量Vutk的大小 IvuteI作為代替大小s(i)來獲得第二校正距離。
從而,基于等式(3)獲得第二校正距離D2。D2 = Vute · Vtitle ⑴ / (| Vute | S ⑴)=Vutr. Vt■⑴/IV·|2··· (3)由于在不使用搜索結(jié)果目標向量vTmE⑴的大小|vT■⑴I的情況下獲得第二校正距離D2,所以第二校正距離D2是不受作為搜索結(jié)果目標詞語串的長度的搜索結(jié)果目標向量VTmE(i)的大小IVt■⑴I相對于聲音識別結(jié)果的長度的差值的影響的值,即,通過減少(去除)聲音識別結(jié)果和搜索結(jié)果目標詞語串的長度之間的差值的影響獲得的值。圖7是示出當余弦距離D、第一校正距離Dl以及第二校正距離D2被用作聲音識別結(jié)果和搜索結(jié)果目標詞語串之間的相似度時的匹配仿真結(jié)果的示意圖。假設(shè)在圖7中的仿真中,關(guān)于短話語“SEKAI ISAN(世界遺產(chǎn))”獲得正確聲音識別結(jié)果“SEKAI ISAN(世界遺產(chǎn))”,并且長標題“ZASEKAI ISAN TOSHI NO ISAN SUPESHARU ITARIA ROMA BENECHIA(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬和威尼斯)”和短標題 "SEKAI JOSEI (世界事務(wù))”被用作作為搜索結(jié)果目標詞語串的節(jié)目標題。此外,以使用記法符號的詞語為單位執(zhí)行匹配。另外,下劃線被添加至作為搜索結(jié)果目標詞語串的節(jié)目標題中的詞語,其對應(yīng)于圖7中的聲音識別結(jié)果“SEKAI ISAN(世界遺產(chǎn))”中的詞語“SEKAI/ISAN(世界/遺產(chǎn))”。標題“ZA SEKAI ISAN TOSHI NO ISAN SUPESHARU ITARIA ROMA BENECHIA (世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬和威尼斯)”中的包括“SEKAI (世界)”和“ISAN(遺產(chǎn)),,的兩個詞語與聲音識別結(jié)果“SEKAI ISAN(世界遺產(chǎn))”相符。另一方面,標題“SEKAI JOSEI (世界事務(wù))”中的僅一個詞語“SEKAI (世界)”與聲音識別結(jié)果“SEKAI ISAN(世界遺產(chǎn))”的一部分相符。從而,在標題“ZASEKAI ISAN TOSHI NO ISAN SUPESHARU ITARIA ROMA BENECHIA(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬和威尼斯)”和標題“SEKAI JOSEI (世界事務(wù))”之間,包括與聲音識別結(jié)果“SEKAI ISAN(世界遺產(chǎn))”相符的更多詞語的標題“ZA SEKAI ISAN TO SHI NO ISAN SUPE SHARU ITARIA ROMA BENECHIA(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬和威尼斯)”的相似度比標題“SEKAI JOSEI (世界事務(wù)),, 的相似度排列更高是合適的。然而,當余弦距離D被用作相似度時,關(guān)于與長標題“ZA SEKAI ISAN TOSHI NO ISAN SUPESHARU ITARIA ROMA BENECHIA(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬和威尼斯)”的一部分“SEKAI ISAN(世界遺產(chǎn))”相符的聲音識別結(jié)果“SEKAI ISAN(世界遺產(chǎn))”,短標題“SEKAI JOSEI (世界事務(wù))”的相似度是0. 5,而長標題“ZASEKAI ISAN TOSHI NO ISAN SUPESHARU ITARIA ROMA BENECHIA(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬和威尼斯),,的相似度是0. 4472,因而短標題“SEKAI JOSEI (世界事務(wù)),,的相似度變?yōu)楸乳L標題“ZA SEKAI ISAN TOSHI NO ISAN SUPE SHARUITARIA ROMA BENECHIA (世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬和威尼斯)”的相似度排列更高。S卩,當余弦距離D被用作相似度時,適合于聲音識別結(jié)果“SEKAI ISAN(世界遺產(chǎn))”的長標題“ZA SEKAI ISANTOSHI NO ISAN SUPESHARU ITARIA ROMA BENECHIA(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬和威尼斯)”不變?yōu)榕帕懈?,這是由于與長標題 "ZASEKAI ISAN TOSHI NO ISAN SUPESHARU ITARIA ROMA BENECHIA(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬和威尼斯),,的一部分“SEKAI ISAN(世界遺產(chǎn))”相符的短聲音識別結(jié)果 “SEKAI ISAN(世界遺產(chǎn))”與長標題 “ZA SEKAI ISAN TOSHI NO ISAN SUPE SHARU ITARIA ROMA BENECHIA(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬和威尼斯)”的長度之間的差值的影響。另一方面,當校正距離被用作相似度時,長標題“ZA SEKAI ISAN TOSHI NO ISAN SUPESHARU ITARIA ROMA BENECHIA(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬和威尼斯),,的相似度比短標題“SEKAI JOSEI (世界事務(wù)),,的相似度排列更高。S卩,當?shù)谝恍U嚯xDl被用作相似度時,關(guān)于聲音識別結(jié)果“SEKAI ISAN(世界遺產(chǎn))”,短標題“SEKAI JOSEI (世界事務(wù))”的相似度為0.5,而長標題“ZA SEKAI ISAN TOSHI NO ISAN SUPESHARU ITARIA ROMA BENECHIA(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬和威尼斯)”的相似度為0.6687,因而長標題“ZA SEKAI ISAN TOSHI NO ISAN SUPESHARU ITARIA ROMA BENECHIA(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬和威尼斯)”的相似度比短標題“SEKAI JOSEI (世界事務(wù)),,的相似度排列更高。另外,當?shù)诙U嚯xD2被用作相似度時,關(guān)于聲音識別結(jié)果“SEKAI ISAN(世界遺產(chǎn)),,,短標題"SEKAI JOSEI (世界事務(wù)),,的相似度是0. 5,而長標題"ZA SEKAI ISAN TOSHI NO ISAN SUPESHARU ITARIA ROMA BENECHIA(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬和威尼斯)”的相似度是1.0,因而長標題“ZA SEKAI ISAN TOSHI NO ISAN SUPESHARU ITARIA ROMA BENECHIA(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬和威尼斯)”的相似度比短標題“SEKAI JOSEI (世界事務(wù)),,的相似度排列更高。當如上所述校正距離被用作相似度時,與長搜索結(jié)果目標詞語串的一部分相符的聲音識別結(jié)果和長搜索結(jié)果目標詞語串的長度之間的差值的影響減小,并且適合于聲音識別結(jié)果 “SEKAI ISAN(世界遺產(chǎn))”的長標題 “ZA SEKAI ISAN TOSHI NO ISAN SUPESHARU ITARIA ROMA BENECHIA(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬和威尼斯)”的相似度變?yōu)榕帕凶罡摺?圖8是示出當余弦距離D、第一校正距離Dl以及第二校正距離D2被用作聲音識別結(jié)果和搜索結(jié)果目標詞語串之間的相似度時的另一匹配仿真結(jié)果的示意圖。在圖8中的仿真中,假設(shè)關(guān)于長話語“SEKAI ISAN TOSHI NO ISAN ITARIA ROMA BENECHIA NAPORI FIRENTSE (世界遺產(chǎn)城市中的遺產(chǎn),特別是意大利的羅馬、威尼斯、那不勒斯和佛羅倫薩)”獲得正確聲音識別結(jié)果“SEKAI ISAN TOSHI NO ISAN ITARIA ROMA BENECHIA NAPORI FIRENTSE(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬、威尼斯、那不勒斯和佛羅倫薩)”,并且短標題“ SEKAI ISAN (世界遺產(chǎn))”和長標題“TANKEN ROMAN SEKAI ISAN ITARIA FIRENTSE REKISHI CHIKU(意大利佛羅倫薩的歷史區(qū)域中的世界遺產(chǎn)的浪漫主義探究)”被用作作為搜索結(jié)果目標詞語串的節(jié)目標題。此外,以使用記法符號的詞語為單位執(zhí)行匹配。在圖8中,下劃線被添加至作為搜索結(jié)果目標詞語串的節(jié)目標題中的詞語,該節(jié)目標題與聲音識別結(jié)果“SEKAI ISAN TOSHI NO ISAN ITARIA ROMA BENECHIA NAPORI FIRENTSE(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬、威尼斯、那不勒斯和佛羅倫薩),,中的詞語“SEKAI/ISAN/TOSHI/NO/ISAN/ITARIA/ROMA/BENECHIA/NAPO RI/FIRENTSE(世界 / 遺產(chǎn)/城市/的/遺產(chǎn)/意大利/羅馬/威尼斯/那不勒斯/佛羅倫薩)”相符。
標題“SEKAIISAN(世界遺產(chǎn))”中包括的兩個詞語“SEKAI (世界)”和“ISAN(遺產(chǎn))”與聲音識別結(jié)果“SEKAI ISAN TOSHI NO ISAN ITARIA ROMA BENECHIA NAPORI FIRENTSE(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬、威尼斯、那不勒斯和佛羅倫薩),,的一部分相符。另一方面,標題“TANKENROMAN SEKAI ISAN ITARIA FIRENTSE REKISHI CHIKU (意大利佛羅倫薩的歷史區(qū)域中的世界遺產(chǎn)的浪漫主義探究),,中包括的四個詞語“SEKAI (世界),,、“ISAN(遺產(chǎn))”、“ITARIA(意大利),,和“FIRENTSE (佛羅倫薩),,與聲音識別結(jié)果 "SEKAI ISAN TOSHI NO ISAN ITARIA ROMA BENECHIA NAPORI FIRENTSE(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬、威尼斯、那不勒斯和佛羅倫薩),,的一部分相符。從而,在標題"SEKAIISAN(世界遺產(chǎn))”和 “TANKEN ROMAN SEKAI ISAN ITARIA FIRENTSE REKISHI CHIKU(意大利佛羅倫薩的歷史區(qū)域中的世界遺產(chǎn)的浪漫主義探究)” 之間,包括與聲音識別結(jié)果 “SEKAI ISAN TOSHI NO ISAN ITARIA ROMA BENECHIA NAPORI FIRENTSE (世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬、威尼斯、那不勒斯和佛羅倫薩),, 的一部分相符的更多詞語的標題“TANKEN ROMAN SEKAI ISAN ITARIA FIRENTSE REKISHI CHIKU(意大利佛羅倫薩的歷史區(qū)域中的世界遺產(chǎn)的浪漫主義探究)”的相似度比標題 "SEKAI ISAN(世界遺產(chǎn)),,的相似度排列更高是合適的。然而,當余弦距離D被用作相似度時,關(guān)于長聲音識別結(jié)果“SEKAI ISAN TOSHI NO ISAN ITARIA ROMA BENECHIA NAPORI FIRENTSE(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬、威尼斯、那不勒斯和佛羅倫薩)”,長標題“TANKEN ROMAN SEKAI ISAN ITARIA FIRENTSE REKISHI CHIKU(意大利佛羅倫薩的歷史區(qū)域中的世界遺產(chǎn)的浪漫主義探究),,的相似度是0. 4472,而短標題“SEKAI ISAN(世界遺產(chǎn))”的相似度是0. 4772,因而長標題“TANKEN ROMAN SEKAI ISAN ITARIA FIRENTSE REKISHI CHIKU(意大利佛羅倫薩的歷史區(qū)域中的世界遺產(chǎn)的浪漫主義探究),,的相似度不比短標題“SEKAI ISAN(世界遺產(chǎn)),,的相似度排列更高。S卩,當余弦距離D被用作相似度時,適合于聲音識別結(jié)果“SEKAI ISAN TOSHI NO ISAN ITARIA ROMA BENECHIA NAPORI FIRENTSE(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬、威尼斯、那不勒斯和佛羅倫薩)”的長標題“TANKEN ROMAN SEKAI ISAN ITARIA FIRENTSE REKISHI CHIKU(意大利佛羅倫薩的歷史區(qū)域中的世界遺產(chǎn)的浪漫主義探究),,的相似度不變?yōu)榕帕懈?,這是因為長聲音識別結(jié)果“SEKAI ISAN TOSHI NO ISAN ITARIA ROMA BENECHIA NAPORI FIRENTSE(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬、威尼斯、那不勒斯和佛羅倫薩),,和短搜索結(jié)果目標詞語串“SEKAJ ISAN(世界遺產(chǎn)),,的長度之間的差值的影響。另一方面,當校正距離被用作相似度時,長標題“TANKEN ROMAN SEKAI ISAN ITARIA FIRENTSE REKISHI CHIKU(意大利佛羅倫薩的歷史區(qū)域中的世界遺產(chǎn)的浪漫主義探究)”的相似度比短標題“SEKAI ISAN(世界遺產(chǎn))”的相似度排列更高。S卩,當?shù)谝恍U嚯xDl被用作相似度時,關(guān)于長聲音識別結(jié)果“SEKAI ISAN TOSHI NO ISAN ITARIA ROMA BENECHIA NAPORI FIRENTSE (世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬、威尼斯、那不勒斯和佛羅倫薩)”,長標題“TANKEN ROMAN SEKAK ISAN ITARIA FIRENTSE REKISHI CHIKU(意大利佛羅倫薩的歷史區(qū)域中的世界遺產(chǎn)的浪漫主義探究)”的相似度是0. 4229,而短標題“SEKAI ISAN(世界遺產(chǎn)),,的相似度是0. 2991,因而長標題 ”TANKEN ROMAN SEKAI ISAN ITARIA FIRENTSE REKISHI CHIKU(意大利佛羅倫薩的歷史區(qū)域中的世界遺產(chǎn)的浪漫主義探究),,的相似度比短標題“SEKAI ISAN(世界遺產(chǎn)),,的相似度排列更高。另外,當?shù)诙U嚯xD2被用作相似度時,關(guān)于長聲音識別結(jié)果“SEKAI ISAN TOSHI NO ISAN ITARIA ROMA BENECHIA NAPORI FIRENTSE(世界遺產(chǎn)城市的遺產(chǎn),特別是 意大利的羅馬、威尼斯、那不勒斯和佛羅倫薩)”,長標題“TANKEN ROMAN SEKAI ISAN ITARIA FIRENTSE REKISHI CHIKU(意大利佛羅倫薩的歷史區(qū)域中的世界遺產(chǎn)的浪漫主義探究)”的相似度是0. 4,而短標題“SEKAI ISAN(世界遺產(chǎn)),,的相似度是0. 2,因而長標題“TANKEN ROMAN SEKAI ISAN ITARIA FIRENTSE REKISHI CHIKU(意大利佛羅倫薩的歷史區(qū)域中的世界遺產(chǎn)的浪漫主義探究),,的相似度比短標題“SEKAI ISAN(世界遺產(chǎn)),,的相似度排列更尚ο
當如上所述校正距離被用作相似度時,長聲音識別結(jié)果和短搜索結(jié)果目標詞語串的長度之間的差值的影響減小,并且適合于聲音識別結(jié)果“SEKAI ISAN TOSHI NO ISAN ITARIA ROMA BENECHIA NAPORI FIRENTSE(世界遺產(chǎn)城市的遺產(chǎn),特別是意大利的羅馬、 威尼斯、那不勒斯和佛羅倫薩)”的長標題“TANKEN ROMAN SEKAIISAN ITARIA FIRENTSE REKISHI CHIKU(意大利佛羅倫薩的歷史區(qū)域中的世界遺產(chǎn)的浪漫主義探究),,的相似度變?yōu)榕帕凶罡?。從而,根?jù)校正距離,可以通過減小聲音識別結(jié)果和搜索結(jié)果目標詞語串的長度之間的差值的影響,以健壯方式執(zhí)行對與輸入聲音對應(yīng)的詞語串的搜索,從而防止對與輸入聲音對應(yīng)的詞語串的搜索的準確度惡化。圖9是示出搜索結(jié)果目標向量和向量代替信息的示意圖。在此,例如,必須高速執(zhí)行匹配,以在聲音搜索裝置10(圖2)中快速地輸出搜索結(jié)果詞語串。另一方面,雖然當在聲音識別結(jié)果和搜索結(jié)果目標詞語串之間的匹配中獲得作為相似度的余弦距離和校正距離時,必須準備表示搜索結(jié)果目標發(fā)音符號串的搜索結(jié)果目標向量和表示識別結(jié)果發(fā)音符號串的識別結(jié)果向量,但是如果每次在獲得聲音識別結(jié)果時在搜索結(jié)果目標存儲單元53(圖1)中存儲的搜索結(jié)果目標詞語串都被轉(zhuǎn)換為搜索結(jié)果目標向量,則需要時間執(zhí)行匹配,并且妨礙高速匹配。從而,存在一種方法,通過該方法,通過基于存儲在搜索結(jié)果目標存儲單元53 (圖 1)中的搜索結(jié)果目標詞語串,預(yù)先獲得相似度計算所須的搜索結(jié)果目標向量并且將所獲得的搜索結(jié)果目標向量存儲在結(jié)合于匹配單元56中的存儲器(在圖中未示出)中來高速執(zhí)行匹配。然而,為了使結(jié)合在匹配單元56中的存儲器存儲搜索結(jié)果目標向量,存儲器必須具有極大容量。S卩,如果假設(shè)根據(jù)與成分對應(yīng)的音節(jié)是否在搜索結(jié)果目標發(fā)音符號串中而將搜索結(jié)果目標向量的成分值設(shè)置為1或0,則當發(fā)音符號的種類的數(shù)量是C時,搜索結(jié)果目標向量變?yōu)镃-維向量。例如,當表示日文音節(jié)的符號被用作發(fā)音符號時,發(fā)音符號的種類的數(shù)量C約為100 至 300。 此外,即使發(fā)音符號的種類的數(shù)量C是100,當雙音節(jié)串接被用作用于匹配的單位時,搜索結(jié)果目標向量仍是10000( = 100X100)-維向量。另外,如果搜索結(jié)果目標向量是D-維向量,并且存儲在搜索結(jié)果目標存儲單元 53 (圖1)中的搜索結(jié)果目標詞語串的數(shù)量是Z,則結(jié)合在匹配單元56中的存儲器必須具有能夠存儲(搜索結(jié)果目標向量的)DXZ個成分的存儲容量。順便提及,搜索結(jié)果目標向量通常是稀疏向量,S卩,多數(shù)成分(component)都是0 的向量。從而,對于每個搜索結(jié)果目標向量,匹配單元56僅將與搜索結(jié)果目標向量中不是 0的成分對應(yīng)的音節(jié)的發(fā)音符號(指明發(fā)音符號的ID (標識))(當雙音節(jié)串接被用作用于匹配的單位時,用于與不是0的成分對應(yīng)的雙音節(jié)串接的發(fā)音符號串)存儲在所結(jié)合的存儲器中。另外,當采用與成分對應(yīng)的音節(jié)出現(xiàn)在搜索結(jié)果目標發(fā)音符號串中的頻率(tf) 時,例如,作為搜索結(jié)果目標向量的成分值,僅包括與搜索結(jié)果目標向量中不是0的成分對應(yīng)的音節(jié)(指明音節(jié)的ID)和音節(jié)出現(xiàn)的頻率(搜索結(jié)果目標向量的成分值)的一對被存儲在匹配單元56中所結(jié)合的存儲器中。當僅與搜索結(jié)果目標向量中不是0的成分對應(yīng)的音節(jié)的發(fā)音符號被存儲在匹配單元56中所結(jié)合的存儲器中時,如果假設(shè)在第i個搜索結(jié)果目標詞語串的搜索結(jié)果目標向量中不是0的成分的數(shù)量是K(i),則只要匹配單元56中所結(jié)合的存儲器具有能夠存儲 K(I)+K (2)+...K (Z)發(fā)音符號的存儲容量,在匹配單元56中所結(jié)合的存儲器就可用。在此,雖然搜索結(jié)果目標向量的成分值是包括0和1的兩個值中的一個,但是如上所述發(fā)音符號的值約為100至300個值中的一個。從而,雖然搜索結(jié)果目標向量的一個成分可以由1位表示,但是必須準備約7至9位以表達發(fā)音符號。然而,由于搜索結(jié)果目標向量的大多數(shù)成分是0,所以搜索結(jié)果目標向量的不是0 的成分的數(shù)量K(i)很小。從而,能夠存儲K(I)+K (2)+...K (Z)個發(fā)音符號的存儲容量小于能夠存儲(搜索結(jié)果目標向量的)DXZ個成分的存儲容量。從而,與存儲搜索結(jié)果目標向量本身的情況相比,可以通過為每個搜索結(jié)果目標向量,在結(jié)合在匹配單元56中的存儲器中僅存儲與搜索結(jié)果目標向量中不是0的成分對應(yīng)的音節(jié)的發(fā)音符號,來減少該存儲器所必須的存儲容量。以下,由于發(fā)音符號是代替搜索結(jié)果目標向量的信息,因而存儲在結(jié)合在匹配單元56中的存儲器中的與搜索結(jié)果目標向量中的不是0的成分對應(yīng)的音節(jié)的發(fā)音符號被任意稱為向量代替信息。圖9是示出搜索結(jié)果目標向量和代替搜索結(jié)果目標向量使用的向量代替信息的示意圖。根據(jù)與成分對應(yīng)的音節(jié)是否出現(xiàn)在搜索結(jié)果目標發(fā)音符號串中,搜索結(jié)果目標向量的成分值是1或0。另一方面,代替搜索結(jié)果目標向量的向量代替信息僅包括與搜索結(jié)果目標向量中不是0的成分對應(yīng)的音節(jié)的發(fā)音符號。在此,在圖9中的向量代替信息中,在搜索結(jié)果目標詞語串(搜索結(jié)果目標發(fā)音符號串)中多次出現(xiàn)的相同音節(jié)的發(fā)音符號通過添加附加說明數(shù)字相互區(qū)分。S卩,例如,在圖9中,相同音節(jié)的發(fā)音符號“I”在搜索結(jié)果目標詞語串“SEKAI ISAN(世界遺產(chǎn))”中出現(xiàn)兩次。在向量代替信息中,第一發(fā)音符號由“I”表示,并且通過在出現(xiàn)兩次的音節(jié)的發(fā)音符號“I”中添加附加說明數(shù)字“(2) ”,由“I (2) ”表示第二發(fā)音符號,從而出現(xiàn)兩次的發(fā)音符號“ I ”被相互區(qū)分。 另外,還可以在向量代替信息中不相互區(qū)分的情況下,表達在搜索結(jié)果目標詞語串中多次出現(xiàn)的相同音節(jié)的發(fā)音符號。8口,在圖9中,例如,在搜索結(jié)果目標詞語串“SEKAI ISAN(世界遺產(chǎn))”中出現(xiàn)兩次的相同音節(jié)的發(fā)音符號“ I ”可以由包括音節(jié)“ I ”(指明音節(jié)“ I ”的ID)和音節(jié)“ I ”出現(xiàn)在向量代替信息中的頻率的對(1,2)表達。由于在匹配中不一定執(zhí)行對搜索結(jié)果目標向量中為0的成分的訪問(從存儲器中讀取為0的成分)(當存儲搜索結(jié)果目標向量時,不一定執(zhí)行該訪問),所以當如上所述向量代替信息代替搜索結(jié)果目標向量被存儲在結(jié)合于匹配單元56中的存儲器中時,不僅可以減少存儲器的存儲容量,而且還增加匹配的速度。圖10是示出當向量代替信息代替搜索結(jié)果目標向量被存儲在結(jié)合于匹配單元56 中的存儲器中時,聲音識別結(jié)果和搜索結(jié)果目標詞語串之間的相似度的計算的示意圖。在圖10中,在搜索結(jié)果目標詞語串中多次出現(xiàn)的相同音節(jié)的發(fā)音符號被表達,而同時以與圖9相同的方式在向量代替信息中被相互區(qū)分。在圖10中,以與由代替搜索結(jié)果目標向量的向量代替信息表達的搜索結(jié)果目標詞語串(的搜索結(jié)果目標發(fā)音符號串)相同的方式,聲音識別結(jié)果(的識別結(jié)果發(fā)音符號串)也由代替識別結(jié)果向量的向量代替信息表達。當余弦距離和校正距離被獲得作為聲音識別結(jié)果和搜索結(jié)果目標詞語串之間的相似度時,必須準備識別結(jié)果向量Vutk和搜索結(jié)果目標向量Vt■⑴之間的內(nèi)積
Vute · Vtitle⑴和識別結(jié)果向量Vute的大小VuteU另外,當余弦距離以及校正距離中的第一校正距離被獲得時,必須進一步準備搜索結(jié)果目標向量Vm^i)的大小|vTmE(i)|??梢酝ㄟ^計算作為構(gòu)成聲音識別結(jié)果的向量代替信息的成分的發(fā)音符號的數(shù)量的總和的平方根,來獲得識別結(jié)果向量Vutk的大小I VUTK|。可以以與用于識別結(jié)果向量Vutk的大小IVutkI相同的方式,通過使用搜索結(jié)果目標詞語串的向量代替信息,來獲得搜索結(jié)果目標向量Vtitie⑴的大小|VTITIE(i)|。另外,,可以通過將內(nèi)積Vutk · Vtitle(i)的初始值設(shè)置為0,隨后關(guān)注構(gòu)成聲音識別結(jié)果的向量代替信息的每個發(fā)音符號,并且當在搜索結(jié)果目標詞語串的向量代替信息中存在與受到關(guān)注的符號符合的發(fā)音符號時使內(nèi)積Vutk *VTmE(i)加1,來獲得識別結(jié)果向量Vutk 和搜索結(jié)果目標向量VTmE(i)之間的內(nèi)積Vutk · Vt■⑴。從而,可以使用聲音識別結(jié)果和搜索結(jié)果目標詞語串的向量代替信息來獲得作為聲音識別結(jié)果和搜索結(jié)果目標詞語串之間的相似度的余弦距離和校正距離。[聲音搜索裝置10的處理]根據(jù)實施例的由搜索與輸入聲音對應(yīng)的詞語串的搜索裝置進行的搜索方法可以包括識別輸入聲音;基于輸入聲音來估計輸入聲音的說話者的身體狀態(tài)和情感行為中的至少一個,并且輸出表示估計結(jié)果的用戶信息;對于多個搜索結(jié)果目標詞語串中的每個,在搜索結(jié)果目標發(fā)音符號串和識別結(jié)果發(fā)音符號串之間執(zhí)行匹配,其中,搜索結(jié)果目標發(fā)音符號串是表示搜索結(jié)果目標詞語串的發(fā)音的發(fā)音符號的序列,識別結(jié)果發(fā)音符號串是表示用于輸入聲音的聲音識別結(jié)果的發(fā)音的發(fā)音符號的序列,多個搜索結(jié)果目標詞語串是作為與輸入聲音對應(yīng)的詞語串的搜索結(jié)果的目標的詞語串;以及基于搜索結(jié)果目標發(fā)音符號串和識別結(jié)果發(fā)音符號串之間的匹配結(jié)果,從多個搜索結(jié)果目標詞語串中生成搜索結(jié)果詞語串,作為用于與輸入聲音對應(yīng)的詞語串的搜索結(jié)果,其中,在執(zhí)行匹配和生成搜索結(jié)果詞語串中的至少一個期間,根據(jù)用戶信息來改變處理。圖11是示出圖1中的聲音搜索裝置10的處理(聲音搜索處理)的流程圖。在圖Sll中,聲音搜索裝置10執(zhí)行必要預(yù)處理。S卩,聲音搜索裝置10執(zhí)行可以在輸入聲音被提供之前執(zhí)行的處理,諸如,讀取作為構(gòu)成存儲在存儲介質(zhì)23中的EPG的要素的節(jié)目標題、表演者的名稱、詳細信息等,并且將所讀取的標題、表演者的名稱、詳細信息等提供給搜索結(jié)果目標存儲單元53,并且使搜索結(jié)果目標存儲單元53將它們存儲為搜索結(jié)果目標詞語串。另外,例如,每天在預(yù)定時間執(zhí)行步驟Sll中的預(yù)處理。可替換地,當已經(jīng)被視頻記錄在存儲介質(zhì)23中的視頻記錄節(jié)目改變時,當存儲在存儲介質(zhì)23中的EPG改變(更新) 時等,執(zhí)行步驟Sll中的預(yù)處理。當在最后預(yù)處理之后用戶說話,并且作為話語的輸入聲音被提供給聲音識別單元 51和用戶信息估計單元58時,在步驟S12中,用戶信息估計單元58從提供給其的輸入聲音估計非言語信息和輔助語言信息中的一個或兩者,并且將估計結(jié)果(非言語信息、輔助語言信息)作為用戶信息提供(輸出)至匹配單元56和生成單元57。然后,在步驟S13中,聲音識別單元51識別提供給其的輸入聲音。可以通過由聲音識別單元51對輸入聲音執(zhí)行聲音識別而獲得的聲音識別結(jié)果被發(fā)音符號轉(zhuǎn)換單元52轉(zhuǎn)換為識別結(jié)果發(fā)音符號串,并且提供給匹配單元56。另外,存儲在搜索結(jié)果目標存儲單元53中的搜索結(jié)果目標詞語串被語素分析單元M和發(fā)音符號轉(zhuǎn)換單元陽轉(zhuǎn)換為搜索結(jié)果目標發(fā)音符號串,并且被提供給匹配單元56。在步驟S14中,對于存儲在搜索結(jié)果目標存儲單元53中的所有搜索結(jié)果目標詞語串中的每個,匹配單元56在通過發(fā)音符號轉(zhuǎn)換單元52從聲音識別單元51提供的識別結(jié)果發(fā)音符號串和通過語素分析單元M和發(fā)音符號轉(zhuǎn)換單元55從搜索結(jié)果目標存儲單元53 提供的搜索結(jié)果目標發(fā)音符號串之間執(zhí)行匹配,并且將匹配結(jié)果提供給生成單元57。S卩,匹配單元56計算作為存儲在搜索結(jié)果目標存儲單元53中的每個搜索結(jié)果目標詞語串和聲音識別結(jié)果之間的相似度的余弦距離、校正距離等,并且將相似度作為匹配結(jié)果提供給生成單元57。在步驟S15中,生成單元57基于來自匹配單元56的匹配結(jié)果生成搜索結(jié)果詞語串,并且聲音搜索裝置10完成聲音搜索處理。即,生成單元57從存儲在搜索結(jié)果目標存儲單元53中的搜索結(jié)果目標詞語串中, 選擇關(guān)于聲音識別結(jié)果具有排列最高的N個相似度的搜索結(jié)果目標詞語串,作為搜索結(jié)果詞語串。然后,由生成單元57獲得的搜索結(jié)果詞語串被提供給輸出I/F 33(圖1)。CN 102262644 A
說明書
24/35 頁另外,當搜索結(jié)果目標詞語串是例如節(jié)目標題、表演者名稱、或詳細信息,而非標題(或詳細信息)出現(xiàn)在關(guān)于聲音識別結(jié)果具有排列最高的N個相似度的搜索結(jié)果目標詞語串中時,生成單元57可以選擇包括作為元數(shù)據(jù)的表演者名稱的節(jié)目標題連同表演者名稱一起或代替表演者名稱作為搜索結(jié)果目標詞語串。在此,當聲音搜索裝置10的操作模式被設(shè)置為正常模式時,匹配單元56和生成單元57分別執(zhí)行上述匹配處理(正常模式下的匹配處理)和生成搜索結(jié)果詞語串的處理(在正常模式下生成搜索結(jié)果詞語串的處理),而不使用從用戶信息估計單元58提供的用戶信肩、ο另一方面,當操作模式被設(shè)置為相關(guān)詞語使用匹配模式或者加權(quán)匹配模式時,匹配單元56使用從用戶信息估計單元58提供的用戶信息來執(zhí)行匹配處理。另外,當操作模式被設(shè)置為相關(guān)詞語使用排序模式時,生成單元57使用從用戶信息估計單元58提供的用戶信息來執(zhí)行生成搜索結(jié)果詞語串的處理,將在隨后描述。隨后將描述在相關(guān)詞語使用匹配模式下的匹配處理、在加權(quán)匹配模式下的匹配處理以及在相關(guān)詞語使用排序模式下生成搜索結(jié)果詞語串的處理。對于步驟S12和S13,雖然對圖11作出在步驟S12中的處理之后執(zhí)行步驟S13中的處理的描述,但是在步驟S12中的處理之前可以執(zhí)行步驟S13中的處理,或者可以同時執(zhí)行步驟S12和S13中的處理(并行方式)。[由用戶信息估計單元58進行的用戶信息估計]圖12是示出由圖1中的用戶信息估計單元58進行的用戶信息估計處理的示意圖。在此,如上所述用戶信息包括的非言語信息和輔助語言信息。在用戶信息估計單元58中,非言語信息提取單元58A使用用戶輸入聲音等基于例如用戶輸入聲音的音調(diào)檢測、說話者指明,來提取(估計)作為與身體特性相關(guān)的信息的非言語信息,包括發(fā)出輸入聲音的用戶(說話者)的性別、發(fā)出輸入聲音的用戶的年齡鈕(例如,關(guān)于用戶是小孩還是成人的信息)、指明發(fā)出輸入聲音的用戶對應(yīng)于哪個用戶的信息 (例如,用戶名稱、指明用戶的ID等)等。圖12是示出通過非言語信息提取單元58A估計發(fā)出輸入聲音的用戶的性別作為非言語信息(以及這樣的用戶信息)的方法的示意圖。S卩,圖12示出由女性生成的輸入聲音(女聲)“RY0RI (烹飪)”和由男性生成的輸入聲音(男聲)“RY0RI (烹飪),,的波形、音調(diào)和功率。由于女聲的音調(diào)(頻率)平均高于男聲的音調(diào)(頻率),所以非言語信息提取單元 58A基于例如這種音調(diào)來估計發(fā)出輸入聲音的用戶的性別。即,在圖12中,女聲“RY0RI (烹飪),,的音調(diào)的最大頻率是男聲“RY0RI (烹飪),, 的音調(diào)的最大頻率的兩倍(一個八度音階)高或更多,并且女聲“RY0RI (烹飪)”的音調(diào)平均高于男聲“RY0RI (烹飪),,的音調(diào)。從而,非言語信息提取單元58A檢測輸入聲音的音調(diào)并且獲得作為輸入聲音(在聲音區(qū)段中)的音調(diào)的平均值的平均音調(diào)。另外,非言語信息提取單元58A基于輸入聲音的平均音調(diào)和預(yù)先設(shè)置用于估計性別的用于性別的閾值之間的幅度關(guān)系,估計發(fā)出輸入聲音的用戶的性別。
特別地,如果輸入聲音的平均音調(diào)等于或大于(或超過)用于性別的閾值,則非言語信息提取單元58A估計發(fā)出輸入聲音的用戶的性別是女性。另外,如果輸入聲音的平均音調(diào)不等于或不大于用于性別的閾值,則非言語信息提取單元58A估計發(fā)出輸入聲音的用戶的性別是男性。在圖12中,160Hz被設(shè)置為用于性別的閾值。另外,在圖12中,女聲“RY0RI(烹飪),,的平均音調(diào)是229. 41Hz,并且男聲”RYORI (烹飪),,的平均音調(diào)是116. 07Hz。從而,在圖12中,女聲‘‘RY0RI (烹飪)”的用戶的性別被估計為女性,并且男聲 “RYORI (烹飪),,的用戶的性別被估計為男性。另外,例如,非言語信息提取單元58A還可以從輸入聲音中提取包括音調(diào)、功率、 記法以及諸如此類信息的韻律信息,并且使用韻律信息來執(zhí)行說話者指明(用戶標識),用于獲得指明發(fā)出輸入聲音的用戶對應(yīng)于哪個用戶(例如,用戶的名稱、用于指明用戶的ID 等)的信息。當非言語信息提取單元58A估計發(fā)出輸入聲音的用戶并且執(zhí)行用于獲得指明上述用戶(以下還稱為用戶指明信息)的信息的說話者指明時,可以在記錄器中預(yù)先創(chuàng)建和存儲表格(以下還稱為用戶表格),其中,包括在說話者指明中估計(獲得)的用戶指明信息、由用戶指明信息指明的用戶的偏好或活動歷史(例如,用戶頻繁觀看或視頻記錄的節(jié)目的標題或種類、操作單元31 (圖1)的操作歷史等)以及關(guān)于用戶的性別、年齡等的信息。在這種情況下,非言語信息提取單元58A可以執(zhí)行說話者指明,參考用戶表格中與被獲得作為說話者指明的結(jié)果的用戶指明信息相關(guān)的信息,并且估計發(fā)出輸入聲音的用戶的性別。另外,當非言語信息提取單元58A基于說話者指明估計用戶時,可以將作為非言語信息的指明用戶的用戶指明信息以及因此的用戶信息從用戶信息估計單元58提供給匹配單元56和生成單元57。在此,除了發(fā)出輸入聲音的用戶的性別和用戶指明信息之外,非言語信息提取單元58A還可以基于輸入聲音的平均音調(diào)的語調(diào)(tone),估計用戶的年齡組(例如,當輸入聲音的平均音調(diào)高于預(yù)定值時,用戶被估計為小孩,并且當輸入聲音的平均音調(diào)等于或低于預(yù)定值時,用戶被估計為成人),并且將作為非言語信息的用戶的年齡組以及因此的用戶信息提供給匹配單元56和生成單元57。圖13是示出通過圖1中的用戶信息估計單元58進行的用戶信息估計處理的示意圖。在此,如上所述用戶信息包括非言語信息和輔助語言信息。在用戶信息估計單元58中,輔助語言信息提取單元58B基于對包括用戶的輸入聲音的音調(diào)(語音的語調(diào))、功率(語音的音量)、說話速度(語音的速度)等的韻律信息的檢測,估計輸入聲音的聲音區(qū)段中用戶強調(diào)它們的話語的強調(diào)區(qū)段,作為輔助語言信息(其是關(guān)于用戶的思想方法的信息,包括它們的意圖、情感等)。另外,用戶信息估計單元58將表示強調(diào)區(qū)段的用戶信息從用戶信息估計單元58 提供給匹配單元56和生成單元57。圖13是示出通過輔助語言信息提取單元58B估計輸入聲音的聲音區(qū)段中的強調(diào)區(qū)段作為輔助語言信息的方法的示意圖。
S卩,圖13示出話語“SEKAI ISAN(世界遺產(chǎn))”的不具有強調(diào)的輸入聲音(正常聲音)和具有部分強調(diào)的輸入聲音(強調(diào)聲音)中的每個的波形、音調(diào)和功率。在此,在強調(diào)聲音“SEKAI ISAN(世界遺產(chǎn))”中強調(diào)和發(fā)出“SEKAI ISAN(世界遺產(chǎn))”中的“ ISAN (遺產(chǎn))”,即,在音節(jié)中標注時的“ sekaiisaN”中的“ isaN”。在圖13中,在正常聲音“SEKAI ISAN (世界遺產(chǎn))”和強調(diào)聲音“SEKAI ISAN (it 界遺產(chǎn))”中強調(diào)和發(fā)出的“ISAN(遺產(chǎn))”部分(以下還被稱為強調(diào)區(qū)段)(特別是其中的 “saN”)的音調(diào)和功率方面觀測區(qū)分差異。從而,輔助語言信息提取單元58B基于輸入聲音的音調(diào)和功率估計強調(diào)區(qū)段。S卩,輔助語言信息提取單元58B例如檢測輸入聲音的音調(diào),以獲得平均音調(diào)。此外,輔助語言信息提取單元58B獲得通過將平均音調(diào)乘以作為用于估計強調(diào)區(qū)段的用于強調(diào)的閾值的預(yù)定系數(shù)(例如,等于或大于1.0的值1.2等)獲得的乘積值,并且基于輸入聲音的音調(diào)和用于強調(diào)的閾值之間的幅度關(guān)系來估計輸入聲音(的聲音區(qū)段中)的強調(diào)區(qū)段。特別地,輔助語言信息提取單元58B在輸入聲音的聲音區(qū)段中檢測其音調(diào)等于或大于(或超過)用于強調(diào)的閾值的區(qū)段,并且估計該候選區(qū)段作為強調(diào)區(qū)段。關(guān)于圖13中的正常聲音,平均音調(diào)是119. 59Hz,并且用于強調(diào)的閾值(其是通過將平均音調(diào)乘以作為預(yù)定系數(shù)的1. 2獲得的乘積值)是143. 51Hz。由于在正常聲音的聲音區(qū)段中不存在音調(diào)超過作為用于強調(diào)的閾值的143. 51Hz 的區(qū)段,所以未檢測到候選區(qū)段。另一方面,圖13中的強調(diào)聲音的平均音調(diào)是175. 58Hz,并且用于強調(diào)的閾值(作為將平均音調(diào)乘以作為預(yù)定系數(shù)的1. 2獲得的乘積值)是210. 94Hz。另外,由于在強調(diào)聲音的聲音區(qū)段中存在其音調(diào)超過作為用于強調(diào)的閾值的 143. 51的區(qū)段,S卩,由于在“ISAN(遺產(chǎn))”區(qū)段中音調(diào)超過用于強調(diào)的閾值,所以“ISAN(遺產(chǎn))”區(qū)段被檢測作為候選區(qū)段并且從而作為強調(diào)區(qū)段。另外,所謂的隔離候選區(qū)段(在被預(yù)先設(shè)置為兩個相鄰強調(diào)區(qū)段之間的最小時間間隔的第一時間周期Tl內(nèi)在隔離候選區(qū)段周圍不存在另一候選區(qū)段)的寬度比被預(yù)先設(shè)置為用于一個強調(diào)區(qū)段的最小時間周期的第二時間周期T更短,可能由于作為強調(diào)區(qū)段其時間長度過分短而導(dǎo)致候選區(qū)段不被估計為強調(diào)區(qū)段。另外,當兩個相鄰候選區(qū)段之間的時間間隔比第一時間周期Tl短時,這兩個候選區(qū)段可以被估計為從按照時間在前的候選區(qū)段的頂部到按照時間在后的候選區(qū)段的末端的一個強調(diào)區(qū)段。圖14是示出通過輔助語言信息提取單元58B將輸入聲音中的聲音區(qū)段中的強調(diào)區(qū)段估計為輔助語言信息的方法的示意圖。S卩,圖14示出在話語"REONARUDO(Leonard0),,的沒有強調(diào)的輸入聲音(正常聲音)和具有部分強調(diào)的輸入聲音(強調(diào)聲音)中的每個的波形、音調(diào)和功率。在此,“RE0NARUD0(Leonardo),,中的 “NA”,即,當在音素中標注時 “RE0NARUD0,,中的“NA”,在強調(diào)聲音“RE0NARUD0 (Leonardo) ”中被強調(diào)并且被發(fā)出。在圖14中,在正常聲音“RE0NARUD0 (Leonardo) ”和強調(diào)聲音 "RE0NARUD0 (Leonardo) ”中的強調(diào)部分‘‘NA” (特別是其中的‘‘a(chǎn)” )的音調(diào)和功率方面觀測
29區(qū)分差異。從而,輔助語言信息提取單元58B基于輸入聲音的音調(diào)和功率估計強調(diào)區(qū)段。S卩,輔助語言信息提取單元58B以與圖13相同的方式檢測輸入聲音的音調(diào)并且獲得平均音調(diào)。此外,輔助語言信息提取單元58B將通過將平均音調(diào)乘以例如作為預(yù)定系數(shù)的1. 2獲得的乘積值作為用于強調(diào)的閾值,基于輸入聲音的音調(diào)和用于強調(diào)的閾值之間的幅度關(guān)系檢測候選區(qū)段,并且從而估計輸入聲音(的聲音區(qū)段中)的強調(diào)區(qū)段。關(guān)于圖14中的正常聲音,平均音調(diào)是121. 51Hz,并且用于強調(diào)的閾值(其是通過將平均音調(diào)乘以作為預(yù)定系數(shù)的1. 2獲得的乘積值)是145. 81Hz。然后,由于在正常聲音的聲音區(qū)段中未出現(xiàn)音調(diào)超過用于強調(diào)的閾值145. 81Hz 的區(qū)段,所以未檢測到候選區(qū)段。另一方面,關(guān)于圖14中的強調(diào)聲音,平均音調(diào)是131. 63Hz,并且用于強調(diào)的閾值 (其是通過將平均音調(diào)乘以作為預(yù)定系數(shù)的1. 2獲得的乘積值)是157. 96Hz。在強調(diào)聲音的聲音區(qū)段中,存在音調(diào)超過用于強調(diào)的閾值157.96Hz的區(qū)段,即, 在“NA”區(qū)段中音調(diào)超過用于強調(diào)的閾值,“NA”區(qū)段被檢測作為候選區(qū)段,并且從而被估計為強調(diào)區(qū)段。另外,由于音調(diào)主要受元音影響,所以可以將候選區(qū)段擴展到包括出現(xiàn)在其頂部的元音的音節(jié)的頂部的位置(例如,元音之前的輔音的頂部),并且估計擴展之后的候選區(qū)段作為強調(diào)區(qū)段。雖然作出了輔助語言信息提取單元58B使用音調(diào)來估計強調(diào)區(qū)段的以上描述,但是還可以使用功率或說話速度代替音調(diào)來估計強調(diào)區(qū)段。S卩,輔助語言信息提取單元58B可以從聲音區(qū)段中檢測例如功率等于或大于預(yù)定閾值(通過將功率的平均值乘以預(yù)定系數(shù)獲得的乘積值)的區(qū)段作為候選區(qū)段,并且估計該候選區(qū)段作為強調(diào)區(qū)段。另外,輔助語言信息提取單元58B可以從聲音區(qū)段中檢測例如說話速度等于或小于預(yù)定閾值的區(qū)段作為候選區(qū)段,并且估計該候選區(qū)段作為強調(diào)區(qū)段。圖15是示出通過輔助語言信息提取單元58B使用說話速度來估計輸入聲音的聲音區(qū)段中的強調(diào)區(qū)段的方法的示意圖。S卩,圖15示出具有話語"REONARUDO(Leonard0) ”的部分強調(diào)的輸入聲音(強調(diào)聲音)和具有話語“RE0NA”的部分強調(diào)的輸入聲音(強調(diào)聲音)中的每個的波形、音調(diào)和功率。在強調(diào)聲音“REONARUDO(Leonardo) ”中,“RE0NARUD0”中的“NA”,即當在音素中標注時“reonarduo”中的“NA”,被強調(diào)和發(fā)出。在強調(diào)聲音“RE0NA”中,“RE0NA”中的“NA”,即,當在音素中標注時“RE0NA”中的 “NA”,被強調(diào)和發(fā)出。在此,在圖15中,通過在話語的一部分處延遲說話速度來強調(diào)話語的該部分。當使用說話速度估來計強調(diào)區(qū)段時,輔助語言信息提取單元58B獲得聲音區(qū)段的每個音素(以下還稱為音素區(qū)段)的區(qū)段(時間周期)的反數(shù)作為音素的說話速度。另外,輔助語言信息提取單元58B基于說話速度和預(yù)定閾值之間的幅度關(guān)系來估計輸入聲音(的聲音區(qū)段中)的強調(diào)區(qū)段。
特別地,輔助語言信息提取單元58B檢測說話速度等于或小于(或低于)預(yù)定閾值的區(qū)段,即,等于或長于例如作為由預(yù)定閾值的反數(shù)表示的時間周期的1秒的音素區(qū)段, 作為強調(diào)區(qū)段的候選區(qū)段,并且估計該候選區(qū)段作為強調(diào)區(qū)段。在圖15中的強調(diào)聲音“RE0NARUD0(Leonardo) ”中,音素“a”的音素區(qū)段的長度是 1. 06秒,其滿足等于或長于1秒的條件,因而該音素區(qū)段被檢測作為候選區(qū)段。另外,在圖15中的強調(diào)聲音“RE0NA”中,音素“a”的音素區(qū)段的長度是1. 33秒, 其滿足等于或長于1秒的條件,因而該音素區(qū)段被檢測作為候選區(qū)段。從而,音素“a”的音素區(qū)段被估計為用于圖15中的強調(diào)聲音 "REONARUDO(Leonardo) ”和 “RE0NA” 的強調(diào)區(qū)段。由于可以具有等于或長于1秒的音素區(qū)段的音素主要是元音,所以當元音在候選區(qū)段的頂部時,候選區(qū)段可以擴展至包括在其頂部處存在的元音的音節(jié)的頂部的位置,并且擴展之后的候選區(qū)段可以被估計作為強調(diào)區(qū)段。雖然作出了輔助語言信息提取單元58B使用音調(diào)、功率以及說話速度中的一個來估計強調(diào)區(qū)段的以上情況的描述,但是也可以使用音調(diào)、功率以及說話速度中的多個因素來估計強調(diào)區(qū)段。S卩,輔助語言信息提取單元58B可以將例如使用音調(diào)檢測的候選區(qū)段與使用功率檢測的候選區(qū)段疊加的區(qū)段、或者作為使用音調(diào)檢測的候選區(qū)段和使用功率檢測的候選區(qū)段中的至少一個的區(qū)段估計作為強調(diào)區(qū)段。另外,輔助語言信息提取單元58B可以鼓勵用戶用正常聲音和用強調(diào)聲音順序地執(zhí)行相同話語,分別將第一話語的正常聲音中的音調(diào)、功率和說話速度與第二話語中的強調(diào)聲音中的音調(diào)、功率和說話速度進行比較,并且將在比較中在音調(diào)、功率或說話速度中存在顯著差異(等于或大于閾值的差異)的區(qū)段估計為強調(diào)區(qū)段。[相關(guān)詞語使用匹配模式下的匹配]圖16是示出當圖2中的聲音搜索裝置10的操作模式被設(shè)置為相關(guān)詞語使用匹配模式時,在圖11中的步驟S14中由匹配單元56執(zhí)行的相關(guān)詞語使用匹配模式下的匹配處理的流程圖。在步驟S21中,匹配單元56獲得從用戶信息估計單元58提供的關(guān)于用戶信息的相關(guān)詞語。S卩,當用戶信息估計單元58 (的非言語信息提取單元58A)估計發(fā)出輸入聲音的用戶的性別,以及表示該性別的用戶信息(包括非言語信息)作為估計結(jié)果被提供給匹配單元56時,在步驟S21中匹配單元56獲得與由用戶信息表示的用戶的性別相關(guān)的相關(guān)詞語。在此,例如,當由用戶信息表示的用戶的性別是“女性”時,與“女性”相關(guān)的相關(guān)詞語的示例包括“0ΝΝΑ(女人)”、“0KASAN(母親)”、“MAMA(媽媽)”、“SUITSU(糖果),,、 “OmSU(甜點)”、“DAIETT0(節(jié)食)”、“OBENTO(盒裝午餐)”等。當由用戶信息表示的用戶的性別是“男性”時,與“男性”相關(guān)的相關(guān)詞語的示例包括“0Τ0Κ0(男人)”、“0T0SAN(父親)”、“PAPA(爸爸)”、“TSUMAMI (啃)”、“SAKE(酒精),,寸。可以由裝置的設(shè)計者將關(guān)于用戶的性別的相關(guān)詞語預(yù)先登記在聲音搜索裝置10 中。
此外,例如,可以從文本數(shù)據(jù)庫(諸如,互聯(lián)網(wǎng)上的網(wǎng)頁、預(yù)定文獻等)搜索經(jīng)常與表示性別的詞語(諸如,“男性”、“女性”等)一起出現(xiàn)的詞語,并且將該詞語作為與用戶的性別相關(guān)的相關(guān)詞語登記在聲音搜索裝置10中。另外,當用戶信息估計單元58 (的非言語信息提取單元58A)基于說話者指明來估計發(fā)出輸入聲音的用戶,并且表示用于指明用戶的用戶指明信息的用戶信息(包括非言語信息)被提供給匹配單元56時,匹配單元56獲得與用戶信息所表示的用戶指明信息所指明的用戶相關(guān)的相關(guān)詞語。在此,假設(shè)圖1中的記錄器預(yù)先創(chuàng)建和存儲用戶表格,其中,用戶指明信息與同用戶相關(guān)的信息相關(guān)聯(lián),同用戶相關(guān)的信息包括上述由用戶指明信息指明的用戶的偏好或活動歷史(例如,用戶頻繁觀看或視頻記錄的節(jié)目的標題或種類、操作單元31(圖1)的操作歷史等)等。在這種情況下,匹配單元56獲得與用戶表格中的用戶信息所表示的用戶指明信息相關(guān)聯(lián)的信息(諸如,用戶頻繁觀看或視頻記錄的節(jié)目的標題或種類(表示標題或種類的詞語串的每個詞語))作為與用戶信息所表示的用戶指明信息所指明的用戶相關(guān)的相關(guān)詞語。另外,用戶可以對操作單元31 (圖1)進行操作,以將可以作為與用戶相關(guān)的相關(guān)詞語的詞語登記在用戶表格中。匹配單元56獲得與從用戶信息估計單元58提供的用戶信息相關(guān)的相關(guān)詞語,并且然后在步驟S22中,將相關(guān)詞語添加至通過發(fā)音符號轉(zhuǎn)換單元52從聲音識別單元51提供的識別結(jié)果發(fā)音符號串。S卩,匹配單元56將相關(guān)詞語的發(fā)音符號串添加至識別結(jié)果發(fā)音符號串的頂部或末端。然后,在步驟S23中,對于搜索結(jié)果目標存儲單元53中所存儲的所有搜索結(jié)果目標詞語串中的每個,匹配單元56在已添加了相關(guān)詞語的識別結(jié)果發(fā)音符號串和通過語素分析單元M及發(fā)音符號轉(zhuǎn)換單元55從搜索結(jié)果目標存儲單元53提供的搜索結(jié)果目標發(fā)音符號串之間執(zhí)行匹配(計算相似度),并且將匹配結(jié)果(相似度)提供給生成單元57,并且處理返回。從而,在正常模式下匹配單元56在識別結(jié)果發(fā)音符號串本身和搜索結(jié)果目標發(fā)音符號串之間執(zhí)行匹配,而在相關(guān)詞語使用匹配模式下匹配單元56在已添加了相關(guān)詞語的識別結(jié)果發(fā)音符號串和搜索結(jié)果目標發(fā)音符號串之間執(zhí)行匹配。結(jié)果,在相關(guān)詞語使用匹配模式下,可以獲得根據(jù)作為說話者的用戶(其本身或其性別)而不同的靈活搜索結(jié)果詞語串。S卩,當例如已經(jīng)估計出用戶的性別,并且表示性別的用戶信息已經(jīng)從用戶信息估計單元58提供給匹配單元56時,如果由用戶信息表示的用戶的性別是“女性”,則匹配單元 56將與“女性”相關(guān)的前述相關(guān)詞語“0ΝΝΑ(女人)”等添加至識別結(jié)果發(fā)音符號串,并且對該識別結(jié)果發(fā)音符號串進行匹配。從而,與在不將相關(guān)詞語“0ΝΝΑ (女人),,等添加到識別結(jié)果發(fā)音符號串的情況下執(zhí)行匹配的情況相比較,可以獲得適合于說話的女性用戶的搜索結(jié)果目標詞語串被列為最高排列的匹配結(jié)果,以及這種搜索結(jié)果目標詞語串被選擇作為搜索結(jié)果詞語串的搜索結(jié)果ο另外,當由用戶信息表示的用戶的性別是“男性”時,匹配單元56將與“男性”相關(guān)的前述相關(guān)詞語“0Τ0Κ0(男人)”等添加至識別結(jié)果發(fā)音符號串,并且對該識別結(jié)果發(fā)音符號串進行匹配。從而,與在不將相關(guān)詞語“0Τ0Κ0(男人),,等添加到識別結(jié)果發(fā)音符號串的情況下執(zhí)行匹配的情況相比較,可以獲得適合于說話的男性用戶的搜索結(jié)果目標詞語串被列為最高排列的匹配結(jié)果,以及這種搜索結(jié)果目標詞語串被選擇作為搜索結(jié)果詞語串的搜索結(jié)果ο當例如估計用戶的性別,并且表示指明用戶的用戶指明信息的用戶信息被從用戶信息估計單元58提供至匹配單元56時,匹配單元56通過將用戶信息所表示的用戶指明信息所指明的用戶經(jīng)常觀看的節(jié)目的標題等作為相關(guān)詞語添加至識別結(jié)果發(fā)音符號串來執(zhí)行匹配。從而,與在不將用戶經(jīng)常觀看的節(jié)目的標題等添加到識別結(jié)果發(fā)音符號串的情況下執(zhí)行匹配的情況相比較,可以獲得根據(jù)說話的用戶的偏好以排列順序定位(適合于用戶的)搜索結(jié)果目標詞語串的匹配結(jié)果,以及搜索結(jié)果目標詞語串被獲得作為搜索結(jié)果詞語串的各個用戶特有的搜索結(jié)果。另外,當匹配單元56在相關(guān)詞語使用匹配模式下獲得多個相關(guān)詞語時,例如,每個相關(guān)詞語都順序地被選擇作為要受到關(guān)注的詞語,并且要受到關(guān)注的詞語被添加至識別結(jié)果發(fā)音符號串,并且然后經(jīng)過與搜索結(jié)果目標發(fā)音符號串的匹配。[相關(guān)詞語使用排序模式下的匹配]圖17是示出當圖2中的聲音搜索裝置10的操作模式被設(shè)置為相關(guān)詞語使用排序模式時,通過生成單元57在圖11中的步驟S15中執(zhí)行的相關(guān)詞語使用排序模式下生成搜索結(jié)果詞語串的處理的流程圖。在步驟S31中,生成單元57獲得與從用戶信息估計單元58提供的用戶信息相關(guān)的相關(guān)詞語。S卩,以與匹配單元56在圖16的步驟S21中獲得相關(guān)詞語的情況相同的方式,生成單元57獲得與來自用戶信息估計單元58的用戶信息所表示的用戶的性別相關(guān)的相關(guān)詞語,以及與用戶信息所表示的用戶指明信息所指明的用戶相關(guān)的相關(guān)詞語。在步驟S32中,生成單元57獲得與從用戶信息估計單元58提供的用戶信息相關(guān)的相關(guān)詞語,然后基于作為來自匹配單元56的匹配結(jié)果的相似度,對存儲在搜索結(jié)果目標存儲單元53中的搜索結(jié)果目標詞語串進行排序,并且在排序之后生成搜索結(jié)果目標詞語串的列表(以下還被稱為搜索結(jié)果候選列表)。即,生成單元57生成搜索結(jié)果候選列表,其中存儲在搜索結(jié)果目標存儲單元53中的搜索結(jié)果目標詞語串以相似度的升序登記。然后,在步驟S33中,生成單元57對搜索結(jié)果候選列表中的搜索結(jié)果目標詞語串進行排序,使得在搜索結(jié)果候選列表中的搜索結(jié)果目標詞語串中,包括相關(guān)詞語的搜索結(jié)果目標詞語串(以下還被稱為具有相關(guān)詞語的詞語串)按照排列順序定位。即,生成單元57在搜索結(jié)果候選列表中的搜索結(jié)果目標詞語串中選擇具有相關(guān)詞語的詞語串,并且在搜索結(jié)果候選列表中將具有相關(guān)詞語的詞語串移動到較高排列順序,同時在具有相關(guān)詞語的詞語串之間保持順序關(guān)系。從而,只要搜索結(jié)果目標詞語串不包括相關(guān)詞語,按照用于搜索結(jié)果目標詞語串的搜索結(jié)果候選列表的順序,即使具有高(大)相似度的搜索結(jié)果目標詞語串也可能被定位成比具有相關(guān)詞語的詞語串更低的排列順序。此后,在步驟S34中,生成單元57通過將搜索結(jié)果候選列表中的排列最高的N個搜索結(jié)果目標詞語串選擇為搜索結(jié)果詞語串,生成搜索結(jié)果詞語串,并且處理返回。從而,在正常模式下生成單元57從存儲在搜索結(jié)果目標存儲單元53中的搜索結(jié)果目標詞語串中,將具有排列最高的N個相似度的搜索結(jié)果目標詞語串選擇為搜索結(jié)果詞語串,而在相關(guān)詞語使用排序模式下生成單元57從包括相關(guān)詞語的搜索結(jié)果詞語串(具有相關(guān)詞語的詞語串)中,將具有排列最高的N個相似度的搜索結(jié)果詞語串選擇作為搜索結(jié)果詞語串。結(jié)果,在相關(guān)詞語使用排序模式下可以獲得根據(jù)用戶(說話者)而不同的靈活搜索結(jié)果詞語串。S卩,圖18是示出當表示用戶的性別的用戶信息從用戶信息估計單元58提供給生成單元57時,在相關(guān)詞語使用排序模式下通過生成單元57生成的搜索結(jié)果詞語串的示意圖。如果假設(shè)女性用戶和男性用戶都發(fā)出輸入聲音“RY0RI (烹飪),,則在正常模式下生成單元57選擇具有排列最高的N個相似度的搜索結(jié)果目標詞語串作為用于女性用戶和男性用戶的搜索結(jié)果詞語串。從而,在正常模式下,關(guān)于用于女性用戶和男性用戶的相同輸入聲音“RY0RI (烹飪)”可以獲得相同搜索結(jié)果詞語串。另一方面,當在相關(guān)詞語使用排序模式下由用戶信息表示的用戶的性別是“女性”時,生成單元57在包括關(guān)于參考圖17描述的“女性”的相關(guān)詞語“0ΝΝΑ(女人)”、 “0KASAN(母親)”、“MAMA (媽媽)”、“SUITSU (糖果)”、“0YATSU (甜點)”、“DAIETT0 (節(jié)食),,、 “0ΒΕΝΤ0(盒裝午餐)”等的搜索結(jié)果目標詞語串中,選擇具有排列最高的N個(圖18中為 5)相似度的搜索結(jié)果目標詞語串作為用于為用戶的性別的“女性”的搜索結(jié)果詞語串。另外,當由用戶信息表示的用戶的性別是“男性”時,生成單元57在包括關(guān)于參考圖17描述的“男性”的相關(guān)詞語“0Τ0Κ0(男人)”、“0T0SAN(父親)”、“PAPA(爸爸),,、 "TSUMAMI (啃)”、“SAKE (酒精)”等的搜索結(jié)果目標詞語串中,選擇具有排列最高的N個相似度的搜索結(jié)果目標詞語串作為用于為用戶的性別的“男性”的搜索結(jié)果詞語串。從而,在相關(guān)詞語使用排序模式下,可以根據(jù)發(fā)出輸入聲音的用戶的性別,獲得將適合于該性別的用戶的搜索結(jié)果目標詞語串選擇為搜索結(jié)果詞語串的搜索結(jié)果。圖19是示出當表示指明用戶的用戶指明信息的用戶信息從用戶信息估計單元58 提供給生成單元57時,通過生成單元57在正常模式和相關(guān)詞語使用排序模式下分別生成的搜索結(jié)果詞語串的示意圖。如果假設(shè)用戶發(fā)出輸入聲音“RY0RI (烹飪)”,則在正常模式下生成單元57選擇關(guān)于輸入聲音“RYORI (烹飪)”具有排列最高的N個相似度的搜索結(jié)果目標詞語串作為用于任何用戶的搜索結(jié)果詞語串。即,在正常模式下,不管哪個用戶是說話者,關(guān)于相同輸入聲音“RY0RI (烹飪),,都獲得相同搜索結(jié)果詞語串。另一方面,如果例如假設(shè)用戶信息所表示的用戶指明信息所指明的用戶頻繁觀看標題為“SHOKUSAI ROMAN (浪漫的美麗食物)”的節(jié)目,并且標題“SHOKUSAI ROMAN (浪漫的美麗食物),,被獲得作為相關(guān)詞語,則在相關(guān)詞語使用排序模式下生成單元57從包括相關(guān)詞語“SHOKUSAI ROMAN(浪漫的美麗食物),,的搜索結(jié)果目標詞語串中,選擇關(guān)于輸入聲音 "RYORI (烹飪)”具有排列最高的N個(圖18中為5)相似度的搜索結(jié)果目標詞語串作為發(fā)出輸入聲音‘‘RYORI (烹飪),,的用戶特有的搜索結(jié)果詞語串。從而,在相關(guān)詞語使用排序模式下,可以獲得根據(jù)用戶偏好等(諸如,發(fā)出輸入聲音的用戶頻繁觀看的節(jié)目)適合于用戶的搜索結(jié)果目標詞語串被選擇作為搜索結(jié)果詞語串的搜索結(jié)果。另外,在相關(guān)詞語使用排序模式下,當生成單元57獲得多個相關(guān)詞語時,可以將搜索結(jié)果候選列表中的搜索結(jié)果目標詞語串排序,使得只要生成單元57獲得包括相關(guān)詞語的搜索結(jié)果目標詞語串(具有相關(guān)詞語的詞語串),具有相關(guān)詞語的詞語串就按照上升順序排列,而不管包括在具有相關(guān)詞語的詞語串中的相關(guān)詞語的數(shù)量如何,或者根據(jù)包括在具有相關(guān)詞語的詞語串中的相關(guān)詞語的數(shù)量,對搜索結(jié)果候選列表中的搜索結(jié)果目標詞語串進行排序。當生成單元57根據(jù)包括在具有相關(guān)詞語的詞語串中的相關(guān)詞語的數(shù)量來對搜索結(jié)果候選列表中的搜索結(jié)果目標詞語串進行排序時,可以對搜索結(jié)果候選列表中的搜索結(jié)果目標詞語串進行排序使得包括更多相關(guān)詞語的詞語串按照更高或更低順序排列。在此,甚至在參考圖16描述的相關(guān)詞語使用匹配模式下,也可以獲得在圖18和圖 19中所示的相關(guān)詞語使用排序模式下可以獲得的適合于用戶的相同搜索結(jié)果詞語串。[加權(quán)匹配模式下的匹配]圖20是示出當圖2中的聲音搜索裝置10的操作模式被設(shè)置為加權(quán)匹配模式時, 在圖11中的步驟S14中由匹配單元56執(zhí)行的加權(quán)匹配模式下的匹配處理的流程圖。在步驟S41中,匹配單元56在通過發(fā)音符號轉(zhuǎn)換單元52從聲音識別單元51提供的識別結(jié)果發(fā)音符號串中,檢測從用戶信息估計單元58提供的用戶信息所表示的強調(diào)區(qū)段的發(fā)音符號(串)作為加權(quán)目標符號。此后,在步驟S42中,匹配單元56通過給識別結(jié)果發(fā)音符號串中的加權(quán)目標符號加權(quán),對于存儲在搜索結(jié)果目標存儲單元53中的所有搜索結(jié)果目標詞語串中的每個,在識別結(jié)果發(fā)音符號串和通過語素分析單元M及發(fā)音符號轉(zhuǎn)換單元55從搜索結(jié)果目標存儲單元53提供的搜索結(jié)果目標發(fā)音符號串之間執(zhí)行匹配(相似度的計算)。然后,匹配單元56將匹配結(jié)果(相似度)提供給生成單元57,并且處理返回。從而,在正常模式下匹配單元56在不執(zhí)行任何加權(quán)的情況下在識別結(jié)果發(fā)音符號串和搜索結(jié)果目標發(fā)音符號串之間執(zhí)行匹配,而在加權(quán)匹配模式下匹配單元56通過給識別結(jié)果發(fā)音符號串中的作為強調(diào)區(qū)段中的發(fā)音符號的加權(quán)目標符號加權(quán)來執(zhí)行匹配。結(jié)果,在加權(quán)匹配模式下,可以獲得根據(jù)在輸入聲音中用戶強調(diào)和發(fā)出的強調(diào)區(qū)段而不同的靈活搜索結(jié)果詞語串。圖21A和圖21B是示出在加權(quán)匹配模式下的匹配處理的示意圖。S卩,圖21A是示出在加權(quán)匹配模式下,由匹配單元56使用向量代替信息代替搜索結(jié)果目標向量來執(zhí)行的在聲音識別結(jié)果和搜索結(jié)果目標詞語串之間的相似度的計算(匹配)的示意圖。
在圖21A中,在搜索結(jié)果目標詞語串中出現(xiàn)多次的相同音節(jié)的發(fā)音符號被相互區(qū)分,并且以與圖9和圖10的相同方式在向量代替信息中來表達。另外,在圖21A中,以與圖10中在代替搜索結(jié)果目標向量的向量代替信息中表達搜索結(jié)果目標詞語串(的搜索結(jié)果目標發(fā)音符號串)相同的方式,在代替識別結(jié)果向量的向量代替信息中表達聲音識別結(jié)果(的識別結(jié)果發(fā)音符號串)。如在圖10中所描述的,當余弦距離或校正距離被獲得作為聲音識別結(jié)果和搜索結(jié)果目標詞語串之間的相似度時,必須在識別結(jié)果向量Vutk和搜索結(jié)果目標向量Vt■⑴ 之間提供內(nèi)積Vutk · VTITLE⑴。在正常模式下,通過將內(nèi)積Vutk · VTITLE(i)的初始值設(shè)置為0,通過順序地關(guān)注構(gòu)成聲音識別結(jié)果的向量代替信息的發(fā)音符號并且當與受到關(guān)注的符號相符的發(fā)音符號出現(xiàn)在搜索結(jié)果目標詞語串的向量代替信息中時使內(nèi)積VUTK· VTmE(i)加1,可以獲得內(nèi)積
Vutr * Vtitle “)°另一方面,在加權(quán)匹配模式下,當受到關(guān)注的符號不是加權(quán)目標符號時,內(nèi)積 νυτκ·νΤΙΜ(υ以與正常模式下當與受到關(guān)注的符號相符的發(fā)音符號出現(xiàn)在搜索結(jié)果目標詞語串的向量代替信息中時相同的方式增加1。另外,當受到關(guān)注的符號是加權(quán)目標符號時,在正常模式的情況下如果與受到關(guān)注的符號相符的發(fā)音符號出現(xiàn)在搜索結(jié)果目標詞語串的向量代替信息中,則內(nèi)積 Vute · VTITLE(i)增加一個值,該值的權(quán)重(例如,大于1的2等)增加1作為增加量。結(jié)果,加權(quán)匹配模式下在搜索結(jié)果目標發(fā)音符號串中包括與輸入聲音的聲音識別結(jié)果的識別結(jié)果發(fā)音符號串中用戶強調(diào)和發(fā)出的強調(diào)部分的發(fā)音符號(加權(quán)目標符號)相同的發(fā)音符號的搜索結(jié)果目標詞語串的相似度大于正常模式的情況下的相似度,因而這種搜索結(jié)果目標詞語串可以容易地被獲得作為搜索結(jié)果詞語串。圖21Β示出當輸入聲音“SEKAI ISAN(世界遺產(chǎn))”中的“ISAN(遺產(chǎn))”被強調(diào)和發(fā)出時,在正常模式和加權(quán)匹配模式中的每個下獲得的作為相似度的余弦距離。圖21B示出在正常模式和加權(quán)匹配模式中的每個下獲得的三個搜索結(jié)果目標詞語串“ZA SEKAI ISAN(該世界遺產(chǎn))”、“SEKAI NO SORA (世界天空)”以及“KENJA NO ISAN(聰明男人的遺產(chǎn))”中的每個與輸入聲音“SEKAI ISAN(世界遺產(chǎn)),,(的聲音識別結(jié)果)之間的相似度。在正常模式下,分別地,包括輸入聲音“SEKAI ISAN(世界遺產(chǎn)),,的所有部分的搜索結(jié)果目標詞語串“ZA SEKAI ISAN(該世界遺產(chǎn))”的相似度是0.926,包括輸入聲音的一部分“SEKAI(世界)”的搜索結(jié)果目標詞語串“SEKAI NO SORA(世界天空)”的相似度是0. 500,并且包括輸入聲音的另一部分“ISAN(遺產(chǎn)),,的搜索結(jié)果目標詞語串“KENJA NO ISAN(聰明男人的遺產(chǎn)),,的相似度是0. 463。從而,由于當各包括一部分輸入聲音的搜索結(jié)果目標詞語串“SEKAI NO SORA(世界天空)”和搜索結(jié)果目標詞語串“KENJA NO ISAN(聰明男人的遺產(chǎn))”相互比較時,搜索結(jié)果目標詞語串“SEKAI NO SORA(世界天空)”的相似度(0.500)大于搜索結(jié)果目標詞語串 "KENJANO ISAN(聰明男人的遺產(chǎn))”的相似度(0.463),與包括輸入聲音“SEKAI ISAN(世界遺產(chǎn))”中的強調(diào)部分“ISAN(遺產(chǎn))”的搜索結(jié)果目標詞語串“KENJA NO ISAN(聰明男人的遺產(chǎn))”相比,不包括輸入聲音“SEKAI ISAN(世界遺產(chǎn))”中的強調(diào)部分“ISAN(遺產(chǎn))”的搜索結(jié)果目標詞語串“SEKAI NO SORA(世界天空)”更容易被獲得作為用于輸入聲音“SEKAI ISAN(世界遺產(chǎn)),,的搜索結(jié)果詞語串。另一方面,在加權(quán)匹配模式下,分別地,包括輸入聲音“SEKAI ISAN(世界遺產(chǎn)),, 的所有部分的搜索結(jié)果目標詞語串“ZA SEKAI ISAN(該世界遺產(chǎn))”的相似度是0.949,包括輸入聲音的一部分“SEKAI (世界)”的搜索結(jié)果目標詞語串“SEKAI NO SORA(世界天空)” 的相似度是0. 378,并且包括輸入聲音的另一部分“ISAN(遺產(chǎn)),,的搜索結(jié)果目標詞語串 "KENJA NO ISAN(聰明男人的遺產(chǎn))”的相似度是0.556。從而,由于當各包括一部分輸入聲音的搜索結(jié)果目標詞語串“SEKAI NO SORA(世界天空)”和搜索結(jié)果目標詞語串“KENJA NO ISAN(聰明男人的遺產(chǎn))”相互比較時,搜索結(jié)果目標詞語串“SEKAI NO SORA(世界天空)”的相似度(0. 378)小于搜索結(jié)果目標詞語串"KENJA NO ISAN(聰明男人的遺產(chǎn))”的相似度(0. 556),與不包括輸入聲音"SEKAI ISAN(世界遺產(chǎn))”中的強調(diào)部分“ISAN(遺產(chǎn))”的搜索結(jié)果目標詞語串“SEKAI NO SORA(世界天空)”相比,包括輸入聲音“SEKAI ISAN(世界遺產(chǎn))”中的強調(diào)部分“ISAN(遺產(chǎn))”的搜索結(jié)果目標詞語串“KENJA NO ISAN(聰明男人的遺產(chǎn))”更容易地被獲得作為用于輸入聲音“SEKAI ISAN(世界遺產(chǎn))”的搜索結(jié)果詞語串。如上所述,在加權(quán)匹配模式下包括強調(diào)部分的搜索結(jié)果目標詞語串的相似度大于在正常模式情況下的相似度,并且這種搜索結(jié)果目標詞語串更容易被獲得作為搜索結(jié)果詞語串。圖22是示出當輸入聲音“SEKAI ISAN(世界遺產(chǎn))”中的“ISAN(遺產(chǎn)),,被強調(diào)和發(fā)出時,在正常模式和在加權(quán)匹配模式下分別獲得的搜索結(jié)果詞語串的示意圖。在正常模式下,包括輸入聲音“SEKAI ISAN(世界遺產(chǎn)),,的所有部分的搜索結(jié)果目標詞語串被獲得作為搜索結(jié)果詞語串,而基本相同數(shù)量的僅包括不作為輸入聲音“SEKAI ISAN(世界遺產(chǎn))”中的強調(diào)部分的部分“SEKAI (世界)”的搜索結(jié)果目標詞語串和僅包括作為輸入聲音“SEKAI ISAN(世界遺產(chǎn))”中的強調(diào)部分“ISAN(遺產(chǎn)),,的搜索結(jié)果目標詞語串被獲得作為搜索結(jié)果詞語串。另一方面,在加權(quán)匹配模式下,包括輸入聲音“SEKAI ISAN(世界遺產(chǎn))”的所有部分的搜索結(jié)果目標詞語串以與正常模式下相同的方式被獲得作為搜索結(jié)果詞語串,而相比于正常模式下的搜索結(jié)果詞語串,更多的僅包括輸入聲音“SEKAI ISAN(世界遺產(chǎn))”中的強調(diào)部分“ISAN(遺產(chǎn)),,的搜索結(jié)果目標詞語串被獲得作為搜索結(jié)果詞語串。相反地,在加權(quán)匹配模式下,可以抑制作為搜索結(jié)果詞語串的不包括強調(diào)部分“ISAN(遺產(chǎn)),,而包括作為輸入聲音“SEKAI ISAN(世界遺產(chǎn)),,中的非強調(diào)部分的 "SEKAI (世界)”部分的搜索結(jié)果目標詞語串的數(shù)量。[應(yīng)用本公開的計算機的描述]接下來,上述系列處理可以通過硬件或軟件執(zhí)行。當該系列處理通過軟件執(zhí)行時, 構(gòu)成軟件的程序安裝在通用計算機等中。從而,圖23示出根據(jù)實施例的計算機的配置示例,在該計算機中安裝執(zhí)行上述系列處理的程序。程序可以被預(yù)先記錄在結(jié)合在計算機中的作為記錄介質(zhì)的硬盤105或R0M103中??商鎿Q地,程序可以被存儲(記錄)在可移動記錄介質(zhì)111中。這種可移動記錄介質(zhì)111可以被提供作為所謂的封裝軟件。在此,可移動記錄介質(zhì)111的示例包括軟盤、 ⑶-R0M(光盤只讀存儲器)、MO (磁光)盤、DVD (數(shù)字通用盤)、磁盤、半導(dǎo)體存儲器等。另外,程序可以從上述可移動記錄介質(zhì)111安裝在計算機中,或者通過通信網(wǎng)絡(luò)或廣播網(wǎng)絡(luò)下載到計算機中并且安裝在內(nèi)置硬盤105中。即,程序可以通過用于數(shù)字衛(wèi)星廣播的航天衛(wèi)星以無線方式從下載站點轉(zhuǎn)移到計算機,或者以有線方式通過網(wǎng)絡(luò)(諸如, LAN(局域網(wǎng))或互聯(lián)網(wǎng))轉(zhuǎn)移到計算機。計算機設(shè)置有內(nèi)置CPU(中央處理單元)102,并且輸入輸出接口 110通過總線101 連接至CPU 102。當用戶經(jīng)由輸入輸出接口 110通過操作輸入單元107等輸入指令時,CPU 102基于指令執(zhí)行存儲在R0M(只讀存儲器)103中的程序??商鎿Q地,CPU 102在RAM(隨機存取存儲器)104中加載存儲在硬盤105中的程序并且執(zhí)行該程序。通過這種操作,CPU 102基于通過上述框圖中所示的配置執(zhí)行的上述流程或處理來執(zhí)行處理。然后,當需要時,CPU 102使輸出單元106通過輸入輸出接口 110輸出處理結(jié)果,使通信單元108發(fā)送處理結(jié)果,或者使硬盤105記錄處理結(jié)果。另外,輸入單元107包括鍵盤、鼠標、麥克風等。輸出單元106包括IXD (液晶顯示器)、揚聲器等。在此,在本說明書中基于程序的計算機的處理不一定以流程圖中描述的順序的先后方式執(zhí)行。即,基于程序的計算機的處理包括以并行方式或獨立方式執(zhí)行的處理(例如, 并行處理或者針對每個對象的處理)。可替換地,該程序的處理可以通過一個計算機(處理器)執(zhí)行或者可以通過多個計算機分別執(zhí)行。此外,該程序可以被轉(zhuǎn)移到遠程計算機并且在遠程計算機中執(zhí)行。另外,本公開的實施例不限于上述實施例,可以在本公開的范圍內(nèi)作出多種修改。S卩,例如,聲音搜索裝置10的處理中的一部分或全部都可以通過在LAN或網(wǎng)絡(luò)上將必要數(shù)據(jù)發(fā)送至服務(wù)器代替執(zhí)行。本公開包括涉及于2010年5月25日提交到日本專利局的日本在先專利申請JP 2010-119767中公開的主題,其全部內(nèi)容通過引用結(jié)合于此。本領(lǐng)域技術(shù)人員應(yīng)該明白,根據(jù)設(shè)計要求和其他因素可以出現(xiàn)多種修改、結(jié)合、子結(jié)合和替換,只要這些修改、結(jié)合、子結(jié)合和替換處于所附權(quán)利要求及其等同物的范圍內(nèi)。
權(quán)利要求
1.一種搜索裝置,包括聲音識別單元,其識別輸入聲音;用戶信息估計單元,其基于所述輸入聲音來估計所述輸入聲音的說話者的身體狀態(tài)和情感行為中的至少一個,并且輸出表示估計結(jié)果的用戶信息;匹配單元,其對于多個搜索結(jié)果目標詞語串中的每個,在搜索結(jié)果目標發(fā)音符號串和識別結(jié)果發(fā)音符號串之間執(zhí)行匹配,其中,所述搜索結(jié)果目標發(fā)音符號串是表示所述搜索結(jié)果目標詞語串的發(fā)音的發(fā)音符號的序列,所述識別結(jié)果發(fā)音符號串是表示用于所述輸入聲音的聲音識別結(jié)果的發(fā)音的發(fā)音符號的序列,所述多個搜索結(jié)果目標詞語串是作為與所述輸入聲音對應(yīng)的所述詞語串的搜索結(jié)果的目標的詞語串;以及生成單元,其基于所述搜索結(jié)果目標發(fā)音符號串和所述識別結(jié)果發(fā)音符號串之間的匹配結(jié)果,從所述多個搜索結(jié)果目標詞語串中生成搜索結(jié)果詞語串,作為用于與所述輸入聲音對應(yīng)的詞語串的搜索結(jié)果,其中,所述匹配單元和所述生成單元中的至少一個根據(jù)所述用戶信息來改變處理。
2.根據(jù)權(quán)利要求1所述的裝置,其中,所述生成單元根據(jù)所述用戶信息對所述搜索結(jié)果目標詞語串進行排序以選擇所述搜索結(jié)果詞語串。
3.根據(jù)權(quán)利要求2所述的裝置,其中,所述用戶信息估計單元估計所述說話者的性別,以及其中,所述生成單元對所述搜索結(jié)果目標詞語串進行排序,使得包括與所述用戶信息所表示的所述說話者的性別相關(guān)的相關(guān)詞語的所述搜索結(jié)果目標詞語串按照排列順序被定位。
4.根據(jù)權(quán)利要求2所述的裝置,其中,所述用戶信息估計單元執(zhí)行用于所述說話者的說話者指明,以估計所述說話者,以及其中,所述生成單元對所述搜索結(jié)果目標詞語串進行排序,使得包括與所述用戶信息所表示的所述說話者相關(guān)的相關(guān)詞語的所述搜索結(jié)果目標詞語串按照排列順序被定位。
5.根據(jù)權(quán)利要求1所述的裝置,其中,所述匹配單元在所述搜索結(jié)果目標發(fā)音符號串和添加了與所述用戶信息相關(guān)的相關(guān)詞語的所述識別結(jié)果發(fā)音符號串之間執(zhí)行匹配。
6.根據(jù)權(quán)利要求5所述的裝置,其中,所述用戶信息估計單元估計所述說話者的性別,以及其中,所述匹配單元在所述搜索結(jié)果目標發(fā)音符號串和添加了與所述用戶信息所表示的所述說話者的性別相關(guān)的相關(guān)詞語的所述識別結(jié)果發(fā)音符號串之間執(zhí)行匹配。
7.根據(jù)權(quán)利要求5所述的裝置,其中,所述用戶信息估計單元執(zhí)行用于所述說話者的說話者指明,以估計所述說話者,以及其中,所述匹配單元在所述搜索結(jié)果目標發(fā)音符號串和添加了與所述用戶信息所表示的所述說話者相關(guān)的相關(guān)詞語的所述識別結(jié)果發(fā)音符號串之間執(zhí)行匹配。
8.根據(jù)權(quán)利要求1所述的裝置,其中,所述匹配單元通過根據(jù)用戶信息給所述識別結(jié)果發(fā)音符號串的一部分加權(quán),在所述搜索結(jié)果目標發(fā)音符號串和所述識別結(jié)果發(fā)音符號串之間執(zhí)行匹配。
9.根據(jù)權(quán)利要求8所述的裝置,其中,所述用戶信息估計單元估計所述輸入聲音的聲音區(qū)段中的所述說話者強調(diào)和說出的強調(diào)區(qū)段,以及其中,所述匹配單元通過給所述用戶信息所表示的所述識別結(jié)果發(fā)音符號串中的所述強調(diào)區(qū)段中的發(fā)音符號加權(quán),在所述搜索結(jié)果目標發(fā)音符號串和所述識別結(jié)果發(fā)音符號串之間執(zhí)行匹配。
10.根據(jù)權(quán)利要求9所述的裝置,其中,所述用戶信息估計單元基于所述輸入聲音的音調(diào)、功率、或說話速度來估計所述強調(diào)區(qū)段。
11.一種由搜索與輸入聲音對應(yīng)的詞語串的搜索裝置進行的搜索方法,所述方法包括識別輸入聲音;基于所述輸入聲音來估計所述輸入聲音的說話者的身體狀態(tài)和情感行為中的至少一個,并且輸出表示估計結(jié)果的用戶信息;對于多個搜索結(jié)果目標詞語串中的每個,在搜索結(jié)果目標發(fā)音符號串和識別結(jié)果發(fā)音符號串之間執(zhí)行匹配,其中,所述搜索結(jié)果目標發(fā)音符號串是表示所述搜索結(jié)果目標詞語串的發(fā)音的發(fā)音符號的序列,所述識別結(jié)果發(fā)音符號串是表示用于所述輸入聲音的聲音識別結(jié)果的發(fā)音的發(fā)音符號的序列,所述多個搜索結(jié)果目標詞語串是作為與所述輸入聲音對應(yīng)的所述詞語串的搜索結(jié)果的目標的詞語串;以及基于所述搜索結(jié)果目標發(fā)音符號串和所述識別結(jié)果發(fā)音符號串之間的匹配結(jié)果,從所述多個搜索結(jié)果目標詞語串中生成搜索結(jié)果詞語串,作為用于與所述輸入聲音對應(yīng)的詞語串的搜索結(jié)果,其中,在執(zhí)行匹配和生成所述搜索結(jié)果詞語串中的至少一個期間,根據(jù)所述用戶信息來改變處理。
12.—種使計算機執(zhí)行以下功能的程序聲音識別單元,其識別輸入聲音;用戶信息估計單元,其基于所述輸入聲音來估計所述輸入聲音的說話者的身體狀態(tài)和情感行為中的至少一個,并且輸出表示估計結(jié)果的用戶信息;匹配單元,其對于多個搜索結(jié)果目標詞語串中的每個,在搜索結(jié)果目標發(fā)音符號串和識別結(jié)果發(fā)音符號串之間執(zhí)行匹配,其中,所述搜索結(jié)果目標發(fā)音符號串是表示所述搜索結(jié)果目標詞語串的發(fā)音的發(fā)音符號的序列,所述識別結(jié)果發(fā)音符號串是表示用于所述輸入聲音的聲音識別結(jié)果的發(fā)音的發(fā)音符號的序列,所述多個搜索結(jié)果目標詞語串是作為與所述輸入聲音對應(yīng)的所述詞語串的搜索結(jié)果的目標的詞語串;以及生成單元,其基于所述搜索結(jié)果目標發(fā)音符號串和所述識別結(jié)果發(fā)音符號串之間的匹配結(jié)果,從所述多個搜索結(jié)果目標詞語串中生成搜索結(jié)果詞語串,作為用于與所述輸入聲音對應(yīng)的詞語串的搜索結(jié)果,其中,所述匹配單元和所述生成單元中的至少一個根據(jù)所述用戶信息來改變處理。
全文摘要
本發(fā)明涉及搜索裝置、搜索方法以及程序。搜索裝置包括聲音識別單元,其識別輸入聲音;用戶信息估計單元,其基于輸入聲音估計輸入聲音的說話者的身體狀態(tài)和情感行為中的至少一個,并且輸出表示估計結(jié)果的用戶信息;匹配單元,其對于多個搜索結(jié)果目標詞語串中的每個,在搜索結(jié)果目標發(fā)音符號串和識別結(jié)果發(fā)音符號串之間執(zhí)行匹配;以及生成單元,其基于匹配結(jié)果,從多個搜索結(jié)果目標詞語串中生成搜索結(jié)果詞語串,作為與輸入聲音對應(yīng)的詞語串的搜索結(jié)果。匹配單元和生成單元中的至少一個根據(jù)用戶信息來改變處理。
文檔編號G10L15/08GK102262644SQ20111013512
公開日2011年11月30日 申請日期2011年5月18日 優(yōu)先權(quán)日2010年5月25日
發(fā)明者山田敬一, 本田等 申請人:索尼公司