文本生成器和文本生成方法
【專利摘要】根據(jù)一個實(shí)施例,文本生成器包括識別器、選擇器和生成單元。識別器被配置為識別所拾取的聲音,并獲取識別單元中識別的字符串和所識別的字符串的可信度。選擇器被配置為基于關(guān)于轉(zhuǎn)錄精確度的參數(shù)和關(guān)于轉(zhuǎn)錄所需工作量的參數(shù)中的至少一個,選擇至少一個所識別的字符串用于轉(zhuǎn)錄的句子。生成單元被配置為使用所選的識別字符串生成轉(zhuǎn)錄的句子。
【專利說明】文本生成器和文本生成方法
[0001] 相關(guān)申請的交叉引用
[0002] 本申請基于并要求以下申請的優(yōu)先權(quán):2013年4月3日提交的日本專利申請 No. 2013-077576 ;其全部內(nèi)容通過引用并入本文。
【技術(shù)領(lǐng)域】
[0003] 本文描述的實(shí)施例大體上涉及一種文本生成器,以及一種文本生成方法。
【背景技術(shù)】
[0004] 在轉(zhuǎn)錄(transcription)工作中,例如在收聽記錄的聲音數(shù)據(jù)的同時,將語音的內(nèi) 容轉(zhuǎn)錄為句子(文本)。為了減小轉(zhuǎn)錄工作中的負(fù)擔(dān),用于幫助轉(zhuǎn)錄工作的裝置已經(jīng)采用語 首識別系統(tǒng)。
[0005] 然而,該已知的裝置不能獲得操作者期望的適當(dāng)?shù)恼Z音識別結(jié)果,并且因此不能 減小轉(zhuǎn)錄工作中的負(fù)擔(dān)。
【發(fā)明內(nèi)容】
[0006] 實(shí)施例的目的是提供一種能夠減小轉(zhuǎn)錄工作中的負(fù)擔(dān)的文本生成器。
[0007] 根據(jù)一實(shí)施例,文本生成器包括識別器、選擇器以及生成單元。該識別器被配置為 識別所拾取的聲音,并獲取識別單元中識別的字符串和所識別的字符串的可信度。該選擇 器被配置為基于關(guān)于轉(zhuǎn)錄精確度的參數(shù)和關(guān)于轉(zhuǎn)錄所需工作量的參數(shù)中的至少一個,選擇 至少一個所識別的字符串用于轉(zhuǎn)錄的句子。生成單元被配置為使用所選的所識別的字符串 生成轉(zhuǎn)錄的句子。
[0008] 根據(jù)上述文本生成器,可減小轉(zhuǎn)錄工作中的負(fù)擔(dān)。
【專利附圖】
【附圖說明】
[0009] 圖1是示例性示意圖,示出了根據(jù)第一實(shí)施例的文本生成器的使用;
[0010] 圖2是示例性示意圖,示出了根據(jù)第一實(shí)施例的文本生成器的功能結(jié)構(gòu);
[0011] 圖3是示例性流程圖,示出了根據(jù)第一實(shí)施例的用于生成文本的基本處理;
[0012] 圖4是示例性示意圖,示出了根據(jù)第一實(shí)施例的語音識別結(jié)果的數(shù)據(jù);
[0013] 圖5是第一示例性流程圖,示出了根據(jù)第一實(shí)施例的用于選擇識別的字符串的處 理;
[0014] 圖6是示例性示意圖,示出了根據(jù)第一實(shí)施例的轉(zhuǎn)錄精確度的容許值的設(shè)定;
[0015] 圖7是第一示例性示意圖,示出了根據(jù)第一實(shí)施例的所識別的字符串的選擇結(jié)果 的數(shù)據(jù);
[0016] 圖8是第二示例性流程圖,示出了根據(jù)第一實(shí)施例的用于選擇所識別字符串的處 理;
[0017] 圖9是示例性示意圖,示出了根據(jù)第一實(shí)施例的轉(zhuǎn)錄工作時間的容許值的設(shè)定;
[0018] 圖10是第二示例性示意圖,示出了根據(jù)第一實(shí)施例的所識別的字符串的選擇結(jié) 果的數(shù)據(jù);
[0019] 圖11是第三示例性流程圖,示出了根據(jù)第一實(shí)施例的用于選擇所識別字符串的 處理;
[0020] 圖12是示例性示意圖,示出了根據(jù)第一實(shí)施例的轉(zhuǎn)錄工作成本的容許值的設(shè)定;
[0021] 圖13是第三示例性示意圖,示出了根據(jù)第一實(shí)施例的所識別的字符串的選擇結(jié) 果的數(shù)據(jù);
[0022] 圖14是示例性流程圖,示出了根據(jù)第一實(shí)施例的用于生成轉(zhuǎn)錄句子的處理;
[0023] 圖15是示例性示意圖,示出了根據(jù)第一實(shí)施例的轉(zhuǎn)錄句子的數(shù)據(jù)格式;
[0024] 圖16是示例性示意圖,示出了根據(jù)第一實(shí)施例的轉(zhuǎn)錄句子的顯示;
[0025] 圖17是示例性流程圖,示出了根據(jù)第一實(shí)施例的用于設(shè)定字符插入位置的處理;
[0026] 圖18是示例性流程圖,示出了根據(jù)第一實(shí)施例的用于搜索聲音位置的處理;
[0027] 圖19是示例性示意圖,示出了根據(jù)第二實(shí)施例的文本生成器的功能結(jié)構(gòu);
[0028] 圖20是示例性流程圖,示出了根據(jù)第二實(shí)施例的用于生成文本的基本處理;
[0029] 圖21是示例性流程圖,示出了根據(jù)第二實(shí)施例的用于結(jié)合識別結(jié)果的處理;
[0030] 圖22是示例性示意圖,示出了根據(jù)第三實(shí)施例的文本生成器的功能結(jié)構(gòu);
[0031] 圖23是示例性流程圖,示出了根據(jù)第三實(shí)施例的用于生成文本的基本處理;
[0032] 圖24是示例性示意圖,示出了根據(jù)第三實(shí)施例的發(fā)聲周期信息的數(shù)據(jù);
[0033] 圖25是示例性流程圖,示出了根據(jù)第三實(shí)施例的用于選擇所識別字符串的處理;
[0034] 圖26是示例性示意圖,示出了根據(jù)第三實(shí)施例的轉(zhuǎn)錄精確度的容許值的設(shè)定;以 及
[0035] 圖27是示例性示意圖,示出了根據(jù)第一至第三實(shí)施例的文本生成器的功能結(jié)構(gòu)。
【具體實(shí)施方式】
[0036] 下面將參照附圖詳細(xì)描述文本生成器、文本生成方法以及計(jì)算機(jī)程序的實(shí)施例。 [0037] 第一實(shí)施例
[0038] 概述
[0039] 下面描述根據(jù)第一實(shí)施例的文本生成器的功能(在下文中稱為"文本生成功能")。 根據(jù)第一實(shí)施例的文本生成器基于計(jì)算的識別字符串的可信度,選擇所識別的字符串用于 轉(zhuǎn)錄的句子,識別字符串的計(jì)算是基于語音識別結(jié)果和關(guān)于轉(zhuǎn)錄精確度的參數(shù)。可替換地, 根據(jù)本實(shí)施例的文本生成器基于計(jì)算的識別字符串的可信度,選擇所識別的字符串用于轉(zhuǎn) 錄的句子,字符串的計(jì)算是基于語音識別結(jié)果和關(guān)于轉(zhuǎn)錄所需的工作量的參數(shù)。作為結(jié)果, 根據(jù)本實(shí)施例的文本生成器根據(jù)所選擇的識別字符串生成轉(zhuǎn)錄的句子。因此,根據(jù)本實(shí)施 例的文本生成器使能了使用適當(dāng)?shù)恼Z音識別結(jié)果的轉(zhuǎn)錄工作。根據(jù)本實(shí)施例的文本生成器 具有如此的文本生成功能。
[0040] 常規(guī)裝置的例子忽略了基于聲音數(shù)據(jù)的語音識別結(jié)果。這種裝置基于識別單詞的 可信度和重要級別來獲取語音識別結(jié)果的優(yōu)先級,并根據(jù)優(yōu)先級將關(guān)于語音識別結(jié)果的輸 出信息格式化。然而,這種常規(guī)裝置只允許操作者通過指定顯示目標(biāo)范圍來調(diào)節(jié)輸出。常 規(guī)裝置根據(jù)轉(zhuǎn)錄精確度或轉(zhuǎn)錄所需的工作量未充分地輸出操作者期望的適當(dāng)?shù)恼Z音識別 結(jié)果,從而增加了轉(zhuǎn)錄工作中強(qiáng)加于操作者的負(fù)擔(dān)。如上所述,常規(guī)裝置不會減小轉(zhuǎn)錄工作 中強(qiáng)加于操作者的負(fù)擔(dān)。
[0041] 根據(jù)本實(shí)施例的文本生成器根據(jù)由操作者指定的工作條件(轉(zhuǎn)錄精確度或轉(zhuǎn)錄所 需的工作量)來調(diào)節(jié)語音識別結(jié)果的輸出。當(dāng)操作者對調(diào)節(jié)的輸出執(zhí)行增加或校正時,本實(shí) 施例中的文本生成器允許操作者通過使用語音識別結(jié)果使輸入字符與聲音同步,來執(zhí)行轉(zhuǎn) 錄工作。
[0042] 作為結(jié)果,根據(jù)本實(shí)施例的文本生成器使能了在轉(zhuǎn)錄工作中根據(jù)工作條件(例如 是轉(zhuǎn)錄精確度或轉(zhuǎn)錄所需的工作量)使用適當(dāng)?shù)恼Z音識別結(jié)果,從而能夠容易地將字符添 加到語音識別結(jié)果或校正語音識別結(jié)果的字符。因此,根據(jù)該實(shí)施例的文本生成器可減小 轉(zhuǎn)錄工作中強(qiáng)加于操作者的負(fù)擔(dān)。
[0043] 例如,根據(jù)本實(shí)施例的文本生成器可以提供以下服務(wù)。圖1是示意圖,示出了根據(jù) 該實(shí)施例的文本生成器的使用示例。圖1示出一個例子,其中根據(jù)該實(shí)施例的文本生成器 被用于一種服務(wù)。該服務(wù)識別多個發(fā)聲者的語音,將他們的發(fā)聲的內(nèi)容轉(zhuǎn)錄到發(fā)聲者的相 應(yīng)發(fā)聲的文本中,并將為各個發(fā)聲來源的發(fā)聲者的名字添加到相應(yīng)的文本中。
[0044] 下面描述了根據(jù)該實(shí)施例的文本生成器的結(jié)構(gòu)和功能的操作。
[0045] 結(jié)構(gòu)
[0046] 圖2為示意圖,示出了根據(jù)該實(shí)施例的文本生成器的功能結(jié)構(gòu)的示例。如圖2所 示,根據(jù)該實(shí)施例的文本生成器1〇〇包括拾取單元11、識別器12、選擇器13、生成單元14、 設(shè)定單元15、搜索器16、播放器17、以及識別結(jié)果保存單元18。
[0047] 拾取單元11通過從某一輸入單元接收聲音輸入以拾取聲音。識別器12識別由拾 取單元11拾取的聲音,至少計(jì)算在識別單元中所識別的字符串,以及所識別的字符串的可 信度,并且將計(jì)算結(jié)果存儲在識別結(jié)果保存單元18中。例如,該識別單元是詞素。例如,所 述識別結(jié)果保存單元18是文本生成器100中設(shè)置的存儲設(shè)備中的特定存儲區(qū)域。
[0048] 選擇器13基于關(guān)于轉(zhuǎn)錄工作的工作條件的各種參數(shù)和存儲在識別結(jié)果保存單元 18中的所識別字符串的可信度來選擇至少一個所識別的字符串用于轉(zhuǎn)錄的句子。例如,通 過經(jīng)由用戶界面(UI)接收操作者U的操作,來指定關(guān)于工作條件的各種參數(shù)值。生成單元 14使用由選擇器13選擇的所識別的字符串,生成轉(zhuǎn)錄的句子。設(shè)定單元15設(shè)定在轉(zhuǎn)錄句 子中對應(yīng)于未被選擇器13選擇的識別字符串的用于由操作者U執(zhí)行的字符輸入的起始位 置(在下文中稱為"字符插入位置")。例如,未被選擇的識別字符串是通過經(jīng)由Π 接收來自 操作者U的操作來指定的。
[0049] 當(dāng)操作者U在由設(shè)定單元15設(shè)定的字符插入位置處開始字符輸入時,搜索器16 搜索與輸入字符對應(yīng)的聲音的位置(在下文中稱為"聲音位置"),其。例如,搜索的開始是通 過經(jīng)由Π 接收來自的操作者U的操作而被指示的。播放器17從搜索到的聲音位置播放聲 音。
[0050] 下面描述由根據(jù)本實(shí)施例的文本生成器100執(zhí)行的用于生成文本的基本處理。
[0051] 處理
[0052] 圖3是流程圖,示出了根據(jù)本實(shí)施例的用于生成文本的基本處理的示例。如圖3 所示,拾取單元11拾取聲音(步驟S101)。識別器12識別由拾取單元11拾取的聲音,并計(jì) 算識別單元中所識別的字符串,以及所識別的字符串的可信度(步驟S102)。作為結(jié)果,所識 別的字符串和所識別的字符串的可信度被存儲在所述識別結(jié)果保存單元18中。
[0053] 選擇器13基于關(guān)于轉(zhuǎn)錄工作的工作條件的各種參數(shù)(工作條件參數(shù))和存儲在識 別結(jié)果保存單元18中的所識別字符串的可信度,來選擇至少一個所識別的字符串用于轉(zhuǎn) 錄的句子(步驟S103)。選擇器13基于關(guān)于轉(zhuǎn)錄精確度的參數(shù)和識別字符串的可信度的組 合或者是關(guān)于轉(zhuǎn)錄所需的工作量的參數(shù)和識別字符串的可信度的組合,來選擇識別的字符 串用于轉(zhuǎn)錄的句子。生成單元14使用由選擇器13選擇的識別字符串和不是由選擇器13 選擇的識別字符串生成轉(zhuǎn)錄句子(步驟S104)。
[0054] 設(shè)定單元15根據(jù)從操作者U接收的設(shè)定,在轉(zhuǎn)錄句子中對應(yīng)于不是由選擇器13 選擇的識別字符串的位置處設(shè)定用于操作者U的字符插入位置(步驟S105)。搜索器16基 于識別結(jié)果搜索對應(yīng)于由設(shè)定單元15設(shè)定的字符插入位置的聲音位置(步驟S106)。
[0055] 播放器17根據(jù)從操作者U接收的指令,從由搜索器16搜索的聲音位置播放聲音 (步驟S107)。此后,文本生成器100從操作者U接收字符輸入(添加或校正)(步驟S108)。
[0056] 從操作者U接收到結(jié)束轉(zhuǎn)錄的指令時(S109的是),根據(jù)本實(shí)施例的文本生成器 100結(jié)束該處理。與此相反,文本生成器100重復(fù)從S106到S108的處理(S109的否),直到 操作者U執(zhí)行結(jié)束轉(zhuǎn)錄的指令。
[0057] 細(xì)節(jié)
[0058] 在下面描述該功能單元的細(xì)節(jié)。
[0059] 各個功能單元的細(xì)節(jié)
[0060] 拾取單元11
[0061] 拾取單元11拾取聲音作為目標(biāo),根據(jù)該目標(biāo)轉(zhuǎn)錄字符。
[0062] 識別器12
[0063] 識別器12識別由拾取單元11拾取的聲音,并至少獲得識別單元中所識別的字符 串以及所識別的字符串的可信度作為識別結(jié)果。
[0064] 圖4是示意圖,示出了根據(jù)實(shí)施例的語音識別結(jié)果D1的數(shù)據(jù)的示例。圖4示出了 當(dāng)識別器 12 識別發(fā)聲"konnichiwa,ABC kaisha no taro desu"(英語,"Hello,this is Taro from ABC Company")時獲得的示例性結(jié)果。識別器12獲得語音識別結(jié)果Dl,其包括 例如識別ID、識別的字符串,以及識別字符串的可信度。識別器12將獲得的語音識別結(jié)果 D1存儲在識別結(jié)果保存單元18中。
[0065] 選擇器13
[0066] 選擇器13基于關(guān)于轉(zhuǎn)錄精確度的參數(shù)和識別字符串的可信度的組合或者是關(guān)于 轉(zhuǎn)錄所需的工作量的參數(shù)和識別字符串的可信度的組合來選擇至少一個識別的字符串用 于轉(zhuǎn)錄的句子。
[0067] 下面描述轉(zhuǎn)錄精確度和轉(zhuǎn)錄所需的工作量。轉(zhuǎn)錄精確度為表示在轉(zhuǎn)錄的字符串和 當(dāng)語音被正確地轉(zhuǎn)錄為字符時的字符串(正確答案字符串)之間的一致程度的值。該值越 大,轉(zhuǎn)錄的字符串和正確答案字符串之間的一致程度越高,表示轉(zhuǎn)錄是正確的。轉(zhuǎn)錄所需 的工作量是將語音轉(zhuǎn)錄為字符所需的工作量,并且對應(yīng)于轉(zhuǎn)錄工作花費(fèi)的時間或所需的成 本。
[0068] 下面描述由選擇器13執(zhí)行的用于選擇所識別字符串的處理。圖5是流程圖,示出 了根據(jù)實(shí)施例的用于選擇所識別字符串的處理的第一示例。圖5示出了當(dāng)選擇器13使用 轉(zhuǎn)錄精確度的容許值作為關(guān)于轉(zhuǎn)錄精確度的參數(shù)時的處理的示例。
[0069] 如圖5所示,選擇器13首先從操作者U接收轉(zhuǎn)錄精確度的容許值P的設(shè)定(步驟 S201)。
[0070] 圖6是示意圖,示出了根據(jù)本實(shí)施例的轉(zhuǎn)錄精確度的容許值P的設(shè)定的示例。如 圖6所示,操作者U通過滑塊UI (滑動條)設(shè)定轉(zhuǎn)錄精確度容許值P,例如該容許值P允許 從N個階層(圖6中N=5)中指定出一個可允許的階層。選擇器13在屏幕上以這種方式顯 示該UI,并且接收來自操作者U的設(shè)定。
[0071] 再參考圖5,隨后選擇器13在由識別器12所獲得的識別結(jié)果(該識別結(jié)果存儲在 識別結(jié)果保存單元18中)中設(shè)定第一識別字符串作為目標(biāo)字符串w (步驟S202),然后根據(jù) 目標(biāo)字符串w的可信度,計(jì)算目標(biāo)字符串w的轉(zhuǎn)錄精確度wp (步驟S203)。例如,當(dāng)從1到 N的正整數(shù)被用作各自的轉(zhuǎn)錄精確度時,選擇器13使用以下表達(dá)式(1)計(jì)算目標(biāo)字符串w 的轉(zhuǎn)錄精確度wp。
[0072] wp=NX (w的可信度/可信度最大值)(1)
[0073] 然后,選擇器13比較計(jì)算的目標(biāo)字符串w的轉(zhuǎn)錄精確度wp和轉(zhuǎn)錄精確度的容許 值P,并確定轉(zhuǎn)錄精確度wp是否等于或大于容許值P (步驟S204)。如果確定wp等于或大 于允許值P (S204的是),則選擇器13選擇目標(biāo)字符串w (步驟S205)。如果確定轉(zhuǎn)錄精確 度wp小于容許值P (S204的否),則選擇器13不選擇目標(biāo)字符串w。
[0074] 然后,選擇器13確定由識別器12獲取的識別結(jié)果中是否存在下一個識別的字符 串(步驟S206)。如果確定下一個識別的字符串存在(S206的是),選擇器13設(shè)定下一個識 別字符串作為目標(biāo)字符串w (步驟S207),并且隨后重復(fù)從S203到S206的處理。如果確定 不存在下一個識別的字符串(S206的否),選擇器13結(jié)束該處理。
[0075] 圖7是示意圖,示出了根據(jù)本實(shí)施例的識別的字符串選擇結(jié)果D2的數(shù)據(jù)的第一示 例。圖7示出了選擇結(jié)果,其中所識別的字符串是基于通過表達(dá)式(1)計(jì)算的轉(zhuǎn)錄精確度 wp來選擇的,其中N=5,容許值P=4,最大可信度=100。選擇器13獲取識別的字符串選擇結(jié) 果D2,其例如包括識別ID、所識別的字符串、所識別字符串的可信度、轉(zhuǎn)錄準(zhǔn)確度wp和選擇 結(jié)果。選擇器13可以基于轉(zhuǎn)錄所需的工作量(例如,"工作時間"和"工作成本")選擇所識 別的字符串。
[0076] 圖8是流程圖,示出了根據(jù)本實(shí)施例的用于選擇所識別字符串的處理的第二示 例。圖8示出了當(dāng)選擇器13使用轉(zhuǎn)錄所需的工作時間的容許值作為關(guān)于轉(zhuǎn)錄所需工作量 的參數(shù)時的示例性處理。
[0077] 如圖8所示,選擇器13首先從操作者U接收轉(zhuǎn)錄所需的工作時間的容許值T的設(shè) 定(步驟S301)。
[0078] 圖9是示意圖,示出了根據(jù)本實(shí)施例的轉(zhuǎn)錄所需的工作時間的容許值T的設(shè)定示 例。如圖9所示,操作者U通過滑塊Π (滑動條)設(shè)定轉(zhuǎn)錄所需的工作時間的容許值T,該 滑塊Π 例如使得可指定從00:00:00到HH:麗:SS的時間。選擇器13以這種方式在屏幕上 顯示該Π ,并從操作者U接收設(shè)定。對于可以指定的最大時間,例如使用預(yù)定值。以下述方 式計(jì)算的數(shù)值可以用作可指定的最大時間。例如,預(yù)先確定每個字符的工作時間;每個字符 的工作時間乘以由識別器12獲取的識別字符串中的所有字符的數(shù)量,以計(jì)算乘積;并且可 以使用所計(jì)算的值。當(dāng)識別器12輸出各個識別字符串的起始時間和結(jié)束時間作為識別結(jié) 果時,輸出的起始時間被從每個識別字符串的輸出的結(jié)束時間中減去,以計(jì)算時間(發(fā)聲時 間)??梢允褂盟凶R別字符串的各自發(fā)聲時間的總和。
[0079] 再參考圖8,然后,選擇器13以識別字符串可信度的遞減次序?qū)ψR別器12獲取的 識別結(jié)果進(jìn)行排序(步驟S302)。然后,選擇器13初始化累積工作時間st,其表示轉(zhuǎn)錄所需 工作時間的積累量(步驟S303)。
[0080] 然后,選擇器13將以遞減次序排序的識別結(jié)果中的第一識別字符串設(shè)定為目標(biāo) 字符串w (步驟S304),然后計(jì)算目標(biāo)字符串w的轉(zhuǎn)錄所需的工作時間t (步驟S305)。例 如,選擇器13使用目標(biāo)字符串w的字符數(shù)量,通過以下表達(dá)式(2)計(jì)算目標(biāo)字符串w的轉(zhuǎn) 錄所需的工作時間t。
[0081] t=a X (目標(biāo)字符串w的字符數(shù)量)(2)
[0082] 例如,使用每個字符的轉(zhuǎn)錄所需的平均時間作為a。
[0083] 例如,當(dāng)識別器12輸出各個識別字符串的起始時間和結(jié)束時間作為識別結(jié)果時, 選擇器13可以通過以下表達(dá)式(3)計(jì)算目標(biāo)字符串w的轉(zhuǎn)錄所需的工作時間t。
[0084] t= β X (目標(biāo)字符串w的結(jié)束時間-目標(biāo)字符串w的起始時間)(3 )
[0085] 例如,(識別單元中)每個詞素的轉(zhuǎn)錄所需的平均時間被用作β。
[0086] 然后,選擇器13根據(jù)目標(biāo)字符串w的轉(zhuǎn)錄所需的工作時間t,計(jì)算轉(zhuǎn)錄所需的累積 工作時間st (步驟S306)。例如,選擇器13將通過使用表達(dá)式(2)或(3)計(jì)算的目標(biāo)字符 串w的轉(zhuǎn)錄所需的工作時間t累加到轉(zhuǎn)錄所需的累積工作時間st。
[0087] 然后,選擇器13比較計(jì)算的轉(zhuǎn)錄所需的累積工作時間st和轉(zhuǎn)錄所需的工作時間 的容許值T,并確定累積工作時間st是否等于或小于容許值T(步驟S307)。如果確定累積 工作時間st等于或小于容許值T(S307的是),則選擇器13選擇目標(biāo)字符串w(步驟S308)。 如果確定累積工作時間st大于容許值T (S307的否),則選擇器13不選擇目標(biāo)字符串w。
[0088] 然后,選擇器13確定由識別器12獲取的識別結(jié)果中是否存在下一個識別的字符 串(步驟S309)。如果確定存在下一個識別的字符串(S309的是),選擇器13設(shè)定下一識別 的字符串作為目標(biāo)字符串w (步驟S310),并且重復(fù)從S305到S309的處理。如果確定不存 在下一個識別的字符串(S309的否),則選擇器13結(jié)束該處理。
[0089] 圖10是示意圖,示出了根據(jù)本實(shí)施例的識別的字符串選擇結(jié)果D2的數(shù)據(jù)的第二 示例。圖10示出了選擇結(jié)果,其中所識別的字符串是基于通過使用表達(dá)式(3)計(jì)算的轉(zhuǎn)錄 所需的工作時間t來選擇的。選擇器13獲取識別的字符串選擇結(jié)果D2,其例如包括識別 ID、所識別的字符串、所識別字符串的可信度、轉(zhuǎn)錄所需的工作時間t、累積工作時間st和 選擇結(jié)果。
[0090] 圖11是流程圖,示出了根據(jù)本實(shí)施例的用于選擇所識別字符串的處理的第三示 例。圖11示出了當(dāng)選擇器13使用轉(zhuǎn)錄所需的工作成本的容許值作為關(guān)于轉(zhuǎn)錄所需工作量 的參數(shù)時的示例性處理。
[0091] 如圖11所示,選擇器13首先從操作者U接收轉(zhuǎn)錄所需的工作成本的容許值C的 設(shè)定(步驟S401)。
[0092] 圖12是示意圖,示出了本實(shí)施例的轉(zhuǎn)錄所需的工作成本的容許值C的設(shè)定的示 例。如圖12所示,操作者U通過滑塊Π (滑動條)設(shè)定轉(zhuǎn)錄所需的工作成本的容許值C,該 滑塊Π 例如使得能夠指定從零到最大值的數(shù)值。選擇器13以這種方式在屏幕上顯示Π , 并從操作者U接收設(shè)定。對于可以指定的最大數(shù)值,例如使用預(yù)定值。以下述方式計(jì)算的 數(shù)值可以用作可指定的最大數(shù)值。例如,預(yù)先確定每個字符的工作時間;每個字符的工作時 間乘以由識別器12獲取的識別字符串中的所有字符的數(shù)量,以計(jì)算乘積;并且可以使用所 計(jì)算的值。當(dāng)識別器12輸出各個識別字符串的發(fā)聲時間(從起始時間減去結(jié)束時間后的時 間)作為識別結(jié)果時,各個識別字符串的輸出發(fā)聲時間的總和乘以每一單元時間的工作成 本,以計(jì)算乘積,并且可以使用所計(jì)算的值。
[0093] 再參考圖11,然后,選擇器13以識別字符串可信度的遞減次序?qū)ψR別器12獲取 的識別結(jié)果進(jìn)行排序(步驟S402)。然后,選擇器13初始化累積工作成本sc,累積工作成本 SC表示轉(zhuǎn)錄所需工作成本的積累量(步驟S403)。
[0094] 然后,選擇器13將以遞減次序排序的識別結(jié)果中的第一識別字符串設(shè)定為目標(biāo) 字符串w (步驟S404),然后計(jì)算目標(biāo)字符串w的轉(zhuǎn)錄所需的工作成本c (步驟S405)。例 如,選擇器13使用目標(biāo)字符串w的字符數(shù)量,通過以下表達(dá)式(4)計(jì)算目標(biāo)字符串w的轉(zhuǎn) 錄所需的工作成本c。
[0095] c=YX (目標(biāo)字符串w的字符數(shù)量)(4)
[0096] 例如,每個字符的轉(zhuǎn)錄所需的平均成本被用作Y。
[0097] 例如,當(dāng)識別器12輸出各個識別字符串的起始時間和結(jié)束時間作為識別結(jié)果時, 選擇器13可以通過以下表達(dá)式(5)計(jì)算目標(biāo)字符串w的轉(zhuǎn)錄所需的工作成本c。
[0098] c= ζ X (目標(biāo)字符串w的結(jié)束時間-目標(biāo)字符串w的起始時間)(5 )
[0099] 例如,(識別單元中)每個詞素的轉(zhuǎn)錄所需的平均成本被用作ζ。
[0100] 然后,選擇器13根據(jù)目標(biāo)字符串w的轉(zhuǎn)錄所需的工作成本c,計(jì)算轉(zhuǎn)錄所需的累積 工作成本sc (步驟S406)。例如,選擇器13將通過使用表達(dá)式(4)或(5)計(jì)算的目標(biāo)字符 串w的轉(zhuǎn)錄所需的工作成本c累積地加到轉(zhuǎn)錄所需的累積工作成本sc。
[0101] 然后,選擇器13比較計(jì)算的轉(zhuǎn)錄所需的累積工作成本sc和轉(zhuǎn)錄所需的工作成本 的容許值C,并確定累積工作成本sc是否等于或小于容許值C(步驟S407)。如果確定累積 工作成本sc等于或小于容許值C(S407的是),則選擇器13選擇目標(biāo)字符串w(步驟S408)。 如果確定累積工作成本sc大于容許值C (S407的否),則選擇器13不選擇目標(biāo)字符串w。
[0102] 然后,選擇器13確定由識別器12獲取的識別結(jié)果中是否存在下一個識別的字符 串(步驟S409)。如果確定存在下一個識別的字符串(S409的是),選擇器13設(shè)定下一識別 的字符串作為目標(biāo)字符串w (步驟S410),并且重復(fù)從S405到S409的處理。如果確定不存 在下一個識別的字符串(S409的否),則選擇器13結(jié)束該處理。
[0103] 圖13是示意圖,示出了根據(jù)本實(shí)施例的識別的字符串選擇結(jié)果D2的數(shù)據(jù)的第三 示例。圖13示出了選擇結(jié)果,其中所識別的字符串是基于通過使用表達(dá)式(5)計(jì)算的轉(zhuǎn)錄 所需的工作成本c來選擇的。選擇器13獲取識別的字符串選擇結(jié)果D2,其例如包括識別 ID、所識別的字符串、所識別字符串的可信度、轉(zhuǎn)錄所需的工作成本c、累積工作成本sc和 選擇結(jié)果。
[0104] 生成單元14
[0105] 生成單元14使用選擇器13選擇的識別字符串和沒有選擇的識別字符串,生成轉(zhuǎn) 錄句子。
[0106] 下面描述了生成單元14執(zhí)行的生成轉(zhuǎn)錄句子的處理。圖14是流程圖,示出了根 據(jù)本實(shí)施例的生成轉(zhuǎn)錄句子的處理的示例。圖15是示意圖,示出了根據(jù)本實(shí)施例的轉(zhuǎn)錄句 子的數(shù)據(jù)格式的示例。
[0107] 如圖14所示,生成單元14首先初始化轉(zhuǎn)錄句子k (步驟S501)。如圖15所示,例 如當(dāng)數(shù)據(jù)格式是超文本標(biāo)記語言(HTML)時,轉(zhuǎn)錄句子k是被生成用作division (DIV)元 素。
[0108] 然后,生成單元14將識別器12獲取的識別結(jié)果中的第一識別字符串設(shè)定為目標(biāo) 字符串w (步驟S502),然后判斷目標(biāo)字符串w是否被選擇器13選擇(步驟S503)。如果確 定目標(biāo)字符串w被選擇(S503的是),生成單元14從目標(biāo)字符串w生成選擇的元素 s (步驟 S504),然后再將這些生成的選擇的元素 s添加到轉(zhuǎn)錄句子k(步驟S505)。例如,如圖15所 示,選擇的元素 s被生成作為span元素,該span元素具有目標(biāo)字符串w的識別ID的ID屬 性和表示選擇的元素 s的字符串的類別屬性(例如"選擇的")。如果確定目標(biāo)字符串w沒有 被選擇(S503的否),則生成單元14從目標(biāo)字符串w生成未選擇元素 ns (步驟S506),然后 再將生成的未選擇元素 ns添加到轉(zhuǎn)錄句子k (步驟S507)。例如,如圖15所示,未選擇元 素 ns被生成作為span元素,該span元素具有目標(biāo)字符串w的識別ID的ID屬性和表示未 選擇元素 ns的字符串的類別屬性(例如"未選擇的")。
[0109] 然后,生成單元14確定識別器12獲取的識別結(jié)果中是否存在下一個識別的字符 串(步驟S508)。如果確定存在下一個識別的字符串(S508的是),生成單元14設(shè)定下一個 識別的字符串作為目標(biāo)字符串w (步驟S509),并且重復(fù)從S503到S508的處理。如果確定 不存在下一個識別的字符串(S508的否),生成單元14結(jié)束該處理。
[0110] 圖16是示意圖,示出了根據(jù)本實(shí)施例的轉(zhuǎn)錄句子k的顯示的示例。如圖16所示, 生成單元14可以生成轉(zhuǎn)錄句子k,該轉(zhuǎn)錄句子k可以顯示為不同的形式,該不同的形式明確 地將選擇的元素 s的字符串與未選擇的元素 ns的字符串區(qū)分開。圖16的部分(A)示出了 顯示的示例,其中未選擇的元素 ns的字符串是有下劃線的。圖16的部分(B)示出了另一 顯示的示例,其中未選擇的元素 ns的字符串中的字符的尺寸小于選擇的元素 s的字符串中 的字符的尺寸。圖16的部分(C)還示出了另一顯示的示例,其中未選擇的元素 ns的字符 串被加陰影。圖16的部分(D)還示出了另一顯示的示例,其中未選擇的元素 ns的字符串 中的字符被替換為特定字符(圖16的部分(D)中的實(shí)心圓)。除了這些顯示示例之外,其他 顯示示例可通過改變字符的密度、顏色、或字體或背景顏色來獲得。當(dāng)識別器12在識別單 元中以可信度的遞減次序輸出直到第N個候選者的識別字符串時(N是等于或大于1的整 數(shù)),可以生成轉(zhuǎn)錄句子k,在該轉(zhuǎn)錄句子k中直到第N個候選者的識別的字符串被顯示用于 未選擇的字符串,使得它們可被操作者U選擇。
[0111] 設(shè)定單元15
[0112] 設(shè)定單元15基于由生成單元14生成的轉(zhuǎn)錄句子k的未選擇元素 ns,設(shè)定字符插 入位置(用于開始字符輸入的位置)。設(shè)定單元15基于檢測的當(dāng)前字符插入位置以及選擇 元素和未選擇元素之間的位置關(guān)系,來設(shè)定字符插入位置,該選擇元素對應(yīng)于由選擇器13 選擇的識別字符串,未選擇元素對應(yīng)于轉(zhuǎn)錄句子中沒有被選擇器13選擇的識別字符串。
[0113] 下面描述設(shè)定單元15執(zhí)行的設(shè)定字符插入位置的處理。圖17是流程圖,示出了 根據(jù)本實(shí)施例的設(shè)定字符插入位置的處理的示例。
[0114] 如圖17所示,設(shè)定單元15首先從操作者U接收移動到未選擇元素 ns的字符的指 令(步驟S601)。例如,當(dāng)檢測到顯示的轉(zhuǎn)錄句子中的某一按鍵(例如,"Tab鍵")被壓下時, 設(shè)定單元15確定移動被指示,并接收該指示。然后設(shè)定單元15檢測轉(zhuǎn)錄句子中的當(dāng)前字 符插入位置cp (步驟S602)。當(dāng)前字符插入位置cp是此時轉(zhuǎn)錄句子中的字符串中的字符 插入位置cp。例如,當(dāng)前字符插入位置cp對應(yīng)于轉(zhuǎn)錄句子被顯示所在的屏幕上的光標(biāo)位置 (例如,"堅(jiān)線閃爍的位置")。
[0115] 然后,設(shè)定單元15確定檢測的當(dāng)前字符插入位置cp是否在選擇的元素中(步驟 S603)。如果確定當(dāng)前字符插入位置cp是在選擇的元素中(S603的是),則設(shè)定單元15在最 接近于當(dāng)前字符插入位置cp并且在當(dāng)前字符插入位置cp后面的位置處檢測未選擇的元素 ns (步驟S604)。如果確定當(dāng)前字符插入位置cp不在選擇的元素中(S603的否),則設(shè)定單 元15在最接近于當(dāng)前字符插入位置cp并且在當(dāng)前字符插入位置cp后面的位置處檢測選 擇的元素 s (步驟S605)。然后設(shè)定單元15在最接近于檢測的選擇的元素 s并且在檢測的 選擇元素 s后面的位置處檢測未選擇的元素 ns (步驟S606)。然后,設(shè)定單元15將字符插 入位置cp移動到檢測的未選擇元素 ns的頭位置nsp (步驟S607)。
[0116] 當(dāng)在未選擇的元素后面存在其他連續(xù)的未選擇的元素時,其中當(dāng)前字符插入位置 cp被移動至未選擇的元素的頭位置nsp,設(shè)定單元15可以彼此不同的形式顯示未選擇的元 素 ns的字符串以及其他未選擇的元素的字符串。設(shè)定單元15可使用彼此不同的背景顏色 來突出未選擇的元素 ns的字符串以及其它未選擇的元素的字符串。
[0117] 搜索器16
[0118] 當(dāng)操作者U在字符插入位置cp處開始字符輸入時,搜索器16搜索對應(yīng)于輸入字 符的聲音位置。
[0119] 下面描述搜索器16執(zhí)行的用于搜索聲音位置的處理。圖18是流程圖,示出了根 據(jù)本實(shí)施例的用于搜索聲音位置的處理的示例。
[0120] 如圖18所示,設(shè)定單元15首先從操作者U接收搜索對應(yīng)于當(dāng)前字符插入位置cp 的聲音位置的指令(步驟S701)。例如,當(dāng)檢測到顯示的轉(zhuǎn)錄句子中的輸入鍵被壓下時,搜索 器16確定搜索被指示,并接收該指示。
[0121] 然后,搜索器16檢測轉(zhuǎn)錄句子中的當(dāng)前字符插入位置cp (步驟S702)。然后,搜 索器16確定檢測的當(dāng)前字符插入位置cp是否在選擇的元素中(步驟S703)。
[0122] 如果確定當(dāng)前字符插入位置cp在選擇的元素中時(S703的是),則搜索器16設(shè)定 選擇的元素 s的起始時間作為聲音位置P (步驟S704)。如果確定當(dāng)前字符插入位置cp不 在選擇的元素中時(S703的否),搜索器16使用某一語音識別技術(shù)(例如,"強(qiáng)制對準(zhǔn)方法 forced alignment method")估計(jì)聲音位置p (步驟S705)。例如,搜索器16使用語音識別 技術(shù),基于轉(zhuǎn)錄句子k、對應(yīng)于其中存在字符插入位置cp的未選擇元素 ns的識別字符串的 起始時間、以及當(dāng)前聲音播放位置,來估計(jì)聲音位置P。
[0123] 播放器17
[0124] 播放器17從由搜索器16搜索的聲音位置p播放聲音。
[0125] 如上所述,根據(jù)本實(shí)施例的文本生成器100基于根據(jù)語音識別結(jié)果和關(guān)于由操作 者U指定的轉(zhuǎn)錄工作的工作條件的各種參數(shù)(關(guān)于轉(zhuǎn)錄精確度和轉(zhuǎn)錄所需的工作量的參數(shù) 中的至少一個)計(jì)算的識別字符串的可信度,選擇從聲音識別的識別字符串,并生成轉(zhuǎn)錄句 子。
[0126] 因此,本實(shí)施例中構(gòu)造的文本生成器100根據(jù)操作者U指定的工作條件來調(diào)節(jié)語 音識別結(jié)果的輸出。當(dāng)操作者U執(zhí)行在調(diào)節(jié)后的輸出上執(zhí)行增加或校正時,實(shí)施例中的文 本生成器100提供了允許操作者U通過使用語音識別結(jié)果使輸入的字符與聲音同步來執(zhí)行 轉(zhuǎn)錄工作的環(huán)境。
[0127] 作為結(jié)果,該實(shí)施例中的文本生成器100使能了適當(dāng)?shù)恼Z音識別結(jié)果根據(jù)轉(zhuǎn)錄的 工作條件被用于轉(zhuǎn)錄工作中,從而能夠容易地將字符添加到語音識別結(jié)果中,或校正語音 識別結(jié)果的字符。因此,該實(shí)施例中的文本生成器100可減小轉(zhuǎn)錄工作中強(qiáng)加于操作者U 的負(fù)擔(dān)。
[0128] 第二實(shí)施例
[0129] 概述
[0130] 下面描述了根據(jù)第二實(shí)施例的文本生成器的功能(文本生成功能)。根據(jù)第二實(shí)施 例的文本生成器與第一實(shí)施例不同在于,識別器獲取的識別結(jié)果是基于句子或者基于時間 來連接的,而且將連接的結(jié)果用于轉(zhuǎn)錄的句子。更具體地,根據(jù)第二實(shí)施例的文本生成器將 如下連接的結(jié)果用于轉(zhuǎn)錄的句子,在該連接的結(jié)果中,識別結(jié)果是基于句子,根據(jù)各個識別 的字符串的句子結(jié)尾的表達(dá)來連接的。可替代地,根據(jù)第二實(shí)施例的文本生成器將如下的 連接的結(jié)果用于轉(zhuǎn)錄的句子,在該連接的結(jié)果中,識別結(jié)果是基于特定時間,根據(jù)各個識別 的字符串的起始時間和結(jié)束時間來連接的。
[0131] 下面描述了根據(jù)該實(shí)施例的文本生成器的結(jié)構(gòu)和功能操作。在下面的描述中,描 述了與第一個實(shí)施例的那些項(xiàng)不同的項(xiàng),而相同的項(xiàng)被標(biāo)以相同的附圖標(biāo)記,并且省略對 其重復(fù)的描述。
[0132] 結(jié)構(gòu)
[0133] 圖19是示意圖,示出了根據(jù)本實(shí)施例的文本生成器100的功能結(jié)構(gòu)。如圖19所 示,除了第一實(shí)施例的結(jié)構(gòu)之外,根據(jù)該實(shí)施例的文本生成器100還包括:連接單元21和識 別連接結(jié)果保存單元22。
[0134] 連接單元21基于句子或基于時間來連接由識別器12獲取的識別結(jié)果(存儲在識 別結(jié)果保存單元18中的識別結(jié)果),并將連接的結(jié)果存儲在識別連接結(jié)果保存單元22中。 例如,識別連接結(jié)果保存單元22是文本生成器100中設(shè)置的存儲裝置中的特定存儲區(qū)域。 選擇器13和搜索器16使用存儲在識別連接結(jié)果保存單元22中的識別連接結(jié)果。
[0135] 下面描述了根據(jù)本實(shí)施例的文本生成器100執(zhí)行的用于生成文本的基本處理。
[0136] 處理
[0137] 圖20是流程圖,示出了根據(jù)本實(shí)施例的用于生成文本的基本處理的示例。如圖20 所示,拾取單元11拾取聲音(步驟S801)。識別器12識別由拾取單元11拾取的聲音,并計(jì) 算識別單元中識別的字符串,以及識別的字符串的可信度(步驟S802)。作為結(jié)果,識別的字 符串和識別的字符串的可信度被存儲在識別結(jié)果保存單元18中。
[0138] 連接單元21基于特定句子或基于特定時間,來連接識別器12的識別結(jié)果(步驟 S803)。連接的識別字符串和連接的識別字符串的可信度被存儲在識別連接結(jié)果保存單元 22作為識別連接結(jié)果。選擇器13基于關(guān)于轉(zhuǎn)錄工作的工作條件的各種參數(shù)(工作條件參 數(shù))和存儲在識別連接結(jié)果保存單元22中的識別連接結(jié)果的可信度(連接之后的識別字符 串的可信度)來選擇至少一個識別的字符串用于轉(zhuǎn)錄的句子(步驟S804)。選擇器13基于 關(guān)于轉(zhuǎn)錄精確度的參數(shù)和識別的字符串的可信度的組合或者關(guān)于轉(zhuǎn)錄所需的工作量的參 數(shù)和識別的字符串的可信度的組合,來選擇識別的字符串用于轉(zhuǎn)錄的句子。
[0139] 生成單元14使用由選擇器13選擇的識別字符串和選擇器13未選擇的識別字符 串,生成轉(zhuǎn)錄的句子(步驟S805)。設(shè)定單元15根據(jù)從操作者U接收的設(shè)定,設(shè)定轉(zhuǎn)錄句子 中對應(yīng)于沒有被選擇器13選擇的識別字符串的用于操作者U的字符插入位置(步驟S806)。 搜索器16基于識別結(jié)果來搜索與設(shè)定單元15設(shè)定的字符插入位置對應(yīng)的聲音位置(步驟 S807)。
[0140] 播放器17根據(jù)從操作者U接收的指令,從搜索器16搜索的聲音位置播放聲音(步 驟S808)。此后,文本生成器100從操作者U接收字符輸入(添加或校正)(步驟S809)。
[0141] 當(dāng)從操作者U接收到結(jié)束轉(zhuǎn)錄的指令時(S810的是),根據(jù)本實(shí)施例的文本生成器 100結(jié)束該處理。相反,文本生成器100重復(fù)從S807到S809的處理(S810的否),直到操作 者U執(zhí)行結(jié)束轉(zhuǎn)錄的指令。
[0142] 細(xì)節(jié)
[0143] 下面主要描述了連接單元21和選擇器13的細(xì)節(jié)。
[0144] 各個功能單元的細(xì)節(jié)
[0145] 連接單元21
[0146] 連接單元21基于句子,根據(jù)各個識別的字符串的句子結(jié)尾表達(dá),來連接識別結(jié) 果,并獲取識別連接結(jié)果?;蛘?,連接單元21基于特定時間,根據(jù)各個識別的字符串的起始 時間和結(jié)束時間,來連接識別結(jié)果,并獲取識別連接結(jié)果,該識別連接結(jié)果包括連接的字符 串(連接之后的識別字符串)和連接結(jié)果的可信度。
[0147] 下面描述了連接單元21執(zhí)行的用于連接識別結(jié)果的處理。圖21是流程圖,示出 了根據(jù)該實(shí)施例的用于連接識別連接結(jié)果的處理的示例。
[0148] 如圖21所示,連接單元21首先初始化由識別器12獲取的識別結(jié)果的臨時連接結(jié) 果cr (存儲在識別結(jié)果保存單元18中的識別結(jié)果)獲得(步驟S901)。連接單元21設(shè)定由 識別器12獲取的識別結(jié)果的第一識別結(jié)果作為目標(biāo)識別結(jié)果r (步驟S902)。然后,連接 單元21將目標(biāo)識別結(jié)果r添加到臨時連接結(jié)果cr (步驟S903)。
[0149] 然后,連接單元21確定是否需要結(jié)束連接(步驟S904)。當(dāng)基于句子完成連接和基 于時間完成連接時,連接單元21不同地執(zhí)行確定處理。
[0150] A.當(dāng)基于句子完成連接時的確定處理
[0151] 連接單元21基于目標(biāo)識別結(jié)果r的識別字符串是否是句子結(jié)尾的確定結(jié)果,來確 定是否需要結(jié)束連接。如果目標(biāo)識別結(jié)果r的識別字符串是句子結(jié)尾(S904的是),則連接 單元21確定連接結(jié)束。如果目標(biāo)識別結(jié)果r的識別字符串不是句子結(jié)尾(S904的否),則 連接單元21確定不結(jié)束該連接。例如,句子結(jié)尾的確定是基于表示句子結(jié)尾的字符或符 號(例如日文的標(biāo)點(diǎn)符號" ° "、句號"或"問號"?)是否被包括在識別的字符串中來做出 的。當(dāng)這樣的字符或符號未被包括時,則該確定可以基于句子結(jié)尾的特定表達(dá)(如日文的 "desu"或"masu")是否被包括在識別的字符串中來做出。
[0152] B.當(dāng)基于時間完成連接時的確定處理
[0153] 連接單元21基于被獲取作為識別結(jié)果的識別字符串的起始時間和結(jié)束時間,來 確定是否需要結(jié)束連接。如果從與目標(biāo)識別結(jié)果r對應(yīng)的識別字符串的起始時間到與在目 標(biāo)識別結(jié)果r被添加之前被添加到臨時連接結(jié)果cr的識別結(jié)果對應(yīng)的識別字符串的結(jié)束 時間經(jīng)過的時間段等于或大于特定時間,則連接單元21確定連接結(jié)束(S904的是)。如果 經(jīng)過的時間段小于特定時間,連接單元21確定不結(jié)束該連接(S904的否)。當(dāng)從與目標(biāo)識 別結(jié)果r對應(yīng)的起始時間到與被添加到臨時連接結(jié)果cr的第一識別結(jié)果對應(yīng)的識別字符 串的起始時間經(jīng)過的時間段等于或大于特定時間時,連接單元21可以確定連接結(jié)束。
[0154] 如果確定連接結(jié)束(S904的是),連接單元21計(jì)算臨時連接結(jié)果cr的可信度(步 驟S905)。臨時連接結(jié)果cr的可信度是基于與添加到臨時連接結(jié)果cr的識別結(jié)果對應(yīng)的 識別字符串的可信度來計(jì)算的。例如,計(jì)算與添加到臨時連接結(jié)果cr的識別結(jié)果對應(yīng)的識 別字符串的可信度的平均值,而且將該計(jì)算的值設(shè)定為臨時連接結(jié)果cr的可信度。如果確 定該連接沒有結(jié)束(S904的否),則連接單元21進(jìn)行到S908處的處理(其將在后面描述),同 時跳過從S905到S907的處理。
[0155] 然后,連接單元21將連接識別的字符串并對應(yīng)于臨時連接結(jié)果cr(連接之后的識 別字符串)的字符串和臨時連接結(jié)果cr的計(jì)算可信度存儲在識別連接結(jié)果保存單元22中 (步驟S906),然后初始化臨時連接結(jié)果cr (步驟S907)。
[0156] 然后,連接單元21確定由識別器12獲取的識別結(jié)果中是否存在下一個識別結(jié)果 (步驟S908)。如果確定存在下一識別結(jié)果(S908的是),連接單元21設(shè)定下一識別結(jié)果作 為目標(biāo)識別結(jié)果r (步驟S909),然后重復(fù)從S903到S908的處理。如果確定不存在識別結(jié) 果(S908的否),則連接單元21確定識別結(jié)果是否保持在臨時連接結(jié)果cr中(步驟S910)。 如果確定識別結(jié)果保持在臨時連接結(jié)果cr中(S910的是),連接單元21進(jìn)行到S905處的 處理。如果確定識別結(jié)果沒有保持在臨時連接結(jié)果中(S910的否),則連接單元21結(jié)束該 處理。
[0157] 選擇器13
[0158] 選擇器13基于關(guān)于轉(zhuǎn)錄精確度的參數(shù)和識別連接結(jié)果的可信度(連接之后的識 別字符串的可信度)的組合或者是關(guān)于轉(zhuǎn)錄所需的工作量的參數(shù)和識別連接結(jié)果的可信度 的組合,來選擇至少一個識別的字符串用于轉(zhuǎn)錄的句子。
[0159] 如上所述,根據(jù)第二實(shí)施例的文本生成器100基于在句子的基礎(chǔ)上或在特定時間 的基礎(chǔ)上連接的識別字符串的可信度和由操作者U指定的關(guān)于轉(zhuǎn)錄工作的工作條件的各 種參數(shù)(關(guān)于轉(zhuǎn)錄精確度和轉(zhuǎn)錄所需的工作量中的至少一個參數(shù)),來選擇根據(jù)聲音識別的 識別字符串,并生成轉(zhuǎn)錄的句子。
[0160] 作為結(jié)果,本實(shí)施例中的文本生成器100以與第一實(shí)施例相同方式,使得字符的 添加或校正能夠被容易地做出,并且轉(zhuǎn)錄工作中強(qiáng)加于操作者U的負(fù)擔(dān)能夠被減小。
[0161] 第三實(shí)施例
[0162] 下面描述了根據(jù)第三實(shí)施例的文本生成器的功能(文本生成功能)。根據(jù)第三實(shí)施 例的文本生成器與第一和第二實(shí)施例不同在于,文本生成器針對每個發(fā)聲者或每個發(fā)聲周 期,基于識別字符串的可信度和關(guān)于轉(zhuǎn)錄工作的工作條件(轉(zhuǎn)錄精確度或轉(zhuǎn)錄所需的工作 量)的各種參數(shù),來選擇從聲音識別的識別字符串,并生成轉(zhuǎn)錄句子。
[0163] 下面描述了根據(jù)該實(shí)施例的文本生成器的結(jié)構(gòu)和功能操作。在下面的描述中,描 述了與第一和第二實(shí)施例的那些項(xiàng)不同的項(xiàng),而相同的項(xiàng)被標(biāo)以相同的附圖標(biāo)記,并且省 略對其重復(fù)的描述。
[0164] 結(jié)構(gòu)
[0165] 圖22是示意圖,示出了根據(jù)本實(shí)施例的文本生成器100的功能結(jié)構(gòu)。如圖22所 示,除了第一實(shí)施例的結(jié)構(gòu)之外,根據(jù)該實(shí)施例的文本生成器100還包括:發(fā)聲周期信息生 成單元31和發(fā)聲周期信息保存單元32。
[0166] 關(guān)于拾取單兀11拾取的聲音,發(fā)聲周期信息生成單兀31生成發(fā)聲周期信息,發(fā)聲 周期信息包括識別相應(yīng)發(fā)聲的發(fā)聲ID、發(fā)聲開始的時間(以下稱為"發(fā)聲起始時間")以及識 別發(fā)聲的發(fā)聲者的發(fā)聲者ID,并且發(fā)聲周期信息生成單元31將生成的發(fā)聲周期信息存儲 在發(fā)聲周期信息保存單元32中。例如,發(fā)聲周期信息保存單元32是文本生成器100中設(shè) 置的存儲裝置中的特定存儲區(qū)域。選擇器13和搜索器16使用存儲在發(fā)聲周期信息保存單 元32中的發(fā)聲周期信息。
[0167] 下面描述了根據(jù)本實(shí)施例的文本生成器100執(zhí)行的用于生成文本的基本處理。
[0168] 處理
[0169] 圖23是流程圖,示出了根據(jù)本實(shí)施例的用于生成文本的基本處理的示例。如圖23 所示,拾取單元11拾取聲音(步驟S1001)。識別器12識別由拾取單元11拾取的聲音,并計(jì) 算識別單元中識別的字符串,以及識別的字符串的可信度(步驟S1002)。作為結(jié)果,識別的 字符串和識別的字符串的可信度被存儲在識別結(jié)果保存單元18中。
[0170] 關(guān)于拾取單兀11拾取的聲音,發(fā)聲周期信息生成單兀31生成每個發(fā)聲的發(fā)聲周 期信息(包括發(fā)聲ID、發(fā)聲起始時間以及發(fā)聲者ID)(步驟S1003)。作為結(jié)果,發(fā)聲周期信 息被存儲在發(fā)聲周期信息保存單元32中。
[0171] 選擇器13基于存儲在發(fā)聲周期信息保存單元32中的發(fā)聲周期信息、關(guān)于轉(zhuǎn)錄工 作的工作條件的各種參數(shù)(工作條件參數(shù))、以及存儲在識別結(jié)果保存單元18中的識別字符 串的可信度,針對每個發(fā)聲者或每一個發(fā)聲周期,來選擇至少一個識別的字符串用于轉(zhuǎn)錄 的句子(步驟S1004)。選擇器13基于關(guān)于轉(zhuǎn)錄精確度的參數(shù)和識別字符串的可信度的組合 或者關(guān)于轉(zhuǎn)錄所需的工作量的參數(shù)和識別字符串的可信度的組合,來選擇識別的字符串用 于轉(zhuǎn)錄的句子。生成單元14使用由選擇器13選擇的識別字符串和選擇器13未選擇的識 別字符串,生成轉(zhuǎn)錄句子(步驟S1005)。
[0172] 設(shè)定單元15根據(jù)從操作者U接收的設(shè)定,設(shè)定轉(zhuǎn)錄句子中對應(yīng)于未被選擇器13 選擇的識別字符串的用于操作者U的字符插入位置(步驟S1006)。搜索器16基于識別結(jié)果 搜索對應(yīng)于設(shè)定單元15設(shè)定的字符插入位置的聲音位置(步驟S1007)。
[0173] 播放器17根據(jù)從操作者U接收的指示,從搜索器16搜索的聲音位置播放聲音(步 驟S1008)。此后,文本生成器100從操作者U接收字符輸入(添加或校正)(步驟S1009)。
[0174] 當(dāng)從操作者U接收到結(jié)束轉(zhuǎn)錄的指令時,根據(jù)本實(shí)施例的文本生成器100結(jié)束該 處理(S1010的是)。文本生成器100重復(fù)從S1007到S1009的處理(S1010的否),直到操作 者U執(zhí)行結(jié)束轉(zhuǎn)錄的指令。
[0175] 細(xì)節(jié)
[0176] 下面主要描述了發(fā)聲周期信息生成單元31和選擇器13的細(xì)節(jié)。
[0177] 各個功能單元的細(xì)節(jié)
[0178] 發(fā)聲周期信息生成單元31
[0179] 發(fā)聲周期信息生成單元31以下列方式識別發(fā)聲者和發(fā)聲周期,并生成發(fā)聲周期 信息。例如,發(fā)聲周期信息生成單元31接收當(dāng)操作者U聽到聲音時識別各個聲音的發(fā)聲者 和聲音起始時間的識別結(jié)果并根據(jù)接收的識別結(jié)果生成發(fā)聲周期信息。發(fā)聲周期信息生成 單元31可以使用發(fā)聲者識別技術(shù)基于聲學(xué)特征量來估計(jì)發(fā)聲者和發(fā)聲周期,并根據(jù)估計(jì) 結(jié)果生成發(fā)聲周期信息。
[0180] 圖24是示意圖,示出了根據(jù)本實(shí)施例的發(fā)聲周期信息D3的數(shù)據(jù)的示例。圖24示 出了當(dāng)發(fā)聲周期信息生成單元31從由拾取單元11拾取的聲音識別(估計(jì))多個發(fā)聲者和相 應(yīng)發(fā)聲周期時生成的示例性數(shù)據(jù)。例如,發(fā)聲周期信息生成單元31以這種方式生成包括發(fā) 聲ID、發(fā)聲起始時間以及發(fā)聲者ID的發(fā)聲周期信息D3。發(fā)聲周期信息生成單元31將生成 的發(fā)聲周期信息D3存儲在發(fā)聲周期信息保存單元32中。
[0181] 選擇器13
[0182] 選擇器13針對每個發(fā)聲者或每一個發(fā)聲周期,基于發(fā)聲周期信息生成單元31生 成的發(fā)聲周期信息D3、識別字符串的可信度和關(guān)于轉(zhuǎn)錄工作的工作條件的各種參數(shù),來選 擇從聲音識別的識別字符串。更具體地,選擇器13針對每個發(fā)聲者或發(fā)聲周期,基于關(guān) 于轉(zhuǎn)錄精確度的參數(shù)和識別字符串的可信度,來選擇至少一個識別的字符串用于轉(zhuǎn)錄的句 子。此外,選擇器13針對每個發(fā)聲者或發(fā)聲周期,基于關(guān)于轉(zhuǎn)錄所需的工作量的參數(shù)和識 別字符串的可信度,來選擇至少一個識別的字符串用于轉(zhuǎn)錄的句子。
[0183] 下面描述了由選擇器13執(zhí)行的用于選擇識別字符串的處理。圖25為流程圖,其 示出了根據(jù)本實(shí)施例的用于選擇識別字符串的處理的示例。圖25示出了當(dāng)選擇器13使用 轉(zhuǎn)錄精確度的容許值作為針對每個發(fā)聲者的關(guān)于轉(zhuǎn)錄精確度的參數(shù)時的示例性處理。
[0184] 如圖25所示,選擇器13首先從操作者U接收針對發(fā)聲者i (i=l至M,Μ是發(fā)聲者 的數(shù)量)的轉(zhuǎn)錄精確度的容許值P (i)的設(shè)定(步驟S1101)。
[0185] 圖26是示意圖,示出了根據(jù)本實(shí)施例的轉(zhuǎn)錄精確度的允許值P(i)的設(shè)定的示例。 如圖26所示,操作者U通過相應(yīng)的滑塊UI(滑動條),設(shè)定針對發(fā)聲者的轉(zhuǎn)錄精確度的容許 值P (i ),例如每個滑塊Π 允許從N個階層(圖26中N=5)中指定出一個可允許的階層。選 擇器13以這種方式在屏幕上顯示UI,并從操作者U接收設(shè)定。
[0186] 再參考圖25,選擇器13隨后設(shè)定由識別器12獲取的識別結(jié)果(存儲在識別結(jié)果保 存單元18中的該識別結(jié)果)中的第一識別字符串作為目標(biāo)字符串w (步驟S1102),然后根 據(jù)目標(biāo)字符串w的可信度,計(jì)算目標(biāo)字符串w的轉(zhuǎn)錄精確度wp (步驟S1103)。例如,選擇 器13通過第一實(shí)施例中所描述的表達(dá)式(1),計(jì)算目標(biāo)字符串w的轉(zhuǎn)錄精確度wp。
[0187] 然后,選擇器13基于存儲在發(fā)聲周期信息保存單元32中的發(fā)聲周期信息D3,識別 目標(biāo)字符串w的發(fā)聲者wi (步驟S1104)。例如,選擇器13提取發(fā)聲周期n,并且根據(jù)發(fā)聲 周期信息D3中的發(fā)聲周期的發(fā)聲者ID識別發(fā)聲者wi,在該發(fā)聲周期η中識別字符串的起 始時間存在于發(fā)聲周期η的起始時間和下一發(fā)聲周期η+1的起始時間之間。
[0188] 然后,選擇器13比較目標(biāo)字符串w的計(jì)算的轉(zhuǎn)錄精確度wp和識別的發(fā)聲者wi的 轉(zhuǎn)錄精確度的容許值P (wi),并確定轉(zhuǎn)錄精確度wp是否等于或大于容許值P (wi)(步驟 S1105)。如果確定轉(zhuǎn)錄精確度wp等于或大于容許值P (wi) (S1105的是),選擇器13選擇 目標(biāo)字符串w (步驟S1106)。如果確定轉(zhuǎn)錄精確度wp小于容許值P (wi) (S1105的否), 則選擇器13不選擇目標(biāo)字符串w。
[0189] 然后,選擇器13確定由識別器12獲取的識別結(jié)果中是否存在下一個識別的字符 串(步驟S1107)。如果確定存在下一個識別的字符串(S1107的是),選擇器13設(shè)定下一識 別的字符串作為目標(biāo)字符串w (步驟S1108),并重復(fù)從S1103到S1107的處理。如果確定 不存在下一個識別的字符串(S1107的否),選擇器13結(jié)束該處理。
[0190] 選擇器13可以與上述方式相同的方式,使用每個發(fā)聲者的關(guān)于轉(zhuǎn)錄所需工作量 的參數(shù),選擇識別的字符串??商娲?,選擇器13可使用關(guān)于每個發(fā)聲周期的轉(zhuǎn)錄精確度 的參數(shù)或者每個發(fā)聲周期的轉(zhuǎn)錄所需工作量的參數(shù),來選擇識別的字符串。
[0191] 如上所述,根據(jù)本實(shí)施例的文本生成器100基于識別字符串的可信度和關(guān)于操作 者U指定的轉(zhuǎn)錄工作的工作條件的各種參數(shù)(轉(zhuǎn)錄精確度和轉(zhuǎn)錄所需工作量中的至少一 個參數(shù)),針對每個發(fā)聲者或每個發(fā)聲周期選擇根據(jù)聲音識別的識別字符串,并生成轉(zhuǎn)錄句 子。
[0192] 作為結(jié)果,本實(shí)施例中的文本生成器100以與第一實(shí)施例相同的方式使得能夠容 易地進(jìn)行字符的添加或校正,并且減小轉(zhuǎn)錄工作中的強(qiáng)加于操作者U的負(fù)擔(dān)。
[0193] 文本生成器
[0194] 圖27為示意圖,示出了根據(jù)本實(shí)施例的文本生成器100的結(jié)構(gòu)的示例。如圖27 所示,根據(jù)本實(shí)施例的文本生成器100包括中央處理單元(CPU) 101和主存儲設(shè)備102。文 本生成器100還包括輔助存儲設(shè)備103、通信接口(IF)104、外部IF105、以及驅(qū)動設(shè)備107。 在文本生成器100中,各個設(shè)備通過總線B相互連接。因此,根據(jù)本實(shí)施例的文本生成器 100對應(yīng)于典型的信息處理裝置。
[0195] CPU101是算術(shù)處理單元,其總體控制文本生成器100并實(shí)現(xiàn)文本生成器100的相 應(yīng)功能。主存儲設(shè)備102是在其特定存儲區(qū)域中存儲程序和數(shù)據(jù)的存儲設(shè)備(存儲器)。例 如,主存儲設(shè)備102是只讀存儲器(ROM)或隨機(jī)存取存儲器(RAM)。輔助存儲設(shè)備103是具 有比主存儲設(shè)備102更大容量的存儲區(qū)域的存儲設(shè)備。例如,輔助存儲設(shè)備103是非易失性 存儲裝置,例如硬盤驅(qū)動器(HDD)或者存儲卡。CPU101從輔助存儲設(shè)備103讀出程序和數(shù) 據(jù)至主存儲裝置102中,并執(zhí)行它們,以便總體控制文本生成器100并實(shí)現(xiàn)文本生成器100 的相應(yīng)功能。
[0196] 通信IF104是一種接口,其連接文本生成器100至數(shù)據(jù)傳輸線N。因此,通信IF104 使文本生成器100能夠執(zhí)行與其他外部裝置(其他通信處理裝置)的數(shù)據(jù)通信,該其他外部 裝置通過數(shù)據(jù)傳輸線N耦合到文本生成器100。外部IF105是使能文本生成器100和外部 設(shè)備106之間的數(shù)據(jù)交換的接口。例如,外部設(shè)備106是顯示各種類型的信息(例如處理結(jié) 果)的顯示器(例如,"液晶顯示器"),或者是接收處理輸入的輸入裝置(例如,"數(shù)字鍵盤"、 "鍵盤"、或"觸摸面板")。驅(qū)動設(shè)備107是將數(shù)據(jù)寫入和讀出存儲介質(zhì)108的控制器。例如, 該存儲介質(zhì)108是軟盤(FD)、緊致盤(⑶)、或數(shù)字多功能盤(DVD)。
[0197] 例如,本實(shí)施例中的文本生成功能是由執(zhí)行計(jì)算機(jī)程序的文本生成器100和上述 各功能單元產(chǎn)生的協(xié)同操作來實(shí)現(xiàn)的。在這種情況下,程序作為可安裝或可執(zhí)行的格式的 文件被記錄在執(zhí)行環(huán)境中可由文本生成器100 (計(jì)算機(jī))讀取的記錄介質(zhì)中,并且被提供。 例如,在文本生成器100中,程序具有包括上述各個功能單元的單元結(jié)構(gòu),一旦CPU101從存 儲介質(zhì)108讀出程序并執(zhí)行程序,各個單元就生成于主存儲裝置102的RAM上。提供程序 的方式并不局限于該方式。例如,該程序可以存儲在連接到互聯(lián)網(wǎng)的外部裝置,并可通過數(shù) 據(jù)傳輸線N下載。該程序可以預(yù)先存儲在主存儲裝置102的ROM上或者輔助存儲裝置103 的HDD上,并被提供。描述了其中文本生成功能通過軟件實(shí)施來實(shí)現(xiàn)的例子。然而,文本生 成功能的實(shí)現(xiàn)并不局限于這種方式。文本生成功能的各個功能單元的一部分或全部可以通 過硬件實(shí)施來實(shí)現(xiàn)。
[0198] 在實(shí)施例中,文本生成器100包括拾取單元11、識別器12、選擇器13、生成單元 14、設(shè)定單元15、搜索器16、播放器17、識別結(jié)果保存單元18、連接單元21、識別連接結(jié)果保 存單元22、發(fā)聲周期信息生成單元31、以及發(fā)聲周期信息保存單元32中的一部分或全部。 然而,文本生成器100的結(jié)構(gòu)不局限于此結(jié)構(gòu)。文本生成器100可以通過通信IF104耦合 到具有那些功能單元的一部分功能的外部裝置,并通過與所耦合的外部裝置的數(shù)據(jù)通信和 各個功能單元產(chǎn)生的協(xié)同操作,提供文本生成功能。例如,這種結(jié)構(gòu)使得該實(shí)施例中的文本 生成器100還能夠應(yīng)用于云環(huán)境。
[0199] 根據(jù)上述至少一個實(shí)施例中的文本生成器,文本生成器包括識別器、選擇器、以及 生成單元。識別器被配置為識別拾取的聲音,并獲取識別單元中識別的字符串以及識別字 符串的可信度。選擇器被配置為基于關(guān)于轉(zhuǎn)錄精確度的參數(shù)和關(guān)于轉(zhuǎn)錄所需的工作量的參 數(shù)中的至少一個來選擇至少一個識別的字符串用于轉(zhuǎn)錄句子。生成單元被配置為使用所選 的識別字符串生成轉(zhuǎn)錄句子。因此,可以減小轉(zhuǎn)錄工作中的負(fù)擔(dān)。
[0200] 雖然已經(jīng)介紹了一些實(shí)施例,但是這些實(shí)施例只是作為示例來呈現(xiàn)的,而不是用 來限制本發(fā)明的范圍。實(shí)際上,在此描述的新穎實(shí)施例可以以各種其它形式實(shí)施;此外,在 不脫離本發(fā)明的精神的情況下可以做出在此所述的實(shí)施例的形式中的各種省略、替換和改 變。所附的權(quán)利要求及其等同方案旨在覆蓋將落入本發(fā)明的范圍和精神的如此形式或修 改。
【權(quán)利要求】
1. 一種文本生成器,包括: 識別器,其被配置為識別所拾取的聲音,并獲取識別單元中所識別的字符串和所識別 的字符串的可信度; 選擇器,其被配置為基于關(guān)于轉(zhuǎn)錄精確度的參數(shù)和關(guān)于轉(zhuǎn)錄所需工作量的參數(shù)中的至 少一個,選擇至少一個所識別的字符串用于轉(zhuǎn)錄的句子;以及 生成單元,其被配置為使用所選的識別字符串生成所述轉(zhuǎn)錄的句子。
2. 根據(jù)權(quán)利要求1所述的文本生成器,其中,所述選擇器基于所述關(guān)于轉(zhuǎn)錄精確度的 參數(shù)與所述所識別的字符串的可信度的組合和所述關(guān)于轉(zhuǎn)錄所需工作量的參數(shù)與所述所 識別的字符串的可信度的組合中的至少一個組合,來選擇所識別的字符串。
3. 根據(jù)權(quán)利要求2所述的文本生成器,其中,所述選擇器基于每個所識別的字符串的 可信度來計(jì)算每個所識別的字符串的轉(zhuǎn)錄精確度,比較所計(jì)算的轉(zhuǎn)錄精確度和所述轉(zhuǎn)錄精 確度的容許值,并且當(dāng)所述轉(zhuǎn)錄精確度等于或大于所述容許值時選擇所述所識別的字符 串。
4. 根據(jù)權(quán)利要求2所述的文本生成器,其中,所述選擇器使用轉(zhuǎn)錄工作時間作為所述 關(guān)于轉(zhuǎn)錄所需工作量的參數(shù),基于所識別的字符串的字符數(shù)量來計(jì)算每個所識別的字符串 的所述轉(zhuǎn)錄工作時間,比較累積的工作時間和所述轉(zhuǎn)錄工作時間的容許值,并且當(dāng)所述累 積的工作時間等于或小于所述容許值時選擇所述所識別的字符串,所述累積的工作時間以 所識別的字符串的可信度的遞減次序累積地示出了所識別的字符串的所計(jì)算的轉(zhuǎn)錄工作 時間。
5. 根據(jù)權(quán)利要求2所述的文本生成器,其中 所述識別器還獲取每個所識別的字符串的起始時間和結(jié)束時間,并且 所述選擇器使用轉(zhuǎn)錄工作時間作為所述關(guān)于轉(zhuǎn)錄所需工作量的參數(shù),基于每個所識別 的字符串的起始時間和結(jié)束時間計(jì)算每個所識別的字符串的轉(zhuǎn)錄工作時間,比較累積的工 作時間和轉(zhuǎn)錄工作時間的容許值,并且當(dāng)所述累積的工作時間等于或小于所述容許值時選 擇所述所識別的字符串,所述累積的工作時間累積地示出了以所識別的字符串的可信度的 遞減次序的所識別的字符串的所計(jì)算的轉(zhuǎn)錄工作時間。
6. 根據(jù)權(quán)利要求2所述的文本生成器,其中,所述選擇器使用轉(zhuǎn)錄工作成本作為所述 關(guān)于轉(zhuǎn)錄所需工作量的參數(shù),基于所識別的字符串的字符數(shù)量計(jì)算每個所識別的字符串的 轉(zhuǎn)錄工作時間,基于所計(jì)算的轉(zhuǎn)錄工作時間和每一單位時間的工作成本來計(jì)算每個所識別 的字符串的轉(zhuǎn)錄工作成本,比較累積的工作成本和所述轉(zhuǎn)錄工作成本的容許值,并且當(dāng)所 述累積的工作成本等于或小于所述容許值時選擇所述所識別的字符串,所述累積的工作成 本累積地示出了以所識別的字符串的可信度的遞減次序的所識別的字符串的所計(jì)算的轉(zhuǎn) 錄工作成本。
7. 根據(jù)權(quán)利要求2所述的文本生成器,其中 所述識別器還獲取每個所識別的字符串的起始時間和結(jié)束時間,并且 所述選擇器使用轉(zhuǎn)錄工作成本作為所述關(guān)于轉(zhuǎn)錄所需工作量的參數(shù),基于所識別的字 符串的起始時間和結(jié)束時間來計(jì)算每個所識別的字符串的轉(zhuǎn)錄工作時間,基于所計(jì)算的轉(zhuǎn) 錄工作時間和每一單位時間的工作成本來計(jì)算每個所識別的字符串的轉(zhuǎn)錄工作成本,比較 累積的工作成本和所述轉(zhuǎn)錄工作成本的容許值,并且當(dāng)所述累積的工作成本等于或小于所 述容許值時選擇所述所識別的字符串,所述累積的工作成本累積地示出了以所識別的字符 串的可信度的遞減次序的所識別的字符串的所計(jì)算的轉(zhuǎn)錄工作成本。
8. 根據(jù)權(quán)利要求2所述的文本生成器,其中,所述生成單元生成所述轉(zhuǎn)錄的句子,在所 述轉(zhuǎn)錄的句子中,所述所識別的字符串中沒有被所述選擇器選擇的所識別的字符串的N個 候選者(N是等于或大于1的整數(shù))以所識別的字符串的可信度的遞減次序被顯示,使得所 述N個候選者能夠被操作者選擇。
9. 根據(jù)權(quán)利要求1所述的文本生成器,還包括設(shè)定單元,所述設(shè)定單元被配置為在所 述轉(zhuǎn)錄的句子中的一位置處設(shè)定字符插入位置,所述位置對應(yīng)于沒有被所述選擇器選擇的 所識別的字符串,所述字符插入位置對應(yīng)于操作者開始字符輸入的位置,其中 所述設(shè)定單元基于所檢測的當(dāng)前字符插入位置并基于所選擇的元素和未選擇的元素 之間的位置關(guān)系,來設(shè)定字符插入位置,所述所選擇的元素對應(yīng)于由所述選擇器選擇的所 識別的字符串,所述未選擇的元素對應(yīng)于所述轉(zhuǎn)錄的句子中沒有被所述選擇器選擇的所識 別的字符串。
10. 根據(jù)權(quán)利要求9所述的文本生成器,其中 所述設(shè)定單元確定所檢測的當(dāng)前字符插入位置是否是在所述所選擇的元素中,并且 當(dāng)所述字符插入位置是在所述所選擇的元素中時,所述設(shè)定單元在最接近于所述字符 插入位置并且在所述字符插入位置后面的位置處檢測所述未選擇的元素,并且將所述字符 插入位置移動到所檢測的未選擇的元素的開頭位置。
11. 根據(jù)權(quán)利要求9所述的文本生成器,其中 所述設(shè)定單元確定所檢測的當(dāng)前字符插入位置是否是在所選擇的元素中,并且 當(dāng)所述字符插入位置不在所述所選擇的元素中時,所述設(shè)定單元在最接近于所述字符 插入位置并且在所述字符插入位置后面的位置處檢測所選擇的元素,在最接近于所檢測的 所選擇的元素并且在所檢測的所選擇的元素后面的位置處檢測未選擇的元素,并且將所述 字符插入位置移動到所檢測的未選擇的元素的開頭位置。
12. 根據(jù)權(quán)利要求9所述的文本生成器,還包括: 搜索器,其被配置為當(dāng)操作者開始在由所述設(shè)定單元設(shè)定的所述字符插入位置輸入字 符時,搜索對應(yīng)于輸入字符的聲音位置;以及 播放器,其被配置為從所述搜索器搜索的所述聲音位置播放聲音,其中 所述搜索器基于由所述設(shè)定單元檢測的所述當(dāng)前字符插入位置以及所選擇的元素和 未選擇的元素之間的位置關(guān)系,搜索所述聲音位置,所述所選擇的元素對應(yīng)于被所述選擇 器選擇的所識別的字符串,所述未選擇的元素對應(yīng)于所述轉(zhuǎn)錄的句子中沒有被所述選擇器 選擇的所識別的字符串。
13. 根據(jù)權(quán)利要求12所述的文本生成器,其中 所述搜索器確定所檢測的當(dāng)前字符插入位置是否是在所述所選擇的元素中,并且 當(dāng)所述字符插入位置是在所述所選擇的元素中時,所述搜索器設(shè)定與所選擇的元素對 應(yīng)的所識別的字符串的起始時間作為聲音位置。
14. 根據(jù)權(quán)利要求1所述的文本生成器,還包括連接單元,所述連接單元被配置為基于 句子或基于特定時間,來連接由所述識別器獲取的所識別的字符串,并且獲取所連接的所 識別的字符串和所連接的所識別的字符串的可信度,其中 所述選擇器選擇基于句子或基于時間連接的所連接的所識別的字符串。
15. 根據(jù)權(quán)利要求14所述的文本生成器,其中,所述選擇器基于關(guān)于所述轉(zhuǎn)錄精確度 的參數(shù)和所連接的所識別的字符串的可信度,或基于關(guān)于轉(zhuǎn)錄所需的工作量的參數(shù)和所連 接的所識別的字符串的可信度,來選擇基于句子或基于時間連接的所連接的所識別的字符 串。
16. 根據(jù)權(quán)利要求1所述的文本生成器,還包括生成單元,所述生成單元被配置為生成 關(guān)于所述聲音的發(fā)聲周期信息,所述發(fā)聲周期信息包括標(biāo)識每個發(fā)聲的信息、每個發(fā)聲的 發(fā)聲起始時間、和標(biāo)識每個發(fā)聲的發(fā)聲者的信息,其中 所述選擇器針對每個發(fā)聲者或每個發(fā)聲來選擇所識別的字符串。
17. 根據(jù)權(quán)利要求16所述的文本生成器,其中,所述選擇器基于關(guān)于轉(zhuǎn)錄精確度的參 數(shù)和所識別的字符串的可信度,或者基于關(guān)于轉(zhuǎn)錄所需的工作量的參數(shù)和所識別的字符串 的可信度,針對每個發(fā)聲者或每個發(fā)聲,來選擇所識別的字符串。
18. -種文本生成方法,包括: 識別所拾取的聲音,并獲取識別單元中識別的字符串和所識別的字符串的可信度; 基于關(guān)于轉(zhuǎn)錄精確度的參數(shù)和關(guān)于轉(zhuǎn)錄所需工作量的參數(shù)中的至少一個,來選擇至少 一個所識別的字符串用于轉(zhuǎn)錄的句子;以及 使用所選擇的所識別的字符串生成所述轉(zhuǎn)錄的句子。
【文檔編號】G10L15/26GK104103273SQ201410090288
【公開日】2014年10月15日 申請日期:2014年3月12日 優(yōu)先權(quán)日:2013年4月3日
【發(fā)明者】蘆川平, 西山修, 池田朋男, 上野晃嗣, 中田康太 申請人:株式會社東芝