1.一種語(yǔ)音識(shí)別方法,其特征在于,包括:
獲取與待識(shí)別語(yǔ)音數(shù)據(jù)相關(guān)的基礎(chǔ)資料;
確定所述基礎(chǔ)資料的關(guān)鍵詞;
依據(jù)所述關(guān)鍵詞確定搜索項(xiàng),通過(guò)所述搜索項(xiàng)搜索目標(biāo)語(yǔ)料;
通過(guò)所述目標(biāo)語(yǔ)料訓(xùn)練目標(biāo)主題語(yǔ)言模型,以所述目標(biāo)主題語(yǔ)言模型識(shí)別所述待識(shí)別語(yǔ)音數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定所述基礎(chǔ)資料的關(guān)鍵詞,包括:
以第一確定方式確定所述關(guān)鍵詞,所述第一確定方式包括,依據(jù)預(yù)先訓(xùn)練得到的編碼-解碼模型計(jì)算所述基礎(chǔ)資料中每個(gè)詞作為所述關(guān)鍵詞的概率,將所述概率大于第一預(yù)設(shè)閾值的詞確定為所述關(guān)鍵詞;
或者以第二確定方式確定所述關(guān)鍵詞,所述第二確定方式包括,計(jì)算所述基礎(chǔ)資料中每個(gè)詞的詞頻和逆文檔頻率,將所述詞頻大于第二預(yù)設(shè)閾值且所述逆文檔頻率大于第三預(yù)設(shè)閾值的詞確定所述關(guān)鍵詞;
或者以第三確定方式確定所述關(guān)鍵詞,所述第三確定方式包括,計(jì)算所述基礎(chǔ)資料中每個(gè)詞的TextRank得分,將所述TextRank得分大于第四預(yù)設(shè)閾值的詞作為所述關(guān)鍵詞;
或者所述第一確定方式、所述第二確定方式和所述第三確定方式中,以任意兩種方式或三種方式相結(jié)合來(lái)確定候選關(guān)鍵詞,將經(jīng)過(guò)去重后的所述候選關(guān)鍵詞作為所述關(guān)鍵詞。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述依據(jù)所述關(guān)鍵詞確定搜索項(xiàng),通過(guò)所述搜索項(xiàng)搜索目標(biāo)語(yǔ)料,包括:
統(tǒng)計(jì)所述基礎(chǔ)資料的每個(gè)句子中包含的所述關(guān)鍵詞個(gè)數(shù),將包含至少兩個(gè)關(guān)鍵詞的句子中的所有關(guān)鍵詞作為一個(gè)關(guān)鍵詞組,將不屬于任一所述關(guān)鍵詞組的所述關(guān)鍵詞作為獨(dú)立關(guān)鍵詞;
依據(jù)所述關(guān)鍵詞組和所述獨(dú)立關(guān)鍵詞確定所述搜索項(xiàng),通過(guò)所述搜索項(xiàng)搜索所述目標(biāo)語(yǔ)料。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
獲取在識(shí)別所述待識(shí)別語(yǔ)音數(shù)據(jù)的過(guò)程中已經(jīng)得到的識(shí)別結(jié)果,將所述識(shí)別結(jié)果補(bǔ)充到所述基礎(chǔ)資料。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
依據(jù)所述基礎(chǔ)資料和與系統(tǒng)預(yù)先存儲(chǔ)的各目標(biāo)領(lǐng)域語(yǔ)言模型的領(lǐng)域類別相匹配的領(lǐng)域判定模型,確定所述待識(shí)別語(yǔ)音數(shù)據(jù)屬于每個(gè)所述領(lǐng)域類別的概率,按設(shè)定順序排序,生成概率向量;
以所述概率向量作為可信度判定模型的輸入,判斷所述概率向量是否可信;
若所述概率向量可信,對(duì)于每個(gè)所述領(lǐng)域類別,判斷所述待識(shí)別語(yǔ)音數(shù)據(jù)屬于所述領(lǐng)域類別的概率是否超過(guò)與所述領(lǐng)域類別相對(duì)應(yīng)的第五預(yù)設(shè)閾值;
若是,則以所述概率所對(duì)應(yīng)的所述領(lǐng)域類別的目標(biāo)領(lǐng)域語(yǔ)言模型識(shí)別所述待識(shí)別語(yǔ)音數(shù)據(jù)。
6.一種語(yǔ)音識(shí)別裝置,其特征在于,包括:
獲取模塊,用于獲取與待識(shí)別語(yǔ)音數(shù)據(jù)相關(guān)的基礎(chǔ)資料;
第一確定模塊,用于確定所述基礎(chǔ)資料的關(guān)鍵詞;
搜索模塊,用于依據(jù)所述關(guān)鍵詞確定搜索項(xiàng),通過(guò)所述搜索項(xiàng)搜索目標(biāo)語(yǔ)料;
第一識(shí)別模塊,用于通過(guò)所述目標(biāo)語(yǔ)料訓(xùn)練目標(biāo)主題語(yǔ)言模型,以所述目標(biāo)主題語(yǔ)言模型識(shí)別所述待識(shí)別語(yǔ)音數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述第一確定模塊包括:
第一確定單元,用于以第一確定方式確定所述關(guān)鍵詞,所述第一確定方式包括,依據(jù)預(yù)先訓(xùn)練得到的編碼-解碼模型計(jì)算所述基礎(chǔ)資料中每個(gè)詞作為所述關(guān)鍵詞的概率,將所述概率大于第一預(yù)設(shè)閾值的詞確定為所述關(guān)鍵詞;
第二確定單元,用于以第二確定方式確定所述關(guān)鍵詞,所述第二確定方式包括,計(jì)算所述基礎(chǔ)資料中每個(gè)詞的詞頻和逆文檔頻率,將所述詞頻大于第二預(yù)設(shè)閾值且所述逆文檔頻率大于第三預(yù)設(shè)閾值的詞確定所述關(guān)鍵詞;
第三確定單元,用于以第三確定方式確定所述關(guān)鍵詞,所述第三確定方式包括,計(jì)算所述基礎(chǔ)資料中每個(gè)詞的TextRank得分,將所述TextRank得分大于第四預(yù)設(shè)閾值的詞作為所述關(guān)鍵詞;
第四確定單元,用于所述第一確定方式、所述第二確定方式和所述第三確定方式中,以任意兩種方式或三種方式相結(jié)合來(lái)確定候選關(guān)鍵詞,將經(jīng)過(guò)去重后的所述候選關(guān)鍵詞作為所述關(guān)鍵詞。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述搜索模塊包括:
統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述基礎(chǔ)資料的每個(gè)句子中包含的所述關(guān)鍵詞個(gè)數(shù),將包含至少兩個(gè)關(guān)鍵詞的句子中的所有關(guān)鍵詞作為一個(gè)關(guān)鍵詞組,將不屬于任一所述關(guān)鍵詞組的所述關(guān)鍵詞作為獨(dú)立關(guān)鍵詞;
搜索單元,用于依據(jù)所述關(guān)鍵詞組和所述獨(dú)立關(guān)鍵詞確定所述搜索項(xiàng),通過(guò)所述搜索項(xiàng)搜索所述目標(biāo)語(yǔ)料。
9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括:
更新模塊,用于獲取在識(shí)別所述待識(shí)別語(yǔ)音數(shù)據(jù)的過(guò)程中已經(jīng)得到的識(shí)別結(jié)果,將所述識(shí)別結(jié)果補(bǔ)充到所述基礎(chǔ)資料。
10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括:
第二確定模塊,用于依據(jù)所述基礎(chǔ)資料和與系統(tǒng)預(yù)先存儲(chǔ)的各目標(biāo)領(lǐng)域語(yǔ)言模型的領(lǐng)域類別相匹配的領(lǐng)域判定模型,確定所述待識(shí)別語(yǔ)音數(shù)據(jù)屬于每個(gè)所述領(lǐng)域類別的概率,按設(shè)定順序排序,生成概率向量;
第一判斷模塊,用于以所述概率向量作為可信度判定模型的輸入,判斷所述概率向量是否可信,所述可信度判定模型與所述領(lǐng)域類別相匹配;
第二判斷模塊,用于若所述概率向量可信,對(duì)于每個(gè)所述領(lǐng)域類別,判斷所述待識(shí)別語(yǔ)音數(shù)據(jù)屬于所述領(lǐng)域類別的概率是否超過(guò)與所述領(lǐng)域類別相對(duì)應(yīng)的第五預(yù)設(shè)閾值;
第二識(shí)別模塊,用于若是,則以所述概率所對(duì)應(yīng)的所述領(lǐng)域類別的目標(biāo)領(lǐng)域語(yǔ)言模型識(shí)別所述待識(shí)別語(yǔ)音數(shù)據(jù)。