亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文本字串匹配方法及系統(tǒng)的制作方法

文檔序號(hào):9826240閱讀:759來(lái)源:國(guó)知局
一種文本字串匹配方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本分析技術(shù)領(lǐng)域,具體涉及一種文本字串匹配方法及系統(tǒng)。
【背景技術(shù)】
[0002] 文本字串匹配在搜索引擎、語(yǔ)音識(shí)別、實(shí)體識(shí)別等方向都有廣泛的應(yīng)用。傳統(tǒng)文本 字串匹配主要采用基于編輯距離的度量算法,即通過(guò)計(jì)算字符串對(duì)的各字符的編輯距離來(lái) 計(jì)算字符串對(duì)的相似度或匹配度。其中,對(duì)任意兩個(gè)字符串s、T,將S轉(zhuǎn)換成T所需要的刪 除,插入,替換操作叫做S到T的編輯路徑,而其中最短的編輯路徑就叫做字符串S和T的 編輯距離。
[0003] 顯然,這種基于字符編輯距離度量的算法從文本字串中字符異同來(lái)計(jì)算相似度, 并沒(méi)有考慮到字符本身音層面上的差別。比如,對(duì)文本字串"忘情水"和"忘清水",利用字 符編輯距離度量的方法去求二者的距離時(shí),會(huì)得出這兩個(gè)字符串有較大差距的結(jié)果。然而 這兩個(gè)字符串在發(fā)音上依然是一致的,具有較高的相似度。特別是當(dāng)目標(biāo)字符串是由語(yǔ)音 轉(zhuǎn)寫而來(lái)時(shí),目標(biāo)字符串與其主觀相似字符串在字符層面上有較大差別。
[0004] 另外,隨著互聯(lián)網(wǎng)技術(shù)和語(yǔ)音技術(shù)的快速發(fā)展,傳統(tǒng)基于字串匹配技術(shù)已經(jīng)不能 滿足應(yīng)用需求。特別是在互聯(lián)網(wǎng)環(huán)境下,用戶在輸入過(guò)程中常會(huì)有意無(wú)意的用模糊音代替 標(biāo)準(zhǔn)說(shuō)法,比如用"神馬"代替"什么",用"腫么"代替"怎么";此外當(dāng)用戶采用語(yǔ)音輸入 時(shí),由于語(yǔ)音識(shí)別性能的限制,輸入的文本結(jié)果中還會(huì)夾雜大量語(yǔ)音識(shí)別錯(cuò)誤,比如"in"和 "ing"的混用," z"和"zh"不分等。顯然,傳統(tǒng)基于字符編輯距離的字串匹配度衡量方法已 無(wú)法給出有效的匹配結(jié)果。

【發(fā)明內(nèi)容】

[0005] 為解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例提供一種文本字串匹配方法及系統(tǒng),能夠提 高文本字串匹配結(jié)果的有效性,滿足用戶不同應(yīng)用需求。
[0006] 技術(shù)方案如下:
[0007] -種文本字串匹配方法,包括:
[0008] 獲得由待匹配的第一文本字串和第二文本字串形成的第一歷史路徑累積矩陣;
[0009] 判斷所述第一歷史路徑累積矩陣中待匹配的第一字符與第二字符是否相同;其 中,所述第一字符為所述第一文本字串中的字符,所述第二字符為所述第二文本字串中的 字符;
[0010]當(dāng)所述第一字符與所述第二字符不同時(shí),獲取所述第一字符的第一音串序列和所 述第二字符的第二音串序列;
[0011] 計(jì)算所述第一音串序列與所述第二音串序列的音層面匹配代價(jià);
[0012] 根據(jù)所述音層面匹配代價(jià)更新所述第一歷史路徑累積矩陣;
[0013] 將所述第一文本字串中的另一字符作為所述第一字符,將所述第二文本字串中的 另一字符作為所述第二字符,重復(fù)執(zhí)行所述判斷所述第一歷史路徑累積矩陣中的第一字符 與第二字符是否相同的步驟,直至所述第一歷史路徑累積矩陣更新完成,獲得所述第一文 本字串和所述第二文本字串的最終匹配代價(jià)。
[0014] 優(yōu)選地,所述計(jì)算所述第一音串序列與所述第二音串序列的音層面匹配代價(jià),包 括:
[0015] 獲得由所述第一音串序列和所述第二音串序列形成的第二歷史路徑累積矩陣;
[0016] 依次獲得所述第二歷史路徑累積矩陣中待匹配音層面元素的累積歷史路徑得分, 并根據(jù)所述待匹配音層面元素的累積歷史路徑得分更新所述第二歷史路徑累積矩陣;
[0017] 將所述第二歷史路徑累積矩陣更新完成時(shí)所依據(jù)的累積歷史路徑得分作為所述 第一音串序列與所述第二音串序列的音層面匹配代價(jià)。
[0018] 優(yōu)選地,所述依次獲得所述第二歷史路徑累積矩陣中待匹配音層面元素的累積歷 史路徑得分,并根據(jù)所述待匹配音層面元素的累積歷史路徑得分更新所述第二歷史路徑累 積矩陣,包括 :
[0019] 獲得音層面元素匹配代價(jià)矩陣;
[0020] 依次查找所述音層面元素匹配代價(jià)矩陣獲得所述第二歷史路徑累積矩陣中待匹 配音層面元素的累積歷史路徑得分,并根據(jù)所述待匹配音層面元素的累積歷史路徑得分更 新所述第二歷史路徑累積矩陣。
[0021] 優(yōu)選地,所述獲得所述音層面元素匹配代價(jià)矩陣,包括:
[0022] 獲取訓(xùn)練語(yǔ)料的音串序列;
[0023] 對(duì)所述訓(xùn)練語(yǔ)料的音串序列進(jìn)行語(yǔ)料對(duì)齊;
[0024] 統(tǒng)計(jì)語(yǔ)料對(duì)齊后的所述訓(xùn)練語(yǔ)料的音串序列中一個(gè)音層面元素錯(cuò)為另一個(gè)音層 面元素的次數(shù);
[0025] 根據(jù)統(tǒng)計(jì)的所述一個(gè)音層面元素錯(cuò)為另一個(gè)音層面元素的次數(shù)生成音層面元素 匹配代價(jià)矩陣。
[0026] 優(yōu)選地,在根據(jù)統(tǒng)計(jì)的所述一個(gè)音層面元素錯(cuò)為另一個(gè)音層面元素的次數(shù)生成音 層面元素匹配代價(jià)矩陣之后,還包括:
[0027] 對(duì)所述音層面元素匹配代價(jià)矩陣進(jìn)行迭代優(yōu)化;
[0028] 當(dāng)?shù)鷥?yōu)化后的音層面元素匹配代價(jià)矩陣滿足收斂條件時(shí),將最后一次迭代生成 的音層面元素匹配代價(jià)矩陣作為最終的音層面元素匹配代價(jià)矩陣。
[0029] 優(yōu)選地,所述對(duì)所述音層面元素匹配代價(jià)矩陣進(jìn)行迭代優(yōu)化,包括:
[0030] 利用上一次迭代生成的音層面元素匹配代價(jià)矩陣對(duì)所述訓(xùn)練語(yǔ)料的音串序列進(jìn) 行語(yǔ)料對(duì)齊;
[0031] 統(tǒng)計(jì)語(yǔ)料對(duì)齊后的所述訓(xùn)練語(yǔ)料的音串序列中一個(gè)音層面元素錯(cuò)為另一個(gè)音層 面元素的次數(shù);
[0032] 根據(jù)統(tǒng)計(jì)的所述一個(gè)音層面元素錯(cuò)為另一個(gè)音層面元素的次數(shù)生成本次迭代的 音層面元素匹配代價(jià)矩陣。
[0033] 優(yōu)選地,所述收斂條件包括:
[0034] 相鄰兩次迭代生成的音層面元素匹配代價(jià)矩陣之間的差值小于差值閾值;或者,
[0035] 相鄰兩次迭代生成的音層面元素匹配代價(jià)矩陣之間滿足預(yù)設(shè)的收斂函數(shù);或者,
[0036] 迭代次數(shù)達(dá)到預(yù)設(shè)次數(shù)閾值。
[0037] -種文本字串匹配系統(tǒng),包括:
[0038] 矩陣生成單元,用于獲得由待匹配的第一文本字串和第二文本字串形成的第一歷 史路徑累積矩陣;
[0039] 判定單元,用于判斷所述第一歷史路徑累積矩陣中待匹配的第一字符與第二字符 是否相同;其中,所述第一字符為所述第一文本字串中的字符,所述第二字符為第二文本字 串中的字符;
[0040] 序列獲取單元,用于當(dāng)所述第一字符與所述第二字符不同時(shí),獲取所述第一字符 的第一音串序列和所述第二字符的第二音串序列;
[0041] 代價(jià)計(jì)算單元,用于計(jì)算所述第一音串序列與所述第二音串序列的音層面匹配代 價(jià);
[0042] 矩陣更新單元,用于根據(jù)所述音層面匹配代價(jià)更新所述第一歷史路徑累積矩陣;
[0043] 匹配代價(jià)確定單元,用于將所述第一文本字串中的另一字符作為所述第一字符, 將所述第二文本字串中的另一字符作為所述第二字符,然后發(fā)送至所述判斷單元重復(fù)執(zhí)行 所述判斷所述第一歷史路徑累積矩陣中的第一字符與第二字符是否相同的步驟,直至所述 第一歷史路徑累積矩陣更新完成,獲得所述第一文本字串和所述第二文本字串的最終匹配 代價(jià)。
[0044] 優(yōu)選地,所述代價(jià)計(jì)算單元包括:
[0045] 矩陣生成子單元,用于獲得由所述第一音串序列和所述第二音串序列形成的第二 歷史路徑累積矩陣;
[0046] 矩陣更新子單元,用于依次獲得所述第二歷史路徑累積矩陣中待匹配音層面元素 的累積歷史路徑得分,并根據(jù)所述待匹配音層面元素的累積歷史路徑得分更新所述第二歷 史路徑累積矩陣;
[0047] 代價(jià)確定子單元,用于將所述第二歷史路徑累積矩陣更新完成時(shí)所依據(jù)的累積歷 史路徑得分作為所述第一音串序列與所述第二音串序列的音層面匹配代價(jià)。
[0048] 優(yōu)選地,所述矩陣更新子單元包括:
[0049] 代價(jià)表生成子單元,用于獲得音層面元素匹配代價(jià)矩陣;
[0050] 查找更新子單元,用于依次查找所述音層面元素匹配代價(jià)矩陣獲得所述第二歷史 路徑累積矩陣中待匹配音層面元素的累積歷史路徑得分,并根據(jù)所述待匹配音層面元素的 累積歷史路徑得分更新所述第二歷史路徑累積矩陣。
[0051] 優(yōu)選地,所述代價(jià)表生成子單元包括:
[0052] 序列獲取子單元,用于獲取訓(xùn)練語(yǔ)料的音串序列;
[0053] 對(duì)齊子單元,用于對(duì)所述訓(xùn)練語(yǔ)料的音串序列進(jìn)行語(yǔ)料對(duì)齊;
[0054] 統(tǒng)計(jì)子單元,用于統(tǒng)計(jì)語(yǔ)料對(duì)齊后的所述訓(xùn)練語(yǔ)料的音串序列中一個(gè)音層面元素 錯(cuò)為另一個(gè)音層面元素的次數(shù);
[0055] 生成子單元,用于根據(jù)統(tǒng)計(jì)的所述一個(gè)音層面元素錯(cuò)為另一個(gè)音層面元素的次數(shù) 生成音層面元素匹配代價(jià)矩陣。
[0056] 優(yōu)選地,所述代價(jià)表生成子單元還包括:
[0057] 迭代優(yōu)化子單元,用于對(duì)所述音層面元素匹配代價(jià)矩陣進(jìn)行迭代優(yōu)化;
[0058] 代價(jià)表確定子單元,用于當(dāng)?shù)鷥?yōu)化后的音層面元素匹配代價(jià)矩陣滿足收斂條件 時(shí),將最后一次迭代生成的音層面元素匹配代價(jià)矩陣作為最終的音層面元素匹配代價(jià)矩 陣。
[0059]
當(dāng)前第1頁(yè)1 2 3 4 5 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1