技術(shù)總結(jié)
本發(fā)明公開了一種字符串的快速模糊匹配算法。本發(fā)明首先對數(shù)據(jù)庫中的文本進(jìn)行數(shù)據(jù)的預(yù)處理,從而獲得統(tǒng)計模型,并通過Hash建立索引。輸入文本是一個較短的字符串,本發(fā)明遍歷其中所有漢字,激活有限字符全集中對應(yīng)漢字的位置。將有限字符全集的激活狀態(tài)映射到每一個標(biāo)簽上,從而達(dá)到過濾標(biāo)簽的目的。對過濾出來的少量標(biāo)簽進(jìn)行與文本的匹配,用DTW算法進(jìn)行近似字符串匹配。根據(jù)匹配近似度結(jié)果進(jìn)行打分,并排序,返回搜索到的結(jié)果。本發(fā)明通過高效的標(biāo)簽過濾方法,大幅度地提升了字符串匹配算法的計算效率;同時在對輸入文本進(jìn)行匹配的過程中,達(dá)到模糊匹配的效果,對于模糊語言也具有很好的匹配性能。
技術(shù)研發(fā)人員:田學(xué)紅;朱曉明;于拾全
受保護(hù)的技術(shù)使用者:深圳凡豆信息科技有限公司
文檔號碼:201610848974
技術(shù)研發(fā)日:2016.09.23
技術(shù)公布日:2017.03.22