技術總結
本發(fā)明涉及一種基于文法模板的實體抽取方法。所述方法包括:定義帶上下文的文法模板,使得所述文法模板之間能夠相互引用并且支持正則表達式、普通字符、及其組合;將所述文法模板中定義的每個文法轉為文法樹,針對所述文法樹的結點的多個分支結點中的每一個進行匹配,找出其中消耗字符最多的一個分支結點作為最佳匹配;并且根據(jù)文法模板的匹配結果進行類別過濾,以抽取所需的實體。
技術研發(fā)人員:唐培忠
受保護的技術使用者:北京京東尚科信息技術有限公司;北京京東世紀貿(mào)易有限公司
文檔號碼:201510353435
技術研發(fā)日:2015.06.24
技術公布日:2017.01.11