一種東巴文釋讀數(shù)據(jù)庫建立方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種文字釋讀數(shù)據(jù)庫建立方法,特別是關(guān)于一種東己文釋讀數(shù)據(jù)庫建 立方法。
【背景技術(shù)】
[0002] 納西族東己象形文被國際學(xué)界認(rèn)為是當(dāng)今世界上唯一還在使用的象形文字,至今 仍在被在世的東己祭司使用,用其主持各種儀式,寫信、記賬等。東己經(jīng)典的核屯、是崇尚自 然,追求人與自然和諧統(tǒng)一,多元文化和諧共處。東己經(jīng)典內(nèi)容設(shè)及哲學(xué)、歷史、宗教、醫(yī)學(xué)、 天文、地理、民俗、動(dòng)植物、軍事、文學(xué)和藝術(shù)等領(lǐng)域,堪稱納西族古代社會(huì)的百科全書。
[0003] 東己文字字少意繁,文字的形、音、義都極其復(fù)雜,往往一字多形、多音、多義,也有 異形同義的。書寫系統(tǒng)與一字一個(gè)音節(jié)不同,無法單從語音角度識(shí)別,其基本表達(dá)單位不局 限于語素一級(jí),有時(shí)包括音節(jié)、句子,還需要借助記憶。自古W來,東己經(jīng)典文化的傳承自古 W來都是W東己家族內(nèi)部口傳屯、授的形式進(jìn)行的,目前還能釋讀東己象形文字的人只是幾 位年逾古稀的老東己祭司。
[0004] 該象形文字具有獨(dú)特的圖形、發(fā)音及釋讀方式,東己象形文字釋讀的圖形數(shù)字化、 語音數(shù)字化及內(nèi)容數(shù)字化具有明顯的復(fù)雜性、不確定性,W及東己象形文在圖形識(shí)別、語音 辨識(shí)、內(nèi)容釋讀W及形、音、義信息及其共軌信息等方面,現(xiàn)有的英文、漢字等識(shí)別系統(tǒng)及翻 譯系統(tǒng)不能適用。我國研究人員及后繼人才稀少,保存機(jī)構(gòu)分散,保管條件惡劣,編研工作 受限,搶救手段落后,缺乏經(jīng)費(fèi)支持,搶救及保護(hù)已迫不容緩。
【發(fā)明內(nèi)容】
[0005] 針對(duì)上述問題,本發(fā)明的目的是提供一種東己文釋讀數(shù)據(jù)庫建立方法,其有效解 決了東己象形文字釋讀數(shù)字化的難題。
[0006] 為實(shí)現(xiàn)上述目的,本發(fā)明采取W下技術(shù)方案;一種東己文釋讀數(shù)據(jù)庫建立方法, 其特征在于,所述建立方法包括W下步驟;1)對(duì)現(xiàn)有東己文化資料進(jìn)行采集并建立圖形 模板庫、音頻模板庫和視頻模板庫;2)根據(jù)圖形模板庫、音頻模板庫和視頻模板庫建立釋 讀數(shù)據(jù)庫,釋讀數(shù)據(jù)庫包括詞意數(shù)據(jù)庫、句意數(shù)據(jù)庫和事件數(shù)據(jù)庫;詞意數(shù)據(jù)庫;提取現(xiàn) 有東己經(jīng)典中的東己象形文字作為標(biāo)準(zhǔn)字模,采用化icode對(duì)每個(gè)字符進(jìn)行編碼,并利用 TrueType方法建立東己象形文標(biāo)準(zhǔn)模板庫;將東己象形文標(biāo)準(zhǔn)模板庫中的文字已有釋讀 資料進(jìn)行整理錄入;句意數(shù)據(jù)庫包括句意編碼、東己語句、對(duì)應(yīng)漢語、語句含義、分類、圖形 代碼、音頻代碼和視頻代碼;事件數(shù)據(jù)庫包括事件名稱代碼、事件名稱、分類、事件內(nèi)容、圖 形代碼、音頻代碼和視頻代碼;其中內(nèi)容分類包括;哲學(xué)、歷史、宗教、醫(yī)學(xué)、天文、地理、民 俗、動(dòng)植物、軍事、文學(xué)和藝術(shù);3)將詞意數(shù)據(jù)庫、句意數(shù)據(jù)庫、事件數(shù)據(jù)庫進(jìn)行融合,融合 后與釋讀知識(shí)庫連接,釋讀知識(shí)庫根據(jù)規(guī)則對(duì)=種釋讀數(shù)據(jù)庫進(jìn)行釋讀內(nèi)容的組合,并利 用推理引擎促進(jìn)釋讀知識(shí)庫與=種釋讀數(shù)據(jù)庫的融合,完成釋讀數(shù)據(jù)庫的建立。
[0007] 所述步驟1)中,所述圖形模板庫是將通過數(shù)碼照相機(jī)和掃描儀采集的東己經(jīng)典 古籍資料圖片進(jìn)行圖像處理,保存為JPG格式文件;所述圖形模板庫內(nèi)包括唯一圖形代碼、 標(biāo)準(zhǔn)字形、異形字;其中所述圖形模板庫中的圖形內(nèi)容有東己文字、東己語句和東己事件。 [000引所述步驟1)中,所述音頻模板庫是采用音頻編輯軟件對(duì)通過錄音設(shè)備獲取的高 采樣頻率音頻資源進(jìn)行剪輯,保存為mp3格式文件,高采樣頻率為320化/s;所述音頻模版 庫內(nèi)包括唯一音頻代碼、音頻存儲(chǔ)路徑和納西音標(biāo);其中音頻模板庫中的音頻內(nèi)容包括東 己文字、東己語句和東己事件。
[0009] 所述步驟1)中,所述視頻模板庫是將采集到的東己經(jīng)典古籍資料的視頻資源進(jìn) 行剪輯,加載解說音頻、解說字幕或配樂,保存為wmv格式文件;所述視頻模版庫內(nèi)包括唯 一視頻代碼和視頻存儲(chǔ)路徑;其中所述視頻模板庫中的視頻內(nèi)容也包括東己文字、東己語 句和東己事件。
[0010] 所述步驟2)中,所述詞意數(shù)據(jù)庫的字段包括詞意編碼、圖形代碼、對(duì)應(yīng)漢字、分 類、對(duì)應(yīng)英文、翻譯員、中文釋義、音頻代碼、納西音標(biāo)和視頻代碼。
[0011] 所述步驟如中,所述規(guī)則如下:定義S為規(guī)則集,C= {C1、C2...化}為條 件屬性集,V= (Vcl,Vc2...Vcn)是條件屬性和決策屬性的值域,D是決策屬性集, (dl,d2,d3. . .dv)為決策值;規(guī)則為:如果輸入條件屬性C1為值域V中的某一值Vcl,那么 決策屬性D為對(duì)應(yīng)的決策值dl,即輸出滿足Vcl時(shí)相應(yīng)字段對(duì)應(yīng)的屬性;如果輸入兩個(gè)條 件屬性C2、C3,其中C2為值域V中的某一值Vc2,C3為值域V中的某一值Vc3,那么決策屬 性D為決策值d2,即輸出滿足Vc2、Vc3時(shí)相應(yīng)字段對(duì)應(yīng)的屬性。
[0012] 所述步驟3)中,所述推理引擎包括W下步驟;(1)匹配;當(dāng)前求解問題在釋讀數(shù)據(jù) 庫中的相關(guān)事實(shí)是否與釋讀知識(shí)庫中規(guī)則的條件部分相匹配,如果兩者匹配,則啟用該條 規(guī)則,進(jìn)入步驟(3)按規(guī)則的執(zhí)行操作部分去執(zhí)行;若同時(shí)存在多條規(guī)則的條件部分與求 解問題相關(guān)事實(shí)相匹配,則進(jìn)入步驟(2) ;(2)沖突消解;預(yù)先給所有規(guī)則的條件部分設(shè)定 優(yōu)先級(jí),當(dāng)存在多條規(guī)則的條件部分與求解問題相關(guān)事實(shí)相匹配時(shí),優(yōu)先啟用條件部分優(yōu) 先級(jí)較高的規(guī)則;(3)執(zhí)行操作;執(zhí)行啟用規(guī)則的操作部分,經(jīng)執(zhí)行操作后,得到新的事實(shí), 將所得新事實(shí)送入當(dāng)前釋讀數(shù)據(jù)庫。
[0013] 所述步驟3)中,所述詞意數(shù)據(jù)庫、句意數(shù)據(jù)庫和事件數(shù)據(jù)庫的融合方法包括W下 步驟;(1)根據(jù)詞意數(shù)據(jù)庫編碼唯一確定一個(gè)東己文字,根據(jù)東己文字的圖形代碼、音頻代 碼、視頻代碼,同步檢索出對(duì)應(yīng)東己文字的圖形、音頻及視頻,呈現(xiàn)出東己文字的內(nèi)容與含 義;(2)根據(jù)詞意數(shù)據(jù)庫中的對(duì)應(yīng)漢字W及所屬分類,模糊檢索句意數(shù)據(jù)庫,捜索出滿足同 一分類的東己語句,即根據(jù)單獨(dú)的東己文字匹配出東己語句,從而根據(jù)句意數(shù)據(jù)庫中圖形 代碼、音頻代碼、視頻代碼,檢索出對(duì)應(yīng)東己語句的圖形、音頻及視頻;(3)根據(jù)詞意數(shù)據(jù)庫 中的對(duì)應(yīng)漢字W及所屬分類,模糊檢索事件數(shù)據(jù)庫,捜索出滿足同一分類的東己事件名稱, 即根據(jù)單獨(dú)的東己文字匹配出東己事件,從而根據(jù)事件數(shù)據(jù)庫中圖形代碼、音頻代碼、視頻 代碼,檢索出對(duì)應(yīng)東己事件的圖形、音頻及視頻,從而實(shí)現(xiàn)詞意數(shù)據(jù)庫、句意數(shù)據(jù)庫、事件數(shù) 據(jù)庫的融合。
[0014] 本發(fā)明由于采取W上技術(shù)方案,其具有W下優(yōu)點(diǎn);1、由于東己象形文字具有明顯 的復(fù)雜性、隱涵性、模糊性、分散性、不確定性,建立東己文釋讀數(shù)據(jù)庫,該數(shù)據(jù)庫能夠提供 東己象形文特有的詞意、句意、事件等內(nèi)涵,為解決東己象形文圖形識(shí)別、語音辨識(shí)、內(nèi)容釋 讀W及形音義共軌等提供技術(shù)支撐條件。2、本發(fā)明建立的數(shù)據(jù)庫能夠?qū)崿F(xiàn)象形文字等復(fù)雜 圖形、音像w及圖形、音像并軌的海量信息的智能捜索與管理,有利于對(duì)東己象形文字模板 庫中的象形文字進(jìn)行識(shí)別,能夠?qū)崿F(xiàn)數(shù)據(jù)庫自動(dòng)維護(hù)更新;同時(shí)也能夠?qū)崿F(xiàn)上述詞意數(shù)據(jù) 庫、句意數(shù)據(jù)庫、事件數(shù)據(jù)庫的東己象形文釋讀內(nèi)容的組合與規(guī)則管理。3、本發(fā)明能夠?qū)崿F(xiàn) 多種環(huán)境、多種信息類型的自適應(yīng)信息歸類、存儲(chǔ)與檢索,并為東己經(jīng)典古籍的數(shù)據(jù)庫、知 識(shí)庫提供智能化運(yùn)行及管理的技術(shù)支撐;同時(shí)也能夠?qū)崿F(xiàn)上述知識(shí)庫的新規(guī)則的自適應(yīng)植 入、優(yōu)化及更新。本發(fā)明可W廣泛在文字釋讀領(lǐng)域中應(yīng)用。
【附圖說明】
[0015] 圖1是本發(fā)明的推理引擎流程示意圖。
【具體實(shí)施方式】
[0016] 下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)的描述。
[0017] 本發(fā)明提供一種東己文釋讀數(shù)據(jù)庫建立方法,其包括W下步驟:
[0018] 1)對(duì)現(xiàn)有東己文化資料進(jìn)行采集并建立圖形模板庫、音頻模板庫和視頻模板庫; 其中:
[0019] 圖形模板庫是將通過數(shù)碼照相機(jī)和掃描儀采集的東己經(jīng)典古籍資料圖片進(jìn)行圖 像處理,保存為JPG格式文件。圖形模板庫內(nèi)包括圖形代碼(唯一)、標(biāo)準(zhǔn)字形(JPG)、