多級數(shù)據(jù)存儲方法及裝置、多級數(shù)據(jù)結(jié)構(gòu)、信息檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)存儲技術(shù),特別涉及一種多級數(shù)據(jù)存儲方法及裝置、多級數(shù)據(jù)結(jié)構(gòu)、息檢索方法。
【背景技術(shù)】
[0002]知識庫,又稱為智能數(shù)據(jù)庫或人工智能數(shù)據(jù)庫。知識庫是知識工程中結(jié)構(gòu)化、易操作、易利用、全面有組織的知識集群,是針對某一(或某些)領(lǐng)域問題求解的需要,采用某種(或若干)知識表示方式在計(jì)算機(jī)存儲器中存儲、組織、管理和使用的互相聯(lián)系的知識片集合。這些知識片包括與領(lǐng)域相關(guān)的理論知識、事實(shí)數(shù)據(jù),由專家經(jīng)驗(yàn)得到的啟發(fā)式知識,如某領(lǐng)域內(nèi)有關(guān)的定義、定理和運(yùn)算法則以及常識性知識等。
[0003]隨著針對知識庫的搜索引擎的應(yīng)用,使得用戶通過搜索引擎在知識庫中準(zhǔn)確而快速地檢索到需要的信息。但是實(shí)際使用中,不同用戶提出問題的角度不同或針對同一問題的問法不同,使得搜索引擎搜到的信息有限或者噪音較大,為了提高檢索的效率和準(zhǔn)確性,與知識庫具有聯(lián)系的詞類庫得以建立,詞類庫將某些同一種類或同一性質(zhì)的詞進(jìn)行不同詞級的管理和應(yīng)用,進(jìn)行搜索時,搜索引擎中輸入的關(guān)鍵字與詞類庫中的詞類名稱進(jìn)行匹配,快速而準(zhǔn)確的判斷知識庫中是否存在相關(guān)信息。
[0004]但是現(xiàn)有技術(shù)建立的詞類庫的數(shù)據(jù)存儲結(jié)構(gòu)較為復(fù)雜,并且不能滿足搜索的需求,信息檢索的精度和效率有待提升。
【發(fā)明內(nèi)容】
[0005]本發(fā)明解決的冋題是怎樣提尚?目息檢索的精度和效率。
[0006]為解決上述問題,本發(fā)明提供一種多級數(shù)據(jù)存儲方法,采用單個數(shù)據(jù)分類結(jié)構(gòu)存儲相互關(guān)聯(lián)的多級數(shù)據(jù);所述方法包括:
[0007]分別生成各級數(shù)據(jù)的數(shù)據(jù)標(biāo)簽及分別記錄各數(shù)據(jù)標(biāo)簽對應(yīng)的關(guān)聯(lián)關(guān)系信息,并記錄底層數(shù)據(jù)標(biāo)簽的語義內(nèi)容,所述關(guān)聯(lián)關(guān)系信息用于保存該數(shù)據(jù)及其所對應(yīng)的上下級數(shù)據(jù)之間的關(guān)系;
[0008]判斷是否對各數(shù)據(jù)標(biāo)簽記錄語義內(nèi)容;
[0009]如果是,則對對應(yīng)的數(shù)據(jù)標(biāo)簽記錄語義內(nèi)容。
[0010]可選的,判斷是否對各數(shù)據(jù)標(biāo)簽記錄語義內(nèi)容的過程包括:判斷數(shù)據(jù)標(biāo)簽是否為底層數(shù)據(jù)標(biāo)簽,若該數(shù)據(jù)標(biāo)簽不是底層數(shù)據(jù)標(biāo)簽,則判斷該數(shù)據(jù)標(biāo)簽是否為單獨(dú)詞,若該數(shù)據(jù)標(biāo)簽為單獨(dú)詞,則進(jìn)行對該數(shù)據(jù)標(biāo)簽記錄語義內(nèi)容的步驟。
[0011]可選的,判斷數(shù)據(jù)標(biāo)簽是否為單獨(dú)詞的過程包括:提供字典,所述字典中存儲有若干單獨(dú)詞;將數(shù)據(jù)標(biāo)簽與字典進(jìn)行匹配,若匹配,則該數(shù)據(jù)標(biāo)簽為單獨(dú)詞。
[0012]可選的,所述多級數(shù)據(jù)存儲方法還包括:采用不同方式標(biāo)記記錄有語義內(nèi)容的數(shù)據(jù)標(biāo)簽以及未記錄有語義內(nèi)容的數(shù)據(jù)標(biāo)簽。
[0013]可選的,所述語義內(nèi)容與對應(yīng)的數(shù)據(jù)標(biāo)簽存儲的位置相同。
[0014]可選的,所述語義內(nèi)容為表達(dá)對應(yīng)的數(shù)據(jù)標(biāo)簽的語義的詞語集合。
[0015]可選的,所述多級數(shù)據(jù)存儲方法還包括:當(dāng)需要添加具有新的數(shù)據(jù)標(biāo)簽的數(shù)據(jù)時,在所述數(shù)據(jù)分類結(jié)構(gòu)中增加該數(shù)據(jù)的數(shù)據(jù)標(biāo)簽,并對需要記錄語義內(nèi)容的數(shù)據(jù)標(biāo)簽記錄語義內(nèi)容;更新所述數(shù)據(jù)對應(yīng)的上下級數(shù)據(jù)的關(guān)聯(lián)關(guān)系信息。
[0016]可選的,所述多級數(shù)據(jù)存儲方法還包括:當(dāng)需要刪除一數(shù)據(jù)標(biāo)簽下的所有數(shù)據(jù)時,在所述數(shù)據(jù)分類結(jié)構(gòu)中刪除該數(shù)據(jù)的數(shù)據(jù)標(biāo)簽、語義內(nèi)容及關(guān)聯(lián)關(guān)系信息;更新所述數(shù)據(jù)對應(yīng)的上下級數(shù)據(jù)的關(guān)聯(lián)關(guān)系信息。
[0017]本發(fā)明實(shí)施例還提供了一種由上述多級數(shù)據(jù)存儲方法形成詞類庫的方法,其中,所述數(shù)據(jù)標(biāo)簽是詞類標(biāo)簽;所述關(guān)聯(lián)關(guān)系信息中保存上下級詞類名稱之間的關(guān)系;語義內(nèi)容是表達(dá)所述詞類標(biāo)簽語義的詞語集合。
[0018]本發(fā)明實(shí)施例還提供了一種信息檢索方法,所述方法包括:
[0019]從接收到的服務(wù)請求中確定關(guān)鍵詞;
[0020]在所述數(shù)據(jù)分類結(jié)構(gòu)的語義內(nèi)容及關(guān)聯(lián)關(guān)系信息中檢索所述關(guān)鍵詞,以得到與所述關(guān)鍵詞對應(yīng)的標(biāo)準(zhǔn)問;
[0021 ] 在服務(wù)數(shù)據(jù)庫中查詢與所述標(biāo)準(zhǔn)問匹配的服務(wù)內(nèi)容。
[0022]本發(fā)明還提供了一種多級數(shù)據(jù)結(jié)構(gòu),包括:多級數(shù)據(jù)標(biāo)簽以及各數(shù)據(jù)標(biāo)簽對應(yīng)的關(guān)聯(lián)關(guān)系信息;至少部分?jǐn)?shù)據(jù)標(biāo)簽的語義內(nèi)容。
[0023]可選的,所述語義內(nèi)容與對應(yīng)的數(shù)據(jù)標(biāo)簽存在相同的位置。
[0024]可選的,具有語義內(nèi)容的數(shù)據(jù)標(biāo)簽位于底層或者為單獨(dú)詞。
[0025]本發(fā)明還提供了一種多級數(shù)據(jù)存儲裝置,包括:
[0026]數(shù)據(jù)標(biāo)簽生成單元,用于分別生成各級數(shù)據(jù)的數(shù)據(jù)標(biāo)簽;
[0027]關(guān)聯(lián)關(guān)系信息記錄單元,用于記錄各數(shù)據(jù)標(biāo)簽對應(yīng)的關(guān)聯(lián)關(guān)系信息,所述關(guān)聯(lián)關(guān)系信息用于保存該數(shù)據(jù)及其所對應(yīng)的上下級數(shù)據(jù)之間的關(guān)系;
[0028]判斷單元,用于判斷是否對各數(shù)據(jù)標(biāo)簽記錄語義內(nèi)容;
[0029]語義內(nèi)容記錄單元,用于對需要記錄語義內(nèi)容的數(shù)據(jù)標(biāo)簽記錄語義內(nèi)容。
[0030]可選的,所述判斷單元包括數(shù)據(jù)標(biāo)簽層級判斷單元和單獨(dú)詞判斷單元,所述數(shù)據(jù)標(biāo)簽層級判斷單元用于判斷數(shù)據(jù)標(biāo)簽是否為底層數(shù)據(jù)標(biāo)簽,所述單獨(dú)詞判斷單元用于在數(shù)據(jù)標(biāo)簽不是底層數(shù)據(jù)標(biāo)簽時,判斷該數(shù)據(jù)標(biāo)簽是否為單獨(dú)詞。
[0031]與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)方案具有以下優(yōu)點(diǎn):
[0032]本發(fā)明的多級數(shù)據(jù)存儲方法,采用單個數(shù)據(jù)分類結(jié)構(gòu)存儲相互關(guān)聯(lián)的多級數(shù)據(jù),在單個數(shù)據(jù)分類結(jié)構(gòu)不僅生成數(shù)據(jù)標(biāo)簽以及記錄數(shù)據(jù)的上下級關(guān)系關(guān)聯(lián)關(guān)系信息,并且本發(fā)明的存儲方法,除了對底層數(shù)據(jù)標(biāo)簽記錄語義內(nèi)容外,對底層數(shù)據(jù)標(biāo)簽之外的其他數(shù)據(jù)標(biāo)簽也可以記錄語義內(nèi)容,改變了相互關(guān)聯(lián)的多級數(shù)據(jù)的存儲結(jié)構(gòu),使得存儲結(jié)構(gòu)相對簡單,由于數(shù)據(jù)標(biāo)簽記錄了語義內(nèi)容提高信息檢索的精度和效率;對底層數(shù)據(jù)標(biāo)簽之外的數(shù)據(jù)標(biāo)簽記錄語義內(nèi)容進(jìn)行判斷,提升了數(shù)據(jù)存儲的選擇性。此外,由于相互關(guān)聯(lián)的所有數(shù)據(jù)信息都是記錄在了一個數(shù)據(jù)結(jié)構(gòu)中,此時的數(shù)據(jù)標(biāo)簽不會與其它的數(shù)據(jù)標(biāo)簽發(fā)生沖突,因此數(shù)據(jù)標(biāo)簽就具有了實(shí)際的語義。
[0033]進(jìn)一步,采用不同方式標(biāo)記記錄有語義內(nèi)容的數(shù)據(jù)標(biāo)簽以及未記錄有語義內(nèi)容的數(shù)據(jù)標(biāo)簽,在對多級數(shù)據(jù)進(jìn)行搜索時,可以根據(jù)標(biāo)記快速確定搜索范圍,提高搜索的準(zhǔn)確性。
[0034]本發(fā)明形成詞類庫的方法,除了對底層詞類標(biāo)簽記錄語義內(nèi)容外,對底層詞類標(biāo)簽之外的其他詞類標(biāo)簽也可以記錄語義內(nèi)容,提高信息檢索的精度和效率;對底層詞類標(biāo)簽之外的詞類標(biāo)簽記錄語義內(nèi)容進(jìn)行判斷,提升了數(shù)據(jù)存儲的選擇性。
[0035]本發(fā)明的多級數(shù)據(jù)結(jié)構(gòu),除了對底層數(shù)據(jù)標(biāo)簽記錄語義內(nèi)容外,對底層數(shù)據(jù)標(biāo)簽之外的其他數(shù)據(jù)標(biāo)簽也可以記錄語義內(nèi)容,提高信息檢索的精度和效率。
[0036]本發(fā)明的多級數(shù)據(jù)的存儲裝置,用于建立多級數(shù)據(jù),并可以對數(shù)據(jù)標(biāo)簽記錄語義內(nèi)容。
[0037]本發(fā)明的信息檢索方法,對采用上述多級數(shù)據(jù)存儲方法存儲的多級數(shù)據(jù)進(jìn)行檢索時,由于相關(guān)的多級數(shù)據(jù)都是放在一個多級數(shù)據(jù)結(jié)構(gòu)中,因此只需對該多級數(shù)據(jù)結(jié)構(gòu)進(jìn)行檢索即可,從而大大縮小了檢索數(shù)據(jù)結(jié)構(gòu)的數(shù)目,使得搜索過程更加簡單,最終提高了檢索的效率,提升了檢索的準(zhǔn)確度。
【附圖說明】
[0038]圖1為本發(fā)明一實(shí)施例多級數(shù)據(jù)存儲方法的流程示意圖;
[0039]圖2為本發(fā)明一實(shí)施例多級數(shù)據(jù)存儲方法形成的多級數(shù)據(jù)結(jié)構(gòu)的示意圖;
[0040]圖3為本發(fā)明一實(shí)施例采用多級數(shù)據(jù)存儲方法形成詞類庫的方法流程示意圖;
[0041]圖4為本發(fā)明一實(shí)施例詞類庫的結(jié)構(gòu)示意圖;
[0042]圖5為本發(fā)明一實(shí)施例多級數(shù)據(jù)存儲裝置的結(jié)構(gòu)示意圖;
[0043]圖6為本發(fā)明一實(shí)施例基于多級數(shù)據(jù)的信息檢索方法的流程示意圖。
【具體實(shí)施方式】
[0044]如【背景技術(shù)】所言,現(xiàn)有技術(shù)建立的詞類庫的數(shù)據(jù)存儲結(jié)構(gòu)較為復(fù)雜,且不能滿足搜索的需求(比如存在某些關(guān)鍵字檢索不到相關(guān)信息)。研究發(fā)現(xiàn),詞類庫的結(jié)構(gòu)為多級數(shù)據(jù)結(jié)構(gòu),如:包括父級詞類分類、位于父級詞類分類下的子級詞類分類、位于子級詞類分類下的孫級詞類分類。在一具體例子中,一詞類庫包括:父級詞類分類(/外企,表示數(shù)據(jù)標(biāo)簽),父級詞類分類(/外企)下包括兩個并列的子級詞類分類(/外獨(dú)資企業(yè))和(/中外合資企業(yè)),子級詞類分類(/外獨(dú)資企業(yè))下包括若干孫級詞類分類(/日企)、(/德企),孫級詞類分類就是底層數(shù)據(jù),孫級詞類分類(/日企)記錄對應(yīng)的語義內(nèi)容:日企、日資企業(yè),子級詞類名稱(/德企)記錄對應(yīng)的內(nèi)容:德企、德資企業(yè),子級詞類分類(/中外合資企業(yè))下包括若干孫級詞類分類(/中日合資)、(/中美合資),孫級詞類分類(/中日合資)記錄對應(yīng)的語義內(nèi)容:中日合資、中日合資企業(yè),孫級詞類分類(/中美合資)記錄對應(yīng)的語義內(nèi)容:中美合資、中美合資企業(yè),在詞類庫結(jié)構(gòu)中,孫級詞類名稱記錄的對應(yīng)內(nèi)容具有實(shí)際的語義,父級詞類分類、子級詞類分類、孫級詞類分類僅作為標(biāo)簽并不表示實(shí)際的語義,并且父級詞類分類、子級詞類分類和孫級詞類分類的名稱是不能重復(fù)的,在搜索引擎進(jìn)行搜索時,只能對詞類庫中具有實(shí)際語義的內(nèi)容進(jìn)行識別,而如果用戶如果采用“外企”、“外獨(dú)資企業(yè)”或“中外合