專利名稱:信息智能檢索加工的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種信息智能檢索加工的系統(tǒng)和方法,尤其涉及一種文本、圖像、音頻、視頻的智能檢索加工的系統(tǒng)和方法。
背景技術(shù):
數(shù)據(jù)信息和文檔的有效檢索和加工,是數(shù)據(jù)庫(kù)應(yīng)用領(lǐng)域中的核心和重要內(nèi)容,廣泛存在于各種電子數(shù)據(jù)、文獻(xiàn)、商業(yè)數(shù)據(jù)庫(kù)資源和互聯(lián)網(wǎng)內(nèi)容搜索的應(yīng)用當(dāng)中。
目前這一領(lǐng)域中的數(shù)據(jù)信息檢索技術(shù),一般是基于關(guān)鍵詞的統(tǒng)計(jì)方法,用關(guān)鍵詞的布爾表達(dá)式作為查詢語(yǔ)句。對(duì)于文件數(shù)據(jù)庫(kù),使用關(guān)鍵詞加關(guān)鍵詞出現(xiàn)在文件中位置的字典,通過(guò)比較查詢語(yǔ)句的關(guān)鍵詞與文件數(shù)據(jù)庫(kù)字典中的關(guān)鍵詞,找到相應(yīng)文件。另外,有些改進(jìn)采用了模糊邏輯模型、向量空間模型和概率檢索模型等。
但是這些方式只能實(shí)現(xiàn)以整篇文檔為單位的檢索,而且對(duì)于檢索關(guān)鍵詞與整篇文檔之間的相似性程度,目前均處于努力提高和改善階段,尚無(wú)滿意的解決方案,導(dǎo)致無(wú)法實(shí)現(xiàn)信息檢索結(jié)果的精準(zhǔn)。如無(wú)法找到同義不同形的關(guān)鍵詞,或找到的是同形不同義的關(guān)鍵詞。對(duì)于整篇文檔內(nèi)部包含的各類數(shù)據(jù)和信息,這些方式無(wú)法進(jìn)行單獨(dú)識(shí)別、區(qū)分,并進(jìn)行基于知識(shí)屬性關(guān)系的加工和利用,更無(wú)法實(shí)現(xiàn)不同文檔內(nèi)容之間的交叉分析和比較,以及在不同文檔之間實(shí)現(xiàn)信息內(nèi)容的多次加工利用。
目前各種數(shù)據(jù)庫(kù)中的知識(shí)處理和檢索結(jié)果均以整篇文檔為最小單位,由于整篇文檔中所含的知識(shí)屬性非常豐富,所以這種方式在知識(shí)處理和檢索結(jié)果提供環(huán)節(jié)均存在問(wèn)題。
在知識(shí)處理環(huán)節(jié),目前操作都是通過(guò)主題詞標(biāo)引、個(gè)別關(guān)鍵詞標(biāo)注、文檔摘要方式對(duì)整篇文檔進(jìn)行屬性標(biāo)識(shí),并作為檢索過(guò)程中的檢索關(guān)鍵詞,這種方式遠(yuǎn)不能完全反映整篇文檔中的全部知識(shí)信息,最終結(jié)果表現(xiàn)為檢索結(jié)果中的文檔缺失。
在檢索結(jié)果提供環(huán)節(jié),整篇文檔中所攜帶的大量非相關(guān)信息會(huì)產(chǎn)生信息冗余和噪音,影響結(jié)果的精準(zhǔn),最終結(jié)果表現(xiàn)為檢索結(jié)果中的文檔泛濫、有效性降低。
發(fā)明內(nèi)容
為了解決上述存在的問(wèn)題,本發(fā)明提供一種新型的信息智能檢索加工系統(tǒng)和方法,可以解決數(shù)據(jù)信息和文檔中所包含的各類的檢索問(wèn)題,更可以滿足文檔中不同關(guān)鍵詞之間、不同文檔間的關(guān)鍵詞之間,進(jìn)行信息、知識(shí)的比較、分析、重新建立關(guān)系等信息數(shù)據(jù)的智能加工要求,能夠支持諸如“隱含指代”等較為復(fù)雜的搜索請(qǐng)求;同時(shí)通過(guò)系統(tǒng)支持的多格式位置表達(dá)技術(shù),包含文本、圖像、音頻、視頻等多種介質(zhì)格式在內(nèi)的內(nèi)容都可以得到檢索和加工。
本發(fā)明通過(guò)以下方案實(shí)現(xiàn)一種信息智能檢索加工的系統(tǒng),包括數(shù)據(jù)智能加工子系統(tǒng)、加工用數(shù)據(jù)庫(kù)、發(fā)布與管理模塊、檢索用數(shù)據(jù)庫(kù)、智能檢索服務(wù)子系統(tǒng),其中發(fā)布與管理模塊包括數(shù)據(jù)發(fā)布與同步模塊、數(shù)據(jù)開放管理模塊;
其中所述數(shù)據(jù)智能加工子系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行智能加工,將數(shù)據(jù)處理成深度拆解和標(biāo)引的單元內(nèi)容以及靈活準(zhǔn)確的智能索引信息,存入加工用數(shù)據(jù)庫(kù)中,加工用數(shù)據(jù)庫(kù)中還存儲(chǔ)著大量標(biāo)志信息以及為了加快加工而生成的中間結(jié)果;所述發(fā)布與管理模塊完成將經(jīng)過(guò)審批的內(nèi)容和索引信息與智能檢索服務(wù)子系統(tǒng)顯示的數(shù)據(jù)進(jìn)行同步;數(shù)據(jù)同步由數(shù)據(jù)發(fā)布與同步模塊執(zhí)行,將加工用數(shù)據(jù)庫(kù)的內(nèi)容同步到檢索用數(shù)據(jù)庫(kù),將檢索過(guò)程中的反饋信息從檢索用數(shù)據(jù)庫(kù)同步到加工用數(shù)據(jù)庫(kù)中;數(shù)據(jù)開放管理模塊負(fù)責(zé)對(duì)數(shù)據(jù)訪問(wèn)進(jìn)行權(quán)限設(shè)置;所述智能檢索服務(wù)子系統(tǒng)提供智能檢索服務(wù)平臺(tái),對(duì)來(lái)自用戶的搜索請(qǐng)求進(jìn)行統(tǒng)一處理,查詢檢索用數(shù)據(jù)庫(kù),智能檢索相關(guān)內(nèi)容。
一種信息智能檢索加工的方法,其步驟為1、輸入檢索條件;除了目前大多數(shù)的檢索服務(wù)系統(tǒng)提供的關(guān)鍵詞輸入和索引瀏覽兩種輸入方式之外,本系統(tǒng)中還可通過(guò)字根、筆順輸入法輸入U(xiǎn)nicode字庫(kù)中包含或未包含的大量偏稀漢字;2、對(duì)檢索條件進(jìn)行預(yù)處理,這其中包含了代碼轉(zhuǎn)換和索引復(fù)雜度評(píng)估;3、搜索請(qǐng)求細(xì)分為常規(guī)的簡(jiǎn)單直接搜索、高級(jí)組合搜索、分類瀏覽搜索、全文檢索以及智能邏輯搜索,前三種搜索方式將直接通過(guò)關(guān)系搜索引擎進(jìn)行搜索,全文檢索將通過(guò)全文檢索引擎進(jìn)行檢索,而智能邏輯搜索將會(huì)通過(guò)邏輯關(guān)系演算進(jìn)行查詢條件重組后再由關(guān)系搜索引擎進(jìn)行搜索;
4、通過(guò)關(guān)系搜索引擎或全文檢索引擎獲得搜索結(jié)果后,返回搜索結(jié)果。
本發(fā)明建立以深度拆解和標(biāo)引文本內(nèi)容以及建立高度靈活智能索引機(jī)制為基礎(chǔ)的多介質(zhì)檢索方法和索引系統(tǒng)。通過(guò)設(shè)計(jì)和實(shí)現(xiàn)三元關(guān)系模型以及對(duì)漢字字詞之間關(guān)系的多角度描述;建立了靈活高效的交叉索引體系;并且在這個(gè)交叉索引系統(tǒng)基礎(chǔ)上,實(shí)現(xiàn)了具有語(yǔ)義分析功能的智能檢索技術(shù);同時(shí)通過(guò)對(duì)內(nèi)容標(biāo)引方法的規(guī)范化,使得字詞和內(nèi)容的關(guān)聯(lián)比對(duì)更加智能化,能夠支持諸如“隱含指代”等較為復(fù)雜的搜索請(qǐng)求;同時(shí)通過(guò)智能系統(tǒng)支持的多格式位置表達(dá)技術(shù),包含文字以及圖像、表格、音頻、視頻等多種介質(zhì)格式在內(nèi)的內(nèi)容都可以得到檢索。
本發(fā)明具有如下顯著優(yōu)點(diǎn)1、能夠?qū)崿F(xiàn)信息內(nèi)容檢索的精準(zhǔn)化,真正符合檢索意愿,最大限度減少檢索結(jié)果的冗余。
2、能夠滿足檢索過(guò)程中的使用者隨機(jī)需求。
3、能夠通過(guò)系統(tǒng)豐富的知識(shí)背景和準(zhǔn)確的知識(shí)發(fā)散路徑,提供基于知識(shí)而非信息的檢索結(jié)果。
4、能夠?qū)崿F(xiàn)任意知識(shí)源間基于知識(shí)元層次的全新的信息內(nèi)容組合和知識(shí)組合,實(shí)現(xiàn)任意信息內(nèi)容基于人、事、時(shí)、地、物等人類基本生產(chǎn)、生活、活動(dòng)通用屬性之間的交叉比對(duì),實(shí)現(xiàn)對(duì)文本、圖像、音頻、視頻等多種介質(zhì)格式在內(nèi)的內(nèi)容進(jìn)行二次加工,可自動(dòng)生成二次、三次或多次文獻(xiàn)。
5、能夠?qū)崿F(xiàn)對(duì)海量知識(shí)的活化和二次加工,實(shí)現(xiàn)信息向知識(shí)的快速有序轉(zhuǎn)化。
6、涵蓋人類生產(chǎn)、生活、活動(dòng)中的各方面及不同的知識(shí)點(diǎn),解決了海量信息檢索中最佳知識(shí)路徑問(wèn)題,體現(xiàn)出較好的完備性。
7、完全對(duì)應(yīng)于人類對(duì)知識(shí)的主觀需求,具有很好的通用性和適用性,可正向、逆向進(jìn)行檢索,便于查詢與記憶,操作方便,不需培訓(xùn)。
圖1是本發(fā)明的索引三元關(guān)系模型的典型情況;圖2是本發(fā)明的實(shí)施例中人物索引關(guān)鍵詞之間的關(guān)系;圖3是本發(fā)明的實(shí)施例中關(guān)系關(guān)鍵詞之間的關(guān)系;圖4是本發(fā)明的實(shí)施例中“逆關(guān)系”的推演路徑;圖5是本發(fā)明的實(shí)施例中“二次傳遞”的推演路徑;圖6是本發(fā)明的實(shí)施例中“相同主詞”的推演路徑;圖7是本發(fā)明的實(shí)施例中“對(duì)稱”的推演路徑;圖8是本發(fā)明的系統(tǒng)框圖;圖9是本發(fā)明的流程圖。
具體實(shí)施例方式
下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行更詳細(xì)的描述。
本發(fā)明的出發(fā)點(diǎn)是拆解被搜索或處理的信息內(nèi)容的內(nèi)在含義和結(jié)構(gòu),在此基礎(chǔ)上構(gòu)建搜索和加工體系。因此,本發(fā)明將完全不受文本比對(duì)的限制,能夠一方面做到含義的精確,即不包含無(wú)關(guān)或僅僅是字面相同的信息;一方面做到信息的完備,即能夠包含字面不同但含義相同或具有用戶指定關(guān)聯(lián)特征的信息。
另一方面,本發(fā)明建立了高度靈活的智能索引機(jī)制,并在此基礎(chǔ)上一方面充分保證各種分類信息的科學(xué)性,另一方面具備符合人們各種習(xí)慣和約定的易用性。
本發(fā)明并不排斥現(xiàn)有的搜索引擎和搜索服務(wù)系統(tǒng),相反地,本發(fā)明可以和現(xiàn)有搜索引擎和搜索服務(wù)系統(tǒng)很好的集成,在不同的搜索需求下發(fā)揮相應(yīng)的功能,并組合出更強(qiáng)大的搜索服務(wù)能力。
本發(fā)明中,準(zhǔn)確的內(nèi)容檢索的實(shí)現(xiàn),是對(duì)以“知識(shí)”形式出現(xiàn)的檢索結(jié)果進(jìn)行拆解。這種拆解包括兩個(gè)層次,一是對(duì)檢索結(jié)果本身進(jìn)行拆分,形成了以完整、獨(dú)立含義為特征的“知識(shí)單元”或“知識(shí)片”;二是對(duì)內(nèi)容中包含的關(guān)鍵詞進(jìn)行了提取,增加關(guān)鍵詞的含義相關(guān)度信息及加強(qiáng)了具有“隱含指代”等關(guān)系的有效關(guān)鍵詞,豐富了主要信息的知識(shí)屬性。去除了相關(guān)度不大的無(wú)效關(guān)鍵詞,以此減少所有數(shù)據(jù)源中相對(duì)檢索來(lái)說(shuō)次要的信息對(duì)主要的信息的干擾。
本發(fā)明的智能檢索方式,結(jié)合了按索引分類瀏覽和按文本關(guān)鍵詞匹配兩種常用的檢索方式。和常用的搜索引擎不同的是,本發(fā)明中按索引分類瀏覽除了能按照常見的學(xué)科、習(xí)慣等分類方法按照成員隸屬關(guān)系逐級(jí)細(xì)分以外,還提供了基于等價(jià)別名關(guān)系和背景參考關(guān)系兩種橫向拓展的檢索途徑。和常見系統(tǒng)中的相關(guān)鏈接跳轉(zhuǎn)不同,這種橫向檢索途徑依舊是按照索引分類進(jìn)行的,具有明確的指向性。和常用的搜索引擎不同的另一方面在于,本發(fā)明中按文本關(guān)鍵詞匹配進(jìn)行檢索可能會(huì)檢索到同名不同義的關(guān)鍵詞,這是檢索用戶可以通過(guò)系統(tǒng)提示,清楚地了解同名不同義的關(guān)鍵詞的相關(guān)信息,直接進(jìn)行快捷的二次檢索,定位自己所需要的結(jié)果集。
本發(fā)明提出按照自然語(yǔ)義,以表達(dá)完整自然語(yǔ)義的最小單元作為知識(shí)單元的劃分標(biāo)準(zhǔn),這既可以在知識(shí)處理時(shí)窮盡每一個(gè)知識(shí)單元的屬性,又可以在檢索結(jié)果呈現(xiàn)時(shí)反應(yīng)精準(zhǔn),減少信息噪音。
本發(fā)明的信息智能檢索加工系統(tǒng)是完全依照人性自然需求本能的思維邏輯進(jìn)行分類的系統(tǒng)。本發(fā)明根據(jù)人類檢索和使用知識(shí)的思維方式,將信息數(shù)據(jù)分為12大類,即人物、事件、時(shí)間、地點(diǎn)、物品、生物、衣物、食物、住物、行物、育物、樂(lè)物(簡(jiǎn)稱人、事、時(shí)、地、物、生、衣、食、住、行、育、樂(lè)),每個(gè)大類再細(xì)分為若干子類,如人物的子類有人之姓名、人之性別、人之籍貫等等;每個(gè)子類又有若干子類,如人之姓名又分為姓趙、姓張、姓李等等。這樣形成樹狀多層次結(jié)構(gòu),作為索引結(jié)構(gòu)30層就足以表達(dá)各種細(xì)分?jǐn)?shù)據(jù)。每個(gè)大類和其子類的索引都用相應(yīng)代碼表示,在此基礎(chǔ)上再進(jìn)行索引的二次加工,窮盡索引結(jié)構(gòu)的背景信息進(jìn)行標(biāo)引,重新排序和聚類,形成高度靈活、準(zhǔn)確、多維指向、互有交叉的智能化索引。
將各種信息數(shù)據(jù),包括各種文獻(xiàn)、電子數(shù)據(jù),按照其內(nèi)容長(zhǎng)度或容量劃分為若干知識(shí)單元,文本知識(shí)單元容量為600個(gè)字符以內(nèi),對(duì)該知識(shí)單元編號(hào)。然后,對(duì)每個(gè)知識(shí)單元的內(nèi)容進(jìn)行分析、拆解,把各關(guān)鍵詞按照上述分類方法,編號(hào)后對(duì)應(yīng)到上述關(guān)系樹的子類上。
本發(fā)明的分類方法與過(guò)去傳統(tǒng)的專業(yè)分類邏輯有本質(zhì)上的區(qū)別,完全打破傳統(tǒng)的分類概念。目前其他各種專業(yè)的分類方法,主要基于符合專業(yè)的結(jié)構(gòu)層次,并非首要考慮滿足人的自然知識(shí)需求,通用性程度不高。對(duì)于用戶基于自然知識(shí)需求的檢索要求,實(shí)現(xiàn)過(guò)程中轉(zhuǎn)換的復(fù)雜程度較高,并不適用。
本發(fā)明的另一大特點(diǎn)是可以包含其他各種專業(yè)分類法,由于本發(fā)明的分類方法著眼于符合人類基本知識(shí)需求,其分類角度的普適性使其可以涵蓋和包容其他各種基于專業(yè)的分類方法,這樣就可以將各種不同的分類方法進(jìn)行統(tǒng)一和整合,為知識(shí)處理和使用的整合創(chuàng)造技術(shù)條件。
本發(fā)明中,構(gòu)建高度靈活智能索引機(jī)制的實(shí)現(xiàn),是建立了一種自包含、自組織的三元關(guān)系模型。各種常見語(yǔ)言都具有主要語(yǔ)法結(jié)構(gòu)(主語(yǔ)、謂語(yǔ)、賓語(yǔ)),本發(fā)明對(duì)這種三元關(guān)系進(jìn)行了模擬,實(shí)現(xiàn)了基于三元關(guān)系模型的數(shù)據(jù)表達(dá)、存儲(chǔ)和檢索。
如圖1所示,本發(fā)明的三元關(guān)系模型采用三元組Ka,Kr,Kb形式,其中Ka代表關(guān)鍵詞a,Kb代表關(guān)鍵詞b,Kr代表關(guān)鍵詞a和關(guān)鍵詞b之間的關(guān)系。該三元組形式表示和實(shí)現(xiàn)關(guān)鍵詞之間的三種類型的關(guān)聯(lián)關(guān)系,包括成員隸屬關(guān)系、等價(jià)別名關(guān)系以及背景參考關(guān)系。
每種類型中可以不斷細(xì)分,同時(shí)各種關(guān)系之間仍能實(shí)現(xiàn)三種類型的關(guān)聯(lián)。在這種三元關(guān)系模型的基礎(chǔ)上進(jìn)行演算,可以進(jìn)行包含邏輯含義的檢索,有別于單純進(jìn)行關(guān)鍵詞組合的查詢方式。
Krr代表關(guān)系關(guān)鍵詞之間的關(guān)系,如逆關(guān)系、二次傳遞、相同主詞、對(duì)稱等,Kr′代表Kr根據(jù)Krr推導(dǎo)出的關(guān)系,由此Ka′關(guān)鍵詞和Kb′關(guān)鍵詞具有了新的關(guān)系Kr′。
圖2為人物索引關(guān)鍵詞之間的關(guān)系的一個(gè)例子如果系統(tǒng)中的人物關(guān)鍵詞包含了以下三個(gè)三元組(張老三,兒子,張三)(張三,兒子,張小三)(張三,兒子,張小四)。
同時(shí),圖3所示,系統(tǒng)中定義了以下針對(duì)關(guān)系關(guān)鍵詞的三元組(兒子,逆關(guān)系,父親)(兒子,二次傳遞,孫子)(兒子,相同主詞,兄弟)(兄弟,對(duì)稱,兄弟)。
那么系統(tǒng)可以在不增加其它信息的情況下,自動(dòng)推演出以下結(jié)論如圖4所示,根據(jù)“逆關(guān)系”可以推演出(張三,父親,張老三)(張小三,父親,張三)(張小四,父親,張三)。
如圖5所示,根據(jù)“二次傳遞”關(guān)系可以推演出(張老三,孫子,張小三)(張老三,孫子,張小四)。
如圖6、圖7所示,根據(jù)“相同主詞”關(guān)系可以推演出(張小三,兄弟,張小四)并在此基礎(chǔ)上根據(jù)“對(duì)稱”關(guān)系推演出(張小四,兄弟,張小三)。
注意推演的先后次序根據(jù)實(shí)際情況可能不同。
以上結(jié)果只是應(yīng)用一次關(guān)系關(guān)鍵詞三元組的結(jié)論,如果多次、組合應(yīng)用,可以產(chǎn)生出更多的邏輯結(jié)果。
和目前已有檢索系統(tǒng)相比,上述推演具有以下特點(diǎn)1、基礎(chǔ)數(shù)據(jù)量大幅度減少上例中,基礎(chǔ)數(shù)據(jù)僅有3個(gè)人物三元組和4個(gè)關(guān)系三元組,而目前已有檢索系統(tǒng)為了滿足不同的檢索要求,需要完備的基礎(chǔ)數(shù)據(jù),上例中所有推演的結(jié)論都需要作為基礎(chǔ)數(shù)據(jù)進(jìn)入系統(tǒng)。
2、可檢索數(shù)據(jù)的大幅度增加從上例的推演可以看出,用戶可以檢索的數(shù)據(jù),不再是僅僅依賴于基礎(chǔ)數(shù)據(jù)量,同時(shí)也和關(guān)系三元組的數(shù)量相關(guān)。由于關(guān)系三元組具有很強(qiáng)的通用性,因此,當(dāng)增加一個(gè)關(guān)系三元組,帶來(lái)的可檢索數(shù)據(jù)的增加將會(huì)是成倍甚至是幾何級(jí)數(shù)的。
3、數(shù)據(jù)關(guān)系一致性更強(qiáng)由于大量結(jié)論是系統(tǒng)經(jīng)過(guò)邏輯推演得到的,因此具有嚴(yán)密的邏輯性。而目前已有檢索系統(tǒng)由于基礎(chǔ)數(shù)據(jù)都是獨(dú)立進(jìn)入數(shù)據(jù)庫(kù)的,因此可能會(huì)有同時(shí)出現(xiàn)(張老三,兒子,張三)(張三,兄弟,張老三)的情況,數(shù)據(jù)一致性得不到保障。
4、關(guān)系的擴(kuò)展性從上例的推演可以看出,只要是符合邏輯的關(guān)系三元組就可以在系統(tǒng)中進(jìn)行定義,從這個(gè)意義上說(shuō),一方面根據(jù)生活經(jīng)驗(yàn)以及現(xiàn)有的科技發(fā)展?fàn)顩r總結(jié)出來(lái)的關(guān)系可以通過(guò)這個(gè)系統(tǒng)實(shí)現(xiàn),同時(shí)隨著社會(huì)、科技的不斷進(jìn)步,新的關(guān)系將不斷出現(xiàn),而這些新的關(guān)系同樣也可以在系統(tǒng)中實(shí)現(xiàn);并且對(duì)于了新定義的關(guān)系三元組,所有以前的數(shù)據(jù)將馬上得到相應(yīng)的組織以備查詢。
本發(fā)明采用了知識(shí)單元標(biāo)引方法,類似關(guān)鍵詞的三元模型,知識(shí)單元的標(biāo)引采用(C,R,K)組和(Ca,R,Cb)三元組進(jìn)行表示和實(shí)現(xiàn),其中C表示知識(shí)單元的內(nèi)容,K表示關(guān)鍵詞,R代表知識(shí)單元和關(guān)鍵詞之間的關(guān)系;Ca代表知識(shí)單元a的內(nèi)容,Cb代表知識(shí)單元b的內(nèi)容,R代表知識(shí)單元a和知識(shí)單元b之間的關(guān)系。該方法記錄知識(shí)單元中關(guān)鍵詞的位置、長(zhǎng)度、相關(guān)度等以及知識(shí)單元之間的相互引用等關(guān)聯(lián)知識(shí)。通過(guò)這種標(biāo)引,一方面知識(shí)單元能夠以結(jié)構(gòu)化的方式呈現(xiàn),滿足用戶對(duì)關(guān)聯(lián)信息的需要,同時(shí)另一方面,也可以按照知識(shí)來(lái)源的最初模式進(jìn)行呈現(xiàn)。
另外,通過(guò)(C,R,K)三元組,標(biāo)引方法很好的解決了知識(shí)單元中的“指代”關(guān)系,例如,對(duì)于一個(gè)知識(shí)單元中出現(xiàn)的代詞“他”,通過(guò)在三元組中確定實(shí)際的指代目標(biāo),系統(tǒng)就可以向用戶提供針對(duì)指代目標(biāo)的檢索,而不僅限于文字上的相同或近似。
圖8說(shuō)明了本發(fā)明中信息智能檢索加工系統(tǒng)的整體結(jié)構(gòu)。本系統(tǒng)包括數(shù)據(jù)智能加工子系統(tǒng)1、加工用數(shù)據(jù)庫(kù)2、發(fā)布與管理模塊3、檢索用數(shù)據(jù)庫(kù)6、智能檢索服務(wù)子系統(tǒng)7,其中發(fā)布與管理模塊3包括數(shù)據(jù)發(fā)布與同步模塊4、數(shù)據(jù)開放管理模塊5。
數(shù)據(jù)加工由數(shù)據(jù)智能加工子系統(tǒng)1完成。數(shù)據(jù)將在這里從不同介質(zhì)的各種來(lái)源經(jīng)處理后成為經(jīng)深度拆解和標(biāo)引的文本或其他介質(zhì)格式內(nèi)容以及靈活準(zhǔn)確的智能索引信息。這個(gè)階段主要對(duì)加工用數(shù)據(jù)庫(kù)2進(jìn)行操作,除了最終用于檢索的各項(xiàng)信息外,加工用數(shù)據(jù)庫(kù)2中還存儲(chǔ)著大量標(biāo)志信息以及為了加快加工而生成的中間結(jié)果。
在數(shù)據(jù)加工階段,整個(gè)處理過(guò)程被分為三個(gè)步驟(1)首先,基礎(chǔ)數(shù)據(jù)加工,這是針對(duì)文本內(nèi)容正確性的加工步驟。在這一步中系統(tǒng)將對(duì)進(jìn)入數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行校對(duì),校對(duì)的內(nèi)容包括文字、目錄和段落層次、注釋的引用等。本發(fā)明還能夠支持標(biāo)準(zhǔn)Unicode字庫(kù)中包含或未包含的大量偏稀漢字,即所謂異體字或圖像字的查詢和顯示,這是通過(guò)對(duì)異體字或圖像字進(jìn)行編號(hào)實(shí)現(xiàn)。
(2)其次,在基礎(chǔ)數(shù)據(jù)的正確性得到保證的前提下,進(jìn)行知識(shí)單元智能加工。在這一步驟中,系統(tǒng)將對(duì)原來(lái)以自然段為基礎(chǔ)單元的數(shù)據(jù)進(jìn)行拆解,形成具有獨(dú)立完整含義的“知識(shí)單元”。同時(shí)在這個(gè)步驟中,系統(tǒng)還將建立起“知識(shí)單元”和索引關(guān)鍵詞之間的關(guān)聯(lián)關(guān)系。
(3)數(shù)據(jù)加工的第三個(gè)步驟為智能索引加工,和上一個(gè)步驟知識(shí)單元智能加工在實(shí)際操作中是并行進(jìn)行的,智能索引加工需要對(duì)來(lái)自知識(shí)單元智能加工中提取的關(guān)鍵詞進(jìn)行索引化處理,再將經(jīng)索引化處理過(guò)的結(jié)果進(jìn)行二次加工,編制出靈活準(zhǔn)確、多維指向、互為交叉的智能化索引。
(4)智能化索引反作用于知識(shí)單元過(guò)程,可根據(jù)使用者的隨機(jī)需求形成新的分類、排序與聚類,生成二次、三次或多次文獻(xiàn)、表單、圖像、音頻、視頻。
數(shù)據(jù)智能加工子系統(tǒng)1還包括工序管理和控制模塊,對(duì)這些步驟中的中間結(jié)果、數(shù)據(jù)狀態(tài)進(jìn)行管理。這個(gè)模塊本身不對(duì)數(shù)據(jù)產(chǎn)生直接的影響,而是對(duì)數(shù)據(jù)的流向進(jìn)行監(jiān)控和管理。
發(fā)布與管理模塊3承擔(dān)發(fā)布與管理的任務(wù)。該模塊主要完成將后臺(tái)經(jīng)過(guò)審批的內(nèi)容與索引信息和前臺(tái)數(shù)據(jù)進(jìn)行同步。實(shí)現(xiàn)過(guò)程是雙向的,主要的數(shù)據(jù)流是從加工用數(shù)據(jù)庫(kù)2流向檢索用數(shù)據(jù)庫(kù)6,但與此同時(shí),一些檢索過(guò)程中的反饋信息也將從檢索用數(shù)據(jù)庫(kù)6同步到加工用數(shù)據(jù)庫(kù)7中,這些數(shù)據(jù)同步的過(guò)程將由數(shù)據(jù)發(fā)布與同步模塊4執(zhí)行。發(fā)布與管理模塊3還有一個(gè)重要的任務(wù),就是對(duì)數(shù)據(jù)訪問(wèn)進(jìn)行權(quán)限設(shè)置,由數(shù)據(jù)開放管理模塊5承擔(dān)的功能。
由網(wǎng)絡(luò)用戶發(fā)起的檢索操作,由智能檢索服務(wù)子系統(tǒng)7完成。用戶發(fā)起的檢索請(qǐng)求,包括橫向的通用檢索以及縱向的專用檢索(通用檢索請(qǐng)求指使用常用的關(guān)鍵詞或關(guān)鍵詞的組合的檢索請(qǐng)求,而專用檢索請(qǐng)求指通過(guò)本系統(tǒng)提供的分類法的檢索請(qǐng)求),將被轉(zhuǎn)換為相應(yīng)的內(nèi)部檢索請(qǐng)求,對(duì)內(nèi)容和索引信息進(jìn)行智能檢索。另外,在這個(gè)階段,系統(tǒng)還提供公共的訪問(wèn)接口,為一些專業(yè)檢索請(qǐng)求服務(wù),如其它網(wǎng)站可以通過(guò)鏈接到本系統(tǒng)提供專業(yè)檢索服務(wù)。
本系統(tǒng)提供了一個(gè)公共的智能檢索平臺(tái)——智能搜索服務(wù)平臺(tái),對(duì)來(lái)自不同用戶的各種搜索請(qǐng)求進(jìn)行統(tǒng)一處理。在此基礎(chǔ)上,系統(tǒng)自身提供了以獲取豐富關(guān)聯(lián)內(nèi)容為目的的橫向的網(wǎng)站通用檢索服務(wù)8功能和以獲取深層次知識(shí)為目的的縱向的網(wǎng)站專用檢索服務(wù)9。另外,前面提到的公共的訪問(wèn)接口,是以專業(yè)檢索服務(wù)10的形式提供的。
圖9說(shuō)明了使用本發(fā)明的信息智能檢索加工的方法,對(duì)于用戶11的檢索請(qǐng)求,本發(fā)明是如何進(jìn)行處理的。圖中的方框表示了各種處理操作,圓柱圖表示了包含索引數(shù)據(jù)61和內(nèi)容數(shù)據(jù)62的檢索用數(shù)據(jù)庫(kù)6。圖中的實(shí)線箭頭表示了操作的流程,而虛線箭頭則代表主要的數(shù)據(jù)流向。
在實(shí)際的操作中,用戶11主要通過(guò)系統(tǒng)提供的網(wǎng)站或者通過(guò)開放接口接入本系統(tǒng)的其它系統(tǒng)的用戶界面輸入檢索條件12。除了提供的關(guān)鍵詞輸入和索引瀏覽兩種輸入方式之外,本系統(tǒng)中還提供了使用拼音或筆順的輸入方式來(lái)輸入U(xiǎn)nicode字庫(kù)中包含或未包含的大量偏稀漢字。
在系統(tǒng)獲得了用戶的檢索請(qǐng)求后,本系統(tǒng)將對(duì)檢索條件進(jìn)行預(yù)處理13。這其中既包含了常用的代碼轉(zhuǎn)換14技術(shù),同時(shí)也包含了索引復(fù)雜度評(píng)估15技術(shù)。在經(jīng)過(guò)了預(yù)處理?xiàng)l件13后,搜索請(qǐng)求會(huì)被細(xì)分為常規(guī)的簡(jiǎn)單直接搜索16、高級(jí)組合搜索17、分類瀏覽搜索18、全文檢索19以及智能邏輯搜索20,前三種常規(guī)搜索方式將直接通過(guò)關(guān)系搜索引擎22進(jìn)行搜索,全文檢索19將直接通過(guò)全文檢索引擎23進(jìn)行檢索,而智能邏輯搜索20將會(huì)通過(guò)邏輯關(guān)系演算進(jìn)行查詢條件重組后再由關(guān)系搜索引擎22進(jìn)行搜索,該邏輯關(guān)系演算是基于上述三元關(guān)系模型、分類索引庫(kù)和知識(shí)單元標(biāo)引的方法。在最終通過(guò)關(guān)系搜索引擎22和全文檢索引擎23獲得搜索結(jié)果后,系統(tǒng)會(huì)使用能充分體現(xiàn)搜索條件和搜索結(jié)果的內(nèi)在邏輯聯(lián)系的界面返回搜索結(jié)果24。
本發(fā)明涉及的系統(tǒng)和方法,可以應(yīng)用于計(jì)算機(jī)單機(jī)、局域網(wǎng)絡(luò)、企業(yè)內(nèi)部網(wǎng)絡(luò)(Intranet)、互聯(lián)網(wǎng)(Internet)等多種環(huán)境下,系統(tǒng)使用者可以擴(kuò)展為有信息內(nèi)容檢索需求的任意人群。
本發(fā)明能夠?qū)崿F(xiàn)信息內(nèi)容的智能化檢索和加工,真正符合檢索意愿,最大限度減少檢索結(jié)果的冗余,實(shí)現(xiàn)任意知識(shí)源間基于知識(shí)元層次的全新的信息內(nèi)容和知識(shí)的智能化組合,實(shí)現(xiàn)任意信息內(nèi)容基于人、事、時(shí)、地、物等人類基本生產(chǎn)、生活、活動(dòng)通用屬性之間的智能化分類、排序、聚類過(guò)程。
本發(fā)明的特定實(shí)施例已對(duì)發(fā)明內(nèi)容做了詳盡說(shuō)明。對(duì)本領(lǐng)域一般技術(shù)人員而言,在不背離本發(fā)明原理的前提下對(duì)它所做的任何顯而易見的改動(dòng),都構(gòu)成對(duì)本發(fā)明專利的侵犯,將承擔(dān)相應(yīng)的法律責(zé)任。
權(quán)利要求
1.一種信息智能檢索加工的系統(tǒng),其特征包括數(shù)據(jù)智能加工子系統(tǒng)、加工用數(shù)據(jù)庫(kù)、發(fā)布與管理模塊、檢索用數(shù)據(jù)庫(kù)、智能檢索服務(wù)子系統(tǒng),其中發(fā)布與管理模塊包括數(shù)據(jù)發(fā)布與同步模塊、數(shù)據(jù)開放管理模塊;其中所述數(shù)據(jù)智能加工子系統(tǒng)對(duì)文本、圖像、音頻、視頻數(shù)據(jù)進(jìn)行加工,將數(shù)據(jù)處理成深度拆解和標(biāo)引的知識(shí)單元內(nèi)容以及靈活準(zhǔn)確的索引信息,存入加工用數(shù)據(jù)庫(kù)中,加工用數(shù)據(jù)庫(kù)中還存儲(chǔ)著大量標(biāo)志信息以及為了加快加工而生成的中間結(jié)果;所述發(fā)布與管理模塊完成將經(jīng)過(guò)審批的內(nèi)容和索引信息與智能檢索服務(wù)子系統(tǒng)顯示的數(shù)據(jù)進(jìn)行同步;數(shù)據(jù)同步由數(shù)據(jù)發(fā)布與同步模塊執(zhí)行,將加工用數(shù)據(jù)庫(kù)的內(nèi)容同步到檢索用數(shù)據(jù)庫(kù),將檢索過(guò)程中的反饋信息從檢索用數(shù)據(jù)庫(kù)同步到加工用數(shù)據(jù)庫(kù)中;數(shù)據(jù)開放管理模塊負(fù)責(zé)對(duì)數(shù)據(jù)訪問(wèn)進(jìn)行權(quán)限設(shè)置;所述智能檢索服務(wù)子系統(tǒng)提供智能檢索服務(wù)平臺(tái),對(duì)來(lái)自用戶的搜索請(qǐng)求進(jìn)行統(tǒng)一處理,查詢檢索用數(shù)據(jù)庫(kù),智能檢索相關(guān)內(nèi)容。
2.根據(jù)權(quán)利要求1所述的信息智能檢索加工的系統(tǒng),其特征在于所述數(shù)據(jù)智能加工子系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行加工,將數(shù)據(jù)分為12大類,即人物、事件、時(shí)間、地點(diǎn)、物品、生物、衣物、食物、住物、行物、育物、樂(lè)物。
3.根據(jù)權(quán)利要求2所述的信息智能檢索加工的系統(tǒng),其特征在于每個(gè)大類再細(xì)分為若干子類,每個(gè)子類又有若干子類,將形成的樹狀多層次結(jié)構(gòu),作為索引結(jié)構(gòu)。樹狀結(jié)構(gòu)中的知識(shí)條目節(jié)點(diǎn)具有多種交叉隸屬關(guān)系;每個(gè)大類和其子類的索引都用代碼表示。
4.根據(jù)權(quán)利要求3所述的信息智能檢索加工的系統(tǒng),其特征在于所述子類小于等于30層。
5.根據(jù)權(quán)利要求1所述的信息智能檢索加工的系統(tǒng),其特征在于所述數(shù)據(jù)智能加工子系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行加工,將信息數(shù)據(jù),按照其內(nèi)容長(zhǎng)度或容量劃分為若干個(gè)知識(shí)單元。
6.根據(jù)權(quán)利要求5所述的信息智能檢索加工的系統(tǒng),其特征在于一個(gè)文本知識(shí)單元容量為600個(gè)字符以內(nèi)。
7.根據(jù)權(quán)利要求1所述的信息智能檢索加工的系統(tǒng),其特征在于所述的數(shù)據(jù)智能加工子系統(tǒng)采用三元關(guān)系模型,三元組Ka,Kr,Kb形式,其中Ka代表關(guān)鍵詞a,Kb代表關(guān)鍵詞b,Kr代表關(guān)鍵詞a和關(guān)鍵詞b之間的關(guān)系,該三元組形式表示和實(shí)現(xiàn)關(guān)鍵詞之間的三種類型的關(guān)聯(lián)關(guān)系,包括成員隸屬關(guān)系、等價(jià)別名關(guān)系以及背景參考關(guān)系。
8.一種信息智能檢索加工的方法,其步驟為(1)輸入檢索條件;(2)對(duì)檢索條件進(jìn)行預(yù)處理,這其中包含了代碼轉(zhuǎn)換和索引復(fù)雜度評(píng)估;(3)搜索請(qǐng)求細(xì)分為常規(guī)的簡(jiǎn)單直接搜索、高級(jí)組合搜索、分類瀏覽搜索、全文檢索以及智能邏輯搜索,前三種搜索方式將直接通過(guò)關(guān)系搜索引擎進(jìn)行搜索,全文檢索將通過(guò)全文檢索引擎進(jìn)行檢索,而智能邏輯搜索將會(huì)通過(guò)邏輯關(guān)系演算進(jìn)行查詢條件重組后再由關(guān)系搜索引擎進(jìn)行搜索;(4)通過(guò)關(guān)系搜索引擎或全文檢索引擎獲得搜索結(jié)果后,返回搜索結(jié)果。
9.一種數(shù)據(jù)智能加工處理方法,其步驟為(1)基礎(chǔ)數(shù)據(jù)智能加工,系統(tǒng)將對(duì)進(jìn)入數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行智能校對(duì),校對(duì)的內(nèi)容包括文字、目錄和段落層次、注釋的引用。(2)進(jìn)行知識(shí)單元智能加工,系統(tǒng)將對(duì)原來(lái)以自然段為基礎(chǔ)單元的數(shù)據(jù)進(jìn)行智能拆解,形成具有獨(dú)立完整含義的知識(shí)單元;同時(shí)在這個(gè)步驟中,系統(tǒng)還將建立起知識(shí)單元和索引關(guān)鍵詞之間的關(guān)聯(lián)關(guān)系。(3)索引智能加工,和上一個(gè)步驟知識(shí)單元智能加工在實(shí)際操作中是并行進(jìn)行的;索引智能加工需要對(duì)來(lái)自知識(shí)單元智能加工中提取的關(guān)鍵詞進(jìn)行索引化處理,再將經(jīng)索引化處理過(guò)的結(jié)果進(jìn)行二次加工,窮盡索引結(jié)構(gòu)的背景信息進(jìn)行標(biāo)引,重新排序和聚類,形成高度靈活、準(zhǔn)確、多維指向、互有交叉的智能化索引。(4)智能化索引反作用于知識(shí)單元過(guò)程,可根據(jù)使用者的隨機(jī)需求形成新的分類、排序與聚類,生成二次、三次或多次文獻(xiàn)、表單、圖像、音頻、視頻。
10.根據(jù)權(quán)利要求8所述的信息智能檢索加工的方法,其特征在于通過(guò)對(duì)異體字或圖像字進(jìn)行拆分、編排、編號(hào),支持標(biāo)準(zhǔn)Unicode字庫(kù)中包含或未包含的大量偏稀漢字,實(shí)現(xiàn)對(duì)異體字或圖像字的筆順、字根的調(diào)用、查詢和顯示。
11.根據(jù)權(quán)利要求9所述的數(shù)據(jù)智能加工處理方法,其特征在于通過(guò)對(duì)異體字或圖像字進(jìn)行拆分、編排、編號(hào),支持標(biāo)準(zhǔn)Unicode字庫(kù)中包含或未包含的大量偏稀漢字,實(shí)現(xiàn)對(duì)異體字或圖像字的筆順、字根的調(diào)用、查詢和顯示。
全文摘要
本發(fā)明公開了一種信息智能檢索加工的系統(tǒng)和方法,該系統(tǒng)包括數(shù)據(jù)智能加工子系統(tǒng)、加工用數(shù)據(jù)庫(kù)、發(fā)布與管理模塊、檢索用數(shù)據(jù)庫(kù)、智能檢索服務(wù)子系統(tǒng),其中發(fā)布與管理模塊包括數(shù)據(jù)發(fā)布與同步模塊、數(shù)據(jù)開放管理模塊;該系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行加工,將數(shù)據(jù)分為12大類。本發(fā)明的信息智能檢索加工的方法,包括輸入檢索條件;預(yù)處理;搜索請(qǐng)求細(xì)分為簡(jiǎn)單直接搜索、高級(jí)組合搜索、分類瀏覽搜索、全文檢索以及智能邏輯搜索,前三種搜索方式將直接通過(guò)關(guān)系搜索引擎進(jìn)行搜索,全文檢索將通過(guò)全文檢索引擎進(jìn)行檢索,智能邏輯搜索將通過(guò)邏輯關(guān)系演算進(jìn)行查詢條件重組后再由關(guān)系搜索引擎進(jìn)行搜索;獲得搜索結(jié)果后,返回搜索結(jié)果。
文檔編號(hào)G06F17/30GK1845104SQ20061008136
公開日2006年10月11日 申請(qǐng)日期2006年5月22日 優(yōu)先權(quán)日2006年5月22日
發(fā)明者趙開灝 申請(qǐng)人:趙開灝