專利名稱:一種檢索信息、信息處理的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)及信息處理領(lǐng)域,特別是涉及檢索信息、信息處理的方法及裝置。
背景技術(shù):
全文檢索是一種將文件中所有文本與檢索項(xiàng)匹配的文字資料檢索方法。全文檢索 中需要大量用到排序操作,如對(duì)分詞的詞表進(jìn)行排序后建立倒排索引以便快速查找,對(duì)結(jié) 果集進(jìn)行排序等等。而比較是排序的基礎(chǔ)。在對(duì)文本內(nèi)容進(jìn)行比較時(shí),常見的做法是按字 符內(nèi)碼(如GB2312、UniCOde等內(nèi)碼格式)進(jìn)行比較,來確定其順序。字符內(nèi)碼是按照英文 和數(shù)字等的大小或先后進(jìn)行排序,利用該字符內(nèi)碼可實(shí)現(xiàn)快速比較。對(duì)漢字來說,只規(guī)定了 一段內(nèi)碼區(qū)間用于漢字,但這段內(nèi)碼的順序往往沒有意義。若希望將漢字按照拼音/筆畫 順序排序,則現(xiàn)有技術(shù)通過應(yīng)用程序接口(API)函數(shù)查找每個(gè)漢字的拼音/筆畫,再對(duì)所有 漢字的拼音/筆畫進(jìn)行比較和排序。該方案的執(zhí)行效率較低。另外,在信息檢索中,例如希望檢索到按拼音順序姓安到姓李的所有作者的文章, 則需要列舉出從姓安到姓李的所有的姓,然后再根據(jù)這所有姓的內(nèi)碼進(jìn)行檢索,該方式的 檢索效率較低。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種檢索信息的方法及裝置,用于提高檢索信息的效率;還提 供一種信息處理的方法及裝置,用于提高信息排序的效率。一種檢索信息的方法,包括以下步驟將輸入的兩個(gè)關(guān)鍵詞與索引項(xiàng)中的詞條進(jìn)行匹配;其中索引項(xiàng)中的詞條是根據(jù)詞 條對(duì)應(yīng)的屬性編號(hào)進(jìn)行排序后的詞條;在索引項(xiàng)中檢索匹配成功的兩個(gè)詞條之間的所有詞條。一種信息處理的方法,包括以下步驟獲得包含屬性編號(hào)與漢字的對(duì)應(yīng)關(guān)系;該對(duì)應(yīng)關(guān)系是根據(jù)漢字屬性與屬性編號(hào)的 對(duì)應(yīng)關(guān)系及漢字屬性與漢字的對(duì)應(yīng)關(guān)系獲得的;其中屬性編號(hào)是對(duì)漢字屬性進(jìn)行排序并對(duì) 排序后的每個(gè)漢字屬性進(jìn)行順序編號(hào)得到的;獲得索引項(xiàng)的每個(gè)詞條中的漢字對(duì)應(yīng)的屬性編號(hào);根據(jù)獲得的屬性編號(hào)對(duì)索引項(xiàng)中的詞條進(jìn)行排序。一種檢索裝置,包括匹配模塊,用于將輸入的兩個(gè)關(guān)鍵詞與索引項(xiàng)中的詞條進(jìn)行匹配;其中索引項(xiàng)中 的詞條是根據(jù)詞條對(duì)應(yīng)的屬性編號(hào)進(jìn)行排序后的詞條;檢索模塊,用于在索引項(xiàng)中檢索匹配成功的兩個(gè)詞條之間的所有詞條。一種用于信息處理的裝置,包括關(guān)系模塊,用于獲得包含屬性編號(hào)與漢字的對(duì)應(yīng)關(guān)系;該對(duì)應(yīng)關(guān)系是根據(jù)漢字屬性與屬性編號(hào)的對(duì)應(yīng)關(guān)系及漢字屬性與漢字的對(duì)應(yīng)關(guān)系獲得的;其中屬性編號(hào)是對(duì)漢字屬 性進(jìn)行排序并對(duì)排序后的每個(gè)漢字屬性進(jìn)行順序編號(hào)得到的;查詢模塊,用于獲得索引項(xiàng)的每個(gè)詞條中的漢字對(duì)應(yīng)的屬性編號(hào);排序模塊,用于根據(jù)獲得的屬性編號(hào)對(duì)索引項(xiàng)中的詞條進(jìn)行排序。一種獲得漢字編碼表的方法,包括以下步驟對(duì)漢字屬性進(jìn)行排序,并對(duì)排序后的每個(gè)漢字屬性進(jìn)行順序編號(hào),得到屬性編 號(hào);確定漢字屬性對(duì)應(yīng)的漢字;根據(jù)漢字屬性與屬性編號(hào)的對(duì)應(yīng)關(guān)系及漢字屬性與漢字的對(duì)應(yīng)關(guān)系,獲得包含屬 性編號(hào)與漢字的對(duì)應(yīng)關(guān)系的漢字編碼表。本發(fā)明實(shí)施例對(duì)漢字的屬性進(jìn)行排序,并順序編號(hào),然后根據(jù)該編號(hào)對(duì)索引項(xiàng)中 的詞條進(jìn)行排序,提高了對(duì)詞條的排序效率。并且在對(duì)排序后的詞條進(jìn)行檢索時(shí),可提高檢 索的效率。
圖1為本發(fā)明實(shí)施例中獲得漢字編碼表的主要方法流程圖;圖2為本發(fā)明實(shí)施例中獲得漢字編碼表的詳細(xì)方法流程圖;圖3為本發(fā)明實(shí)施例中信息處理的主要方法流程圖;圖4為本發(fā)明實(shí)施例中信息處理的詳細(xì)方法流程圖;圖5為本發(fā)明實(shí)施例中檢索信息的方法流程圖;圖6為本發(fā)明實(shí)施例中排序裝置的結(jié)構(gòu)圖;圖7為本發(fā)明實(shí)施例中檢索裝置的結(jié)構(gòu)圖。
具體實(shí)施例方式本發(fā)明實(shí)施例對(duì)漢字的屬性進(jìn)行排序,并順序編號(hào),然后根據(jù)該編號(hào)對(duì)索引項(xiàng)中 的詞條進(jìn)行排序,提高了對(duì)詞條的排序效率。并且在對(duì)排序后的詞條進(jìn)行檢索時(shí),可提高檢 索的效率。本實(shí)施例排序和檢索的基礎(chǔ)都在于對(duì)屬性進(jìn)行順序編號(hào),下面首先對(duì)該編號(hào)過程 進(jìn)行介紹。參見圖1,本實(shí)施例中獲得漢字編碼表的主要方法流程如下步驟101 對(duì)漢字屬性進(jìn)行排序,并對(duì)排序后的每個(gè)漢字屬性進(jìn)行順序編號(hào),得到 屬性編號(hào)。本實(shí)施例中,在對(duì)漢字進(jìn)行比較、排序和檢索等過程中,均可用屬性編號(hào)代替漢 字的內(nèi)碼來進(jìn)行各項(xiàng)操作。步驟102 確定漢字屬性對(duì)應(yīng)的漢字。步驟103 根據(jù)漢字屬性與屬性編號(hào)的對(duì)應(yīng)關(guān)系及漢字屬性與漢字的對(duì)應(yīng)關(guān)系, 獲得包含屬性編號(hào)與漢字的對(duì)應(yīng)關(guān)系的漢字編碼表。其中,漢字可以由其內(nèi)碼表示,即獲得 包含屬性編號(hào)與內(nèi)碼的對(duì)應(yīng)關(guān)系的漢字編碼表。本實(shí)施例中漢字屬性包括拼音、筆畫或筆畫數(shù)等。索引項(xiàng)可以相當(dāng)于一個(gè)列表,詞 條為索引項(xiàng)中的內(nèi)容,例如詞條為作者姓名,索引項(xiàng)為包含了數(shù)據(jù)庫中所有作者姓名的列表;或者,詞條為書名,索引項(xiàng)為包含了數(shù)據(jù)庫中所有書名的列表。以拼音為例,參見圖2所示的獲得漢字編碼表的詳細(xì)方法流程步驟201 對(duì)所有拼音進(jìn)行排序。本實(shí)施例中按照字母a到ζ的順序?qū)λ衅匆?進(jìn)行排序。步驟202 對(duì)排序后的拼音進(jìn)行順序編號(hào),得到屬性編號(hào)。較佳的,該屬性編號(hào)的 取值范圍與漢字內(nèi)碼的范圍相同,這樣便于漢字與其它字符內(nèi)碼進(jìn)行比較、排序和檢索。其 它字符的內(nèi)碼可直接作為其屬性編號(hào)。本實(shí)施例中的屬性編號(hào)的位數(shù)固定,較小標(biāo)號(hào)的高 位由0填充。例如屬性編號(hào)的位數(shù)為5位,排序后的第1個(gè)拼音的屬性編號(hào)為00000,或從 1開始編號(hào),則為00001。步驟203 為每個(gè)漢字確定拼音,并進(jìn)一步確定屬性編號(hào)。本實(shí)施例中拼音不區(qū)分 音調(diào),拼音相同的多個(gè)漢字可以對(duì)應(yīng)相同的屬性編號(hào);或者屬性編號(hào)的前η位標(biāo)識(shí)拼音,后 m位標(biāo)識(shí)相同拼音的不同漢字,這樣屬性編號(hào)可唯一標(biāo)識(shí)一個(gè)漢字;屬性編號(hào)還可以有其 它方式,此處不一一列舉。步驟204 獲得包含漢字的內(nèi)碼與屬性編號(hào)的對(duì)應(yīng)關(guān)系的漢字編碼表。尤其是排 序后的屬性編號(hào)與內(nèi)碼的對(duì)應(yīng)關(guān)系。該漢字編碼表可以以數(shù)組或列表等數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)。如果采用筆畫,則可對(duì)所有筆畫進(jìn)行排序,再對(duì)排序后的筆畫進(jìn)行順序編號(hào),得到 屬性編號(hào),然后建立漢字的內(nèi)碼與屬性編號(hào)的對(duì)應(yīng)關(guān)系。如果采用筆畫數(shù),由于筆畫數(shù)本身 就是數(shù)字,并且有順序,可以直接將該數(shù)字作為屬性編號(hào),然后建立漢字的內(nèi)碼與屬性編號(hào) 的對(duì)應(yīng)關(guān)系。有了漢字編碼表,有利于對(duì)詞條進(jìn)行排序和檢索。下面分別介紹排序和檢索的實(shí) 現(xiàn)過程。參見圖3,本實(shí)施例中信息處理的主要方法流程如下步驟301 獲得包含屬性編號(hào)與漢字的對(duì)應(yīng)關(guān)系。該對(duì)應(yīng)關(guān)系是根據(jù)漢字屬性與 屬性編號(hào)的對(duì)應(yīng)關(guān)系及漢字屬性與漢字的對(duì)應(yīng)關(guān)系獲得的。其中屬性編號(hào)是對(duì)漢字屬性進(jìn) 行排序并對(duì)排序后的每個(gè)漢字屬性進(jìn)行順序編號(hào)得到的。該步驟相當(dāng)于獲得漢字編碼表的 步驟,如果已有漢字編碼表,則直接獲得該表即可。步驟302 獲得索引項(xiàng)的每個(gè)詞條中的漢字對(duì)應(yīng)的屬性編號(hào)。步驟303 根據(jù)獲得的屬性編號(hào)對(duì)索引項(xiàng)中的詞條進(jìn)行排序。參見圖4,本實(shí)施例中信息處理的詳細(xì)方法流程如下步驟401 獲得包含屬性編號(hào)與漢字的對(duì)應(yīng)關(guān)系。步驟402 獲得索引項(xiàng)的每個(gè)詞條中的每個(gè)字符對(duì)應(yīng)的屬性編號(hào)。其中漢字的屬 性編號(hào)可通過步驟401中的對(duì)應(yīng)關(guān)系獲得,漢字以外的字符的屬性編號(hào)采用其內(nèi)碼。所述 屬性編號(hào)的取值范圍在漢字對(duì)應(yīng)的內(nèi)碼的取值范圍內(nèi)。步驟403 將每個(gè)詞條中多個(gè)字符對(duì)應(yīng)的屬性編號(hào)進(jìn)行拼接,得到該詞條對(duì)應(yīng)的 屬性編號(hào)。如果詞條只包含一個(gè)字符,則可跳過該步驟。步驟404 根據(jù)拼接后的屬性編號(hào)對(duì)索引項(xiàng)中的詞條進(jìn)行排序。在排序的比較過 程中,本實(shí)施例對(duì)各屬性編號(hào)從高位開始比較。例如,兩個(gè)屬性編號(hào)為123和13,則這兩個(gè) 屬性編號(hào)的最高位均為1,該位的比較結(jié)果一致,然后對(duì)次高位進(jìn)行比較,結(jié)果3大于2,則 如果按從小到大進(jìn)行排序,屬性編號(hào)123排在13的前面。
本實(shí)施例在需要根據(jù)漢字屬性進(jìn)行排序時(shí),效果較好。例如,在排版印刷中輸出作 者或者人名登記時(shí),為了表示公平,經(jīng)常是姓名不分先后,此時(shí)就需要按照拼音或筆畫順序 得到需要的姓名。如果按照現(xiàn)有技術(shù)采用內(nèi)碼的比較方式,需要確定漢字內(nèi)碼對(duì)應(yīng)的拼音, 再確定拼音中的每個(gè)字母對(duì)應(yīng)的內(nèi)碼,然后再進(jìn)行比較和排序。而本實(shí)施例確定漢字對(duì)應(yīng) 的屬性編號(hào)后,直接根據(jù)屬性編號(hào)對(duì)漢字進(jìn)行排序即可,其排序的效率明顯優(yōu)于現(xiàn)有技術(shù)。參見圖5,本實(shí)施例中檢索信息的主要方法流程如下步驟501 將輸入的兩個(gè)關(guān)鍵詞與索引項(xiàng)中的詞條進(jìn)行匹配。其中索引項(xiàng)中的詞 條是采用權(quán)利要求1所述的方法進(jìn)行排序后的詞條。步驟502 在索引項(xiàng)中檢索匹配成功的兩個(gè)詞條之間的所有詞條。本實(shí)施例中匹 配成功的兩個(gè)詞條之間的所有詞條包括匹配成功的兩個(gè)詞條。本實(shí)施例中輸入的關(guān)鍵詞與詞條進(jìn)行匹配時(shí)采用模糊匹配,詞條的前η個(gè)字符與 關(guān)鍵詞完全匹配,則確定匹配成功,否則匹配失敗。其中η為關(guān)鍵詞的字符長(zhǎng)度。用戶可以只輸入兩個(gè)關(guān)鍵詞,則可直接將這兩個(gè)關(guān)鍵詞與詞條進(jìn)行匹配。用戶也 可以輸入一句話,然后對(duì)該句話進(jìn)行分詞和解析,解析出兩個(gè)關(guān)鍵詞后再與詞條進(jìn)行匹配。當(dāng)輸入的關(guān)鍵詞大于兩個(gè)時(shí),根據(jù)輸入的η個(gè)關(guān)鍵詞對(duì)應(yīng)的屬性編號(hào)對(duì)η個(gè)關(guān)鍵 詞進(jìn)行排序;其中η為不小于3的整數(shù)。將排序后的η個(gè)關(guān)鍵詞中每相鄰兩個(gè)關(guān)鍵詞分為 一組。針對(duì)每組中的兩個(gè)關(guān)鍵詞,將該兩個(gè)關(guān)鍵詞與索引項(xiàng)中的詞條進(jìn)行匹配,并在索引項(xiàng) 中檢索匹配成功的兩個(gè)詞條之間的所有詞條。本實(shí)施例適用于根據(jù)漢字屬性進(jìn)行范圍檢索。例如,需要檢索姓李到姓張的所有 作者。采用現(xiàn)有技術(shù)的內(nèi)碼檢索方式時(shí),如果現(xiàn)有技術(shù)已經(jīng)將內(nèi)碼按照拼音順序進(jìn)行了排 序,內(nèi)碼的大小順序是被打亂的,則需要判斷將李和張的內(nèi)碼分別與排序后的內(nèi)碼一一比 較,才能確定李和張的位置,實(shí)現(xiàn)過程較繁瑣。而本實(shí)施例將李和張作為兩個(gè)關(guān)鍵詞與作者 詞條進(jìn)行匹配,便可以檢索出姓李到姓張的所有作者,其檢索效率明顯優(yōu)于現(xiàn)有技術(shù)。以上介紹了信息排序和檢索的方法實(shí)現(xiàn)流程,該過程可由排序裝置和檢索裝置實(shí) 現(xiàn),下面分別對(duì)兩個(gè)裝置的內(nèi)部結(jié)構(gòu)和功能進(jìn)行介紹。參見圖6,本實(shí)施例中排序裝置包括關(guān)系模塊601、查詢模塊602和排序模塊 603。關(guān)系模塊601用于獲得包含屬性編號(hào)與漢字的對(duì)應(yīng)關(guān)系。該對(duì)應(yīng)關(guān)系是根據(jù)漢字 屬性與屬性編號(hào)的對(duì)應(yīng)關(guān)系及漢字屬性與漢字的對(duì)應(yīng)關(guān)系獲得的。其中屬性編號(hào)是對(duì)漢字 屬性進(jìn)行排序并對(duì)排序后的每個(gè)漢字屬性進(jìn)行順序編號(hào)得到的。所述屬性編號(hào)在漢字對(duì)應(yīng) 的內(nèi)碼范圍內(nèi)。查詢模塊602用于獲得索引項(xiàng)的每個(gè)詞條中的漢字對(duì)應(yīng)的屬性編號(hào)。當(dāng)詞條包含 漢字以外的字符時(shí),漢字以外的字符對(duì)應(yīng)的屬性編號(hào)為該字符的內(nèi)碼。查詢模塊602獲得 索引項(xiàng)的每個(gè)詞條中的字符對(duì)應(yīng)的屬性編號(hào)。當(dāng)詞條包括多個(gè)漢字時(shí),查詢模塊602獲得 索引項(xiàng)的每個(gè)詞條中的每個(gè)漢字對(duì)應(yīng)的屬性編號(hào),并將每個(gè)詞條中多個(gè)漢字對(duì)應(yīng)的屬性編 號(hào)進(jìn)行拼接,得到該詞條對(duì)應(yīng)的屬性編號(hào)。排序模塊603用于根據(jù)獲得的屬性編號(hào)對(duì)索引項(xiàng)中的詞條進(jìn)行排序。參見圖7,本實(shí)施例中檢索裝置包括匹配模塊701和檢索模塊702。匹配模塊701用于將輸入的兩個(gè)關(guān)鍵詞與索引項(xiàng)中的詞條進(jìn)行匹配,其中索引項(xiàng)中的詞條是根據(jù)詞條對(duì)應(yīng)的屬性編號(hào)進(jìn)行排序后的詞條。當(dāng)輸入的關(guān)鍵詞大于兩個(gè)時(shí),匹 配模塊701還用于根據(jù)輸入的η個(gè)關(guān)鍵詞對(duì)應(yīng)的屬性編號(hào)對(duì)η個(gè)關(guān)鍵詞進(jìn)行排序;其中η 為不小于3的整數(shù);將排序后的η個(gè)關(guān)鍵詞中每相鄰兩個(gè)關(guān)鍵詞分為一組;針對(duì)每組中的 兩個(gè)關(guān)鍵詞,將該兩個(gè)關(guān)鍵詞與索引項(xiàng)中的詞條進(jìn)行匹配。檢索模塊702用于在索引項(xiàng)中檢索匹配成功的兩個(gè)詞條和該兩個(gè)詞條之間的所 有詞條。檢索裝置還可以包括排序裝置中的所有模塊。用于實(shí)現(xiàn)本發(fā)明實(shí)施例的軟件可以存儲(chǔ)于軟盤、硬盤、光盤和閃存等存儲(chǔ)介質(zhì)。本發(fā)明實(shí)施例對(duì)漢字的屬性進(jìn)行排序,并順序編號(hào),然后根據(jù)該編號(hào)對(duì)索引項(xiàng)中 的詞條進(jìn)行排序,提高了對(duì)詞條的排序效率。并且在對(duì)排序后的詞條進(jìn)行檢索時(shí),可提高檢 索的效率。顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精 神和范圍。這樣,倘若對(duì)本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范 圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
1.一種檢索信息的方法,其特征在于,包括以下步驟將輸入的兩個(gè)關(guān)鍵詞與索引項(xiàng)中的詞條進(jìn)行匹配,其中索引項(xiàng)中的詞條是根據(jù)詞條對(duì) 應(yīng)的屬性編號(hào)進(jìn)行排序后的詞條;在索引項(xiàng)中檢索匹配成功的兩個(gè)詞條之間的所有詞條。
2.如權(quán)利要求1所述的方法,其特征在于,根據(jù)詞條對(duì)應(yīng)的屬性編號(hào)進(jìn)行排序的步驟 包括獲得包含屬性編號(hào)與漢字的對(duì)應(yīng)關(guān)系,該對(duì)應(yīng)關(guān)系是根據(jù)漢字屬性與屬性編號(hào)的對(duì)應(yīng) 關(guān)系及漢字屬性與漢字的對(duì)應(yīng)關(guān)系獲得的,其中屬性編號(hào)是對(duì)漢字屬性進(jìn)行排序并對(duì)排序 后的每個(gè)漢字屬性進(jìn)行順序編號(hào)得到的;獲得索引項(xiàng)的每個(gè)詞條中的漢字對(duì)應(yīng)的屬性編號(hào); 根據(jù)獲得的屬性編號(hào)對(duì)索引項(xiàng)中的詞條進(jìn)行排序。
3.如權(quán)利要求2所述的方法,其特征在于,所述屬性編號(hào)的取值范圍在漢字對(duì)應(yīng)的內(nèi) 碼的取值范圍內(nèi)。
4.如權(quán)利要求3所述的方法,其特征在于,當(dāng)詞條包含漢字以外的字符時(shí),漢字以外的 字符對(duì)應(yīng)的屬性編號(hào)為該字符的內(nèi)碼;獲得索引項(xiàng)的每個(gè)詞條中的漢字對(duì)應(yīng)的屬性編號(hào)的步驟包括獲得索引項(xiàng)的每個(gè)詞條 中的字符對(duì)應(yīng)的屬性編號(hào)。
5.如權(quán)利要求2所述的方法,其特征在于,漢字屬性包括拼音、筆畫或筆畫數(shù)。
6.如權(quán)利要求2所述的方法,其特征在于,當(dāng)詞條包括多個(gè)漢字時(shí),獲得索引項(xiàng)的每個(gè) 詞條中的漢字對(duì)應(yīng)的屬性編號(hào)的步驟包括獲得索引項(xiàng)的每個(gè)詞條中的每個(gè)漢字對(duì)應(yīng)的屬 性編號(hào),并將每個(gè)詞條中多個(gè)漢字對(duì)應(yīng)的屬性編號(hào)進(jìn)行拼接,得到該詞條對(duì)應(yīng)的屬性編號(hào)。
7.如權(quán)利要求1所述的方法,其特征在于,當(dāng)輸入的關(guān)鍵詞大于兩個(gè)時(shí),將輸入的兩個(gè) 關(guān)鍵詞與索引項(xiàng)中的詞條進(jìn)行匹配的步驟包括根據(jù)輸入的η個(gè)關(guān)鍵詞對(duì)應(yīng)的屬性編號(hào)對(duì)η個(gè)關(guān)鍵詞進(jìn)行排序;其中η為不小于3的 整數(shù);將排序后的η個(gè)關(guān)鍵詞中每相鄰兩個(gè)關(guān)鍵詞分為一組;針對(duì)每組中的兩個(gè)關(guān)鍵詞,將該兩個(gè)關(guān)鍵詞與索引項(xiàng)中的詞條進(jìn)行匹配。
8.一種信息處理的方法,其特征在于,包括以下步驟獲得包含屬性編號(hào)與漢字的對(duì)應(yīng)關(guān)系,該對(duì)應(yīng)關(guān)系是根據(jù)漢字屬性與屬性編號(hào)的對(duì)應(yīng) 關(guān)系及漢字屬性與漢字的對(duì)應(yīng)關(guān)系獲得的,其中屬性編號(hào)是對(duì)漢字屬性進(jìn)行排序并對(duì)排序 后的每個(gè)漢字屬性進(jìn)行順序編號(hào)得到的;獲得索引項(xiàng)的每個(gè)詞條中的漢字對(duì)應(yīng)的屬性編號(hào); 根據(jù)獲得的屬性編號(hào)對(duì)索引項(xiàng)中的詞條進(jìn)行排序。
9.一種檢索裝置,其特征在于,包括匹配模塊,用于將輸入的兩個(gè)關(guān)鍵詞與索引項(xiàng)中的詞條進(jìn)行匹配,其中索引項(xiàng)中的詞 條是根據(jù)詞條對(duì)應(yīng)的屬性編號(hào)進(jìn)行排序后的詞條;檢索模塊,用于在索引項(xiàng)中檢索匹配成功的兩個(gè)詞條之間的所有詞條。
10.如權(quán)利要求9所述的裝置,其特征在于,還包括關(guān)系模塊,用于獲得包含屬性編號(hào)與漢字的對(duì)應(yīng)關(guān)系,該對(duì)應(yīng)關(guān)系是根據(jù)漢字屬性與屬性編號(hào)的對(duì)應(yīng)關(guān)系及漢字屬性與漢字的對(duì)應(yīng)關(guān)系獲得的,其中屬性編號(hào)是對(duì)漢字屬性進(jìn) 行排序并對(duì)排序后的每個(gè)漢字屬性進(jìn)行順序編號(hào)得到的;查詢模塊,用于獲得索引項(xiàng)的每個(gè)詞條中的漢字對(duì)應(yīng)的屬性編號(hào);排序模塊,用于根據(jù)獲得的屬性編號(hào)對(duì)索引項(xiàng)中的詞條進(jìn)行排序。
11.如權(quán)利要求9所述的裝置,其特征在于,所述屬性編號(hào)在漢字對(duì)應(yīng)的內(nèi)碼范圍內(nèi)。
12.如權(quán)利要求11所述的裝置,其特征在于,當(dāng)詞條包含漢字以外的字符時(shí),漢字以外 的字符對(duì)應(yīng)的屬性編號(hào)為該字符的內(nèi)碼;查詢模塊獲得索引項(xiàng)的每個(gè)詞條中的字符對(duì)應(yīng)的屬性編號(hào)。
13.如權(quán)利要求9所述的裝置,其特征在于,漢字屬性包括拼音、筆畫或筆畫數(shù)。
14.如權(quán)利要求9所述的裝置,其特征在于,查詢模塊在詞條包括多個(gè)漢字時(shí),獲得索 引項(xiàng)的每個(gè)詞條中的每個(gè)漢字對(duì)應(yīng)的屬性編號(hào),并將每個(gè)詞條中多個(gè)漢字對(duì)應(yīng)的屬性編號(hào) 進(jìn)行拼接,得到該詞條對(duì)應(yīng)的屬性編號(hào)。
15.如權(quán)利要求9所述的裝置,其特征在于,當(dāng)輸入的關(guān)鍵詞大于兩個(gè)時(shí),匹配模塊還 用于根據(jù)輸入的η個(gè)關(guān)鍵詞對(duì)應(yīng)的屬性編號(hào)對(duì)η個(gè)關(guān)鍵詞進(jìn)行排序;其中η為不小于3的 整數(shù);將排序后的η個(gè)關(guān)鍵詞中每相鄰兩個(gè)關(guān)鍵詞分為一組;針對(duì)每組中的兩個(gè)關(guān)鍵詞,將 該兩個(gè)關(guān)鍵詞與索引項(xiàng)中的詞條進(jìn)行匹配。
16.一種用于信息處理的裝置,其特征在于,包括關(guān)系模塊,用于獲得包含屬性編號(hào)與漢字的對(duì)應(yīng)關(guān)系,該對(duì)應(yīng)關(guān)系是根據(jù)漢字屬性與 屬性編號(hào)的對(duì)應(yīng)關(guān)系及漢字屬性與漢字的對(duì)應(yīng)關(guān)系獲得的,其中屬性編號(hào)是對(duì)漢字屬性進(jìn) 行排序并對(duì)排序后的每個(gè)漢字屬性進(jìn)行順序編號(hào)得到的;查詢模塊,用于獲得索引項(xiàng)的每個(gè)詞條中的漢字對(duì)應(yīng)的屬性編號(hào);排序模塊,用于根據(jù)獲得的屬性編號(hào)對(duì)索引項(xiàng)中的詞條進(jìn)行排序。
17.一種獲得漢字編碼表的方法,其特征在于,包括以下步驟對(duì)漢字屬性進(jìn)行排序,并對(duì)排序后的每個(gè)漢字屬性進(jìn)行順序編號(hào),得到屬性編號(hào);確定漢字屬性對(duì)應(yīng)的漢字;根據(jù)漢字屬性與屬性編號(hào)的對(duì)應(yīng)關(guān)系及漢字屬性與漢字的對(duì)應(yīng)關(guān)系,獲得包含屬性編 號(hào)與漢字的對(duì)應(yīng)關(guān)系的漢字編碼表。
全文摘要
本發(fā)明公開了一種檢索信息、信息處理的方法,用于提高檢索信息的效率,以及提高信息排序的效率。所述檢索信息的方法包括將輸入的兩個(gè)關(guān)鍵詞與索引項(xiàng)中的詞條進(jìn)行匹配;其中索引項(xiàng)中的詞條是排序后的詞條;在索引項(xiàng)中檢索匹配成功的兩個(gè)詞條之間的所有詞條。所述信息處理的方法包括獲得包含屬性編號(hào)與漢字的對(duì)應(yīng)關(guān)系;該對(duì)應(yīng)關(guān)系是根據(jù)漢字屬性與屬性編號(hào)的對(duì)應(yīng)關(guān)系及漢字屬性與漢字的對(duì)應(yīng)關(guān)系獲得的;其中屬性編號(hào)是對(duì)漢字屬性進(jìn)行排序并對(duì)排序后的每個(gè)漢字屬性進(jìn)行順序編號(hào)得到的;獲得索引項(xiàng)的每個(gè)詞條中的漢字對(duì)應(yīng)的屬性編號(hào);根據(jù)獲得的屬性編號(hào)對(duì)索引項(xiàng)中的詞條進(jìn)行排序。本發(fā)明還公開了用于實(shí)現(xiàn)所述方法的裝置。
文檔編號(hào)G06F17/30GK102103610SQ20091024299
公開日2011年6月22日 申請(qǐng)日期2009年12月21日 優(yōu)先權(quán)日2009年12月21日
發(fā)明者張 杰, 徐劍波, 趙東巖, 閆進(jìn)兵 申請(qǐng)人:北京大學(xué), 北京方正阿帕比技術(shù)有限公司, 北大方正集團(tuán)有限公司