亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于文字異形體信息的搜索引擎方法

文檔序號:6482353閱讀:174來源:國知局
專利名稱:基于文字異形體信息的搜索引擎方法
技術(shù)領(lǐng)域
本發(fā)明涉及的是一種文本信息搜索引擎系統(tǒng),具體是一種基于文字異形體信息的 搜索引擎方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)的發(fā)展,搜索引擎成為人們檢索信息必不可少的工具之一。在互聯(lián)網(wǎng) 中,信息主要是以文字的形式呈現(xiàn),而由于文字形體的多樣性,使得相同意義的文字信息, 有不同的表現(xiàn)形式,這主要是由于人們對信息的描述習(xí)慣、輸入工具、地域等不同而形成的 文字信息的不同形體,簡稱異形體。文字異形體主要有字符編碼不同、語言不同、格式不同。 搜索引擎在對文本信息處理時,通常對原始的信息進(jìn)行分詞(Word Segmentation)處理,處 理后的信息直接生成倒排序索引文件(Reverse Order Index File),其原理在于,通過分 詞產(chǎn)生的詞條(Term)對應(yīng)信息所在的文本路徑或者URL(Uniform Resource Location)之 間建立一個映射關(guān)系,在用戶進(jìn)行信息檢索時,通過輸入的短語中包含的詞條,找到對應(yīng)的 資源并返回。如果用戶輸入的信息中含有該詞條的異形體的詞條就不會被檢索出來。目前,搜索引擎在處理異形體詞條是將該詞條的異形體作為獨(dú)立的詞條,或者將 該詞條的異形體作為額外的詞條進(jìn)行重復(fù)搜索。在日常生活中,文字信息的異形體的形式 很多,這些主要是由于地域或者用戶的使用習(xí)慣以及輸入工具有關(guān)。在基于文字異形體信 息的搜索引擎方法中所涉及到的異形體有漢字的簡體和繁體、字符的全角和半角、中文數(shù) 字和阿拉伯?dāng)?shù)字、日期的格式。漢字的簡、繁體信息的差異主要體現(xiàn)在地域的差異上。另外還有些輸入工具具備 這種簡繁體的輸入,也有用戶的個人興趣使用混合的形體。在互聯(lián)網(wǎng)中,中文漢字信息以簡 繁體兩種形體存在,那么就會存在這樣一個問題,在輸入簡體和繁體結(jié)合中文進(jìn)行檢索時, 可能得不到我們想要的結(jié)果(例如搜索“農(nóng)業(yè)”)。全角字符和半角字符,在計算機(jī)字符編碼集合中是屬于不同的字符編碼集(例如 “a”和“a”的字符編碼是不同的)。在互聯(lián)網(wǎng)中,這種編碼混合使用的現(xiàn)象也是普遍存在的, 主要體現(xiàn)使用者的一種個性。由于字符集合的不同,在索引時會對全角和半角的字符當(dāng)作 不同的字符進(jìn)行索引,而檢索時,搜索引擎只會檢索對應(yīng)的詞條,因而具有同種意義字符不 會檢索到。中文數(shù)字和阿拉伯?dāng)?shù)字在信息中雖然有各自的用途,但是在一些基數(shù)和序數(shù)的信 息描述以及年月日等的描述上,意義是相同的(例如“一九九七年七月一日”和“1997年7 月1日”)。人們在使用這些數(shù)字進(jìn)行信息描述時,按照不同的場合,數(shù)字的異形體使用都存 在(例如“九百九十九朵玫瑰”和“999朵玫瑰”)。而我們在檢索信息是,為了減少輸入量, 會直接輸入阿拉伯?dāng)?shù)字,這樣以中文描述的信息不會被檢索到(例如輸入“999”進(jìn)行搜索, 則“九百九十九”不會被檢索到)。日期格式也有很多不同的形式,除了上面所描述的中文日期外,還有一些使用習(xí) 慣上的格式(例如“2007-07-01”和“20070701”),這些日期格式只是在形式上有不同,但是從人們的認(rèn)識角度來看表示的一種意思。人們在發(fā)布文字信息時習(xí)慣用標(biāo)準(zhǔn)的日期格式, 而在搜索時使用數(shù)字串日期格式來檢索,這樣也會存在同上面描述的問題,不能相互檢索。為了解決這個問題,在對信息進(jìn)行分詞處理時,對原始信息進(jìn)行了調(diào)整,將所有的 這些異形體形式轉(zhuǎn)換成指定的某一形體(例如將所有的繁體字在分詞時以簡體字生成倒 排序文件),同樣,在進(jìn)行檢索時,將檢索的信息以轉(zhuǎn)化成索引中存在的形體形式進(jìn)行檢索, 最后將該詞條對應(yīng)的倒排文件系列返回,通過搜索引擎系統(tǒng)告訴用戶信息的所在位置。

發(fā)明內(nèi)容
本發(fā)明的目的在于針對現(xiàn)有文本搜索引擎的不足,提出一種可忽略信息表現(xiàn)的不 同形體進(jìn)行文本內(nèi)容搜索的搜索引擎系統(tǒng)。在對該信息進(jìn)行分詞的過程中,針對不同的文 字異形體信息,設(shè)計各自的處理器,將這些處理邏輯嵌入到分詞過程中,使得對于不同的異 形體在分詞后可以獲得統(tǒng)一的詞條(例如“農(nóng)業(yè)”和“農(nóng)業(yè)”都會以“農(nóng)業(yè)”來進(jìn)行索引)。 處理完后的詞條會由搜索引擎系統(tǒng)進(jìn)行索引處理,索引處理完成后,搜索引擎可以對用戶 輸入的查詢關(guān)鍵字進(jìn)行分詞,同樣通過不同的處理器分成不同的詞條,然后搜索引擎系統(tǒng) 可以針對詞條來檢索出結(jié)果,并將結(jié)果返回給用戶。本發(fā)明具體采用如下技術(shù)方案一種基于文字異形體信息的搜索引擎方法,包括運(yùn)行于客戶端的步驟和運(yùn)行于服 務(wù)器端的步驟,其中所述運(yùn)行于服務(wù)器端的步驟依次包括文本信息獲取步驟,用于獲取文本信息,該文本信息可以是用戶輸入的,也可以是 在互聯(lián)網(wǎng)中提取的;文本分詞步驟,用于將所述文本信息獲取步驟獲取的文本信息進(jìn)行分詞處理;轉(zhuǎn)換步驟,用于將所述文本分詞步驟進(jìn)行分詞處理的文本信息進(jìn)行轉(zhuǎn)換;索引步驟,用于對所述轉(zhuǎn)換步驟的輸出進(jìn)行倒排序索引,并計算權(quán)重;索引文件庫建立步驟,用于根據(jù)所述索引步驟的輸出生成索引文件;所述運(yùn)行于客戶端的步驟依次包括用戶輸入步驟,用于接受用戶輸入的查詢關(guān)鍵詞和查詢條件;文本分詞步驟,用于將所述用戶輸入步驟獲取的查詢關(guān)鍵詞進(jìn)行分詞處理;轉(zhuǎn)換步驟,用于將所述文本分詞步驟進(jìn)行分詞處理的文本信息進(jìn)行轉(zhuǎn)換;查詢步驟,用于將所述轉(zhuǎn)換步驟輸出的詞條與用戶輸入的查詢條件進(jìn)行組合,查 詢所述服務(wù)器端建立的索引文件庫,并輸出查詢結(jié)果;結(jié)果返回步驟,用于返回所述查詢步驟的查詢結(jié)果。其中,所述服務(wù)器端與客戶端的轉(zhuǎn)換步驟中均對應(yīng)包括以下轉(zhuǎn)換器中的多個或全 部中文簡繁體轉(zhuǎn)換步驟,用于中文簡體和繁體的轉(zhuǎn)換;字符全半角轉(zhuǎn)換步驟,用于全角字符和半角字符的轉(zhuǎn)換;中文數(shù)字轉(zhuǎn)換步驟,用于將中文表示的數(shù)字格式轉(zhuǎn)換阿拉伯表示的數(shù)字;日期格式轉(zhuǎn)換步驟,用于判別日期格式,并將日期格式轉(zhuǎn)換成定義的統(tǒng)一格式。進(jìn)一步地,所述中文簡繁體轉(zhuǎn)換步驟中包括一簡繁體映射表,其內(nèi)存儲有簡體字庫、繁體字庫及簡繁映射關(guān)系,該步驟具體包括11)簡繁體編碼判斷步驟,用于判斷分詞后的文本信息中是否需要是行簡繁體轉(zhuǎn)換,如果是則輸出步驟12),如果否,則直接輸出;12)簡繁體轉(zhuǎn)換步驟,用于進(jìn)行簡繁體轉(zhuǎn)換并輸出。進(jìn)一步地,所述字符全半角轉(zhuǎn)換步驟依次包括21)字符全角半角判斷步驟,用于判斷分詞后的文本信息是否需要進(jìn)行字符全角、 半角轉(zhuǎn)換,如果是,則輸出至步驟22),如果否,則直接輸出;22)字符全角半角轉(zhuǎn)換步驟,用于轉(zhuǎn)換字符中的全角和半角并輸出。進(jìn)一步地,所述中文數(shù)字轉(zhuǎn)換步驟中包括一數(shù)字映射表,其內(nèi)存儲有中文數(shù)字字 庫、阿拉伯?dāng)?shù)字及中文數(shù)字與阿拉伯?dāng)?shù)字的映射關(guān)系,具體包括31)中文數(shù)字轉(zhuǎn)換判斷步驟,用于判斷分詞后的文本信息是否需要進(jìn)行字符中文 數(shù)字轉(zhuǎn)換,如果是,則輸出至步驟32),如果否,則直接輸出;32)中文數(shù)字轉(zhuǎn)換步驟,用于進(jìn)行中文數(shù)字和阿拉伯?dāng)?shù)字的轉(zhuǎn)換并輸出。進(jìn)一步地,所述日期格式轉(zhuǎn)換步驟依次包括41)日期格式定義步驟,用于定義日期格式;42)日期格式轉(zhuǎn)換判斷步驟,用于判斷分詞后的文本信息是否需要進(jìn)行字符日期 格式轉(zhuǎn)換,如果是,則輸出至步驟43),如果否,則直接輸出;43)日期格式轉(zhuǎn)換步驟,用于將輸入的日期格式轉(zhuǎn)換為定義的日期格式并輸出。本發(fā)明可廣泛應(yīng)用于含有異形體的文字信息檢索,并且可以通過文字的其它形體 進(jìn)行搜索,并返回對應(yīng)該文字信息的搜索結(jié)果。如在對文字信息進(jìn)行索引和用戶輸入查 詢條件時,簡繁體轉(zhuǎn)換器對漢字進(jìn)行簡體和繁體轉(zhuǎn)換;查詢結(jié)果與信息中和用戶輸入的文 字簡、繁形體無關(guān)。在對文字信息進(jìn)行索引和用戶輸入查詢條件時,字符全半角轉(zhuǎn)換步驟對 字符進(jìn)行全角、半角轉(zhuǎn)換;查詢結(jié)果與信息和用戶輸入的字符全角、半角無關(guān)。在對文字信 息進(jìn)行索引和用戶輸入查詢條件時,中文數(shù)字轉(zhuǎn)義器對中文數(shù)字進(jìn)行轉(zhuǎn)換;查詢結(jié)果與信 息和用戶輸入的中文數(shù)字和阿拉伯?dāng)?shù)字無關(guān)。在對文字信息進(jìn)行索引和用戶輸入查詢條件 時,日期格式轉(zhuǎn)換步驟對日期格式文本進(jìn)行轉(zhuǎn)換;查詢結(jié)果與信息中和用戶輸入的日期的 格式無關(guān)。以下結(jié)合附圖及實施例進(jìn)一步說明本發(fā)明。


圖1為本發(fā)明基于文字異形體信息的搜索引擎方法實施例示意圖;圖2為本發(fā)明實施例中的中文簡繁體轉(zhuǎn)換步驟示意圖;圖3為本發(fā)明實施例中的字符全半角轉(zhuǎn)換步驟示意圖;圖4為本發(fā)明實施例中的中文數(shù)字轉(zhuǎn)換步驟示意圖;圖5為本發(fā)明實施例中的日期格式轉(zhuǎn)換步驟示意圖。
具體實施例方式如圖1所示,一種基于文字異形體信息的搜索引擎方法,包括運(yùn)行于客戶端的步 驟和運(yùn)行于服務(wù)器端的步驟,其中
所述運(yùn)行于服務(wù)器端的步驟依次包括文本信息獲取步驟,用于獲取文本信息,該文本信息可以是用戶輸入的,也可以是 在互聯(lián)網(wǎng)中提取的;文本分詞步驟,用于將所述文本信息獲取步驟獲取的文本信息進(jìn)行分詞處理;轉(zhuǎn)換步驟,用于將所述文本分詞步驟進(jìn)行分詞處理的文本信息進(jìn)行轉(zhuǎn)換;索引步驟,用于對所述轉(zhuǎn)換步驟的輸出進(jìn)行倒排序索引,并計算權(quán)重;索引文件庫建立步驟,用于根據(jù)所述索引步驟的輸出生成索引文件;所述運(yùn)行于客戶端的步驟依次包括用戶輸入步驟,用于接受用戶輸入的查詢關(guān)鍵詞和查詢條件;文本分詞步驟,用于將所述用戶輸入步驟獲取的查詢關(guān)鍵詞進(jìn)行分詞處理;轉(zhuǎn)換步驟,用于將所述文本分詞步驟進(jìn)行分詞處理的文本信息進(jìn)行轉(zhuǎn)換;查詢步驟,用于將所述轉(zhuǎn)換步驟輸出的詞條與用戶輸入的查詢條件進(jìn)行組合,查 詢所述服務(wù)器端建立的索引文件庫,并輸出查詢結(jié)果;結(jié)果返回步驟,用于返回所述查詢步驟的查詢結(jié)果。其中,所述服務(wù)器端與客戶端的轉(zhuǎn)換步驟中均對應(yīng)包括以下轉(zhuǎn)換器中的多個或全 部中文簡繁體轉(zhuǎn)換步驟,用于中文簡體和繁體的轉(zhuǎn)換;字符全半角轉(zhuǎn)換步驟,用于全角字符和半角字符的轉(zhuǎn)換;中文數(shù)字轉(zhuǎn)換步驟,用于將中文表示的數(shù)字格式轉(zhuǎn)換阿拉伯表示的數(shù)字;日期格式轉(zhuǎn)換步驟,用于判別日期格式,并將日期格式轉(zhuǎn)換成定義的統(tǒng)一格式。其中,所述中文簡繁體轉(zhuǎn)換步驟如圖2所示,其中包括一簡繁體映射表,其內(nèi)存儲 有簡體字庫、繁體字庫及簡繁映射關(guān)系,該步驟具體包括11)簡繁體編碼判斷步驟,用于判斷分詞后的文本信息中是否需要是行簡繁體轉(zhuǎn) 換,如果是則輸出步驟12),如果否,則直接輸出;12)簡繁體轉(zhuǎn)換步驟,用于進(jìn)行簡繁體轉(zhuǎn)換并輸出。進(jìn)一步地,所述字符全半角轉(zhuǎn)換步驟如圖3所示,依次包括21)字符全角半角判斷步驟,用于判斷分詞后的文本信息是否需要進(jìn)行字符全角、 半角轉(zhuǎn)換,如果是,則輸出至步驟22),如果否,則直接輸出;22)字符全角半角轉(zhuǎn)換步驟,用于轉(zhuǎn)換字符中的全角和半角并輸出。其中,所述中文數(shù)字轉(zhuǎn)換步驟如圖4所示,其中包括一數(shù)字映射表,其內(nèi)存儲有中 文數(shù)字字庫、阿拉伯?dāng)?shù)字及中文數(shù)字與阿拉伯?dāng)?shù)字的映射關(guān)系,具體包括31)中文數(shù)字轉(zhuǎn)換判斷步驟,用于判斷分詞后的文本信息是否需要進(jìn)行字符中文 數(shù)字轉(zhuǎn)換,如果是,則輸出至步驟32),如果否,則直接輸出;32)中文數(shù)字轉(zhuǎn)換步驟,用于進(jìn)行中文數(shù)字和阿拉伯?dāng)?shù)字的轉(zhuǎn)換并輸出。其中,所述日期格式轉(zhuǎn)換步驟如圖5所示,依次包括41)日期格式定義步驟,用于定義日期格式;42)日期格式轉(zhuǎn)換判斷步驟,用于判斷分詞后的文本信息是否需要進(jìn)行字符日期 格式轉(zhuǎn)換,如果是,則輸出至步驟43),如果否,則直接輸出;43)日期格式轉(zhuǎn)換步驟,用于將輸入的日期格式轉(zhuǎn)換為定義的日期格式并輸出。
權(quán)利要求
一種基于文字異形體信息的搜索引擎方法,包括運(yùn)行于客戶端的步驟和運(yùn)行于服務(wù)器端的步驟,其特征在于所述運(yùn)行于服務(wù)器端的步驟依次包括文本信息獲取步驟,用于獲取文本信息,該文本信息可以是用戶輸入的,也可以是在互聯(lián)網(wǎng)中提取的;文本分詞步驟,用于將所述文本信息獲取步驟獲取的文本信息進(jìn)行分詞處理;轉(zhuǎn)換步驟,用于將所述文本分詞步驟進(jìn)行分詞處理的文本信息進(jìn)行轉(zhuǎn)換;索引步驟,用于對所述轉(zhuǎn)換步驟的輸出進(jìn)行倒排序索引,并計算權(quán)重;索引文件庫建立步驟,用于根據(jù)所述索引步驟的輸出生成索引文件;所述運(yùn)行于客戶端的步驟依次包括用戶輸入步驟,用于接受用戶輸入的查詢關(guān)鍵詞和查詢條件;文本分詞步驟,用于將所述用戶輸入步驟獲取的查詢關(guān)鍵詞進(jìn)行分詞處理;轉(zhuǎn)換步驟,用于將所述文本分詞步驟進(jìn)行分詞處理的文本信息進(jìn)行轉(zhuǎn)換;查詢步驟,用于將所述轉(zhuǎn)換步驟輸出的詞條與用戶輸入的查詢條件進(jìn)行組合,查詢所述服務(wù)器端建立的索引文件庫,并輸出查詢結(jié)果;結(jié)果返回步驟,用于返回所述查詢步驟的查詢結(jié)果。其中,所述服務(wù)器端與客戶端的轉(zhuǎn)換步驟中均對應(yīng)包括以下轉(zhuǎn)換器中的多個或全部中文簡繁體轉(zhuǎn)換步驟,用于中文簡體和繁體的轉(zhuǎn)換;字符全半角轉(zhuǎn)換步驟,用于全角字符和半角字符的轉(zhuǎn)換;中文數(shù)字轉(zhuǎn)換步驟,用于將中文表示的數(shù)字格式轉(zhuǎn)換阿拉伯表示的數(shù)字;日期格式轉(zhuǎn)換步驟,用于判別日期格式,并將日期格式轉(zhuǎn)換成定義的統(tǒng)一格式。
2.根據(jù)權(quán)利要求1所述的基于文字異形體信息的搜索引擎方法,其特征在于所述中 文簡繁體轉(zhuǎn)換步驟中包括一簡繁體映射表,其內(nèi)存儲有簡體字庫、繁體字庫及簡繁映射關(guān) 系,該步驟具體包括11)簡繁體編碼判斷步驟,用于判斷分詞后的文本信息中是否需要是行簡繁體轉(zhuǎn)換,如 果是則輸出步驟12),如果否,則直接輸出;12)簡繁體轉(zhuǎn)換步驟,用于進(jìn)行簡繁體轉(zhuǎn)換并輸出。
3.根據(jù)權(quán)利要求2所述的基于文字異形體信息的搜索引擎方法,其特征在于所述字 符全半角轉(zhuǎn)換步驟依次包括21)字符全角半角判斷步驟,用于判斷分詞后的文本信息是否需要進(jìn)行字符全角、半角 轉(zhuǎn)換,如果是,則輸出至步驟22),如果否,則直接輸出;22)字符全角半角轉(zhuǎn)換步驟,用于轉(zhuǎn)換字符中的全角和半角并輸出。
4.根據(jù)權(quán)利要求3所述的基于文字異形體信息的搜索引擎方法,其特征在于所述中 文數(shù)字轉(zhuǎn)換步驟中包括一數(shù)字映射表,其內(nèi)存儲有中文數(shù)字字庫、阿拉伯?dāng)?shù)字及中文數(shù)字 與阿拉伯?dāng)?shù)字的映射關(guān)系,具體包括31)中文數(shù)字轉(zhuǎn)換判斷步驟,用于判斷分詞后的文本信息是否需要進(jìn)行字符中文數(shù)字 轉(zhuǎn)換,如果是,則輸出至步驟32),如果否,則直接輸出;32)中文數(shù)字轉(zhuǎn)換步驟,用于進(jìn)行中文數(shù)字和阿拉伯?dāng)?shù)字的轉(zhuǎn)換并輸出。
5.根據(jù)權(quán)利要求4所述的基于文字異形體信息的搜索引擎方法,其特征在于所述日期格式轉(zhuǎn)換步驟依次包括41)日期格式定義步驟,用于定義日期格式;42)日期格式轉(zhuǎn)換判斷步驟,用于判斷分詞后的文本信息是否需要進(jìn)行字符日期格式 轉(zhuǎn)換,如果是,則輸出至步驟43),如果否,則直接輸出;43)日期格式轉(zhuǎn)換步驟,用于將輸入的日期格式轉(zhuǎn)換為定義的日期 格式并輸出。
全文摘要
一種基于文字異形體信息的搜索引擎方法,包括通訊連接的客戶端和服務(wù)器端,其中所述服務(wù)器端包括文本信息獲取步驟,文本分詞步驟,轉(zhuǎn)換步驟,索引步驟,用于對所述轉(zhuǎn)換步驟的輸出進(jìn)行倒排序索引;索引文件庫建立步驟,用于根據(jù)所述索引步驟的輸出生成索引文件;所述客戶端包括用戶輸入步驟,文本分詞步驟,轉(zhuǎn)換步驟,用于將所述文本分詞步驟進(jìn)行分詞處理的文本信息進(jìn)行轉(zhuǎn)換;查詢步驟,用于將所述轉(zhuǎn)換步驟輸出的詞條與用戶輸入的查詢條件進(jìn)行組合,查詢所述服務(wù)器端的索引文件庫,并輸出查詢結(jié)果;結(jié)果返回步驟。本發(fā)明可廣泛應(yīng)用于含有異形體的文字信息檢索,并且可以通過文字的其它形體進(jìn)行搜索,并返回對應(yīng)該文字信息的搜索結(jié)果。
文檔編號G06F17/30GK101814073SQ20091004647
公開日2010年8月25日 申請日期2009年2月23日 優(yōu)先權(quán)日2009年2月23日
發(fā)明者楊杰, 程健章, 謝兵, 鄧曉濤 申請人:未序網(wǎng)絡(luò)科技(上海)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1