漢字查詢方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息搜索技術(shù)領(lǐng)域,尤其涉及一種漢字查詢方法和系統(tǒng)。
【背景技術(shù)】
[0002]漢字的字型結(jié)構(gòu)和字根組合是傳統(tǒng)漢語學(xué)習(xí)和文字游戲中的重要參與元素?;ヂ?lián)網(wǎng)搜索引擎出現(xiàn)后,文字輸入方式是用戶獲取信息的主要方式,當(dāng)用戶遇到生僻字時(shí)用戶可能根據(jù)字根和結(jié)構(gòu)特征進(jìn)行輸入,比如“三個(gè)火念什么”,“兩點(diǎn)水一個(gè)馬念什么”,“ 口里一個(gè)女字猜一字”。另外,用戶還會(huì)經(jīng)常查詢“五行屬木的字”,“帶有犬字的字有哪些”等。
[0003]現(xiàn)在技術(shù)中對這類查詢依然采用的是通用的搜索方式,向用戶提供的是自然搜索結(jié)果,但是,自然搜索結(jié)果不論在準(zhǔn)確度以及覆蓋度等方面都存在問題,難以很好滿足用戶需求。
【發(fā)明內(nèi)容】
[0004]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0005]為此,本發(fā)明的一個(gè)目的在于提出一種漢字查詢方法,該方法可以基于漢字的字根和字型結(jié)構(gòu)完成漢字查詢,提高查詢結(jié)果的準(zhǔn)確度和覆蓋度,更好滿足用戶需求。
[0006]本發(fā)明的另一個(gè)目的在于提出一種漢字查詢系統(tǒng)。
[0007]為達(dá)到上述目的,本發(fā)明第一方面實(shí)施例提出的漢字查詢方法,包括:獲取查詢詞,所述查詢詞中包含待查詢的漢字的結(jié)構(gòu)類信息;將所述查詢詞轉(zhuǎn)換為預(yù)設(shè)格式的請求,所述預(yù)設(shè)格式的請求中包含如下的三元組信息:漢字的字根信息、同一個(gè)字根的數(shù)量信息、漢字的字型結(jié)構(gòu)信息;根據(jù)預(yù)先獲取的漢字與漢字的結(jié)構(gòu)類信息之間的對應(yīng)關(guān)系,確定與所述預(yù)設(shè)格式的請求中包含的三元組信息對應(yīng)的漢字;將確定的漢字作為查詢結(jié)果展示給用戶。
[0008]本發(fā)明第一方面實(shí)施例提出的漢字查詢方法,通過將查詢詞轉(zhuǎn)換為預(yù)設(shè)格式的請求,預(yù)設(shè)格式的請求中包含結(jié)構(gòu)類的三元組信息,以及根據(jù)結(jié)構(gòu)類信息與漢字的對應(yīng)關(guān)系,可以基于漢字的字根和字型結(jié)構(gòu)完成漢字查詢,提高查詢結(jié)果的準(zhǔn)確度和覆蓋度,更好滿足用戶需求。
[0009]為達(dá)到上述目的,本發(fā)明第二方面實(shí)施例提出的漢字查詢系統(tǒng),包括:獲取模塊,用于獲取查詢詞,所述查詢詞中包含待查詢的漢字的結(jié)構(gòu)類信息;轉(zhuǎn)換模塊,用于將所述查詢詞轉(zhuǎn)換為預(yù)設(shè)格式的請求,所述預(yù)設(shè)格式的請求中包含如下的三元組信息:漢字的字根信息、同一個(gè)字根的數(shù)量信息、漢字的字型結(jié)構(gòu)信息;查詢模塊,用于根據(jù)預(yù)先獲取的漢字與漢字的結(jié)構(gòu)類信息之間的對應(yīng)關(guān)系,確定與所述預(yù)設(shè)格式的請求中包含的三元組信息對應(yīng)的漢字;展示模塊,用于將確定的漢字作為查詢結(jié)果展示給用戶。
[0010]本發(fā)明第二方面實(shí)施例提出的漢字查詢系統(tǒng),通過將查詢詞轉(zhuǎn)換為預(yù)設(shè)格式的請求,預(yù)設(shè)格式的請求中包含結(jié)構(gòu)類的三元組信息,以及根據(jù)結(jié)構(gòu)類信息與漢字的對應(yīng)關(guān)系,可以基于漢字的字根和字型結(jié)構(gòu)完成漢字查詢,提高查詢結(jié)果的準(zhǔn)確度和覆蓋度,更好滿足用戶需求。
[0011]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0012]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對實(shí)施例的描述中將變得明顯和容易理解,其中:
[0013]圖1是本發(fā)明一實(shí)施例提出的漢字查詢方法的流程示意圖;
[0014]圖2是本發(fā)明另一實(shí)施例提出的漢字查詢方法的流程示意圖;
[0015]圖3是本發(fā)明另一實(shí)施例提出的漢字查詢系統(tǒng)的結(jié)構(gòu)示意圖;
[0016]圖4是本發(fā)明另一實(shí)施例提出的漢字查詢系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0017]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。相反,本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0018]圖1是本發(fā)明一實(shí)施例提出的漢字查詢方法的流程示意圖,該方法包括:
[0019]Sll:獲取查詢詞,所述查詢詞中包含待查詢的漢字的結(jié)構(gòu)類信息。
[0020]其中,用戶可以以文本、語音或者圖像等方式輸入查詢詞(query)。
[0021]漢字的結(jié)構(gòu)類信息例如待查詢的漢字的字根、字型結(jié)構(gòu)等信息,如查詢詞是:“三個(gè)火念什么”、“帶有犬字的字有哪些”。
[0022]S12:將所述查詢詞轉(zhuǎn)換為預(yù)設(shè)格式的請求,所述預(yù)設(shè)格式的請求中包含如下的三元組信息:漢字的字根信息、同一個(gè)字根的數(shù)量信息、漢字的字型結(jié)構(gòu)信息。
[0023]例如,預(yù)設(shè)格式的請求具有如下格式:{{字根1、字根I的結(jié)構(gòu)位置、字根I的數(shù)量}、{字根2、字根2的結(jié)構(gòu)位置、字根2的數(shù)量}、…}。
[0024]當(dāng)獲取到查詢詞后,可以從查詢詞中提取字根和數(shù)量以及字型結(jié)構(gòu)信息,再根據(jù)這些信息組成上述格式。
[0025]例如,查詢詞是“上X下Y(X和Y都是字根)”,則可以轉(zhuǎn)換為:{{X、上、1}、{Y、下、
I}}。
[0026]S13:根據(jù)預(yù)先獲取的漢字與漢字的結(jié)構(gòu)類信息之間的對應(yīng)關(guān)系,確定與所述預(yù)設(shè)格式的請求中包含的三元組信息對應(yīng)的漢字。
[0027]其中,漢字的結(jié)構(gòu)類信息例如包括:漢字的字根和字型結(jié)構(gòu)。
[0028]漢字與漢字的結(jié)構(gòu)類信息之間的對應(yīng)關(guān)系可以根據(jù)預(yù)先收集的樣本漢字確定。例如,預(yù)先收集大量的漢字作為樣本漢字,對應(yīng)每個(gè)樣本漢字進(jìn)行拆分得到字根,并確定字型結(jié)構(gòu),之后可以建立該樣本漢字與其字根、字型結(jié)構(gòu)之間的對應(yīng)關(guān)系,其余樣本漢字也可以采用相同的方式建立相應(yīng)的對應(yīng)關(guān)系,從而多個(gè)樣本漢字可以組成漢字與漢字的結(jié)構(gòu)類信息之間的對應(yīng)關(guān)系。
[0029]在獲取該對應(yīng)關(guān)系后,可以匹配三元組信息與對應(yīng)關(guān)系中的結(jié)構(gòu)類信息,從而確定出相應(yīng)的漢字。例如,該對應(yīng)關(guān)系中包括:漢字A對應(yīng)漢字A的結(jié)構(gòu)類信息(漢字A的字根和字型結(jié)構(gòu))、漢字B對應(yīng)漢字B的結(jié)構(gòu)類信息(漢字B的字根和字型結(jié)構(gòu))等,如果三元組信息與漢字A的結(jié)構(gòu)類信息一致(或部分一致),則可以確定與該三元組信息對應(yīng)的漢字是漢字A。
[0030]S14:將確定出的漢字作為查詢結(jié)果展示給用戶。
[0031]例如,將漢字A展示給用戶。
[0032]另外,用戶可能不知道漢字怎么讀,因此還可能需要拼音,因此,在確定漢字后,還可以獲取漢字的拼音,并在展示漢字的同時(shí)將漢字的拼音也作為查詢結(jié)果一起展示。在獲取漢字的拼音時(shí),例如還可以建立漢字與拼音的對應(yīng)關(guān)系,從而根據(jù)漢字獲取相應(yīng)的拼音。
[0033]例如,查詢詞是“三個(gè)火念什么”,返回的查詢結(jié)果是“炎[ydm]”,可以理解的是,還可以返回其他信息,如字義。
[0034]本實(shí)施例中,通過將查詢詞轉(zhuǎn)換為預(yù)設(shè)格式的請求,預(yù)設(shè)格式的請求中包含結(jié)構(gòu)類的三元組信息,以及根據(jù)結(jié)構(gòu)類信息與漢字的對應(yīng)關(guān)系,可以基于漢字的字根和字型結(jié)構(gòu)完成漢字查詢,提高查詢結(jié)果的準(zhǔn)確度和覆蓋度,更好滿足用戶需求。
[0035]圖2是本發(fā)明另一實(shí)施例提出的漢字查詢方法的流程示意圖,該方法包括:
[0036]S21:收集樣本漢字。
[0037]例如,可以收集大量的漢字作為樣本漢字,以提高覆蓋率。
[0038]S22:獲取樣本漢字的字根和字型結(jié)構(gòu)。
[0039]其中,每個(gè)字根是可打印可輸入的獨(dú)立漢字。
[0040]在拆分時(shí),可以將樣本漢字按照每個(gè)基本單元直接拆分為每個(gè)字根。例如,“贏”拆分為“亡、口、月、貝、凡”。
[0041]如果基本單元不能作為獨(dú)立漢字,則可以對基本單元進(jìn)行同義替換,用同義的漢字作為字根。例如,“衷”字拆分為“1、中、衣”,“衣”屬于同義替換。
[0042]另外,同一個(gè)漢字可以采用不同的拆分方式,從而得到不同的字根。例如,“想”字,可以拆分為“相、心”,也可以拆分為“木、目、心”。相應(yīng)地,在后續(xù)流程記錄對應(yīng)關(guān)系時(shí),同一個(gè)漢字可以對應(yīng)多種字根。
[0043]另外,還可以確定漢字的字型結(jié)構(gòu),字型結(jié)構(gòu)例如包括:左右結(jié)構(gòu)(包括左中右)、上下結(jié)構(gòu)(包括上中下)、包圍結(jié)構(gòu)(包括半包圍)、獨(dú)立結(jié)構(gòu)(包括嵌套結(jié)構(gòu))。
[0044]S23:將多個(gè)樣本漢字與樣本漢字的字根和字型結(jié)構(gòu)之間的對應(yīng)關(guān)系組成漢字與漢字的結(jié)構(gòu)類信息之間的對應(yīng)關(guān)系。之后,可以將該對應(yīng)關(guān)系保存在特征庫中。
[0045]其中,多個(gè)樣本漢字與其結(jié)構(gòu)類信息可以組成一個(gè)集合,該集合可以稱為漢字與漢字的結(jié)構(gòu)類信息之間的對應(yīng)關(guān)系