一種實(shí)體輸入方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種實(shí)體輸入方法和裝置,涉及輸入法領(lǐng)域。所述方法包括:接收輸入的輸入序列;獲取對應(yīng)輸入序列的至少一個(gè)初始候選項(xiàng);基于知識庫對所述初始候選項(xiàng)進(jìn)行語義分析,并根據(jù)語義分析結(jié)果從知識庫查詢目標(biāo)對象;將所述目標(biāo)對象對應(yīng)的知識內(nèi)容封裝為實(shí)體候選項(xiàng),加載至所述輸入序列對應(yīng)的各候選項(xiàng)中;根據(jù)所述初始候選項(xiàng)的位置,在候選框中展示所述實(shí)體候選項(xiàng)。本發(fā)明可以選取更符合當(dāng)前輸入場景的實(shí)體候選項(xiàng)加載至各候選項(xiàng)中,使目標(biāo)對象可以以實(shí)體對象的形式直接展現(xiàn)給用戶,提高了輸入法的信息容量和精度,提高了復(fù)雜信息輸入的流暢性,提高了輸入效率。
【專利說明】一種實(shí)體輸入方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及輸入法領(lǐng)域,具體涉及一種實(shí)體輸入方法和裝置。
【背景技術(shù)】
[0002]目前,輸入法系統(tǒng)的基本處理過程為:接收用戶按照一定的編碼方式輸入的字符序列,然后將該字符序列轉(zhuǎn)換為字詞形式的多個(gè)候選項(xiàng),再接收用戶選擇的最為匹配的候選項(xiàng)進(jìn)行上屏,從而完成輸入。而實(shí)際中,用戶在輸入的時(shí)候,經(jīng)常會遇到一些在輸入過程中不太確定的,或者需要輸入一些比純文本更豐富的圖片、鏈接等復(fù)雜信息。遇到這樣的情況,用戶一般會切換到瀏覽器,到一些固定的網(wǎng)站進(jìn)行查詢,找到待輸入的相關(guān)答案或者其他復(fù)雜信息之后再在輸入?yún)^(qū)域進(jìn)行粘貼。因此,用戶通過搜索以確定輸入的復(fù)雜信息時(shí),則需要經(jīng)過:打開瀏覽器,在搜索引擎中輸入查詢串,甄別各搜索結(jié)果得到目標(biāo)信息,復(fù)制目標(biāo)信息進(jìn)行轉(zhuǎn)發(fā)等一系列操作過程,導(dǎo)致信息輸入的效率低下。
[0003]因此,現(xiàn)有技術(shù)的上述過程極大的影響到了復(fù)雜信息輸入的流暢性,用戶需要在不同的應(yīng)用軟件中進(jìn)行操作,降低了輸入的效率。
【發(fā)明內(nèi)容】
[0004]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種實(shí)體輸入裝置和相應(yīng)的一種實(shí)體輸入方法。
[0005]依據(jù)本發(fā)明的一個(gè)方面,提供了一種實(shí)體輸入方法,包括:
[0006]接收輸入的輸入序列;
[0007]獲取對應(yīng)輸入序列的至少一個(gè)初始候選項(xiàng);
[0008]基于知識庫對所述初始候選項(xiàng)進(jìn)行語義分析,并根據(jù)語義分析結(jié)果從知識庫查詢目標(biāo)對象;
[0009]將所述目標(biāo)對象對應(yīng)的知識內(nèi)容封裝為實(shí)體候選項(xiàng),加載至所述輸入序列對應(yīng)的各候選項(xiàng)中;
[0010]根據(jù)所述初始候選項(xiàng)的位置,在候選框中展示所述實(shí)體候選項(xiàng)。
[0011]優(yōu)選的,所述基于知識庫對所述初始候選項(xiàng)進(jìn)行語義分析,并根據(jù)語義分析結(jié)果從知識庫查詢目標(biāo)對象包括:
[0012]基于知識庫識別并標(biāo)記所述初始候選項(xiàng)的各詞的標(biāo)簽,得到標(biāo)記序列;所述標(biāo)簽包括:實(shí)體對象、和/或?qū)傩栽~、和/或?qū)?yīng)屬性詞的屬性值;
[0013]利用上下文無關(guān)文法獲得的文法集,對所述標(biāo)記序列進(jìn)行文法分析,并根據(jù)文法分析的結(jié)果在知識庫中進(jìn)行匹配查詢,以獲得知識庫中的知識內(nèi)容作為目標(biāo)對象。
[0014]優(yōu)選的,還包括:針對同一實(shí)體對象,根據(jù)既定的行業(yè)類別構(gòu)建各行業(yè)類別對應(yīng)的實(shí)體對象標(biāo)簽。
[0015]優(yōu)選的,所述基于知識庫識別并標(biāo)記所述初始候選項(xiàng)的各詞的標(biāo)簽時(shí),
[0016]遍歷實(shí)體對象表,對所述初始候選項(xiàng)中的實(shí)體對象進(jìn)行標(biāo)記;[0017]根據(jù)每個(gè)實(shí)體對象的標(biāo)簽對應(yīng)的所屬行業(yè)類別,遍歷相應(yīng)行業(yè)類別中的屬性詞表,對所述初始候選項(xiàng)中的各屬性詞進(jìn)行屬性詞標(biāo)記。
[0018]優(yōu)選的,所述基于知識庫識別并標(biāo)記所述初始候選項(xiàng)的各詞的標(biāo)簽,得到標(biāo)記序列,包括:
[0019]當(dāng)對一實(shí)體對象對應(yīng)不同行業(yè)類別的實(shí)體對象進(jìn)行標(biāo)記時(shí),分別將所述實(shí)體對象的標(biāo)簽與所述實(shí)體對象上下文的其他分詞對應(yīng)的詞性標(biāo)簽進(jìn)行組合,獲得標(biāo)記序列;
[0020]將所述各標(biāo)記序列分別與既定的匹配模板進(jìn)行匹配,確定最終的標(biāo)記序列。
[0021]優(yōu)選的,所述將所述各標(biāo)記序列分別與既定的匹配模板進(jìn)行匹配,確定最終的標(biāo)記序列包括:
[0022]將所述各標(biāo)記序列分別與既定的匹配模板進(jìn)行匹配,選擇出現(xiàn)概率最大的標(biāo)記序列作為最終的標(biāo)記序列。
[0023]優(yōu)選的,所述利用上下文無關(guān)文法獲得的文法集,對所述標(biāo)記序列進(jìn)行文法分析,并根據(jù)文法分析的結(jié)果在知識庫中進(jìn)行匹配查詢,以獲得知識庫中的知識內(nèi)容作為目標(biāo)對象包括:
[0024]利用上下文無關(guān)文法獲得的文法集,對所述標(biāo)記序列進(jìn)行文法分析,將文法分析結(jié)果進(jìn)行轉(zhuǎn)換以得到機(jī)器查詢語言;
[0025]根據(jù)所述機(jī)器查詢語言在知識庫中進(jìn)行查詢,將得到的知識內(nèi)容作為目標(biāo)對象。
[0026]優(yōu)選的,所述利用上下文無關(guān)文法獲得的文法集,對所述標(biāo)記序列進(jìn)行文法分析時(shí),包括:
[0027]利用以上下文無關(guān)文法確定的文法集,對所述標(biāo)記序列進(jìn)行遞歸規(guī)約,并根據(jù)規(guī)約子句與初始SQL子句的對應(yīng)關(guān)系,將遞歸規(guī)約過程中出現(xiàn)的子語句進(jìn)行記錄;
[0028]當(dāng)規(guī)約結(jié)束時(shí),根據(jù)各初始SQL子句的歸屬關(guān)系、以及各初始SQL語句使用的標(biāo)簽中對應(yīng)的詞,組裝為完整SQL語句。
[0029]優(yōu)選的,所述識別并標(biāo)記所述初始候選項(xiàng)的各詞的標(biāo)簽時(shí),還包括:
[0030]識別所述屬性詞所屬的編號,在所述在屬性詞的標(biāo)簽中添加所述詞性對應(yīng)的編號;
[0031]進(jìn)一步的,所述將遞歸規(guī)約過程中出現(xiàn)的子語句進(jìn)行記錄包括:
[0032]以所述標(biāo)記序列的首個(gè)標(biāo)簽開始,在基于文法集進(jìn)行遞歸規(guī)約過程中,根據(jù)屬性詞標(biāo)簽的編號確認(rèn)下一輪的規(guī)約子語句,直至子語句規(guī)約完畢。
[0033]優(yōu)選的,所述將所述目標(biāo)對象對應(yīng)的知識內(nèi)容封裝為實(shí)體候選項(xiàng)包括:
[0034]以圖片為載體,將所述目標(biāo)對象的知識內(nèi)容加入所述圖片中,封裝為所述實(shí)體候選項(xiàng)。
[0035]優(yōu)選的,所述實(shí)體候選項(xiàng)在各候選項(xiàng)中的數(shù)量大于一個(gè)時(shí),根據(jù)輸入的匹配符進(jìn)行匹配;所述匹配符與各實(shí)體候選項(xiàng)對應(yīng)的知識內(nèi)容所屬的行業(yè)類別和/或標(biāo)識相對應(yīng)。
[0036]優(yōu)選的,還包括:
[0037]所述實(shí)體候選項(xiàng)在各候選項(xiàng)中的數(shù)量大于一個(gè)時(shí),將各實(shí)體候選項(xiàng)分別加載至候選區(qū)域的二級菜單。
[0038]優(yōu)選的,還包括:
[0039]當(dāng)所述初始候選項(xiàng)被觸發(fā)時(shí),將所述實(shí)體候選項(xiàng)附著所述初始候選項(xiàng)上屏,供用戶進(jìn)行觸發(fā);
[0040]或者,
[0041]所述實(shí)體候選項(xiàng)被點(diǎn)擊后,調(diào)用對應(yīng)封裝的知識內(nèi)容在本地進(jìn)行加載,分析展現(xiàn)對應(yīng)的知識內(nèi)容,供當(dāng)前用戶進(jìn)行查看。
[0042]優(yōu)選的,所述知識內(nèi)容包括媒體對象,
[0043]所述媒體對象包括圖片、音樂、flash、視頻,將所述媒體對象被封裝為實(shí)體候選項(xiàng)后,附著于所述初始候選項(xiàng)供用戶進(jìn)行上屏或查看。
[0044]本發(fā)明還公開了一種實(shí)體輸入裝置,包括:
[0045]序列接收模塊,用于接收輸入的輸入序列;
[0046]初始候選項(xiàng)獲取模塊,用于獲取對應(yīng)輸入序列的至少一個(gè)初始候選項(xiàng);
[0047]目標(biāo)對象獲取模塊,用于基于知識庫對所述初始候選項(xiàng)進(jìn)行語義分析,并根據(jù)語義分析結(jié)果從知識庫查詢目標(biāo)對象;
[0048]封裝模塊,用于將所述目標(biāo)對象對應(yīng)的知識內(nèi)容封裝為實(shí)體候選項(xiàng),加載至所述輸入序列對應(yīng)的各候選項(xiàng)中;
[0049]展現(xiàn)模塊,用于根據(jù)所述初始候選項(xiàng)的位置,在候選框中展示所述實(shí)體候選項(xiàng)。
[0050]優(yōu)選的,所述目標(biāo)對象獲取模塊包括:
[0051]詞性標(biāo)記模塊,用于基于知識庫識別并標(biāo)記所述初始候選項(xiàng)的各詞的標(biāo)簽,得到標(biāo)記序列;所述標(biāo)簽包括:實(shí)體對象、和/或?qū)傩栽~、和/或?qū)?yīng)屬性詞的屬性值;
[0052]查詢分析模塊,用于利用上下文無關(guān)文法獲得的文法集,對所述標(biāo)記序列進(jìn)行文法分析,并根據(jù)文法分析的結(jié)果在知識庫中進(jìn)行匹配查詢,以獲得知識庫中的知識內(nèi)容作為目標(biāo)對象。
[0053]優(yōu)選的,所述封裝模塊包括:
[0054]第一封裝模塊,用于以圖片為載體,將所述目標(biāo)對象的知識內(nèi)容加入所述圖片中,封裝為所述實(shí)體候選項(xiàng)。
[0055]優(yōu)選的,還包括:
[0056]上屏模塊,用于當(dāng)所述初始候選項(xiàng)被觸發(fā)時(shí),所述實(shí)體候選項(xiàng)附著所述初始候選項(xiàng)上屏,供用戶進(jìn)行觸發(fā);
[0057]或者,
[0058]分析展示模塊,用于所述實(shí)體候選項(xiàng)被點(diǎn)擊后,調(diào)用對應(yīng)封裝的知識內(nèi)容在本地進(jìn)行加載,分析展現(xiàn)對應(yīng)的知識內(nèi)容,供當(dāng)前用戶進(jìn)行查看
[0059]優(yōu)選的,所述知識內(nèi)容包括媒體對象,
[0060]所述媒體對象包括圖片、音樂、flash、視頻,將所述媒體對象被封裝為實(shí)體候選項(xiàng)后,附著于所述初始候選項(xiàng)供用戶進(jìn)行上屏或查看。
[0061]與現(xiàn)有技術(shù)相比,本申請包括以下優(yōu)點(diǎn):
[0062]本申請選擇候選項(xiàng)的對應(yīng)文本進(jìn)行語義分析,根據(jù)語義分析結(jié)果從知識庫查詢目標(biāo)對象,封裝后加載至各候選項(xiàng)中進(jìn)行展示,而且將候選項(xiàng)的對應(yīng)文本進(jìn)行語義分析,選取更符合當(dāng)前輸入場景的實(shí)體候選項(xiàng)加載至各候選項(xiàng)中,使符合用戶需求的復(fù)雜信息以實(shí)體候選項(xiàng)的形式直接、準(zhǔn)確地供用戶進(jìn)行輸入,提高了輸入法的信息容量和輸入精度,提高了復(fù)雜信息輸入的流暢性,從而提高了輸入效率?!緦@綀D】
【附圖說明】
[0063]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0064]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的其示出了本發(fā)明的開發(fā)思路架構(gòu)圖;
[0065]圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種實(shí)體輸入方法的流程示意圖;
[0066]圖2A示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種實(shí)體輸入方法的規(guī)約過程示例;
[0067]圖2B示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種實(shí)體輸入方法的展示界面;
[0068]圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種實(shí)體輸入方法的流程示意圖;
[0069]圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種實(shí)體輸入方法的流程示意圖;
[0070]圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種實(shí)體輸入方法的流程示意圖;
圖5A示出了本發(fā)明一種實(shí)體輸入方法的示例一的規(guī)約過程示例;
[0071]圖5B示出了本發(fā)明一種實(shí)體輸入方法的示例一的展示界面
[0072]圖5C示出了本發(fā)明一種實(shí)體輸入方法的示例二的規(guī)約過程示例;
[0073]圖示出了本發(fā)明一種實(shí)體輸入方法的示例二的展示界面;
[0074]圖5E示出了本發(fā)明一種實(shí)體輸入方法的候選框的展示界面;
[0075]圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種實(shí)體輸入裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0076]下面將參照附圖更詳細(xì)地描述本發(fā)明公開的示例性實(shí)施例。
[0077]本發(fā)明的核心思想之一在于,在輸入法系統(tǒng)的傳統(tǒng)的輸入方式中,以輸入法系統(tǒng)對用戶的輸入序列進(jìn)行傳統(tǒng)識別得到的候選項(xiàng)為基礎(chǔ),選擇這些候選項(xiàng)結(jié)果中的某個(gè)或者某些初始候選項(xiàng)進(jìn)行語義分析,然后根據(jù)語義分析結(jié)果從知識庫查詢目標(biāo)對象,再將目標(biāo)對象對應(yīng)的知識內(nèi)容封裝為實(shí)體候選項(xiàng),加載至各候選項(xiàng)中,與初始候選項(xiàng)一起成為對應(yīng)輸入序列的候選項(xiàng)結(jié)果,當(dāng)用戶觸發(fā)時(shí),所述實(shí)體候選項(xiàng)附著所述初始候選項(xiàng)上屏,供用戶進(jìn)行觸發(fā)。
[0078]參照圖1,其示出了本發(fā)明的核心思路之一的架構(gòu)圖,本發(fā)明由用戶輸入的輸入序列,輸入法接收所述輸入序列,則按傳統(tǒng)的執(zhí)行過程向用戶提供候選項(xiàng),在輸入法的執(zhí)行過程中,本發(fā)明選擇輸入法的某個(gè)或者某些候選項(xiàng)基于知識庫進(jìn)行語義分析,通過知識庫中的知識內(nèi)容向用戶提供候選項(xiàng)(在本發(fā)明中即為實(shí)體候選項(xiàng))。
[0079]本發(fā)明選取更符合當(dāng)前輸入場景的實(shí)體候選項(xiàng)加載至各候選項(xiàng)中,使目標(biāo)對象可以以圖片鏈接的形式直接展現(xiàn)給用戶,可以提高輸入的流暢性,不需要用戶在不同的應(yīng)用軟件中進(jìn)行切換,并且提高了輸入的信息量和精度,降低了用戶輸入的成本,提高了輸入的效率。
[0080]另外,為了更好的理解本發(fā)明,下面對涉及到的重要術(shù)語進(jìn)行解釋:
[0081]輸入法系統(tǒng):其基本過程是用戶先輸入拼音串,然后輸入法將拼音串或五筆序列串轉(zhuǎn)換為字詞候選項(xiàng),用戶再選擇想要候選項(xiàng)進(jìn)行上屏,從而完成輸入。不同語言、國家、或地區(qū),有多種不同的輸入法。本發(fā)明以漢字輸入方法為例進(jìn)行描述,漢字輸入的編碼方法,基本上都是采用將音、形、義與特定的鍵相聯(lián)系,再根據(jù)不同漢字進(jìn)行組合來完成漢字的輸入的,中文輸入法編碼可分為幾類:音碼、形碼、音形碼、無理碼等。輸入法發(fā)展到現(xiàn)在,無論從深度或者廣度來說都已經(jīng)相當(dāng)成熟。從最開始的單子,詞組輸入,到目前的短語,長句聯(lián)想輸入;從單獨(dú)考慮詞頻,到目前考慮上下文,互聯(lián)網(wǎng)詞庫,輸入場景等技術(shù)的使用,使得輸入法在朝著更快、更準(zhǔn)、更智能的方向發(fā)展。
[0082]知識庫:是知識工程中結(jié)構(gòu)化,易操作,易利用,全面有組織的知識集群,是針對某一(或某些)領(lǐng)域問題求解的需要,采用某種(或若干)知識表示方式在計(jì)算機(jī)存儲器中結(jié)構(gòu)化存儲、組織、管理和使用的互相聯(lián)系的知識片集合。這些知識片包括全網(wǎng)中與各領(lǐng)域相關(guān)的理論知識、事實(shí)數(shù)據(jù),由專家經(jīng)驗(yàn)得到的啟發(fā)式知識,如某領(lǐng)域內(nèi)有關(guān)的定義、定理和運(yùn)算法則以及常識性知識等。在本發(fā)明中知識庫具有實(shí)體對象和對應(yīng)的屬性信息。比如,實(shí)體對象:對應(yīng)的一個(gè)具體的個(gè)體,在明星類別中,比如劉德華,張柏芝,林青霞等,也包含一些寬泛的代表類別的個(gè)體,比如人,電影明星,歌手等。屬性:就是實(shí)體所包含的特性,除了包含屬性名稱外,每個(gè)屬性還有一個(gè)反應(yīng)屬性值類型的類型變量,比如:[身高:長度],[年齡:整數(shù)],[出生日期:日期],[配偶:人名]等。
[0083]實(shí)施例一
[0084]參照圖2,其示出了本發(fā)明一種實(shí)體輸入方法的流程示意圖,包括:
[0085]步驟102,接收輸入的輸入序列;
[0086]如,用戶輸入“FEICHANGXINGYUNDESHANGYINGSHIJIAN”,本發(fā)明的輸入法系統(tǒng)則接收該輸入序列。
[0087]步驟104,獲取對應(yīng)輸入序列的至少一個(gè)初始候選項(xiàng);
[0088]用戶在調(diào)用輸入法進(jìn)行字符輸入的過程中,輸入法首先會根據(jù)已有的執(zhí)行流程和算法,給出輸入法自身的用戶候選項(xiàng)。即在輸入法系統(tǒng)中,其正常的輸入方式即為識別輸入序列,在詞庫中選擇與輸入序列匹配的字/詞,按匹配度生成候選項(xiàng),然后將各初始候選項(xiàng)排序展現(xiàn)至候選框,為用戶已輸入的文字候選。
[0089]本發(fā)明則將輸入法系統(tǒng)按正常模式從詞庫中轉(zhuǎn)換得到的候選項(xiàng)中選擇至少一個(gè)初始候選項(xiàng),以進(jìn)行本發(fā)明的特殊處理過程。
[0090]優(yōu)選的,獲取對應(yīng)輸入序列的至少一個(gè)初始候選項(xiàng)包括:
[0091]步驟A10,選擇與輸入序列匹配度最高的初始候選項(xiàng)或者選擇由用戶選擇確定的排在各候選項(xiàng)首位的作為初始候選項(xiàng)。
[0092]在本發(fā)明實(shí)施例中一般即選擇匹配度最高的,即排在各候選項(xiàng)首位的文字候選作為初始候選項(xiàng),因?yàn)閷τ谳斎敕ㄏ到y(tǒng)來說,其一般是將與輸入序列匹配度最高的初始候選項(xiàng)排在首位。另外,由于用戶在輸入過程中匹配度最高的字詞在各候選項(xiàng)的首位顯示,用戶在輸入較長的輸入序列時(shí),很可能需要選擇哪些詞在各候選項(xiàng)的首位顯示。
[0093]前述“feichangxingyundeshangyingshijian”,輸入法系統(tǒng)得到的各候選項(xiàng)的首位文字候選,即初始候選項(xiàng)為“非常幸運(yùn)的上映時(shí)間”,那么本發(fā)明實(shí)施例則獲取到的該初始候選項(xiàng)進(jìn)行后續(xù)處理。
[0094]步驟106,基于知識庫對所述初始候選項(xiàng)進(jìn)行語義分析,并根據(jù)語義分析結(jié)果從知識庫查詢目標(biāo)對象;
[0095]本發(fā)明選擇了初始候選項(xiàng)后,基于知識庫的數(shù)據(jù)結(jié)構(gòu)對初始候選項(xiàng)進(jìn)行語義分析,分析用戶的輸入目的,然后根據(jù)語義分析結(jié)果從知識庫查詢目標(biāo)對象,將目標(biāo)對象加入到候選項(xiàng)來提供用戶已輸入的文字候選,即初始候選項(xiàng)對應(yīng)的答案。
[0096]語義分析:對于需要機(jī)器處理的自然語言,需要采用語義理解模型對句子等進(jìn)行語義理解,以最終使機(jī)器理解句子的意思。比如語義場理論的語義理解模型,格語法的語義理解模型等。
[0097]優(yōu)選的,所述基于知識庫對所述初始候選項(xiàng)進(jìn)行語義分析,并根據(jù)語義分析結(jié)果從知識庫查詢目標(biāo)對象包括:
[0098]步驟A20,基于知識庫識別并標(biāo)記所述初始候選項(xiàng)的各詞的標(biāo)簽,得到標(biāo)記序列;所述標(biāo)簽包括:實(shí)體對象、和/或?qū)傩栽~、和/或?qū)?yīng)屬性詞的屬性值;
[0099]在本發(fā)明實(shí)施例中,知識庫的是結(jié)構(gòu)化存儲信息的,其結(jié)構(gòu)大致為:實(shí)體對象,實(shí)體對象下的各屬性詞、各屬性詞下的屬性值。而本發(fā)明則基于知識庫識別初始候選項(xiàng)中的各詞的詞性,即對初始候選項(xiàng)中各詞進(jìn)行標(biāo)記,即預(yù)先對知識庫中的詞采用標(biāo)簽進(jìn)行對應(yīng),所述標(biāo)簽包括:實(shí)體對象的標(biāo)簽、和/或?qū)傩栽~的標(biāo)簽、和/或?qū)?yīng)屬性詞的屬性值的標(biāo)簽。
[0100]即本發(fā)明中,還包括:
[0101]步驟A21,針對同一實(shí)體對象,根據(jù)既定的行業(yè)類別構(gòu)建各行業(yè)類別對應(yīng)的實(shí)體對象標(biāo)簽。
[0102]在本發(fā)明實(shí)施例中知識庫的實(shí)體可以對應(yīng)的行業(yè)類別構(gòu)建,比如電影、電視、人物、公司、書籍等行業(yè)類別,那么可能存在同一實(shí)體對象對應(yīng)不同類別的情況,比如“甄嫘傳”可能有電視類的,也有書籍類的,那么需要針對不同類別的實(shí)體對象構(gòu)建不同行業(yè)類別的實(shí)體對象對應(yīng)的標(biāo)簽,比如〈PERS0N>、〈M0VIE>、〈TVXC0MPANY>、〈B00K>等各行業(yè)類別的實(shí)體對象標(biāo)簽。
[0103]在本發(fā)明實(shí)施例中,還可根據(jù)知識類別構(gòu)建各行業(yè)類別對應(yīng)的實(shí)體對象標(biāo)簽。比如名人,植物,汽車等按知識內(nèi)容分的類別。
[0104]當(dāng)然,為了對初始候選項(xiàng)的除了上述詞之外的其他中間詞也進(jìn)行標(biāo)記,本發(fā)明的標(biāo)簽還可包括中間詞標(biāo)簽。在本發(fā)明實(shí)施例中除了實(shí)體對象、屬性詞、屬性值之外的詞均可用中間詞標(biāo)簽,即本發(fā)明實(shí)施例對于比如“的”,“啦”,“啊”等無意義的詞或字,動詞“看看” “讀讀”等動詞,還有簡單且有獨(dú)立語義的文字段,比如“能否幫我”,“你知不知道”,“幫我查一下”等都可作為中間詞。在本發(fā)明實(shí)施例中,主要會識別實(shí)體對象、屬性詞、屬性值,這三種詞之外的詞都可設(shè)置為中間詞,本發(fā)明可根據(jù)實(shí)際詞的使用情況構(gòu)建中間詞表,t匕如前述的動詞、無意義的詞、單獨(dú)且有獨(dú)立語義的文字段,形容詞等等。
[0105]優(yōu)選的,基于知識庫識別并標(biāo)記所述初始候選項(xiàng)的各詞的標(biāo)簽,得到標(biāo)記序列包括:
[0106]步驟S10,遍歷中間詞表,對所述初始候選項(xiàng)中的中間詞進(jìn)行中間詞標(biāo)記;
[0107]在本發(fā)明實(shí)施例中首先會對初始候選項(xiàng)進(jìn)行分詞,然后進(jìn)行標(biāo)記。本發(fā)明實(shí)施例中,對中間詞也會進(jìn)行詞性劃分,比如動詞、形容詞、或者的、得等無意義的詞等,并且可對不同類別下的中間詞進(jìn)行編號,以進(jìn)一步劃分子類別,比如動詞,其標(biāo)簽可為<P0S_VERB_ID>,ID為各種動詞的編號,不同的動詞有不同的編號,其在語料庫中與不同的名詞、形容詞組合的概率不同。那么在進(jìn)行中間詞標(biāo)記時(shí),則可采用上述標(biāo)簽。[0108]步驟S12,遍歷實(shí)體對象表,對所述初始候選項(xiàng)中的實(shí)體對象進(jìn)行標(biāo)記;
[0109]本步驟進(jìn)行實(shí)體識別,通過預(yù)先制作的知識庫的實(shí)體對象表,將候選項(xiàng)中的實(shí)體對象標(biāo)示出來。
[0110]步驟S13,根據(jù)每個(gè)實(shí)體對象的標(biāo)簽對應(yīng)的所屬行業(yè)類別,遍歷相應(yīng)行業(yè)類別中的屬性詞表,對所述初始候選項(xiàng)中的各屬性詞進(jìn)行屬性詞標(biāo)記。
[0111]本步驟進(jìn)行實(shí)體對象中的各屬性進(jìn)行識別,通過知識庫里的結(jié)構(gòu)化數(shù)據(jù),將用戶輸入串中的實(shí)體對象對應(yīng)的屬性詞也進(jìn)行標(biāo)記,例如,“年齡”,“身高”是各種作為實(shí)體對象的“人”對應(yīng)的屬性詞,“導(dǎo)演”,“演員”等是各種作為實(shí)體對象的“電影”、“電視劇”對應(yīng)的屬性詞。
[0112]另外,在本發(fā)明實(shí)施例中屬性詞也可按行業(yè)類別進(jìn)行分類,也可對各分類下的屬性詞進(jìn)行編號標(biāo)記,以進(jìn)一步劃分子類別。
[0113]比如,對于前述初始候選項(xiàng)“非常幸運(yùn)的上映時(shí)間”,可識別獲得標(biāo)記序列:
[0114]“非常幸運(yùn)〈MOVIE〉的 <P0S_DEG> 上映時(shí)間 <P_M0VIE_5>”。
[0115]步驟A22,利用上下文無關(guān)文法獲得的文法集,對所述標(biāo)記序列進(jìn)行文法分析,并根據(jù)文法分析的結(jié)果在知識庫中進(jìn)行匹配查詢,以獲得知識庫中的知識內(nèi)容作為目標(biāo)對象。
[0116]在本發(fā)明中對于得到的標(biāo)記序列,可進(jìn)行文法分析,得到查詢序列,基于查詢序列去知識庫中的知識內(nèi)容進(jìn)行匹配查詢以獲得目標(biāo)對象。
[0117]文法的定義描述語言語法結(jié)構(gòu)的形式規(guī)則稱為文法。文法通常定義為四元組:
[0118]G= (VN, VT, P, S)
[0119]VN-非終結(jié)符號集
[0120]VT——終結(jié)符號集
[0121 ] P—產(chǎn)生式或規(guī)則的集合
[0122]S——開始符號(識別符號),S e VN
[0123]產(chǎn)生式是一個(gè)有序?qū)?U,X),通常寫為:U —X ;非終結(jié)符號出現(xiàn)在產(chǎn)生式的左部,且能推出符號或符號串的那些符號,其全體構(gòu)成非終結(jié)符號集,記為VN。終結(jié)符號不出現(xiàn)在產(chǎn)生式的左部,且不能推出符號或符號串的那些符號。
[0124]本發(fā)明則基于上述文法定義構(gòu)建的文法集進(jìn)行文法分析。
[0125]優(yōu)選的,所述利用上下文無關(guān)文法獲得的文法集,對所述標(biāo)記序列進(jìn)行文法分析,并根據(jù)文法分析的結(jié)果在知識庫中進(jìn)行匹配查詢,以獲得知識庫中的知識內(nèi)容作為目標(biāo)對象包括:
[0126]步驟A30,利用上下文無關(guān)文法獲得的文法集,對所述標(biāo)記序列進(jìn)行文法分析,將文法分析結(jié)果進(jìn)行轉(zhuǎn)換以得到機(jī)器查詢語言;
[0127]本發(fā)明可針對輸入序列的文法分析結(jié)果對應(yīng)機(jī)器查詢語言,根據(jù)對應(yīng)關(guān)系將文法分析結(jié)果進(jìn)行轉(zhuǎn)換,得到機(jī)器查詢語言,比如SQL語言。
[0128]優(yōu)選的,所述將所述標(biāo)記序列進(jìn)行文法分析,將文法分析結(jié)果進(jìn)行轉(zhuǎn)換得到機(jī)器查詢語言包括:
[0129]子步驟S30,利用以上下文無關(guān)文法確定的文法集,對所述標(biāo)記序列進(jìn)行遞歸規(guī)約,并根據(jù)規(guī)約子句與初始SQL子句的對應(yīng)關(guān)系,將遞歸規(guī)約過程中出現(xiàn)的子語句進(jìn)行記錄;
[0130]在本發(fā)明實(shí)施例中,以上下文無關(guān)文法確定文法集,并將文法集的規(guī)約子句對應(yīng)SQL子句,那么在掃描標(biāo)記序列中的標(biāo)記時(shí),即可并根據(jù)規(guī)約子句與初始SQL子句的對應(yīng)關(guān)系,將遞歸規(guī)約過程中出現(xiàn)的子語句進(jìn)行記錄。在本發(fā)明中,本步驟只掃描SQL子句中的標(biāo)簽,包括實(shí)體對象標(biāo)簽、屬性詞標(biāo)簽、中間詞標(biāo)簽等。
[0131]在本發(fā)明利用以上下文無關(guān)文法確定的文法集,對所述標(biāo)記序列進(jìn)行遞歸規(guī)約之前,還包括,去掉中間詞標(biāo)簽。
[0132]子步驟S32,當(dāng)規(guī)約結(jié)束時(shí),根據(jù)各初始SQL子句的歸屬關(guān)系、以及各初始SQL語句使用的標(biāo)簽中對應(yīng)的詞,組裝為完整SQL語句。
[0133]在獲得各SQL語句后,即可根據(jù)各初始SQL子句的歸屬關(guān)系、以及各初始SQL語句使用的詞性標(biāo)記中對應(yīng)的詞,組裝為完整SQL語句。
[0134]以前述標(biāo)記序列“非常幸運(yùn)〈MOVIE〉的<P0S_DEG>上映時(shí)間<P_M0VIE_5>”為例,說明上述利用文法集規(guī)約的過程,如圖2A:
[0135]本發(fā)明實(shí)施例在開始規(guī)約時(shí),只掃描被標(biāo)記的標(biāo)簽,上述標(biāo)記序列中標(biāo)簽的順序?yàn)椤?lt;M0VIEXP0S_DEGXP_M0VIE_5>”,本發(fā)明實(shí)施例中,首先將序列傳中的中間詞標(biāo)記去掉中間詞對應(yīng)的標(biāo)簽<P0S_DEG>,然后從左向右掃描,遇到實(shí)體對象標(biāo)簽〈M0VIE〉,則在文法集合中進(jìn)行查找,找到對應(yīng)的規(guī)約子句“〈MOVIE〉一〈ENTITY〉”,則將實(shí)體對象標(biāo)簽〈MOVIE〉規(guī)約到〈ENTITY〉,同時(shí)保存當(dāng)前規(guī)約語句的SQL子句“ SQL: SELECT^ffHERENAME#〈ENTITY〉””。同樣標(biāo)簽屬性詞標(biāo)簽 <P_M0VIE_5> 會被“〈?_1?^比_5> —〈PROPERTY〉”規(guī)約到〈PROPERTY〉,該規(guī)約子句沒有相應(yīng)的SQL子句,第一輪掃描完成,檢查狀態(tài)沒有進(jìn)入到結(jié)束標(biāo)簽〈S〉。則遞歸進(jìn)入新一輪規(guī)約,以規(guī)約后的標(biāo)簽組合在文法集中找到“〈ENTITYXPR0PERTY〉一〈VALUE〉”,則進(jìn)行規(guī)約到〈VALUE〉,同時(shí)記錄 SQL 子句“SQL: SELECT〈PR0PERTY>FR0M〈ENTITY>”,最后進(jìn)行規(guī)約“〈VALUE〉一〈S〉”,檢查到〈S〉,則進(jìn)入到規(guī)約結(jié)束狀態(tài)。
[0136]當(dāng)結(jié)束時(shí),則根據(jù)SQL語句的歸屬關(guān)系,將SQL: SELECT*WHERE NAME= “〈ENTITY〉”包含于SQL:SELECT〈PR0PERTY>FR0M〈ENTITY>,使用到的〈PROPERTY〉對應(yīng)屬性詞“上映時(shí)間”,〈ENTITY〉對應(yīng)實(shí)體對象“非常幸運(yùn)”,那么即可得到最終的SQL語句:SELECT上映時(shí)間FROM (SELECT*WHERE NAME= “非常幸運(yùn)”)。
[0137]上述例子使用到的文法集包括下表一的內(nèi)容:
[0138]
【權(quán)利要求】
1.一種實(shí)體輸入方法,其特征在于,包括: 接收輸入的輸入序列; 獲取對應(yīng)輸入序列的至少一個(gè)初始候選項(xiàng); 基于知識庫對所述初始候選項(xiàng)進(jìn)行語義分析,并根據(jù)語義分析結(jié)果從知識庫查詢目標(biāo)對象; 將所述目標(biāo)對象對應(yīng)的知識內(nèi)容封裝為實(shí)體候選項(xiàng),加載至所述輸入序列對應(yīng)的各候選項(xiàng)中; 根據(jù)所述初始候選項(xiàng)的位置,在候選框中展示所述實(shí)體候選項(xiàng)。
2.如權(quán)利要求1所述的方法,其特征在于,所述基于知識庫對所述初始候選項(xiàng)進(jìn)行語義分析,并根據(jù)語義分析結(jié)果從知識庫查詢目標(biāo)對象包括: 基于知識庫識別并標(biāo)記所述初始候選項(xiàng)的各詞的標(biāo)簽,得到標(biāo)記序列;所述標(biāo)簽包括:實(shí)體對象、和/或?qū)傩栽~、和/或?qū)?yīng)屬性詞的屬性值; 利用上 下文無關(guān)文法獲得的文法集,對所述標(biāo)記序列進(jìn)行文法分析,并根據(jù)文法分析的結(jié)果在知識庫中進(jìn)行匹配查詢,以獲得知識庫中的知識內(nèi)容作為目標(biāo)對象。
3.如權(quán)利要求2所述的方法,其特征在于,還包括:針對同一實(shí)體對象,根據(jù)既定的行業(yè)類別構(gòu)建各行業(yè)類別對應(yīng)的實(shí)體對象標(biāo)簽。
4.如權(quán)利要求2或3所述的方法,其特征在于,所述基于知識庫識別并標(biāo)記所述初始候選項(xiàng)的各詞的標(biāo)簽時(shí), 遍歷實(shí)體對象表,對所述初始候選項(xiàng)中的實(shí)體對象進(jìn)行標(biāo)記; 根據(jù)每個(gè)實(shí)體對象的標(biāo)簽對應(yīng)的所屬行業(yè)類別,遍歷相應(yīng)行業(yè)類別中的屬性詞表,對所述初始候選項(xiàng)中的各屬性詞進(jìn)行屬性詞標(biāo)記。
5.如權(quán)利要求2或3所述的方法,其特征在于,所述基于知識庫識別并標(biāo)記所述初始候選項(xiàng)的各詞的標(biāo)簽,得到標(biāo)記序列,包括: 當(dāng)對一實(shí)體對象對應(yīng)不同行業(yè)類別的實(shí)體對象進(jìn)行標(biāo)記時(shí),分別將所述實(shí)體對象的標(biāo)簽與所述實(shí)體對象上下文的其他分詞對應(yīng)的詞性標(biāo)簽進(jìn)行組合,獲得標(biāo)記序列; 將所述各標(biāo)記序列分別與既定的匹配模板進(jìn)行匹配,確定最終的標(biāo)記序列。
6.如權(quán)利要求5所述的方法,其特征在于,所述將所述各標(biāo)記序列分別與既定的匹配模板進(jìn)行匹配,確定最終的標(biāo)記序列包括: 將所述各標(biāo)記序列分別與既定的匹配模板進(jìn)行匹配,選擇出現(xiàn)概率最大的標(biāo)記序列作為最終的標(biāo)記序列。
7.如權(quán)利要求2所述的方法,其特征在于,所述利用上下文無關(guān)文法獲得的文法集,對所述標(biāo)記序列進(jìn)行文法分析,并根據(jù)文法分析的結(jié)果在知識庫中進(jìn)行匹配查詢,以獲得知識庫中的知識內(nèi)容作為目標(biāo)對象包括: 利用上下文無關(guān)文法獲得的文法集,對所述標(biāo)記序列進(jìn)行文法分析,將文法分析結(jié)果進(jìn)行轉(zhuǎn)換以得到機(jī)器查詢語言; 根據(jù)所述機(jī)器查詢語言在知識庫中進(jìn)行查詢,將得到的知識內(nèi)容作為目標(biāo)對象。
8.如權(quán)利要求7所述的方法,其特征在于,所述利用上下文無關(guān)文法獲得的文法集,對所述標(biāo)記序列進(jìn)行文法分析時(shí),包括: 利用以上下文無關(guān)文法確定的文法集,對所述標(biāo)記序列進(jìn)行遞歸規(guī)約,并根據(jù)規(guī)約子句與初始SQL子句的對應(yīng)關(guān)系,將遞歸規(guī)約過程中出現(xiàn)的子語句進(jìn)行記錄; 當(dāng)規(guī)約結(jié)束時(shí),根據(jù)各初始SQL子句的歸屬關(guān)系、以及各初始SQL語句使用的標(biāo)簽中對應(yīng)的詞,組裝為完整SQL語句。
9.如權(quán)利要求8所述的方法,其特征在于,所述識別并標(biāo)記所述初始候選項(xiàng)的各詞的標(biāo)簽時(shí),還包括: 識別所述屬性詞所屬的編號,在所述在屬性詞的標(biāo)簽中添加所述詞性對應(yīng)的編號; 進(jìn)一步的,所述將遞歸規(guī)約過程中出現(xiàn)的子語句進(jìn)行記錄包括: 以所述標(biāo)記序列的首個(gè)標(biāo)簽開始,在基于文法集進(jìn)行遞歸規(guī)約過程中,根據(jù)屬性詞標(biāo)簽的編號確認(rèn)下一輪的規(guī)約子語句,直至子語句規(guī)約完畢。
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述目標(biāo)對象對應(yīng)的知識內(nèi)容封裝為實(shí)體候選項(xiàng)包括: 以圖片為載體,將所述目標(biāo)對象的知識內(nèi)容加入所述圖片中,封裝為所述實(shí)體候選項(xiàng)。
11.根據(jù)權(quán)利 要求1所述的方法,其特征在于,還包括:所述實(shí)體候選項(xiàng)在各候選項(xiàng)中的數(shù)量大于一個(gè)時(shí),根據(jù)輸入的匹配符進(jìn)行匹配;所述匹配符與各實(shí)體候選項(xiàng)對應(yīng)的知識內(nèi)容所屬的行業(yè)類別和/或標(biāo)識相對應(yīng)。
12.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:所述實(shí)體候選項(xiàng)在各候選項(xiàng)中的數(shù)量大于一個(gè)時(shí),將各實(shí)體候選項(xiàng)分別加載至候選區(qū)域的二級菜單。
13.根據(jù)權(quán)利要求1、2、7、10、11或12中任一所述的方法,其特征在于,還包括: 當(dāng)所述初始候選項(xiàng)被觸發(fā)時(shí),將所述實(shí)體候選項(xiàng)附著所述初始候選項(xiàng)上屏,供用戶進(jìn)行觸發(fā); 或者, 所述實(shí)體候選項(xiàng)被點(diǎn)擊后,調(diào)用對應(yīng)封裝的知識內(nèi)容在本地進(jìn)行加載,分析展現(xiàn)對應(yīng)的知識內(nèi)容,供當(dāng)前用戶進(jìn)行查看。
14.根據(jù)權(quán)利要求13所述的方法,其特征在于,所述知識內(nèi)容包括媒體對象, 所述媒體對象包括圖片、音樂、flash、視頻,將所述媒體對象被封裝為實(shí)體候選項(xiàng)后,附著于所述初始候選項(xiàng)供用戶進(jìn)行上屏或查看。
15.一種實(shí)體輸入裝置,其特征在于,包括: 序列接收模塊,用于接收輸入的輸入序列; 初始候選項(xiàng)獲取模塊,用于獲取對應(yīng)輸入序列的至少一個(gè)初始候選項(xiàng); 目標(biāo)對象獲取模塊,用于基于知識庫對所述初始候選項(xiàng)進(jìn)行語義分析,并根據(jù)語義分析結(jié)果從知識庫查詢目標(biāo)對象; 封裝模塊,用于將所述目標(biāo)對象對應(yīng)的知識內(nèi)容封裝為實(shí)體候選項(xiàng),加載至所述輸入序列對應(yīng)的各候選項(xiàng)中; 展現(xiàn)模塊,用于根據(jù)所述初始候選項(xiàng)的位置,在候選框中展示所述實(shí)體候選項(xiàng)。
16.如權(quán)利要求15所述的裝置,其特征在于,所述目標(biāo)對象獲取模塊包括: 詞性標(biāo)記模塊,用于基于知識庫識別并標(biāo)記所述初始候選項(xiàng)的各詞的標(biāo)簽,得到標(biāo)記序列;所述標(biāo)簽包括:實(shí)體對象、和/或?qū)傩栽~、和/或?qū)?yīng)屬性詞的屬性值; 查詢分析模塊,用于利用上下文無關(guān)文法獲得的文法集,對所述標(biāo)記序列進(jìn)行文法分析,并根據(jù)文法分析的結(jié)果在知識庫中進(jìn)行匹配查詢,以獲得知識庫中的知識內(nèi)容作為目標(biāo)對象。
17.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述封裝模塊包括: 第一封裝模塊,用于以圖片為載體,將所述目標(biāo)對象的知識內(nèi)容加入所述圖片中,封裝為所述實(shí)體候選項(xiàng)。
18.根據(jù)權(quán)利要求15或17所述的裝置,其特征在于,還包括: 上屏模塊,用于當(dāng)所述初始候選項(xiàng)被觸發(fā)時(shí),將所述實(shí)體候選項(xiàng)附著所述初始候選項(xiàng)上屏,供用戶進(jìn)行觸發(fā); 或者, 分析展示模塊,用于所述實(shí)體候選項(xiàng)被點(diǎn)擊后,調(diào)用對應(yīng)封裝的知識內(nèi)容在本地進(jìn)行加載,分析展現(xiàn)對應(yīng)的知識內(nèi)容,供當(dāng)前用戶進(jìn)行查看。
19.根據(jù)權(quán)利要求18所述的裝置, 其特征在于,所述知識內(nèi)容包括媒體對象, 所述媒體對象包括圖片、音樂、flash、視頻,將所述媒體對象被封裝為實(shí)體候選項(xiàng)后,附著于所述初始候選項(xiàng)供用戶進(jìn)行上屏或查看。
【文檔編號】G06F17/30GK103914513SQ201410015318
【公開日】2014年7月9日 申請日期:2014年1月13日 優(yōu)先權(quán)日:2014年1月13日
【發(fā)明者】蔣前程, 余浩, 張闊 申請人:北京搜狗科技發(fā)展有限公司