本發(fā)明涉及信息技術(shù)領(lǐng)域,尤其涉及一種信息分析的方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的普及和海量信息的涌現(xiàn),如何快速有效的分析信息已成為制約信息技術(shù)發(fā)展的一個(gè)全局性問(wèn)題。
現(xiàn)有技術(shù)中,一種信息分析的方法為根據(jù)匹配規(guī)則對(duì)待分析文本中的關(guān)鍵字進(jìn)行匹配,并根據(jù)匹配結(jié)果確定分析結(jié)果,該分析結(jié)果例如可以為待分析文本所屬的分類(lèi)、待分析文本對(duì)應(yīng)的操作需求或待分析文本匹配的某個(gè)或某些關(guān)鍵字等。其中,該匹配規(guī)則為根據(jù)預(yù)先確定的關(guān)鍵字所設(shè)定的匹配規(guī)則。
但是,現(xiàn)有技術(shù)中存在匹配規(guī)則較多的問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種信息分析的方法及裝置,用以解決現(xiàn)有技術(shù)中匹配規(guī)則較多的問(wèn)題。
本發(fā)明提供一種信息分析的方法,包括:
接收用戶輸入的待分析文本;
對(duì)所述待分析文本進(jìn)行分詞處理;
確定各分詞分別所屬的語(yǔ)義標(biāo)簽;
將所述各分詞分別所屬的語(yǔ)義標(biāo)簽與匹配規(guī)則進(jìn)行匹配,得到所述各分詞分別所屬的語(yǔ)義標(biāo)簽與所述匹配規(guī)則中的第一規(guī)則匹配的匹配結(jié)果,并根據(jù)所述匹配結(jié)果確定分析結(jié)果。
可選的,在本發(fā)明一實(shí)施例中,所述將所述各分詞分別所屬的語(yǔ)義標(biāo)簽與匹配規(guī)則進(jìn)行匹配,得到所述各分詞分別所屬的語(yǔ)義標(biāo)簽與所述匹配規(guī)則中的第一規(guī)則匹配的匹配結(jié)果,并根據(jù)所述匹配結(jié)果確定分析結(jié)果,包括:
將所述各分詞分別所屬的語(yǔ)義標(biāo)簽作為主串,輸入至ac自動(dòng)機(jī)進(jìn)行匹配,確定匹配的終節(jié)點(diǎn)為第一節(jié)點(diǎn),并從所述第一節(jié)點(diǎn)的輸出表獲得所述分析結(jié)果;其中,所述ac自動(dòng)機(jī)中各節(jié)點(diǎn)的轉(zhuǎn)向表根據(jù)所述匹配規(guī)則生成;所述ac自動(dòng)機(jī)的根節(jié)點(diǎn)到所述第一節(jié)點(diǎn)的路徑與所述第一規(guī)則對(duì)應(yīng)。
可選的,在本發(fā)明一實(shí)施例中,所述將所述各分詞分別所屬的語(yǔ)義標(biāo)簽作為主串,輸入至ac自動(dòng)機(jī)進(jìn)行匹配之前,還包括:
根據(jù)所述匹配規(guī)則,生成所述各節(jié)點(diǎn)的轉(zhuǎn)向表;所述轉(zhuǎn)向表中包括預(yù)設(shè)語(yǔ)義標(biāo)簽以及與所述預(yù)設(shè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的所述各節(jié)點(diǎn)的下一級(jí)節(jié)點(diǎn);
根據(jù)所述各節(jié)點(diǎn)作為終節(jié)點(diǎn)時(shí)分別對(duì)應(yīng)的分析結(jié)果,生成所述各節(jié)點(diǎn)的輸出表。
可選的,在本發(fā)明一實(shí)施例中,所述匹配規(guī)則包括采用正則表達(dá)式和所述預(yù)設(shè)語(yǔ)義標(biāo)簽描述的規(guī)則,以及僅采用所述預(yù)設(shè)語(yǔ)義標(biāo)簽描述的規(guī)則;所述將所述各分詞分別所屬的語(yǔ)義標(biāo)簽作為主串,輸入至ac自動(dòng)機(jī)進(jìn)行匹配之前,還包括:
根據(jù)所述采用正則表達(dá)式和所述預(yù)設(shè)語(yǔ)義標(biāo)簽描述的規(guī)則,生成所述各節(jié)點(diǎn)的正則表;所述正則表中包括所述預(yù)設(shè)語(yǔ)義標(biāo)簽、與所述預(yù)設(shè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的所述各節(jié)點(diǎn)的下一級(jí)節(jié)點(diǎn)以及與所述預(yù)設(shè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的正則表達(dá)式;
相應(yīng)的,所述根據(jù)所述匹配規(guī)則,生成所述各節(jié)點(diǎn)的轉(zhuǎn)向表,包括:
根據(jù)所述匹配規(guī)則中采用所述預(yù)設(shè)語(yǔ)義標(biāo)簽描述的規(guī)則,生成所述各節(jié)點(diǎn)的轉(zhuǎn)向表。
可選的,在本發(fā)明一實(shí)施例中,所述將所述各分詞分別所屬的語(yǔ)義標(biāo)簽作為主串,輸入至ac自動(dòng)機(jī)進(jìn)行匹配,包括:
判斷所述各分詞分別所屬的語(yǔ)義標(biāo)簽中的第n個(gè)語(yǔ)義標(biāo)簽是否包括在第二節(jié)點(diǎn)的轉(zhuǎn)向表中;其中,n為大于0小于m的正整數(shù),m為所述語(yǔ)義標(biāo)簽的個(gè)數(shù),所述第二節(jié)點(diǎn)為根節(jié)點(diǎn)的第n-1級(jí)子節(jié)點(diǎn);
若是,則轉(zhuǎn)移至所述第二節(jié)點(diǎn)的轉(zhuǎn)向表中所述第n個(gè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的第三節(jié)點(diǎn),形成所述第二節(jié)點(diǎn)與所述第三節(jié)點(diǎn)之間的路徑;
判斷所述第n個(gè)語(yǔ)義標(biāo)簽是否包括在所述第二節(jié)點(diǎn)的正則表中,且所述第n個(gè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的分詞滿足所述第二節(jié)點(diǎn)的正則表中所述第n個(gè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的正則表達(dá)式;
若是,則轉(zhuǎn)移至所述第二節(jié)點(diǎn)的正則表中所述第n個(gè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的第四節(jié)點(diǎn),形成所述第二節(jié)點(diǎn)與所述第四節(jié)點(diǎn)之間的路徑。
可選的,在本發(fā)明一實(shí)施例中,所述確定各分詞分別所屬的語(yǔ)義標(biāo)簽之前,還包括:將所述各分詞中的無(wú)效分詞去除,獲得所述各分詞中的有效分詞;
所述確定各分詞分別所屬的語(yǔ)義標(biāo)簽,包括:
確定所述各分詞中的各有效分詞分別所屬的語(yǔ)義標(biāo)簽。
本發(fā)明提供一種信息分析的裝置,包括:
接收模塊,用于接收用戶輸入的待分析文本;
分詞模塊,用于對(duì)所述待分析文本進(jìn)行分詞處理;
確定模塊,用于確定各分詞分別所屬的語(yǔ)義標(biāo)簽;
匹配及分析模塊,用于將所述各分詞分別所屬的語(yǔ)義標(biāo)簽與匹配規(guī)則進(jìn)行匹配,得到所述各分詞分別所屬的語(yǔ)義標(biāo)簽與所述匹配規(guī)則中的第一規(guī)則匹配的匹配結(jié)果,并根據(jù)所述匹配結(jié)果確定分析結(jié)果。
可選的,在本發(fā)明一實(shí)施例中,所述匹配及分析模塊,具體用于:
將所述各分詞分別所屬的語(yǔ)義標(biāo)簽作為主串,輸入至ac自動(dòng)機(jī)進(jìn)行匹配,確定匹配的終節(jié)點(diǎn)為第一節(jié)點(diǎn),并從所述第一節(jié)點(diǎn)的輸出表獲得所述分析結(jié)果;其中,所述ac自動(dòng)機(jī)中各節(jié)點(diǎn)的轉(zhuǎn)向表根據(jù)所述匹配規(guī)則生成;所述ac自動(dòng)機(jī)的根節(jié)點(diǎn)到所述第一節(jié)點(diǎn)的路徑與所述第一規(guī)則對(duì)應(yīng)。
可選的,在本發(fā)明一實(shí)施例中,所述匹配及分析模塊,還用于:
根據(jù)所述匹配規(guī)則,生成所述各節(jié)點(diǎn)的轉(zhuǎn)向表;所述轉(zhuǎn)向表中包括預(yù)設(shè)語(yǔ)義標(biāo)簽以及與所述預(yù)設(shè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的所述各節(jié)點(diǎn)的下一級(jí)節(jié)點(diǎn);
根據(jù)所述各節(jié)點(diǎn)作為終節(jié)點(diǎn)時(shí)分別對(duì)應(yīng)的分析結(jié)果,生成所述各節(jié)點(diǎn)的輸出表。
可選的,在本發(fā)明一實(shí)施例中,所述匹配規(guī)則包括采用正則表達(dá)式和所述預(yù)設(shè)語(yǔ)義標(biāo)簽描述的規(guī)則,以及僅采用所述預(yù)設(shè)語(yǔ)義標(biāo)簽描述的規(guī)則,所述匹配及分析模塊,還用于:
根據(jù)所述采用正則表達(dá)式和所述預(yù)設(shè)語(yǔ)義標(biāo)簽描述的規(guī)則,生成所述各節(jié)點(diǎn)的正則表;所述正則表中包括所述預(yù)設(shè)語(yǔ)義標(biāo)簽、與所述預(yù)設(shè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的所述各節(jié)點(diǎn)的下一級(jí)節(jié)點(diǎn)以及與所述預(yù)設(shè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的正則表達(dá)式;
相應(yīng)的,所述匹配及分析模塊根據(jù)所述匹配規(guī)則,生成所述各節(jié)點(diǎn)的轉(zhuǎn)向表,具體包括:
根據(jù)所述匹配規(guī)則中采用所述預(yù)設(shè)語(yǔ)義標(biāo)簽描述的規(guī)則,生成所述各節(jié)點(diǎn)的轉(zhuǎn)向表。
可選的,在本發(fā)明一實(shí)施例中,所述匹配及分析模塊,將所述各分詞分別所屬的語(yǔ)義標(biāo)簽作為主串,輸入至ac自動(dòng)機(jī)進(jìn)行匹配,具體包括:
判斷所述各分詞分別所屬的語(yǔ)義標(biāo)簽中的第n個(gè)語(yǔ)義標(biāo)簽是否包括在第二節(jié)點(diǎn)的轉(zhuǎn)向表中;其中,n為大于0小于m的正整數(shù),m為所述語(yǔ)義標(biāo)簽的個(gè)數(shù),所述第二節(jié)點(diǎn)為根節(jié)點(diǎn)的第n-1級(jí)子節(jié)點(diǎn);
若是,則轉(zhuǎn)移至所述第二節(jié)點(diǎn)的轉(zhuǎn)向表中所述第n個(gè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的第三節(jié)點(diǎn),形成所述第二節(jié)點(diǎn)與所述第三節(jié)點(diǎn)之間的路徑;
判斷所述第n個(gè)語(yǔ)義標(biāo)簽是否包括在所述第二節(jié)點(diǎn)的正則表中,且所述第n個(gè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的分詞滿足所述第二節(jié)點(diǎn)的正則表中所述第n個(gè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的正則表達(dá)式;
若是,則轉(zhuǎn)移至所述第二節(jié)點(diǎn)的正則表中所述第n個(gè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的第四節(jié)點(diǎn),形成所述第二節(jié)點(diǎn)與所述第四節(jié)點(diǎn)之間的路徑。
可選的,在本發(fā)明一實(shí)施例中,所述確定模塊,還用于將所述各分詞中的無(wú)效分詞去除,獲得所述各分詞中的有效分詞;
所述確定模塊,確定各分詞分別所屬的語(yǔ)義標(biāo)簽,具體包括:
確定所述各分詞中的各有效分詞分別所屬的語(yǔ)義標(biāo)簽。
本發(fā)明提供一種信息分析的方法及裝置;通過(guò)對(duì)待分析文本進(jìn)行分詞處理;確定各分詞分別所屬的語(yǔ)義標(biāo)簽;將所述各分詞分別所屬的語(yǔ)義標(biāo)簽與匹配規(guī)則進(jìn)行匹配,得到所述各分詞分別所屬的語(yǔ)義標(biāo)簽與所述匹配規(guī)則中的第一規(guī)則匹配的匹配結(jié)果,并根據(jù)所述匹配結(jié)果確定分析結(jié)果;使得對(duì)屬于同一語(yǔ)義標(biāo)簽的多個(gè)關(guān)鍵字,可以使用所屬的一個(gè)語(yǔ)義標(biāo)簽來(lái)表示;因此,與使用文本中的關(guān)鍵字描述的匹配規(guī)則相比,使用語(yǔ)義標(biāo)簽描述的匹配規(guī)則減少了匹配規(guī)則的數(shù)目。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明信息分析的方法實(shí)施例一的流程圖;
圖2為本發(fā)明信息分析的方法實(shí)施例二的流程圖;
圖3為本發(fā)明信息分析的裝置實(shí)施例一的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
圖1為本發(fā)明信息分析的方法實(shí)施例一的流程圖;如圖1所示,本實(shí)施例的方法可以包括:
步驟101、接收用戶輸入的待分析文本;
例如,待分析文本可以為:轉(zhuǎn)讓iphone6保修期內(nèi)無(wú)拆無(wú)修。
步驟102、對(duì)所述待分析文本進(jìn)行分詞處理;
例如,對(duì)上述待分析文本進(jìn)行分詞后可以得到如下分詞:轉(zhuǎn)讓iphone6保修期內(nèi)無(wú)拆無(wú)修。
步驟103、確定各分詞分別所屬的語(yǔ)義標(biāo)簽;
例如,分詞“轉(zhuǎn)讓”所屬的語(yǔ)義標(biāo)簽可以為“買(mǎi)賣(mài)行為”,分詞“iphone6”所屬的語(yǔ)義標(biāo)簽可以為“蘋(píng)果手機(jī)型號(hào)”和“手機(jī)型號(hào)”,分詞“保修期”和“內(nèi)”所屬的語(yǔ)義標(biāo)簽可以為“產(chǎn)品保修狀況”,分詞“無(wú)拆”和“無(wú)修”所屬的語(yǔ)義標(biāo)簽可以為“產(chǎn)品維修狀況”。
步驟104、將所述各分詞分別所屬的語(yǔ)義標(biāo)簽與匹配規(guī)則進(jìn)行匹配,得到所述各分詞分別所屬的語(yǔ)義標(biāo)簽與所述匹配規(guī)則中的第一規(guī)則匹配的匹配結(jié)果,并根據(jù)所述匹配結(jié)果確定分析結(jié)果。
例如,匹配規(guī)則可以包括:
匹配規(guī)則1:買(mǎi)賣(mài)行為手機(jī)型號(hào);
匹配規(guī)則2:買(mǎi)賣(mài)行為家電
匹配規(guī)則3:買(mǎi)賣(mài)行為日用品
進(jìn)一步的,將上述各分詞分別所屬的語(yǔ)義標(biāo)簽與匹配規(guī)則進(jìn)行匹配,可以得到所述各分詞分別所屬的語(yǔ)義標(biāo)簽與匹配規(guī)則中的匹配規(guī)則1匹配的匹配結(jié)果。
需要說(shuō)明的是,上述匹配規(guī)則中“買(mǎi)賣(mài)行為”、“蘋(píng)果手機(jī)型號(hào)”、“家電”、“日用品”都為語(yǔ)義標(biāo)簽。
若進(jìn)一步假設(shè),匹配規(guī)則1對(duì)應(yīng)的分析結(jié)果為手機(jī)分類(lèi),匹配規(guī)則2對(duì)應(yīng)的分析結(jié)果為家電分類(lèi),匹配規(guī)則3對(duì)應(yīng)的分析結(jié)果為日用品分類(lèi);則根據(jù)所述各分詞分別所屬的語(yǔ)義標(biāo)簽與所述匹配規(guī)則中的規(guī)則匹配1的匹配結(jié)果,可以確定分析結(jié)果為手機(jī)分類(lèi)。
本實(shí)施例中,通過(guò)對(duì)待分析文本進(jìn)行分詞處理;確定各分詞分別所屬的語(yǔ)義標(biāo)簽;將所述各分詞分別所屬的語(yǔ)義標(biāo)簽與匹配規(guī)則進(jìn)行匹配,得到所述各分詞分別所屬的語(yǔ)義標(biāo)簽與所述匹配規(guī)則中的第一規(guī)則匹配的匹配結(jié)果,并根據(jù)所述匹配結(jié)果確定分析結(jié)果;使得對(duì)屬于同一語(yǔ)義標(biāo)簽的多個(gè)關(guān)鍵字,可以使用所屬的一個(gè)語(yǔ)義標(biāo)簽來(lái)表示;因此,與使用文本中的關(guān)鍵字描述的匹配規(guī)則相比,使用語(yǔ)義標(biāo)簽描述的匹配規(guī)則減少了匹配規(guī)則的數(shù)目。例如,“出售”、“轉(zhuǎn)讓”等都屬于語(yǔ)義標(biāo)簽“買(mǎi)賣(mài)行為”,與使用“出售”和“轉(zhuǎn)讓”等描述的匹配規(guī)則相比,使用“買(mǎi)賣(mài)行為”描述的匹配規(guī)則的數(shù)量較少。
圖2為本發(fā)明信息分析的方法實(shí)施例二的流程圖;如圖2所示,本實(shí)施例的方法可以包括:
步驟201、接收用戶輸入的待分析文本;
例如,待分析文本可以為:轉(zhuǎn)讓的iphone6保修期內(nèi)無(wú)拆無(wú)修。
步驟202、對(duì)所述待分析文本進(jìn)行分詞處理;
例如,對(duì)上述待分析文本進(jìn)行分詞后可以得到如下分詞:轉(zhuǎn)讓的iphone6保修期內(nèi)無(wú)拆無(wú)修。
步驟203、將所述各分詞中的無(wú)效分詞去除,獲得所述各分詞中的有效分詞;
例如,將分詞“的”去除,獲得的有效分詞為:轉(zhuǎn)讓iphone6保修期內(nèi)無(wú)拆無(wú)修。
可選的,所述無(wú)效分詞可以為停用詞、標(biāo)點(diǎn)符號(hào)、地址前綴(例如,html)等。
需要說(shuō)明的是,步驟203為可選步驟;當(dāng)不執(zhí)行步驟203時(shí),步驟204-步驟205中都是基于各分詞分別所屬的語(yǔ)義標(biāo)簽進(jìn)行處理;當(dāng)執(zhí)行步驟203時(shí),步驟204-步驟205中都是基于各有效分詞分別所屬的語(yǔ)義標(biāo)簽進(jìn)行處理。
步驟204、確定所述各分詞中各有效分詞分別所屬的語(yǔ)義標(biāo)簽;
需要說(shuō)明的是,步驟204與步驟103類(lèi)似,在此不再贅述。
步驟205、將所述各有效分詞分別所屬的語(yǔ)義標(biāo)簽作為主串,輸入至ac(aho-corasick)自動(dòng)機(jī)進(jìn)行匹配,確定匹配的終節(jié)點(diǎn)為第一節(jié)點(diǎn),并從所述第一節(jié)點(diǎn)的輸出表獲得所述分析結(jié)果;
其中,所述ac自動(dòng)機(jī)中各節(jié)點(diǎn)的轉(zhuǎn)向表根據(jù)所述匹配規(guī)則生成;所述ac自動(dòng)機(jī)的根節(jié)點(diǎn)到所述第一節(jié)點(diǎn)的路徑與所述第一規(guī)則對(duì)應(yīng)。
可選的,所述將所述各分詞分別所屬的語(yǔ)義標(biāo)簽作為主串,輸入至ac自動(dòng)機(jī)進(jìn)行匹配之前,還包括:
根據(jù)所述匹配規(guī)則,生成所述各節(jié)點(diǎn)的轉(zhuǎn)向表;所述轉(zhuǎn)向表中包括預(yù)設(shè)語(yǔ)義標(biāo)簽以及與所述預(yù)設(shè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的所述各節(jié)點(diǎn)的下一級(jí)節(jié)點(diǎn);
根據(jù)所述各節(jié)點(diǎn)作為終節(jié)點(diǎn)時(shí)分別對(duì)應(yīng)的分析結(jié)果,生成所述各節(jié)點(diǎn)的輸出表。
可選的,所述匹配規(guī)則包括采用正則表達(dá)式和所述預(yù)設(shè)語(yǔ)義標(biāo)簽描述的規(guī)則,以及僅采用所述預(yù)設(shè)語(yǔ)義標(biāo)簽描述的規(guī)則;
相應(yīng)的,所述將所述各分詞分別所屬的語(yǔ)義標(biāo)簽作為主串,輸入至ac自動(dòng)機(jī)進(jìn)行匹配之前,還包括:
根據(jù)所述采用正則表達(dá)式和所述預(yù)設(shè)語(yǔ)義標(biāo)簽描述的規(guī)則,生成所述各節(jié)點(diǎn)的正則表;所述正則表中包括所述預(yù)設(shè)語(yǔ)義標(biāo)簽、與所述預(yù)設(shè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的所述各節(jié)點(diǎn)的下一級(jí)節(jié)點(diǎn)以及與所述預(yù)設(shè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的正則表達(dá)式;
相應(yīng)的,所述根據(jù)所述匹配規(guī)則,生成所述各節(jié)點(diǎn)的轉(zhuǎn)向表,包括:
根據(jù)所述匹配規(guī)則中采用所述預(yù)設(shè)語(yǔ)義標(biāo)簽描述的規(guī)則,生成所述各節(jié)點(diǎn)的轉(zhuǎn)向表。
例如,匹配規(guī)則a:買(mǎi)賣(mài)行為蘋(píng)果手機(jī)型號(hào)
匹配規(guī)則b:買(mǎi)賣(mài)行為手機(jī)型號(hào)產(chǎn)品維修狀況#正則表達(dá)式1#
其中,正則表達(dá)式1為產(chǎn)品維修狀況語(yǔ)義標(biāo)簽對(duì)應(yīng)的正則表達(dá)式。匹配規(guī)則a為僅采用所述預(yù)設(shè)語(yǔ)義標(biāo)簽描述的規(guī)則,對(duì)應(yīng)轉(zhuǎn)向表;匹配規(guī)則b為采用正則表達(dá)式和所述預(yù)設(shè)語(yǔ)義標(biāo)簽描述的規(guī)則,對(duì)應(yīng)正則表。
可選的,所述產(chǎn)品維修狀況對(duì)應(yīng)的正則表達(dá)式還可以包括正則表達(dá)式2;例如,產(chǎn)品維修狀況#正則表達(dá)式1#正則表達(dá)式2;其中,正則表達(dá)式1可以用于描述產(chǎn)品維修狀況對(duì)應(yīng)的分詞需要滿足的條件,正則表達(dá)式2可以用于描述產(chǎn)品維修狀況語(yǔ)義標(biāo)簽需要滿足的條件,例如,當(dāng)正則表達(dá)式2為元字符?時(shí),則表示產(chǎn)品維修狀況可以不匹配。
對(duì)正則表達(dá)式2的舉例如下:
假設(shè),根(root)節(jié)點(diǎn)的轉(zhuǎn)移表中包括語(yǔ)義標(biāo)簽a,且與語(yǔ)義標(biāo)簽a對(duì)應(yīng)的root節(jié)點(diǎn)的下一級(jí)節(jié)點(diǎn)1;節(jié)點(diǎn)1的轉(zhuǎn)移表中包括語(yǔ)義標(biāo)簽b,且與語(yǔ)義標(biāo)簽b對(duì)應(yīng)的節(jié)點(diǎn)1的下一級(jí)節(jié)點(diǎn)2;節(jié)點(diǎn)1的正則表中包括語(yǔ)義標(biāo)簽c是,與語(yǔ)義標(biāo)簽c對(duì)應(yīng)的下一級(jí)節(jié)點(diǎn)3,以及語(yǔ)義標(biāo)簽c對(duì)應(yīng)的正則表達(dá)式##?(也即,正則表達(dá)式1為空,正則表達(dá)式2為?);節(jié)點(diǎn)2的轉(zhuǎn)移表包括語(yǔ)義標(biāo)簽c,且與語(yǔ)義標(biāo)簽c對(duì)應(yīng)的節(jié)點(diǎn)2的下一級(jí)節(jié)點(diǎn)4;節(jié)點(diǎn)3的轉(zhuǎn)移表包括語(yǔ)義標(biāo)簽c,且與語(yǔ)義標(biāo)簽c對(duì)應(yīng)的節(jié)點(diǎn)3的下一級(jí)節(jié)點(diǎn)5。
則,當(dāng)各有效分詞的語(yǔ)義標(biāo)簽為abc時(shí),則既可以匹配root節(jié)點(diǎn)到節(jié)點(diǎn)1,節(jié)點(diǎn)1到節(jié)點(diǎn)2,節(jié)點(diǎn)2到節(jié)點(diǎn)4的路徑;又可以匹配root節(jié)點(diǎn)到節(jié)點(diǎn)1,節(jié)點(diǎn)1到節(jié)點(diǎn)3,節(jié)點(diǎn)3到節(jié)點(diǎn)5的路徑。這里,節(jié)點(diǎn)4和節(jié)點(diǎn)5都可以認(rèn)為是匹配的終節(jié)點(diǎn)。
可選的,所述將所述各分詞分別所屬的語(yǔ)義標(biāo)簽作為主串,輸入至ac自動(dòng)機(jī)進(jìn)行匹配,包括:
判斷所述各分詞分別所屬的語(yǔ)義標(biāo)簽中的第n個(gè)語(yǔ)義標(biāo)簽是否包括在第二節(jié)點(diǎn)的轉(zhuǎn)向表中;其中,n為大于0小于m的正整數(shù),m為所述語(yǔ)義標(biāo)簽的個(gè)數(shù),所述第二節(jié)點(diǎn)為根節(jié)點(diǎn)的第n-1級(jí)子節(jié)點(diǎn);
若是,則轉(zhuǎn)移至所述第二節(jié)點(diǎn)的轉(zhuǎn)向表中所述第n個(gè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的第三節(jié)點(diǎn),形成所述第二節(jié)點(diǎn)與所述第三節(jié)點(diǎn)之間的路徑;
判斷所述第n個(gè)語(yǔ)義標(biāo)簽是否包括在所述第二節(jié)點(diǎn)的正則表中,且所述第n個(gè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的分詞滿足所述第二節(jié)點(diǎn)的正則表中所述第n個(gè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的正則表達(dá)式;
若是,則轉(zhuǎn)移至所述第二節(jié)點(diǎn)的正則表中所述第n個(gè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的第四節(jié)點(diǎn),形成所述第二節(jié)點(diǎn)與所述第四節(jié)點(diǎn)之間的路徑。
需要說(shuō)明的是,本發(fā)明中所述ac自動(dòng)機(jī)為通過(guò)軟件實(shí)現(xiàn)的算法;例如,執(zhí)行本發(fā)明方法步驟的設(shè)備與實(shí)現(xiàn)所述ac自動(dòng)機(jī)的設(shè)備可以為同一設(shè)備。
可選的,所述分析結(jié)果可以為分類(lèi),例如輸入待分析字符串“轉(zhuǎn)讓iphone6保修期內(nèi)無(wú)拆無(wú)修”對(duì)應(yīng)的分析結(jié)果可以為手機(jī)分類(lèi)和/或蘋(píng)果手機(jī)分類(lèi);或者,
所述分析結(jié)果可以為動(dòng)作,例如輸入待分析字符串“明天的天氣”對(duì)應(yīng)的分析結(jié)果可以為天氣查詢動(dòng)作;或者,
所述分析結(jié)果還可以為信息抽取的結(jié)果,例如輸入待分析字符串“轉(zhuǎn)讓iphone6保修期內(nèi)無(wú)拆無(wú)修”對(duì)應(yīng)的分析結(jié)果可以為手機(jī)型號(hào)“iphone6”。
可選的,當(dāng)分析結(jié)果為分類(lèi)時(shí),若匹配出多個(gè)分類(lèi),則可以根據(jù)每個(gè)分類(lèi)對(duì)應(yīng)的分?jǐn)?shù),確定出分?jǐn)?shù)最高的分類(lèi)為最終確定的分析結(jié)果;或者,也可以通過(guò)將相同分類(lèi)的分?jǐn)?shù)相加,并確定出相加后分?jǐn)?shù)最高的分類(lèi)為最終確定的分析結(jié)果。
本實(shí)施例中,通過(guò)對(duì)待分析文本進(jìn)行分詞處理;將所述各分詞中的無(wú)效分詞去除,獲得所述各分詞中的有效分詞;確定各有效分詞分別所屬的語(yǔ)義標(biāo)簽;將所述各有效分詞分別所屬的語(yǔ)義標(biāo)簽作為主串,輸入至ac自動(dòng)機(jī)進(jìn)行匹配,確定匹配的終節(jié)點(diǎn)為第一節(jié)點(diǎn),并從所述第一節(jié)點(diǎn)的輸出表獲得所述分析結(jié)果;實(shí)現(xiàn)了通過(guò)ac自動(dòng)機(jī)來(lái)實(shí)現(xiàn)語(yǔ)義標(biāo)簽的匹配;并且,通過(guò)正則表的引入,使得ac自動(dòng)機(jī)可以根據(jù)正則表達(dá)式所描述的規(guī)則進(jìn)行匹配。
圖3為本發(fā)明信息分析的裝置實(shí)施例一的結(jié)構(gòu)示意圖;如圖3所示,本實(shí)施例的裝置可以包括:接收模塊301、分詞模塊302、確定模塊303、匹配及分析模塊304。其中,接收模塊301,用于接收用戶輸入的待分析文本;分詞模塊302,用于對(duì)所述待分析文本進(jìn)行分詞處理;確定模塊303,用于確定各分詞分別所屬的語(yǔ)義標(biāo)簽;匹配及分析模塊304,用于將所述各分詞分別所屬的語(yǔ)義標(biāo)簽與匹配規(guī)則進(jìn)行匹配,得到所述各分詞分別所屬的語(yǔ)義標(biāo)簽與所述匹配規(guī)則中的第一規(guī)則匹配的匹配結(jié)果,并根據(jù)所述匹配結(jié)果確定分析結(jié)果。
本實(shí)施例的裝置,可以用于執(zhí)行圖1所示方法實(shí)施例的技術(shù)方案,其實(shí)現(xiàn)原理和技術(shù)效果類(lèi)似,此處不再贅述。
信息分析的裝置實(shí)施例二
可選的,在本發(fā)明信息分析的裝置實(shí)施例一的基礎(chǔ)上,匹配及分析模塊304,具體用于:
將所述各分詞分別所屬的語(yǔ)義標(biāo)簽作為主串,輸入至ac自動(dòng)機(jī)進(jìn)行匹配,確定匹配的終節(jié)點(diǎn)為第一節(jié)點(diǎn),并從所述第一節(jié)點(diǎn)的輸出表獲得所述分析結(jié)果;其中,所述ac自動(dòng)機(jī)中各節(jié)點(diǎn)的轉(zhuǎn)向表根據(jù)所述匹配規(guī)則生成;所述ac自動(dòng)機(jī)的根節(jié)點(diǎn)到所述第一節(jié)點(diǎn)的路徑與所述第一規(guī)則對(duì)應(yīng)。
可選的,匹配及分析模塊304,還用于:
根據(jù)所述匹配規(guī)則,生成所述各節(jié)點(diǎn)的轉(zhuǎn)向表;所述轉(zhuǎn)向表中包括預(yù)設(shè)語(yǔ)義標(biāo)簽以及與所述預(yù)設(shè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的所述各節(jié)點(diǎn)的下一級(jí)節(jié)點(diǎn);
根據(jù)所述各節(jié)點(diǎn)作為終節(jié)點(diǎn)時(shí)分別對(duì)應(yīng)的分析結(jié)果,生成所述各節(jié)點(diǎn)的輸出表。
可選的,所述匹配規(guī)則包括采用正則表達(dá)式和所述預(yù)設(shè)語(yǔ)義標(biāo)簽描述的規(guī)則,以及僅采用所述預(yù)設(shè)語(yǔ)義標(biāo)簽描述的規(guī)則,匹配及分析模塊304,還用于:
根據(jù)所述采用正則表達(dá)式和所述預(yù)設(shè)語(yǔ)義標(biāo)簽描述的規(guī)則,生成所述各節(jié)點(diǎn)的正則表;所述正則表中包括所述預(yù)設(shè)語(yǔ)義標(biāo)簽、與所述預(yù)設(shè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的所述各節(jié)點(diǎn)的下一級(jí)節(jié)點(diǎn)以及與所述預(yù)設(shè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的正則表達(dá)式;
相應(yīng)的,匹配及分析模塊304根據(jù)所述匹配規(guī)則,生成所述各節(jié)點(diǎn)的轉(zhuǎn)向表,具體包括:
根據(jù)所述匹配規(guī)則中采用所述預(yù)設(shè)語(yǔ)義標(biāo)簽描述的規(guī)則,生成所述各節(jié)點(diǎn)的轉(zhuǎn)向表。
可選的,匹配及分析模塊304,將所述各分詞分別所屬的語(yǔ)義標(biāo)簽作為主串,輸入至ac自動(dòng)機(jī)進(jìn)行匹配,具體包括:
判斷所述各分詞分別所屬的語(yǔ)義標(biāo)簽中的第n個(gè)語(yǔ)義標(biāo)簽是否包括在第二節(jié)點(diǎn)的轉(zhuǎn)向表中;其中,n為大于0小于m的正整數(shù),m為所述語(yǔ)義標(biāo)簽的個(gè)數(shù),所述第二節(jié)點(diǎn)為根節(jié)點(diǎn)的第n-1級(jí)子節(jié)點(diǎn);
若是,則轉(zhuǎn)移至所述第二節(jié)點(diǎn)的轉(zhuǎn)向表中所述第n個(gè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的第三節(jié)點(diǎn),形成所述第二節(jié)點(diǎn)與所述第三節(jié)點(diǎn)之間的路徑;
判斷所述第n個(gè)語(yǔ)義標(biāo)簽是否包括在所述第二節(jié)點(diǎn)的正則表中,且所述第n個(gè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的分詞滿足所述第二節(jié)點(diǎn)的正則表中所述第n個(gè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的正則表達(dá)式;
若是,則轉(zhuǎn)移至所述第二節(jié)點(diǎn)的正則表中所述第n個(gè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的第四節(jié)點(diǎn),形成所述第二節(jié)點(diǎn)與所述第四節(jié)點(diǎn)之間的路徑。
可選的,確定模塊303,還用于將所述各分詞中的無(wú)效分詞去除,獲得所述各分詞中的有效分詞;
確定模塊303,確定各分詞分別所屬的語(yǔ)義標(biāo)簽,具體包括:
確定所述各分詞中的各有效分詞分別所屬的語(yǔ)義標(biāo)簽。
本實(shí)施例的裝置,可以用于執(zhí)行圖2所示方法實(shí)施例的技術(shù)方案,其實(shí)現(xiàn)原理和技術(shù)效果類(lèi)似,此處不再贅述。
本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述各方法實(shí)施例的全部或部分步驟可以通過(guò)程序指令相關(guān)的硬件來(lái)完成。前述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。該程序在執(zhí)行時(shí),執(zhí)行包括上述各方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括:rom、ram、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。
最后應(yīng)說(shuō)明的是:以上各實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述各實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。