本發(fā)明涉及信息處理領(lǐng)域,特別涉及一種基于種子句子的句子模板召回的方法和設(shè)備。
背景技術(shù):
現(xiàn)有技術(shù)中,針對句子模板的相似計(jì)算中,大多均是根據(jù)詞的相似度進(jìn)行計(jì)算的。但是根據(jù)詞的相似度計(jì)算,由于只是部分詞的替換,因此新召回的句子的與種子句子往往極其相似;這樣,會(huì)導(dǎo)致召回句子的多樣性很差;而且,由于只是對句子中的詞進(jìn)行相似替換,而替換后的詞是不是也通用在同樣的句子下,在此情況下,召回來的句子很可能是不對的。
技術(shù)實(shí)現(xiàn)要素:
針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明提出了一種基于種子句子的句子模板召回的方法和設(shè)備,用以克服現(xiàn)有技術(shù)中的缺陷。
具體的,本發(fā)明提出了以下具體的實(shí)施例:
本發(fā)明實(shí)施例提出了一種基于種子句子的句子模板召回的方法,包括:
獲取數(shù)量超過一定數(shù)值的與種子句子相關(guān)的語料,并確定所述語料中每個(gè)句子的依存句法樹;
根據(jù)依存句法樹的結(jié)構(gòu)相似度,基于所述種子句子的依存句法樹的樹形結(jié)構(gòu)對所述語料中每個(gè)句子進(jìn)行召回,將召回的句子設(shè)置為初始句子模板;
對各所述初始句子模板進(jìn)行與所述種子句子的相關(guān)度計(jì)算,確定各所述初始句子模板與所述種子句子的相關(guān)度;
基于所述相關(guān)度選取初始句子模板作為句子模板。
在一個(gè)具體的實(shí)施例中,所述確定所述語料中每個(gè)句子的依存句法樹,包括:
對所述語料中的每個(gè)句子進(jìn)行依存句法分析,確定每個(gè)所述句子的依存句法樹。
在一個(gè)具體的實(shí)施例中,所述相關(guān)度包括:結(jié)構(gòu)相關(guān)度、語義相關(guān)度、詞性相關(guān)度;
對各所述初始句子模板進(jìn)行與所述種子句子的相關(guān)度計(jì)算,確定各所述初始句子模板與所述種子句子的相關(guān)度,包括:
對各所述初始句子模板進(jìn)行與所述種子句子的結(jié)構(gòu)相關(guān)度計(jì)算,確定各所述初始句子模板與所述種子句子的結(jié)構(gòu)相關(guān)度;
對所述初始句子模板進(jìn)行與所述種子句子的語義相關(guān)度計(jì)算,確定各所述初始句子模板與所述種子句子的語義相關(guān)度;
對所述初始句子模板進(jìn)行與所述種子句子的詞性相關(guān)度計(jì)算,確定各所述初始句子模板與所述種子句子的詞性相關(guān)度。
在一個(gè)具體的實(shí)施例中,所述相關(guān)度包括:結(jié)構(gòu)相關(guān)度、語義相關(guān)度、詞性相關(guān)度;
所述基于所述相關(guān)度選取初始句子模板作為句子模板,包括:
針對各初始句子模板,判斷與所述種子句子的結(jié)構(gòu)相關(guān)度、語義相關(guān)度、詞性相關(guān)度的數(shù)值總和是否大于設(shè)置的閾值;
若判斷結(jié)果為是,選取所述召回的初始句子模板作為句子模板。
在一個(gè)具體的實(shí)施例中,所述閾值基于所述種子句子進(jìn)行設(shè)置。
本發(fā)明實(shí)施例還提出了一種基于種子句子的句子模板召回的設(shè)備,包括:
獲取模塊,用于獲取數(shù)量超過一定數(shù)值的與種子句子相關(guān)的語料;
第一確定模塊,用于確定所述語料中每個(gè)句子的依存句法樹;
第二確定模塊,用于根據(jù)依存句法樹的結(jié)構(gòu)相似度,基于所述種子句子的依存句法樹的樹形結(jié)構(gòu)對所述語料中每個(gè)句子進(jìn)行召回,將召回的句子設(shè)置為初始句子模板;
第三確定模塊,用于對各所述初始句子模板進(jìn)行與所述種子句子的相關(guān)度計(jì)算,確定各所述初始句子模板與所述種子句子的相關(guān)度;
選取模塊,用于基于所述相關(guān)度選取初始句子模板作為句子模板。
在一個(gè)具體的實(shí)施例中,所述第一確定模塊,用于:
對所述語料中的每個(gè)句子進(jìn)行依存句法分析,確定每個(gè)所述句子的依存句法樹。
在一個(gè)具體的實(shí)施例中,所述相關(guān)度包括:結(jié)構(gòu)相關(guān)度、語義相關(guān)度、詞性相關(guān)度;
所述第三確定模塊,用于:
對各所述初始句子模板進(jìn)行與所述種子句子的結(jié)構(gòu)相關(guān)度計(jì)算,確定各所述初始句子模板與所述種子句子的結(jié)構(gòu)相關(guān)度;
對所述初始句子模板進(jìn)行與所述種子句子的語義相關(guān)度計(jì)算,確定各所述初始句子模板與所述種子句子的語義相關(guān)度;
對所述初始句子模板進(jìn)行與所述種子句子的詞性相關(guān)度計(jì)算,確定各所述初始句子模板與所述種子句子的詞性相關(guān)度。
在一個(gè)具體的實(shí)施例中,所述相關(guān)度包括:結(jié)構(gòu)相關(guān)度、語義相關(guān)度、詞性相關(guān)度;
所述選取模塊,用于:
針對各初始句子模板,判斷與所述種子句子的結(jié)構(gòu)相關(guān)度、語義相關(guān)度、詞性相關(guān)度的數(shù)值總和是否大于設(shè)置的閾值;
若判斷結(jié)果為是,選取所述召回的初始句子模板作為句子模板。
在一個(gè)具體的實(shí)施例中,所述閾值基于所述種子句子進(jìn)行設(shè)置。
與現(xiàn)有技術(shù)相比,本發(fā)明提出了一種基于種子句子的句子模板召回的方法和設(shè)備,具體的,該方法包括:獲取數(shù)量超過一定數(shù)值的與種子句子相關(guān)的語料,并確定所述語料中每個(gè)句子的依存句法樹;根據(jù)依存句法樹的結(jié)構(gòu)相似度,基于所述種子句子的依存句法樹的樹形結(jié)構(gòu)對所述語料中每個(gè)句子進(jìn)行召回,將召回的句子設(shè)置為初始句子模板;對各所述初始句子模板進(jìn)行與所述種子句子的相關(guān)度計(jì)算,確定各所述初始句子模板與所述種子句子的相關(guān)度;基于所述相關(guān)度選取初始句子模板作為句子模板。以此使得本發(fā)明至少具有以下一個(gè)特點(diǎn):召回句子類型的高豐富度;召回句子基本不存在語法錯(cuò)誤;召回句子的組成成分的高豐富度;召回句子的語義偏差很??;召回句子的自帶模板化,不需要人工模板化。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對實(shí)施例中所需要使用的附圖作簡單地介紹,應(yīng)當(dāng)理解,以下附圖僅示出了本發(fā)明的某些實(shí)施例,因此不應(yīng)被看作是對范圍的限定,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。
圖1為本發(fā)明實(shí)施例提出的一種基于種子句子的句子模板召回的方法的流程示意圖;
圖2為本發(fā)明實(shí)施例提出的一種依存句法樹的示意圖;
圖3為本發(fā)明實(shí)施例提出的一種基于所述相關(guān)度選取初始句子模板作為句子模板的方法的流程示意圖;
圖4為本發(fā)明實(shí)施例提出的一種基于種子句子的句子模板召回的方法的流程示意圖
圖5為本發(fā)明實(shí)施例提出的一種基于種子句子的句子模板召回的設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。通常在此處附圖中描述和出示的本發(fā)明實(shí)施例的組件可以以各種不同的配置來布置和設(shè)計(jì)。因此,以下對在附圖中提供的本發(fā)明的實(shí)施例的詳細(xì)描述并非旨在限制要求保護(hù)的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實(shí)施例。基于本發(fā)明的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
具體的,本發(fā)明提出了以下具體的實(shí)施例:
實(shí)施例1
本發(fā)明實(shí)施例1提出了一種基于種子句子的句子模板召回的方法,如圖1所示,包括以下步驟:
步驟101、獲取數(shù)量超過一定數(shù)值的與種子句子相關(guān)的語料;
具體的,相關(guān)可以為領(lǐng)域相關(guān),例如種子句子為“今天的湘菜很好吃”屬于美食領(lǐng)域,由此可以獲取數(shù)量超過一定數(shù)值的為美食領(lǐng)域的語料;當(dāng)然,其他領(lǐng)域的也是同樣的,例如還可以為新聞句子,也即屬于新聞?lì)I(lǐng)域等等。此外具體的數(shù)量越多越好,只有下限,而沒有上限,獲取的數(shù)量越多,召回的句子模板就越多,越準(zhǔn)確。
步驟102、確定所述語料中每個(gè)句子的依存句法樹;
具體的,步驟102,也即確定所述語料中每個(gè)句子的依存句法樹,包括:
對所述語料中的每個(gè)句子進(jìn)行依存句法分析,確定每個(gè)所述句子的依存句法樹。
具體的,依存句法是由法國語言學(xué)家L.Tesniere最先提出。具體的依存句法分析是將句子分析成一顆依存句法樹,通過依存句法樹描述出各個(gè)詞語之間的依存關(guān)系,也即指出了詞語之間在句法上的搭配關(guān)系,這種搭配關(guān)系是和語義相關(guān)聯(lián)的。
一個(gè)具體的應(yīng)用場景中,例如句子“會(huì)議宣布了首批資深院士名單?!钡囊来婢浞淙鐖D2所示:
從圖2可以看出,詞“宣布”支配“會(huì)議”、“了”和“名單”,故可以將這些支配詞作為“宣布”的搭配詞。
具體的,步驟101以及步驟102,可以獲取大量待匹配召回的句子,然后對句子進(jìn)行依存句法分析,這樣就可以得到大量待匹配召回的句子模板,也即各個(gè)句子塊,其中的核心就是依存句法分析,可以自動(dòng)將句子進(jìn)行分塊,也就保證了我們無需人工進(jìn)行句子的模板化、模塊化。
步驟103、根據(jù)依存句法樹的結(jié)構(gòu)相似度,基于所述種子句子的依存句法樹的樹形結(jié)構(gòu)對所述語料中每個(gè)句子進(jìn)行召回,將召回的句子設(shè)置為初始句子模板;
在一個(gè)具體的實(shí)施例中,對種子句子也進(jìn)行同樣的依存句法分析,然后可以得到種子句子的依存句法樹,也即代表實(shí)際所需要的句子模板的樹形結(jié)構(gòu)(具體的,可能由于所需要的不是完整的句子,如此會(huì)導(dǎo)致種子句子存在有多個(gè)樹型結(jié)構(gòu),但是這多個(gè)樹形結(jié)構(gòu)可以保證均是在同一個(gè)句子樹中);然后根據(jù)種子句子的樹型結(jié)構(gòu)對語料中的每個(gè)句子進(jìn)行相似召回,以此保證了初步召回的句子模板(也即初始句子模板)中,與種子句子在結(jié)構(gòu)上呈現(xiàn)一定的相似性,也就保證了句子的豐富度與種子句子模板的豐富度有一定程度上是一致的。
步驟104、對各所述初始句子模板進(jìn)行與所述種子句子的相關(guān)度計(jì)算,確定各所述初始句子模板與所述種子句子的相關(guān)度;
所述相關(guān)度包括:結(jié)構(gòu)相關(guān)度、語義相關(guān)度、詞性相關(guān)度;
對各所述初始句子模板進(jìn)行與所述種子句子的相關(guān)度計(jì)算,確定各所述初始句子模板與所述種子句子的相關(guān)度,包括:
對各所述初始句子模板進(jìn)行與所述種子句子的結(jié)構(gòu)相關(guān)度計(jì)算,確定各所述初始句子模板與所述種子句子的結(jié)構(gòu)相關(guān)度;
對所述初始句子模板進(jìn)行與所述種子句子的語義相關(guān)度計(jì)算,確定各所述初始句子模板與所述種子句子的語義相關(guān)度;
對所述初始句子模板進(jìn)行與所述種子句子的詞性相關(guān)度計(jì)算,確定各所述初始句子模板與所述種子句子的詞性相關(guān)度。
具體的,該步驟是對初始句子模板與種子句子進(jìn)行更深層次的相似計(jì)算,為例避免語義偏差過大。分別要去重新計(jì)算種子句子與初始句子模板的結(jié)構(gòu)相似性(也就是與種子句子在結(jié)構(gòu)上相似程度的計(jì)算分值)、語義相似性(也就是與種子句子的語義相似性)、詞性相似性(與種子句子的詞性組成相似性,關(guān)于詞性,例如可以有形容詞,名詞,副詞等等分類)。
其中,關(guān)于結(jié)構(gòu)相關(guān)度的計(jì)算,首先判斷種子句子的樹形結(jié)構(gòu)是否在待召回的模板的樹形結(jié)構(gòu)中;如果在,就是相似(1.0);如果不在,就是不相似。而針對不相似的,可以再進(jìn)行種子句子模板樹形結(jié)構(gòu)的樹拆分(直接按照葉子結(jié)點(diǎn)各種拆分),看拆分出來的樹(即根到葉子結(jié)點(diǎn)的路徑與深度)是否在待召回的模板的樹形結(jié)構(gòu)中,看有多少比例p在里面,相似度即為0.5*p。這樣就得到了結(jié)構(gòu)相關(guān)度。
關(guān)于語義相關(guān)度:利用word2vec直接去計(jì)算兩個(gè)句子的詞義相關(guān)度,兩兩計(jì)算,計(jì)算均值。其中,Word2vec為一用來產(chǎn)生詞嵌入的模型。這些模型為淺層和雙層神經(jīng)網(wǎng)絡(luò),用來訓(xùn)練以重新建構(gòu)語言學(xué)之詞文本,網(wǎng)絡(luò)以詞表現(xiàn),并且需猜測相鄰位置的輸入詞,在word2vec中詞的順序是不重要的,訓(xùn)練完成之后,word2vec模型可用來映射每個(gè)詞到一個(gè)向量,可用來表示詞對詞之間的關(guān)系。
關(guān)于詞性相關(guān)度,直接得到兩個(gè)句子模板的詞性,看種子句子模板中的詞性,有多少比例p在待召回的句子中,詞性相關(guān)度即為p。
步驟105、基于所述相關(guān)度選取初始句子模板作為句子模板。
具體的,所述相關(guān)度包括:結(jié)構(gòu)相關(guān)度、語義相關(guān)度、詞性相關(guān)度;
具體的,步驟105,也即所述基于所述相關(guān)度選取初始句子模板作為句子模板,如圖3所示,包括以下步驟:
步驟1051、針對各初始句子模板,判斷與所述種子句子的結(jié)構(gòu)相關(guān)度、語義相關(guān)度、詞性相關(guān)度的數(shù)值總和是否大于設(shè)置的閾值;具體的,所述閾值可以是基于所述種子句子進(jìn)行設(shè)置的。
步驟1052、若判斷結(jié)果為是,選取所述召回的初始句子模板作為句子模板。當(dāng)然若是判斷結(jié)果為否,則直接丟棄。
具體的,在一個(gè)具體的實(shí)施例中,本方案的一個(gè)具體方案的流程示意圖可以如圖4所示,本發(fā)明多角度考慮了句子模板的結(jié)構(gòu)相似性,保證句子結(jié)構(gòu)上相似,使得句子模板的豐富度得到一定的保證;語義相似性,保證句子語義上是相似的,保證了召回來的句子模板在語義上不會(huì)出現(xiàn)大量的偏差;詞性相似性,保證句子的結(jié)構(gòu)詞性組成上相似的,保證了召回來的句子模板在結(jié)構(gòu)組成上不會(huì)有大偏差。
在基于詞替換句子模板召回中,存在多樣性不足、可能語法錯(cuò)誤等問題,而本發(fā)明實(shí)施例中通過結(jié)構(gòu)相似性進(jìn)行召回,即召回了大量的類似結(jié)果的句子模板,也就是說保證了召回句子的多樣性;另外,由于本發(fā)明直接在真實(shí)語料中進(jìn)行召回的,也就保證了召回來的句子本身是不存在語法問題的;以此規(guī)避了基于詞替換的句子模板召回存在的缺陷。
此外,在本發(fā)明中,利用依存句法分析進(jìn)行句子結(jié)構(gòu)分析句子,保證了召回的句子模板中,豐富度可與種子句子模板的豐富度是相當(dāng)?shù)?;本方案在句子模板的結(jié)構(gòu)相似性、語義相似性、詞性相似性上進(jìn)行多角度考慮,更加充分的保證了召回來的句子的語義是更為一致的,也就保證了召回句子模板的語義偏差大大削弱;而且,本方案利用了依存句法分析,直接根據(jù)種子句子模板進(jìn)行召回,而且召回來的句子在結(jié)構(gòu)上與種子句子模板是一致的,而且也有召回句子模板的句法樹,這樣也就直接到了召回句子的模板結(jié)構(gòu)特性,根本不需要再進(jìn)行人工重新模板化的問題。
實(shí)施例2
本發(fā)明實(shí)施例2還提出了一種基于種子句子的句子模板召回的設(shè)備,如圖5所示,包括:
獲取模塊201,用于獲取數(shù)量超過一定數(shù)值的與種子句子相關(guān)的語料;
第一確定模塊202,用于確定所述語料中每個(gè)句子的依存句法樹;
第二確定模塊203,用于根據(jù)依存句法樹的結(jié)構(gòu)相似度,基于所述種子句子的依存句法樹的樹形結(jié)構(gòu)對所述語料中每個(gè)句子進(jìn)行召回,將召回的句子設(shè)置為初始句子模板;
第三確定模塊204,用于對各所述初始句子模板進(jìn)行與所述種子句子的相關(guān)度計(jì)算,確定各所述初始句子模板與所述種子句子的相關(guān)度;
選取模塊205,用于基于所述相關(guān)度選取初始句子模板作為句子模板。
在一個(gè)具體的實(shí)施例中,所述第一確定模塊202,用于:
對所述語料中的每個(gè)句子進(jìn)行依存句法分析,確定每個(gè)所述句子的依存句法樹。
在一個(gè)具體的實(shí)施例中,所述相關(guān)度包括:結(jié)構(gòu)相關(guān)度、語義相關(guān)度、詞性相關(guān)度;
所述第三確定模塊204,用于:
對各所述初始句子模板進(jìn)行與所述種子句子的結(jié)構(gòu)相關(guān)度計(jì)算,確定各所述初始句子模板與所述種子句子的結(jié)構(gòu)相關(guān)度;
對所述初始句子模板進(jìn)行與所述種子句子的語義相關(guān)度計(jì)算,確定各所述初始句子模板與所述種子句子的語義相關(guān)度;
對所述初始句子模板進(jìn)行與所述種子句子的詞性相關(guān)度計(jì)算,確定各所述初始句子模板與所述種子句子的詞性相關(guān)度。
在一個(gè)具體的實(shí)施例中,所述相關(guān)度包括:結(jié)構(gòu)相關(guān)度、語義相關(guān)度、詞性相關(guān)度;
所述選取模塊205,用于:
針對各初始句子模板,判斷與所述種子句子的結(jié)構(gòu)相關(guān)度、語義相關(guān)度、詞性相關(guān)度的數(shù)值總和是否大于設(shè)置的閾值;
若判斷結(jié)果為是,選取所述召回的初始句子模板作為句子模板。
在一個(gè)具體的實(shí)施例中,所述閾值基于所述種子句子進(jìn)行設(shè)置。
與現(xiàn)有技術(shù)相比,本發(fā)明提出了一種基于種子句子的句子模板召回的方法和設(shè)備,具體的,該方法包括:獲取數(shù)量超過一定數(shù)值的與種子句子相關(guān)的語料,并確定所述語料中每個(gè)句子的依存句法樹;根據(jù)依存句法樹的結(jié)構(gòu)相似度,基于所述種子句子的依存句法樹的樹形結(jié)構(gòu)對所述語料中每個(gè)句子進(jìn)行召回,確定召回后的句子;對召回后的句子與所述種子句子進(jìn)行相關(guān)度計(jì)算,確定各召回后的句子與所述種子句子的相關(guān)度;基于所述相關(guān)度選取召回的句子作為句子模板。以此使得本發(fā)明至少具有以下一個(gè)特點(diǎn):召回句子類型的高豐富度;召回句子基本不存在語法錯(cuò)誤;召回句子的組成成分的高豐富度;召回句子的語義偏差很?。徽倩鼐渥拥淖詭0寤?,不需要人工模板化。
附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個(gè)實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段或代碼的一部分,該模塊、程序段或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或動(dòng)作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來實(shí)現(xiàn)。
在本申請所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的方法、系統(tǒng)或裝置,可以通過其它的方式實(shí)現(xiàn)。以上所描述的裝置實(shí)施例僅僅是示意性的,例如,該模塊的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,又例如,多個(gè)模塊或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些通信接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。
以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對本發(fā)明范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。