亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文本主題識別方法和裝置與流程

文檔序號:12121371閱讀:308來源:國知局
文本主題識別方法和裝置與流程

本申請涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種文本主題識別方法和裝置。



背景技術(shù):

隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,互聯(lián)網(wǎng)上的資源越來越多。目前的搜索引擎通常是基于關(guān)鍵詞檢索,將用戶檢索的查詢詞與文本的主題進行匹配,以檢索到用戶需要的文本。相關(guān)技術(shù)中,通過采用文本分詞提取關(guān)鍵詞的方式識別出文本主題,但是,這種方式識別出的文本主題的準(zhǔn)確度不足。



技術(shù)實現(xiàn)要素:

本申請旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。

為此,本申請的一個目的在于提出一種文本主題識別方法,該方法能夠提高識別出的文本主題的準(zhǔn)確度。

本申請的另一個目的在于提出一種文本主題識別裝置。

為達到上述目的,本申請第一方面實施例提出的文本主題識別方法,包括:獲取待識別的文本;獲取已生成的文本主題識別模型,所述文本主題識別模型是根據(jù)訓(xùn)練數(shù)據(jù)生成的,所述訓(xùn)練數(shù)據(jù)包括收集的文本的特征和收集的文本對應(yīng)的主題;根據(jù)所述文本主題識別模型對所述文本進行主題識別,識別出所述文本的主題。

本申請第一方面實施例提出的文本主題識別方法,通過根據(jù)文本主題識別模型進行文本主題識別,由于文本主題識別模型是根據(jù)訓(xùn)練數(shù)據(jù)進行訓(xùn)練后生成的,因此根據(jù)文本主題識別模型識別出的主題更準(zhǔn)確。

為達到上述目的,本申請第二方面實施例提出的文本主題識別裝置,包括:第一獲取模塊,用于獲取待識別的文本;第二獲取模塊,用于獲取已生成的文本主題識別模型,所述文本主題識別模型是根據(jù)訓(xùn)練數(shù)據(jù)生成的,所述訓(xùn)練數(shù)據(jù)包括收集的文本的特征和收集的文本對應(yīng)的主題;識別模塊,用于根據(jù)所述文本主題識別模型對所述文本進行主題識別,識別出所述文本的主題。

本申請第二方面實施例提出的文本主題識別裝置,通過根據(jù)文本主題識別模型進行文本主題識別,由于文本主題識別模型是根據(jù)訓(xùn)練數(shù)據(jù)進行訓(xùn)練后生成的,因此根據(jù)文本主題識別模型識別出的主題更準(zhǔn)確。

本申請附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本申請的實踐了解到。

附圖說明

本申請上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中:

圖1是本申請一個實施例提出的文本主題識別方法的流程示意圖;

圖2是本申請另一個實施例提出的文本主題識別方法的流程示意圖;

圖3是本申請一個實施例提出的文本主題識別裝置的結(jié)構(gòu)示意圖;

圖4是本申請另一個實施例提出的文本主題識別裝置的結(jié)構(gòu)示意圖。

具體實施方式

下面詳細描述本申請的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本申請,而不能理解為對本申請的限制。相反,本申請的實施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。

圖1是本申請一個實施例提出的文本主題識別方法的流程示意圖。

如圖1所示,本實施例的方法包括:

S11:獲取待識別的文本。

S12:獲取已生成的文本主題識別模型,所述文本主題識別模型是根據(jù)訓(xùn)練數(shù)據(jù)生成的,所述訓(xùn)練數(shù)據(jù)包括收集的文本的特征和收集的文本對應(yīng)的主題。

其中,可以預(yù)先獲取訓(xùn)練數(shù)據(jù),并根據(jù)訓(xùn)練數(shù)據(jù)采用機器學(xué)習(xí)算法訓(xùn)練生成文本主題識別模型,文本主題識別模型可以表明文本與主題之間的關(guān)系,以根據(jù)文本主題識別模型識別出文本的主題。

S13:根據(jù)所述文本主題識別模型對所述文本進行主題識別,識別出所述文本的主題。

進一步的,文本主題識別模型的輸入和輸出可以分別是文本的特征和文本的主題,此時,在獲取到待識別的文本后,可以先對文本提取特征,再將提取出的特征作為文本主題識別模型的輸入,從而得到的輸出為該文本的主題,完成文本主題識別。

進一步的,識別出的主題可以包含在文本中也可以不包含在文本中,如文本是“頭發(fā)越來越少”,則識別出的主題可以是“脫發(fā)”。

本實施例中,通過根據(jù)文本主題識別模型進行文本主題識別,由于文本主題識別模型是根據(jù)訓(xùn)練數(shù)據(jù)進行訓(xùn)練后生成的,因此根據(jù)文本主題識別模型識別出的主題更準(zhǔn)確。

圖2是本申請另一個實施例提出的文本主題識別方法的流程示意圖。

如圖2所示,本實施例的方法包括:

S21:收集大量文本,以及獲取收集的文本的主題詞。

其中,可以對收集的文本進行自動分析,分析文本中詞對文本整體語義的重要性,將重要性較高的一個或多個詞(具體數(shù)量可設(shè)置)作為文本的主題詞,得到一批文本到主題的標(biāo)注數(shù)據(jù)。另外,還可以通過人工標(biāo)注,得到另一批文本到主題的標(biāo)注數(shù)據(jù)。

進一步的,文本的主題可以包含在文本中,如“好的健身方法有哪些”對應(yīng)的主題是“健身”;也有可能不在文本中,如“總是掉頭發(fā)該怎么辦”對應(yīng)的主題是“脫發(fā)”。

S22:對獲取的主題詞進行過濾及聚類,生成主題的集合。

過濾是指過濾掉不合理和錯誤的主題詞,如過濾掉切詞得到的不完整的詞。

在過濾后,對主題詞進行聚類,將聚簇中最通用和概括的主題詞作為本聚簇的主題,生成主題的集合。聚類依據(jù)的主題詞之間的相關(guān)性,具體的聚類方法不限定。

S23:提取收集的文本的特征,將提取的特征及文本對應(yīng)的主題作為訓(xùn)練數(shù)據(jù)。

文本的特征可以具體是指組成文本的每個字。

S24:對訓(xùn)練數(shù)據(jù)進行訓(xùn)練,生成文本主題識別模型。

在訓(xùn)練時,將文本的特征作為輸入,使得經(jīng)過模型輸出的主題與文本的主題盡量相同。模型的網(wǎng)絡(luò)結(jié)構(gòu)可以采用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)或卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

通過上述的S1-S24可以構(gòu)建出文本主題識別模型,之后可以依據(jù)該模型對后續(xù)的任意文本進行主題識別。

S25:在需要進行主題識別時,對待識別的文本進行特征提取。

S26:根據(jù)提取的特征及已生成的文本主題識別模型對待識別的文本進行主題識別,確定待識別的文本的主題。

具體的,文本主題識別模型的輸入是文本的特征,輸出是文本對應(yīng)的主題,因此,在需要對文本進行主題識別時,可以先提取該文本的特征(如該文本包含的字),再將提取的特征作為文本主題識別模型的輸入,得到的輸出即為該文本對應(yīng)的主題。

在識別出文本的主題后,可以將其應(yīng)用在不同的領(lǐng)域中,如應(yīng)用在文本相關(guān)性計算、內(nèi)容推薦、點擊率預(yù)估等場景中。

本實施例中,通過根據(jù)文本主題識別模型進行文本主題識別,由于文本主題識別模型是根據(jù)訓(xùn)練數(shù)據(jù)進行訓(xùn)練后生成的,因此根據(jù)文本主題識別模型識別出的主題更準(zhǔn)確。進一步的,通過自動分析和人工標(biāo)注主題詞,可以豐富訓(xùn)練數(shù)據(jù)量。進一步的,通過采用神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,可以提高模型的準(zhǔn)確度,進而提高文本主題識別的準(zhǔn)確度。

圖3是本申請一個實施例提出的文本主題識別裝置的結(jié)構(gòu)示意圖。

如圖3所示,該裝置30包括:第一獲取模塊31、第二獲取模塊32和識別模塊33。

第一獲取模塊31,用于獲取待識別的文本;

第二獲取模塊32,用于獲取已生成的文本主題識別模型,所述文本主題識別模型是根據(jù)訓(xùn)練數(shù)據(jù)生成的,所述訓(xùn)練數(shù)據(jù)包括收集的文本的特征和收集的文本對應(yīng)的主題;

其中,可以預(yù)先獲取訓(xùn)練數(shù)據(jù),并根據(jù)訓(xùn)練數(shù)據(jù)采用機器學(xué)習(xí)算法訓(xùn)練生成文本主題識別模型,文本主題識別模型可以表明文本與主題之間的關(guān)系,以根據(jù)文本主題識別模型識別出文本的主題。

識別模塊33,用于根據(jù)所述文本主題識別模型對所述文本進行主題識別,識別出所述文本的主題。

其中,識別出的主題可以包含在文本中也可以不包含在文本中,如文本是“頭發(fā)越來越少”,則識別出的主題可以是“脫發(fā)”。

一些實施例中,參見圖4,該裝置30還包括:

提取模塊34,用于提取所述文本的特征,以根據(jù)所述特征和所述文本主題識別模型,識別出所述文本的主題。

進一步的,文本主題識別模型的輸入和輸出可以分別是文本的特征和文本的主題,此時,在獲取到待識別的文本后,可以先對文本提取特征,再將提取出的特征作為文本主題識別模型的輸入,從而得到的輸出為該文本的主題,完成文本主題識別。

一些實施例中,參見圖4,該裝置30還包括:

收集模塊35,用于收集文本及獲取收集的文本的主題詞;

其中,可以對收集的文本進行自動分析,分析文本中詞對文本整體語義的重要性,將重要性較高的一個或多個詞(具體數(shù)量可設(shè)置)作為文本的主題詞,得到一批文本到主題的標(biāo)注數(shù)據(jù)。另外,還可以通過人工標(biāo)注,得到另一批文本到主題的標(biāo)注數(shù)據(jù)。

進一步的,文本的主題可以包含在文本中,如“好的健身方法有哪些”對應(yīng)的主題是“健身”;也有可能不在文本中,如“總是掉頭發(fā)該怎么辦”對應(yīng)的主題是“脫發(fā)”。

處理模塊36,用于對獲取的主題詞進行過濾及聚類,生成主題的集合;

過濾是指過濾掉不合理和錯誤的主題詞,如過濾掉切詞得到的不完整的詞。

在過濾后,對主題詞進行聚類,將聚簇中最通用和概括的主題詞作為本聚簇的主題,生成主題的集合。聚類依據(jù)的主題詞之間的相關(guān)性,具體的聚類方法不限定。

確定模塊37,用于提取收集的文本的特征,將提取的特征及文本對應(yīng)的主題作為訓(xùn)練數(shù)據(jù);

文本的特征可以具體是指組成文本的每個字。

訓(xùn)練模塊38,用于對訓(xùn)練數(shù)據(jù)進行訓(xùn)練,生成文本主題識別模型。

在訓(xùn)練時,將文本的特征作為輸入,使得經(jīng)過模型輸出的主題與文本的主題盡量相同。模型的網(wǎng)絡(luò)結(jié)構(gòu)可以采用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)或卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

一些實施例中,所述收集模塊35用于獲取收集的文本的主題詞包括:

對收集的文本進行自動分析,得到文本的主題詞;或者,

對收集的文本進行人工標(biāo)注,得到文本的主題詞。

一些實施例中,所述訓(xùn)練模塊38具體用于:

采用神經(jīng)網(wǎng)絡(luò)模型,對訓(xùn)練數(shù)據(jù)進行訓(xùn)練,生成文本主題識別模型。

可以理解的是,本實施例的裝置與上述方法實施例對應(yīng),具體內(nèi)容可以參見方法實施例的相關(guān)描述,在此不再詳細說明。

本實施例中,通過根據(jù)文本主題識別模型進行文本主題識別,由于文本主題識別模型是根據(jù)訓(xùn)練數(shù)據(jù)進行訓(xùn)練后生成的,因此根據(jù)文本主題識別模型識別出的主題更準(zhǔn)確。進一步的,通過自動分析和人工標(biāo)注主題詞,可以豐富訓(xùn)練數(shù)據(jù)量。進一步的,通過采用神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,可以提高模型的準(zhǔn)確度,進而提高文本主題識別的準(zhǔn)確度。

可以理解的是,上述各實施例中相同或相似部分可以相互參考,在一些實施例中未詳細說明的內(nèi)容可以參見其他實施例中相同或相似的內(nèi)容。

需要說明的是,在本申請的描述中,術(shù)語“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對重要性。此外,在本申請的描述中,除非另有說明,“多個”的含義是指至少兩個。

流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本申請的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本申請的實施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。

應(yīng)當(dāng)理解,本申請的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。例如,如果用硬件來實現(xiàn),和在另一實施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場可編程門陣列(FPGA)等。

本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。

此外,在本申請各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質(zhì)中。

上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。

在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本申請的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結(jié)合。

盡管上面已經(jīng)示出和描述了本申請的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本申請的限制,本領(lǐng)域的普通技術(shù)人員在本申請的范圍內(nèi)可以對上述實施例進行變化、修改、替換和變型。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1