亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于文檔的關(guān)鍵詞推送方法及裝置與流程

文檔序號(hào):12802766閱讀:219來源:國知局
基于文檔的關(guān)鍵詞推送方法及裝置與流程

本發(fā)明涉及通信技術(shù)領(lǐng)域,具體涉及一種基于文檔的關(guān)鍵詞推送方法及裝置。



背景技術(shù):

隨著互聯(lián)網(wǎng)的飛速發(fā)展,越來越多的用戶習(xí)慣于通過網(wǎng)絡(luò)獲取各類信息。其中,在用戶獲取文檔信息時(shí),為了方便用戶的搜索和了解,會(huì)針對該文檔信息推送對應(yīng)的關(guān)鍵詞,以方便用戶根據(jù)關(guān)鍵詞快速了解文檔內(nèi)容,從而為用戶的閱讀、搜索提供便利。

在現(xiàn)有的關(guān)鍵詞推送方式中,通常采用如下方式實(shí)現(xiàn):首先,對文檔中的內(nèi)容進(jìn)行分詞處理;然后,從分詞處理的結(jié)果中提取出現(xiàn)頻率較高、或重要程度較高的詞匯作為關(guān)鍵詞進(jìn)行推送。

但是,發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中發(fā)現(xiàn)現(xiàn)有技術(shù)中的上述方案至少存在下述缺陷:通過簡單的分詞提取的方式只能將文檔中明確出現(xiàn)的詞匯確定為關(guān)鍵詞,因此,無法從語義層面進(jìn)行分析,從而無法對文檔的內(nèi)容進(jìn)行準(zhǔn)確地總結(jié)和概括,進(jìn)而導(dǎo)致的推送的關(guān)鍵詞無法準(zhǔn)確地反映文檔的核心內(nèi)容。



技術(shù)實(shí)現(xiàn)要素:

鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的基于文檔的關(guān)鍵詞推送方法及裝置。

根據(jù)本發(fā)明的一個(gè)方面,提供了一種基于文檔的關(guān)鍵詞推送方法,包括:每當(dāng)獲取到文檔時(shí),將獲取到的文檔所對應(yīng)的文檔內(nèi)容輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型;獲取所述神經(jīng)網(wǎng)絡(luò)模型的輸出結(jié)果,根據(jù)所述輸出結(jié)果確定所述文檔的關(guān)鍵詞,并對所述關(guān)鍵詞進(jìn)行推送;獲取用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果,根據(jù)所述反饋結(jié)果對所述預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí);根據(jù)所述增強(qiáng)學(xué)習(xí)的學(xué)習(xí)結(jié)果對所述預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行調(diào)整。

可選地,所述將獲取到的文檔所對應(yīng)的文檔內(nèi)容輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型的步驟之前,進(jìn)一步包括:對所述獲取到的文檔進(jìn)行預(yù)處理,將預(yù)處理結(jié)果作為所述文檔對應(yīng)的文檔內(nèi)容;其中,所述預(yù)處理包括以下中的至少一個(gè):分詞處理、以及詞向量轉(zhuǎn)換處理。

可選地,所述根據(jù)所述輸出結(jié)果確定所述文檔的關(guān)鍵詞的步驟具體包括:根據(jù)預(yù)設(shè)的篩選策略對所述輸出結(jié)果進(jìn)行篩選,將篩選結(jié)果確定為所述文檔的關(guān)鍵詞;其中,所述篩選策略包括以下中的至少一個(gè):根據(jù)詞性進(jìn)行篩選的策略;以及,根據(jù)詞頻進(jìn)行篩選的策略。

可選地,所述對所述關(guān)鍵詞進(jìn)行推送的步驟之后進(jìn)一步包括:當(dāng)監(jiān)測到用戶終端針對所述關(guān)鍵詞觸發(fā)的點(diǎn)擊事件時(shí),將所述點(diǎn)擊事件記錄到用戶日志文件中;則所述獲取用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果的步驟具體包括:查詢所述用戶日志文件中是否包含與所述關(guān)鍵詞對應(yīng)的點(diǎn)擊事件;當(dāng)查詢結(jié)果為否時(shí),確定所述用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果為第一類反饋結(jié)果;其中,所述第一類反饋結(jié)果對應(yīng)的關(guān)鍵詞用于作為負(fù)樣本提供給所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí);當(dāng)查詢結(jié)果為是時(shí),確定所述用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果為第二類反饋結(jié)果;其中,所述第二類反饋結(jié)果對應(yīng)的關(guān)鍵詞用于作為正樣本提供給所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí)。

可選地,當(dāng)查詢結(jié)果為是時(shí),進(jìn)一步包括:確定所述用戶日志文件中包含的與所述關(guān)鍵詞對應(yīng)的點(diǎn)擊事件的次數(shù),根據(jù)次數(shù)確定第二類反饋結(jié)果對應(yīng)的結(jié)果分值;其中,所述結(jié)果分值用于確定對應(yīng)的負(fù)樣本的樣本權(quán)重。

可選地,所述獲取用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果的步驟具體包括:每隔預(yù)設(shè)的時(shí)間間隔獲取一次用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果;和/或,每當(dāng)所述用戶日志文件中錄入點(diǎn)擊事件時(shí)觸發(fā)與所述點(diǎn)擊事件對應(yīng)的通知消息,通過訂閱所述通知消息獲取用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果。

可選地,所述神經(jīng)網(wǎng)絡(luò)模型包括以下中的至少一個(gè):卷積神經(jīng)網(wǎng)絡(luò)、以及循環(huán)神經(jīng)網(wǎng)絡(luò);其中,所述卷積神經(jīng)網(wǎng)絡(luò)包括:至少一個(gè)卷積核,用于對所述文檔內(nèi)容進(jìn)行特征提取;所述循環(huán)神經(jīng)網(wǎng)絡(luò)包括:長短期記憶網(wǎng)絡(luò),其中,所述長短期記憶網(wǎng)絡(luò)中的當(dāng)前時(shí)間點(diǎn)的輸入數(shù)據(jù)為上一個(gè)時(shí)間點(diǎn)的輸出數(shù)據(jù)。

可選地,所述增強(qiáng)學(xué)習(xí)的算法包括反向傳播算法。

可選地,所述方法執(zhí)行之前,進(jìn)一步包括步驟:從預(yù)設(shè)的分布式消息隊(duì)列中獲取文檔。

根據(jù)本發(fā)明的另一個(gè)方面,提供了一種基于文檔的關(guān)鍵詞推送裝置,包括:輸入模塊,適于每當(dāng)獲取到文檔時(shí),將獲取到的文檔所對應(yīng)的文檔內(nèi)容輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型;第一獲取模塊,適于獲取所述神經(jīng)網(wǎng)絡(luò)模型的輸出結(jié)果;確定模塊,適于根據(jù)所述輸出結(jié)果確定所述文檔的關(guān)鍵詞,并對所述關(guān)鍵詞進(jìn)行推送;第二獲取模塊,適于獲取用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果;增強(qiáng)學(xué)習(xí)模塊,適于根據(jù)所述反饋結(jié)果對所述預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí);調(diào)整模塊,適于根據(jù)所述增強(qiáng)學(xué)習(xí)的學(xué)習(xí)結(jié)果對所述預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行調(diào)整。

可選地,所述裝置進(jìn)一步包括:預(yù)處理模塊,適于對所述獲取到的文檔進(jìn)行預(yù)處理,將預(yù)處理結(jié)果作為所述文檔對應(yīng)的文檔內(nèi)容;其中,所述預(yù)處理包括以下中的至少一個(gè):分詞處理、以及詞向量轉(zhuǎn)換處理。

可選地,所述確定模塊具體用于:根據(jù)預(yù)設(shè)的篩選策略對所述輸出結(jié)果進(jìn)行篩選,將篩選結(jié)果確定為所述文檔的關(guān)鍵詞;其中,所述篩選策略包括以下中的至少一個(gè):根據(jù)詞性進(jìn)行篩選的策略;以及,根據(jù)詞頻進(jìn)行篩選的策略。

可選地,所述裝置進(jìn)一步包括:監(jiān)測模塊,適于當(dāng)監(jiān)測到用戶終端針對所述關(guān)鍵詞觸發(fā)的點(diǎn)擊事件時(shí),將所述點(diǎn)擊事件記錄到用戶日志文件中;則所述第二獲取模塊具體包括:查詢單元,適于查詢所述用戶日志文件中是否包含與所述關(guān)鍵詞對應(yīng)的點(diǎn)擊事件;第一確定單元,適于當(dāng)查詢結(jié)果為否時(shí),確定所述用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果為第一類反饋結(jié)果;其中,所述第一類反饋結(jié)果對應(yīng)的關(guān)鍵詞用于作為負(fù)樣本提供給所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí);第二確定單元,適于當(dāng)查詢結(jié)果為是時(shí),確定所述用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果為第二類反饋結(jié)果;其中,所述第二類反饋結(jié)果對應(yīng)的關(guān)鍵詞用于作為正樣本提供給所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí)。

可選地,所述第二確定單元進(jìn)一步用于:確定所述用戶日志文件中包含的與所述關(guān)鍵詞對應(yīng)的點(diǎn)擊事件的次數(shù),根據(jù)次數(shù)確定第二類反饋結(jié)果對應(yīng)的結(jié)果分值;其中,所述結(jié)果分值用于確定對應(yīng)的負(fù)樣本的樣本權(quán)重。

可選地,所述第二獲取模塊進(jìn)一步用于:每隔預(yù)設(shè)的時(shí)間間隔獲取一次用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果;和/或,每當(dāng)所述用戶日志文件中錄入點(diǎn)擊事件時(shí)觸發(fā)與所述點(diǎn)擊事件對應(yīng)的通知消息,通過訂閱所述通知消息獲取用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果。

可選地,所述神經(jīng)網(wǎng)絡(luò)模型包括以下中的至少一個(gè):卷積神經(jīng)網(wǎng)絡(luò)、以及循環(huán)神經(jīng)網(wǎng)絡(luò);其中,所述卷積神經(jīng)網(wǎng)絡(luò)包括:至少一個(gè)卷積核,用于對所述文檔內(nèi)容進(jìn)行特征提??;所述循環(huán)神經(jīng)網(wǎng)絡(luò)包括:長短期記憶網(wǎng)絡(luò),其中,所述長短期記憶網(wǎng)絡(luò)中的當(dāng)前時(shí)間點(diǎn)的輸入數(shù)據(jù)為上一個(gè)時(shí)間點(diǎn)的輸出數(shù)據(jù)。

可選地,所述增強(qiáng)學(xué)習(xí)的算法包括反向傳播算法。

可選地,所述裝置進(jìn)一步包括:第三獲取模塊,適于從預(yù)設(shè)的分布式消息隊(duì)列中獲取文檔。

在本發(fā)明提供的一種基于文檔的關(guān)鍵詞推送方法及裝置中,一方面,通過將獲取到的文檔所對應(yīng)的文檔內(nèi)容輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型,并根據(jù)神經(jīng)網(wǎng)絡(luò)模型的輸出結(jié)果確定并推送文檔的關(guān)鍵詞,能夠利用神經(jīng)網(wǎng)絡(luò)模型的機(jī)器學(xué)習(xí)功能實(shí)現(xiàn)對文本語義關(guān)系的挖掘和概括,從而提取出更加準(zhǔn)確的關(guān)鍵詞。另一方面,通過獲取用戶終端針對推送的關(guān)鍵詞觸發(fā)的反饋結(jié)果,并根據(jù)反饋結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行調(diào)整,能夠根據(jù)用戶反饋對神經(jīng)網(wǎng)絡(luò)模型進(jìn)行更新,從而使神經(jīng)網(wǎng)絡(luò)模型不斷優(yōu)化,進(jìn)而在后續(xù)過程中進(jìn)一步提升關(guān)鍵詞推送的準(zhǔn)確性。由此可見,本發(fā)明中的方案能夠有效提升關(guān)鍵詞的推送質(zhì)量,準(zhǔn)確反映文檔的核心內(nèi)容。

上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。

附圖說明

通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:

圖1示出了根據(jù)本發(fā)明實(shí)施例一提供的一種基于文檔的關(guān)鍵詞推送方法的流程圖;

圖2示出了根據(jù)本發(fā)明實(shí)施例二提供的一種基于文檔的關(guān)鍵詞推送方法的流程圖;

圖3示出了根據(jù)本發(fā)明實(shí)施例三提供的一種基于文檔的關(guān)鍵詞推送裝置的結(jié)構(gòu)框圖。

圖4示出了根據(jù)本發(fā)明實(shí)施例四提供的一種基于文檔的關(guān)鍵詞推送裝置的結(jié)構(gòu)框圖。

具體實(shí)施方式

下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。

本發(fā)明提供了一種基于文檔的關(guān)鍵詞推送方法及裝置,至少能夠解決現(xiàn)有技術(shù)中由于無法根據(jù)文本內(nèi)容中的語義來挖掘關(guān)鍵詞而導(dǎo)致推送的關(guān)鍵詞過于粗糙,不夠準(zhǔn)確的技術(shù)問題。

實(shí)施例一

圖1示出了根據(jù)本發(fā)明實(shí)施例一提供的一種基于文檔的關(guān)鍵詞推送方法的流程圖。如圖1所示,該方法包括以下步驟:

步驟s110:每當(dāng)獲取到文檔時(shí),將獲取到的文檔所對應(yīng)的文檔內(nèi)容輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型。

具體地,文檔包括新聞、網(wǎng)頁、郵件等各類文字信息,文檔內(nèi)容具體為針對上述文檔進(jìn)行一定的處理之后的處理結(jié)果。其中,文檔內(nèi)容可以為針對上述文檔進(jìn)行分詞處理或者詞向量轉(zhuǎn)換處理等相關(guān)處理之后的處理結(jié)果,具體的處理方式可取決于神經(jīng)網(wǎng)絡(luò)模型的具體類型。

預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型用于根據(jù)輸入的文檔內(nèi)容來確定對應(yīng)的關(guān)鍵詞。本發(fā)明對神經(jīng)網(wǎng)絡(luò)模型所使用的具體算法以及訓(xùn)練方式不做限定。例如,在生成預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型時(shí),可以將大量的原始語料作為訓(xùn)練樣本集,通過對該訓(xùn)練樣本集進(jìn)行訓(xùn)練來生成上述神經(jīng)網(wǎng)絡(luò)模型。其中,上述預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型可以包括卷積神經(jīng)網(wǎng)絡(luò)以及循環(huán)神經(jīng)網(wǎng)絡(luò)等。

步驟s120:獲取神經(jīng)網(wǎng)絡(luò)模型的輸出結(jié)果,根據(jù)輸出結(jié)果確定文檔的關(guān)鍵詞,并對關(guān)鍵詞進(jìn)行推送。

其中,上述輸出結(jié)果具體包括對輸入的文檔內(nèi)容進(jìn)行語義分析、抽象以及概括處理等相關(guān)處理之后,針對該文檔內(nèi)容生成的一個(gè)或多個(gè)關(guān)鍵詞。在獲取輸出結(jié)果之后,可以直接將輸出結(jié)果作為對應(yīng)文檔的關(guān)鍵詞,也可以先對輸出結(jié)果進(jìn)行進(jìn)一步的篩選或排序等處理后,再根據(jù)處理結(jié)果確定對應(yīng)文檔的關(guān)鍵詞。

步驟s130:獲取用戶終端針對推送的關(guān)鍵詞觸發(fā)的反饋結(jié)果,根據(jù)反饋結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí)。

具體地,用戶終端在獲取并顯示推送的關(guān)鍵詞后,若接收到用戶針對推送的關(guān)鍵詞執(zhí)行預(yù)設(shè)操作的操作請求,則根據(jù)操作請求的次數(shù)和類型生成相應(yīng)的反饋結(jié)果,該反饋結(jié)果用于提供給神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí)。其中,預(yù)設(shè)操作包括點(diǎn)擊操作和/或搜索操作。其中,反饋結(jié)果可以通過用戶日志的方式進(jìn)行記錄。

步驟s140:根據(jù)增強(qiáng)學(xué)習(xí)的學(xué)習(xí)結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行調(diào)整。

具體地,根據(jù)步驟s130中增強(qiáng)學(xué)習(xí)的學(xué)習(xí)結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型調(diào)整,使預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型能夠根據(jù)動(dòng)態(tài)的反饋結(jié)果來實(shí)現(xiàn)對應(yīng)的動(dòng)態(tài)調(diào)整,即:使神經(jīng)網(wǎng)絡(luò)模型能夠針對用戶的需求或者針對用戶的興趣來動(dòng)態(tài)調(diào)整輸出傾向,以此來進(jìn)一步提高神經(jīng)網(wǎng)絡(luò)模型輸出結(jié)果的準(zhǔn)確性。其中,調(diào)整的參數(shù)可以包括關(guān)鍵詞的權(quán)重、邏輯關(guān)系以及與其它相關(guān)詞匯的填補(bǔ)關(guān)系等與關(guān)鍵詞語義相關(guān)的關(guān)聯(lián)關(guān)系。

由此可見,在本發(fā)明提供的一種基于文檔的關(guān)鍵詞推送方法中,一方面,通過將獲取到的文檔所對應(yīng)的文檔內(nèi)容輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型,并根據(jù)神經(jīng)網(wǎng)絡(luò)模型的輸出結(jié)果確定并推送文檔的關(guān)鍵詞,能夠利用神經(jīng)網(wǎng)絡(luò)模型的機(jī)器學(xué)習(xí)功能實(shí)現(xiàn)對文本語義關(guān)系的挖掘和概括,從而提取出更加準(zhǔn)確的關(guān)鍵詞。另一方面,通過獲取用戶終端針對推送的關(guān)鍵詞觸發(fā)的反饋結(jié)果,并根據(jù)反饋結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行調(diào)整,能夠根據(jù)用戶反饋對神經(jīng)網(wǎng)絡(luò)模型進(jìn)行更新,從而使神經(jīng)網(wǎng)絡(luò)模型不斷優(yōu)化,進(jìn)而在后續(xù)過程中進(jìn)一步提升關(guān)鍵詞推送的準(zhǔn)確性。

實(shí)施例二

圖2示出了根據(jù)本發(fā)明實(shí)施例二提供的一種基于文檔的關(guān)鍵詞推送方法流程圖。如圖2所示,該方法包括以下步驟:

步驟s210:對獲取到的文檔進(jìn)行預(yù)處理,將預(yù)處理結(jié)果作為文檔對應(yīng)的文檔內(nèi)容。

具體地,為了便于存取,可以將文檔存儲(chǔ)在分布式消息隊(duì)列中,從而利用分布式消息隊(duì)列獲取文檔,并對獲取到的文檔進(jìn)行預(yù)處理。其中,預(yù)處理包括以下中的至少一個(gè):分詞處理、以及詞向量轉(zhuǎn)換處理。分詞處理具體為:在獲取到文檔之后,將文檔語句中包含的詞進(jìn)行詞性劃分、詞義劃分等拆分處理,抽取并保留其中的關(guān)鍵詞。例如,若文檔中包含語句為“原子能應(yīng)用與發(fā)展的重要意義”,則對上述語句進(jìn)行分詞處理之后的結(jié)果為:“原子能”、“應(yīng)用”、“發(fā)展”、“重要意義”。詞向量轉(zhuǎn)換處理具體為:通過向量形式表示各個(gè)詞匯之間的關(guān)系,從而把文本處理簡化為向量運(yùn)算,通過計(jì)算向量空間上的相似度來表示文本語義上的相似度。因此,詞向量能夠在一定程度上刻畫出詞與詞之間的語義距離。發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中發(fā)現(xiàn),通過將文檔轉(zhuǎn)換為詞向量的方式能夠顯著提升神經(jīng)網(wǎng)絡(luò)模型的預(yù)測效率。其中,詞向量可以通過多種方式得到,例如,可以將大量文章作為訓(xùn)練詞向量的訓(xùn)練數(shù)據(jù)集,通過訓(xùn)練文章中的詞匯得到詞向量;也可以根據(jù)各個(gè)詞匯的出現(xiàn)頻率來確定詞向量。具體實(shí)施中,在針對獲取到的文檔進(jìn)行預(yù)處理時(shí),可以根據(jù)實(shí)際情況來選擇上述處理方式中的任意一種方式,或者,也可以將上述兩種方式進(jìn)行結(jié)合和優(yōu)化,從而實(shí)現(xiàn)更優(yōu)的預(yù)處理效果。

步驟s220:每當(dāng)獲取到文檔時(shí),將獲取到的文檔所對應(yīng)的文檔內(nèi)容輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型。

具體地,預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型一般包含三層結(jié)構(gòu):輸入層、輸出層以及位于輸入層和輸出層之間的隱藏層。其中,上述輸入層用于接收輸入信息,為神經(jīng)網(wǎng)絡(luò)模型中的輸入端口;上述輸出層用于輸出處理結(jié)果,為神經(jīng)網(wǎng)絡(luò)模型中的輸出端口;隱藏層位于輸入層和輸出層之間,具體用于對上述輸入信息進(jìn)行特征提取。具體實(shí)施中,在建立預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型時(shí),可以通過對大量的原始語料進(jìn)行訓(xùn)練來生成上述神經(jīng)網(wǎng)絡(luò)模型。

在本實(shí)施例中,預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型為一種基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,其包括以下中的至少一個(gè):卷積神經(jīng)網(wǎng)絡(luò)(cnn)、以及循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)。其中,卷積神經(jīng)網(wǎng)絡(luò)包括:至少一個(gè)卷積核,該卷積核用于對文檔內(nèi)容進(jìn)行特征提取。循環(huán)神經(jīng)網(wǎng)絡(luò)包括:長短期記憶網(wǎng)絡(luò),其中,長短期記憶網(wǎng)絡(luò)中的當(dāng)前時(shí)間點(diǎn)的輸入數(shù)據(jù)為上一個(gè)時(shí)間點(diǎn)的輸出數(shù)據(jù)。

具體地,卷積神經(jīng)網(wǎng)絡(luò)是一種基于深度學(xué)習(xí)建立的架構(gòu)。卷積神經(jīng)網(wǎng)絡(luò)中可以包含多個(gè)不同的卷積核,卷積核可以通過與指定對象進(jìn)行卷積運(yùn)算來提取指定對象的不同特征,其具體過程可以為:將卷積核與文檔內(nèi)容做卷積,其卷積結(jié)果即為對文檔內(nèi)容進(jìn)行特征提取的結(jié)果,即:卷積結(jié)果為針對文檔內(nèi)容中對應(yīng)關(guān)鍵字的抽取和概括的結(jié)果。具體實(shí)施中,本領(lǐng)域技術(shù)人員可以根據(jù)需要提取的文檔內(nèi)容的特征來設(shè)置對應(yīng)的卷積核。其中,在上述卷積過程中,文檔內(nèi)容中的信息由于與卷積核進(jìn)行卷積運(yùn)算而被賦予不同的權(quán)重,進(jìn)而能夠針對上述賦予的權(quán)重信息來對文檔中的內(nèi)容進(jìn)行特征提取。并且,由于卷積神經(jīng)網(wǎng)絡(luò)中的卷積核具有卷積共享性(即針對于上述權(quán)值來講,具有權(quán)重共享性),因此在本實(shí)施例中,應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取能夠有效降低神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜度,減少權(quán)值的數(shù)量,有效避免傳統(tǒng)識(shí)別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程。具體地,在將獲取到的文檔所對應(yīng)的文檔內(nèi)容輸入上述卷積神經(jīng)網(wǎng)絡(luò)時(shí),具體為將文檔內(nèi)容以每篇文章為單位輸入上述卷積神經(jīng)網(wǎng)絡(luò)。

循環(huán)神經(jīng)網(wǎng)絡(luò)是一種用來處理序列數(shù)據(jù)的網(wǎng)絡(luò),其針對的問題為:當(dāng)兩個(gè)關(guān)聯(lián)數(shù)據(jù)之間的距離較遠(yuǎn)時(shí),如何使這兩個(gè)關(guān)聯(lián)數(shù)據(jù)之間產(chǎn)生關(guān)聯(lián)關(guān)系。具體地,循環(huán)神經(jīng)網(wǎng)絡(luò)的具體表現(xiàn)形式為:對前面的信息進(jìn)行記憶并將上述記憶應(yīng)用于當(dāng)前輸出的計(jì)算中。即:在循環(huán)神經(jīng)網(wǎng)絡(luò)中,隱藏層之間的節(jié)點(diǎn)不再是無連接的節(jié)點(diǎn),而是有連接的節(jié)點(diǎn);并且,隱藏層的輸入不僅包括輸入層的輸出,還進(jìn)一步包括上一時(shí)刻隱藏層的輸出。在本實(shí)施例中,循環(huán)神經(jīng)網(wǎng)絡(luò)包括:長短期記憶網(wǎng)絡(luò)(lstm)。長短期記憶網(wǎng)絡(luò)能夠針對輸入的文檔內(nèi)容進(jìn)行轉(zhuǎn)碼操作,并對文檔內(nèi)容進(jìn)行擬合。在長短期記憶網(wǎng)絡(luò)中,當(dāng)前時(shí)間點(diǎn)的輸入數(shù)據(jù)為上一個(gè)時(shí)間點(diǎn)的輸出數(shù)據(jù),也就是說,長短期記憶網(wǎng)絡(luò)能夠?qū)⑸弦粋€(gè)時(shí)間點(diǎn)輸出的文檔內(nèi)容連接至當(dāng)前時(shí)間點(diǎn)的文檔內(nèi)容學(xué)習(xí)中,增加了神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)與預(yù)測語言的能力,使深度學(xué)習(xí)能夠適應(yīng)更加復(fù)雜的語言場景。具體地,在將獲取到的文檔所對應(yīng)的文檔內(nèi)容輸入長短期記憶網(wǎng)絡(luò)時(shí),具體為將文檔內(nèi)容以句子為單位輸入長短期記憶網(wǎng)絡(luò)。

步驟s230:根據(jù)預(yù)設(shè)的篩選策略對輸出結(jié)果進(jìn)行篩選,將篩選結(jié)果確定為文檔的關(guān)鍵詞,并對上述關(guān)鍵詞進(jìn)行推送。

其中,預(yù)設(shè)的篩選策略包括以下中的至少一個(gè):根據(jù)詞性進(jìn)行篩選的策略;以及,根據(jù)詞頻進(jìn)行篩選的策略。具體地,根據(jù)詞性的篩選策略具體為:根據(jù)每個(gè)詞在語法上的詞性,比如動(dòng)詞、名詞以及形容詞等詞性屬性來篩選輸出結(jié)果,確定輸出結(jié)果中的關(guān)鍵詞。例如,當(dāng)關(guān)鍵詞的詞性為副詞、連詞、助詞等詞性時(shí),由于這些詞性的詞一般都不屬于實(shí)詞,因此,可以通過詞性篩選策略將屬于副詞、連詞、助詞等詞性的關(guān)鍵詞篩除。根據(jù)詞頻進(jìn)行篩選的策略為:根據(jù)關(guān)鍵詞出現(xiàn)的頻率來篩除關(guān)鍵詞。具體實(shí)施中,可以通過tf-idf(termfrequency–inversedocumentfrequency,詞頻--反轉(zhuǎn)文件頻率)算法針對輸出結(jié)果中的關(guān)鍵詞的詞頻進(jìn)行相關(guān)的權(quán)重計(jì)算和賦值,抽取出權(quán)重較大的關(guān)鍵詞作為文檔的關(guān)鍵詞,并對確定的關(guān)鍵詞進(jìn)行推送。在本步驟中,針對輸出結(jié)果中的關(guān)鍵詞進(jìn)行進(jìn)一步的篩選處理,進(jìn)一步提升了針對文檔關(guān)鍵詞推送的準(zhǔn)確性。

步驟s240:當(dāng)監(jiān)測到用戶終端針對關(guān)鍵詞觸發(fā)的點(diǎn)擊事件時(shí),將點(diǎn)擊事件記錄到用戶日志文件中。

具體地,點(diǎn)擊事件具體為用戶在用戶終端側(cè)針對推送的關(guān)鍵詞進(jìn)行點(diǎn)擊的操作事件。當(dāng)監(jiān)測到針對關(guān)鍵詞觸發(fā)的點(diǎn)擊事件時(shí),將上述點(diǎn)擊事件記錄在用戶日志文件中,并據(jù)此來確定用戶針對關(guān)鍵詞的反饋信息。例如,當(dāng)用戶對關(guān)鍵詞1進(jìn)行點(diǎn)擊操作之后,日志中自動(dòng)記錄關(guān)鍵詞1的信息并在點(diǎn)擊次數(shù)信息上進(jìn)行+1操作。

步驟s250:獲取用戶終端針對推送的關(guān)鍵詞觸發(fā)的反饋結(jié)果,根據(jù)反饋結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí)。

其中,反饋結(jié)果可以通過步驟s240中的用戶日志文件進(jìn)行獲取。具體地,反饋結(jié)果可以通過用戶針對關(guān)鍵詞的點(diǎn)擊操作次數(shù)和/或點(diǎn)擊操作頻率得到。在獲取反饋結(jié)果時(shí),其具體步驟可以為:查詢用戶日志文件中是否包含與關(guān)鍵詞對應(yīng)的點(diǎn)擊事件;當(dāng)查詢結(jié)果為否時(shí),確定用戶終端針對推送的關(guān)鍵詞觸發(fā)的反饋結(jié)果為第一類反饋結(jié)果;當(dāng)查詢結(jié)果為是時(shí),確定用戶終端針對推送的關(guān)鍵詞觸發(fā)的反饋結(jié)果為第二類反饋結(jié)果。其中,當(dāng)查詢結(jié)果為是時(shí),進(jìn)一步包括:確定用戶日志文件中包含的與關(guān)鍵詞對應(yīng)的點(diǎn)擊事件的次數(shù),根據(jù)次數(shù)確定第二類反饋結(jié)果對應(yīng)的結(jié)果分值。

具體實(shí)現(xiàn)時(shí),在對應(yīng)的時(shí)間范圍內(nèi)查詢用戶日志文件,當(dāng)查詢到用戶日志文件中并不包含與關(guān)鍵詞對應(yīng)的點(diǎn)擊事件時(shí),確定相應(yīng)的反饋結(jié)果為第一類反饋結(jié)果。第一類反饋結(jié)果對應(yīng)的關(guān)鍵詞作為負(fù)樣本提供給神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)模型通過第一類反饋結(jié)果能夠確定推送效果不理想的關(guān)鍵詞,并在后續(xù)的推送過程中改進(jìn)相關(guān)的推送策略。

當(dāng)查詢到用戶日志文件中包含與關(guān)鍵詞對應(yīng)的點(diǎn)擊事件時(shí),確定相應(yīng)的反饋結(jié)果為第二類反饋結(jié)果。并且,當(dāng)反饋結(jié)果為第二類反饋結(jié)果時(shí),進(jìn)一步對用戶日志文件中包含的與關(guān)鍵詞對應(yīng)的點(diǎn)擊事件的記錄進(jìn)行+1操作。第二類反饋結(jié)果對應(yīng)的關(guān)鍵詞作為正樣本提供給神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)模型通過第二類反饋結(jié)果能夠確定推送效果理想的關(guān)鍵詞,并在后續(xù)的推送過程中強(qiáng)化相關(guān)的推送策略。另外,在具體實(shí)施中,為了提升增強(qiáng)學(xué)習(xí)的學(xué)習(xí)效果,可以分別為各個(gè)正負(fù)樣本設(shè)置不同的樣本權(quán)重,例如,結(jié)果分值越高的第二類反饋結(jié)果所對應(yīng)的正樣本的樣本權(quán)重也越高,從而能夠?qū)⒂脩魸M意度高的關(guān)鍵詞的推送策略進(jìn)行重點(diǎn)強(qiáng)化,進(jìn)而使后續(xù)的輸出結(jié)果愈發(fā)迎合用戶需求。

進(jìn)一步地,在獲取用戶終端針對推送的關(guān)鍵詞觸發(fā)的反饋結(jié)果時(shí),可以每隔預(yù)設(shè)的時(shí)間間隔獲取一次用戶終端針對推送的關(guān)鍵詞觸發(fā)的反饋結(jié)果,例如,每隔1分鐘自動(dòng)獲取一次用戶終端針對推送的關(guān)鍵詞觸發(fā)反饋結(jié)果。具體實(shí)施時(shí),預(yù)設(shè)的時(shí)間間隔可以根據(jù)關(guān)鍵詞的數(shù)量和/或?yàn)g覽頻率進(jìn)行設(shè)定,而且,該種方式尤其適用于瀏覽頻率較固定的場景中。或者,在獲取反饋結(jié)果時(shí),每當(dāng)用戶日志文件中錄入點(diǎn)擊事件時(shí)觸發(fā)與點(diǎn)擊事件對應(yīng)的通知消息,通過訂閱通知消息獲取用戶終端針對推送的關(guān)鍵詞觸發(fā)的反饋結(jié)果。訂閱通知消息的方式能夠在第一時(shí)間接收到反饋結(jié)果,實(shí)時(shí)性較高,而且,該種方式尤其適用于關(guān)鍵詞的瀏覽頻率不固定的場景中,從而在瀏覽頻率較低的時(shí)間段內(nèi)避免查詢開銷。

在獲取反饋結(jié)果之后,根據(jù)反饋結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí)。其中,增強(qiáng)學(xué)習(xí)的算法包括:反向傳播算法。具體地,在本實(shí)施例中,能夠通過反向傳播算法來監(jiān)督神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)過程,該算法能夠?qū)⒂?xùn)練輸入送入網(wǎng)絡(luò)以獲得激勵(lì)響應(yīng),將激勵(lì)響應(yīng)同訓(xùn)練輸入對應(yīng)的目標(biāo)輸出求差,從而獲得隱藏層和輸出層的響應(yīng)誤差,然后通過調(diào)節(jié)每個(gè)詞向量的權(quán)重、參數(shù)等屬性來對應(yīng)調(diào)整每個(gè)詞向量,使神經(jīng)網(wǎng)絡(luò)模型得以調(diào)整和修正。并且,除此之外,增強(qiáng)學(xué)習(xí)的方式還可以有多種,例如,可以設(shè)置一個(gè)回報(bào)函數(shù),每當(dāng)針對某關(guān)鍵詞觸發(fā)一次點(diǎn)擊事件時(shí),針對該關(guān)鍵詞的回報(bào)結(jié)果+1或者回報(bào)結(jié)果為正等。例如,當(dāng)反饋結(jié)果為第一類反饋結(jié)果時(shí),相應(yīng)的關(guān)鍵詞的回報(bào)結(jié)果為負(fù);當(dāng)反饋結(jié)果為第二類反饋結(jié)果時(shí),相應(yīng)的關(guān)鍵詞的回報(bào)結(jié)果為正,且第二類反饋結(jié)果對應(yīng)的結(jié)果分值越高,相應(yīng)的關(guān)鍵詞的回報(bào)結(jié)果也越高。在這里,增強(qiáng)學(xué)習(xí)的具體實(shí)現(xiàn)方式可以由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況進(jìn)行設(shè)置,本發(fā)明對此不作限制。

步驟s260:根據(jù)增強(qiáng)學(xué)習(xí)的學(xué)習(xí)結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行調(diào)整。

具體地,在本步驟中,根據(jù)步驟s250中增強(qiáng)學(xué)習(xí)的學(xué)習(xí)結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型調(diào)整,使預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型能夠根據(jù)動(dòng)態(tài)的反饋結(jié)果來實(shí)現(xiàn)對應(yīng)的動(dòng)態(tài)調(diào)整,即:使神經(jīng)網(wǎng)絡(luò)模型能夠針對用戶的需求或者針對用戶的興趣來動(dòng)態(tài)調(diào)整輸出傾向,以此來進(jìn)一步提高神經(jīng)網(wǎng)絡(luò)模型輸出結(jié)果的準(zhǔn)確性。其中,調(diào)整的參數(shù)可以包括關(guān)鍵詞的權(quán)重、邏輯關(guān)系以及與其它相關(guān)詞匯的填補(bǔ)關(guān)系等與關(guān)鍵詞語義相關(guān)的關(guān)聯(lián)關(guān)系。

由此可見,在上述方式中,能夠利用神經(jīng)網(wǎng)絡(luò)模型自動(dòng)學(xué)習(xí),并且,該神經(jīng)網(wǎng)絡(luò)模型能夠根據(jù)用戶反饋而不斷完善,從而使輸出結(jié)果愈加精準(zhǔn)。在此過程中,無需人工干預(yù),減少了人工提取特征的時(shí)間成本和人力成本,通過機(jī)器學(xué)習(xí)的方式便捷準(zhǔn)確地實(shí)現(xiàn)了關(guān)鍵詞的推送。另外,由于神經(jīng)網(wǎng)絡(luò)模型能夠持續(xù)地根據(jù)新增樣本和用戶反饋進(jìn)行完善和更新,因而能夠?qū)π屡d詞匯進(jìn)行學(xué)習(xí),且能夠感知到詞匯之間的關(guān)聯(lián)關(guān)系的動(dòng)態(tài)變化情況,因而具備較高的時(shí)效性,尤其適用于新聞?lì)I(lǐng)域的關(guān)鍵詞推送。

另外,本領(lǐng)域技術(shù)人員還可以對上述實(shí)施例中的技術(shù)細(xì)節(jié)進(jìn)行各種改動(dòng)和變形。例如,對關(guān)鍵詞進(jìn)行推送時(shí),可以為各個(gè)關(guān)鍵詞設(shè)置多個(gè)不同的點(diǎn)擊操作入口,以便于用戶實(shí)現(xiàn)不同類型的操作。比如:用于實(shí)現(xiàn)用戶評分的評分操作入口、用于打開并瀏覽與關(guān)鍵詞對應(yīng)的文檔的瀏覽操作入口、用于根據(jù)該關(guān)鍵詞進(jìn)行相關(guān)搜索的搜索操作入口等。相應(yīng)地,在步驟s250中根據(jù)用戶終端針對推送的關(guān)鍵詞觸發(fā)的反饋結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí)時(shí),可以進(jìn)一步將查詢到的用戶日志文件中包含的與關(guān)鍵詞對應(yīng)的點(diǎn)擊事件細(xì)分為多種類型的點(diǎn)擊操作事件,比如細(xì)分為評分點(diǎn)擊操作事件、瀏覽點(diǎn)擊操作事件和搜索點(diǎn)擊操作事件。并且,預(yù)先為每種類型的點(diǎn)擊操作事件設(shè)置不同的分析優(yōu)先級(jí),并根據(jù)不同類型的點(diǎn)擊操作事件的分析優(yōu)先級(jí)設(shè)置對應(yīng)的反饋結(jié)果的結(jié)果分值,該結(jié)果分值用于確定對應(yīng)的樣本的樣本權(quán)重。由此可見,通過對反饋結(jié)果進(jìn)行細(xì)化,能夠更加準(zhǔn)確地反映用戶的滿意度,進(jìn)一步提升神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率。

綜上所述,在本發(fā)明提供的基于文檔的關(guān)鍵詞推送方法中,首先對獲取到的文檔進(jìn)行預(yù)處理,將預(yù)處理結(jié)果作為文檔對應(yīng)的文檔內(nèi)容,然后將獲取到的文檔所對應(yīng)的文檔內(nèi)容輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型,并根據(jù)預(yù)設(shè)的篩選策略對輸出結(jié)果進(jìn)行篩選,將篩選結(jié)果確定為文檔的關(guān)鍵詞,并對上述關(guān)鍵詞進(jìn)行推送。并且,當(dāng)監(jiān)測到用戶終端針對關(guān)鍵詞觸發(fā)的點(diǎn)擊事件時(shí),將點(diǎn)擊事件記錄到用戶日志文件中,獲取用戶終端針對推送的關(guān)鍵詞觸發(fā)的反饋結(jié)果,根據(jù)反饋結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí)。由此可見,本發(fā)明中的方案解決了在針對文檔進(jìn)行關(guān)鍵詞推送時(shí),由于無法根據(jù)文本內(nèi)容中的語義來挖掘關(guān)鍵詞進(jìn)而導(dǎo)致推送的關(guān)鍵詞過于粗糙,不夠準(zhǔn)確并且時(shí)效性較低的問題,實(shí)現(xiàn)了針對文檔中文本的語義關(guān)系、概念關(guān)系的來生成或者抽取文檔的關(guān)鍵詞的效果,并且能夠針對用戶的需求以及針對用戶的興趣來動(dòng)態(tài)調(diào)整輸出傾向,有效提高了文檔關(guān)鍵詞的推送質(zhì)量。

實(shí)施例三

圖3示出了根據(jù)本發(fā)明實(shí)施例三提供的一種基于文檔的關(guān)鍵詞推送裝置的結(jié)構(gòu)框圖。如圖3所示,該裝置包括:輸入模塊31、第一獲取模塊32、確定模塊33、第二獲取模塊34、增強(qiáng)學(xué)習(xí)模塊35以及調(diào)整模塊36。

輸入模塊31適于每當(dāng)獲取到文檔時(shí),將獲取到的文檔所對應(yīng)的文檔內(nèi)容輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型。

具體地,文檔包括新聞、網(wǎng)頁、郵件等各類文字信息,文檔內(nèi)容具體為針對上述文檔進(jìn)行一定的處理之后的處理結(jié)果。其中,文檔內(nèi)容可以為針對上述文檔進(jìn)行分詞處理或者詞向量轉(zhuǎn)換處理等相關(guān)處理之后的處理結(jié)果,具體的處理方式可取決于神經(jīng)網(wǎng)絡(luò)模型的具體類型。

預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型用于根據(jù)輸入的文檔內(nèi)容來確定對應(yīng)的關(guān)鍵詞。本發(fā)明對神經(jīng)網(wǎng)絡(luò)模型所使用的具體算法以及訓(xùn)練方式不做限定。例如,在生成預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型時(shí),可以將大量的原始語料作為訓(xùn)練樣本集,通過對該訓(xùn)練樣本集進(jìn)行訓(xùn)練來生成上述神經(jīng)網(wǎng)絡(luò)模型。其中,上述預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型可以包括卷積神經(jīng)網(wǎng)絡(luò)以及循環(huán)神經(jīng)網(wǎng)絡(luò)等。

具體地,在獲取到文檔之后,將文檔經(jīng)過一定處理獲取與文檔所對應(yīng)的文檔內(nèi)容,然后通過輸入模塊31將上述文檔內(nèi)容輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型。

第一獲取模塊32適于獲取神經(jīng)網(wǎng)絡(luò)模型的輸出結(jié)果。

具體地,輸出結(jié)果具體包括對輸入的文檔內(nèi)容進(jìn)行語義分析、抽象以及概括處理等相關(guān)處理之后,針對該文檔內(nèi)容生成的一個(gè)或多個(gè)關(guān)鍵詞。在輸入模塊31將文檔內(nèi)容輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型之后,第一獲取模塊32從上述神經(jīng)網(wǎng)絡(luò)模型中獲取對應(yīng)的輸出結(jié)果。

確定模塊33適于根據(jù)輸出結(jié)果確定文檔的關(guān)鍵詞,并對關(guān)鍵詞進(jìn)行推送。

具體地,在第一獲取模塊32獲取輸出結(jié)果之后,確定模塊33根據(jù)輸出結(jié)果確定文檔的關(guān)鍵詞。其中,確定模塊32可以直接將輸出結(jié)果作為對應(yīng)文檔的關(guān)鍵詞,也可以先對輸出結(jié)果進(jìn)行進(jìn)一步的篩選或排序等處理后,再根據(jù)處理結(jié)果確定對應(yīng)文檔的關(guān)鍵詞,然后將上述確定的關(guān)鍵詞進(jìn)行推送。

第二獲取模塊34適于獲取用戶終端針對推送的關(guān)鍵詞觸發(fā)的反饋結(jié)果。

具體地,用戶終端在獲取并顯示推送的關(guān)鍵詞后,第二獲取模塊34若接收到用戶針對推送的關(guān)鍵詞執(zhí)行預(yù)設(shè)操作的操作請求,則根據(jù)操作請求的次數(shù)和類型生成相應(yīng)的反饋結(jié)果,并將該反饋結(jié)果傳送至增強(qiáng)學(xué)習(xí)模塊35。其中,預(yù)設(shè)操作包括點(diǎn)擊操作和/或搜索操作;反饋結(jié)果可以通過用戶日志的方式進(jìn)行記錄。

增強(qiáng)學(xué)習(xí)模塊35適于根據(jù)反饋結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí)。

具體地,增強(qiáng)學(xué)習(xí)模塊35用于接收第二獲取模塊34發(fā)送的反饋結(jié)果,并根據(jù)上述反饋結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí),以實(shí)現(xiàn)能夠針對用戶的反饋結(jié)果來實(shí)時(shí)調(diào)整神經(jīng)網(wǎng)絡(luò)模型的目的。

調(diào)整模塊36適于根據(jù)增強(qiáng)學(xué)習(xí)的學(xué)習(xí)結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行調(diào)整。

具體地,調(diào)整模塊36根據(jù)增強(qiáng)學(xué)習(xí)模塊35中增強(qiáng)學(xué)習(xí)的學(xué)習(xí)結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型調(diào)整,使預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型能夠根據(jù)動(dòng)態(tài)的反饋結(jié)果來實(shí)現(xiàn)對應(yīng)的動(dòng)態(tài)調(diào)整,即:使神經(jīng)網(wǎng)絡(luò)模型能夠針對用戶的需求或者針對用戶的興趣來動(dòng)態(tài)調(diào)整輸出傾向,以此來進(jìn)一步提高神經(jīng)網(wǎng)絡(luò)模型輸出結(jié)果的準(zhǔn)確性。其中,調(diào)整的參數(shù)可以包括關(guān)鍵詞的權(quán)重、邏輯關(guān)系以及與其它相關(guān)詞匯的填補(bǔ)關(guān)系等與關(guān)鍵詞語義相關(guān)的關(guān)聯(lián)關(guān)系。

由此可見,在本發(fā)明提供的一種基于文檔的關(guān)鍵詞推送裝置中,一方面,通過輸入模塊31將獲取到的文檔所對應(yīng)的文檔內(nèi)容輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型,通過第一獲取模塊32獲取神經(jīng)網(wǎng)絡(luò)模型的輸出結(jié)果,并通過確定模塊33根據(jù)神經(jīng)網(wǎng)絡(luò)模型的輸出結(jié)果確定并推送文檔的關(guān)鍵詞,能夠利用神經(jīng)網(wǎng)絡(luò)模型的機(jī)器學(xué)習(xí)功能實(shí)現(xiàn)對文本語義關(guān)系的挖掘和概括,從而提取出更加準(zhǔn)確的關(guān)鍵詞。另一方面,通過第二獲取模塊34獲取用戶終端針對推送的關(guān)鍵詞觸發(fā)的反饋結(jié)果,通過增強(qiáng)學(xué)習(xí)模塊35根據(jù)反饋結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí),并通過調(diào)整模塊36根據(jù)反饋結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行調(diào)整,能夠根據(jù)用戶反饋對神經(jīng)網(wǎng)絡(luò)模型進(jìn)行更新,從而使神經(jīng)網(wǎng)絡(luò)模型不斷優(yōu)化,進(jìn)而進(jìn)一步提升關(guān)鍵詞推送的準(zhǔn)確性。

實(shí)施例四

圖4示出了根據(jù)本發(fā)明實(shí)施例四提供的一種基于文檔的關(guān)鍵詞推送裝置的結(jié)構(gòu)框圖。如圖4所示,該裝置包括:輸入模塊41、第一獲取模塊42、確定模塊43、第二獲取模塊44、增強(qiáng)學(xué)習(xí)模塊45、調(diào)整模塊46、預(yù)處理模塊47、監(jiān)測模塊48以及第三獲取模塊49。其中,第二獲取模塊44進(jìn)一步包括:查詢單元441、第一確定單元442以及第二確定單元443。

預(yù)處理模塊47適于對獲取到的文檔進(jìn)行預(yù)處理,將預(yù)處理結(jié)果作為文檔對應(yīng)的文檔內(nèi)容;其中,預(yù)處理包括以下中的至少一個(gè):分詞處理、以及詞向量轉(zhuǎn)換處理。

具體地,預(yù)處理模塊47用于對獲取到的文檔進(jìn)行預(yù)處理。其中,預(yù)處理包括以下中的至少一個(gè):分詞處理、以及詞向量轉(zhuǎn)換處理。分詞處理具體為:在獲取到文檔之后,將文檔語句中包含的詞進(jìn)行詞性劃分、詞義劃分等拆分處理,抽取并保留其中的關(guān)鍵詞。例如,若文檔中包含語句為“原子能應(yīng)用與發(fā)展的重要意義”,則對上述語句進(jìn)行分詞處理之后的結(jié)果為:“原子能”、“應(yīng)用”、“發(fā)展”、“重要意義”。詞向量轉(zhuǎn)換處理具體為:通過向量形式表示各個(gè)詞匯之間的關(guān)系,從而把文本處理簡化為向量運(yùn)算,通過計(jì)算向量空間上的相似度來表示文本語義上的相似度。因此,詞向量能夠在一定程度上刻畫出詞與詞之間的語義距離。發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中發(fā)現(xiàn),通過將文檔轉(zhuǎn)換為詞向量的方式能夠顯著提升神經(jīng)網(wǎng)絡(luò)模型的預(yù)測效率。其中,詞向量可以通過多種方式得到,例如,可以將大量文章作為訓(xùn)練詞向量的訓(xùn)練數(shù)據(jù)集,通過訓(xùn)練文章中的詞匯得到詞向量;也可以根據(jù)各個(gè)詞匯的出現(xiàn)頻率來確定詞向量。具體實(shí)施中,預(yù)處理模塊47在針對獲取到的文檔進(jìn)行預(yù)處理時(shí),可以根據(jù)實(shí)際情況來選擇上述處理方式中的任意一種方式,或者,也可以將上述兩種方式進(jìn)行結(jié)合和優(yōu)化,從而實(shí)現(xiàn)更優(yōu)的預(yù)處理效果。

輸入模塊41適于每當(dāng)獲取到文檔時(shí),將獲取到的文檔所對應(yīng)的文檔內(nèi)容輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型。

具體地,預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型一般包含三層結(jié)構(gòu):輸入層、輸出層以及位于輸入層和輸出層之間的隱藏層。其中,上述輸入層用于接收輸入信息,為神經(jīng)網(wǎng)絡(luò)模型中的輸入端口;上述輸出層用于輸出處理結(jié)果,為神經(jīng)網(wǎng)絡(luò)模型中的輸出端口;隱藏層位于輸入層和輸出層之間,具體用于對上述輸入信息進(jìn)行特征提取。具體實(shí)施中,在建立預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型時(shí),可以通過對大量的原始語料進(jìn)行訓(xùn)練來生成上述神經(jīng)網(wǎng)絡(luò)模型。

在本實(shí)施例中,預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型為一種基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,其包括以下中的至少一個(gè):卷積神經(jīng)網(wǎng)絡(luò)(cnn)、以及循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)。其中,卷積神經(jīng)網(wǎng)絡(luò)包括:至少一個(gè)卷積核,該卷積核用于對文檔內(nèi)容進(jìn)行特征提取。循環(huán)神經(jīng)網(wǎng)絡(luò)包括:長短期記憶網(wǎng)絡(luò),其中,長短期記憶網(wǎng)絡(luò)中的當(dāng)前時(shí)間點(diǎn)的輸入數(shù)據(jù)為上一個(gè)時(shí)間點(diǎn)的輸出數(shù)據(jù)。

具體地,卷積神經(jīng)網(wǎng)絡(luò)是一種基于深度學(xué)習(xí)建立的架構(gòu)。卷積神經(jīng)網(wǎng)絡(luò)中可以包含多個(gè)不同的卷積核,卷積核可以通過與指定對象進(jìn)行卷積運(yùn)算來提取指定對象的不同特征,其具體過程可以為:將卷積核與文檔內(nèi)容做卷積,其卷積結(jié)果即為對文檔內(nèi)容進(jìn)行特征提取的結(jié)果,即:卷積結(jié)果為針對文檔內(nèi)容中對應(yīng)關(guān)鍵字的抽取和概括的結(jié)果。具體實(shí)施中,本領(lǐng)域技術(shù)人員可以根據(jù)需要提取的文檔內(nèi)容的特征來設(shè)置對應(yīng)的卷積核。其中,在上述卷積過程中,文檔內(nèi)容中的信息由于與卷積核進(jìn)行卷積運(yùn)算而被賦予不同的權(quán)重,進(jìn)而能夠針對上述賦予的權(quán)重信息來對文檔中的內(nèi)容進(jìn)行特征提取。并且,由于卷積神經(jīng)網(wǎng)絡(luò)中的卷積核具有卷積共享性(即針對于上述權(quán)值來講,具有權(quán)重共享性),因此在本實(shí)施例中,應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取能夠有效降低神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜度,減少權(quán)值的數(shù)量,有效避免傳統(tǒng)識(shí)別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程。具體地,輸入模塊41在將獲取到的文檔所對應(yīng)的文檔內(nèi)容輸入上述卷積神經(jīng)網(wǎng)絡(luò)時(shí),具體為將文檔內(nèi)容以每篇文章為單位輸入上述卷積神經(jīng)網(wǎng)絡(luò)。

循環(huán)神經(jīng)網(wǎng)絡(luò)是一種用來處理序列數(shù)據(jù)的網(wǎng)絡(luò),其針對的問題為:當(dāng)兩個(gè)關(guān)聯(lián)數(shù)據(jù)之間的距離較遠(yuǎn)時(shí),如何使這兩個(gè)關(guān)聯(lián)數(shù)據(jù)之間產(chǎn)生關(guān)聯(lián)關(guān)系。具體地,循環(huán)神經(jīng)網(wǎng)絡(luò)的具體表現(xiàn)形式為:對前面的信息進(jìn)行記憶并將上述記憶應(yīng)用于當(dāng)前輸出的計(jì)算中。即:在循環(huán)神經(jīng)網(wǎng)絡(luò)中,隱藏層之間的節(jié)點(diǎn)不再是無連接的節(jié)點(diǎn),而是有連接的節(jié)點(diǎn);并且,隱藏層的輸入不僅包括輸入層的輸出,還進(jìn)一步包括上一時(shí)刻隱藏層的輸出。在本實(shí)施例中,循環(huán)神經(jīng)網(wǎng)絡(luò)包括:長短期記憶網(wǎng)絡(luò)(lstm)。長短期記憶網(wǎng)絡(luò)能夠針對輸入的文檔內(nèi)容進(jìn)行轉(zhuǎn)碼操作,并對文檔內(nèi)容進(jìn)行擬合。在長短期記憶網(wǎng)絡(luò)中,當(dāng)前時(shí)間點(diǎn)的輸入數(shù)據(jù)為上一個(gè)時(shí)間點(diǎn)的輸出數(shù)據(jù),也就是說,長短期記憶網(wǎng)絡(luò)能夠?qū)⑸弦粋€(gè)時(shí)間點(diǎn)輸出的文檔內(nèi)容連接至當(dāng)前時(shí)間點(diǎn)的文檔內(nèi)容學(xué)習(xí)中,增加了神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)與預(yù)測語言的能力,使深度學(xué)習(xí)能夠適應(yīng)更加復(fù)雜的語言場景。具體地,輸入模塊41在將獲取到的文檔所對應(yīng)的文檔內(nèi)容輸入長短期記憶網(wǎng)絡(luò)時(shí),具體為將文檔內(nèi)容以句子為單位輸入長短期記憶網(wǎng)絡(luò)。

第一獲取模塊42適于獲取神經(jīng)網(wǎng)絡(luò)模型的輸出結(jié)果。

具體地,輸出結(jié)果具體包括對輸入的文檔內(nèi)容進(jìn)行語義分析、抽象以及概括處理等相關(guān)處理之后,針對該文檔內(nèi)容生成的一個(gè)或多個(gè)關(guān)鍵詞。在輸入模塊41將文檔內(nèi)容輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型之后,第一獲取模塊42從上述神經(jīng)網(wǎng)絡(luò)模型獲取對應(yīng)的輸出結(jié)果。

確定模塊43適于根據(jù)輸出結(jié)果確定文檔的關(guān)鍵詞,并對關(guān)鍵詞進(jìn)行推送。

具體地,在第一獲取模塊42獲取輸出結(jié)果之后,確定模塊43根據(jù)輸出結(jié)果確定文檔的關(guān)鍵詞。其中,確定模塊42可以直接將輸出結(jié)果作為對應(yīng)文檔的關(guān)鍵詞,也可以根據(jù)預(yù)設(shè)的篩選策略對輸出結(jié)果進(jìn)行篩選,將篩選結(jié)果確定為文檔的關(guān)鍵詞,并對上述關(guān)鍵詞進(jìn)行推送。其中,針對上述第二種情況,預(yù)設(shè)的篩選策略包括以下中的至少一個(gè):根據(jù)詞性進(jìn)行篩選的策略;以及,根據(jù)詞頻進(jìn)行篩選的策略。具體地,根據(jù)詞性的篩選策略具體為:根據(jù)每個(gè)詞在語法上的詞性,比如動(dòng)詞、名詞以及形容詞等詞性屬性來篩選輸出結(jié)果,確定輸出結(jié)果中的關(guān)鍵詞。例如,當(dāng)關(guān)鍵詞的詞性為副詞、連詞、助詞等詞性時(shí),由于這些詞性的詞一般都不屬于實(shí)詞,因此,可以通過詞性篩選策略將屬于副詞、連詞、助詞等詞性的關(guān)鍵詞篩除。根據(jù)詞頻進(jìn)行篩選的策略為:根據(jù)關(guān)鍵詞出現(xiàn)的頻率來篩除關(guān)鍵詞。具體實(shí)施中,可以通過tf-idf(termfrequency–inversedocumentfrequency,詞頻--反轉(zhuǎn)文件頻率)算法針對輸出結(jié)果中的關(guān)鍵詞的詞頻進(jìn)行相關(guān)的權(quán)重計(jì)算和賦值,抽取出權(quán)重較大的關(guān)鍵詞作為文檔的關(guān)鍵詞,并對確定的關(guān)鍵詞進(jìn)行推送。在這里,確定模塊42針對輸出結(jié)果中的關(guān)鍵詞進(jìn)行進(jìn)一步的篩選處理,進(jìn)一步提升了針對文檔關(guān)鍵詞推送的準(zhǔn)確性。

第二獲取模塊44適于獲取用戶終端針對推送的關(guān)鍵詞觸發(fā)的反饋結(jié)果。

其中,反饋結(jié)果可以通過監(jiān)測模塊48中的用戶日志文件進(jìn)行獲取。具體地,反饋結(jié)果可以通過用戶針對關(guān)鍵詞的點(diǎn)擊操作次數(shù)和/或點(diǎn)擊操作頻率得到。第二獲取模塊44進(jìn)一步包括查詢單元441、第一確定單元442以及第二確定單元443。在獲取反饋結(jié)果時(shí),首先通過查詢單元441在對應(yīng)的時(shí)間范圍內(nèi)查詢用戶日志文件是否包含對應(yīng)的點(diǎn)擊事件,當(dāng)查詢結(jié)果為否時(shí),通過第一確定單元442確定用戶終端針對推送的關(guān)鍵詞觸發(fā)的反饋結(jié)果為第一類反饋結(jié)果,將第一類反饋結(jié)果對應(yīng)的關(guān)鍵詞作為負(fù)樣本提供給神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí),以供神經(jīng)網(wǎng)絡(luò)模型通過第一類反饋結(jié)果能夠確定推送效果不理想的關(guān)鍵詞,并在后續(xù)的推送過程中改進(jìn)相關(guān)的推送策略;當(dāng)查詢結(jié)果為是時(shí),通過第二確定單元443確定用戶終端針對推送的關(guān)鍵詞觸發(fā)的反饋結(jié)果為第二類反饋結(jié)果;并且,當(dāng)查詢結(jié)果為是時(shí),第二確定單元443還可以進(jìn)一步確定用戶日志文件中包含的與關(guān)鍵詞對應(yīng)的點(diǎn)擊事件的次數(shù),根據(jù)次數(shù)確定第二類反饋結(jié)果對應(yīng)的結(jié)果分值。具體地,當(dāng)反饋結(jié)果為第二類反饋結(jié)果時(shí),第二確定單元443對用戶日志文件中包含的與關(guān)鍵詞對應(yīng)的點(diǎn)擊事件的記錄進(jìn)行+1操作,將第二類反饋結(jié)果對應(yīng)的關(guān)鍵詞作為正樣本提供給神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí),以供神經(jīng)網(wǎng)絡(luò)模型通過第二類反饋結(jié)果能夠確定推送效果理想的關(guān)鍵詞,并在后續(xù)的推送過程中強(qiáng)化相關(guān)的推送策略。

具體地,第二獲取模塊44在獲取用戶終端針對推送的關(guān)鍵詞觸發(fā)的反饋結(jié)果時(shí),可以每隔預(yù)設(shè)的時(shí)間間隔獲取一次用戶終端針對推送的關(guān)鍵詞觸發(fā)的反饋結(jié)果,例如,每隔1分鐘自動(dòng)獲取一次用戶終端針對推送的關(guān)鍵詞觸發(fā)反饋結(jié)果。具體實(shí)施時(shí),預(yù)設(shè)的時(shí)間間隔可以根據(jù)關(guān)鍵詞的數(shù)量和/或?yàn)g覽頻率進(jìn)行設(shè)定,而且,該種方式尤其適用于瀏覽頻率較固定的場景中?;蛘?,第二獲取模塊44在獲取反饋結(jié)果時(shí),每當(dāng)用戶日志文件中錄入點(diǎn)擊事件時(shí)觸發(fā)與點(diǎn)擊事件對應(yīng)的通知消息,通過訂閱通知消息獲取用戶終端針對推送的關(guān)鍵詞觸發(fā)的反饋結(jié)果。訂閱通知消息的方式能夠在第一時(shí)間接收到反饋結(jié)果,實(shí)時(shí)性較高,而且,該種方式尤其適用于關(guān)鍵詞的瀏覽頻率不固定的場景中,從而在瀏覽頻率較低的時(shí)間段內(nèi)避免查詢開銷。

增強(qiáng)學(xué)習(xí)模塊45適于根據(jù)反饋結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí)。

具體地,增強(qiáng)學(xué)習(xí)的算法包括:反向傳播算法。在本實(shí)施例中,增強(qiáng)學(xué)習(xí)模塊45能夠通過反向傳播算法來監(jiān)督神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)過程,該算法能夠?qū)⒂?xùn)練輸入送入網(wǎng)絡(luò)以獲得激勵(lì)響應(yīng),將激勵(lì)響應(yīng)同訓(xùn)練輸入對應(yīng)的目標(biāo)輸出求差,從而獲得隱藏層和輸出層的響應(yīng)誤差,然后通過調(diào)節(jié)每個(gè)詞向量的權(quán)重、參數(shù)等屬性來對應(yīng)調(diào)整每個(gè)詞向量,使神經(jīng)網(wǎng)絡(luò)模型得以調(diào)整和修正。并且,除此之外,增強(qiáng)學(xué)習(xí)模塊45增強(qiáng)學(xué)習(xí)的方式還可以有多種,例如,可以設(shè)置一個(gè)回報(bào)函數(shù),每當(dāng)針對某關(guān)鍵詞觸發(fā)一次點(diǎn)擊事件時(shí),針對該關(guān)鍵詞的回報(bào)結(jié)果+1或者回報(bào)結(jié)果為正等。例如,當(dāng)反饋結(jié)果為第一類反饋結(jié)果時(shí),相應(yīng)的關(guān)鍵詞的回報(bào)結(jié)果為負(fù);當(dāng)反饋結(jié)果為第二類反饋結(jié)果時(shí),相應(yīng)的關(guān)鍵詞的回報(bào)結(jié)果為正,且第二類反饋結(jié)果對應(yīng)的結(jié)果分值越高,相應(yīng)的關(guān)鍵詞的回報(bào)結(jié)果也越高。在這里,增強(qiáng)學(xué)習(xí)的具體實(shí)現(xiàn)方式可以由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況進(jìn)行設(shè)置,本發(fā)明對此不作限制。

調(diào)整模塊46適于根據(jù)增強(qiáng)學(xué)習(xí)的學(xué)習(xí)結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行調(diào)整。

具體地,調(diào)整模塊46根據(jù)增強(qiáng)學(xué)習(xí)模塊45中增強(qiáng)學(xué)習(xí)的學(xué)習(xí)結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型調(diào)整,使預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型能夠根據(jù)動(dòng)態(tài)的反饋結(jié)果來實(shí)現(xiàn)對應(yīng)的動(dòng)態(tài)調(diào)整,即:增強(qiáng)學(xué)習(xí)模塊45使神經(jīng)網(wǎng)絡(luò)模型能夠針對用戶的需求或者針對用戶的興趣來動(dòng)態(tài)調(diào)整輸出傾向,以此來進(jìn)一步提高神經(jīng)網(wǎng)絡(luò)模型輸出結(jié)果的準(zhǔn)確性。其中,調(diào)整的參數(shù)可以包括關(guān)鍵詞的權(quán)重、邏輯關(guān)系以及與其它相關(guān)詞匯的填補(bǔ)關(guān)系等與關(guān)鍵詞語義相關(guān)的關(guān)聯(lián)關(guān)系。

監(jiān)測模塊48適于當(dāng)監(jiān)測到用戶終端針對關(guān)鍵詞觸發(fā)的點(diǎn)擊事件時(shí),將點(diǎn)擊事件記錄到用戶日志文件中。

具體地,點(diǎn)擊事件具體為用戶在用戶終端側(cè)針對推送的關(guān)鍵詞進(jìn)行點(diǎn)擊的操作事件。當(dāng)監(jiān)測到針對關(guān)鍵詞觸發(fā)的點(diǎn)擊事件時(shí),監(jiān)測模塊48將上述點(diǎn)擊事件記錄在用戶日志文件中,并據(jù)此來確定用戶針對關(guān)鍵詞的反饋信息。例如,當(dāng)用戶對關(guān)鍵詞1進(jìn)行點(diǎn)擊操作之后,日志中自動(dòng)記錄關(guān)鍵詞1的信息并在點(diǎn)擊次數(shù)信息上進(jìn)行+1操作。

第三獲取模塊49適于從預(yù)設(shè)的分布式消息隊(duì)列中獲取文檔。

具體地,為了便于存取,可以將文檔存儲(chǔ)在分布式消息隊(duì)列中,通過第三獲取模塊49從分布式消息隊(duì)列獲取文檔,并將獲取到的文檔傳送至預(yù)處理模塊47進(jìn)行預(yù)處理。

此外,上述各個(gè)模塊的具體結(jié)構(gòu)和工作原理可參照方法實(shí)施例中相應(yīng)步驟的描述,此處不再贅述。

綜上所述,本發(fā)明提供的基于文檔的關(guān)鍵詞推送裝置中,一方面,首先通過預(yù)處理模塊47對獲取到的文檔進(jìn)行預(yù)處理,將預(yù)處理結(jié)果作為文檔對應(yīng)的文檔內(nèi)容,然后通過輸入模塊41將獲取到的文檔所對應(yīng)的文檔內(nèi)容輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型,并通過第一獲取模塊42、確定模塊43確定文檔內(nèi)容中的關(guān)鍵詞,并對上述關(guān)鍵詞進(jìn)行推送。另一方面,通過監(jiān)測模塊48監(jiān)測到用戶終端針對關(guān)鍵詞觸發(fā)的點(diǎn)擊事件,將點(diǎn)擊事件記錄到用戶日志文件中作為反饋結(jié)果,并通過第二獲取模塊44獲取用戶終端針對推送的關(guān)鍵詞觸發(fā)的反饋結(jié)果,通過增強(qiáng)學(xué)習(xí)模塊45根據(jù)反饋結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí),并通過調(diào)整模塊46根據(jù)增強(qiáng)學(xué)習(xí)的學(xué)習(xí)結(jié)果對預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行調(diào)整。由此可見,本發(fā)明中的方案解決了在針對文檔進(jìn)行關(guān)鍵詞推送時(shí),由于無法根據(jù)文本內(nèi)容中的語義來挖掘關(guān)鍵詞而導(dǎo)致推送的關(guān)鍵詞過于粗糙,不夠準(zhǔn)確的問題,實(shí)現(xiàn)了針對文檔中文本的語義關(guān)系、概念關(guān)系的來生成或者抽取文檔的關(guān)鍵詞的效果,并且能夠針對用戶的需求以及針對用戶的興趣來動(dòng)態(tài)調(diào)整輸出傾向,有效提高了文檔關(guān)鍵詞的推送質(zhì)量。

在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。

在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。

類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。

本領(lǐng)域那些技術(shù)人員可以理解,可以對實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們設(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。

此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。

本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(dsp)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的基于文檔的關(guān)鍵詞推送裝置模塊中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。

應(yīng)該注意的是上述實(shí)施例對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。

本發(fā)明公開了:a1、一種基于文檔的關(guān)鍵詞推送方法,包括:

每當(dāng)獲取到文檔時(shí),將獲取到的文檔所對應(yīng)的文檔內(nèi)容輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型;

獲取所述神經(jīng)網(wǎng)絡(luò)模型的輸出結(jié)果,根據(jù)所述輸出結(jié)果確定所述文檔的關(guān)鍵詞,并對所述關(guān)鍵詞進(jìn)行推送;

獲取用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果,根據(jù)所述反饋結(jié)果對所述預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí);

根據(jù)所述增強(qiáng)學(xué)習(xí)的學(xué)習(xí)結(jié)果對所述預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行調(diào)整。

a2、根據(jù)a1所述的方法,其中,所述將獲取到的文檔所對應(yīng)的文檔內(nèi)容輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型的步驟之前,進(jìn)一步包括:

對所述獲取到的文檔進(jìn)行預(yù)處理,將預(yù)處理結(jié)果作為所述文檔對應(yīng)的文檔內(nèi)容;其中,所述預(yù)處理包括以下中的至少一個(gè):分詞處理、以及詞向量轉(zhuǎn)換處理。

a3、根據(jù)a1或a2所述的方法,其中,所述根據(jù)所述輸出結(jié)果確定所述文檔的關(guān)鍵詞的步驟具體包括:根據(jù)預(yù)設(shè)的篩選策略對所述輸出結(jié)果進(jìn)行篩選,將篩選結(jié)果確定為所述文檔的關(guān)鍵詞;

其中,所述篩選策略包括以下中的至少一個(gè):根據(jù)詞性進(jìn)行篩選的策略;以及,根據(jù)詞頻進(jìn)行篩選的策略。

a4、根據(jù)a1-a3任一所述的方法,其中,所述對所述關(guān)鍵詞進(jìn)行推送的步驟之后進(jìn)一步包括:當(dāng)監(jiān)測到用戶終端針對所述關(guān)鍵詞觸發(fā)的點(diǎn)擊事件時(shí),將所述點(diǎn)擊事件記錄到用戶日志文件中;

則所述獲取用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果的步驟具體包括:

查詢所述用戶日志文件中是否包含與所述關(guān)鍵詞對應(yīng)的點(diǎn)擊事件;

當(dāng)查詢結(jié)果為否時(shí),確定所述用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果為第一類反饋結(jié)果;其中,所述第一類反饋結(jié)果對應(yīng)的關(guān)鍵詞用于作為負(fù)樣本提供給所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí);

當(dāng)查詢結(jié)果為是時(shí),確定所述用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果為第二類反饋結(jié)果;其中,所述第二類反饋結(jié)果對應(yīng)的關(guān)鍵詞用于作為正樣本提供給所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí)。

a5、根據(jù)a4所述的方法,其中,當(dāng)查詢結(jié)果為是時(shí),進(jìn)一步包括:確定所述用戶日志文件中包含的與所述關(guān)鍵詞對應(yīng)的點(diǎn)擊事件的次數(shù),根據(jù)次數(shù)確定第二類反饋結(jié)果對應(yīng)的結(jié)果分值;其中,所述結(jié)果分值用于確定對應(yīng)的負(fù)樣本的樣本權(quán)重。

a6、根據(jù)a4或a5所述的方法,其中,所述獲取用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果的步驟具體包括:

每隔預(yù)設(shè)的時(shí)間間隔獲取一次用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果;和/或,

每當(dāng)所述用戶日志文件中錄入點(diǎn)擊事件時(shí)觸發(fā)與所述點(diǎn)擊事件對應(yīng)的通知消息,通過訂閱所述通知消息獲取用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果。

a7、根據(jù)a1-a6任一所述的方法,其中,所述神經(jīng)網(wǎng)絡(luò)模型包括以下中的至少一個(gè):卷積神經(jīng)網(wǎng)絡(luò)、以及循環(huán)神經(jīng)網(wǎng)絡(luò);

其中,所述卷積神經(jīng)網(wǎng)絡(luò)包括:至少一個(gè)卷積核,用于對所述文檔內(nèi)容進(jìn)行特征提??;

所述循環(huán)神經(jīng)網(wǎng)絡(luò)包括:長短期記憶網(wǎng)絡(luò),其中,所述長短期記憶網(wǎng)絡(luò)中的當(dāng)前時(shí)間點(diǎn)的輸入數(shù)據(jù)為上一個(gè)時(shí)間點(diǎn)的輸出數(shù)據(jù)。

a8、根據(jù)a1-a7任一所述的方法,其中,所述增強(qiáng)學(xué)習(xí)的算法包括反向傳播算法。

a9、根據(jù)a1-a8任一所述的方法,其中,所述方法執(zhí)行之前,進(jìn)一步包括步驟:從預(yù)設(shè)的分布式消息隊(duì)列中獲取文檔。

本發(fā)明還公開了:b10、一種基于文檔的關(guān)鍵詞推送裝置,包括:

輸入模塊,適于每當(dāng)獲取到文檔時(shí),將獲取到的文檔所對應(yīng)的文檔內(nèi)容輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型;

第一獲取模塊,適于獲取所述神經(jīng)網(wǎng)絡(luò)模型的輸出結(jié)果;

確定模塊,適于根據(jù)所述輸出結(jié)果確定所述文檔的關(guān)鍵詞,并對所述關(guān)鍵詞進(jìn)行推送;

第二獲取模塊,適于獲取用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果;

增強(qiáng)學(xué)習(xí)模塊,適于根據(jù)所述反饋結(jié)果對所述預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí);

調(diào)整模塊,適于根據(jù)所述增強(qiáng)學(xué)習(xí)的學(xué)習(xí)結(jié)果對所述預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行調(diào)整。

b11、根據(jù)b10所述的裝置,其中,所述裝置進(jìn)一步包括:

預(yù)處理模塊,適于對所述獲取到的文檔進(jìn)行預(yù)處理,將預(yù)處理結(jié)果作為所述文檔對應(yīng)的文檔內(nèi)容;其中,所述預(yù)處理包括以下中的至少一個(gè):分詞處理、以及詞向量轉(zhuǎn)換處理。

b12、根據(jù)b10或b11所述的裝置,其中,所述確定模塊具體用于:

根據(jù)預(yù)設(shè)的篩選策略對所述輸出結(jié)果進(jìn)行篩選,將篩選結(jié)果確定為所述文檔的關(guān)鍵詞;

其中,所述篩選策略包括以下中的至少一個(gè):根據(jù)詞性進(jìn)行篩選的策略;以及,根據(jù)詞頻進(jìn)行篩選的策略。

b13、根據(jù)b10-b12任一所述的裝置,其中,所述裝置進(jìn)一步包括:

監(jiān)測模塊,適于當(dāng)監(jiān)測到用戶終端針對所述關(guān)鍵詞觸發(fā)的點(diǎn)擊事件時(shí),將所述點(diǎn)擊事件記錄到用戶日志文件中;

則所述第二獲取模塊具體包括:

查詢單元,適于查詢所述用戶日志文件中是否包含與所述關(guān)鍵詞對應(yīng)的點(diǎn)擊事件;

第一確定單元,適于當(dāng)查詢結(jié)果為否時(shí),確定所述用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果為第一類反饋結(jié)果;其中,所述第一類反饋結(jié)果對應(yīng)的關(guān)鍵詞用于作為負(fù)樣本提供給所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí);

第二確定單元,適于當(dāng)查詢結(jié)果為是時(shí),確定所述用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果為第二類反饋結(jié)果;其中,所述第二類反饋結(jié)果對應(yīng)的關(guān)鍵詞用于作為正樣本提供給所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行增強(qiáng)學(xué)習(xí)。

b14、根據(jù)b13所述的裝置,其中,所述第二確定單元進(jìn)一步用于:

確定所述用戶日志文件中包含的與所述關(guān)鍵詞對應(yīng)的點(diǎn)擊事件的次數(shù),根據(jù)次數(shù)確定第二類反饋結(jié)果對應(yīng)的結(jié)果分值;其中,所述結(jié)果分值用于確定對應(yīng)的負(fù)樣本的樣本權(quán)重。

b15、根據(jù)b13或b14所述的裝置,其中,所述第二獲取模塊進(jìn)一步用于:

每隔預(yù)設(shè)的時(shí)間間隔獲取一次用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果;和/或,

每當(dāng)所述用戶日志文件中錄入點(diǎn)擊事件時(shí)觸發(fā)與所述點(diǎn)擊事件對應(yīng)的通知消息,通過訂閱所述通知消息獲取用戶終端針對推送的所述關(guān)鍵詞觸發(fā)的反饋結(jié)果。

b16、根據(jù)b10-b15任一所述的裝置,其中,所述神經(jīng)網(wǎng)絡(luò)模型包括以下中的至少一個(gè):卷積神經(jīng)網(wǎng)絡(luò)、以及循環(huán)神經(jīng)網(wǎng)絡(luò);

其中,所述卷積神經(jīng)網(wǎng)絡(luò)包括:至少一個(gè)卷積核,用于對所述文檔內(nèi)容進(jìn)行特征提取;

所述循環(huán)神經(jīng)網(wǎng)絡(luò)包括:長短期記憶網(wǎng)絡(luò),其中,所述長短期記憶網(wǎng)絡(luò)中的當(dāng)前時(shí)間點(diǎn)的輸入數(shù)據(jù)為上一個(gè)時(shí)間點(diǎn)的輸出數(shù)據(jù)。

b17、根據(jù)權(quán)利要求b10-b16任一所述的裝置,其中,所述增強(qiáng)學(xué)習(xí)的算法包括反向傳播算法。

b18、根據(jù)權(quán)利要求b10-b17任一所述的裝置,其中,所述裝置進(jìn)一步

包括:第三獲取模塊,適于從預(yù)設(shè)的分布式消息隊(duì)列中獲取文檔。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1