本發(fā)明涉及信息技術(shù)領(lǐng)域,具體涉及一種關(guān)聯(lián)信息的推送方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的飛速發(fā)展,越來越多的用戶習(xí)慣于通過網(wǎng)絡(luò)獲取各類信息。很多用戶為了加深對(duì)當(dāng)前瀏覽信息的了解,會(huì)針對(duì)當(dāng)前瀏覽信息進(jìn)行擴(kuò)展閱讀。在傳統(tǒng)方式中,用戶為了實(shí)現(xiàn)擴(kuò)展閱讀的目的,需要自行確定當(dāng)前瀏覽信息中包含的關(guān)鍵內(nèi)容,然后根據(jù)該關(guān)鍵內(nèi)容進(jìn)行手動(dòng)搜索,最后還要從眾多搜索結(jié)果中過濾出用戶需要了解的信息。該種方式操作繁瑣,無疑增加了用戶的時(shí)間成本。
目前,已經(jīng)出現(xiàn)了能夠自動(dòng)地針對(duì)當(dāng)前瀏覽信息推送關(guān)聯(lián)信息的技術(shù)方案:首先,對(duì)當(dāng)前瀏覽信息進(jìn)行分詞處理,得到當(dāng)前瀏覽信息中包含的主要詞匯;然后,根據(jù)各個(gè)詞匯的出現(xiàn)次數(shù)等因素,挑選部分詞匯作為關(guān)鍵詞;最后,將包含上述關(guān)鍵詞的信息作為關(guān)聯(lián)信息推送給用戶。
但是,發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中發(fā)現(xiàn)現(xiàn)有技術(shù)中的上述方案至少存在下述缺陷:一方面,漢語中存在各種各樣的近義詞,并且,很多情況下,同一主題可以通過截然不同的表達(dá)方式進(jìn)行描述,例如,“雙十一”和“網(wǎng)購節(jié)”雖字面表達(dá)方式不同,但語義完全相同;另一方面,上述簡單的關(guān)鍵詞匹配方式也無法體現(xiàn)出事物之間更深層次的關(guān)聯(lián)關(guān)系,例如,“姚明”和“科比”同為籃球運(yùn)動(dòng)員,閱讀“姚明”的有關(guān)信息的用戶很可能希望對(duì)“科比”的近況進(jìn)行擴(kuò)展閱讀,而現(xiàn)有的推送方式顯然無法實(shí)現(xiàn)。
由此可見,現(xiàn)有的關(guān)聯(lián)信息推送方式由于并未考慮語義之間的關(guān)聯(lián)關(guān)系,導(dǎo)致推送結(jié)果無法更好地迎合用戶需求。
技術(shù)實(shí)現(xiàn)要素:
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的關(guān)聯(lián)信息的推送方法及裝置。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種關(guān)聯(lián)信息的推送方法,包括:根據(jù)機(jī)器學(xué)習(xí)算法對(duì)獲取到的原始語料數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),確定所述獲取到的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系;將所述原始語料數(shù)據(jù)以及所述原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系存儲(chǔ)到預(yù)設(shè)的語料數(shù)據(jù)庫中;根據(jù)所述語料數(shù)據(jù)庫中存儲(chǔ)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息,并對(duì)所述關(guān)聯(lián)信息進(jìn)行推送。
可選地,所述根據(jù)機(jī)器學(xué)習(xí)算法對(duì)獲取到的原始語料數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),以確定所述獲取到的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系的步驟具體包括:將所述獲取到的原始語料數(shù)據(jù)轉(zhuǎn)換成對(duì)應(yīng)的詞向量,將所述詞向量輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型中的輸入層,并通過所述神經(jīng)網(wǎng)絡(luò)模型中的輸出層獲取所述詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果。
可選地,所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)一步包括:位于所述輸入層和所述輸出層之間的隱藏層;則所述通過所述神經(jīng)網(wǎng)絡(luò)模型中的輸出層獲取所述詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果的步驟具體包括:通過所述隱藏層對(duì)所述輸入層輸入的詞向量進(jìn)行特征提取,由所述輸出層根據(jù)特征提取的結(jié)果輸出所述詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果。
可選地,所述根據(jù)機(jī)器學(xué)習(xí)算法對(duì)獲取到的原始語料數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)的步驟中進(jìn)一步包括:判斷所述詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果是否滿足預(yù)設(shè)的精度條件,當(dāng)判斷結(jié)果為否時(shí),根據(jù)反向傳播算法對(duì)所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行修正。
可選地,所述根據(jù)所述語料數(shù)據(jù)庫中存儲(chǔ)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息的步驟具體包括:獲取各個(gè)網(wǎng)絡(luò)信息對(duì)應(yīng)的關(guān)鍵詞,根據(jù)所述網(wǎng)絡(luò)信息對(duì)應(yīng)的關(guān)鍵詞以及所述語料數(shù)據(jù)庫中存儲(chǔ)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,確定各個(gè)網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系;將所述各個(gè)網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系存儲(chǔ)到預(yù)設(shè)的映射數(shù)據(jù)庫中,根據(jù)所述顯示信息對(duì)應(yīng)的關(guān)鍵詞以及所述映射數(shù)據(jù)庫確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息。
可選地,所述獲取各個(gè)網(wǎng)絡(luò)信息對(duì)應(yīng)的關(guān)鍵詞的步驟之后,進(jìn)一步包括步驟:根據(jù)關(guān)鍵詞與網(wǎng)絡(luò)信息之間的對(duì)應(yīng)關(guān)系建立用于根據(jù)關(guān)鍵詞查詢網(wǎng)絡(luò)信息的信息索引。
可選地,所述根據(jù)所述顯示信息對(duì)應(yīng)的關(guān)鍵詞以及所述映射數(shù)據(jù)庫確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息的步驟之后進(jìn)一步包括:當(dāng)所述關(guān)聯(lián)信息的數(shù)量為多個(gè)時(shí),進(jìn)一步根據(jù)相似度算法確定各個(gè)關(guān)聯(lián)信息與所述顯示信息之間的相似度,將相似度大于預(yù)設(shè)的第一閾值,和/或相似度小于預(yù)設(shè)的第二閾值的關(guān)聯(lián)信息刪除;其中,所述第一閾值大于所述第二閾值。
可選地,所述原始語料數(shù)據(jù)通過分布式消息隊(duì)列進(jìn)行獲取,且所述語料數(shù)據(jù)庫能夠根據(jù)所述分布式消息隊(duì)列的更新結(jié)果進(jìn)行更新。
可選地,所述關(guān)聯(lián)信息包括以下中的至少一個(gè):新聞信息、導(dǎo)航信息、網(wǎng)頁信息以及搜索信息。
根據(jù)本發(fā)明的另一個(gè)方面,提供了一種關(guān)聯(lián)信息的推送裝置,包括:學(xué)習(xí)模塊,適于根據(jù)機(jī)器學(xué)習(xí)算法對(duì)獲取到的原始語料數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),確定所述獲取到的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系;存儲(chǔ)模塊,適于將所述原始語料數(shù)據(jù)以及所述原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系存儲(chǔ)到預(yù)設(shè)的語料數(shù)據(jù)庫中;確定模塊,適于根據(jù)所述語料數(shù)據(jù)庫中存儲(chǔ)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息;推送模塊,適于對(duì)所述關(guān)聯(lián)信息進(jìn)行推送。
可選地,所述學(xué)習(xí)模塊具體用于:將所述獲取到的原始語料數(shù)據(jù)轉(zhuǎn)換成對(duì)應(yīng)的詞向量,將所述詞向量輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型中的輸入層,并通過所述神經(jīng)網(wǎng)絡(luò)模型中的輸出層獲取所述詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果。
可選地,所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)一步包括:位于所述輸入層和所述輸出層之間的隱藏層;則所述學(xué)習(xí)模塊進(jìn)一步用于:通過所述隱藏層對(duì)所述輸入層輸入的詞向量進(jìn)行特征提取,由所述輸出層根據(jù)特征提取的結(jié)果輸出所述詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果。
可選地,所述學(xué)習(xí)模塊進(jìn)一步用于:判斷所述詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果是否滿足預(yù)設(shè)的精度條件,當(dāng)判斷結(jié)果為否時(shí),根據(jù)反向傳播算法對(duì)所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行修正。
可選地,所述確定模塊包括:第一確定單元,適于獲取各個(gè)網(wǎng)絡(luò)信息對(duì)應(yīng)的關(guān)鍵詞,根據(jù)所述網(wǎng)絡(luò)信息對(duì)應(yīng)的關(guān)鍵詞以及所述語料數(shù)據(jù)庫中存儲(chǔ)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,確定各個(gè)網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系;第二確定單元,適于將所述各個(gè)網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系存儲(chǔ)到預(yù)設(shè)的映射數(shù)據(jù)庫中,根據(jù)所述顯示信息對(duì)應(yīng)的關(guān)鍵詞以及所述映射數(shù)據(jù)庫確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息。
可選地,所述裝置進(jìn)一步包括:信息索引建立模塊,適于根據(jù)關(guān)鍵詞與網(wǎng)絡(luò)信息之間的對(duì)應(yīng)關(guān)系建立用于根據(jù)關(guān)鍵詞查詢網(wǎng)絡(luò)信息的信息索引。
可選地,所述裝置進(jìn)一步包括:篩選模塊,適于當(dāng)所述關(guān)聯(lián)信息的數(shù)量為多個(gè)時(shí),進(jìn)一步根據(jù)相似度算法確定各個(gè)關(guān)聯(lián)信息與所述顯示信息之間的相似度,將相似度大于預(yù)設(shè)的第一閾值,和/或相似度小于預(yù)設(shè)的第二閾值的關(guān)聯(lián)信息刪除;其中,所述第一閾值大于所述第二閾值。
可選地,所述原始語料數(shù)據(jù)通過分布式消息隊(duì)列進(jìn)行獲取,且所述語料數(shù)據(jù)庫能夠根據(jù)所述分布式消息隊(duì)列的更新結(jié)果進(jìn)行更新。
可選地,所述關(guān)聯(lián)信息包括以下中的至少一個(gè):新聞信息、導(dǎo)航信息、網(wǎng)頁信息以及搜索信息。
在本發(fā)明提供的關(guān)聯(lián)信息的推送方法及裝置中,能夠根據(jù)機(jī)器學(xué)習(xí)算法對(duì)獲取到的原始語料數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),從而確定原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系;然后,能夠根據(jù)已確定的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系來確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息。由此可見,由于本發(fā)明能夠通過機(jī)器學(xué)習(xí)的方式來挖掘原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,而該關(guān)聯(lián)關(guān)系不僅能夠體現(xiàn)近義詞之間的關(guān)聯(lián),還能夠通過語義分析而體現(xiàn)出事物間更深層次的關(guān)聯(lián),所以,本發(fā)明中的方案更能迎合用戶需求,且大幅提升了推送的關(guān)聯(lián)信息的質(zhì)量。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。
附圖說明
通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
圖1示出了根據(jù)本發(fā)明實(shí)施例一提供的一種關(guān)聯(lián)信息的推送方法的流程圖;
圖2示出了根據(jù)本發(fā)明實(shí)施例二提供的一種關(guān)聯(lián)信息的推送方法的流程圖;
圖3示出了根據(jù)本發(fā)明實(shí)施例三提供的一種關(guān)聯(lián)信息的推送裝置的結(jié)構(gòu)框圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
本發(fā)明提供了一種關(guān)聯(lián)信息的推送方法及裝置,至少能夠解決現(xiàn)有技術(shù)由于并未考慮語義之間的關(guān)聯(lián)關(guān)系,導(dǎo)致推送結(jié)果無法更好地迎合用戶需求的技術(shù)問題。
實(shí)施例一
圖1示出了根據(jù)本發(fā)明實(shí)施例一提供的一種關(guān)聯(lián)信息的推送方法的流程圖。如圖1所示,該方法包括以下步驟:
步驟s110:根據(jù)機(jī)器學(xué)習(xí)算法對(duì)獲取到的原始語料數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),確定獲取到的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。
具體地,原始語料數(shù)據(jù)為針對(duì)獲取到的信息中的語句進(jìn)行詞性劃分、詞義劃分等分詞處理或者關(guān)鍵字抽取處理之后的語料數(shù)據(jù)。例如,若獲取到的信息中的語句為“基于語義和知識(shí)庫混合模型的相關(guān)推薦”,則針對(duì)上述信息進(jìn)行分詞處理之后,可以將上述信息處理為“語義”、“知識(shí)”、“模型”、“相關(guān)推薦”等原始語料數(shù)據(jù)。因此,在確定獲取到的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系時(shí),具體為確定獲取到的原始語料數(shù)據(jù)中包含的詞與詞之間的關(guān)聯(lián)關(guān)系。其中,上述關(guān)聯(lián)關(guān)系可以包括原始語料數(shù)據(jù)中每個(gè)詞的位置,詞與詞之間的距離,詞與詞之間的填補(bǔ)關(guān)系等包含句子成分關(guān)系以及語義關(guān)系的各類關(guān)聯(lián)關(guān)系。機(jī)器學(xué)習(xí)算法具體為針對(duì)獲取到的原始語料數(shù)據(jù)中詞與詞之間的關(guān)聯(lián)關(guān)系進(jìn)行學(xué)習(xí)和校正的算法。其中,機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)方式有多種,例如,可以通過n-gram模型進(jìn)行編程等方式實(shí)現(xiàn),還可以靈活采用各類深度學(xué)習(xí)算法、神經(jīng)網(wǎng)絡(luò)算法等。
步驟s120:將原始語料數(shù)據(jù)以及原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系存儲(chǔ)到預(yù)設(shè)的語料數(shù)據(jù)庫中。
具體地,根據(jù)步驟s110確定的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,將該原始語料數(shù)據(jù)以及與該原始語料數(shù)據(jù)對(duì)應(yīng)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系存儲(chǔ)在預(yù)設(shè)的語料數(shù)據(jù)庫中。其中,預(yù)設(shè)的語料數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)能夠根據(jù)在線信息的更新情況進(jìn)行不間斷地更新,以確保語料數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)具有時(shí)效性和準(zhǔn)確性。
步驟s130:根據(jù)語料數(shù)據(jù)庫中存儲(chǔ)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息,并對(duì)關(guān)聯(lián)信息進(jìn)行推送。
其中,顯示信息通常是指:顯示在設(shè)備顯示界面中的信息,即用戶當(dāng)前正在瀏覽的信息。顯示信息和關(guān)聯(lián)信息可以包括各類信息,例如,可以包括以下中的至少一個(gè):新聞信息、導(dǎo)航信息、網(wǎng)頁信息以及搜索信息。在執(zhí)行本步驟時(shí),可以直接根據(jù)顯示信息以及語料數(shù)據(jù)庫來確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息;或者,也可以先對(duì)顯示信息進(jìn)行預(yù)處理,并根據(jù)顯示信息的預(yù)處理結(jié)果以及語料數(shù)據(jù)庫來確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息。其中,預(yù)處理操作可以包括多種,例如,可以包括分詞處理或者抽取關(guān)鍵詞等相關(guān)處理。其中,為了便于確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息,可以預(yù)先根據(jù)語料數(shù)據(jù)庫中存儲(chǔ)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系來建立各個(gè)網(wǎng)絡(luò)信息之間的映射關(guān)系,然后通過上述映射關(guān)系查找與顯示信息對(duì)應(yīng)的關(guān)聯(lián)信息,并對(duì)查找到的關(guān)聯(lián)信息進(jìn)行推送。
由此可見,在本發(fā)明提供的關(guān)聯(lián)信息的推送方法中,能夠根據(jù)機(jī)器學(xué)習(xí)算法對(duì)獲取到的原始語料數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),從而確定原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系;然后,能夠根據(jù)已確定的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系來確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息并對(duì)關(guān)聯(lián)信息進(jìn)行推送。本發(fā)明能夠通過機(jī)器學(xué)習(xí)的方式來挖掘原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,而該關(guān)聯(lián)關(guān)系不僅能夠體現(xiàn)近義詞之間的關(guān)聯(lián),還能夠通過語義分析而體現(xiàn)出事物間更深層次的關(guān)聯(lián)。因此,本發(fā)明中的方案能更加適應(yīng)用戶多方面的關(guān)聯(lián)信息推送需求,且大幅提升了推送的關(guān)聯(lián)信息的質(zhì)量。
實(shí)施例二
圖2示出了根據(jù)本發(fā)明實(shí)施例二提供的一種關(guān)聯(lián)信息的推送方法的流程圖。如圖2所示,該方法包括以下步驟:
步驟s210:根據(jù)機(jī)器學(xué)習(xí)算法對(duì)獲取到的原始語料數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),確定獲取到的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。
其中,原始語料數(shù)據(jù)的獲取方式可以為多種,例如,可以通過網(wǎng)絡(luò)爬蟲獲取互聯(lián)網(wǎng)上的網(wǎng)絡(luò)信息,并根據(jù)獲取到的網(wǎng)絡(luò)信息得到原始語料數(shù)據(jù)。在一種實(shí)現(xiàn)方式中,可以預(yù)先由網(wǎng)絡(luò)爬蟲爬取大量的網(wǎng)絡(luò)信息,并根據(jù)已爬取的網(wǎng)絡(luò)信息得到原始語料數(shù)據(jù)。在另一種實(shí)現(xiàn)方式中,還可以由網(wǎng)絡(luò)爬蟲定期爬取近期更新的網(wǎng)絡(luò)信息,并將本次爬取到的網(wǎng)絡(luò)信息作為原始語料數(shù)據(jù)中的增量部分,從而定期地對(duì)原始語料數(shù)據(jù)進(jìn)行動(dòng)態(tài)擴(kuò)充。在本實(shí)施例中,可以將上述兩種方式相結(jié)合。具體地,在根據(jù)網(wǎng)絡(luò)信息確定原始語料數(shù)據(jù)時(shí),可以直接將網(wǎng)絡(luò)信息作為原始預(yù)料數(shù)據(jù),也可以先對(duì)網(wǎng)絡(luò)信息進(jìn)行預(yù)設(shè)的處理,并將處理結(jié)果作為原始語料數(shù)據(jù)。例如,可以通過對(duì)獲取到的網(wǎng)絡(luò)信息中的語句進(jìn)行詞性劃分、詞義劃分等分詞處理和/或關(guān)鍵字抽取處理的方式得到原始語料數(shù)據(jù)。舉例說明:若獲取到的信息中的語句為“基于語義和知識(shí)庫混合模型的相關(guān)推薦”,則針對(duì)上述信息進(jìn)行分詞處理之后,可以將上述信息處理為“語義”、“知識(shí)”、“模型”、“相關(guān)推薦”等原始語料數(shù)據(jù)。另外,為了便于存取,可以將原始語料數(shù)據(jù)存儲(chǔ)在分布式消息隊(duì)列中,從而利用分布式消息隊(duì)列獲取原始語料數(shù)據(jù)。例如,每當(dāng)根據(jù)網(wǎng)絡(luò)爬蟲爬取到最新網(wǎng)絡(luò)信息產(chǎn)生新的原始語料數(shù)據(jù)后,則將新增的原始語料數(shù)據(jù)存儲(chǔ)到分布式消息隊(duì)列中,以供后續(xù)消費(fèi)。其中,通過分布式消息隊(duì)列能夠?qū)崿F(xiàn)并行消費(fèi)的目的,從而提升處理效率。
接下來,可以通過各類機(jī)器學(xué)習(xí)算法對(duì)原始語料數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)。例如,可以采用各類深度學(xué)習(xí)算法、神經(jīng)網(wǎng)絡(luò)算法、分類算法等,本發(fā)明對(duì)機(jī)器學(xué)習(xí)算法的具體類型不做限定,只要能夠針對(duì)原始語料數(shù)據(jù)中詞與詞之間的關(guān)聯(lián)關(guān)系進(jìn)行學(xué)習(xí)和校正即可。
在本實(shí)施例中,通過由神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行機(jī)器學(xué)習(xí)。發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中發(fā)現(xiàn),先將原始語料數(shù)據(jù)轉(zhuǎn)換成對(duì)應(yīng)的詞向量后再輸入神經(jīng)網(wǎng)絡(luò)模型的方式能夠縮短處理時(shí)間、提高處理精確度。因此,本實(shí)施例中,首先將獲取到的原始語料數(shù)據(jù)轉(zhuǎn)換成對(duì)應(yīng)的詞向量。其中,詞向量能夠通過向量形式表示出各個(gè)詞匯之間的關(guān)系,從而把文本處理簡化為向量運(yùn)算,通過計(jì)算向量空間上的相似度來表示文本語義上的相似度。因此,詞向量能夠在一定程度上刻畫出詞與詞之間的語義距離。詞向量可以通過多種方式得到,例如,可以將原始語料數(shù)據(jù)作為訓(xùn)練詞向量的訓(xùn)練數(shù)據(jù)集,通過訓(xùn)練得到詞向量;也可以直接根據(jù)各個(gè)詞匯的出現(xiàn)次數(shù)來確定詞向量。
然后,將詞向量輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型中的輸入層,并通過神經(jīng)網(wǎng)絡(luò)模型中的輸出層獲取詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果。在本實(shí)施例中,神經(jīng)網(wǎng)絡(luò)模型包含三層結(jié)構(gòu):輸入層、輸出層以及位于輸入層和輸出層之間的隱藏層。具體地,神經(jīng)網(wǎng)絡(luò)模型中的輸入層用于接收輸入的詞向量,為神經(jīng)網(wǎng)絡(luò)模型中的輸入端口;神經(jīng)網(wǎng)絡(luò)模型中的輸出層用于輸出詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果,為神經(jīng)網(wǎng)絡(luò)模型中的輸出端口;隱藏層位于輸入層和輸出層之間,具體用于對(duì)輸入的詞向量進(jìn)行特征提取。其中,上述特征提取包括:提取原始語料數(shù)據(jù)中詞的位置,詞與詞之間的距離,詞與詞之間的填補(bǔ)關(guān)系等包含句子成分以及語義關(guān)系的關(guān)聯(lián)關(guān)系,相應(yīng)地,上述的關(guān)聯(lián)輸出結(jié)果是根據(jù)上述隱藏層針對(duì)輸入層輸入的詞向量進(jìn)行特征提取的結(jié)果而產(chǎn)生的。
由此可見,通過上述的神經(jīng)網(wǎng)絡(luò)模型能夠分析出原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。另外,為了提高關(guān)聯(lián)輸出結(jié)果的準(zhǔn)確性,上述針對(duì)原始語料數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)的過程還包括:判斷詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果是否滿足預(yù)設(shè)的精度條件,當(dāng)判斷結(jié)果為否時(shí),根據(jù)反向傳播算法對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行修正。其中,在進(jìn)行上述修正過程時(shí),既可以在神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過程中進(jìn)行修正,也可以在神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)過程中進(jìn)行修正。預(yù)設(shè)的精度條件可由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況設(shè)置。例如,可以預(yù)先設(shè)置一個(gè)準(zhǔn)確率閾值,在預(yù)測(cè)階段定期獲取神經(jīng)網(wǎng)絡(luò)模型的全部輸出結(jié)果或隨機(jī)抽取部分輸出結(jié)果,當(dāng)確定輸出結(jié)果的準(zhǔn)確率未達(dá)到該閾值時(shí)則對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行修正。又如,也可以在訓(xùn)練階段每獲得一個(gè)輸出結(jié)果時(shí),確定該輸出結(jié)果是否正確,若判斷結(jié)果為否,則對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行修正。舉例說明:若在訓(xùn)練階段預(yù)先獲取到了具備關(guān)聯(lián)關(guān)系的三個(gè)詞匯,當(dāng)輸入其中的任意兩個(gè)詞匯時(shí),若能夠準(zhǔn)確輸出另外的一個(gè)詞匯,則說明結(jié)果正確,反之,則需要對(duì)神經(jīng)網(wǎng)絡(luò)模型中包含的參數(shù)和/或權(quán)重值進(jìn)行調(diào)整,直至結(jié)果正確。在本實(shí)施例中,能夠通過反向傳播算法來監(jiān)督神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)過程,該算法能夠?qū)⒂?xùn)練輸入送入網(wǎng)絡(luò)以獲得激勵(lì)響應(yīng),將激勵(lì)響應(yīng)同訓(xùn)練輸入對(duì)應(yīng)的目標(biāo)輸出求差,從而獲得隱藏層和輸出層的響應(yīng)誤差,然后通過調(diào)節(jié)每個(gè)詞向量的權(quán)重、參數(shù)等屬性來對(duì)應(yīng)調(diào)整每個(gè)詞向量,使神經(jīng)網(wǎng)絡(luò)模型得以修正。
步驟s220:將原始語料數(shù)據(jù)以及原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系存儲(chǔ)到預(yù)設(shè)的語料數(shù)據(jù)庫中。
具體地,原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系包括通過神經(jīng)網(wǎng)絡(luò)模型中的輸出層獲取到的詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果。在本步驟中,將步驟s210獲取的原始語料數(shù)據(jù)以及上述與該原始語料數(shù)據(jù)對(duì)應(yīng)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系存儲(chǔ)在預(yù)設(shè)的語料數(shù)據(jù)庫中。其中,上述語料數(shù)據(jù)庫能夠根據(jù)分布式消息隊(duì)列的更新結(jié)果進(jìn)行更新,即:預(yù)設(shè)的語料數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)會(huì)根據(jù)存儲(chǔ)原始語料數(shù)據(jù)的分布式消息隊(duì)列的更新情況而進(jìn)行不間斷地更新。也就是說,在本實(shí)施例中,原始語料數(shù)據(jù)及其關(guān)聯(lián)關(guān)系均為動(dòng)態(tài)變化的。具體實(shí)施時(shí),可以每隔預(yù)設(shè)時(shí)間間隔獲取一次更新后的原始語料數(shù)據(jù),相應(yīng)地,步驟s210和步驟s220也每隔預(yù)設(shè)時(shí)間間隔重復(fù)執(zhí)行一次。具體時(shí)間間隔可根據(jù)線上網(wǎng)絡(luò)信息的更新頻率和/或信息時(shí)效性而確定。通過動(dòng)態(tài)更新原始語料數(shù)據(jù)及其關(guān)聯(lián)關(guān)系的方式能夠確保語料數(shù)據(jù)庫中存儲(chǔ)的內(nèi)容具有較強(qiáng)的時(shí)效性和較高的準(zhǔn)確性。具體情況中,由于新聞資訊的時(shí)效性較高,不同時(shí)段內(nèi)的語料數(shù)據(jù)可能具備不同的關(guān)聯(lián)關(guān)系,比如,當(dāng)姚明參加比賽時(shí),“姚明”與“籃球”的相關(guān)性較高,而當(dāng)姚明退役后,其逐漸退出球場(chǎng),轉(zhuǎn)而參加公益事業(yè),因此,“姚明”與“籃球”之間的關(guān)聯(lián)性降低,而“姚明”與“公益”之間的關(guān)聯(lián)性升高。由此可見,通過循環(huán)執(zhí)行上述的步驟s210和步驟s220能夠提升語料數(shù)據(jù)庫的準(zhǔn)確性。
步驟s230:獲取各個(gè)網(wǎng)絡(luò)信息對(duì)應(yīng)的關(guān)鍵詞,根據(jù)網(wǎng)絡(luò)信息對(duì)應(yīng)的關(guān)鍵詞以及語料數(shù)據(jù)庫中存儲(chǔ)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,確定各個(gè)網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系。
具體地,在本步驟中,首先針對(duì)各個(gè)網(wǎng)絡(luò)信息進(jìn)行關(guān)鍵詞的抽取,然后根據(jù)語料數(shù)據(jù)庫中存儲(chǔ)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,建立關(guān)鍵詞之間的關(guān)聯(lián)映射關(guān)系,進(jìn)而根據(jù)關(guān)聯(lián)詞之間的關(guān)聯(lián)映射關(guān)系來確定相應(yīng)的網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系。另外,為了便于快速準(zhǔn)確地查詢網(wǎng)絡(luò)信息與其關(guān)鍵詞之間的對(duì)應(yīng)關(guān)系,在獲取各個(gè)網(wǎng)絡(luò)信息對(duì)應(yīng)的關(guān)鍵詞之后,還可以進(jìn)一步根據(jù)關(guān)鍵詞與各個(gè)網(wǎng)絡(luò)信息之間的對(duì)應(yīng)關(guān)系建立用于根據(jù)關(guān)鍵詞查詢網(wǎng)絡(luò)信息的信息索引,該信息索引可以是倒排索引。
舉例說明,假設(shè)語料數(shù)據(jù)庫中存儲(chǔ)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系包括如下一組數(shù)據(jù)記錄:姚明、科比、籃球。相應(yīng)地,建立關(guān)聯(lián)詞之間的關(guān)聯(lián)映射關(guān)系如下:姚明——科比、籃球;科比——姚明、籃球;籃球——姚明、科比。另外,假設(shè)建立的倒排索引包括下述記錄:姚明——文檔id3、科比——文檔id4、籃球——文檔id6。因此,網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系包括:文檔id3——文檔id4、文檔id6;文檔id4——文檔id3、文檔id6;文檔id6——文檔id4、文檔id3。由此可見,通過本步驟,能夠根據(jù)原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系確定各個(gè)網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系,從而為后續(xù)的信息推送提供了基礎(chǔ)。
步驟s240:將各個(gè)網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系存儲(chǔ)到預(yù)設(shè)的映射數(shù)據(jù)庫中,根據(jù)顯示信息對(duì)應(yīng)的關(guān)鍵詞以及映射數(shù)據(jù)庫確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息,并對(duì)該關(guān)聯(lián)信息進(jìn)行推送。
具體地,在本步驟中,首先將步驟s230中建立的各個(gè)網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系存儲(chǔ)到預(yù)設(shè)的映射數(shù)據(jù)庫中。其中,預(yù)設(shè)的映射數(shù)據(jù)庫為在線數(shù)據(jù)庫,可以進(jìn)行在線的部署、集權(quán)以及查詢等操作。并且,預(yù)設(shè)的映射數(shù)據(jù)庫能夠進(jìn)一步根據(jù)語料數(shù)據(jù)庫的更新來動(dòng)態(tài)更新其中存儲(chǔ)的關(guān)聯(lián)映射關(guān)系。具體實(shí)施中,預(yù)設(shè)的映射數(shù)據(jù)庫可以為redis數(shù)據(jù)庫。
然后,抽取顯示信息所對(duì)應(yīng)的關(guān)鍵詞,并根據(jù)上述關(guān)鍵詞在映射數(shù)據(jù)庫中查找與該關(guān)鍵詞存在對(duì)應(yīng)的關(guān)聯(lián)映射關(guān)系的關(guān)聯(lián)信息。在本實(shí)施例中,關(guān)聯(lián)信息的含義可以包括:能夠表示一個(gè)事物的不同方面,同時(shí)又不能與當(dāng)前事物為相似信息的信息。其中,若當(dāng)前信息與當(dāng)前事物為相似信息,則當(dāng)前信息可能為當(dāng)前事物的重復(fù)信息。因此,最理想的關(guān)聯(lián)信息為能夠闡述一個(gè)事物不同方面的信息,若關(guān)聯(lián)信息表示同一事物的同一方面,則相似度越小越好。舉例說明:“姚明nba經(jīng)典比賽”信息與“姚明nba精彩比賽”信息都屬于關(guān)于姚明比賽這同一方面的信息,并且二者都包含姚明在nba多場(chǎng)比賽信息中的相同信息,則上述兩個(gè)信息屬于重復(fù)信息;但是,“姚明nba經(jīng)典比賽”信息與“姚明談公益”的信息則屬于關(guān)于姚明的兩個(gè)不同方面的信息,即上述的一個(gè)事物不同方面的信息,則“姚明nba經(jīng)典比賽”信息與“姚明談公益”的信息這樣的信息屬于本實(shí)施例中提到的較佳的關(guān)聯(lián)信息。
最后,將上述查找到的關(guān)聯(lián)信息確定為與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息。并將上述關(guān)聯(lián)信息進(jìn)行推送。其中,當(dāng)確定的關(guān)聯(lián)信息的數(shù)量為多個(gè)時(shí),進(jìn)一步根據(jù)相似度算法確定各個(gè)關(guān)聯(lián)信息與顯示信息之間的相似度,將相似度大于預(yù)設(shè)的第一閾值,和/或相似度小于預(yù)設(shè)的第二閾值的關(guān)聯(lián)信息刪除;其中,第一閾值大于第二閾值。具體地,預(yù)設(shè)的第一閾值為本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況統(tǒng)計(jì)所得的當(dāng)關(guān)聯(lián)信息與顯示信息為重復(fù)信息時(shí)的最小相似值,即:當(dāng)根據(jù)相似度算法的計(jì)算結(jié)果大于預(yù)設(shè)的第一閾值時(shí),關(guān)聯(lián)信息與顯示信息為重復(fù)信息;預(yù)設(shè)的第二閾值為本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況統(tǒng)計(jì)所得的關(guān)聯(lián)信息與顯示信息為非關(guān)聯(lián)信息時(shí)的最大相似值,即:當(dāng)計(jì)算結(jié)果小于預(yù)設(shè)的第二閾值時(shí),關(guān)聯(lián)信息與顯示信息為非關(guān)聯(lián)信息。具體實(shí)施中,當(dāng)關(guān)聯(lián)信息的數(shù)量為多個(gè)時(shí),為了篩除太過相似的關(guān)聯(lián)信息以及篩除相關(guān)性過小的關(guān)聯(lián)信息,進(jìn)一步根據(jù)相似度算法計(jì)算各個(gè)關(guān)聯(lián)信息與顯示信息之間的相似度,并將上述計(jì)算結(jié)果與預(yù)設(shè)第一閾值和/或第二閾值進(jìn)行比較,當(dāng)計(jì)算結(jié)果大于預(yù)設(shè)的第一閾值,和/或計(jì)算結(jié)果小于預(yù)設(shè)的第二閾值時(shí),將與該計(jì)算結(jié)果對(duì)應(yīng)的關(guān)聯(lián)信息刪除。其中,上述相似度算法由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況進(jìn)行選擇或設(shè)置,本發(fā)明對(duì)此不作限制。
另外,當(dāng)關(guān)聯(lián)信息的數(shù)量為多個(gè)時(shí),還可以針對(duì)上述多個(gè)關(guān)聯(lián)信息進(jìn)行進(jìn)一步的處理。例如,還可以根據(jù)相似度計(jì)算的結(jié)果設(shè)置關(guān)聯(lián)信息權(quán)重,即:按照關(guān)聯(lián)信息關(guān)聯(lián)性由高到低的順序設(shè)置關(guān)聯(lián)信息的權(quán)重,使關(guān)聯(lián)信息能夠根據(jù)所設(shè)置的權(quán)重按照關(guān)聯(lián)性由高到低的順序進(jìn)行顯示,向用戶提供更加準(zhǔn)確的相關(guān)信息的推送結(jié)果;或者,針對(duì)關(guān)聯(lián)信息中包含的關(guān)鍵字的搜索量、發(fā)表時(shí)間等信息設(shè)置關(guān)聯(lián)信息的權(quán)重,使關(guān)聯(lián)信息能夠按照一定的規(guī)則進(jìn)行排序,并將排序結(jié)果顯示在推送結(jié)果中,以滿足用戶多方面的需求。
另外,在本實(shí)施例中,在本領(lǐng)域技術(shù)人員還可以對(duì)其中的技術(shù)細(xì)節(jié)進(jìn)行各種改動(dòng)和變形。例如,神經(jīng)網(wǎng)絡(luò)模型可以基于n-gram模型來實(shí)現(xiàn),利用n-gram模型能夠?qū)W習(xí)并預(yù)測(cè)一個(gè)詞匯與其周圍詞匯之間的關(guān)聯(lián)關(guān)系,因此,通過將n-gram模型增加到神經(jīng)網(wǎng)絡(luò)模型中能夠提升預(yù)測(cè)準(zhǔn)確度。而且,在本實(shí)施例中構(gòu)建與原始語料數(shù)據(jù)相對(duì)應(yīng)的詞向量時(shí),還可以進(jìn)一步基于tf-idf算法來確定詞向量,通過該算法能夠基于詞匯在當(dāng)前文章中的出現(xiàn)頻率以及該詞匯在其他文章中的出現(xiàn)頻率來設(shè)置該詞匯的權(quán)重值:若某詞匯在當(dāng)前文章中的出現(xiàn)頻率高,而在其他文章中的出現(xiàn)頻率低,則為該詞匯設(shè)置較高的權(quán)重值,從而能夠提升語義分析的準(zhǔn)確性。
由此可見,在本發(fā)明提供的關(guān)聯(lián)信息的推送方法中,首先根據(jù)機(jī)器學(xué)習(xí)算法對(duì)獲取到的原始語料數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),確定獲取到的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系;然后將原始語料數(shù)據(jù)以及原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系存儲(chǔ)到預(yù)設(shè)的語料數(shù)據(jù)庫中;最后獲取各個(gè)網(wǎng)絡(luò)信息對(duì)應(yīng)的關(guān)鍵詞,根據(jù)網(wǎng)絡(luò)信息對(duì)應(yīng)的關(guān)鍵詞以及語料數(shù)據(jù)庫中存儲(chǔ)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,確定各個(gè)網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系;并將各個(gè)網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系存儲(chǔ)到預(yù)設(shè)的映射數(shù)據(jù)庫中,根據(jù)顯示信息對(duì)應(yīng)的關(guān)鍵詞以及映射數(shù)據(jù)庫確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息。因此,本發(fā)明中的方案解決了在推送關(guān)聯(lián)信息時(shí),推送的關(guān)聯(lián)信息的關(guān)聯(lián)性不高或者推送的關(guān)聯(lián)信息為重復(fù)內(nèi)容的問題,提出了一種利用包含語義在內(nèi)的關(guān)聯(lián)關(guān)系來查找并推送關(guān)聯(lián)信息的方法,增加了針對(duì)關(guān)聯(lián)信息挖掘的準(zhǔn)確性,能夠基于信息中包含的語義來分析信息的相關(guān)性,提高了推送的關(guān)聯(lián)信息的質(zhì)量。
實(shí)施例三
圖3示出了根據(jù)本發(fā)明實(shí)施例三提供的一種關(guān)聯(lián)信息的推送裝置的結(jié)構(gòu)框圖。如圖3所示,該裝置包括:學(xué)習(xí)模塊31、存儲(chǔ)模塊32以及確定模塊33、推送模塊34、信息索引建立模塊35以及篩選模塊36。其中,確定模塊33進(jìn)一步包括:第一確定單元331以及第二確定單元332。
學(xué)習(xí)模塊31適于根據(jù)機(jī)器學(xué)習(xí)算法對(duì)獲取到的原始語料數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),確定獲取到的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。
其中,原始語料數(shù)據(jù)的獲取方式可以為多種,例如,可以通過網(wǎng)絡(luò)爬蟲獲取互聯(lián)網(wǎng)上的網(wǎng)絡(luò)信息,并根據(jù)獲取到的網(wǎng)絡(luò)信息得到原始語料數(shù)據(jù)。在一種實(shí)現(xiàn)方式中,可以預(yù)先由網(wǎng)絡(luò)爬蟲爬取大量的網(wǎng)絡(luò)信息,并根據(jù)已爬取的網(wǎng)絡(luò)信息得到原始語料數(shù)據(jù)。在另一種實(shí)現(xiàn)方式中,還可以由網(wǎng)絡(luò)爬蟲定期爬取近期更新的網(wǎng)絡(luò)信息,并將本次爬取到的網(wǎng)絡(luò)信息作為原始語料數(shù)據(jù)中的增量部分,從而定期地對(duì)原始語料數(shù)據(jù)進(jìn)行動(dòng)態(tài)擴(kuò)充。在本實(shí)施例中,可以將上述兩種方式相結(jié)合。具體地,學(xué)習(xí)模塊31在根據(jù)網(wǎng)絡(luò)信息確定原始語料數(shù)據(jù)時(shí),可以直接將網(wǎng)絡(luò)信息作為原始預(yù)料數(shù)據(jù),也可以先對(duì)網(wǎng)絡(luò)信息進(jìn)行預(yù)設(shè)的處理,并將處理結(jié)果作為原始語料數(shù)據(jù)。例如,可以通過對(duì)獲取到的網(wǎng)絡(luò)信息中的語句進(jìn)行詞性劃分、詞義劃分等分詞處理和/或關(guān)鍵字抽取處理的方式得到原始語料數(shù)據(jù)。另外,為了便于存取,可以將原始語料數(shù)據(jù)存儲(chǔ)在分布式消息隊(duì)列中,從而利用分布式消息隊(duì)列獲取原始語料數(shù)據(jù)。例如,每當(dāng)根據(jù)網(wǎng)絡(luò)爬蟲爬取到最新網(wǎng)絡(luò)信息產(chǎn)生新的原始語料數(shù)據(jù)后,則將新增的原始語料數(shù)據(jù)存儲(chǔ)到分布式消息隊(duì)列中,以供后續(xù)消費(fèi)。其中,通過分布式消息隊(duì)列能夠?qū)崿F(xiàn)并行消費(fèi)的目的,從而提升處理效率。
學(xué)習(xí)模塊31在進(jìn)行機(jī)器學(xué)習(xí)時(shí),可以通過各類機(jī)器學(xué)習(xí)算法對(duì)原始語料數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)。例如,可以采用各類深度學(xué)習(xí)算法、神經(jīng)網(wǎng)絡(luò)算法、分類算法等,本發(fā)明對(duì)機(jī)器學(xué)習(xí)算法的具體類型不做限定,只要能夠針對(duì)原始語料數(shù)據(jù)中詞與詞之間的關(guān)聯(lián)關(guān)系進(jìn)行學(xué)習(xí)和校正即可。具體地,在本實(shí)施例中,學(xué)習(xí)模塊31通過由神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行機(jī)器學(xué)習(xí)。由于發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中發(fā)現(xiàn),先將原始語料數(shù)據(jù)轉(zhuǎn)換成對(duì)應(yīng)的詞向量后再輸入神經(jīng)網(wǎng)絡(luò)模型的方式能夠縮短處理時(shí)間、提高處理精確度。因此,本實(shí)施例中,學(xué)習(xí)模塊31首先將獲取到的原始語料數(shù)據(jù)轉(zhuǎn)換成對(duì)應(yīng)的詞向量,然后將詞向量輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型中的輸入層,并通過神經(jīng)網(wǎng)絡(luò)模型中的輸出層獲取詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果。具體地,本實(shí)施例中的神經(jīng)網(wǎng)絡(luò)模型包含三層結(jié)構(gòu):輸入層、輸出層以及位于輸入層和輸出層之間的隱藏層。其中,神經(jīng)網(wǎng)絡(luò)模型中的輸入層用于接收輸入的詞向量,為神經(jīng)網(wǎng)絡(luò)模型中的輸入端口;神經(jīng)網(wǎng)絡(luò)模型中的輸出層用于輸出詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果,為神經(jīng)網(wǎng)絡(luò)模型中的輸出端口;隱藏層位于輸入層和輸出層之間,具體用于對(duì)輸入的詞向量進(jìn)行特征提取。在這里,上述特征提取包括:提取原始語料數(shù)據(jù)中詞的位置,詞與詞之間的距離,詞與詞之間的填補(bǔ)關(guān)系等包含句子成分以及語義關(guān)系的關(guān)聯(lián)關(guān)系,相應(yīng)地,上述的關(guān)聯(lián)輸出結(jié)果是根據(jù)上述隱藏層針對(duì)輸入層輸入的詞向量進(jìn)行特征提取的結(jié)果而產(chǎn)生的。
另外,為了提高關(guān)聯(lián)輸出結(jié)果的準(zhǔn)確性,學(xué)習(xí)模塊31針對(duì)原始語料數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)的過程還包括:判斷詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果是否滿足預(yù)設(shè)的精度條件,當(dāng)判斷結(jié)果為否時(shí),根據(jù)反向傳播算法對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行修正。其中,既可以在神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過程中進(jìn)行修正,也可以在神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)過程中進(jìn)行修正。其中,預(yù)設(shè)的精度條件可由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況設(shè)置。例如,可以預(yù)先設(shè)置一個(gè)準(zhǔn)確率閾值,在預(yù)測(cè)階段定期獲取神經(jīng)網(wǎng)絡(luò)模型的全部輸出結(jié)果或隨機(jī)抽取部分輸出結(jié)果,當(dāng)確定輸出結(jié)果的準(zhǔn)確率未達(dá)到該閾值時(shí)則對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行修正?;蛘撸部梢栽谟?xùn)練階段每獲得一個(gè)輸出結(jié)果時(shí),確定該輸出結(jié)果是否正確,若判斷結(jié)果為否,則對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行修正。其中,學(xué)習(xí)模塊31在針對(duì)學(xué)習(xí)結(jié)果進(jìn)行校正時(shí),可以通過反向傳播算法來監(jiān)督神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)過程。反向傳播算法能夠?qū)⒂?xùn)練輸入送入網(wǎng)絡(luò)以獲得激勵(lì)響應(yīng),將激勵(lì)響應(yīng)同訓(xùn)練輸入對(duì)應(yīng)的目標(biāo)輸出求差,從而獲得隱藏層和輸出層的響應(yīng)誤差,然后通過調(diào)節(jié)每個(gè)詞向量的權(quán)重、參數(shù)等屬性來對(duì)應(yīng)調(diào)整每個(gè)詞向量,使神經(jīng)網(wǎng)絡(luò)模型得以修正。
存儲(chǔ)模塊32適于將原始語料數(shù)據(jù)以及原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系存儲(chǔ)到預(yù)設(shè)的語料數(shù)據(jù)庫中。
具體地,原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系包括通過神經(jīng)網(wǎng)絡(luò)模型中的輸出層獲取到的詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果。存儲(chǔ)模塊32具體用于將學(xué)習(xí)模塊31中獲取的原始語料數(shù)據(jù)以及與該原始語料數(shù)據(jù)對(duì)應(yīng)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系存儲(chǔ)在預(yù)設(shè)的語料數(shù)據(jù)庫中。其中,上述語料數(shù)據(jù)庫能夠根據(jù)分布式消息隊(duì)列的更新結(jié)果進(jìn)行更新,即:預(yù)設(shè)的語料數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)會(huì)根據(jù)存儲(chǔ)原始語料數(shù)據(jù)的分布式消息隊(duì)列的更新情況而進(jìn)行不間斷地更新。也就是說,存儲(chǔ)在存儲(chǔ)模塊32中的原始語料數(shù)據(jù)及其關(guān)聯(lián)關(guān)系均為動(dòng)態(tài)變化的。具體實(shí)施時(shí),可以每隔預(yù)設(shè)時(shí)間間隔獲取一次更新后的原始語料數(shù)據(jù),相應(yīng)地,在學(xué)習(xí)模塊31和存儲(chǔ)模塊32中也每隔預(yù)設(shè)時(shí)間間隔重復(fù)執(zhí)行上述更新過程一次。具體時(shí)間間隔可根據(jù)線上網(wǎng)絡(luò)信息的更新頻率和/或信息時(shí)效性而確定。通過動(dòng)態(tài)更新原始語料數(shù)據(jù)及其關(guān)聯(lián)關(guān)系的方式能夠確保語料數(shù)據(jù)庫中存儲(chǔ)的內(nèi)容具有較強(qiáng)的時(shí)效性和較高的準(zhǔn)確性。具體實(shí)施中,由于新聞資訊的時(shí)效性較高,不同時(shí)段內(nèi)的語料數(shù)據(jù)可能具備不同的關(guān)聯(lián)關(guān)系,因此通過在存儲(chǔ)模塊32中循環(huán)執(zhí)行上述更新過程能夠有效提升語料數(shù)據(jù)庫的準(zhǔn)確性。
確定模塊33適于根據(jù)語料數(shù)據(jù)庫中存儲(chǔ)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息。其中,確定模塊33進(jìn)一步包括:第一確定單元331以及第二確定單元332。
第一確定單元331適于獲取各個(gè)網(wǎng)絡(luò)信息對(duì)應(yīng)的關(guān)鍵詞,根據(jù)網(wǎng)絡(luò)信息對(duì)應(yīng)的關(guān)鍵詞以及語料數(shù)據(jù)庫中存儲(chǔ)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,確定各個(gè)網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系。
具體地,第一確定單元331首先針對(duì)各個(gè)網(wǎng)絡(luò)信息進(jìn)行關(guān)鍵詞的抽取,然后根據(jù)語料數(shù)據(jù)庫中存儲(chǔ)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,建立關(guān)鍵詞之間的關(guān)聯(lián)映射關(guān)系,進(jìn)而根據(jù)關(guān)聯(lián)詞之間的關(guān)聯(lián)映射關(guān)系來確定相應(yīng)的網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系。在這里,第一確定單元331能夠根據(jù)原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系確定各個(gè)網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系,從而為后續(xù)的信息推送提供基礎(chǔ)。
第二確定單元332適于將各個(gè)網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系存儲(chǔ)到預(yù)設(shè)的映射數(shù)據(jù)庫中,根據(jù)顯示信息對(duì)應(yīng)的關(guān)鍵詞以及映射數(shù)據(jù)庫確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息。
具體地,第二確定單元332首先將第一確定單元331中建立的各個(gè)網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系存儲(chǔ)到預(yù)設(shè)的映射數(shù)據(jù)庫中。其中,預(yù)設(shè)的映射數(shù)據(jù)庫為在線數(shù)據(jù)庫,可以進(jìn)行在線地部署、集權(quán)以及查詢等操作。并且,預(yù)設(shè)的映射數(shù)據(jù)庫能夠進(jìn)一步根據(jù)語料數(shù)據(jù)庫的更新來動(dòng)態(tài)更新其中存儲(chǔ)的關(guān)聯(lián)映射關(guān)系。具體實(shí)施中,預(yù)設(shè)的映射數(shù)據(jù)庫可以為redis數(shù)據(jù)庫。然后,第二確定單元332抽取顯示信息中所對(duì)應(yīng)的關(guān)鍵詞,并根據(jù)上述關(guān)鍵詞在映射數(shù)據(jù)庫中查找與該關(guān)鍵詞存在對(duì)應(yīng)的關(guān)聯(lián)映射關(guān)系的關(guān)聯(lián)信息,并將查找到的對(duì)應(yīng)的關(guān)聯(lián)信息發(fā)送給推送模塊34。其中,在本實(shí)施例中,關(guān)聯(lián)信息的含義可以包括:能夠表示一個(gè)事物的不同方面,同時(shí)又不能與當(dāng)前事物為相似信息的信息。其中,若當(dāng)前信息與當(dāng)前事物為相似信息,則當(dāng)前信息可能為當(dāng)前事物的重復(fù)信息。因此,最理想的關(guān)聯(lián)信息為能夠闡述一個(gè)事物不同方面的信息,若關(guān)聯(lián)信息表示同一事物的同一方面,則相似度越小越好。
推送模塊34適于對(duì)關(guān)聯(lián)信息進(jìn)行推送。
具體地,推送模塊34在接收到第二確定單元332發(fā)送的關(guān)聯(lián)信息之后,將上述關(guān)聯(lián)信息確定為與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息并將上述關(guān)聯(lián)信息進(jìn)行推送。
信息索引建立模塊35適于根據(jù)關(guān)鍵詞與網(wǎng)絡(luò)信息之間的對(duì)應(yīng)關(guān)系建立用于根據(jù)關(guān)鍵詞查詢網(wǎng)絡(luò)信息的信息索引。
具體地,為了便于快速準(zhǔn)確地查詢網(wǎng)絡(luò)信息與其關(guān)鍵詞之間的對(duì)應(yīng)關(guān)系,在第一確定模塊331獲取各個(gè)網(wǎng)絡(luò)信息對(duì)應(yīng)的關(guān)鍵詞之后,信息索引建立模塊35進(jìn)一步根據(jù)關(guān)鍵詞與各個(gè)網(wǎng)絡(luò)信息之間的對(duì)應(yīng)關(guān)系建立用于根據(jù)關(guān)鍵詞查詢網(wǎng)絡(luò)信息的信息索引。其中,上述信息索引可以是倒排索引。
篩選模塊36適于當(dāng)關(guān)聯(lián)信息的數(shù)量為多個(gè)時(shí),進(jìn)一步根據(jù)相似度算法確定各個(gè)關(guān)聯(lián)信息與顯示信息之間的相似度,將相似度大于預(yù)設(shè)的第一閾值,和/或相似度小于預(yù)設(shè)的第二閾值的關(guān)聯(lián)信息刪除;其中,第一閾值大于第二閾值。
具體地,預(yù)設(shè)的第一閾值為本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況統(tǒng)計(jì)所得的當(dāng)關(guān)聯(lián)信息與顯示信息為重復(fù)信息時(shí)的最小相似值,即:當(dāng)根據(jù)相似度算法的計(jì)算結(jié)果大于預(yù)設(shè)的第一閾值時(shí),關(guān)聯(lián)信息與顯示信息為重復(fù)信息;預(yù)設(shè)的第二閾值為本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況統(tǒng)計(jì)所得的關(guān)聯(lián)信息與顯示信息為非關(guān)聯(lián)信息時(shí)的最大相似值,即:當(dāng)計(jì)算結(jié)果小于預(yù)設(shè)的第二閾值時(shí),關(guān)聯(lián)信息與顯示信息為非關(guān)聯(lián)信息。具體實(shí)施中,當(dāng)關(guān)聯(lián)信息的數(shù)量為多個(gè)時(shí),為了篩除太過相似的關(guān)聯(lián)信息以及篩除相關(guān)性過小的關(guān)聯(lián)信息,篩選模塊36根據(jù)相似度算法計(jì)算各個(gè)關(guān)聯(lián)信息與顯示信息之間的相似度,并將上述計(jì)算結(jié)果與預(yù)設(shè)第一閾值和/或第二閾值進(jìn)行比較,當(dāng)計(jì)算結(jié)果大于預(yù)設(shè)的第一閾值,和/或計(jì)算結(jié)果小于預(yù)設(shè)的第二閾值時(shí),將與該計(jì)算結(jié)果對(duì)應(yīng)的關(guān)聯(lián)信息刪除。其中,上述相似度算法由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況進(jìn)行選擇或設(shè)置,本發(fā)明對(duì)此不作限制。
最后,要說明的是,上述各個(gè)模塊的具體結(jié)構(gòu)和工作原理可參照方法實(shí)施例中相應(yīng)步驟的描述,此處不再贅述。另外,本領(lǐng)域技術(shù)人員還可以將上述的各個(gè)模塊合并為更少的模塊,或拆分為更多的模塊,而且,還可以省略其中的部分模塊,例如,可以省略信息索引建立模塊、以及篩選模塊等。
由此可見,在本發(fā)明提供的關(guān)聯(lián)信息的推送裝置中,首先通過學(xué)習(xí)模塊31根據(jù)機(jī)器學(xué)習(xí)算法對(duì)獲取到的原始語料數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),確定獲取到的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系;通過存儲(chǔ)模塊32將原始語料數(shù)據(jù)以及原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系存儲(chǔ)到預(yù)設(shè)的語料數(shù)據(jù)庫中;通過確定模塊33中的第一確定單元331獲取各個(gè)網(wǎng)絡(luò)信息對(duì)應(yīng)的關(guān)鍵詞,根據(jù)網(wǎng)絡(luò)信息對(duì)應(yīng)的關(guān)鍵詞以及語料數(shù)據(jù)庫中存儲(chǔ)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,確定各個(gè)網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系;并通過確定模塊33中的第二確定單元332將各個(gè)網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系存儲(chǔ)到預(yù)設(shè)的映射數(shù)據(jù)庫中,根據(jù)顯示信息對(duì)應(yīng)的關(guān)鍵詞以及映射數(shù)據(jù)庫確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息;最后通過推動(dòng)模塊34對(duì)確定的關(guān)聯(lián)信息進(jìn)行推送。其中,在實(shí)現(xiàn)本發(fā)明裝置的過程中,還進(jìn)一步通過信息索引建立模塊35根據(jù)關(guān)鍵詞與網(wǎng)絡(luò)信息之間的對(duì)應(yīng)關(guān)系建立用于根據(jù)關(guān)鍵詞查詢網(wǎng)絡(luò)信息的信息索引;以及,當(dāng)確定的關(guān)聯(lián)信息的數(shù)量為多個(gè)時(shí),通過篩選模塊36根據(jù)相似度算法確定各個(gè)關(guān)聯(lián)信息與顯示信息之間的相似度,將相似度大于預(yù)設(shè)的第一閾值,和/或相似度小于預(yù)設(shè)的第二閾值的關(guān)聯(lián)信息刪除;其中,第一閾值大于第二閾值。因此,本發(fā)明中的方案解決了在推送關(guān)聯(lián)信息時(shí),由于并未考慮語義之間的關(guān)聯(lián)關(guān)系,導(dǎo)致推送結(jié)果無法更好地迎合用戶需求的問題,提出了一種利用包含語義在內(nèi)的關(guān)聯(lián)關(guān)系來查找并推送關(guān)聯(lián)信息的方法,增加了針對(duì)關(guān)聯(lián)信息挖掘的準(zhǔn)確性,能夠基于信息中包含的語義來分析信息的相關(guān)性,提高了推送的關(guān)聯(lián)信息的質(zhì)量。
在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對(duì)任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說明書的理解。
類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。
此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(dsp)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的關(guān)聯(lián)信息的推送裝置模塊中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
本發(fā)明公開了:a1、一種關(guān)聯(lián)信息的推送方法,包括:
根據(jù)機(jī)器學(xué)習(xí)算法對(duì)獲取到的原始語料數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),確定所述獲取到的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系;
將所述原始語料數(shù)據(jù)以及所述原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系存儲(chǔ)到預(yù)設(shè)的語料數(shù)據(jù)庫中;
根據(jù)所述語料數(shù)據(jù)庫中存儲(chǔ)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息,并對(duì)所述關(guān)聯(lián)信息進(jìn)行推送。
a2、根據(jù)a1所述的方法,其中,所述根據(jù)機(jī)器學(xué)習(xí)算法對(duì)獲取到的原始語料數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),以確定所述獲取到的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系的步驟具體包括:
將所述獲取到的原始語料數(shù)據(jù)轉(zhuǎn)換成對(duì)應(yīng)的詞向量,將所述詞向量輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型中的輸入層,并通過所述神經(jīng)網(wǎng)絡(luò)模型中的輸出層獲取所述詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果。
a3、根據(jù)a2所述的方法,其中,所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)一步包括:位于所述輸入層和所述輸出層之間的隱藏層;則所述通過所述神經(jīng)網(wǎng)絡(luò)模型中的輸出層獲取所述詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果的步驟具體包括:
通過所述隱藏層對(duì)所述輸入層輸入的詞向量進(jìn)行特征提取,由所述輸出層根據(jù)特征提取的結(jié)果輸出所述詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果。
a4、根據(jù)a2或a3所述的方法,其中,所述根據(jù)機(jī)器學(xué)習(xí)算法對(duì)獲取到的原始語料數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)的步驟中進(jìn)一步包括:
判斷所述詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果是否滿足預(yù)設(shè)的精度條件,當(dāng)判斷結(jié)果為否時(shí),根據(jù)反向傳播算法對(duì)所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行修正。
a5、根據(jù)a1所述的方法,其中,所述根據(jù)所述語料數(shù)據(jù)庫中存儲(chǔ)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息的步驟具體包括:
獲取各個(gè)網(wǎng)絡(luò)信息對(duì)應(yīng)的關(guān)鍵詞,根據(jù)所述網(wǎng)絡(luò)信息對(duì)應(yīng)的關(guān)鍵詞以及所述語料數(shù)據(jù)庫中存儲(chǔ)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,確定各個(gè)網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系;
將所述各個(gè)網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系存儲(chǔ)到預(yù)設(shè)的映射數(shù)據(jù)庫中,根據(jù)所述顯示信息對(duì)應(yīng)的關(guān)鍵詞以及所述映射數(shù)據(jù)庫確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息。
a6、根據(jù)a5所述的方法,其中,所述獲取各個(gè)網(wǎng)絡(luò)信息對(duì)應(yīng)的關(guān)鍵詞的步驟之后,進(jìn)一步包括步驟:根據(jù)關(guān)鍵詞與網(wǎng)絡(luò)信息之間的對(duì)應(yīng)關(guān)系建立用于根據(jù)關(guān)鍵詞查詢網(wǎng)絡(luò)信息的信息索引。
a7、根據(jù)a5或a6所述的方法,其中,所述根據(jù)所述顯示信息對(duì)應(yīng)的關(guān)鍵詞以及所述映射數(shù)據(jù)庫確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息的步驟之后進(jìn)一步包括:
當(dāng)所述關(guān)聯(lián)信息的數(shù)量為多個(gè)時(shí),進(jìn)一步根據(jù)相似度算法確定各個(gè)關(guān)聯(lián)信息與所述顯示信息之間的相似度,將相似度大于預(yù)設(shè)的第一閾值,和/或相似度小于預(yù)設(shè)的第二閾值的關(guān)聯(lián)信息刪除;其中,所述第一閾值大于所述第二閾值。
a8、根據(jù)a1所述的方法,其中,所述原始語料數(shù)據(jù)通過分布式消息隊(duì)列進(jìn)行獲取,且所述語料數(shù)據(jù)庫能夠根據(jù)所述分布式消息隊(duì)列的更新結(jié)果進(jìn)行更新。
a9、根據(jù)a1所述的方法,其中,所述關(guān)聯(lián)信息包括以下中的至少一個(gè):新聞信息、導(dǎo)航信息、網(wǎng)頁信息以及搜索信息。
本發(fā)明還公開了:b10、一種關(guān)聯(lián)信息的推送裝置,包括:
學(xué)習(xí)模塊,適于根據(jù)機(jī)器學(xué)習(xí)算法對(duì)獲取到的原始語料數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),確定所述獲取到的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系;
存儲(chǔ)模塊,適于將所述原始語料數(shù)據(jù)以及所述原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系存儲(chǔ)到預(yù)設(shè)的語料數(shù)據(jù)庫中;
確定模塊,適于根據(jù)所述語料數(shù)據(jù)庫中存儲(chǔ)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息;
推送模塊,適于對(duì)所述關(guān)聯(lián)信息進(jìn)行推送。
b11、根據(jù)b10所述的裝置,其中,所述學(xué)習(xí)模塊具體用于:
將所述獲取到的原始語料數(shù)據(jù)轉(zhuǎn)換成對(duì)應(yīng)的詞向量,將所述詞向量輸入預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型中的輸入層,并通過所述神經(jīng)網(wǎng)絡(luò)模型中的輸出層獲取所述詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果。
b12、根據(jù)b11所述的裝置,其中,所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)一步包括:位于所述輸入層和所述輸出層之間的隱藏層;則所述學(xué)習(xí)模塊進(jìn)一步用于:
通過所述隱藏層對(duì)所述輸入層輸入的詞向量進(jìn)行特征提取,由所述輸出層根據(jù)特征提取的結(jié)果輸出所述詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果。
b13、根據(jù)b11或b12所述的裝置,其中,所述學(xué)習(xí)模塊進(jìn)一步用于:
判斷所述詞向量對(duì)應(yīng)的關(guān)聯(lián)輸出結(jié)果是否滿足預(yù)設(shè)的精度條件,當(dāng)判斷結(jié)果為否時(shí),根據(jù)反向傳播算法對(duì)所述神經(jīng)網(wǎng)絡(luò)模型進(jìn)行修正。
b14、根據(jù)b10所述的裝置,其中,所述確定模塊包括:
第一確定單元,適于獲取各個(gè)網(wǎng)絡(luò)信息對(duì)應(yīng)的關(guān)鍵詞,根據(jù)所述網(wǎng)絡(luò)信息對(duì)應(yīng)的關(guān)鍵詞以及所述語料數(shù)據(jù)庫中存儲(chǔ)的原始語料數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,確定各個(gè)網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系;
第二確定單元,適于將所述各個(gè)網(wǎng)絡(luò)信息之間的關(guān)聯(lián)映射關(guān)系存儲(chǔ)到預(yù)設(shè)的映射數(shù)據(jù)庫中,根據(jù)所述顯示信息對(duì)應(yīng)的關(guān)鍵詞以及所述映射數(shù)據(jù)庫確定與顯示信息相對(duì)應(yīng)的關(guān)聯(lián)信息。
b15、根據(jù)b14所述的裝置,其中,所述裝置進(jìn)一步包括:信息索引建立模塊,適于根據(jù)關(guān)鍵詞與網(wǎng)絡(luò)信息之間的對(duì)應(yīng)關(guān)系建立用于根據(jù)關(guān)鍵詞查詢網(wǎng)絡(luò)信息的信息索引。
b16、根據(jù)b14或b15所述的裝置,其中,所述裝置進(jìn)一步包括:
篩選模塊,適于當(dāng)所述關(guān)聯(lián)信息的數(shù)量為多個(gè)時(shí),進(jìn)一步根據(jù)相似度算法確定各個(gè)關(guān)聯(lián)信息與所述顯示信息之間的相似度,將相似度大于預(yù)設(shè)的第一閾值,和/或相似度小于預(yù)設(shè)的第二閾值的關(guān)聯(lián)信息刪除;其中,所述第一閾值大于所述第二閾值。
b17、根據(jù)b10所述的裝置,其中,所述原始語料數(shù)據(jù)通過分布式消息隊(duì)列進(jìn)行獲取,且所述語料數(shù)據(jù)庫能夠根據(jù)所述分布式消息隊(duì)列的更新結(jié)果進(jìn)行更新。
b18、根據(jù)b10所述的裝置,其中,所述關(guān)聯(lián)信息包括以下中的至少一個(gè):新聞信息、導(dǎo)航信息、網(wǎng)頁信息以及搜索信息。