亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

服務(wù)推送方法及裝置與流程

文檔序號:12597957閱讀:295來源:國知局
服務(wù)推送方法及裝置與流程

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別是涉及一種服務(wù)推送方法及裝置。



背景技術(shù):

早期的互聯(lián)網(wǎng)內(nèi)容主要以圖片和文字為主,一些門戶網(wǎng)站以這樣內(nèi)容作為載體,建立一系列互聯(lián)網(wǎng)和本地生活類服務(wù)。

現(xiàn)有技術(shù)中,基于地理位置的生活服務(wù)推送方法包括:獲取用戶在互聯(lián)網(wǎng)上點(diǎn)擊的或購買的生活類服務(wù)等用戶行為;根據(jù)這些用戶行為建立預(yù)測模型;根據(jù)預(yù)測模型預(yù)測用戶下次需要購買的生活類服務(wù)。

但是,由于互聯(lián)網(wǎng)用戶量很大,用戶數(shù)據(jù)非常稀疏,如果根據(jù)這些稀疏的數(shù)據(jù)進(jìn)行預(yù)測,預(yù)測結(jié)果往往不是很理想,有時甚至根本無法預(yù)測。



技術(shù)實(shí)現(xiàn)要素:

為了提高服務(wù)推送的準(zhǔn)確性,本發(fā)明實(shí)施例提供一種服務(wù)推送方法及裝置。

一種服務(wù)推送方法,包括:收集用戶在預(yù)置時間段內(nèi)的視頻相關(guān)信息和/或服務(wù)消費(fèi)記錄信息,從所述視頻相關(guān)信息和/或服務(wù)消費(fèi)記錄信息中提取得到第一文本;獲取用戶所在地理位置相關(guān)的服務(wù)信息,從所述服務(wù)信息中提取得到第二文本;基于所述第一文本和第二文本,分別挖掘出所述第一文本的第一主題概率分布和所述第二文本的第二主題概率分布;計(jì)算所述第一主題概率分布中各主題和所述第二主題概率分布中各主題的相似度;選擇相似度高于相似度閾值的主題集合,得到服務(wù)推薦列表。

優(yōu)選的,所述基于所述第一文本和第二文本,分別挖掘出所述第一文本的第一主題概率分布和所述第二文本的第二主題概率分布,包括:對所述第一文本和所述第二文本分別進(jìn)行切詞處理,得到第一文檔集和第二文檔集;針對所述第一文檔集和第二文檔集分別進(jìn)行特征詞篩選;根據(jù)篩選出的特征詞,采用主題聚類算法,分別計(jì)算得到所述第一文本的第一主題概率分布和所述第二文本的第二主題概率分布。

優(yōu)選的,所述計(jì)算所述第一主題概率分布中各主題和所述第二主題概率分布中各主題的相似度,包括:通過計(jì)算所述第一主題概率分布和所述第二主題概率分布之間的相對熵,得到所述第一主題概率分布中各主題和所述第二主題概率分布中各主題的相似度。

優(yōu)選的,在所述選擇相似度高于相似度閾值的主題集合之后,還包括:針對所述主題集合各主題對應(yīng)的服務(wù),根據(jù)各服務(wù)的價格和/或與用戶所在地理位置的距離,選擇出所述服務(wù)推薦列表。

優(yōu)選的,所述從所述視頻相關(guān)信息和/或服務(wù)消費(fèi)記錄信息中提取得到第一文本,包括:從用戶歷史觀看視頻的名稱、描述、標(biāo)簽、彈幕,和/或,評論信息中,提取得到所述第一文本。

優(yōu)選的,所述獲取用戶所在地理位置相關(guān)的服務(wù)信息,從所述服務(wù)信息中提取得到第二文本,包括:從各類應(yīng)用程序或門戶網(wǎng)站,獲取用戶所在地理位置相關(guān)的旅游景點(diǎn)信息、餐飲信息、娛樂信息、美容信息、和/或,房產(chǎn)信息;從上述任一項(xiàng)或多項(xiàng)信息中提取得到所述第二文本。

一種服務(wù)推送裝置,包括:第一文本生成單元,用于收集用戶在預(yù)置時間段內(nèi)的視頻相關(guān)信息和/或服務(wù)消費(fèi)記錄信息,從所述視頻相關(guān)信息和/或服務(wù)消費(fèi)記錄信息中提取得到第一文本;第二文本生成單元,用于獲取用戶所在地理位置相關(guān)的服務(wù)信息,從所述服務(wù)信息中提取得到第二文本;主題挖掘單元,用于基于所述第一文本和第二文本,分別挖掘出所述第一文本的第一主題概率分布和所述第二文本的第二主題概率分布;相似度計(jì)算單元,用于計(jì)算所述第一主題概率分布中各主題和所述第二主題概率分布中各主題的相似度;服務(wù)推送單元,用于選擇相似度高于相似度閾值的主題集合,得到服務(wù)推薦列表。

優(yōu)選的,所述主題挖掘單元包括:切詞子單元,用于對所述第一文本和所述第二文本分別進(jìn)行切詞處理,得到第一文檔集和第二文檔集;特征詞篩選子單元,用于針對所述第一文檔集和第二文檔集分別進(jìn)行特征詞篩選;以及,聚類執(zhí)行子單元,用于根據(jù)篩選出的特征詞,采用主題聚類算法,分別計(jì)算得到所述第一文本的第一主題概率分布和所述第二文本的第二主題概率分布。

優(yōu)選的,所述相似度計(jì)算單元,通過計(jì)算所述第一主題概率分布和所述第二主題概率分布之間的相對熵,得到所述第一主題概率分布中各主題和所述第二主題概率分布中各主題的相似度。

優(yōu)選的,還包括:綜合優(yōu)選單元,用于針對所述主題集合各主題對應(yīng)的服務(wù),根據(jù)各服務(wù)的價格和/或與用戶所在地理位置的距離,選擇出所述服務(wù)推薦列表。

優(yōu)選的,所述第一文本生成單元,從用戶歷史觀看視頻的名稱、描述、標(biāo)簽、彈幕,和/或,評論信息中,提取得到所述第一文本。

優(yōu)選的,所述第二文本生成單元,從各類應(yīng)用程序或門戶網(wǎng)站,獲取用戶所在地理位置相關(guān)的旅游景點(diǎn)信息、餐飲信息、娛樂信息、美容信息、和/或,房產(chǎn)信息,從上述任一項(xiàng)或多項(xiàng)信息中提取得到所述第二文本。

本發(fā)明實(shí)施例中,通過獲得視頻相關(guān)信息和/或服務(wù)消費(fèi)記錄信息對應(yīng)的第一文本,以及與用戶所在地理位置相關(guān)服務(wù)信息對應(yīng)的第二文本,并分別對第一文本第二文本進(jìn)行主題挖掘,然后對二者主題進(jìn)行相似度計(jì)算,選取相似度高的主題進(jìn)行服務(wù)推薦??梢姡景l(fā)明通過融合視頻數(shù)據(jù)和基于位置的服務(wù)信息,實(shí)現(xiàn)多源數(shù)據(jù)的融合,即如何將視頻觀看記錄和基于地理位置的生活服務(wù)相關(guān)聯(lián),從而通過二者的相似度,對用戶的生活類服務(wù)進(jìn)行預(yù)測和發(fā)現(xiàn),從而為用戶提供更精準(zhǔn)的生活類服務(wù)的推送信息。

由于現(xiàn)有用戶觀看視頻十分普遍,通過視頻可以挖掘出用戶感興趣或潛在的生活類服務(wù)相關(guān)信息,通過獲取視頻信息,可以得到豐富的數(shù)據(jù),可以據(jù)此數(shù)據(jù)得到更為準(zhǔn)確的服務(wù)推送預(yù)測。

附圖說明

圖1是本發(fā)明一個實(shí)施例提供的一種服務(wù)推送方法流程圖;

圖2是本發(fā)明一個實(shí)施例提供的一種服務(wù)推送裝置結(jié)構(gòu)示意圖。

具體實(shí)施方式

為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明作進(jìn)一步詳細(xì)的說明。

隨著互聯(lián)網(wǎng)和視頻技術(shù)的發(fā)展,互聯(lián)網(wǎng)用戶已經(jīng)不再滿足于圖片和文字的內(nèi)容,逐漸發(fā)展為視頻門戶化、門戶視頻化,通過挖掘互聯(lián)網(wǎng)用戶的視頻觀看記錄,挖掘用戶的偏好,從而實(shí)現(xiàn)觀看視頻發(fā)現(xiàn)用戶喜好的生活服務(wù),這是互聯(lián)網(wǎng)公司以及用戶的雙向需求。另一方面,一般生活類服務(wù)都是和地理位置相關(guān)的,比如旅游、美食等線上線下O2O服務(wù),因此需要融合視頻數(shù)據(jù)和位置信息實(shí)現(xiàn)多源數(shù)據(jù)的融合,這也是本發(fā)明需要解決的一個技術(shù)問題,即如何將視頻觀看記錄和基于地理位置的生活服務(wù)相關(guān)聯(lián),從而通過二者的相似度,對用戶的生活類服務(wù)進(jìn)行預(yù)測和發(fā)現(xiàn),從而為用戶提供更精準(zhǔn)的生活類服務(wù)的推送信息。

參見圖1,為本發(fā)明實(shí)施例提供的一種服務(wù)推送方法流程圖,該方法包括以下步驟S101-S105。

S101:收集用戶在預(yù)置時間段內(nèi)的視頻相關(guān)信息和/或服務(wù)消費(fèi)記錄信息,從視頻相關(guān)信息和/或服務(wù)消費(fèi)記錄信息中提取得到第一文本。

其中,視頻相關(guān)信息,是用戶觀看的視頻的相關(guān)描述信息,包括但不限于視頻的名稱信息、標(biāo)簽信息、評論信息等。同理,服務(wù)消費(fèi)記錄信息,是用戶在互聯(lián)網(wǎng)進(jìn)行服務(wù)消費(fèi)的記錄信息,所謂服務(wù),是指用戶通過各種生活類APP或?qū)I(yè)電子商務(wù)平臺消費(fèi)的各類娛樂、餐飲、旅游、房產(chǎn)、健身等服務(wù),服務(wù)消費(fèi)記錄信息,描述所消費(fèi)的服務(wù)類型、消費(fèi)額度、消費(fèi)平臺等信息。

例如,從用戶歷史觀看視頻的名稱、描述、標(biāo)簽、彈幕,和/或,評論信息中,提取得到第一文本。其中,預(yù)置時間段是預(yù)先設(shè)定的,例如預(yù)先設(shè)定一年,因此就收集用戶一年內(nèi)的視頻觀看記錄,即可根據(jù)用戶一年內(nèi)的視頻觀看記錄提取出第一文本。

除了從視頻觀看記錄提取第一文本之外,還可以通過用戶一年內(nèi)的服務(wù)消費(fèi)記錄提取第一文本。例如,收集得到用戶一年內(nèi)的娛樂(電影、演唱會等)、餐飲、旅游、房產(chǎn)、健身等各種生活類服務(wù)的消費(fèi)記錄,從而根據(jù)一年內(nèi)的服務(wù)消費(fèi)記錄提取出第一文本。例如,目前用戶使用智能手機(jī)上的各類APP(應(yīng)用程序)或門戶網(wǎng)站,進(jìn)行生活類服務(wù)的消費(fèi)和查看,是非常普遍的。例如,用戶在手機(jī)上下載并安裝某旅行類APP,在出行預(yù)定機(jī)票或酒店時,即可通過該APP進(jìn)行查看和消費(fèi)。對此,本發(fā)明可通過監(jiān)聽并獲取該APP的數(shù)據(jù),從而得到在該APP上的旅行相關(guān)服務(wù)的消費(fèi)記錄,其中,監(jiān)聽并獲取APP數(shù)據(jù)的方式可采用現(xiàn)有方式,例如,通過連接該APP的訪問接口,從而可以獲取到該APP的數(shù)據(jù)。

優(yōu)選的,還可以對視頻信息或服務(wù)消費(fèi)記錄信息進(jìn)行預(yù)處理,從而過濾掉無意義信息。

例如,首先進(jìn)行數(shù)據(jù)預(yù)處理,過濾掉觀看時長小于一定閾值的視頻,具體的,可以根據(jù)用戶觀看視頻的時長和該視頻的總時長的比值,即視頻時長觀看比大于一定閾值時為有效視頻,這樣過濾了用戶只是預(yù)覽了該視頻,但并不是真正喜好的視頻。

再如,通過獲取的購買生活類服務(wù)的點(diǎn)擊日志以及付費(fèi)服務(wù)的文本信息,點(diǎn)擊數(shù)據(jù)根據(jù)用戶在頁面的停留時間,設(shè)定閾值進(jìn)行過濾,目的是為了過濾用戶的誤點(diǎn)擊。

然后,以單個視頻ID或單次點(diǎn)擊購買生活類服務(wù)文本信息做為元素,這樣單個用戶所有元素匯總后的數(shù)據(jù)作為一個集合,即第一文本。

S102:獲取用戶所在地理位置相關(guān)的服務(wù)信息,從服務(wù)信息中提取得到第二文本。

用戶所在地理位置可以通過訪問用戶終端所在位置得到。例如,用戶在使用手機(jī)時,通過詢問用戶是否允許獲知當(dāng)前位置來實(shí)現(xiàn)。

具體的,可以從各類應(yīng)用程序或門戶網(wǎng)站,獲取用戶所在地理位置相關(guān)的旅游景點(diǎn)信息、餐飲信息、娛樂信息、美容信息、和/或,房產(chǎn)信息;然后從上述任一項(xiàng)或多項(xiàng)信息中提取得到第二文本。

例如,獲知用戶所在地理位置是北京王府井,那么,可以通過旅行APP或生活服務(wù)團(tuán)購類APP等平臺,通過訪問這些APP,獲取到有關(guān)北京王府井的旅游、餐飲、娛樂等各方面的生活類服務(wù)信息,然后根據(jù)獲取到的這些生活類服務(wù)信息提取得到第二文本。

S103:基于第一文本和第二文本,分別挖掘出第一文本的第一主題概率分布和第二文本的第二主題概率分布。

此步驟中,通過主題挖掘算法,可以對文本進(jìn)行主題挖掘,得到主題概率分布。具體的,挖掘過程包括:對第一文本和第二文本分別進(jìn)行切詞處理,得到第一文檔集和第二文檔集;針對第一文檔集和第二文檔集分別進(jìn)行特征詞篩選;根據(jù)篩選出的特征詞,采用主題聚類算法,分別計(jì)算得到第一文本的第一主題概率分布和第二文本的第二主題概率分布。

例如,可以采用LDA(Latent Dirichlet Allocation)主題挖掘算法進(jìn)行主題挖掘。LDA構(gòu)建了“文檔->主題->分詞”三層貝葉斯概率模型,對文本進(jìn)行概率聚類,最終可以得到文檔有幾個主題、幾個主題的占比、每個主題下分詞占的比重有多少。LDA是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結(jié)構(gòu)。所謂文檔主題生成模型,就是說,認(rèn)為一篇文章的每個詞都是通過“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語”這樣一個過程得到。文檔到主題服從多項(xiàng)式分布,主題到詞服從多項(xiàng)式分布。LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),可以用來識別大規(guī)模文檔集(document collection)或語料庫(corpus)中潛藏的主題信息。它采用了詞袋(bag of words)的方法,這種方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息。但是詞袋方法沒有考慮詞與詞之間的順序,這簡化了問題的復(fù)雜性,同時也為模型的改進(jìn)提供了契機(jī)。每一篇文檔代表了一些主題所構(gòu)成的一個概率分布,而每一個主題又代表了很多單詞所構(gòu)成的一個概率分布。

S104:計(jì)算第一主題概率分布中各主題和第二主題概率分布中各主題的相似度。

具體的,可以通過計(jì)算第一主題概率分布和第二主題概率分布之間的相對熵,得到第一文本的各主題和第二文本的各主題的相似度。

在概率論或信息論中,相對熵(relative entropy)又稱KL散度(Kullback–Leibler divergence),是描述兩個概率分布差異的一種方法。其物理意義是:在相同事件空間里,概率分布P(x)的事件空間,若用概率分布Q(x)編碼時,平均每個基本事件(符號)編碼長度增加了多少比特。利用相對熵來判定兩個主題相似性的方法是:將相對熵引入到主題概率分布中,認(rèn)為相對熵是一個隨機(jī)變量,用相對熵可以計(jì)算這兩個隨機(jī)變量的概率分布距離,如果兩個主題服從相同參數(shù)的同一概率分布(即它們相似),那么相對熵越小,以達(dá)到主題之間相似性的判定。各主題的之間的相對熵就可以通過各主題的相對熵之和來求得。

S105:選擇相似度高于相似度閾值的主題集合,得到服務(wù)推薦列表。

通過第一文本的主題和第二文本的主題之間相似度的計(jì)算,選取相似度高于預(yù)先設(shè)定的相似度閾值的主題集合,作為后續(xù)服務(wù)推薦的基礎(chǔ)。

優(yōu)選的,還可以綜合價格、距離等其他因素,標(biāo)注出生活服務(wù)類列表。具體的,可以針對主題集合各主題對應(yīng)的服務(wù),根據(jù)各服務(wù)的價格和/或與用戶所在地理位置的距離,選擇出服務(wù)推薦列表,這有利于為用戶提供更為符合實(shí)際需求的服務(wù)推送。

下面以一個具體實(shí)例,對本發(fā)明方案進(jìn)行舉例說明。

假設(shè)用戶在北京中關(guān)村,則通過以下步驟實(shí)現(xiàn)本發(fā)明方案:

第1步:獲取用戶所在地理位置:北京中關(guān)村;

第2步:收集用戶一年來的視頻觀看記錄/生活類服務(wù)購買記錄,比如,用戶觀看了視頻的名稱、描述、標(biāo)簽、彈幕、評論等文本信息,設(shè)為文本A;

第3步:收集地點(diǎn)為北京中關(guān)村的相關(guān)的服務(wù),如旅游景點(diǎn)描述介紹評論文本、名勝古跡描述介紹評論文本、飯店描述介紹評論文本、商店描述介紹評論文本等的文本信息(可以在服務(wù)類APP或搜索引擎上獲取),設(shè)為文本B;

第4步:采用LDA算法分別提取用戶觀看視頻相關(guān)文本A的主題,以及地理相關(guān)服務(wù)文本B的主題。

例如,生成的用戶觀看視頻相關(guān)文本A的各主題及概率分布如下:

辣0.014833574529667149

美女0.009887005649717515

川菜0.009887005649717515

便宜0.009887005649717515

海鮮0.005178907721280603

夫妻0.005178907721280603

例如,生成的地理相關(guān)服務(wù)文本B的各主題及概率分布如下:

干煸土豆0.005178907721280603

傳奇0.005178907721280603

麻辣0.005178907721280603

香鍋0.005178907721280603

實(shí)惠0.009887005649717515

第5步:針對根據(jù)文本A提取到的主題(用戶的偏好主題)和根據(jù)文本B提取到的主題(地理位置的偏好主題),計(jì)算二者的相似度;

第6步:選擇相似度高于相似度閾值的主題集合,再綜合考慮價格、距離等其他因素,得到服務(wù)推薦列表。

本發(fā)明實(shí)施例中,通過獲得視頻相關(guān)信息和/或服務(wù)消費(fèi)記錄信息對應(yīng)的第一文本,以及與用戶所在地理位置相關(guān)服務(wù)信息的第二文本,并分布對第一文本第二文本進(jìn)行主題挖掘,然后對二者主題進(jìn)行相似度計(jì)算,選取相似度高的主題進(jìn)行服務(wù)推薦??梢姡景l(fā)明通過融合視頻數(shù)據(jù)和基于位置的服務(wù)信息,實(shí)現(xiàn)多源數(shù)據(jù)的融合,即如何將視頻觀看記錄和基于地理位置的生活服務(wù)相關(guān)聯(lián),從而通過二者的相似度,對用戶的生活類服務(wù)進(jìn)行預(yù)測和發(fā)現(xiàn),從而為用戶提供更精準(zhǔn)的生活類服務(wù)的推送信息。

需要說明的是,對于方法實(shí)施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明實(shí)施例并不受所描述的動作順序的限制,因?yàn)橐罁?jù)本發(fā)明實(shí)施例,某些步驟可以采用其他順序或者同時進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動作并不一定是本發(fā)明實(shí)施例所必須的。

參照圖2,是本發(fā)明實(shí)施例提供的一種服務(wù)推送裝置結(jié)構(gòu)示意圖。該裝置包括:

第一文本生成單元201,用于收集用戶在預(yù)置時間段內(nèi)的視頻相關(guān)信息和/或服務(wù)消費(fèi)記錄信息,從所述視頻相關(guān)信息和/或服務(wù)消費(fèi)記錄信息中提取得到第一文本;

例如,從用戶歷史觀看視頻的名稱、描述、標(biāo)簽、彈幕,和/或,評論信息中,提取得到第一文本。其中,預(yù)置時間段是預(yù)先設(shè)定的,例如預(yù)先設(shè)定一年,因此就收集用戶一年內(nèi)的視頻觀看記錄,即可根據(jù)用戶一年內(nèi)的視頻觀看記錄提取出第一文本。

除了從視頻觀看記錄提取第一文本之外,還可以通過用戶一年內(nèi)的服務(wù)消費(fèi)記錄提取第一文本。例如,收集得到用戶一年內(nèi)的娛樂(電影、演唱會等)、餐飲、旅游、房產(chǎn)、健身等各種生活類服務(wù)的消費(fèi)記錄,從而根據(jù)一年內(nèi)的服務(wù)消費(fèi)記錄提取出第一文本。例如,目前用戶使用智能手機(jī)上的各類APP(應(yīng)用程序)或門戶網(wǎng)站,進(jìn)行生活類服務(wù)的消費(fèi)和查看,是非常普遍的。例如,用戶在手機(jī)上下載并安裝某旅行類APP,在出行預(yù)定機(jī)票或酒店時,即可通過該APP進(jìn)行查看和消費(fèi)。對此,本發(fā)明可通過監(jiān)聽并獲取該APP的數(shù)據(jù),從而得到在該APP上的旅行相關(guān)服務(wù)的消費(fèi)記錄。

優(yōu)選的,還可以對視頻信息或服務(wù)消費(fèi)記錄信息進(jìn)行預(yù)處理,從而過濾掉無意義信息。

例如,首先進(jìn)行數(shù)據(jù)預(yù)處理,過濾掉觀看時長小于一定閾值的視頻,具體的,可以根據(jù)用戶觀看視頻的時長和該視頻的總時長的比值,即視頻時長觀看比大于一定閾值時為有效視頻,這樣過濾了用戶只是預(yù)覽了該視頻,但并不是真正喜好的視頻。

再如,通過獲取的購買生活類服務(wù)的點(diǎn)擊日志以及付費(fèi)服務(wù)的文本信息,點(diǎn)擊數(shù)據(jù)根據(jù)用戶在頁面的停留時間,設(shè)定閾值進(jìn)行過濾,目的是為了過濾用戶的誤點(diǎn)擊。

然后,以單個視頻ID或單次點(diǎn)擊購買生活類服務(wù)文本信息做為元素,這樣單個用戶所有處理后的數(shù)據(jù)作為一個集合,即第一文本。

第二文本生成單元202,用于獲取用戶所在地理位置相關(guān)的服務(wù)信息,從所述服務(wù)信息中提取得到第二文本;

用戶所在地理位置可以通過訪問用戶終端所在位置得到。例如,用戶在使用手機(jī)時,通過詢問用戶是否允許獲知當(dāng)前位置來實(shí)現(xiàn)。

具體的,可以從各類應(yīng)用程序或門戶網(wǎng)站,獲取用戶所在地理位置相關(guān)的旅游景點(diǎn)信息、餐飲信息、娛樂信息、美容信息、和/或,房產(chǎn)信息;然后從上述任一項(xiàng)或多項(xiàng)信息中提取得到第二文本。

例如,獲知用戶所在地理位置是北京王府井,那么,可以通過旅行APP或生活服務(wù)團(tuán)購類APP等平臺,通過訪問這些APP,獲取到有關(guān)北京王府井的旅游、餐飲、娛樂等各方面的生活類服務(wù)信息,然后根據(jù)獲取到的這些生活類服務(wù)信息提取得到第二文本。

主題挖掘單元203,用于基于所述第一文本和第二文本,分別挖掘出所述第一文本的第一主題概率分布和所述第二文本的第二主題概率分布;

通過主題挖掘算法,可以對文本進(jìn)行主題挖掘,得到主題概率分布。具體的,挖掘過程包括:對第一文本和第二文本分別進(jìn)行切詞處理,得到第一文檔集和第二文檔集;針對第一文檔集和第二文檔集分別進(jìn)行特征詞篩選;根據(jù)篩選出的特征詞,采用主題聚類算法,分別計(jì)算得到第一文本的第一主題概率分布和第二文本的第二主題概率分布。因此,所述主題挖掘單元203包括:切詞子單元2031,用于對所述第一文本和所述第二文本分別進(jìn)行切詞處理,得到第一文檔集和第二文檔集;特征詞篩選子單元2032,用于針對所述第一文檔集和第二文檔集分別進(jìn)行特征詞篩選;以及,聚類執(zhí)行子單元2033,用于根據(jù)篩選出的特征詞,采用主題聚類算法,分別計(jì)算得到所述第一文本的第一主題概率分布和所述第二文本的第二主題概率分布。

例如,可以采用LDA(Latent Dirichlet Allocation)主題挖掘算法進(jìn)行主題挖掘。LDA構(gòu)建了“文檔->主題->分詞”三層貝葉斯概率模型,對文本進(jìn)行概率聚類,最終可以得到文檔有幾個主題、幾個主題的占比、每個主題下分詞的占的比重有多少。LDA是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結(jié)構(gòu)。所謂生成模型,就是說,認(rèn)為一篇文章的每個詞都是通過“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語”這樣一個過程得到。文檔到主題服從多項(xiàng)式分布,主題到詞服從多項(xiàng)式分布。LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),可以用來識別大規(guī)模文檔集(document collection)或語料庫(corpus)中潛藏的主題信息。它采用了詞袋(bag of words)的方法,這種方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息。但是詞袋方法沒有考慮詞與詞之間的順序,這簡化了問題的復(fù)雜性,同時也為模型的改進(jìn)提供了契機(jī)。每一篇文檔代表了一些主題所構(gòu)成的一個概率分布,而每一個主題又代表了很多單詞所構(gòu)成的一個概率分布。

相似度計(jì)算單元204,用于計(jì)算所述第一主題概率分布中各主題和所述第二主題概率分布中各主題的相似度;

具體的,可以通過計(jì)算第一主題概率分布和第二主題概率分布之間的相對熵,得到第一文本的各主題和第二文本的各主題的相似度。

在概率論或信息論中,相對熵(relative entropy)又稱KL散度(Kullback–Leibler divergence),是描述兩個概率分布差異的一種方法。

優(yōu)選的,所述相似度計(jì)算單元204,通過計(jì)算所述第一主題概率分布和所述第二主題概率分布之間的相對熵,得到所述第一主題概率分布中各主題和所述第二主題概率分布中各主題的相似度。

服務(wù)推送單元205,用于選擇相似度高于相似度閾值的主題集合,得到服務(wù)推薦列表。

優(yōu)選的,該裝置還包括:綜合優(yōu)選單元206,用于針對所述主題集合各主題對應(yīng)的服務(wù),根據(jù)各服務(wù)的價格和/或與用戶所在地理位置的距離,選擇出所述服務(wù)推薦列表。

本發(fā)明實(shí)施例中,通過獲得視頻相關(guān)信息和/或服務(wù)消費(fèi)記錄信息對應(yīng)的第一文本,以及與用戶所在地理位置相關(guān)服務(wù)信息的第二文本,并分布對第一文本第二文本進(jìn)行主題挖掘,然后對二者主題進(jìn)行相似度計(jì)算,選取相似度高的主題進(jìn)行服務(wù)推薦??梢?,本發(fā)明通過融合視頻數(shù)據(jù)和基于位置的服務(wù)信息,實(shí)現(xiàn)多源數(shù)據(jù)的融合,即如何將視頻觀看記錄和基于地理位置的生活服務(wù)相關(guān)聯(lián),從而通過二者的相似度,對用戶的生活類服務(wù)進(jìn)行預(yù)測和發(fā)現(xiàn),從而為用戶提供更精準(zhǔn)的生活類服務(wù)的推送信息。

對于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。

本說明書中的各個實(shí)施例均采用遞進(jìn)的方式描述,每個實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個實(shí)施例之間相同相似的部分互相參見即可。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明實(shí)施例的實(shí)施例可提供為方法、裝置、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明實(shí)施例可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明實(shí)施例可采用在一個或多個其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

本發(fā)明實(shí)施例是參照根據(jù)本發(fā)明實(shí)施例的方法、終端設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計(jì)算機(jī)程序指令也可存儲在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲器中,使得存儲在該計(jì)算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備上,使得在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

盡管已描述了本發(fā)明實(shí)施例的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實(shí)施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明實(shí)施例范圍的所有變更和修改。

最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實(shí)體或者操作與另一個實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者終端設(shè)備中還存在另外的相同要素。

以上對本發(fā)明所提供的一種關(guān)系型數(shù)據(jù)庫的調(diào)度方法及系統(tǒng),進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1