亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于高斯估計(jì)的在線餐飲主標(biāo)簽數(shù)據(jù)快速提取方法與流程

文檔序號:12470413閱讀:309來源:國知局

本發(fā)明涉及數(shù)據(jù)挖掘與推薦系統(tǒng)領(lǐng)域,特別是涉及一種基于高斯估計(jì)的在線餐飲主標(biāo)簽數(shù)據(jù)快速提取方法。



背景技術(shù):

數(shù)據(jù)挖掘中采集的數(shù)據(jù)往往會有各種噪聲,例如缺失數(shù)據(jù),或異常數(shù)據(jù),顯然噪聲數(shù)據(jù)能夠影響后續(xù)建模的性能。數(shù)據(jù)去噪是非常重要的預(yù)處理步驟,目的是提取出保留最大信息量的數(shù)據(jù)。在用戶數(shù)據(jù)分析的過程中,有時(shí)候用一個(gè)好的數(shù)據(jù)去噪方法來提高精確度,比復(fù)雜的算法優(yōu)化效果要好得多。

設(shè)計(jì)推薦系統(tǒng)的主要目的是為了預(yù)測用戶的行為偏好,而分析素材往往來源于用戶的歷史行為數(shù)據(jù)。要想發(fā)掘用戶某次購買行為的內(nèi)容,常見的方法是可以通過自然語言分析用戶評論,或者機(jī)器學(xué)習(xí)用戶上傳的圖片來獲知。但這些算法復(fù)雜度較高,顯然不適用于快速性要求較高的數(shù)據(jù)預(yù)處理過程。特別是在分析用戶去餐館吃飯的歷史記錄,各個(gè)餐館都具有不同的標(biāo)簽數(shù)據(jù),如何快速找出該用戶該次用餐主要選擇了哪種標(biāo)簽的菜肴,是本發(fā)明解決問題的主要?jiǎng)訖C(jī)。



技術(shù)實(shí)現(xiàn)要素:

為了克服現(xiàn)有的餐飲數(shù)據(jù)提取方式的無法兼顧內(nèi)容完整性與效用性的不足,本發(fā)明提供一種去噪后的數(shù)據(jù)在內(nèi)容完整性與效用性上具有均衡的表現(xiàn)、效果良好的基于高斯估計(jì)的在線餐飲主標(biāo)簽數(shù)據(jù)快速提取方法。

本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案如下:

一種基于高斯估計(jì)的在線餐飲主標(biāo)簽數(shù)據(jù)快速提取方法,包括以下步驟:

S1:獲取商鋪標(biāo)簽數(shù)據(jù),以及用戶評分與評論數(shù)據(jù),對商鋪標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)處理,刪除共同標(biāo)簽和無效標(biāo)簽;

S2:針對每個(gè)用戶,將其各標(biāo)簽的評分?jǐn)?shù)據(jù)集求得高斯分布的平均值與方差,即該用戶在該標(biāo)簽下的評分高斯分布;

S3:針對每個(gè)用戶,將每次商鋪的各個(gè)標(biāo)簽評分與該標(biāo)簽評分高斯分布作標(biāo)準(zhǔn)化處理,求得最大似然估計(jì)作為該次用戶去該商鋪的目標(biāo)標(biāo)簽;

S4:將上述估計(jì)標(biāo)簽、實(shí)際完整標(biāo)簽分別和評論數(shù)據(jù)作測試,取兩者匹配率的相對偏差作為模型的最終評價(jià)成績。

進(jìn)一步,所述步驟S1中,需要?jiǎng)h除的數(shù)據(jù)是指那些大多數(shù)或所有餐館都具有的口味標(biāo)簽,以及那些無法明確表達(dá)口味信息的標(biāo)簽,例如“餐館”,“食物”等。

再進(jìn)一步,所述步驟S2中,計(jì)算各個(gè)口味的高斯分布模型方法,例如計(jì)算用戶ui的口味高斯分布模型,過程如下:已知該用戶去了某些餐館的歷史記錄{r1,r2,...,rT},其中rk表示該用戶第k次所去的餐館,表示該餐館所附屬的口味標(biāo)簽;假設(shè)該次餐后的用戶評分對其各個(gè)口味均有效,則關(guān)于用戶ui的口味fj歷史記錄均有一組歷史打分列表m≤T,可根據(jù)此列表數(shù)據(jù)求得該用戶的各口味的評分高斯分布平均值μ與方差σ,記該用戶關(guān)于口味fj的高斯分布滿足

所述步驟S3中,估計(jì)用戶每次選擇何種口味標(biāo)簽方法,例如預(yù)測用戶ui第k次去餐館主要吃了哪種口味的菜肴,過程如下:定義第k次口味在標(biāo)準(zhǔn)正態(tài)分布下的絕對標(biāo)準(zhǔn)差該值越小,說明該口味越能反映該用戶對該次用餐行為的客觀評價(jià)。所以選擇最小絕對標(biāo)準(zhǔn)差的口味標(biāo)簽,即最大似然的口味標(biāo)簽作為該用戶在第k次用餐的主要口味標(biāo)簽。

所述步驟S4根據(jù)S3方法提取的用戶歷史口味估計(jì)數(shù)據(jù),與S1準(zhǔn)備的該用戶評論數(shù)據(jù)作匹配度分析。若該用戶的第k次口味標(biāo)簽單詞在其第k次評論文本中出現(xiàn),則記為1,反之為0,可求得本發(fā)明的匹配率;同理,對用戶的原始口味歷史數(shù)據(jù)與評論數(shù)據(jù)分析,求得原始數(shù)據(jù)集的匹配率,通過比較兩者的相對偏差,作為該高斯估計(jì)模型的評價(jià)指標(biāo)。

本發(fā)明的技術(shù)構(gòu)思為:本發(fā)明的適用對象是具有用戶打分?jǐn)?shù)據(jù)的標(biāo)簽,本發(fā)明可以提取用戶對某些標(biāo)簽的偏好程度,進(jìn)而概括出用戶的行為特征和模式,用于后續(xù)分析用戶行為與構(gòu)建推薦模型。本發(fā)明需要的數(shù)據(jù)包括用戶用餐餐館的評論與評分、以及餐館口味標(biāo)簽等原始數(shù)據(jù)集。

本發(fā)明的有益效果為:通過具有用戶評分的口味標(biāo)簽高斯分布函數(shù)提取最大似然口味標(biāo)簽,作為用戶該次就餐行為的口味選擇。最終的估計(jì)結(jié)果接近于全局搜索且計(jì)算復(fù)雜度較低,能有效滿足實(shí)際使用的要求。

附圖說明

圖1為本發(fā)明實(shí)施例的基于高斯估計(jì)的在線餐飲主標(biāo)簽數(shù)據(jù)快速提取方法的流程圖。

具體實(shí)施方式

下面結(jié)合附圖對本發(fā)明做進(jìn)一步說明。

參照圖1,一種基于高斯估計(jì)的在線餐飲主標(biāo)簽數(shù)據(jù)快速提取方法,本發(fā)明使用yelp官方公開的數(shù)據(jù)進(jìn)行用戶就餐行為意義上口味標(biāo)簽提取方案分析,原始數(shù)據(jù)記錄了各個(gè)用戶的歷史行為信息與餐館的詳細(xì)信息,以本專利研究yelp用戶為例,所需的行為數(shù)據(jù)包括用戶的用餐餐館、餐館口味標(biāo)簽以及對餐館的評論文本等信息。關(guān)于用戶對餐館的評論文本數(shù)據(jù),在這里作為驗(yàn)證數(shù)據(jù)集,用于后續(xù)檢驗(yàn)預(yù)測用戶行為模型的可靠性。

本發(fā)明包括以下步驟:

S1:獲取商鋪標(biāo)簽數(shù)據(jù),以及用戶評分與評論數(shù)據(jù),對商鋪標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)處理,刪除共同標(biāo)簽和無效標(biāo)簽;

S2:針對每個(gè)用戶,將其各標(biāo)簽的評分?jǐn)?shù)據(jù)集求得高斯分布的平均值與方差,即該用戶在該標(biāo)簽下的評分高斯分布;

S3:針對每個(gè)用戶,將每次商鋪的各個(gè)標(biāo)簽評分與該標(biāo)簽評分高斯分布作標(biāo)準(zhǔn)化處理,求得最大似然估計(jì)作為該次用戶去該商鋪的目標(biāo)標(biāo)簽;

S4:將上述估計(jì)標(biāo)簽、實(shí)際完整標(biāo)簽分別和評論數(shù)據(jù)作測試,取兩者匹配率的相對偏差作為模型的最終評價(jià)成績。

所述步驟S1中的需要?jiǎng)h除的數(shù)據(jù)主要是指那些大多數(shù)或所有餐館都具有的口味標(biāo)簽,以及那些無法明確表達(dá)口味信息的標(biāo)簽,例如“餐館”,“食物”等。

所述步驟S2中的計(jì)算各個(gè)口味的高斯分布模型方法,例如計(jì)算用戶ui的口味高斯分布模型,過程如下:已知該用戶去了某些餐館的歷史記錄{r1,r2,...,rT},其中rk表示該用戶第k次所去的餐館,表示該餐館所附屬的口味標(biāo)簽。假設(shè)該次餐后的用戶評分對其各個(gè)口味均有效,則關(guān)于用戶ui的口味fj歷史記錄均有一組歷史打分列表m≤T,可根據(jù)此列表數(shù)據(jù)求得該用戶的各口味的評分高斯分布平均值μ與方差σ,記該用戶關(guān)于口味fj的高斯分布滿足

所述步驟S3中的估計(jì)用戶每次選擇何種口味標(biāo)簽方法,例如預(yù)測用戶ui第k次去餐館主要吃了哪種口味的菜肴,具體步驟如下:定義第k次口味在標(biāo)準(zhǔn)正態(tài)分布下的絕對標(biāo)準(zhǔn)差該值越小,說明該口味越能反映該用戶對該次用餐行為的客觀評價(jià)。所以選擇最小絕對標(biāo)準(zhǔn)差的口味標(biāo)簽,即最大似然的口味標(biāo)簽作為該用戶在第k次用餐的主要口味標(biāo)簽。

所述步驟S4根據(jù)S3方法提取的用戶歷史口味估計(jì)數(shù)據(jù),與S1準(zhǔn)備的該用戶評論數(shù)據(jù)作匹配度分析。若該用戶的第k次口味標(biāo)簽單詞在其第k次評論文本中出現(xiàn),則記為1,反之為0,可求得本發(fā)明的匹配率。同理,對用戶的原始口味歷史數(shù)據(jù)與評論數(shù)據(jù)分析,求得原始數(shù)據(jù)集的匹配率。通過比較與后者全局完全搜索的相對偏差,作為該高斯估計(jì)模型的評價(jià)指標(biāo)。

如上所述為本發(fā)明在yelp餐飲平臺通過提取口味標(biāo)簽來預(yù)測用戶行為的實(shí)施例介紹,本發(fā)明根據(jù)高斯分布函數(shù)的思想,將最大似然的口味標(biāo)簽保留下來,具體提取了用戶各次行為下的各個(gè)特征。最終的預(yù)測結(jié)果,如表1所示,

表1

本發(fā)明接近于全局遍歷原始數(shù)據(jù)的結(jié)果,但是在計(jì)算時(shí)間與計(jì)算復(fù)雜度上優(yōu)于后者,達(dá)到了實(shí)際使用的要求。對發(fā)明而言僅僅是說明性的,而非限制性的。本專業(yè)技術(shù)人員理解,在發(fā)明權(quán)利要求所限定的精神和范圍內(nèi)可對其進(jìn)行許多改變,修改,甚至等效,但都將落入本發(fā)明的保護(hù)范圍內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1