本申請涉及計算機技術領域,特別是涉及一種樣本權(quán)重設置方法及裝置,電子設備。
背景技術:
o2o平臺提供的搜索、推薦等服務的準確性直接影響服務給用戶帶來的直觀體驗。無論搜索還是推薦等服務,其技術手段大部分是基于已有用戶行為日志獲取訓練樣本,然后應用一定的算法,訓練排序模型。在基于已有訓練樣本訓練模型的過程中,為了提高訓練得到的模型的準確性,通常需要對樣本進行手動標注、人工或自動篩選,以選取具有一定代表性的樣本?,F(xiàn)有技術中的樣本標注方法主要是將被點擊的興趣點定義為正樣本,未被點擊的興趣點歸為負樣本。但是,對于o2o領域,由于興趣點存在顯著的地理區(qū)域化或時間分布等特點,用戶訪問量高的熱門地區(qū)或熱點時間段的興趣點分布密集,都屬于優(yōu)質(zhì)商戶或產(chǎn)品的樣本,這部分興趣點應該作為正樣本。然而,僅根據(jù)點擊與否等簡單規(guī)則進行樣本標注后,必然出現(xiàn)標注與樣本特征之間的不一致性,即從特征上看明顯應該標為正樣本的興趣點卻被標成負樣本。
可見,現(xiàn)有技術中的樣本標注方法對于特定場景下樣本(如熱門地區(qū)的興趣點、高頻品類的產(chǎn)品的興趣點)存在的樣本標注不準確的問題,將導致訓練的模型準確性降低,呈現(xiàn)給用戶的搜索或推薦結(jié)果不準確。
技術實現(xiàn)要素:
本申請實施例提供一種樣本權(quán)重設置方法,解決現(xiàn)有技術中的特定場景下的樣本標注不準確,從而導致訓練的模型準確性降低,呈現(xiàn)給用戶的搜索或推薦結(jié)果不準確的問題。
為了解決上述問題,第一方面,本申請實施例提供了一種樣本權(quán)重設置方法,包括:
獲取待訓練樣本的預設熱度指標的值;
根據(jù)每個所述預設熱度指標的值確定所述待訓練樣本的單一熱度指標權(quán)重;
根據(jù)所有所述單一熱度指標權(quán)重,確定所述待訓練樣本的樣本權(quán)重。
第二方面,本申請實施例提供了一種樣本權(quán)重設置裝置,包括:
熱度指標獲取模塊,用于獲取待訓練樣本的預設熱度指標的值;
單一熱度指標權(quán)重確定模塊,用于根據(jù)所述熱度指標獲取模塊獲取的每個述預設熱度指標的值確定所述待訓練樣本的單一熱度指標權(quán)重;
樣本權(quán)重確定模塊,用于根據(jù)所有所述單一熱度指標權(quán)重,確定所述待訓練樣本的樣本權(quán)重。
第三方面,本申請實施例提供了一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)本申請實施例公開的所述的樣本權(quán)重設置方法。
第四方面,本申請實施例提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時本申請實施例公開的所述樣本權(quán)重設置方法的步驟。
本申請實施例公開的樣本權(quán)重設置方法,通過獲取待訓練樣本的預設熱度指標的值,然后根據(jù)每個所述預設熱度指標的值確定所述待訓練樣本的單一熱度指標權(quán)重,根據(jù)所有所述單一熱度指標權(quán)重,確定所述待訓練樣本的樣本權(quán)重,解決了現(xiàn)有技術中特定場景下的樣本標注不準確,從而導致訓練的模型準確性降低,呈現(xiàn)給用戶的搜索或推薦結(jié)果不準確的問題。通過結(jié)合熱度指標設置樣本的樣本權(quán)重,使得熱度高的區(qū)域或時間段或品類的樣本的樣本權(quán)重適當降低,即降低存在標注與樣本特征不一致性的樣本的樣本權(quán)重,減少樣本標注不準確導致的訓練的模型準確性降低的問題,從而提升訓練的模型的準確性,并進一步提升呈現(xiàn)給用戶的搜索或推薦結(jié)果的準確率。
附圖說明
為了更清楚地說明本申請實施例的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本申請實施例一的樣本權(quán)重設置方法的流程圖;
圖2是本申請實施例二的樣本權(quán)重設置方法的流程圖;
圖3是本申請實施例三的樣本權(quán)重設置方法的流程圖;
圖4是本申請實施例四的樣本權(quán)重設置裝置結(jié)構(gòu)圖之一;
圖5是本申請實施例四的樣本權(quán)重設置裝置結(jié)構(gòu)圖之二。
具體實施方式
下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本申請一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。
實施例一
本申請公開的一種樣本權(quán)重設置方法,如圖1所示,該方法包括:步驟100至步驟120。
步驟100,獲取待訓練樣本的預設熱度指標的值。
本申請實施例中所采用的樣本為當前系統(tǒng)或平臺內(nèi)的日志數(shù)據(jù),例如o2o平臺上用戶的點擊或購買商品的日志、搜索系統(tǒng)內(nèi)用戶的點擊或瀏覽產(chǎn)品或商家的日志等。具體實施時,將日志數(shù)據(jù)作為樣本數(shù)據(jù)來源。獲取日志數(shù)據(jù)和從日志數(shù)據(jù)中獲取樣本數(shù)據(jù)的具體方法為現(xiàn)有技術,此處不再贅述。
本申請實施例中獲取的樣本數(shù)據(jù)包括:樣本特征和樣本的關聯(lián)信息,樣本特征包括:商戶星級分、評論數(shù)、購買量、點擊反饋,以及用戶偏好等特征;樣本的關聯(lián)信息包括:商家或產(chǎn)品的訪問量、訪問時間信息;商家或產(chǎn)品的地理位置信息;商家或產(chǎn)品的品類信息等。其中,樣本特征構(gòu)成訓練模型時的特征向量,即待訓練樣本;樣本的關聯(lián)信息決定了相應待訓練樣本的熱度指標的取值。獲取樣本特征(即待訓練樣本)的具體方案參見現(xiàn)有技術,此處不再贅述。
具體實施時,熱度指標可以設置為:區(qū)域熱度、時間熱度、品類熱度中的一項或多項。例如,熱度指標可以只包括區(qū)域熱度,也可以既包括區(qū)域熱度又包括品類熱度和時間熱度。通過對待訓練樣本進行分析,可以獲取每個待訓練樣本的區(qū)域熱度、時間熱度和品類熱度的值。
步驟110,根據(jù)每個所述預設熱度指標的值確定所述待訓練樣本的單一熱度指標權(quán)重。
每一種熱度指標都會影響待訓練樣本的權(quán)重,具體實施時,將根據(jù)每一種熱度指標分別計算得到的權(quán)重稱為單一熱度指標權(quán)重。例如:根據(jù)區(qū)域熱度指標的值計算得到樣本的區(qū)域熱度權(quán)重;根據(jù)時間熱度指標的值計算得到樣本的時間熱度權(quán)重;根據(jù)品類熱度指標的值計算得到樣本的品類熱度權(quán)重。具體實施時,通過熱度指標的單調(diào)遞減函數(shù)計算每一種熱度指標對應的待訓練樣本的單一熱度指標權(quán)重。對于不同的熱度指標,單調(diào)遞減函數(shù)中的參數(shù)可能會有不同,參數(shù)的值根據(jù)實驗確定。在訓練模型時,將根據(jù)每一種熱度指標分別計算得到的權(quán)重作為該樣本的樣本權(quán)重的一個因子。
步驟120,根據(jù)所有所述單一熱度指標權(quán)重,確定所述待訓練樣本的樣本權(quán)重。
在根據(jù)每一種熱度指標分別計算得到相應的單一熱度指標權(quán)重之后,將所有單一熱度指標權(quán)重相乘,得到的乘積作為所述待訓練樣本的樣本權(quán)重。即,在訓練模型時,根據(jù)預設的熱度指標的值確定所述待訓練樣本的樣本權(quán)重?;蛘?,根據(jù)單一熱度指標重要程度調(diào)整至少一個所述單一熱度指標權(quán)重,然后計算調(diào)整后的所有所述單一熱度指標權(quán)重的乘積,并將所述乘積作為所述待訓練樣本的樣本權(quán)重。在調(diào)整所述單一熱度指標權(quán)重時,如果,某一單一熱度指標的權(quán)重在得到的樣本權(quán)重中的占比與預先設置的重要程度相適應,則不對該單一熱度指標的權(quán)重進行調(diào)整;如果某一單一熱度指標權(quán)重在得到的樣本權(quán)重中的占比與預先設置的重要程度不相適應,則需要對該單一熱度指標的權(quán)重進行調(diào)整。具體實施時,可以通過將該單一熱度指標權(quán)重放大或縮小一定比例,使得調(diào)整后的該單一熱度指標的權(quán)重占所述待訓練樣本的樣本權(quán)重的比例與所述單一熱度指標重要程度相適應。
本申請實施例公開的樣本權(quán)重設置方法,通過獲取待訓練樣本的預設熱度指標的值,然后根據(jù)每個所述預設熱度指標的值確定所述待訓練樣本的單一熱度指標權(quán)重,根據(jù)所有所述單一熱度指標權(quán)重,確定所述待訓練樣本的樣本權(quán)重,解決了現(xiàn)有技術中特定場景下的樣本標注不準確,從而導致訓練的模型準確性降低,呈現(xiàn)給用戶的搜索或推薦結(jié)果不準確的問題。通過結(jié)合熱度指標設置樣本的樣本權(quán)重,使得熱度高的區(qū)域或時間段或品類的樣本的樣本權(quán)重適當降低,即降低存在標注與樣本特征不一致性的樣本的樣本權(quán)重,減少樣本標注不準確導致的訓練的模型準確性降低的問題,從而提升訓練的模型的準確性,并進一步提升呈現(xiàn)給用戶的搜索或推薦結(jié)果的準確率。
實施例二
本實施例公開的一種樣本權(quán)重設置方法,如圖2所示,該方法包括:步驟200至步驟220。
具體實施時,熱度指標可以設置為:區(qū)域熱度、時間熱度、品類熱度中的一項或多項。本實施例中,以熱度指標為區(qū)域熱度為例,說明熱度指標的值的獲取方法,以及根據(jù)獲取的熱度指標的值確定所述待訓練樣本的單一熱度指標權(quán)重的具體過程。
步驟200,獲取待訓練樣本的區(qū)域熱度值。
獲取待訓練樣本的具體方法參見實施例一,此處不再贅述。本申請實施例中獲取的樣本數(shù)據(jù)包括:樣本特征和樣本的關聯(lián)信息,其中樣本的關聯(lián)信息進一步包括:商家或產(chǎn)品的訪問量、訪問時間信息、訪問行為;商家或產(chǎn)品的地理位置信息;商家或產(chǎn)品的品類信息等。具體實施時,以商家的地理位置信息為經(jīng)緯度坐標為例,說明獲取待訓練樣本的區(qū)域熱度指標的值的具體方案。
具體實施時,獲取待訓練樣本的區(qū)域熱度值包括:將所有待訓練樣本按照地理位置劃分至相應的區(qū)域塊;確定每個所述區(qū)域塊的區(qū)域熱度。
首先,解析所有待訓練樣本的數(shù)據(jù)結(jié)構(gòu),根據(jù)每個待訓練樣本的地理位置信息確定所述待訓練樣本覆蓋的整體區(qū)域;然后,按照預設規(guī)則將所述整體區(qū)域劃分為相應的多個區(qū)域塊;最后,分別確定每個區(qū)域塊的區(qū)域熱度。具體實施時,區(qū)域熱度的值可以通過多種數(shù)據(jù)表征,例如,區(qū)域塊的歷史訪問用戶數(shù)、區(qū)域塊內(nèi)的商戶數(shù),以及地理位置在該區(qū)域塊內(nèi)的歷史訪問請求數(shù)等。
本實施例以區(qū)域塊的劃分規(guī)則為:將整體區(qū)域劃分為500m×500m的相鄰區(qū)域塊為例。假設樣本的地理位置采用經(jīng)緯度表示,為了計算的方便,將樣本的地理位置的經(jīng)緯度值分別乘以200再取整,然后,統(tǒng)計所有樣本的經(jīng)緯度值,根據(jù)經(jīng)緯度值將所有樣本覆蓋的整體區(qū)域劃分為本500m×500m的區(qū)域塊。
然后,根據(jù)每個區(qū)域塊的經(jīng)緯度值范圍,和樣本的地理位置,將樣本和區(qū)域塊進行關聯(lián),進一步確定每個區(qū)域塊關聯(lián)的所有樣本,即地理位置位于該區(qū)域塊內(nèi)的所有樣本。
最后,根據(jù)每個區(qū)域塊關聯(lián)的樣本分別確定每個區(qū)域塊的區(qū)域熱度。以通過月歷史訪問請求數(shù)作為區(qū)域熱度為例,對于每個區(qū)域塊,基于該區(qū)域塊關聯(lián)的所有樣本,統(tǒng)計最近一個月內(nèi)的訪問請求數(shù),將得到的訪問請求數(shù)作為該區(qū)域塊的區(qū)域熱度。具體實施時,還可以將該區(qū)域塊關聯(lián)的所有樣本中發(fā)生點擊和瀏覽行為的樣本的數(shù)量作為該區(qū)域塊的區(qū)域熱度;或者,將該區(qū)域塊關聯(lián)的所有樣本涉及的商家數(shù)量作為該區(qū)域塊的區(qū)域熱度。本申請對確定每個區(qū)域塊的區(qū)域熱度的具體方式不做限定。
若所有訓練樣本分布在m個區(qū)域塊內(nèi),將獲取到m個區(qū)域塊對應的m個區(qū)域熱度值f(lngj,latj),其中,1≤j≤m。
步驟210,根據(jù)區(qū)域熱度值確定所述待訓練樣本的區(qū)域熱度權(quán)重。
具體實施時,根據(jù)每個所述預設熱度指標的值確定所述待訓練樣本的單一熱度指標權(quán)重包括:根據(jù)區(qū)域熱度的單調(diào)遞減函數(shù)確定待訓練樣本的區(qū)域熱度權(quán)重。具體實施時,樣本區(qū)域熱度權(quán)重的計算公式可以表示為:
其中,favg為所有區(qū)域塊的區(qū)域熱度平均值,可以根據(jù)公式
具體實施時,單調(diào)遞減函數(shù)可以表示為:
由樣本區(qū)域熱度權(quán)重的計算公式可以得出,對于區(qū)域熱度值較低的區(qū)域塊,其關聯(lián)的樣本的權(quán)重得到了提升;而對于區(qū)域熱度值較高的區(qū)域塊,其關聯(lián)的樣本的權(quán)重得到了降低。
步驟220,確定所述區(qū)域熱度權(quán)重,作為所述待訓練樣本的樣本權(quán)重。
當熱度指標只有區(qū)域熱度時,將待訓練樣本的區(qū)域熱度權(quán)重作為所述待訓練樣本的樣本權(quán)重。
本申請實施例公開的樣本權(quán)重設置方法,通過獲取待訓練樣本的區(qū)域熱度的值,然后根據(jù)每個所述區(qū)域熱度的值確定所述待訓練樣本的區(qū)域熱度權(quán)重,確定所述區(qū)域熱度權(quán)重作為所述待訓練樣本的樣本權(quán)重,解決了現(xiàn)有技術中特定場景下的樣本標注不準確,從而導致訓練的模型準確性降低,呈現(xiàn)給用戶的搜索或推薦結(jié)果不準確的問題。通過結(jié)合熱度指標設置樣本的樣本權(quán)重,使得熱度高的區(qū)域的樣本的樣本權(quán)重適當降低,即降低存在標注與樣本特征不一致性的樣本的樣本權(quán)重,減少樣本標注不準確導致的訓練的模型準確性降低的問題,從而提升訓練的模型的準確性,并進一步提升呈現(xiàn)給用戶的搜索或推薦結(jié)果的準確率。
實施例三
本實施例公開的一種樣本權(quán)重設置方法,如圖3所示,該方法包括:步驟300至步驟320。
本實施例中,以熱度指標包括區(qū)域熱度、品類熱度和時間熱度為例,說明在訓練模型時,熱度指標的值的獲取方法,以及根據(jù)獲取的熱度指標的值確定所述待訓練樣本的單一熱度指標權(quán)重,并根據(jù)單一熱度指標權(quán)重確定樣本的權(quán)重的具體過程。
步驟300,獲取待訓練樣本的區(qū)域熱度值、品類熱度值和時間熱度值。
獲取待訓練樣本的具體方法參見實施例一,此處不再贅述。本申請實施例中獲取的樣本數(shù)據(jù)的樣本關聯(lián)信息包括:商家或產(chǎn)品的訪問量、訪問時間信息、訪問行為;商家或產(chǎn)品的地理位置信息;商家或產(chǎn)品的品類信息等。具體實施時,以商家的地理位置信息為經(jīng)緯度坐標為例,說明獲取待訓練樣本的區(qū)域熱度指標的值的具體方案。
具體實施時,獲取待訓練樣本的區(qū)域熱度值包括:將所有待訓練樣本按照地理位置劃分至相應的區(qū)域塊;確定每個所述區(qū)域塊的區(qū)域熱度。獲取待訓練樣本的區(qū)域熱度值的具體實施方式參見實施例二,此處不再贅述。若所有訓練樣本分布在m1個區(qū)域塊內(nèi),將獲取到m1個區(qū)域塊對應的m1個區(qū)域熱度值f1(lngj,latj),其中,1≤j≤m1。
獲取待訓練樣本的時間熱度值包括:將所有待訓練樣本按照時間劃分至相應的時間段;確定每個所述時間段的時間熱度。首先,解析所有待訓練樣本的數(shù)據(jù)結(jié)構(gòu),根據(jù)每個待訓練樣本的訪問時間信息確定所述待訓練樣本覆蓋的整體時間段;然后,按照預設規(guī)則(如每7天為一個時間段)將所述整體時間段劃分為多個時間段;最后,分別確定每個時間段的時間熱度。具體實施時,時間熱度的值可以通過多種數(shù)據(jù)表征,例如,時間段內(nèi)的訪問用戶數(shù)、該時間段內(nèi)的歷史訪問請求數(shù)等。本申請對確定每個時間段的時間熱度的具體方式不做限定。若所有訓練樣本分布在m2個時間段內(nèi),將獲取到m2個時間段對應的m2個時間熱度值f2(timej),其中,1≤j≤m2。
獲取待訓練樣本的品類熱度值包括:根據(jù)所有待訓練樣本確定每個品類的品類熱度,其中,每個品類的品類熱度為該品類的商戶總數(shù)量或該品類的歷史訪問數(shù)量。具體實施時,首先,解析所有待訓練樣本的數(shù)據(jù)結(jié)構(gòu),根據(jù)每個待訓練樣本的產(chǎn)品品類信息確定所述待訓練樣本覆蓋的所有產(chǎn)品品類;然后,分別確定每個品類的商戶總數(shù)量或該品類的歷史訪問數(shù)量作為該品類的品類熱度值。本申請對確定品類熱度值的具體方式不做限定。若所有訓練樣本分布在m3個品類內(nèi),將獲取到m3個品類對應的m3個品類熱度值f3(proj),其中,1≤j≤m3。
步驟310,根據(jù)區(qū)域熱度值、時間熱度值和品類熱度值分別確定所述待訓練樣本的區(qū)域熱度權(quán)重、時間熱度權(quán)重和品類熱度權(quán)重。
具體實施時,在訓練模型時,根據(jù)每個所述預設熱度指標的值確定所述待訓練樣本的單一熱度指標權(quán)重包括:根據(jù)區(qū)域熱度的單調(diào)遞減函數(shù)確定待訓練樣本的區(qū)域熱度權(quán)重;根據(jù)時間熱度的單調(diào)遞減函數(shù)確定待訓練樣本的時間熱度權(quán)重;根據(jù)品類熱度的單調(diào)遞減函數(shù)確定待訓練樣本的品類熱度權(quán)重。
根據(jù)區(qū)域熱度的單調(diào)遞減函數(shù)確定待訓練樣本的區(qū)域熱度權(quán)重的具體實施方式參見實施例二,此處不再贅述。
根據(jù)時間熱度的單調(diào)遞減函數(shù)確定待訓練樣本的時間熱度權(quán)重時,樣本時間熱度權(quán)重的計算公式可以表示為:
其中,f2avg為所有時間段的時間熱度平均值,可以根據(jù)公式
具體實施時,單調(diào)遞減函數(shù)參見計算區(qū)域熱度的單調(diào)遞減函數(shù),例如可以表示為:
根據(jù)品類熱度的單調(diào)遞減函數(shù)確定待訓練樣本的品類熱度權(quán)重時,樣本品類熱度權(quán)重的計算公式可以表示為:
其中,f3avg為所有時間段的時間熱度平均值,可以根據(jù)公式
由單一熱度指標權(quán)重的計算公式可以得出,對于熱度指標的值較低的區(qū)域塊或時間段或品類,其關聯(lián)的樣本的權(quán)重得到了提升;而對于單一熱度指標的值較高的區(qū)域塊或時間段或品類,其關聯(lián)的樣本的權(quán)重得到了降低。
以美食搜索為例,當熱門地域的優(yōu)質(zhì)商家較多時,用戶選擇對展現(xiàn)的商家的點擊行為帶有一定的隨機性,因此,采集到的訓練樣本會出現(xiàn)很多優(yōu)質(zhì)商家沒有被點擊的情況。當描述商家的特征維度較少時,可能會出現(xiàn)被點擊的樣本的特征和未被點擊的樣本的特征相同的情況,在模型訓練時,大量的特征向量既屬于正樣本又屬于負樣本,會導致模型訓練不準確。適當降低該熱度較高的區(qū)域、時間段或品類的正、負樣本的權(quán)重,以減少訓練模型時大量相同特征向量被標注為不同標簽造成的影響,強化特征在模型訓練中所起的作用,以提高模型訓練的準確性。
步驟320,根據(jù)所述區(qū)域熱度權(quán)重、時間熱度權(quán)重和品類熱度權(quán)重,確定所述待訓練樣本的樣本權(quán)重。
具體實施時,根據(jù)所有所述單一熱度指標權(quán)重,確定所述待訓練樣本的樣本權(quán)重的步驟,包括:確定所有所述單一熱度指標權(quán)重的乘積,作為所述待訓練樣本的樣本權(quán)重;或,根據(jù)單一熱度指標重要程度調(diào)整至少一個所述單一熱度指標權(quán)重,并將調(diào)整后的所有所述單一熱度指標權(quán)重的乘積,作為所述待訓練樣本的樣本權(quán)重;其中,所述調(diào)整至少一個所述單一熱度指標權(quán)重包括:調(diào)整至少一個熱度指標的權(quán)重,使得調(diào)整后的單一熱度指標的權(quán)重占所述待訓練樣本的樣本權(quán)重的比例與所述單一熱度指標重要程度相適應。
當熱度指標包括區(qū)域熱度、時間熱度和品類熱度時,具體實施時,可以將待訓練樣本的所述區(qū)域熱度權(quán)重、時間熱度權(quán)重和品類熱度權(quán)重的乘積,作為所述待訓練樣本的樣本權(quán)重。以待訓練樣本xi為例,其訓練模型時的樣本權(quán)重為w1(xi)×w2(xi)×w3(xi),其中,w1(xi)等于待訓練樣本xi所處區(qū)域塊中的待訓練樣本的樣本區(qū)域熱度權(quán)重;w2(xi)等于待訓練樣本xi所處時間段中的待訓練樣本的樣本時間熱度權(quán)重;w3(xi)等于待訓練樣本xi所處品類中的待訓練樣本的樣本品類熱度權(quán)重。
當預先根據(jù)業(yè)務需求設置了單一熱度指標重要程度時,首先根據(jù)單一熱度指標重要程度相應調(diào)整所述單一熱度指標權(quán)重,然后將調(diào)整后的所有所述單一熱度指標權(quán)重的乘積,作為所述待訓練樣本的樣本權(quán)重。例如,單一熱度指標重要程度設置為:區(qū)域熱度指標權(quán)重占比大于80%、時間熱度指標權(quán)重占比小于5%。則具體實施時,首先,計算區(qū)域熱度權(quán)重、時間熱度權(quán)重和品類熱度權(quán)重的乘積,然后分別確定區(qū)域熱度權(quán)重和時間熱度權(quán)重的占比。如果區(qū)域熱度權(quán)重的占比大于80%,并且時間熱度權(quán)重的占比小于5%,則不對權(quán)重做任何調(diào)整。如果區(qū)域熱度權(quán)重的占比小于或等于80%,并且時間熱度權(quán)重的占比小于5%,則將區(qū)域熱度權(quán)重放大一定比例,如1.5倍,然后重新計算區(qū)域熱度權(quán)重的占比,直到區(qū)域熱度權(quán)重的占比超過80%。最后,通過調(diào)整后的區(qū)域熱度權(quán)重、時間熱度權(quán)重和品類熱度權(quán)重的乘積,作為所述待訓練樣本的樣本權(quán)重。如果區(qū)域熱度權(quán)重的占比小于或等于80%,并且時間熱度權(quán)重的占比大于5%,則將區(qū)域熱度權(quán)重放大一定比例的同時,將時間熱度權(quán)重縮小一定比例,如縮小至90%,然后重新計算區(qū)域熱度權(quán)重和時間熱度權(quán)重的占比,直到區(qū)域熱度權(quán)重和時間熱度權(quán)重的占比與預設重要程度相適應。最后,通過調(diào)整后的區(qū)域熱度權(quán)重、時間熱度權(quán)重和品類熱度權(quán)重的乘積,作為所述待訓練樣本的樣本權(quán)重。
下面以訓練的模型為線性模型為例,根據(jù)線性模型的邏輯回歸,說明本申請的樣本權(quán)重設置方法的效果。
邏輯回歸的基本關系如下:
線性邊界:
預測函數(shù):
損失函數(shù):
其中,線性邊界公式中,θ為樣本特征權(quán)重,x為特征值,n即樣本特征維數(shù),
本申請實施例公開的樣本權(quán)重設置方法,通過獲取待訓練樣本的預設熱度指標的值,然后根據(jù)每個所述預設熱度指標的值確定所述待訓練樣本的單一熱度指標權(quán)重,根據(jù)所有所述單一熱度指標權(quán)重,確定所述待訓練樣本的樣本權(quán)重,解決了現(xiàn)有技術中特定場景下的樣本標注不準確,從而導致訓練的模型準確性降低,呈現(xiàn)給用戶的搜索或推薦結(jié)果不準確的問題。通過結(jié)合熱度指標設置樣本的樣本權(quán)重,使得熱度高的區(qū)域或時間段或品類的樣本的樣本權(quán)重適當降低,即降低存在標注與樣本特征不一致性的樣本的樣本權(quán)重,減少樣本標注不準確導致的訓練的模型準確性降低的問題,從而提升訓練的模型的準確性,并進一步提升呈現(xiàn)給用戶的搜索或推薦結(jié)果的準確率。
實施例四
本實施例公開的一種樣本權(quán)重設置裝置,如圖4所示,該裝置包括:
熱度指標獲取模塊400,用于獲取待訓練樣本的預設熱度指標的值;
單一熱度指標權(quán)重確定模塊410,用于根據(jù)所述熱度指標獲取模塊400獲取的每個述預設熱度指標的值確定所述待訓練樣本的單一熱度指標權(quán)重;
樣本權(quán)重確定模塊420,用于根據(jù)所有所述單一熱度指標權(quán)重,確定所述待訓練樣本的樣本權(quán)重。
可選的,所述預設熱度指標包括:區(qū)域熱度、時間熱度、品類熱度中的至少一項。
可選的,如圖5所示,所述樣本權(quán)重確定模塊420包括:
第一樣本權(quán)重確定單元4201,用于確定所有所述單一熱度指標權(quán)重的乘積,作為所述待訓練樣本的樣本權(quán)重;或,
第二樣本權(quán)重確定單元4202,用于根據(jù)單一熱度指標重要程度調(diào)整至少一個所述單一熱度指標權(quán)重,并將調(diào)整后的所有所述單一熱度指標權(quán)重的乘積,作為所述待訓練樣本的樣本權(quán)重;
其中,所述調(diào)整至少一個所述單一熱度指標權(quán)重包括:
調(diào)整至少一個熱度指標的權(quán)重,使得調(diào)整后的單一熱度指標的權(quán)重占所述待訓練樣本的樣本權(quán)重的比例與所述單一熱度指標重要程度相適應。
當所述預設熱度指標包括區(qū)域熱度時,可選的,如圖5所示,所述單一熱度指標權(quán)重確定模塊410包括第一單一熱度指標權(quán)重確定單元4101,所述第一單一熱度指標權(quán)重確定單元4101用于:
根據(jù)區(qū)域熱度的單調(diào)遞減函數(shù)確定待訓練樣本的區(qū)域熱度權(quán)重。
當所述預設熱度指標包括時間熱度時,可選的,如圖5所示,所述單一熱度指標權(quán)重確定模塊410包括第二單一熱度指標權(quán)重確定單元4102,所述第二單一熱度指標權(quán)重確定單元4102用于:
根據(jù)時間熱度的單調(diào)遞減函數(shù)確定待訓練樣本的時間熱度權(quán)重。
當所述預設熱度指標包括品類熱度時,可選的,如圖5所示,所述單一熱度指標權(quán)重確定模塊410包括第三單一熱度指標權(quán)重確定單元4103,所述第三單一熱度指標權(quán)重確定單元4103用于:
根據(jù)品類熱度的單調(diào)遞減函數(shù)確定待訓練樣本的品類熱度權(quán)重。
本申請實施例公開的樣本權(quán)重設置裝置,通過獲取待訓練樣本的預設熱度指標的值,然后根據(jù)每個所述預設熱度指標的值確定所述待訓練樣本的單一熱度指標權(quán)重,根據(jù)所有所述單一熱度指標權(quán)重,確定所述待訓練樣本的樣本權(quán)重,解決了現(xiàn)有技術中特定場景下的樣本標注不準確,從而導致訓練的模型準確性降低,呈現(xiàn)給用戶的搜索或推薦結(jié)果不準確的問題。通過結(jié)合熱度指標設置樣本的樣本權(quán)重,使得熱度高的區(qū)域或時間段或品類的樣本的樣本權(quán)重適當降低,即降低存在標注與樣本特征不一致性的樣本的樣本權(quán)重,減少樣本標注不準確導致的訓練的模型準確性降低的問題,從而提升訓練的模型的準確性,并進一步提升呈現(xiàn)給用戶的搜索或推薦結(jié)果的準確率。
相應的,本申請還公開了一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如本申請實施例一至實施例三所述的樣本權(quán)重設置方法。所述電子設備可以為pc機、移動終端、個人數(shù)字助理、平板電腦等。
本申請還公開了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如本申請實施例一至實施例三所述的樣本權(quán)重設置方法的步驟。
本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于裝置實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
以上對本申請?zhí)峁┑囊环N樣本權(quán)重設置方法、裝置進行了詳細介紹,本文中應用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本申請的方法及其核心思想;同時,對于本領域的一般技術人員,依據(jù)本申請的思想,在具體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應理解為對本申請的限制。
通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到各實施方式可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當然也可以通過硬件實現(xiàn)?;谶@樣的理解,上述技術方案本質(zhì)上或者說對現(xiàn)有技術做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在計算機可讀存儲介質(zhì)中,如rom/ram、磁碟、光盤等,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網(wǎng)絡設備等)執(zhí)行各個實施例或者實施例的某些部分所述的方法。