本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種基于社交媒體數(shù)據(jù)的目標特征提取方法、裝置及電子設備。
背景技術:
1、多平臺社交媒體數(shù)據(jù)是指從多個不同的社交媒體平臺上收集的數(shù)據(jù)。這些數(shù)據(jù)可以包括用戶生成的內(nèi)容、用戶行為數(shù)據(jù)、互動數(shù)據(jù)等,通常用于分析用戶行為、市場趨勢、品牌聲譽、內(nèi)容傳播效果等方面。多平臺社交媒體數(shù)據(jù)的收集和分析對于企業(yè)和研究人員來說是非常有價值的,因為它提供了更全面的視角來理解目標受眾和數(shù)據(jù)變化動態(tài)。
2、現(xiàn)有技術在社交媒體數(shù)據(jù)特征提取的實現(xiàn)過程中,存在如下問題:
3、1.數(shù)據(jù)來源單一:傳統(tǒng)的目標特征影響力評估主要依賴市場調(diào)研和消費者調(diào)查,缺乏對社交媒體數(shù)據(jù)的綜合分析,無法反映目標特征在社交媒體上的真實表現(xiàn)。
4、2.分析維度有限:現(xiàn)有方法通常只關注特定的指標(如目標特征提及量或正面評價),忽視了用戶互動、情感傾向和社交網(wǎng)絡傳播等多維度因素。
5、3.實時性差:大多數(shù)目標特征影響力評估方法周期較長,難以實時反映目標特征影響力的動態(tài)變化,無法為目標特征管理提供及時有效的決策支持。
6、4.缺乏自動化處理:現(xiàn)有的評估方法多依賴人工處理,缺乏自動化的數(shù)據(jù)采集、分析和報告生成機制,效率較低且易受主觀因素影響。
7、上述問題成為需要解決的技術問題。
技術實現(xiàn)思路
1、有鑒于此,本發(fā)明實施例提供了一種基于社交媒體數(shù)據(jù)的目標特征提取方法、裝置及電子設備,至少部分解決現(xiàn)有技術中存在的問題。
2、第一方面,本發(fā)明實施例提供了一種基于社交媒體數(shù)據(jù)的目標特征提取方法,包括:
3、從n個社交媒體平臺m={m1,m2,…mn}上實時采集用戶生成的社交媒體數(shù)據(jù),對采集到的社交媒體數(shù)據(jù)進行清洗、格式化和情感分析,得到預處理數(shù)據(jù)d={d1,d2,…dn};
4、通過特征計算函數(shù)gf對所述預處理數(shù)據(jù)d中的特征進行計算,得到特征數(shù)據(jù)集合kt={tn,eq,ud,tf},tn表示目標特征的出現(xiàn)次數(shù),eq表示情感傾向,ud表示用戶互動量,tf表示傳播范圍;
5、通過權(quán)重計算函數(shù)gs對n個社交媒體平臺m={m1,m2,…mn}上的歷史數(shù)據(jù)進行計算,得到平臺權(quán)重向量km=[km1,km2,…kmn];
6、通過漂移計算函數(shù)gp對目標特征在n個社交媒體平臺的歷史數(shù)據(jù)進行漂移特征計算,得到漂移權(quán)重向量kp=[kp1,kp2,…kpn];
7、基于所述特征數(shù)據(jù)集合kt、平臺權(quán)重向量km以及漂移權(quán)重向量kp,計算所述目標特征的評估值。
8、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述從n個社交媒體平臺m={m1,m2,…mn}上實時采集用戶生成的社交媒體數(shù)據(jù),對采集到的社交媒體數(shù)據(jù)進行清洗、格式化和情感分析,得到預處理數(shù)據(jù)d,包括:
9、獲取需要進行數(shù)據(jù)采集社交媒體平臺的api訪問權(quán)限;
10、定義數(shù)據(jù)采集所對應的關鍵詞、話題標簽以及賬戶名稱,以便從選定的社交媒體平臺上獲取社交媒體數(shù)據(jù)。
11、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述從n個社交媒體平臺m={m1,m2,…mn}上實時采集用戶生成的社交媒體數(shù)據(jù),對采集到的社交媒體數(shù)據(jù)進行清洗、格式化和情感分析,得到預處理數(shù)據(jù)d,還包括:
12、將社交媒體數(shù)據(jù)中不同來源的數(shù)據(jù)調(diào)整為一致的格式,對于存在缺失值的字段進行默認值填充;
13、對社交媒體中的數(shù)據(jù)屬性進行歸一化處理,使得數(shù)值范圍保持一致;
14、設置情感分析算法,對社交媒體數(shù)據(jù)中的每條文本內(nèi)容進行情感分析,得到正面、負面或中立的情感評分,形成最終的預處理數(shù)據(jù)d。
15、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述通過特征計算函數(shù)gf對所述預處理數(shù)據(jù)d中的特征進行計算,得到特征數(shù)據(jù)集合kt={tn,eq,ud,tf},包括:
16、計算目標特征在預處理數(shù)據(jù)d中出現(xiàn)的總次數(shù)tn:
17、
18、n是數(shù)據(jù)集中樣本的總數(shù),di是第i個樣本,是指示函數(shù),如果di個樣本中包含目標特征,則值為1,否則為0;
19、設置情感得分函數(shù),它返回計算數(shù)值表示單個樣本di的情感得分eq:
20、
21、計算用戶互動量ud:
22、
23、表示第i個樣本的互動數(shù)量;
24、計算傳播范圍tf:
25、
26、表示第i個樣本覆蓋的用戶數(shù)量。
27、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述通過權(quán)重計算函數(shù)gs對n個社交媒體平臺m={m1,m2,…mn}上的歷史數(shù)據(jù)進行計算,得到平臺權(quán)重向量km=[km1,km2,…kmn],包括:
28、對歷史數(shù)據(jù)設置多個評價指標x,評價指標x對應評價值,i表示第i個平臺,j表示評價指標x的第j個指標;
29、計算評價值對應的轉(zhuǎn)化值:
30、
31、和分別是所有平臺在第j個指標上的最小值和最大值;
32、為每個指標分配一個權(quán)重系數(shù),對于每個平臺mi,計算其綜合得分si:
33、
34、將每個平臺的綜合得分si歸一化,得到平臺權(quán)重kmi:
35、。
36、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述通過漂移計算函數(shù)gp對目標特征在n個社交媒體平臺的歷史數(shù)據(jù)進行漂移特征計算,得到漂移權(quán)重向量kp=[kp1,kp2,…kpn],包括:
37、獲取兩個時間點t1和t2上的數(shù)據(jù),對于每個特征f和每個平臺mi,定義漂移值為:
38、
39、表示在時間t平臺上特征f的值;
40、對于每個平臺mi,計算其綜合漂移得分pi:
41、
42、wf為權(quán)重系數(shù);
43、將每個平臺的綜合漂移得分pi進行量化,得到漂移權(quán)重kpi:
44、。
45、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述基于所述特征數(shù)據(jù)集合kt、平臺權(quán)重向量km以及漂移權(quán)重向量kp,計算所述目標特征的評估值,包括:
46、對于每個平臺mi,定義加權(quán)特征數(shù)據(jù):
47、
48、其中是特征數(shù)據(jù)集合kt中的第j個特征在平臺mi上的值,是該特征數(shù)據(jù)的時間距離當前時間的天數(shù),α是時間衰減因子,0<α<1;
49、設定特征交互系數(shù)矩陣i,特征交互系數(shù)矩陣i為4×4矩陣,表示特征p和特征q之間的交互系數(shù),加權(quán)后的特征數(shù)據(jù)為:
50、。
51、根據(jù)本發(fā)明實施例的一種具體實現(xiàn)方式,所述基于所述特征數(shù)據(jù)集合kt、平臺權(quán)重向量km以及漂移權(quán)重向量kp,計算所述目標特征的評估值,還包括:
52、對于每個平臺mi,計算其綜合特征得分si:
53、
54、將所有平臺的綜合特征得分相加,得到目標特征的評估值e:
55、。
56、第二方面,本發(fā)明實施例提供了一種基于社交媒體數(shù)據(jù)的目標特征提取裝置,包括:
57、采集模塊,從n個社交媒體平臺m={m1,m2,…mn}上實時采集用戶生成的社交媒體數(shù)據(jù),對采集到的社交媒體數(shù)據(jù)進行清洗、格式化和情感分析,得到預處理數(shù)據(jù)d={d1,d2,…dn};
58、特征模塊,通過特征計算函數(shù)gf對所述預處理數(shù)據(jù)d中的特征進行計算,得到特征數(shù)據(jù)集合kt={tn,eq,ud,tf},tn表示目標特征的出現(xiàn)次數(shù),eq表示情感傾向,ud表示用戶互動量,tf表示傳播范圍;
59、權(quán)重模塊,通過權(quán)重計算函數(shù)gs對n個社交媒體平臺m={m1,m2,…mn}上的歷史數(shù)據(jù)進行計算,得到平臺權(quán)重向量km=[km1,km2,…kmn];
60、漂移模塊,通過漂移計算函數(shù)gp對目標特征在n個社交媒體平臺的歷史數(shù)據(jù)進行漂移特征計算,得到漂移權(quán)重向量kp=[kp1,kp2,…kpn];
61、計算模塊,基于所述特征數(shù)據(jù)集合kt、平臺權(quán)重向量km以及漂移權(quán)重向量kp,計算所述目標特征的評估值。
62、第三方面,本發(fā)明實施例還提供了一種電子設備,該電子設備包括:
63、至少一個處理器;以及,
64、與該至少一個處理器通信連接的存儲器;其中,
65、該存儲器存儲有可被該至少一個處理器執(zhí)行的指令,該指令被該至少一個處理器執(zhí)行,以使該至少一個處理器能夠執(zhí)行前述任第一方面或第一方面的任一實現(xiàn)方式中的基于社交媒體數(shù)據(jù)的目標特征提取方法。
66、第四方面,本發(fā)明實施例還提供了一種非暫態(tài)計算機可讀存儲介質(zhì),該非暫態(tài)計算機可讀存儲介質(zhì)存儲計算機指令,該計算機指令用于使該計算機執(zhí)行前述第一方面或第一方面的任一實現(xiàn)方式中的基于社交媒體數(shù)據(jù)的目標特征提取方法。
67、第五方面,本發(fā)明實施例還提供了一種計算機程序產(chǎn)品,該計算機程序產(chǎn)品包括存儲在非暫態(tài)計算機可讀存儲介質(zhì)上的計算程序,該計算機程序包括程序指令,當該程序指令被計算機執(zhí)行時,使該計算機執(zhí)行前述第一方面或第一方面的任一實現(xiàn)方式中的基于社交媒體數(shù)據(jù)的目標特征提取方法。
68、本發(fā)明實施例中的基于社交媒體數(shù)據(jù)的目標特征提取方案,包括:從n個社交媒體平臺m={m1,m2,…mn}上實時采集用戶生成的社交媒體數(shù)據(jù),對采集到的社交媒體數(shù)據(jù)進行清洗、格式化和情感分析,得到預處理數(shù)據(jù)d={d1,d2,…dn};通過特征計算函數(shù)gf對所述預處理數(shù)據(jù)d中的特征進行計算,得到特征數(shù)據(jù)集合kt={tn,eq,ud,tf},tn表示目標特征的出現(xiàn)次數(shù),eq表示情感傾向,ud表示用戶互動量,tf表示傳播范圍;通過權(quán)重計算函數(shù)gs對n個社交媒體平臺m={m1,m2,…mn}上的歷史數(shù)據(jù)進行計算,得到平臺權(quán)重向量km=[km1,km2,…kmn];通過漂移計算函數(shù)gp對目標特征在n個社交媒體平臺的歷史數(shù)據(jù)進行漂移特征計算,得到漂移權(quán)重向量kp=[kp1,kp2,…kpn];基于所述特征數(shù)據(jù)集合kt、平臺權(quán)重向量km以及漂移權(quán)重向量kp,計算所述目標特征的評估值。本發(fā)明具有如下有益效果:
69、a多維度分析:本算法綜合了目標特征(例如,品牌特征)提及量、情感傾向、用戶互動量和傳播范圍等多維度指標,提供了全面的目標特征影響力評估,能夠更精準地反映目標特征在社交媒體上的實際表現(xiàn)。
70、b實時性強:通過實時數(shù)據(jù)采集和處理,算法能夠動態(tài)反映目標特征影響力的變化,為用戶提供及時的決策支持,幫助目標特征在競爭中保持敏捷性。
71、c高準確性:通過優(yōu)化的權(quán)重分配和機器學習算法,算法能夠根據(jù)目標特征的行業(yè)特點和市場表現(xiàn)進行精細化調(diào)整,確保目標特征影響力預估的準確性和可靠性。
72、d自動化處理:本算法實現(xiàn)了從數(shù)據(jù)采集、處理、分析到報告生成的全流程自動化,極大提高了工作效率,減少了人工干預的誤差,適應大規(guī)模數(shù)據(jù)的處理需求。
73、e可視化展示:通過直觀的可視化工具,幫助用戶快速理解分析結(jié)果,提升目標特征管理的科學性和精細度,同時支持定制化報告輸出,滿足不同層級用戶的需求。