一種基于長短信息分治策略的互聯(lián)網(wǎng)信息采集融合方法
【專利摘要】本發(fā)明是一種基于長短信息分治策略的互聯(lián)網(wǎng)信息采集融合方法,該方法包括:獲取用戶的一條采集規(guī)則r;使用采集規(guī)則r在不同媒體提供的搜索接口進(jìn)行搜索,獲取的總的信息集合記為S;將集合S中的信息區(qū)分長信息和短信息,分別融合計算;將集合LS、SS中信息再一次融合,得到u個類別。本發(fā)明將互聯(lián)網(wǎng)采集到的信息,區(qū)分為長信息和短信息兩種類型,采用分而治之的策略表示信息以及進(jìn)行信息的融合計算,最后再分別提取類別的關(guān)鍵詞進(jìn)行長、短文本的進(jìn)一步融合,有效的解決了短信息特征提取稀疏、長短文本一起計算時效果不理想的問題。
【專利說明】
一種基于長短信息分治策略的互聯(lián)網(wǎng)信息采集融合方法
技術(shù)領(lǐng)域
[0001]本發(fā)明屬于網(wǎng)絡(luò)信息處理領(lǐng)域,具體地說,是一種基于長短信息分治策略的互聯(lián)網(wǎng)?目息米集融合方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的快速發(fā)展,各類媒體已經(jīng)成為人們發(fā)表言論的重要場所,包括新聞、貝占吧、論壇、微博、微信等等?;ヂ?lián)網(wǎng)信息的采集融合是各類互聯(lián)網(wǎng)信息處理工具基礎(chǔ)。
[0003]不同的互聯(lián)網(wǎng)媒體信息的長短有較大的差異,有的幾個字、幾十個字,有的幾百個、幾千個字。而不同長短的信息在技術(shù)的處理上有較大的不同。對于長信息而言,由于可以提取出詞的權(quán)重,常用的融合技術(shù)多是技術(shù)VSM模型。而對于短信息,常采用字符串的相似度計算或者Jaccard方式對短信息進(jìn)行融合。已有互聯(lián)網(wǎng)信息的采集融合方法沒有將二者進(jìn)行有機(jī)的結(jié)合,只是針對某種單一情況處理,致使采集信息的融合效果不理想。
【發(fā)明內(nèi)容】
[0004]本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的不足,提供一種新的基于長短信息分治策略的互聯(lián)網(wǎng)信息采集融合方法,該方法將采集到的信息區(qū)分為長、短兩種類型,采用不同的信息表示模型及不同的相似度計算方法,達(dá)到了對采集到的互聯(lián)網(wǎng)信息有效融合的目的。
[0005]本發(fā)明所要解決的技術(shù)問題是通過以下的技術(shù)方案來實現(xiàn)的。本發(fā)明是一種基于長短信息分治策略的互聯(lián)網(wǎng)信息采集融合方法,其特點是,其步驟包括:
(I)獲取用戶的一條采集規(guī)則r;其優(yōu)選的操作步驟如下:
(1-1)讀取用戶創(chuàng)建的專題;
(1-2)獲取專題的一條采集規(guī)則r。
[0006](2)使用采集規(guī)則r在不同媒體提供的搜索接口進(jìn)行搜索,獲取的總的信息集合記為S;其優(yōu)選的操作步驟如下:
(2-1)使用采集規(guī)貝IJr在m個不同媒體獲取的信息集合分別記為Sl、S2、-_、Sm;
(2-2)求Sl、S2、‘"、Sm的并集,結(jié)果記為S。
[0007](3)將集合S中的信息區(qū)分長信息和短信息,分別融合計算,其優(yōu)選的操作步驟如下:
(3-1)將集合S中信息長度大于140個字符的作為長信息,得到長信息集合LS,其他的作為短信息,得到短信息集合SS;
(3-2)將長信息集合LS使用VSM模型表示,再使用余弦距離計算長信息的相似度,得到P個類別,分別記為LS1、LS2、…、LSp;
(3-3)將短信息集合SS的每條信息分詞后,濾除停用詞,每條信息表示為詞的集合,再使用Jaccard方式計算短信息的相似度,得到q個類別,分別記為SSl、SS2、…、SSq。
[0008](4)將集合長信息集合LS、短信息集合SS中信息再一次融合,得到u個類別,其優(yōu)選的操作步驟如下:
(4-1)使用TF方法計算集合LS的每個類別LSi(I < i < p)中詞的權(quán)重,選擇20個詞作為集合LSi的特征詞,特征詞集記為LS1-FW;
(4-2)使用TF方法計算集合SS的每個類別SS j(l < j < q)詞的權(quán)重,選擇20個詞作為集合SSj的特征詞,特征詞集記為SS j-FW;
(4-3)使用Jaccard方式計算LS1-FW、SS j-FW的相似度,最終得到u個類別。
[0009]本發(fā)明方法將互聯(lián)網(wǎng)采集到的信息,區(qū)分為長信息和短信息兩種類型,采用分而治之的策略表示信息以及進(jìn)行信息的融合計算,最后再分別提取類別的關(guān)鍵詞進(jìn)行長、短文本的進(jìn)一步融合,有效的解決了短信息特征提取稀疏、長短文本一起計算時效果不理想的問題。
【附圖說明】
[0010]圖1是為本發(fā)明基于長短信息分治策略的互聯(lián)網(wǎng)信息采集融合方法的流程圖;
圖2是為本發(fā)明方法中將集合S中的信息區(qū)分長信息和短信息,分別融合計算的流程圖;
圖3是為本發(fā)明方法中將集合LS、SS中信息再一次融合,得到u個類別的流程圖。
【具體實施方式】
[0011]以下結(jié)合附圖和實施例對本發(fā)明方法作進(jìn)一步詳細(xì)說明,以使本領(lǐng)域技術(shù)人員進(jìn)一步的理解本發(fā)明,而不構(gòu)成對本發(fā)明權(quán)利的限制。
[0012]實施例1,參照圖1一3,一種基于長短信息分治策略的互聯(lián)網(wǎng)信息采集融合方法,具體步驟包括:(I)獲取用戶的一條采集規(guī)則r; (2)使用采集規(guī)則r在不同媒體提供的搜索接口進(jìn)行搜索,獲取的總的信息集合記為S; (3)將集合S中的信息區(qū)分長信息和短信息,分別融合計算;(4)將集合LS、SS中信息再一次融合,得到u個類別。
[0013]步驟(I)讀取用戶創(chuàng)建的專題,用戶的專題可以對應(yīng)多條采集規(guī)則,分別取專題的每一條采集規(guī)則r,后續(xù)按照相同的方式采集融合信息。
[0014]步驟(2)對每一條采集規(guī)則r針對m個不同媒體,使用媒體提供的搜索接口進(jìn)行搜索,獲取指定頁數(shù)的信息集合,不同的媒體獲取的信息集合分別為S1、S2、…、Sm。然后,將m個不同的媒體獲取的信息集合合并為一個大的集合,記為S。
[0015]步驟(3)將集合S劃分為兩類:長信息集合和短信息集合,信息的長度參考微博對輸入內(nèi)容長度的要求140個字符。劃分后得到長信息集合LS,短信息集合SS。
[0016]將長信息集合LS使用VSM模型表示,假設(shè)一條信息長信息LS-1nforl中詞的個數(shù)為Isl,則 LS-1nfor I 可以表不為{〈wordl, weightl> , <word2,weight2>,...,〈 wordlsl,weightlsl〉},其中¥<^(118;[(1=〈1=〈11)為詞,其中《^18111:18;[(1=〈1=〈11)為詞的權(quán)重。長信息集合LS中信息融合時的相似度計算方法使用余弦距離方法計算。相似度的閾值LS-f通過實驗確定,LS-f=0.7。得到P個類別,分別記為LS1、LS2、…、LSp。
[0017]將短信息集合SS的每條信息分詞后,濾除停用詞,假設(shè)一條短信息SS-1nforl中詞的個數(shù)為ss I,則SS-1nf or I可以表不為{〈wordl〉, <word2> ,...,< wordssl >},其中wordssi(l=〈i=〈l I)為詞。短信息集合是S中信息融合時的相似度計算方法使用Jaccard方式計算。相似度的閾值ss-f通過實驗確定,ss-f=0.8。得到q個類別,分別記為SSl、SS2、…、SSq。
[0018]步驟(4)使用TF(詞頻)方法計算集合LS的每個類別LSi(l=〈i〈=p)中詞的權(quán)重,選擇20個詞(通過實驗確定)作為集合LSi的特征詞,特征詞集記為LS1-FW。使用TF(詞頻)方法計算集合SS的每個類別SS j(l=〈j〈=q)詞的權(quán)重,選擇20個詞(通過實驗確定)作為集合SSj的特征詞,特征詞集記為SS j-FW。進(jìn)而使用Jaccard方式計算類別的特征詞LS1-FW、SS j-FW的相似度,最終融合得到u個類別。相似度的閾值LS-SS-f通過實驗確定,SS-f=0.7。
【主權(quán)項】
1.一種基于長短信息分治策略的互聯(lián)網(wǎng)信息采集融合方法,其特征在于,其步驟包括: (1)獲取用戶的一條采集規(guī)則r; (2)使用采集規(guī)則r在不同媒體提供的搜索接口進(jìn)行搜索,獲取的總的信息集合記為S; (3)將集合S中的信息區(qū)分長信息和短信息,分別融合計算; (4)將長信息集合LS、短信息集合SS中信息再一次融合,得到u個類別。2.根據(jù)權(quán)利要求1所述的基于長短信息分治策略的互聯(lián)網(wǎng)信息采集融合方法,其特征在于,步驟(I)中:先讀取用戶創(chuàng)建的專題;再獲取專題的一條采集規(guī)則r。3.根據(jù)權(quán)利要求1所述的基于長短信息分治策略的互聯(lián)網(wǎng)信息采集融合方法,其特征在于,步驟(2)中:先使用采集規(guī)則r在m個不同媒體獲取的信息集合分別記為S1、S2、-_、Sm;再求Sl、S2、‘"、Sm的并集,結(jié)果記為S。4.根據(jù)權(quán)利要求1所述的基于長短信息分治策略的互聯(lián)網(wǎng)信息采集融合方法,其特征在于,步驟(3)的具體步驟如下: A、將集合S中信息長度大于140個字符的作為長信息,得到長信息集合LS,其他的作為短信息,得到短信息集合SS; B、將長信息集合LS使用VSM模型表示,再使用余弦距離計算長信息的相似度,得到P個類別,分別記為LS1、LS2、…、LSp; C、將短信息集合SS的每條信息分詞后,濾除停用詞,每條信息表示為詞的集合,再使用Jaccard方式計算短信息的相似度,得到q個類別,分別記為SSl、SS2、…、SSq。5.根據(jù)權(quán)利要求1-4任何一項所述的基于長短信息分治策略的互聯(lián)網(wǎng)信息采集融合方法,其特征在于,步驟(4)的具體步驟如下: A、使用TF方法計算長信息集合LS的每個類別LSi中詞的權(quán)重,I< i < p,選擇20個詞作為集合LS i的特征詞,特征詞集記為LS 1-Fff; B、使用TF方法計算短信息集合SS的每個類別SSj詞的權(quán)重,I < j < q,選擇20個詞作為集合SSj的特征詞,特征詞集記為SSj-FW; C、使用Jaccard方式計算LS1-FW、SSj-FW的相似度,最終得到u個類別。
【文檔編號】G06F17/27GK105843798SQ201610205217
【公開日】2016年8月10日
【申請日】2016年4月5日
【發(fā)明人】張慶祥
【申請人】江蘇鼎中智能科技有限公司