亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

輿情數(shù)據(jù)存儲方法和裝置的制造方法

文檔序號:8258553閱讀:693來源:國知局
輿情數(shù)據(jù)存儲方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及計算機技術,尤其涉及一種輿情數(shù)據(jù)存儲方法和裝置。
【背景技術】
[0002] 隨著互連網(wǎng)技術的不斷發(fā)展,互聯(lián)網(wǎng)逐漸成為信息傳播的主要載體,進而衍生出 對以互連網(wǎng)為載體所發(fā)布的文字形式的Web信息進行采集,從而獲得輿情數(shù)據(jù)的技術,以 對輿情數(shù)據(jù)進行分析處理進而保障互連網(wǎng)的信息安全。
[0003] 現(xiàn)有技術中,通過對Web信息進行采集后,利用上載系統(tǒng)將采集獲得的包含文章 標題、正文、作者、發(fā)布時間、發(fā)布網(wǎng)站和網(wǎng)站的頻道在內的輿情數(shù)據(jù)保存到數(shù)據(jù)庫中,以進 行后續(xù)的分析處理。
[0004] 但由于以互連網(wǎng)為載體所傳輸?shù)腤eb信息往往存在內容相互重復的情況,例如: 轉發(fā)的博客與首次發(fā)表的博客內容相互重復,因而對內容相互重復的Web信息進行采集所 獲得的輿情數(shù)據(jù)也會相互重復,現(xiàn)有技術會將相互重復的輿情數(shù)據(jù)均保存到數(shù)據(jù)庫中,因 而占用了存儲空間,存儲空間的利用率較低。

【發(fā)明內容】

[0005] 本發(fā)明提供一種輿情數(shù)據(jù)存儲方法和裝置,用于解決存儲空間的利用率較低的技 術問題。
[0006] 本發(fā)明的第一個方面是提供一種輿情數(shù)據(jù)存儲方法,包括:
[0007] 接收輿情數(shù)據(jù);
[0008] 利用哈希值算法對所述輿情數(shù)據(jù)進行計算,獲得所述輿情數(shù)據(jù)的哈希值;
[0009] 根據(jù)所述輿情數(shù)據(jù)的哈希值和預先利用所述哈希值算法計算獲得的歷史輿情數(shù) 據(jù)的哈希值,從所述輿情數(shù)據(jù)中篩選出與所述歷史輿情數(shù)據(jù)不重復的目標輿情數(shù)據(jù);所述 歷史輿情數(shù)據(jù)是已存儲在數(shù)據(jù)庫中的輿情數(shù)據(jù);
[0010] 將所述目標輿情數(shù)據(jù)存儲在所述數(shù)據(jù)庫中。
[0011] 本發(fā)明的另一個方面是提供一種輿情數(shù)據(jù)存儲裝置,包括:
[0012] 接收模塊,用于接收輿情數(shù)據(jù);
[0013] 計算模塊,用于利用哈希值算法對所述輿情數(shù)據(jù)進行計算,獲得所述輿情數(shù)據(jù)的 哈希值;
[0014] 篩選模塊,用于根據(jù)所述輿情數(shù)據(jù)的哈希值和預先利用所述哈希值算法計算獲得 的歷史輿情數(shù)據(jù)的哈希值,從所述輿情數(shù)據(jù)中篩選出與所述歷史輿情數(shù)據(jù)不重復的目標輿 情數(shù)據(jù);所述歷史輿情數(shù)據(jù)是已存儲在數(shù)據(jù)庫中的輿情數(shù)據(jù);
[0015] 存儲模塊,用于將所述目標輿情數(shù)據(jù)存儲在所述數(shù)據(jù)庫中。
[0016] 本發(fā)明提供的輿情數(shù)據(jù)存儲方法和裝置,通過利用哈希值算法對接收到的輿情數(shù) 據(jù)進行計算,獲得輿情數(shù)據(jù)的哈希值,根據(jù)該輿情數(shù)據(jù)的哈希值和計算獲得的歷史輿情數(shù) 據(jù)的哈希值,從接收到的輿情數(shù)據(jù)中篩選出與歷史輿情數(shù)據(jù)不重復的目標輿情數(shù)據(jù),從而 僅對目標輿情數(shù)據(jù)進行存儲,解決了現(xiàn)有技術中由于將相互重復的輿情數(shù)據(jù)均保存到數(shù)據(jù) 庫中所導致的存儲空間利用率低的技術問題。
【附圖說明】
[0017] 圖1為本發(fā)明一實施例提供的輿情數(shù)據(jù)存儲方法的流程示意圖;
[0018] 圖2為本發(fā)明另一實施例提供的輿情數(shù)據(jù)存儲方法的流程示意圖;
[0019] 圖3為本發(fā)明一實施例提供的輿情數(shù)據(jù)存儲裝置的結構示意圖;
[0020] 圖4為本發(fā)明另一實施例提供的輿情數(shù)據(jù)存儲裝置的結構示意圖。
【具體實施方式】
[0021] 圖1為本發(fā)明一實施例提供的輿情數(shù)據(jù)存儲方法的流程示意圖,本實施例所提供 的方法可由上載系統(tǒng)實施,如圖1所示,包括:
[0022] 101、接收輿情數(shù)據(jù)。
[0023] 可選的,預先約定輿情數(shù)據(jù)的文件格式,從而對接收到的輿情數(shù)據(jù)進行解析,獲得 網(wǎng)頁信息列表形式的輿情數(shù)據(jù)。該輿情數(shù)據(jù)為至少一個,包括文章標題和正文。
[0024] 102、利用哈希值算法對所述輿情數(shù)據(jù)進行計算,獲得輿情數(shù)據(jù)的哈希值。
[0025] 可選的,對輿情數(shù)據(jù)中的標題和正文進行過濾,從而過濾掉符號、人稱代詞和助詞 等無用字符,獲得過濾后的文章標題和正文,記為抽樣樣本;根據(jù)預設的抽樣文字塊長度即 每個抽樣文字塊所包含的字符數(shù),將該抽樣樣本進行切分,獲得多個抽樣文字塊;根據(jù)預設 的抽樣詞數(shù)和抽樣詞長度從每個抽樣文字塊中抽取符合該抽樣詞數(shù)個特征字符,每個特征 字符的長度符合抽樣詞長度。根據(jù)該特征字符,利用MurmurHash算法(哈希值算法的一種), 計算獲得輿情數(shù)據(jù)的哈希值,以此作為該輿情數(shù)據(jù)的唯一標識。
[0026] 或者可選的,直接利用哈希值算法對所述輿情數(shù)據(jù)中的標題和正文進行計算,例 如采用CRC32算法、MD5算法、SHA-1算法和MurmurHash算法中的一種進行計算,獲得輿情 數(shù)據(jù)的哈希值,以此作為該輿情數(shù)據(jù)的唯一標識。
[0027] 103、根據(jù)所述輿情數(shù)據(jù)的哈希值和計算獲得的歷史輿情數(shù)據(jù)的哈希值,從所述輿 情數(shù)據(jù)中篩選出與所述歷史輿情數(shù)據(jù)不重復的目標輿情數(shù)據(jù)。
[0028] 其中,歷史輿情數(shù)據(jù)是已存儲在數(shù)據(jù)庫中的輿情數(shù)據(jù)。歷史輿情數(shù)據(jù)的哈希值是 預先采用上述哈希值算法進行計算獲得的。
[0029] 104、將目標輿情數(shù)據(jù)存儲在該數(shù)據(jù)庫中。
[0030] 本實施例中,通過利用哈希值算法對接收到的輿情數(shù)據(jù)進行計算,獲得輿情數(shù)據(jù) 的哈希值,根據(jù)該輿情數(shù)據(jù)的哈希值和計算獲得的歷史輿情數(shù)據(jù)的哈希值,從輿情數(shù)據(jù)中 篩選出與歷史輿情數(shù)據(jù)不重復的目標輿情數(shù)據(jù),從而僅對目標輿情數(shù)據(jù)進行存儲,解決了 現(xiàn)有技術中由于將相互重復的輿情數(shù)據(jù)均保存到數(shù)據(jù)庫中所導致的存儲空間利用率低的 技術問題。
[0031] 圖2為本發(fā)明另一實施例提供的輿情數(shù)據(jù)存儲方法的流程示意圖,本實施例所提 供的方法可由上載系統(tǒng)實施,如圖2所示,包括:
[0032] 201、接收輿情數(shù)據(jù)。
[0033] 其中,輿情數(shù)據(jù)包括文章標題、正文、發(fā)布時間和鏈接地址。作為一種特殊情況,若 輿情數(shù)據(jù)中存在發(fā)布時間為空的情況,則將發(fā)布時間修改為當前時間。
[0034] 202、將垃圾詞庫中存儲的詞匯與輿情數(shù)據(jù)中的文章標題和正文依次進行比對,確 定輿情數(shù)據(jù)中的文章標題和正文中不存在垃圾詞庫中存儲的詞匯。
[0035] 可選的,對輿情數(shù)據(jù)中的標題和正文進行過濾,過濾掉匹配上垃圾詞庫中的至少 兩個不同的垃圾詞的輿情數(shù)據(jù),將進行過濾后的輿情數(shù)據(jù)記為抽樣樣本。垃圾詞庫用于存 儲廣告詞和淫穢詞。
[0036] 203、利用哈希值算法對所述輿情數(shù)據(jù)進行計算,獲得輿情數(shù)據(jù)的哈希值。
[0037] 可選的,過濾掉輿情數(shù)據(jù)中的符號、人稱代詞和助詞等無用字符后,根據(jù)預設的抽 樣文字塊長度即每個抽樣文字塊所包含的字符數(shù),將該抽樣樣本進行切分,獲得多個抽樣 文字塊;根據(jù)預設的抽樣詞數(shù)和抽樣詞長度從每個抽樣文字塊中抽取符合該抽樣詞數(shù)個特 征字符,每個特征字符的長度符合抽樣詞長度。根據(jù)該特征字符,利用MurmurHash算法,計 算獲得輿情數(shù)據(jù)的哈希值,以此作為該輿情數(shù)據(jù)的唯一標識。其中,抽樣詞數(shù)與抽樣詞長度 的乘積不大于抽樣文字塊長度。
[0038] 例如:記預設的
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1