數(shù)據(jù)分析方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本公開的實(shí)施例涉及數(shù)據(jù)分析方法和系統(tǒng),尤其涉及對互聯(lián)網(wǎng)上的內(nèi)容進(jìn)行處理的方法和系統(tǒng)。
【背景技術(shù)】
[0002]社會科學(xué)領(lǐng)域課題研宄過程中材料的收集、整理和分析是至關(guān)重要的一環(huán)。如何有效收集和積累與課題研宄相關(guān)的材料是做好課題研宄的前提和保障。沒有資料,就無從研宄,更談不上觀點(diǎn)和創(chuàng)新。
[0003]收集與課題相關(guān)聯(lián)的資料的途徑很多,例如問卷調(diào)查,課題訪談,課題研討會等。然而,收集資料通常需要花費(fèi)大量的時(shí)間,通常研宄課題一半以上的時(shí)間都用在資料的收集上。因此,如何縮短收集資料所需的時(shí)間,降低收集資料的成本是人們期望的。
[0004]另一方面,隨著科技的發(fā)展,網(wǎng)絡(luò)資源越來越豐富。例如,當(dāng)今快速發(fā)展的社交網(wǎng)絡(luò)為人們提供了在線交流和傳播信息,形成新的媒介生態(tài)環(huán)境,為人們構(gòu)建了一張巨大的社會網(wǎng)絡(luò)且不斷演化,關(guān)鍵是這些信息都被記錄下來,可以讓我們能夠更好的觀察到人類社會的復(fù)雜行為模式。
[0005]可是,在海量的網(wǎng)絡(luò)數(shù)據(jù)中查找有用的信息需要花費(fèi)大量時(shí)間外,還需要大量復(fù)雜重復(fù)的勞動(dòng),例如,需要不斷的篩選和重復(fù)查找。而且,如何組織和整理查找到的資料也是讓人頭疼的工作。因此,高效地利用各種網(wǎng)絡(luò)數(shù)據(jù)是人們期望的。
【發(fā)明內(nèi)容】
[0006]本發(fā)明目的是解決上述問題中的一個(gè)或多個(gè)。
[0007]本發(fā)明在一個(gè)方面提供一種對互聯(lián)網(wǎng)上的內(nèi)容進(jìn)行處理的方法,包括:
[0008]接收用戶輸入;
[0009]根據(jù)所述用戶輸入獲取互聯(lián)網(wǎng)上的內(nèi)容和關(guān)于該內(nèi)容的屬性信息;
[0010]對所述內(nèi)容進(jìn)行詞頻統(tǒng)計(jì)和屬性信息分析;
[0011]接收用戶關(guān)于分析方法的選擇;
[0012]根據(jù)用戶所選擇的分析方法處理所述內(nèi)容。
[0013]本發(fā)明在另一方面提供一種對互聯(lián)網(wǎng)上的內(nèi)容進(jìn)行處理的系統(tǒng),包括:
[0014]一個(gè)或多個(gè)數(shù)據(jù)存儲服務(wù)器;
[0015]一個(gè)或多個(gè)爬蟲服務(wù)器;以及
[0016]一個(gè)或多個(gè)算法服務(wù)器,
[0017]所述爬蟲服務(wù)器根據(jù)用戶輸入獲取互聯(lián)網(wǎng)上的內(nèi)容和關(guān)于該內(nèi)容的屬性信息,
[0018]所述數(shù)據(jù)存儲服務(wù)器存儲所述內(nèi)容和所述屬性信息,
[0019]所述算法服務(wù)器對所述內(nèi)容進(jìn)行詞頻統(tǒng)計(jì)和屬性信息分析,并根據(jù)用戶所選擇的分析方法處理所述內(nèi)容。
[0020]本發(fā)明在又一方面提供一種對互聯(lián)網(wǎng)上的內(nèi)容進(jìn)行處理的系統(tǒng),包括:
[0021]用于接收用戶輸入的裝置;
[0022]用于根據(jù)所述用戶輸入獲取互聯(lián)網(wǎng)上的內(nèi)容和關(guān)于該內(nèi)容的屬性信息的裝置;
[0023]用于對所述內(nèi)容進(jìn)行詞頻統(tǒng)計(jì)和屬性信息分析的裝置;
[0024]用于接收用戶關(guān)于分析方法的選擇的裝置;
[0025]用于根據(jù)用戶所選擇的分析方法處理所述內(nèi)容的裝置。
[0026]本發(fā)明在另一方面提供一種計(jì)算機(jī)可讀存儲介質(zhì),其中存儲有用于執(zhí)行根據(jù)本發(fā)明的方法的指令。
【附圖說明】
[0027]從下面結(jié)合附圖對本發(fā)明的【具體實(shí)施方式】的描述中可以更好地理解本發(fā)明,其中:
[0028]圖1示出了根據(jù)本發(fā)明示例實(shí)施例的對互聯(lián)網(wǎng)上的內(nèi)容進(jìn)行處理的方法的流程圖;
[0029]圖2示出了根據(jù)本發(fā)明示例實(shí)施例的對互聯(lián)網(wǎng)上的內(nèi)容進(jìn)行處理的系統(tǒng);
[0030]圖3示出了根據(jù)本發(fā)明的示例實(shí)施例的計(jì)算裝置的框圖。
【具體實(shí)施方式】
[0031]下面將詳細(xì)描述本發(fā)明各個(gè)方面的特征和示例性實(shí)施例。下面的描述涵蓋了許多具體細(xì)節(jié),以便提供對本發(fā)明的全面理解。但是,對于本領(lǐng)域技術(shù)人員來說顯而易見的是,本發(fā)明可以在不需要這些具體細(xì)節(jié)中的一些細(xì)節(jié)的情況下實(shí)施。下面對實(shí)施例的描述僅僅是為了通過示出本發(fā)明的示例來提供對本發(fā)明更清楚的理解。本發(fā)明絕不限于下面所提出的任何具體配置,而是在不脫離本發(fā)明的精神的前提下覆蓋了相關(guān)元素或部件的任何修改、替換和改進(jìn)。
[0032]社會科學(xué)人員在做課題研宄時(shí),需查詢大量資料和數(shù)據(jù),而目前缺少對此類資料信息歸類和總結(jié),搜索內(nèi)容存在大量重復(fù)和質(zhì)量問題,給用戶造成重復(fù)篩選和不斷查找。本發(fā)明,基于網(wǎng)絡(luò)爬蟲和數(shù)據(jù)挖掘技術(shù)很好解決了這一難題。網(wǎng)絡(luò)爬蟲和數(shù)據(jù)挖掘是指互聯(lián)網(wǎng)上提供檢索服務(wù)的系統(tǒng)工具。服務(wù)器通過網(wǎng)絡(luò)搜索,將互聯(lián)網(wǎng)上大量網(wǎng)站的頁面信息收集到本地,提供用戶所需的信息或相關(guān)指引。
[0033]同時(shí),社交網(wǎng)絡(luò)(例如臉書、微博等)產(chǎn)生了海量用戶以及實(shí)時(shí)和完整的數(shù)據(jù),同時(shí)社交網(wǎng)絡(luò)也記錄了用戶群體的情緒,根據(jù)本發(fā)明可以通過深入挖掘這些數(shù)據(jù)來了解用戶,挖掘用戶的行為習(xí)慣和喜好。
[0034]圖1示出了根據(jù)本發(fā)明的示例實(shí)施例對互聯(lián)網(wǎng)上的內(nèi)容進(jìn)行處理的方法的流程圖。
[0035]當(dāng)用戶通過客戶端的用戶界面進(jìn)行登錄操作時(shí),本發(fā)明的方法開始(步驟210)。例如,用戶可以通過在客戶端的用戶界面處輸入用戶名或者密碼,來進(jìn)行登錄。當(dāng)然,本領(lǐng)域的技術(shù)人員可以理解,用戶還可以通過其它方式登錄,例如匿名登錄。
[0036]用戶成功登錄后,例如可以在用戶界面呈現(xiàn)搜索欄,以接收用戶輸入。
[0037]在步驟212,用戶在搜索欄輸入想要從互聯(lián)網(wǎng)上查詢的內(nèi)容,即檢索主題。例如,用戶正在進(jìn)行的研宄課題是“90后上網(wǎng)游戲行為”,用戶可以在搜索欄輸入“90后上網(wǎng)游戲行為”??蛇x地,檢索主題例如可以通過關(guān)鍵詞的形式輸入。
[0038]根據(jù)本發(fā)明的可選實(shí)施例,用戶可以對搜索范圍進(jìn)行限制。例如,用戶可以選擇所要獲取的互聯(lián)網(wǎng)內(nèi)容具體的發(fā)布(或創(chuàng)建)時(shí)間,從而選擇只搜索在特定的一段時(shí)間內(nèi)發(fā)布的互聯(lián)網(wǎng)內(nèi)容。
[0039]用戶還可以選擇要獲取的互聯(lián)網(wǎng)內(nèi)容發(fā)布的地點(diǎn),例如將搜索內(nèi)容限定為是從哪個(gè)國家或具體地是哪個(gè)城市發(fā)布的,當(dāng)然用戶還可以更進(jìn)一步限定為是從哪個(gè)小區(qū)或具體哪個(gè)建筑發(fā)布的。
[0040]此外,用戶還可以選擇要獲取的互聯(lián)網(wǎng)內(nèi)容的來源。例如,用戶可以限定只在臉書或者某個(gè)具體的微博中進(jìn)行搜索。通過限定互聯(lián)網(wǎng)內(nèi)容的來源(例如互聯(lián)網(wǎng)上的內(nèi)容所發(fā)布的網(wǎng)站),以提高查詢效率和針對性。
[0041]在步驟214,根據(jù)用戶輸入獲取互聯(lián)網(wǎng)內(nèi)容和/或相關(guān)的屬性信息,并存儲搜索結(jié)果O
[0042]根據(jù)本發(fā)明的可選實(shí)施例,采用網(wǎng)絡(luò)爬蟲獲取互聯(lián)網(wǎng)內(nèi)容和屬性信息。獲取的互聯(lián)網(wǎng)內(nèi)容可以包括例如社交網(wǎng)絡(luò)上發(fā)布的消息、用戶評論等,獲取的互聯(lián)網(wǎng)內(nèi)容也可以包括網(wǎng)絡(luò)上發(fā)布的各種新聞等。
[0043]網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁的程序,它為搜索引擎從互聯(lián)網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。爬蟲從一個(gè)或若干個(gè)初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。
[0044]根據(jù)本發(fā)明實(shí)施例,除了獲取互聯(lián)網(wǎng)內(nèi)容外,還獲取互聯(lián)網(wǎng)內(nèi)容的屬性信息。其中屬性信息包括互聯(lián)網(wǎng)內(nèi)容的發(fā)布時(shí)間、發(fā)布地點(diǎn)、來源等。屬性信息還可以包括關(guān)于互聯(lián)網(wǎng)內(nèi)容的發(fā)布者的信息,例如發(fā)布者的性別、年齡、身份、出生、家庭背景、收入、職業(yè)、教育背景等。
[0045]在步驟216,對所獲取的互聯(lián)網(wǎng)內(nèi)容進(jìn)行詞頻統(tǒng)計(jì)和/或?qū)傩孕畔⒎治觥?br>[0046]根據(jù)本發(fā)明的示例實(shí)施例,詞頻統(tǒng)計(jì)之前可以選擇對獲取的互聯(lián)網(wǎng)內(nèi)容進(jìn)行切詞。本領(lǐng)域的技術(shù)人員可以理解切詞并不是必須的。通常對于某些語言的互聯(lián)網(wǎng)內(nèi)容,例如中文,切詞特別是有益的。通過切詞可以刪除沒有實(shí)質(zhì)意義或?qū)V赋潭群艿偷脑~。
[0047]根據(jù)本發(fā)明的示例實(shí)施例,詞頻統(tǒng)計(jì)例如采用TF-1DF方法。TF-1DF是一種統(tǒng)計(jì)方法,用以評估一字詞對于一個(gè)文件集或一個(gè)語料庫中的一份文件的重要程度。字詞的重要性隨它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會