本發(fā)明涉及一種網(wǎng)絡(luò)輿情監(jiān)測方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)在全球范圍內(nèi)的大量普及,網(wǎng)絡(luò)媒體成為傳播社會信息的主要載體之一,并且網(wǎng)絡(luò)媒體包含了專業(yè)媒體以及群眾、消費(fèi)者等更廣泛的聲音。品牌企業(yè)需要知道消費(fèi)者、媒體在網(wǎng)絡(luò)各個(gè)平臺上對自身品牌形象、產(chǎn)品的評價(jià),政府部門以及公眾人物也需要了解網(wǎng)絡(luò)各個(gè)渠道群眾、媒體的正負(fù)面聲音。對于政府部門、品牌企業(yè)、公眾人物來說,了解網(wǎng)絡(luò)輿情有利于發(fā)現(xiàn)問題并快速對自身作出調(diào)整。
目前的網(wǎng)絡(luò)輿情監(jiān)測方法均是通過關(guān)鍵字匹配或文字ocr識別技術(shù),抓取網(wǎng)絡(luò)各個(gè)平臺上相關(guān)的新聞、社交動態(tài)、網(wǎng)民評論等網(wǎng)絡(luò)輿情信息。在這種情況下,只有包含相關(guān)關(guān)鍵字文本的數(shù)據(jù)才會被處理,聲量只是文字聲量,針對只有圖片而沒有相關(guān)關(guān)鍵字的內(nèi)容卻不能被搜索到。例如,越來越多的消費(fèi)者喜歡用圖片來表達(dá)情感,他們可能沒有提及到某些關(guān)鍵詞,但卻用圖片傳遞了同樣的信息,微博真實(shí)用戶每日所發(fā)的圖片就達(dá)數(shù)百萬張。目前由于缺乏有效的識別手段,圖片數(shù)據(jù)是長期存在的監(jiān)測盲區(qū)。
中國專利201310395230.8公開了一種圖片搜索系統(tǒng),,包括以下程序:(1)圖片搜索系統(tǒng)進(jìn)行關(guān)鍵字搜索,關(guān)鍵字包括顏色、形狀、質(zhì)地、通用名稱和品質(zhì)表征,(2)進(jìn)行圖片檢索,用戶首先對檢索圖片進(jìn)行分類,標(biāo)示出主要進(jìn)行檢索的區(qū)域,使用圖片檢索系統(tǒng)中的抓取鍵抓取圖片中的關(guān)鍵部分,然后點(diǎn)擊確認(rèn)按鈕進(jìn)行檢索,圖片檢索系統(tǒng)會自動檢索出所有含有該抓取部分的圖片集,并且按照相似度,進(jìn)行排列,(3)進(jìn)行圖片對比,所述圖片搜索系統(tǒng)還包括圖片對比功能,圖片搜索軟件將用戶圖片與搜索到的圖片進(jìn)行對比,找出其中的相同點(diǎn)和不同點(diǎn),確認(rèn)圖片的相似度和相似比例。通過上述方式,本發(fā)明圖片搜索系統(tǒng)不僅能夠通過關(guān)鍵字進(jìn)行圖片搜索,還能夠通過抓取圖片的關(guān)鍵部分進(jìn)行圖片搜索,并且能夠?qū)⑺阉鞯降膱D片與原始圖片進(jìn)行對比,使用效果好、檢索效率高、有效識別出山寨圖片、彌補(bǔ)了現(xiàn)階段對于圖片搜索和圖片對比的空白。
中國專利201410189773.9公開了一種圖片搜索方法及裝置,其中,圖片搜索方法包括:獲得客戶端發(fā)送的當(dāng)前圖片,從當(dāng)前圖片中提取出當(dāng)前特征,根據(jù)當(dāng)前特征對倒排索引庫進(jìn)行檢索,獲取倒排索引值,其中,倒排索引庫中包含多個(gè)與圖片的特征一一對應(yīng)的鏈表;根據(jù)倒排索引值對對應(yīng)的鏈表進(jìn)行歸并排序處理;以及根據(jù)處理后的結(jié)果向客戶端返回檢索結(jié)果,以便向用戶顯示。本發(fā)明實(shí)施例,提取獲得的當(dāng)前圖片的當(dāng)前特征,根據(jù)當(dāng)前特征對包含多個(gè)鏈表的倒排索引庫進(jìn)行檢索獲取倒排索引值,根據(jù)倒排索引值對對應(yīng)的鏈表進(jìn)行歸并排序處理,并向用戶顯示檢索結(jié)果,操作方便、實(shí)現(xiàn)簡單,克服了依賴文字的輸入來獲取結(jié)果的不便。
上述兩個(gè)專利都在圖片信息搜索方面提供了搜索方法,依據(jù)標(biāo)記關(guān)鍵部分或者特征索引獲得與目標(biāo)圖片的相似度和相關(guān)性并進(jìn)行排序處理,根據(jù)排序結(jié)果向用戶顯示檢索結(jié)果。此方法并不能全面完整地獲得相關(guān)純圖片的搜索結(jié)果,因此無法全方位地獲知網(wǎng)絡(luò)輿情信息。
技術(shù)實(shí)現(xiàn)要素:
針對現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明的目的是提供一種圖片輿情信息搜索方法,使用該方法可以將網(wǎng)絡(luò)上不包含相關(guān)關(guān)鍵字的純圖片信息一并搜索到,使獲得的輿情信息更全面,更確切。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種網(wǎng)絡(luò)圖片輿情監(jiān)測方法用來監(jiān)測網(wǎng)絡(luò)輿情信息,該方法具體包括如下步驟:
s1、根據(jù)需要搜索的信息輸入關(guān)鍵字進(jìn)行全網(wǎng)爬蟲搜索相關(guān)圖片;
s2、所述步驟s1中搜索到的圖片集作為訓(xùn)練樣本數(shù)據(jù),對樣本圖片中的目標(biāo)圖像進(jìn)行標(biāo)注;
s3、將所述步驟s2中標(biāo)注過的樣本圖片集交給訓(xùn)練機(jī)進(jìn)行模式訓(xùn)練,得到具備識別目標(biāo)圖像能力的識別引擎;
s4、所述識別引擎在全網(wǎng)進(jìn)行全網(wǎng)爬蟲搜索相關(guān)信息并進(jìn)行識別。
本發(fā)明基于深度學(xué)習(xí)的圖像識別先進(jìn)技術(shù)和網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行網(wǎng)絡(luò)圖片輿情信息監(jiān)測。通過用戶關(guān)鍵字信息全網(wǎng)爬蟲搜索相關(guān)的網(wǎng)絡(luò)圖片作為訓(xùn)練機(jī)模式訓(xùn)練學(xué)習(xí)的樣本圖片集,訓(xùn)練完成后得到具備圖像識別能力的識別引擎,再通過識別引擎基于全網(wǎng)爬蟲搜索相關(guān)圖片并識別抓取,此時(shí)不僅能夠搜索到包含關(guān)鍵字的圖片還能搜索到不包含關(guān)鍵字的純圖片。因此,通過本方法監(jiān)測輿情填補(bǔ)了純圖片輿情這一缺口,能夠全方位地獲知網(wǎng)絡(luò)輿情。
根據(jù)本發(fā)明另一具體實(shí)施方式,步驟s3模式訓(xùn)練進(jìn)一步包括目標(biāo)檢測訓(xùn)練和分類訓(xùn)練。
根據(jù)本發(fā)明另一具體實(shí)施方式,目標(biāo)檢測訓(xùn)練根據(jù)圖像物體檢測模型進(jìn)行目標(biāo)檢測與提取,該圖像物體檢測模型基于卷積神經(jīng)網(wǎng)絡(luò)建立。
根據(jù)本發(fā)明另一具體實(shí)施方式,分類訓(xùn)練對目標(biāo)檢測訓(xùn)練提取的結(jié)果進(jìn)行二分類訓(xùn)練,人工將提取的結(jié)果標(biāo)注為錄入物體和非錄入物體。
根據(jù)本發(fā)明另一具體實(shí)施方式,輿情監(jiān)測方法進(jìn)一步包括將識別結(jié)果進(jìn)行統(tǒng)計(jì)整理并提交在網(wǎng)頁上顯示,顯示結(jié)果包括純圖片、圖片&文字、純文字的聲量和純圖片、圖片&文字、純文字的互動量。
根據(jù)本發(fā)明另一具體實(shí)施方式,步驟s1和s4均采用爬蟲系統(tǒng)搜索,所述爬蟲系統(tǒng)為全網(wǎng)分布式爬蟲系統(tǒng),由java編寫,采取多線程并行抓取文本+圖片的模式,步驟s1根據(jù)信息關(guān)鍵字搜索部分圖片作為樣本圖片,步驟s4搜索全網(wǎng)所有圖片。
根據(jù)本發(fā)明另一具體實(shí)施方式,爬蟲系統(tǒng)搜索包括如下步驟:
1、通過廣度優(yōu)先算法遍歷指定超鏈接對應(yīng)的網(wǎng)站;
2、對網(wǎng)站的返回解析出相關(guān)圖片的鏈接;
3、對步驟2中獲得的鏈接進(jìn)行圖片的下載。
與現(xiàn)有技術(shù)相比,本發(fā)明具備如下有益效果:
1、融合了圖片監(jiān)測能力的輿情監(jiān)測方法:現(xiàn)有技術(shù)使用關(guān)鍵字匹配技術(shù)監(jiān)測網(wǎng)絡(luò)輿情,局限于文本監(jiān)測以及包含相關(guān)關(guān)鍵字的圖片監(jiān)測,本方法在現(xiàn)有技術(shù)的基礎(chǔ)上融合了圖像識別技術(shù),除了能夠監(jiān)測包含關(guān)鍵字的輿情信息外還可監(jiān)測不包含相關(guān)關(guān)鍵字的純圖片信息,因此能夠全方位地獲取政府部門、品牌企業(yè)、公眾人物在全網(wǎng)的純文字、文字&圖片、純圖片的輿情信息。
2、本發(fā)明在模式訓(xùn)練中,目標(biāo)檢測訓(xùn)練完成后再進(jìn)行分類訓(xùn)練,該分類訓(xùn)練只進(jìn)行二分類,將目標(biāo)檢測后提取的結(jié)果嚴(yán)格地劃分為錄入物體和非錄入物體,對目標(biāo)檢測的結(jié)果進(jìn)一步精確地識別,相較于目前使用的概率分類器有更高的準(zhǔn)確率。
3、全網(wǎng)爬蟲:現(xiàn)有技術(shù)通過爬蟲技術(shù)抓取全網(wǎng)關(guān)鍵字文本為監(jiān)測提供數(shù)據(jù),不可避免地遺漏一些關(guān)鍵的圖片數(shù)據(jù),本系統(tǒng)在現(xiàn)有技術(shù)基礎(chǔ)上開發(fā)了全網(wǎng)分布式爬蟲系統(tǒng),采取了抓取文本+圖片的方式,保證了數(shù)據(jù)的完整性。
下面結(jié)合附圖對本發(fā)明作進(jìn)一步的詳細(xì)說明。
附圖說明
圖1是實(shí)施例1的網(wǎng)絡(luò)圖片輿情監(jiān)測方法模塊劃分圖;
圖2是實(shí)施例1的網(wǎng)絡(luò)圖片輿情監(jiān)測方法工作流程圖.
具體實(shí)施方式
實(shí)施例1
本實(shí)施例提供了一種網(wǎng)絡(luò)圖片輿情監(jiān)測方法,具體步驟如下:
s1、根據(jù)需要搜索的信息輸入關(guān)鍵字進(jìn)行全網(wǎng)爬蟲搜索相關(guān)圖片;
全網(wǎng)爬蟲:爬蟲系統(tǒng)是通過構(gòu)造參數(shù),用程序模擬用戶的瀏覽器的網(wǎng)頁請求來獲取網(wǎng)站的返回信息,再對網(wǎng)站返回的信息進(jìn)行解析,最后得到所需要的數(shù)據(jù)。步驟如下:
1、通過廣度優(yōu)先算法遍歷指定超鏈接對應(yīng)的網(wǎng)站;
2、對網(wǎng)站的返回解析出相關(guān)圖片的鏈接;
3、對步驟2中獲得的鏈接進(jìn)行圖片的下載。
本實(shí)施例在現(xiàn)有技術(shù)基礎(chǔ)上采用java編程開發(fā)了全網(wǎng)分布式爬蟲系統(tǒng),采取了抓取文本+圖片的方式,保證了數(shù)據(jù)的完整性。采取多線程并行抓取的模式,盡可能地加大帶寬的利用率。
s2、將步驟s1中搜索到的圖片集作為訓(xùn)練樣本數(shù)據(jù),對樣本圖片中的目標(biāo)圖像進(jìn)行標(biāo)注;
訓(xùn)練樣本數(shù)據(jù)為爬蟲系統(tǒng)全網(wǎng)爬蟲抓取到的樣本圖片集,并將樣本圖片集中的圖片需要識別部分的位置進(jìn)行標(biāo)注,使訓(xùn)練機(jī)能夠識別出圖片中的標(biāo)注。模式訓(xùn)練時(shí),不僅需要包含需要識別目標(biāo)部分的圖片給訓(xùn)練機(jī)識別正確,還需要一些不包含識別目標(biāo)的圖片給訓(xùn)練機(jī)識別錯(cuò)誤,從而達(dá)到驗(yàn)證的目的,因此該部分圖片為驗(yàn)證圖片集。該驗(yàn)證圖片集通過全網(wǎng)爬蟲搜索獲得。
s3、將所述步驟s2中標(biāo)注過的樣本圖片集交給訓(xùn)練機(jī)進(jìn)行模式訓(xùn)練,得到具備識別目標(biāo)圖像能力的識別引擎;
本實(shí)施例中的模式訓(xùn)練基于深度學(xué)習(xí)的圖像識別技術(shù)對訓(xùn)練機(jī)進(jìn)行多層模型訓(xùn)練,深度學(xué)習(xí)使用的模型主要是類似神經(jīng)網(wǎng)絡(luò)的層狀結(jié)構(gòu),每一層都相當(dāng)于一個(gè)更加抽象的特征表示,各層由若干個(gè)參數(shù)進(jìn)行連接,最后一層將抽象的特征進(jìn)行分類,模型的訓(xùn)練就是自動調(diào)節(jié)這些參數(shù)的過程。最后得到的模型就是模型的結(jié)構(gòu)以及模型里面各種各樣的參數(shù)。
模式訓(xùn)練包括目標(biāo)檢測訓(xùn)練和分類訓(xùn)練。模型的訓(xùn)練就是每次將一批樣本圖片集輸入模型中,正向傳遞得到輸出,如果模型的輸出和圖片標(biāo)定的不一致,則認(rèn)為模型錯(cuò)誤,這時(shí),模型就會計(jì)算對應(yīng)的誤差值(loss),然后反向修正各層的參數(shù)。訓(xùn)練進(jìn)行數(shù)十萬次的迭代,直到誤差值小于一定的值(假設(shè)為1x10-6)。訓(xùn)練時(shí)首先采用目標(biāo)檢測訓(xùn)練,目標(biāo)檢測訓(xùn)練完后再進(jìn)行分類訓(xùn)練。
目標(biāo)檢測訓(xùn)練采用圖像物體檢測模型,將樣本圖片集中識別為錄入物體的圖片檢測和提取出來。圖像物體檢測模型基于卷積神經(jīng)網(wǎng)絡(luò)建立,卷積神經(jīng)網(wǎng)絡(luò)是近年發(fā)展起來,并引起廣泛重視的一種高效識別方法。它是一種前饋式神經(jīng)網(wǎng)絡(luò),主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形。卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)包括兩層,其一為特征提取層,每個(gè)神經(jīng)元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,它與其它特征間的位置關(guān)系也隨之確定下來;其二是特征映射層,網(wǎng)絡(luò)的每個(gè)計(jì)算層由多個(gè)特征映射組成,每個(gè)特征映射是一個(gè)平面,平面上所有神經(jīng)元的權(quán)值相等。由于一個(gè)映射面上的神經(jīng)元共享權(quán)值,因而減少了網(wǎng)絡(luò)自由參數(shù)的個(gè)數(shù)。卷積神經(jīng)網(wǎng)絡(luò)中的每一個(gè)卷積層都緊跟著一個(gè)用來求局部平均與二次提取的計(jì)算層,這種特有的兩次特征提取結(jié)構(gòu)減小了特征分辨率。
因?yàn)槟繕?biāo)檢測的結(jié)果包含一定的誤判,為了達(dá)到更精確的識別,再次采用分類訓(xùn)練進(jìn)行訓(xùn)練。針對上一步檢測提取出來的圖片集,將圖片集繼續(xù)分類為錄入物體和非錄入物體,非錄入物體則不是目標(biāo)圖片,不需要提取的,分類訓(xùn)練后的錄入物體則是更精確的搜索結(jié)果。
模式訓(xùn)練出來后將會用到實(shí)際分類中,如果模型在實(shí)際分類中的效果不好,將完善訓(xùn)練集,然后在之前訓(xùn)練出來的模型的基礎(chǔ)上進(jìn)行二次訓(xùn)練、完善。通過不斷地訓(xùn)練,訓(xùn)練機(jī)能夠識別帶有標(biāo)注物體的圖片,具備了一定的識別目標(biāo)圖片的能力。識別引擎是訓(xùn)練機(jī)訓(xùn)練后得出的一個(gè)模型,該模型具備圖像識別的能力,并為訓(xùn)練機(jī)提供若干接口,通過這個(gè)接口可以調(diào)用其他程序(例如爬蟲系統(tǒng)),從而實(shí)現(xiàn)網(wǎng)絡(luò)圖片輿情監(jiān)測的功能。
s4、所述識別引擎在全網(wǎng)進(jìn)行全網(wǎng)爬蟲搜索相關(guān)信息并進(jìn)行識別。
將帶有訓(xùn)練機(jī)的識別引擎放入到全網(wǎng)中進(jìn)行搜索,利用全網(wǎng)爬蟲技術(shù)抓取文本+圖片的方式,抓取全網(wǎng)絡(luò)中的圖片并提交給識別引擎識別,識別引擎判斷所抓取的圖片中是否出現(xiàn)目標(biāo)物體,若出現(xiàn)則保留,否則就丟棄該圖片。根據(jù)識別引擎識別后保留下來的圖片,進(jìn)一步查看該圖片所對應(yīng)的信息或文字評論,進(jìn)而統(tǒng)計(jì)得出關(guān)于該物體在網(wǎng)絡(luò)上的輿情信息,將統(tǒng)計(jì)整理后的信息提交在網(wǎng)頁上顯示。用戶能在電腦端和移動端進(jìn)入圖片輿情網(wǎng)站,登錄后即可查看相關(guān)物體的純圖片、圖片&文字、純文字聲量和純圖片、圖片&文字、純文字互動量以及所有相關(guān)圖片的詳情。其中聲量:圖片/文字中包含指定目標(biāo)的信息,計(jì)為一個(gè)聲量;互動量:針對聲量的轉(zhuǎn)/評/贊的總和;純圖片:圖片提及了目標(biāo)對象,而文字未提及目標(biāo)對象;純文字:文字提及了目標(biāo)對象,而圖片未提及目標(biāo)對象;圖片&文字:圖片和文字都提及目標(biāo)對象。
圖1為本實(shí)施例的網(wǎng)絡(luò)圖片輿情檢測方法模塊劃分圖;其主要包括全網(wǎng)爬蟲、模式訓(xùn)練、識別引擎、網(wǎng)頁顯示。
圖2為本實(shí)施例網(wǎng)絡(luò)圖片輿情監(jiān)測方法的工作流程圖。如圖所示,首先根據(jù)用戶關(guān)鍵字全網(wǎng)爬蟲搜索相關(guān)圖片,將搜索到的圖片集進(jìn)行標(biāo)注作為模式訓(xùn)練的樣本圖片集,將不包含目標(biāo)圖像的圖片集作為驗(yàn)證圖片集。將樣本圖片集和驗(yàn)證圖片集提交給訓(xùn)練機(jī)依次進(jìn)行目標(biāo)檢測訓(xùn)練和分類訓(xùn)練,目標(biāo)檢測訓(xùn)練為對圖片中標(biāo)注為目標(biāo)圖像的部分進(jìn)行檢測與提取,分類訓(xùn)練是在目標(biāo)檢測訓(xùn)練基礎(chǔ)之上將識別結(jié)果分為錄入物體和非錄入物體進(jìn)行識別,識別出的錄入物體則為更精確的結(jié)果。經(jīng)過訓(xùn)練后訓(xùn)練機(jī)具備了一定的圖像識別能力,將該訓(xùn)練機(jī)引入到識別引擎,識別引擎是具有輸入輸出接口并能調(diào)用各種程序的一個(gè)模型,用戶需要搜索相關(guān)信息時(shí),識別引擎調(diào)用爬蟲系統(tǒng)全網(wǎng)抓取文本+圖片,再調(diào)用訓(xùn)練機(jī)的圖像識別模型依次對圖片進(jìn)行識別,識別認(rèn)為正確的則保留,不正確則放棄,從而保留的信息為用戶所需要的輿情信息。根據(jù)抓取到的輿情信息進(jìn)行統(tǒng)計(jì)整理,歸納出純圖片、圖片&文字、純文字聲量和純圖片、圖片&文字、純文字互動量以及所有相關(guān)圖片的詳情并提交網(wǎng)頁顯示,用戶通過網(wǎng)頁可查看輿情信息。
雖然本發(fā)明以較佳實(shí)施例揭露如上,但并非用以限定本發(fā)明實(shí)施的范圍。任何本領(lǐng)域的普通技術(shù)人員,在不脫離本發(fā)明的發(fā)明范圍內(nèi),當(dāng)可作些許的改進(jìn),即凡是依照本發(fā)明所做的同等改進(jìn),應(yīng)為本發(fā)明的范圍所涵蓋。