本發(fā)明屬于物聯(lián)網(wǎng)信息搜索領(lǐng)域,具體涉及一種基于傳感信息量的網(wǎng)頁內(nèi)容評價方法。
背景技術(shù):
:隨著物聯(lián)網(wǎng)技術(shù)的普及與發(fā)展,傳感器的數(shù)量日益增長,面對其源源不斷產(chǎn)生的海量數(shù)據(jù),物聯(lián)網(wǎng)搜索技術(shù)的研究已成為當前亟待解決的熱點問題。與傳統(tǒng)互聯(lián)網(wǎng)中的數(shù)據(jù)相比,傳感器所產(chǎn)生的數(shù)據(jù)兼具內(nèi)容、時間和空間三維屬性。與此同時,出于對隱私安全和傳輸負荷等問題的考慮,目前大量傳感器采用了將數(shù)據(jù)傳輸至互聯(lián)網(wǎng),以網(wǎng)頁的形式來展示數(shù)據(jù)內(nèi)容,供用戶自由訪問。網(wǎng)頁通過視頻、圖片、表格和曲線等多種方式來向用戶展示傳感器所采集的數(shù)據(jù)內(nèi)容,那么,如何評價網(wǎng)頁所包含的傳感數(shù)據(jù)量的大小,對網(wǎng)頁傳感信息搜索的研究而言,具有極高的價值。目前網(wǎng)頁評價研究的相關(guān)工作,大都依靠視覺特性、鏈接內(nèi)容等作為參照條件,對網(wǎng)頁的復(fù)雜度,可靠性等指標進行考察,而針對網(wǎng)頁中傳感信息的分析內(nèi)容成果尚少,而簡單的依據(jù)視覺特性和鏈接等網(wǎng)頁內(nèi)容進行分析,又不具代表性和針對性。技術(shù)實現(xiàn)要素:針對
背景技術(shù):
存在的問題,本發(fā)明提供一種基于傳感信息量的網(wǎng)頁評價方法,目的在于依據(jù)網(wǎng)頁中的傳感信息量,為物聯(lián)網(wǎng)搜索中的網(wǎng)頁傳感信息搜索技術(shù)提供數(shù)據(jù)支撐。本發(fā)明的目的是這樣實現(xiàn)的:(1)傳感數(shù)據(jù)與其他數(shù)據(jù)塊內(nèi)容相比,多出時間和空間維度的屬性。對網(wǎng)頁傳感信息塊的判斷將從這兩個條件入手,對于同時具有時間變化特性,和空間描述特性的網(wǎng)頁內(nèi)容,稱之為傳感信息。(2)由于數(shù)據(jù)空間信息量的大小不可表述,因此,對空間描述特性的分析僅用于協(xié)助判斷網(wǎng)頁數(shù)據(jù)塊是否為傳感信息塊。而從時間變化特性的角度分析,為網(wǎng)頁數(shù)據(jù)塊定義時間信息量的概念,一般而言,時效性內(nèi)的傳感信息塊,其時間信息量大于0。同時,從用戶體驗的角度出發(fā),為每一個網(wǎng)頁數(shù)據(jù)塊定義視覺信息量的概念。對每一個網(wǎng)頁數(shù)據(jù)塊而言,其傳感信息量表征為時間信息量和視覺信息量的乘積。而對每一個網(wǎng)頁而言,其傳感信息量表征為所有傳感信息塊的傳感信息量之和。(3)根據(jù)研究發(fā)現(xiàn),用戶對網(wǎng)頁不同區(qū)域的內(nèi)容往往呈現(xiàn)出不同的視覺關(guān)注度。根據(jù)用戶視覺關(guān)注度的差異,針對網(wǎng)頁中的不同數(shù)據(jù)內(nèi)容的分布情況,提出了位置權(quán)重的視覺評價方法。以左上角至右下角的連接線為分界,網(wǎng)頁數(shù)據(jù)塊的位置越接近分界線,用戶關(guān)注度越高,數(shù)據(jù)塊的位置權(quán)重也越高大同時,隨著時間推移,用戶對內(nèi)容的關(guān)注點呈現(xiàn)自左上角至中間逐漸分散開的特點,因此,位置權(quán)重與數(shù)據(jù)塊到網(wǎng)頁左上頂點距離成反比。(4)針對網(wǎng)頁不同數(shù)據(jù)塊的視覺區(qū)域大小,結(jié)合位置權(quán)重的概念,定義了有效面積來表征每一個網(wǎng)頁數(shù)據(jù)塊的視覺信息量,視覺信息量分別與網(wǎng)頁數(shù)據(jù)塊的面積和位置權(quán)重成正比。(5)傳感器數(shù)據(jù)具有時間屬性,顯然,實時性越高的數(shù)據(jù)越具有查詢價值??紤]網(wǎng)頁數(shù)據(jù)塊的更新頻率,頻率高的傳感數(shù)據(jù)塊具有更大的時間信息量。本發(fā)明采用如下技術(shù)方案實現(xiàn):一種基于傳感信息量的網(wǎng)頁內(nèi)容評價方法,包括以下步驟:步驟1:統(tǒng)計網(wǎng)頁中所有傳感信息塊的數(shù)量;步驟2:依次計算傳感信息塊的視覺信息量;步驟3:利用語義判別與差值圖片結(jié)合分析的方法,獲取傳感信息塊的更新頻率,計算傳感信息塊的時間信息量;步驟4:依次計算每一個傳感信息塊的信息量,并累加得到網(wǎng)頁的整體信息量。所述步驟1統(tǒng)計網(wǎng)頁中所有傳感信息塊的數(shù)量具體過程如下:網(wǎng)頁經(jīng)過分割,得到不同數(shù)據(jù)塊內(nèi)容,經(jīng)過對網(wǎng)頁內(nèi)容的語義和更新情況分析,判斷分割后的數(shù)據(jù)塊是否包含傳感信息,定義包含傳感信息的數(shù)據(jù)塊為傳感數(shù)據(jù)塊,統(tǒng)計所有傳感信息塊的數(shù)量;令Φ表示網(wǎng)頁中所有傳感信息塊的集合。所述步驟2,計算傳感信息塊的視覺信息量過程如下:以ABCD代表整個網(wǎng)頁,EFGH代表網(wǎng)頁中的傳感信息塊bi,O與O’分別代表網(wǎng)頁和信息塊bi的質(zhì)心,r表示AO的距離,代表AO’的距離,代表AO與AO’的夾角;那么,網(wǎng)頁信息塊bi的位置權(quán)重為:λpos=rrbi·cosαbi---(1)]]>以有效面積來表征網(wǎng)頁的視覺信息量,因此,網(wǎng)頁的有效面積為:Sibiv=λpos·SbiSp---(2)]]>其中,表示信息塊bi的面積,Sp表示網(wǎng)頁的整體面積。所述步驟3,計算傳感信息塊的時間信息量過程如下:首先對獲取的傳感信息塊的網(wǎng)頁源代碼進行預(yù)處理,得到正文內(nèi)容;通過對正文內(nèi)容的更新模板匹配,抽取出網(wǎng)頁文本表述的更新信息;依據(jù)抽取出的更新信息獲取差值圖像,通過對圖像像素值的分析,實現(xiàn)差值圖像結(jié)果檢測,若差值圖像存在不為0的像素點,則更新信息匹配成功,反之,若文本抽取過程發(fā)現(xiàn)不存在更新信息或差值圖檢測結(jié)果與更新信息不符,則利用圖像差值尋找更新頻率;設(shè)傳感信息塊bi的更新時間間隔為取最先出現(xiàn)的兩幅非零差值圖像出現(xiàn)時刻t1,t2,則Δtbi=t2-t1---(3)]]>因此,計算傳感信息塊bi的時間信息量為:Sibit=log2TΔtbi---(4).]]>所述步驟3中,設(shè)置T=86400s,表示一天的時長,表示一天內(nèi)的更新次數(shù),定義傳感信息塊的更新時間間隔為因此有:Sibit≥0ifT′≤Δtbi≤TSibit<0ifΔtbi>T---(5).]]>所述步驟4中,計算網(wǎng)頁的整體信息量過程如下:對網(wǎng)頁中的每一個傳感信息塊bi,定義其傳感信息量為:Sibi=Sibiv·Sibit---(6)]]>因此,對一個完整的網(wǎng)頁而言,網(wǎng)頁的傳感信息量為:SI=Σbi∈ΦSibi---(7).]]>與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)勢在于:第一次針對網(wǎng)頁中的傳感信息的包含情況,為網(wǎng)頁給出一種評價方法;從傳感信息的維度特性入手,結(jié)合對用戶視覺感知特性的考慮,提出了用傳感信息量來度量網(wǎng)頁中所表征傳感信息的情況;傳統(tǒng)的網(wǎng)頁評價手段往往采用人為打分或星級評價,本方法將網(wǎng)頁信息的各項指標量化,通過計算給出評價結(jié)果。通過本發(fā)明所設(shè)計的評價指數(shù),能夠有效地將包含不同數(shù)量,不同類型,不同視覺強度以及不同實時性程度的傳感信息的網(wǎng)頁區(qū)分開來,未來可以為物聯(lián)網(wǎng)中感知信息搜索結(jié)果的網(wǎng)頁排名提供參考依據(jù)。附圖說明圖1是兩張網(wǎng)頁傳感信息塊示意說明圖,其中,圖1(a)是混合類傳感信息網(wǎng)頁信息塊示意圖,圖1(b)是單一圖表類傳感信息網(wǎng)頁信息塊示意圖;圖2是本發(fā)明中視覺信息參數(shù)的空間示意圖;圖3是本發(fā)明中網(wǎng)頁更新頻率的計算流程圖;圖4是本發(fā)明中差值圖像計算更新頻率的時間分析圖。具體實施方式為了便于本領(lǐng)域普通技術(shù)人員理解和實施本發(fā)明,下面結(jié)合附圖及實施例對本發(fā)明作進一步的詳細描述。圖2矩形ABCD代表整個網(wǎng)頁,EFGH代表已識別出的傳感信息塊。本發(fā)明的主要評價方法包括以下幾部分內(nèi)容:步驟1:統(tǒng)計網(wǎng)頁中所有傳感信息塊的數(shù)量。步驟2:依次計算傳感信息塊的視覺信息量。步驟3:利用語義判別或差值圖片分析的方法,獲取傳感信息塊的更新頻率,計算傳感信息塊的時間信息量。步驟4:依次計算每一個傳感信息塊的信息量,并累加得到網(wǎng)頁的整體信息量。具體實施方案包括:1、統(tǒng)計網(wǎng)頁中所有傳感信息塊的數(shù)量如圖1a、圖1b中所示,網(wǎng)頁經(jīng)過分割,分別得到了以粗線條矩形框內(nèi)所示的不同數(shù)據(jù)塊內(nèi)容,經(jīng)過對網(wǎng)頁內(nèi)容的語義和更新情況分析,可以判斷圖中所示兩個網(wǎng)頁都包含傳感信息,且傳感信息塊分別如圖中標記指出,圖1a的四個數(shù)據(jù)塊中,有兩個傳感數(shù)據(jù)塊,分別展示了攝像頭和溫度傳感器所采集的Toronto某地區(qū)的視頻信息和溫度信息結(jié)果;圖1b來自站點thingspeak.com,圖中標出的四個傳感信息塊分別展示的是由用戶自主注冊上傳的某地土壤監(jiān)測情況,包括土壤所含的石膏厚度,系統(tǒng)電壓以及溫度的信息。令Φ表示網(wǎng)頁中所有傳感信息塊的集合。2、信息塊視覺信息量的計算如圖2所示,以ABCD代表整個網(wǎng)頁,EFGH代表網(wǎng)頁中的某個信息塊bi。O與O’分別代表網(wǎng)頁和信息塊bi的質(zhì)心。r表示AO的距離,代表AO’的距離,代表AO與AO’的夾角。那么,網(wǎng)頁信息塊bi的位置權(quán)重為:λpos=rrbi·cosαbi---(1)]]>以的有效面積來表征網(wǎng)頁的視覺信息量,那么,網(wǎng)頁的有效面積為:Sibiv=λpos·SbiSp---(2)]]>其中,表示信息塊bi的面積,而Sp表示網(wǎng)頁的整體面積。3、獲取傳感信息塊的時間信息量如圖3所示,更新頻率的抽取流程中,將語義分析與差值圖像分析的方法相結(jié)合,提高頻率抽取的準確率和效率。首先對獲取的網(wǎng)頁源代碼進行預(yù)處理,得到正文內(nèi)容。通過對正文內(nèi)容的更新模板匹配,抽取出網(wǎng)頁文本表述的更新信息。依據(jù)抽取出的更新信息獲取差值圖像,通過對圖像像素值的分析,實現(xiàn)差值圖像結(jié)果檢測,若差值圖像存在不為0的像素點,則更新信息匹配成功,反正,若文本抽取過程發(fā)現(xiàn)不存在更新信息或差值圖檢測結(jié)果與更新信息不符,則利用圖像差值尋找更新頻率。如圖4所示,設(shè)數(shù)據(jù)塊bi的更新時間間隔為由于網(wǎng)頁截取開始的時候可能發(fā)生在任意時刻點,因此,取最先出現(xiàn)的兩幅非零差值圖像出現(xiàn)時刻t1,t2,則Δtbi=t2-t1---(3)]]>因此,可以計算傳感信息塊bi的時間信息量為:Sibit=log2TΔtbi---(4)]]>由于大部分網(wǎng)頁中信息塊在一天之內(nèi)更新多次,且對大部分傳感器信息而言,當天采集的數(shù)據(jù)內(nèi)容更為有效,因此,定義數(shù)據(jù)的時效性最多為一天。默認設(shè)置T=86400s,表示一天的時長,因而表示一天內(nèi)的更新次數(shù)。又由于對視頻類傳感器數(shù)據(jù)而言,當前常用的流媒體傳輸協(xié)議使用的幀速率通常在20~30fbps的范圍內(nèi)。因此我們定義視頻類傳感信息塊的更新時間間隔為由此,我們有Sibit≥0ifT′≤Δtbi≤TSibit<0ifΔtbi>T---(5)]]>4、計算網(wǎng)頁的傳感信息量對網(wǎng)頁中的每一個傳感信息塊bi,定義其傳感信息量為:Sibi=Sibiv·Sibit---(6)]]>因此,對一個完整的網(wǎng)頁而言,網(wǎng)頁的傳感信息量為:SI=Σbi∈ΦSibi---(7).]]>當前第1頁1 2 3