基于煤礦安全事件主題相關(guān)性判別方法
【技術(shù)領(lǐng)域】
[0001] 互聯(lián)網(wǎng)上包含大量的網(wǎng)頁信息資源,要識別哪些網(wǎng)頁是與主題相關(guān),哪些與主題 不相關(guān),這是一個關(guān)鍵問題。本課題所研究的就是針對煤礦安全事件這一主題的頁面主題 相關(guān)性判別算法。
[0002] 本課題發(fā)明提出的頁面主題相關(guān)性判別有兩個方面的含義,一是目標(biāo)網(wǎng)頁是否與 主題相關(guān);一是計(jì)算目標(biāo)網(wǎng)頁與主題相關(guān)的程度。
[0003] 在頁面信息提取模塊中,需要判斷出當(dāng)前網(wǎng)頁跟主題相關(guān)與否。當(dāng)頁面信息提取 模塊在互聯(lián)網(wǎng)上遍歷時,需要通過頁面主題相關(guān)性判別算法來對URL鏈接和己經(jīng)加載過的 網(wǎng)頁內(nèi)容進(jìn)行分析,判斷其是否為主題相關(guān)頁面以及對還未加載頁面的URL鏈接是否在多 次遍歷后會到達(dá)與主題相關(guān)的頁面,這樣處理可以使下載下來的頁面盡可能與主題相關(guān)。 [0004]在對搜索結(jié)果列表進(jìn)行排序時,需要計(jì)算出每個結(jié)果頁面與主題相關(guān)的程度。計(jì) 算每個結(jié)果頁面與主題的相關(guān)度,可以實(shí)現(xiàn)檢索模塊對結(jié)果集頁面主題相關(guān)度的排序,使 主題相關(guān)度較高的結(jié)果排在前面,這樣處理可以使用戶盡快找到所需要的內(nèi)容。
【背景技術(shù)】
[0005] 近年來,煤礦上頻繁發(fā)生事故。這不僅使國家財(cái)產(chǎn)造成損失,還使廣大人民群眾的 生命安全受到威脅。人們逐漸地開始關(guān)注起煤礦安全問題。互聯(lián)網(wǎng)作為當(dāng)今時代的信息主 要載體,上面會及時更新發(fā)布一些實(shí)時的煤礦安全信息。通過對煤礦安全信息的檢索,不僅 可以增強(qiáng)人們在日常生產(chǎn)過程中的安全意識,還可以在事故發(fā)生時為人們提供一些有價值 的參考和解決方案。
[0006] 然而,煤礦安全信息檢索并不是一個簡單的過程。它是由網(wǎng)頁信息提取模塊、索引 模塊以及信息檢索模塊三個部分組成。本課題的研究重點(diǎn)頁面主題相關(guān)性判別算法就是網(wǎng) 頁信息提取模塊的核心。
[0007] 如何從龐大的互聯(lián)網(wǎng)之中篩選出與主題相關(guān)的頁面信息,一直都是眾多專家學(xué)者 的研究重點(diǎn),同時也很有研究價值。
[0008] 目前,主要的頁面相關(guān)性判別方法有四種:1、基于元數(shù)據(jù)的判別;2、基于鏈接標(biāo)簽 數(shù)據(jù)的判別;3、基于鏈接結(jié)構(gòu)分析的判別;4、基于頁面內(nèi)容的判別。下文將通過對這幾種方 法進(jìn)行深入研究,分析出這些方法的優(yōu)缺點(diǎn)和改進(jìn)的可行性,最終確定本文要采用的判別 方法。
[0009] 1)基于元數(shù)據(jù)的判別
[0010] 元數(shù)據(jù)(Metadata)是一種Html文件中的標(biāo)簽數(shù)據(jù)。通過研究發(fā)現(xiàn),在Html頁面中 添加元數(shù)據(jù),不僅可以增加頁面信息,還可以方便頁面信息提取工作。在Html規(guī)范從2.0版 本引入了〈Meta>這一標(biāo)簽(Tag),其一般的表達(dá)形式為:〈Meta name = 〃 ... "content ="· ·.">。
[0011] 2)基于鏈接標(biāo)簽數(shù)據(jù)的判別
[0012] 網(wǎng)頁編寫者在網(wǎng)頁正文中引用另外一個頁面的URL鏈接,這就表明該網(wǎng)頁對其所 引用的頁面的一種認(rèn)同。而且在添加 URL鏈接的上下文部分,一定會有對該鏈接的解釋說 明,基于鏈接標(biāo)簽數(shù)據(jù)的判別方法就是針對這種情況而產(chǎn)生的?;阪溄訕?biāo)簽數(shù)據(jù)的判別 方法就是通過對鏈接的文本及其鏈接上下文信息鏈接標(biāo)簽數(shù)據(jù)進(jìn)行提取,再將這些提取到 的數(shù)據(jù)與主題關(guān)鍵詞庫中的主題詞進(jìn)行匹配,最終判定主題相關(guān)性。
[0013] 在Html頁面中,可以添加超鏈接的標(biāo)簽有四種,分另lj是:l、Anchor標(biāo)簽;2、Image標(biāo) 簽;3、Map標(biāo)簽和Area標(biāo)簽;4、Frame和IFrame標(biāo)簽。Anchor標(biāo)簽的屬性與Map和Area標(biāo)簽大 致相同,它們中與超鏈接相關(guān)的屬性有Title、Alt、Href和鏈接文本等。在Image標(biāo)簽中和超 鏈接相關(guān)的屬性有Src和Alt。在Frame和IFrame標(biāo)簽中與超鏈接相關(guān)的屬性有Src和Name等 屬性。據(jù)統(tǒng)計(jì)表明,利用鏈接的文本信息、鏈接的上下文信息和帶有超鏈接的標(biāo)簽中的Href 和Title屬性進(jìn)行對Web頁面進(jìn)行主題相關(guān)性判別,最為常見。
[0014] 3)基于鏈接結(jié)構(gòu)分析的判別
[0015] 基于鏈接結(jié)構(gòu)分析的方法在設(shè)計(jì)之初是用來解決搜索結(jié)果列表中的網(wǎng)頁的重要 度排序問題的。它的目的是在找出與用戶輸入搜索關(guān)鍵詞相關(guān)的網(wǎng)頁的基礎(chǔ)上,使它們能 夠按照與關(guān)鍵詞的相關(guān)度、重要度排序,使相關(guān)度、重要度高的結(jié)果頁面排在前面,方面用 戶進(jìn)行瀏覽。但是如果將主題搜索引擎中的主題看做用戶輸入的搜索關(guān)鍵詞,就可以將該 方法作為用于頁面主題相關(guān)性的判別的方法。其具體過程是:將主題作為用戶搜索關(guān)鍵詞 進(jìn)行檢索時,當(dāng)通過基于鏈接結(jié)構(gòu)的主題相關(guān)度判別方法進(jìn)行計(jì)算時,其相關(guān)度超過了一 定的閾值,就認(rèn)為當(dāng)前頁面與主題相關(guān)。
[0016] 4)基于頁面內(nèi)容相關(guān)性判別
[0017] 當(dāng)前,基于頁面內(nèi)容的主題相關(guān)性判別方法通常是基于關(guān)鍵詞的,其具體的方法 有基于字符串匹配的全文掃描、布爾模型、向量空間模型等。下文將分別對這三種方式進(jìn)行 介紹。
[0018] (1)基于字符串匹配的全文掃描
[0019] 基于字符串匹配的全文掃描的基本思想就是字符串匹配。這種方法是一種最直 接、最簡單的方式來判別頁面是否與主題相關(guān)。該方法就是通過主題關(guān)鍵詞與整個網(wǎng)頁庫 中的網(wǎng)頁文本內(nèi)容進(jìn)行全文字符串匹配。目前,基于字符串匹配的全文掃描已經(jīng)有了很廣 泛的應(yīng)用,基于這種思想衍生出了很多算法,比如樸素的字符串匹配算法、KMP算法以及 Rabin-Karp算法。當(dāng)然,在進(jìn)行全文匹配掃描之前,我們需要先提取網(wǎng)頁正文,然后再通過 該方法進(jìn)行全文掃描匹配。如果在文本文件中匹配成功的次數(shù)越多,就表明該網(wǎng)頁的主題 相關(guān)度就越尚。
[0020] (2)布爾模型
[0021] 布爾模型是一種將集合論和布爾代數(shù)應(yīng)用于頁面主題判別的一種創(chuàng)新。在該模型 中,所有的項(xiàng)只有兩種結(jié)果,一是在網(wǎng)頁正文中出現(xiàn),一是沒有出現(xiàn)。它將文本d表示為d = {tl,wl ;t2,w2ftn,wn},其中ti表示文本中的特征項(xiàng),wi表示特征項(xiàng)ti的權(quán)重,該項(xiàng)具有 二值性,即只能取0或1。當(dāng)特征項(xiàng)ti出現(xiàn)在文本d中時,wi = l,反之,wi = 0。在判別一個網(wǎng)頁 文本是否與主題相關(guān)時,先根據(jù)主題詞庫中的關(guān)鍵詞建立該模型的表達(dá)式,wi默認(rèn)為〇,然 后再對網(wǎng)頁正文進(jìn)行全文掃描,當(dāng)正文中出現(xiàn)特征項(xiàng)時,將該關(guān)鍵詞的權(quán)重設(shè)置為1。最后, 通過計(jì)算該表達(dá)式的累加和與某一閾值做比較來確定該網(wǎng)頁的主題相關(guān)性。
[0022] (3)向量空間模型
[0023] 向量空間模型VSM(Vector Space Modeir)是近些年在業(yè)界應(yīng)用最為廣泛的主題 判別模型。由于該模型可以計(jì)算出主題相關(guān)度的值,所以它十分適用于多個頁面的主題相 關(guān)度排序工作。下面將介紹向量空間模型中的幾個基本概念:
[0024] 文檔:在頁面信息提取模塊看來,文檔就是網(wǎng)頁的正文內(nèi)容。在向量空間模型看來 文檔就是向量空間模型中的一個向量。
[0025] 特征項(xiàng):文檔是由許多詞構(gòu)成,這些詞可以用來表示這個文檔。同樣向量空間模型 的特征項(xiàng)就是可以用來表示其向量空間中一個向量的詞。目前,針對特征項(xiàng)選擇的問題,已 經(jīng)有了很多方法,比如文檔頻率(Document Frequency,DF),信息增益(Information Gain, IG),互信息(Mutual Information,MI),詞條的x的平方統(tǒng)計(jì)(CHI),期望交叉摘(Expected CrossEntropy)〇
[0026] 特征項(xiàng)的權(quán)重:先將向量空間模型中的文檔d表示為d= {tl,wl;t2, w2; ···!:;[, wi ;…tn,wn}的形式,其中ti指的是第i個特征項(xiàng),wi是特征項(xiàng)ti的權(quán)重。結(jié)合以上的文檔表 達(dá)式,采用TF-IDF算法來計(jì)算特征