專利名稱:一種特定領(lǐng)域信息自動化組織的裝置及其方法
技術(shù)領(lǐng)域:
本發(fā)明涉及機器學(xué)習與信息檢索技術(shù),尤其涉及一種特定領(lǐng)域信息自動化組織的裝置及其方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)信息越來越豐富和日益多元化,但,同時也意味著如果用戶想全面而系統(tǒng)地獲得某一類特定信息,將不得不花費更多的時間和精力從信息海洋中進行篩選,并自行進行組織和梳理。為此,一些互聯(lián)網(wǎng)信息提供商做了這方面的嘗試,例如各大門戶網(wǎng)站提供了分頻道的新聞;針對某一重大事件提供專題報道等,但這些產(chǎn)品很大程度上依賴于人工篩選和編輯,展現(xiàn)形式也往往是單條的新聞、圖片等,形式也較為單一。 近年來,機器學(xué)習技術(shù)(包括分類、聚類等技術(shù))和信息檢索技術(shù)得到快速發(fā)展,同時隨著計算機性能的不斷提高,為自動化篩選某一特定領(lǐng)域的信息,并進行有效組織和檢索功能提供了技術(shù)實現(xiàn)的可能。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種特定領(lǐng)域信息自動化組織的裝置及其方法,以實現(xiàn)機器對信息的分類、聚類和檢索,使其在互聯(lián)網(wǎng)海量信息的環(huán)境中,自動篩選出某一特定領(lǐng)域的信息,并實現(xiàn)有效組織和檢索功能。為達到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的
一種特定領(lǐng)域信息自動化組織的裝置,該裝置主要包括新聞采集模塊、新聞篩選模塊、新聞話題檢測模塊、后臺信息緩存模塊、特定領(lǐng)域信息采集模塊、索引模塊以及檢索模塊;其中
新聞采集模塊,用于采集網(wǎng)絡(luò)新聞;
新聞篩選模塊,從采集的新聞中篩選出特定領(lǐng)域的新聞;
新聞話題檢測模塊,對特定領(lǐng)域的新聞進行話題檢測;
后臺信息緩存模塊,緩存按話題組織的特定領(lǐng)域的新聞,以備前端模塊隨時訪問;
特定領(lǐng)域信息采集模塊,從設(shè)定的網(wǎng)站采集該特定領(lǐng)域的信息;
索引模塊,對新聞和特定領(lǐng)域的信息建立索引 檢索模塊,對用戶輸入的查詢進行處理并查詢索引,并整理檢索結(jié)果。其中所述裝置進一步包括前端模塊,用于展示直接面向用戶的信息并接收用戶的請求。所述特定領(lǐng)域,包括使用者希望通過互聯(lián)網(wǎng)去搜集的信息領(lǐng)域。所述的特定領(lǐng)域信息采集模塊采集的信息,具體為從設(shè)定的網(wǎng)站采集的不合格食品的息。一種特定領(lǐng)域信息自動化組織的方法,主要包括如下步驟A、信息采集的步驟,從網(wǎng)絡(luò)采集新聞和特定網(wǎng)站的結(jié)構(gòu)化信息;
B、信息篩選的步驟,對所采集的新聞自動篩選,得出特定領(lǐng)域的新聞;
C、話題檢測的步驟,對特定領(lǐng)域的新聞進行聚類,組織成話題展示;
D、建立索引的步驟,對特定領(lǐng)域的新聞和特定網(wǎng)站的結(jié)構(gòu)化信息建立索引,以供檢索。其中步驟A主要包括
采集網(wǎng)絡(luò)新聞,即采用網(wǎng)絡(luò)爬蟲采集各類新聞網(wǎng)站的新聞,并將其轉(zhuǎn)化為結(jié)構(gòu)化信息;
以及
采集特定網(wǎng)站的結(jié)構(gòu)化信息,即從特定網(wǎng)站采集特定領(lǐng)域的信息,也將其轉(zhuǎn)化為結(jié)構(gòu)
化信息。步驟B所述對所采集的新聞自動篩選,主要采用預(yù)先專門訓(xùn)練的樸素貝葉斯分類器,以抽取網(wǎng)頁的標題、正文、url的特征,并結(jié)合相關(guān)規(guī)則,判定新采集到的新聞是否屬于特定領(lǐng)域類的新聞。步驟C主要包括
Cl、去除長時間沒有變化的話題;
C2、對本周期內(nèi)進入的各條新聞抽取特征,并構(gòu)造成用于描述該新聞的基于向量空間模型的特征向量;
C3、對所述生成的一批特征向量進行層次聚類,聚類算法采用非加權(quán)組中心UPGMC算法,將聚類結(jié)果中的每個集合即簇均擁有一個中心向量,并計算余弦相似度;
C4、對所述的每一個簇,找出與該簇的相似度最大的話題;如果該相似度大于預(yù)定閥值,將該簇合并到該話題中,并修正其中心向量和更新時間;否則,將該簇視為一個新的話題,其誕生時間和更新時間為系統(tǒng)當前時間;
C5、對所有話題再進行一次UPGMC層次聚類,聚類結(jié)果的所有簇即為本周期結(jié)束后本的全部話題。步驟D包括對所述特定領(lǐng)域的新聞和所述特定領(lǐng)域類的信息建立索引。本發(fā)明所提供的特定領(lǐng)域信息自動化組織的裝置及其方法,具有以下優(yōu)點 在互聯(lián)網(wǎng)海量信息的環(huán)境中,實現(xiàn)自動化篩選出某一特定領(lǐng)域的信息,并對這些信息
實現(xiàn)了按話題組織和展現(xiàn),同時還提供傳統(tǒng)文本信息和特殊結(jié)構(gòu)化信息的檢索功能。使用戶省去了篩選、梳理、尋找特定領(lǐng)域信息的麻煩。
圖I為本發(fā)明實施例的食品安全類信息自動化組織的裝置的結(jié)構(gòu)示意 圖2為本發(fā)明所述特定領(lǐng)域信息自動化組織方法的總體流程示意 圖3為本發(fā)明的信息采集流程 圖4為本發(fā)明的新聞話題檢測流程 圖5為本發(fā)明的建立索引流程圖。
具體實施例方式下面結(jié)合附圖及本發(fā)明的實施例對本發(fā)明的裝置及其方法作進一步詳細的說明。本發(fā)明出于實際產(chǎn)品的需求等商業(yè)因素的考慮,僅以食品安全類信息的處理為例,來說明特定領(lǐng)域信息自動化組織的裝置的構(gòu)成及其方法的具體實現(xiàn)過程,由于本發(fā)明的裝置及其方法并不依賴于領(lǐng)域的選取,故亦可以同樣處理其他領(lǐng)域的信息。因此,采用該裝置及其方法,略加改變不同的需求即可實現(xiàn)對其他類信息的自動化處理,如對計算機硬件的技術(shù)發(fā)展類信息、計算機軟件測試技術(shù)類信息等使用者希望通過互聯(lián)網(wǎng)去搜集的領(lǐng)域的信息。圖I為本發(fā)明實施例的食品安全類信息自動化組織的裝置的結(jié)構(gòu)示意圖,如圖I所示,該裝置主要包括
新聞采集模塊負責采集網(wǎng)絡(luò)新聞。特定領(lǐng)域信息采集模塊從設(shè)定的網(wǎng)站采集該特定領(lǐng)域的信息。如,這里可以是從設(shè)定網(wǎng)站采集不合格食品信息的不合格食品信息采集模塊。
新聞篩選模塊從采集的新聞中篩選出特定領(lǐng)域的新聞。如,這里可以是食品安全類新聞。新聞話題檢測模塊對特定領(lǐng)域的新聞進行話題檢測。如,對食品安全類新聞進行話題檢測。后臺信息緩存模塊緩存按話題組織的特定領(lǐng)域的新聞,以備前端模塊隨時訪問。如,緩存按話題組織的食品安全新聞。索引模塊對新聞和特定領(lǐng)域的信息建立索引。如,對新聞和不合格食品信息建立索引。檢索模塊負責對用戶輸入的查詢進行處理并查詢索引,并整理檢索結(jié)果。前端模塊主要展示直接面向用戶的信息并接收用戶的請求。圖2為本發(fā)明所述特定領(lǐng)域信息自動化組織方法的總體流程示意圖,該流程可周期性執(zhí)行,每個執(zhí)行周期主要包括如下步驟(這里僅以食品安全類信息為例)
步驟SI :信息采集的步驟,從網(wǎng)絡(luò)采集新聞和特定網(wǎng)站的結(jié)構(gòu)化信息。這里,所述信息采集的步驟,如圖3所示,具體包括
步驟Sll :采集網(wǎng)絡(luò)新聞,即采用網(wǎng)絡(luò)爬蟲采集各類新聞網(wǎng)站的新聞,并轉(zhuǎn)化為結(jié)構(gòu)化信息以便進一步處理。所述結(jié)構(gòu)化信息,是指包括標題、正文、作者、來源、時間等信息項的規(guī)范信息。步驟S12 :采集特定網(wǎng)站的結(jié)構(gòu)化信息,即從特定政府網(wǎng)站采集公示的不合格食品信息。這類信息大多是結(jié)構(gòu)化的,以表格的形式提供。采集后同樣將其轉(zhuǎn)化成自定義的結(jié)構(gòu)化信息。步驟S2 :信息篩選的步驟,對采集的新聞自動篩選,得出食品安全領(lǐng)域的新聞。這里,主要采用預(yù)先專門訓(xùn)練的樸素貝葉斯分類器,抽取網(wǎng)頁的標題、正文、url等特征,并結(jié)合若干規(guī)則,判定新采集到的新聞是否屬于食品安全類新聞,如果是,則判定具體屬于哪一個子類,并進行分類。步驟S3 :話題檢測的步驟,對食品安全領(lǐng)域新聞進行聚類,組織成話題展示。這里,需要對篩選出的食品安全類新聞進行處理,需要周期性地執(zhí)行以下子步驟,如圖4所示
步驟S31 :去除長時間沒有變化的話題。這樣既有效降低了后續(xù)聚類處理的數(shù)據(jù)量,又避免了過時話題對聚類可能造成的干擾。
步驟S32 :對本周期內(nèi)進入的各條新聞抽取特征。首先對新聞的標題和正文進行分詞、詞性標注、去停用詞、專名識別、同義詞歸并等步驟,處理的結(jié)果以詞或短語為單位,統(tǒng)稱為token,對每個token,計算其TF. IffF分值作為基礎(chǔ)權(quán)重,并結(jié)合其在文中的位置、詞性、專名類型等信息,確定其最終的權(quán)重。再把token及其分值構(gòu)造成一個基于向量空間模型的特征向量,用以描述該新聞。步驟S33 :對步驟S32中生成的一批特征向量進行層次聚類,聚類算法采用非加權(quán)組中心(Unweighted Pair-Group Method using Centroids, UPGMC)算法,在該算法中,聚類結(jié)果中的每個集合(稱為簇)都擁有一個中心向量。相似度的計算方法為采用兩個簇的中心向量的余弦相似度。步驟S34 :對步驟S33中產(chǎn)生的每一個簇,找出與該簇的相似度最大的話題。相似度的計算方法為仍余弦相似度。如果該相似度大于預(yù)定閥值,就把該簇合并到該話題中,并修正其中心向量和更新時間。否則,該簇被視為一個新的話題,其誕生時間和更新時間都是系統(tǒng)當前時間。
步驟S35 :對所有話題再進行一次UPGMC層次聚類,聚類結(jié)果的所有簇即為本周期結(jié)束后本的全部話題。該過程同樣采用余弦相似度計算簇的相似度。如果某個話題是幾個話題合并產(chǎn)生,該話題的更新時間亦為系統(tǒng)當前時間。步驟S4 :建立索引的步驟,對食品安全領(lǐng)域新聞和特定網(wǎng)站的結(jié)構(gòu)化信息建立索弓丨,以供檢索。這里,對食品安全領(lǐng)域新聞和不合格食品信息建立索引的過程,如圖5所示,主要包括
步驟S41 :對食品安全新聞建立索引,索引字段包括標題、正文等,并且支持檢索結(jié)果按時間等因素排序。步驟S42 :對不合格食品信息建立索引。首先轉(zhuǎn)化成和待檢索新聞同樣的數(shù)據(jù)格式,以便和新聞索引采用同一套檢索系統(tǒng)。索引字段包括食品名、商標名、類別等,并支持分類別篩選。需要說明的是,由于網(wǎng)絡(luò)環(huán)境下新數(shù)據(jù)不斷產(chǎn)生,因而以上步驟的執(zhí)行都是周期性的。以上裝置及其方法經(jīng)過論證并經(jīng)實踐表明,能夠有效解決自動化篩選出食品安全領(lǐng)域的信息,并對這些信息實現(xiàn)了按話題組織和展現(xiàn),同時還提供食品安全領(lǐng)域新聞信息和不合格食品息的檢索功能。出于實際產(chǎn)品的需求和某些非技術(shù)原因的考慮,本發(fā)明主要具體處理的是食品安全類信息,但由于本發(fā)明的方法并不依賴于某一特定領(lǐng)域的選取,故對于其他特定領(lǐng)域的信息(如,我們還實現(xiàn)了針對產(chǎn)品質(zhì)量缺陷曝光領(lǐng)域信息的類似產(chǎn)品),只要采用相似的篩選、按話題組織展示、文本和結(jié)構(gòu)化信息統(tǒng)一檢索方法,都應(yīng)被視為本發(fā)明的保護范圍之內(nèi)。以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。
權(quán)利要求
1.一種特定領(lǐng)域信息自動化組織的裝置,其特征在于,該裝置主要包括新聞采集模塊、新聞篩選模塊、新聞話題檢測模塊、后臺信息緩存模塊、特定領(lǐng)域信息采集模塊、索引模塊以及檢索模塊;其中 新聞采集模塊,用于采集網(wǎng)絡(luò)新聞; 新聞篩選模塊,從采集的新聞中篩選出特定領(lǐng)域的新聞; 新聞話題檢測模塊,對特定領(lǐng)域的新聞進行話題檢測; 后臺信息緩存模塊,緩存按話題組織的特定領(lǐng)域的新聞,以備前端模塊隨時訪問; 特定領(lǐng)域信息采集模塊,從設(shè)定的網(wǎng)站采集該特定領(lǐng)域的信息; 索引模塊,對新聞和特定領(lǐng)域的信息建立索引;以及 檢索模塊,對用戶輸入的查詢進行處理并查詢索引,并整理檢索結(jié)果。
2.根據(jù)權(quán)利要求I所述的特定領(lǐng)域信息自動化組織的裝置,其特征在于,所述裝置進一步包括前端模塊,用于展示直接面向用戶的信息并接收用戶的請求。
3.根據(jù)權(quán)利要求I所述的特定領(lǐng)域信息自動化組織的裝置,其特征在于,所述特定領(lǐng)域,包括使用者希望通過互聯(lián)網(wǎng)去搜集的信息領(lǐng)域。
4.根據(jù)權(quán)利要求I所述的特定領(lǐng)域信息自動化組織的裝置,其特征在于,所述的特定領(lǐng)域信息采集模塊采集的信息,具體為從設(shè)定的網(wǎng)站采集的不合格食品的信息。
5.一種特定領(lǐng)域信息自動化組織的方法,其特征在于,主要包括如下步驟 A、信息采集的步驟,從網(wǎng)絡(luò)采集新聞和特定網(wǎng)站的結(jié)構(gòu)化信息; B、信息篩選的步驟,對所采集的新聞自動篩選,得出特定領(lǐng)域的新聞; C、話題檢測的步驟,對特定領(lǐng)域的新聞進行聚類,組織成話題展示; D、建立索引的步驟,對特定領(lǐng)域的新聞和特定網(wǎng)站的結(jié)構(gòu)化信息建立索引,以供檢索。
6.根據(jù)權(quán)利要求5所述特定領(lǐng)域信息自動化組織的方法,其特征在于,步驟A主要包括 采集網(wǎng)絡(luò)新聞,即采用網(wǎng)絡(luò)爬蟲采集各類新聞網(wǎng)站的新聞,并將其轉(zhuǎn)化為結(jié)構(gòu)化信息;以及 采集特定網(wǎng)站的結(jié)構(gòu)化信息,即從特定網(wǎng)站采集特定領(lǐng)域的信息,也將其轉(zhuǎn)化為結(jié)構(gòu)化信息。
7.根據(jù)權(quán)利要求5所述的特定領(lǐng)域信息自動化組織的方法,其特征在于,步驟B所述對所采集的新聞自動篩選,主要采用預(yù)先專門訓(xùn)練的樸素貝葉斯分類器,以抽取網(wǎng)頁的標題、正文、url的特征,并結(jié)合相關(guān)規(guī)則,判定新采集到的新聞是否屬于特定領(lǐng)域類的新聞。
8.根據(jù)權(quán)利要求5所述的特定領(lǐng)域信息自動化組織的方法,其特征在于,步驟C主要包括 Cl、去除長時間沒有變化的話題; C2、對本周期內(nèi)進入的各條新聞抽取特征,并構(gòu)造成用于描述該新聞的基于向量空間模型的特征向量; C3、對所述生成的一批特征向量進行層次聚類,聚類算法采用非加權(quán)組中心UPGMC算法,將聚類結(jié)果中的每個集合即簇均擁有一個中心向量,并計算余弦相似度; C4、對所述的每一個簇,找出與該簇的相似度最大的話題;如果該相似度大于預(yù)定閥值,將該簇合并到該話題中,并修正其中心向量和更新時間;否則,將該簇視為一個新的話題,其誕生時間和更新時間為系統(tǒng)當前時間; C5、對所有話題再進行一次UPGMC層次聚類,聚類結(jié)果的所有簇即為本周期結(jié)束后本的全部話題。
9.根據(jù)權(quán)利要求I所述的特定領(lǐng)域信息自動化組織的方法,其特征在于,步驟D包括對所述特定領(lǐng)域的新聞和所述特定領(lǐng)域類的信息建立索引。
全文摘要
本發(fā)明公開了一種特定領(lǐng)域信息自動化組織的裝置及其方法,該裝置主要包括新聞采集模塊,用于采集網(wǎng)絡(luò)新聞;新聞篩選模塊,從采集的新聞中篩選出特定領(lǐng)域的新聞;新聞話題檢測模塊,對特定領(lǐng)域的新聞進行話題檢測;后臺信息緩存模塊,緩存按話題組織的特定領(lǐng)域的新聞,以備前端模塊隨時訪問;特定領(lǐng)域信息采集模塊,從設(shè)定的網(wǎng)站采集該特定領(lǐng)域的信息;索引模塊,對新聞和特定領(lǐng)域的信息建立索引;以及檢索模塊,對用戶輸入的查詢進行處理并查詢索引,并整理檢索結(jié)果。采用本發(fā)明,能夠?qū)崿F(xiàn)機器對信息的分類、聚類和檢索,使其在互聯(lián)網(wǎng)海量信息的環(huán)境中,自動篩選出某一特定領(lǐng)域的信息,并實現(xiàn)有效組織和檢索功能。
文檔編號G06F17/30GK102890715SQ201210357548
公開日2013年1月23日 申請日期2012年9月24日 優(yōu)先權(quán)日2012年9月24日
發(fā)明者李德聰, 楊青 申請人:人民搜索網(wǎng)絡(luò)股份公司