一種特定領(lǐng)域信息自動化組織的裝置及其方法

文檔序號：6377588閱讀：195來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種特定領(lǐng)域信息自動化組織的裝置及其方法
技術(shù)領(lǐng)域：
本發(fā)明涉及機器學(xué)習與信息檢索技術(shù)，尤其涉及一種特定領(lǐng)域信息自動化組織的裝置及其方法。
背景技術(shù)：
隨著互聯(lián)網(wǎng)的高速發(fā)展，網(wǎng)絡(luò)信息越來越豐富和日益多元化，但，同時也意味著如果用戶想全面而系統(tǒng)地獲得某一類特定信息，將不得不花費更多的時間和精力從信息海洋中進行篩選，并自行進行組織和梳理。為此，一些互聯(lián)網(wǎng)信息提供商做了這方面的嘗試，例如各大門戶網(wǎng)站提供了分頻道的新聞；針對某一重大事件提供專題報道等，但這些產(chǎn)品很大程度上依賴于人工篩選和編輯，展現(xiàn)形式也往往是單條的新聞、圖片等，形式也較為單一。近年來，機器學(xué)習技術(shù)(包括分類、聚類等技術(shù))和信息檢索技術(shù)得到快速發(fā)展，同時隨著計算機性能的不斷提高，為自動化篩選某一特定領(lǐng)域的信息，并進行有效組織和檢索功能提供了技術(shù)實現(xiàn)的可能。

發(fā)明內(nèi)容
有鑒于此，本發(fā)明的主要目的在于提供一種特定領(lǐng)域信息自動化組織的裝置及其方法，以實現(xiàn)機器對信息的分類、聚類和檢索，使其在互聯(lián)網(wǎng)海量信息的環(huán)境中，自動篩選出某一特定領(lǐng)域的信息，并實現(xiàn)有效組織和檢索功能。為達到上述目的，本發(fā)明的技術(shù)方案是這樣實現(xiàn)的
一種特定領(lǐng)域信息自動化組織的裝置，該裝置主要包括新聞采集模塊、新聞篩選模塊、新聞話題檢測模塊、后臺信息緩存模塊、特定領(lǐng)域信息采集模塊、索引模塊以及檢索模塊；其中
新聞采集模塊，用于采集網(wǎng)絡(luò)新聞；
新聞篩選模塊，從采集的新聞中篩選出特定領(lǐng)域的新聞；
新聞話題檢測模塊，對特定領(lǐng)域的新聞進行話題檢測；
后臺信息緩存模塊，緩存按話題組織的特定領(lǐng)域的新聞，以備前端模塊隨時訪問；
特定領(lǐng)域信息采集模塊，從設(shè)定的網(wǎng)站采集該特定領(lǐng)域的信息；
索引模塊，對新聞和特定領(lǐng)域的信息建立索引檢索模塊，對用戶輸入的查詢進行處理并查詢索引，并整理檢索結(jié)果。其中所述裝置進一步包括前端模塊，用于展示直接面向用戶的信息并接收用戶的請求。所述特定領(lǐng)域，包括使用者希望通過互聯(lián)網(wǎng)去搜集的信息領(lǐng)域。所述的特定領(lǐng)域信息采集模塊采集的信息，具體為從設(shè)定的網(wǎng)站采集的不合格食品的息。一種特定領(lǐng)域信息自動化組織的方法，主要包括如下步驟A、信息采集的步驟，從網(wǎng)絡(luò)采集新聞和特定網(wǎng)站的結(jié)構(gòu)化信息；
B、信息篩選的步驟，對所采集的新聞自動篩選，得出特定領(lǐng)域的新聞；
C、話題檢測的步驟，對特定領(lǐng)域的新聞進行聚類，組織成話題展示；
D、建立索引的步驟，對特定領(lǐng)域的新聞和特定網(wǎng)站的結(jié)構(gòu)化信息建立索引，以供檢索。其中步驟A主要包括
采集網(wǎng)絡(luò)新聞，即采用網(wǎng)絡(luò)爬蟲采集各類新聞網(wǎng)站的新聞，并將其轉(zhuǎn)化為結(jié)構(gòu)化信息；
以及
采集特定網(wǎng)站的結(jié)構(gòu)化信息，即從特定網(wǎng)站采集特定領(lǐng)域的信息，也將其轉(zhuǎn)化為結(jié)構(gòu)
化信息。步驟B所述對所采集的新聞自動篩選，主要采用預(yù)先專門訓(xùn)練的樸素貝葉斯分類器，以抽取網(wǎng)頁的標題、正文、url的特征，并結(jié)合相關(guān)規(guī)則，判定新采集到的新聞是否屬于特定領(lǐng)域類的新聞。步驟C主要包括
Cl、去除長時間沒有變化的話題；
C2、對本周期內(nèi)進入的各條新聞抽取特征，并構(gòu)造成用于描述該新聞的基于向量空間模型的特征向量；
C3、對所述生成的一批特征向量進行層次聚類，聚類算法采用非加權(quán)組中心UPGMC算法，將聚類結(jié)果中的每個集合即簇均擁有一個中心向量，并計算余弦相似度；
C4、對所述的每一個簇，找出與該簇的相似度最大的話題；如果該相似度大于預(yù)定閥值，將該簇合并到該話題中，并修正其中心向量和更新時間；否則，將該簇視為一個新的話題，其誕生時間和更新時間為系統(tǒng)當前時間；
C5、對所有話題再進行一次UPGMC層次聚類，聚類結(jié)果的所有簇即為本周期結(jié)束后本的全部話題。步驟D包括對所述特定領(lǐng)域的新聞和所述特定領(lǐng)域類的信息建立索引。本發(fā)明所提供的特定領(lǐng)域信息自動化組織的裝置及其方法，具有以下優(yōu)點在互聯(lián)網(wǎng)海量信息的環(huán)境中，實現(xiàn)自動化篩選出某一特定領(lǐng)域的信息，并對這些信息
實現(xiàn)了按話題組織和展現(xiàn)，同時還提供傳統(tǒng)文本信息和特殊結(jié)構(gòu)化信息的檢索功能。使用戶省去了篩選、梳理、尋找特定領(lǐng)域信息的麻煩。

圖I為本發(fā)明實施例的食品安全類信息自動化組織的裝置的結(jié)構(gòu)示意圖2為本發(fā)明所述特定領(lǐng)域信息自動化組織方法的總體流程示意圖3為本發(fā)明的信息采集流程圖4為本發(fā)明的新聞話題檢測流程圖5為本發(fā)明的建立索引流程圖。
具體實施例方式下面結(jié)合附圖及本發(fā)明的實施例對本發(fā)明的裝置及其方法作進一步詳細的說明。本發(fā)明出于實際產(chǎn)品的需求等商業(yè)因素的考慮，僅以食品安全類信息的處理為例，來說明特定領(lǐng)域信息自動化組織的裝置的構(gòu)成及其方法的具體實現(xiàn)過程，由于本發(fā)明的裝置及其方法并不依賴于領(lǐng)域的選取，故亦可以同樣處理其他領(lǐng)域的信息。因此，采用該裝置及其方法，略加改變不同的需求即可實現(xiàn)對其他類信息的自動化處理，如對計算機硬件的技術(shù)發(fā)展類信息、計算機軟件測試技術(shù)類信息等使用者希望通過互聯(lián)網(wǎng)去搜集的領(lǐng)域的信息。圖I為本發(fā)明實施例的食品安全類信息自動化組織的裝置的結(jié)構(gòu)示意圖，如圖I所示，該裝置主要包括
新聞采集模塊負責采集網(wǎng)絡(luò)新聞。特定領(lǐng)域信息采集模塊從設(shè)定的網(wǎng)站采集該特定領(lǐng)域的信息。如，這里可以是從設(shè)定網(wǎng)站采集不合格食品信息的不合格食品信息采集模塊。
新聞篩選模塊從采集的新聞中篩選出特定領(lǐng)域的新聞。如，這里可以是食品安全類新聞。新聞話題檢測模塊對特定領(lǐng)域的新聞進行話題檢測。如，對食品安全類新聞進行話題檢測。后臺信息緩存模塊緩存按話題組織的特定領(lǐng)域的新聞，以備前端模塊隨時訪問。如，緩存按話題組織的食品安全新聞。索引模塊對新聞和特定領(lǐng)域的信息建立索引。如，對新聞和不合格食品信息建立索引。檢索模塊負責對用戶輸入的查詢進行處理并查詢索引，并整理檢索結(jié)果。前端模塊主要展示直接面向用戶的信息并接收用戶的請求。圖2為本發(fā)明所述特定領(lǐng)域信息自動化組織方法的總體流程示意圖，該流程可周期性執(zhí)行，每個執(zhí)行周期主要包括如下步驟(這里僅以食品安全類信息為例)
步驟SI :信息采集的步驟，從網(wǎng)絡(luò)采集新聞和特定網(wǎng)站的結(jié)構(gòu)化信息。這里，所述信息采集的步驟，如圖3所示，具體包括
步驟Sll :采集網(wǎng)絡(luò)新聞，即采用網(wǎng)絡(luò)爬蟲采集各類新聞網(wǎng)站的新聞，并轉(zhuǎn)化為結(jié)構(gòu)化信息以便進一步處理。所述結(jié)構(gòu)化信息，是指包括標題、正文、作者、來源、時間等信息項的規(guī)范信息。步驟S12 :采集特定網(wǎng)站的結(jié)構(gòu)化信息，即從特定政府網(wǎng)站采集公示的不合格食品信息。這類信息大多是結(jié)構(gòu)化的，以表格的形式提供。采集后同樣將其轉(zhuǎn)化成自定義的結(jié)構(gòu)化信息。步驟S2 :信息篩選的步驟，對采集的新聞自動篩選，得出食品安全領(lǐng)域的新聞。這里，主要采用預(yù)先專門訓(xùn)練的樸素貝葉斯分類器，抽取網(wǎng)頁的標題、正文、url等特征，并結(jié)合若干規(guī)則，判定新采集到的新聞是否屬于食品安全類新聞，如果是，則判定具體屬于哪一個子類，并進行分類。步驟S3 :話題檢測的步驟，對食品安全領(lǐng)域新聞進行聚類，組織成話題展示。這里，需要對篩選出的食品安全類新聞進行處理，需要周期性地執(zhí)行以下子步驟，如圖4所示
步驟S31 :去除長時間沒有變化的話題。這樣既有效降低了后續(xù)聚類處理的數(shù)據(jù)量，又避免了過時話題對聚類可能造成的干擾。
步驟S32 :對本周期內(nèi)進入的各條新聞抽取特征。首先對新聞的標題和正文進行分詞、詞性標注、去停用詞、專名識別、同義詞歸并等步驟，處理的結(jié)果以詞或短語為單位，統(tǒng)稱為token，對每個token，計算其TF. IffF分值作為基礎(chǔ)權(quán)重，并結(jié)合其在文中的位置、詞性、專名類型等信息，確定其最終的權(quán)重。再把token及其分值構(gòu)造成一個基于向量空間模型的特征向量，用以描述該新聞。步驟S33 :對步驟S32中生成的一批特征向量進行層次聚類，聚類算法采用非加權(quán)組中心(Unweighted Pair-Group Method using Centroids, UPGMC)算法,在該算法中，聚類結(jié)果中的每個集合(稱為簇)都擁有一個中心向量。相似度的計算方法為采用兩個簇的中心向量的余弦相似度。步驟S34 :對步驟S33中產(chǎn)生的每一個簇，找出與該簇的相似度最大的話題。相似度的計算方法為仍余弦相似度。如果該相似度大于預(yù)定閥值，就把該簇合并到該話題中，并修正其中心向量和更新時間。否則，該簇被視為一個新的話題，其誕生時間和更新時間都是系統(tǒng)當前時間。
步驟S35 :對所有話題再進行一次UPGMC層次聚類，聚類結(jié)果的所有簇即為本周期結(jié)束后本的全部話題。該過程同樣采用余弦相似度計算簇的相似度。如果某個話題是幾個話題合并產(chǎn)生，該話題的更新時間亦為系統(tǒng)當前時間。步驟S4 :建立索引的步驟，對食品安全領(lǐng)域新聞和特定網(wǎng)站的結(jié)構(gòu)化信息建立索弓丨，以供檢索。這里，對食品安全領(lǐng)域新聞和不合格食品信息建立索引的過程，如圖5所示，主要包括
步驟S41 :對食品安全新聞建立索引，索引字段包括標題、正文等，并且支持檢索結(jié)果按時間等因素排序。步驟S42 :對不合格食品信息建立索引。首先轉(zhuǎn)化成和待檢索新聞同樣的數(shù)據(jù)格式，以便和新聞索引采用同一套檢索系統(tǒng)。索引字段包括食品名、商標名、類別等，并支持分類別篩選。需要說明的是，由于網(wǎng)絡(luò)環(huán)境下新數(shù)據(jù)不斷產(chǎn)生，因而以上步驟的執(zhí)行都是周期性的。以上裝置及其方法經(jīng)過論證并經(jīng)實踐表明，能夠有效解決自動化篩選出食品安全領(lǐng)域的信息，并對這些信息實現(xiàn)了按話題組織和展現(xiàn)，同時還提供食品安全領(lǐng)域新聞信息和不合格食品息的檢索功能。出于實際產(chǎn)品的需求和某些非技術(shù)原因的考慮，本發(fā)明主要具體處理的是食品安全類信息，但由于本發(fā)明的方法并不依賴于某一特定領(lǐng)域的選取，故對于其他特定領(lǐng)域的信息(如，我們還實現(xiàn)了針對產(chǎn)品質(zhì)量缺陷曝光領(lǐng)域信息的類似產(chǎn)品)，只要采用相似的篩選、按話題組織展示、文本和結(jié)構(gòu)化信息統(tǒng)一檢索方法，都應(yīng)被視為本發(fā)明的保護范圍之內(nèi)。以上所述，僅為本發(fā)明的較佳實施例而已，并非用于限定本發(fā)明的保護范圍。
權(quán)利要求
1.一種特定領(lǐng)域信息自動化組織的裝置，其特征在于，該裝置主要包括新聞采集模塊、新聞篩選模塊、新聞話題檢測模塊、后臺信息緩存模塊、特定領(lǐng)域信息采集模塊、索引模塊以及檢索模塊；其中新聞采集模塊，用于采集網(wǎng)絡(luò)新聞；新聞篩選模塊，從采集的新聞中篩選出特定領(lǐng)域的新聞；新聞話題檢測模塊，對特定領(lǐng)域的新聞進行話題檢測；后臺信息緩存模塊，緩存按話題組織的特定領(lǐng)域的新聞，以備前端模塊隨時訪問；特定領(lǐng)域信息采集模塊，從設(shè)定的網(wǎng)站采集該特定領(lǐng)域的信息；索引模塊，對新聞和特定領(lǐng)域的信息建立索引；以及檢索模塊，對用戶輸入的查詢進行處理并查詢索引，并整理檢索結(jié)果。
2.根據(jù)權(quán)利要求I所述的特定領(lǐng)域信息自動化組織的裝置，其特征在于，所述裝置進一步包括前端模塊，用于展示直接面向用戶的信息并接收用戶的請求。
3.根據(jù)權(quán)利要求I所述的特定領(lǐng)域信息自動化組織的裝置，其特征在于，所述特定領(lǐng)域，包括使用者希望通過互聯(lián)網(wǎng)去搜集的信息領(lǐng)域。
4.根據(jù)權(quán)利要求I所述的特定領(lǐng)域信息自動化組織的裝置，其特征在于，所述的特定領(lǐng)域信息采集模塊采集的信息，具體為從設(shè)定的網(wǎng)站采集的不合格食品的信息。
5.一種特定領(lǐng)域信息自動化組織的方法，其特征在于，主要包括如下步驟 A、信息采集的步驟，從網(wǎng)絡(luò)采集新聞和特定網(wǎng)站的結(jié)構(gòu)化信息； B、信息篩選的步驟，對所采集的新聞自動篩選，得出特定領(lǐng)域的新聞； C、話題檢測的步驟，對特定領(lǐng)域的新聞進行聚類，組織成話題展示； D、建立索引的步驟，對特定領(lǐng)域的新聞和特定網(wǎng)站的結(jié)構(gòu)化信息建立索引，以供檢索。
6.根據(jù)權(quán)利要求5所述特定領(lǐng)域信息自動化組織的方法，其特征在于，步驟A主要包括采集網(wǎng)絡(luò)新聞，即采用網(wǎng)絡(luò)爬蟲采集各類新聞網(wǎng)站的新聞，并將其轉(zhuǎn)化為結(jié)構(gòu)化信息；以及采集特定網(wǎng)站的結(jié)構(gòu)化信息，即從特定網(wǎng)站采集特定領(lǐng)域的信息，也將其轉(zhuǎn)化為結(jié)構(gòu)化信息。
7.根據(jù)權(quán)利要求5所述的特定領(lǐng)域信息自動化組織的方法，其特征在于，步驟B所述對所采集的新聞自動篩選，主要采用預(yù)先專門訓(xùn)練的樸素貝葉斯分類器，以抽取網(wǎng)頁的標題、正文、url的特征，并結(jié)合相關(guān)規(guī)則，判定新采集到的新聞是否屬于特定領(lǐng)域類的新聞。
8.根據(jù)權(quán)利要求5所述的特定領(lǐng)域信息自動化組織的方法，其特征在于，步驟C主要包括 Cl、去除長時間沒有變化的話題； C2、對本周期內(nèi)進入的各條新聞抽取特征，并構(gòu)造成用于描述該新聞的基于向量空間模型的特征向量； C3、對所述生成的一批特征向量進行層次聚類，聚類算法采用非加權(quán)組中心UPGMC算法，將聚類結(jié)果中的每個集合即簇均擁有一個中心向量，并計算余弦相似度； C4、對所述的每一個簇，找出與該簇的相似度最大的話題；如果該相似度大于預(yù)定閥值，將該簇合并到該話題中，并修正其中心向量和更新時間；否則，將該簇視為一個新的話題，其誕生時間和更新時間為系統(tǒng)當前時間； C5、對所有話題再進行一次UPGMC層次聚類，聚類結(jié)果的所有簇即為本周期結(jié)束后本的全部話題。
9.根據(jù)權(quán)利要求I所述的特定領(lǐng)域信息自動化組織的方法，其特征在于，步驟D包括對所述特定領(lǐng)域的新聞和所述特定領(lǐng)域類的信息建立索引。
全文摘要
本發(fā)明公開了一種特定領(lǐng)域信息自動化組織的裝置及其方法，該裝置主要包括新聞采集模塊，用于采集網(wǎng)絡(luò)新聞；新聞篩選模塊，從采集的新聞中篩選出特定領(lǐng)域的新聞；新聞話題檢測模塊，對特定領(lǐng)域的新聞進行話題檢測；后臺信息緩存模塊，緩存按話題組織的特定領(lǐng)域的新聞，以備前端模塊隨時訪問；特定領(lǐng)域信息采集模塊，從設(shè)定的網(wǎng)站采集該特定領(lǐng)域的信息；索引模塊，對新聞和特定領(lǐng)域的信息建立索引；以及檢索模塊，對用戶輸入的查詢進行處理并查詢索引，并整理檢索結(jié)果。采用本發(fā)明，能夠?qū)崿F(xiàn)機器對信息的分類、聚類和檢索，使其在互聯(lián)網(wǎng)海量信息的環(huán)境中，自動篩選出某一特定領(lǐng)域的信息，并實現(xiàn)有效組織和檢索功能。
文檔編號G06F17/30GK102890715SQ201210357548
公開日2013年1月23日申請日期2012年9月24日優(yōu)先權(quán)日2012年9月24日
發(fā)明者李德聰, 楊青申請人:人民搜索網(wǎng)絡(luò)股份公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李德聰;楊青
技術(shù)所有人：人民搜索網(wǎng)絡(luò)股份公司
我是此專利的發(fā)明人

上一篇：一種基于隨機數(shù)字陣列的手機解鎖方法及手機的制作方法
上一篇：一種三維點模型數(shù)據(jù)去噪方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

自動化領(lǐng)域相關(guān)技術(shù)

自動化應(yīng)用領(lǐng)域相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種特定領(lǐng)域信息自動化組織的裝置及其方法