亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

輿情數(shù)據(jù)存儲方法和服務(wù)器的制造方法

文檔序號:10665772閱讀:781來源:國知局
輿情數(shù)據(jù)存儲方法和服務(wù)器的制造方法
【專利摘要】本發(fā)明提供一種輿情數(shù)據(jù)存儲方法和服務(wù)器,該方法包括:獲取待存儲輿情數(shù)據(jù),確定并將待存儲輿情數(shù)據(jù)對應(yīng)的話題標(biāo)識、數(shù)據(jù)標(biāo)識、展示字段和排序字段關(guān)聯(lián)存儲在緩存中得到待處理緩存數(shù)據(jù);確定不存在與待處理緩存數(shù)據(jù)的話題標(biāo)識對應(yīng)的專題標(biāo)識時,將待處理緩存數(shù)據(jù)的話題標(biāo)識、數(shù)據(jù)標(biāo)識和排序字段關(guān)聯(lián)存儲在近期數(shù)據(jù)庫中;將待存儲輿情數(shù)據(jù)存入歷史數(shù)據(jù)庫中;以第一話題存儲格式存儲待處理緩存數(shù)據(jù)的話題標(biāo)識、數(shù)據(jù)標(biāo)識和創(chuàng)建時間到實(shí)時數(shù)據(jù)庫中;以第二話題存儲格式存儲待處理緩存數(shù)據(jù)的話題標(biāo)識和展示字段到實(shí)時數(shù)據(jù)庫中。完成輿情數(shù)據(jù)不同信息在近期數(shù)據(jù)庫、歷史數(shù)據(jù)庫和實(shí)時數(shù)據(jù)庫的依次分級別存儲。
【專利說明】
輿情數(shù)據(jù)存儲方法和服務(wù)器
技術(shù)領(lǐng)域
[0001]本發(fā)明屬于信息技術(shù)領(lǐng)域,尤其是涉及一種輿情數(shù)據(jù)存儲方法和服務(wù)器。
【背景技術(shù)】
[0002]網(wǎng)絡(luò)輿情是通過互聯(lián)網(wǎng)傳播的公眾對某些焦點(diǎn)、熱點(diǎn)問題所持有的傾向性觀點(diǎn)和言論,主要通過論壇、博客、新聞跟帖、轉(zhuǎn)帖等形式傳播。由于互聯(lián)網(wǎng)的虛擬性、隱蔽性、發(fā)散性和滲透性等特點(diǎn),越來越多的人們愿意通過互聯(lián)網(wǎng)這一平臺表達(dá)個人對輿情事件的看法。
[0003]輿情數(shù)據(jù)信息反映了公眾對各種熱點(diǎn)事件或者說是輿情專題的觀點(diǎn),通過對各不同輿情專題的識別以及對每個輿情專題在不同時間段的輿情話題的識別,可以幫助比如相關(guān)政府部門、應(yīng)用服務(wù)提供商等及時了解當(dāng)前公眾關(guān)注的熱點(diǎn)和觀點(diǎn),以便通過對實(shí)時或一段時間的輿情數(shù)據(jù)的分析,根據(jù)分析結(jié)果進(jìn)行相應(yīng)的應(yīng)用。但是,對輿情數(shù)據(jù)的分析前提是進(jìn)行輿情數(shù)據(jù)的可靠、有效存儲。
[0004]隨著互聯(lián)網(wǎng)應(yīng)用的廣泛普及,輿情數(shù)據(jù)的海量性越來越突出,人們在共享海量輿情數(shù)據(jù)信息的同時,也面臨著海量輿情數(shù)據(jù)的存儲等問題。以往人們在存儲結(jié)構(gòu)化數(shù)據(jù)時,往往采用將數(shù)據(jù)直接存入數(shù)據(jù)庫中的方式,但是,在面對突發(fā)的海量的輿情數(shù)據(jù)時,直接進(jìn)行入數(shù)據(jù)庫存儲將導(dǎo)致數(shù)據(jù)存儲可靠性受到嚴(yán)重影響,因此,海量輿情數(shù)據(jù)的存儲成為了系統(tǒng)設(shè)計(jì)的瓶頸問題。

【發(fā)明內(nèi)容】

[0005]針對上述存在的問題,本發(fā)明提供一種輿情數(shù)據(jù)存儲方法和服務(wù)器,以實(shí)現(xiàn)輿情數(shù)據(jù)的可靠性存儲。
[0006]本發(fā)明提供了一種輿情數(shù)據(jù)存儲方法,包括:
[0007]獲取待存儲輿情數(shù)據(jù),為所述待存儲輿情數(shù)據(jù)分配數(shù)據(jù)標(biāo)識,并根據(jù)預(yù)設(shè)的各話題表達(dá)式確定所述待存儲輿情數(shù)據(jù)對應(yīng)的話題標(biāo)識;
[0008]解析獲得所述待存儲輿情數(shù)據(jù)對應(yīng)的展示字段和排序字段,將所述數(shù)據(jù)標(biāo)識、所述話題標(biāo)識、所述展示字段和所述排序字段關(guān)聯(lián)存儲在服務(wù)器的緩存中,得到待處理緩存數(shù)據(jù);其中,所述展示字段包括所述待存儲輿情數(shù)據(jù)的創(chuàng)建時間、創(chuàng)建者和數(shù)據(jù)內(nèi)容,所述排序字段包括所述待存儲輿情數(shù)據(jù)的轉(zhuǎn)發(fā)次數(shù)和/或評論次數(shù);
[0009]從所述緩存中獲取所述待處理緩存數(shù)據(jù),根據(jù)預(yù)設(shè)的專題話題對應(yīng)關(guān)系,確定是否存在與所述待處理緩存數(shù)據(jù)的話題標(biāo)識對應(yīng)的專題標(biāo)識;
[0010]若不存在所述專題標(biāo)識,則將所述待處理緩存數(shù)據(jù)的所述話題標(biāo)識、所述數(shù)據(jù)標(biāo)識和所述排序字段關(guān)聯(lián)存儲在所述服務(wù)器的近期數(shù)據(jù)庫中,所述近期數(shù)據(jù)庫用于存儲所述待處理緩存數(shù)據(jù)到第一生命時長;
[0011]將擴(kuò)展后的待處理緩存數(shù)據(jù)存入所述服務(wù)器的歷史數(shù)據(jù)庫中,所述歷史數(shù)據(jù)庫用于存儲所述擴(kuò)展后的待處理緩存數(shù)據(jù)到第二生命時長,所述第二生命時長的長度大于所述第一生命時長的長度,所述擴(kuò)展后的待處理緩存數(shù)據(jù)中包括所述待處理緩存數(shù)據(jù)和所述待存儲輿情數(shù)據(jù)中除所述展示字段和所述排序字段之外的其他字段;
[0012]以預(yù)設(shè)第一話題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述話題標(biāo)識、所述數(shù)據(jù)標(biāo)識和所述創(chuàng)建時間到所述服務(wù)器的實(shí)時數(shù)據(jù)庫中;以預(yù)設(shè)第二話題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述話題標(biāo)識和所述展示字段到所述實(shí)時數(shù)據(jù)庫中,所述實(shí)時數(shù)據(jù)庫用于存儲所述待處理緩存數(shù)據(jù)到第三生命時長,所述第三生命時長的長度小于所述第一生命時長的長度。
[0013]本發(fā)明提供了一種服務(wù)器,包括:
[0014]獲取模塊,用于獲取待存儲輿情數(shù)據(jù),為所述待存儲輿情數(shù)據(jù)分配數(shù)據(jù)標(biāo)識,并根據(jù)預(yù)設(shè)的各話題表達(dá)式確定所述待存儲輿情數(shù)據(jù)對應(yīng)的話題標(biāo)識;
[0015]緩存處理模塊,用于解析獲得所述待存儲輿情數(shù)據(jù)對應(yīng)的展示字段和排序字段,將所述數(shù)據(jù)標(biāo)識、所述話題標(biāo)識、所述展示字段和所述排序字段關(guān)聯(lián)存儲在服務(wù)器的緩存中,得到待處理緩存數(shù)據(jù);其中,所述展示字段包括所述待存儲輿情數(shù)據(jù)的創(chuàng)建時間、創(chuàng)建者和數(shù)據(jù)內(nèi)容,所述排序字段包括所述待存儲輿情數(shù)據(jù)的轉(zhuǎn)發(fā)次數(shù)和/或評論次數(shù);
[0016]確定模塊,用于從所述緩存中獲取所述待處理緩存數(shù)據(jù),根據(jù)預(yù)設(shè)的專題話題對應(yīng)關(guān)系,確定是否存在與所述待處理緩存數(shù)據(jù)的話題標(biāo)識對應(yīng)的專題標(biāo)識;
[0017]近期存儲處理模塊,用于若所述確定模塊確定不存在所述專題標(biāo)識,則將所述待處理緩存數(shù)據(jù)的所述話題標(biāo)識、所述數(shù)據(jù)標(biāo)識和所述排序字段關(guān)聯(lián)存儲在所述服務(wù)器的近期數(shù)據(jù)庫中,所述近期數(shù)據(jù)庫用于存儲所述待處理緩存數(shù)據(jù)到第一生命時長;
[0018]歷史存儲處理模塊,用于將擴(kuò)展后的待處理緩存數(shù)據(jù)存入所述服務(wù)器的歷史數(shù)據(jù)庫中,所述歷史數(shù)據(jù)庫用于存儲所述擴(kuò)展后的待處理緩存數(shù)據(jù)到第二生命時長,所述第二生命時長的長度大于所述第一生命時長的長度,所述擴(kuò)展后的待處理緩存數(shù)據(jù)中包括所述待處理緩存數(shù)據(jù)和所述待存儲輿情數(shù)據(jù)中除所述展示字段和所述排序字段之外的其他字段;
[0019]實(shí)時存儲處理模塊,用于以預(yù)設(shè)第一話題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述話題標(biāo)識、所述數(shù)據(jù)標(biāo)識和所述創(chuàng)建時間到所述服務(wù)器的實(shí)時數(shù)據(jù)庫中;以預(yù)設(shè)第二話題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述話題標(biāo)識和所述展示字段到所述實(shí)時數(shù)據(jù)庫中,所述實(shí)時數(shù)據(jù)庫用于存儲所述待處理緩存數(shù)據(jù)到第三生命時長,所述第三生命時長的長度小于所述第一生命時長的長度。
[0020]本發(fā)明提供的輿情數(shù)據(jù)存儲方法和服務(wù)器,對輿情數(shù)據(jù)進(jìn)行解析,獲得用于進(jìn)行向用戶展示時需要的展示字段,以及用于對輿情數(shù)據(jù)進(jìn)行分析所需的排序字段,從而在對待存輿情數(shù)據(jù)進(jìn)行話題識別后,首先僅將該輿情數(shù)據(jù)的話題標(biāo)識、數(shù)據(jù)標(biāo)識、展示字段和排序字段這些信息存儲在服務(wù)器的緩存中,進(jìn)而再將緩存中存儲的輿情數(shù)據(jù)的話題標(biāo)識、數(shù)據(jù)標(biāo)識和排序字段存入近期數(shù)據(jù)庫中,之后將該輿情數(shù)據(jù)的所有信息存入歷史數(shù)據(jù)庫中,再將該輿情數(shù)據(jù)的展示字段和排序字段分別都存入實(shí)時數(shù)據(jù)庫中,完成輿情數(shù)據(jù)不同信息在近期數(shù)據(jù)庫、歷史數(shù)據(jù)庫和實(shí)時數(shù)據(jù)庫的依次存儲。由于各個數(shù)據(jù)庫具有不同的存儲時長限制,實(shí)現(xiàn)對輿情數(shù)據(jù)的分級別存儲,而且,先將獲得的海量輿情數(shù)據(jù)進(jìn)行緩存存儲,進(jìn)而進(jìn)行到近期數(shù)據(jù)庫、歷史數(shù)據(jù)庫和實(shí)時數(shù)據(jù)庫的存儲,保證了數(shù)據(jù)存儲可靠性的同時,根據(jù)不同需求對輿情數(shù)據(jù)進(jìn)行實(shí)時、近期和歷史的分別存儲,便于根據(jù)不同需求快速訪問獲得存儲在不同數(shù)據(jù)庫中的輿情數(shù)據(jù)以進(jìn)行分析和應(yīng)用。
【附圖說明】
[0021]圖1為本發(fā)明輿情數(shù)據(jù)存儲方法實(shí)施例的流程圖;
[0022]圖2為本發(fā)明服務(wù)器實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0023]圖1為本發(fā)明輿情數(shù)據(jù)存儲方法實(shí)施例的流程圖,該方法可以由一個用于進(jìn)行輿情數(shù)據(jù)存儲以及分析管理的服務(wù)器來執(zhí)行,如圖1所示,該方法具體包括:
[0024]步驟101、獲取待存儲輿情數(shù)據(jù),為所述待存儲輿情數(shù)據(jù)分配數(shù)據(jù)標(biāo)識,并根據(jù)預(yù)設(shè)的各話題表達(dá)式確定所述待存儲輿情數(shù)據(jù)對應(yīng)的話題標(biāo)識。
[0025]本實(shí)施例中,待存儲輿情數(shù)據(jù)為公眾通過自己的用戶終端設(shè)備在互聯(lián)網(wǎng)絡(luò)上進(jìn)行各種輿情評論、轉(zhuǎn)發(fā)等操作而產(chǎn)生的數(shù)據(jù),服務(wù)器可以通過現(xiàn)有的抓取工具等方式來獲得輿情數(shù)據(jù)。為了方便輿情數(shù)據(jù)的存儲處理,服務(wù)器為每條輿情數(shù)據(jù)分配一個唯一的數(shù)據(jù)標(biāo)識,該數(shù)據(jù)標(biāo)識比如可以是通過對輿情數(shù)據(jù)進(jìn)行分詞處理后,對得到的各個分詞進(jìn)行預(yù)設(shè)算法的哈希運(yùn)算得到的,不以此為限。
[0026]本實(shí)施例中,在服務(wù)器中預(yù)先存儲有經(jīng)驗(yàn)或統(tǒng)計(jì)獲得的多個話題表達(dá)式,并且每個話題表達(dá)式唯一對應(yīng)一個話題標(biāo)識。從而,服務(wù)器可以通過對待存儲輿情數(shù)據(jù)進(jìn)行分詞處理,得到各個分詞,通過對存儲的每個話題表達(dá)式中所包含的詞進(jìn)行匹配,能夠得到該待存儲輿情數(shù)據(jù)對應(yīng)的話題表達(dá)式,即獲得與該待存儲輿情數(shù)據(jù)對應(yīng)的話題標(biāo)識。其中,所述匹配比如是完全匹配即包含某個話題表達(dá)式中全部的詞,也可以是一定程度的匹配,即比如重合的詞占有某話題表達(dá)式中全部的詞的比例。
[0027]步驟102、解析獲得所述待存儲輿情數(shù)據(jù)對應(yīng)的展示字段和排序字段,將所述數(shù)據(jù)標(biāo)識、所述話題標(biāo)識、所述展示字段和所述排序字段關(guān)聯(lián)存儲在服務(wù)器的緩存中,得到待處理緩存數(shù)據(jù);其中,所述展示字段包括所述待存儲輿情數(shù)據(jù)的創(chuàng)建時間、創(chuàng)建者和數(shù)據(jù)內(nèi)容,所述排序字段包括所述待存儲輿情數(shù)據(jù)的轉(zhuǎn)發(fā)次數(shù)和/或評論次數(shù)。
[0028]步驟103、從所述緩存中獲取所述待處理緩存數(shù)據(jù),根據(jù)預(yù)設(shè)的專題話題對應(yīng)關(guān)系,確定是否存在與所述待處理緩存數(shù)據(jù)的話題標(biāo)識對應(yīng)的專題標(biāo)識,若存在所述專題標(biāo)識,則執(zhí)行步驟104-107 ;若不存在所述專題標(biāo)識,則執(zhí)行步驟105-107。
[0029]本實(shí)施例中,一條輿情數(shù)據(jù)中可能包含有很多信息,比如除了數(shù)據(jù)內(nèi)容之外,還包含有該條輿情數(shù)據(jù)的創(chuàng)建者、創(chuàng)建時間、評論次數(shù)、轉(zhuǎn)發(fā)次數(shù)、發(fā)布方式等等多種信息。而這些輿情數(shù)據(jù)的存儲意義一般是,通過對實(shí)時的或一段時間的輿情數(shù)據(jù)的統(tǒng)計(jì)、分析,以得到當(dāng)前公眾所關(guān)注的熱點(diǎn)事件或觀點(diǎn)趨勢,以便政府等機(jī)構(gòu)進(jìn)行合理的引導(dǎo),避免造成嚴(yán)重社會影響,或者供互聯(lián)網(wǎng)內(nèi)容提供商等用戶進(jìn)行搜索引擎或消息推薦之用。因此,針對上述舉例的不同應(yīng)用場合,本實(shí)施例中,為了在完成海量輿情數(shù)據(jù)及時、高效、可靠存儲的同時,也為了存儲的輿情數(shù)據(jù)能夠方便后續(xù)不同的分析需求,服務(wù)器在獲得輿情數(shù)據(jù)之后,通過對輿情數(shù)據(jù)進(jìn)行解析,從中獲得展示字段和排序字段。其中,展示字段主要包括比如待存儲輿情數(shù)據(jù)的創(chuàng)建時間、創(chuàng)建者和數(shù)據(jù)內(nèi)容,排序字段包括待存儲輿情數(shù)據(jù)的轉(zhuǎn)發(fā)次數(shù)和/或評論次數(shù)。展示字段主要用于向用戶展示實(shí)時或一段時間內(nèi)的某一話題或某一專題的各公眾的觀點(diǎn)即輿情數(shù)據(jù)內(nèi)容,排序字段主要用于熱點(diǎn)分析。
[0030]在解析獲得待存儲輿情數(shù)據(jù)的展示字段和排序字段后,將該待存儲輿情數(shù)據(jù)的數(shù)據(jù)標(biāo)識、話題標(biāo)識、展示字段和排序字段關(guān)聯(lián)存儲在服務(wù)器的緩存中,得到待處理緩存數(shù)據(jù)。由于在同一時間段內(nèi)可能需要分析存儲非常大量的輿情數(shù)據(jù),并且在獲取到待存儲輿情數(shù)據(jù)到將該待存儲輿情數(shù)據(jù)存儲完畢,處理過程較長,為了減輕后續(xù)存儲處理過程的處理壓力,將輿情數(shù)據(jù)在后續(xù)存儲處理前先存儲在服務(wù)器的緩存中。這樣還有一個好處就是當(dāng)輿情數(shù)據(jù)后期存儲處理成功后才將輿情數(shù)據(jù)從服務(wù)器緩存中刪除,當(dāng)輿情數(shù)據(jù)后期處理失敗后,無需做任何操作,只需讀取緩存中現(xiàn)存的輿情數(shù)據(jù)進(jìn)行處理即可,這樣既可大大簡化處理流程,又保證了數(shù)據(jù)的完整性。
[0031]之后,對緩存中存在的待處理緩存數(shù)據(jù),即關(guān)聯(lián)存儲在服務(wù)器的緩存中的待存儲輿情數(shù)據(jù)的數(shù)據(jù)標(biāo)識、話題標(biāo)識、展示字段和排序字段,進(jìn)行后續(xù)存儲處理。
[0032]所述后續(xù)存儲處理中,首先需要進(jìn)行待處理緩存數(shù)據(jù)的專題入庫處理。具體來說,根據(jù)服務(wù)器中存儲的預(yù)設(shè)的專題話題對應(yīng)關(guān)系,確定是否存在與所述待處理緩存數(shù)據(jù)的話題標(biāo)識對應(yīng)的專題標(biāo)識。實(shí)際上,專題、話題和輿情數(shù)據(jù)之間存在著不確定的關(guān)系,即一個話題可能包含有多個輿情數(shù)據(jù),一個專題可能對應(yīng)著多個不同話題,本實(shí)施例中,可以根據(jù)預(yù)先統(tǒng)計(jì)獲得的專題和話題的對應(yīng)關(guān)系來確定當(dāng)前待處理緩存數(shù)據(jù)的話題標(biāo)識對應(yīng)的專題標(biāo)識是否存在。
[0033]步驟104、以預(yù)設(shè)第三專題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述專題標(biāo)識、所述數(shù)據(jù)標(biāo)識和所述創(chuàng)建時間到所述實(shí)時數(shù)據(jù)庫中;以預(yù)設(shè)第四專題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述專題標(biāo)識和所述展示字段到所述實(shí)時數(shù)據(jù)庫中。
[0034]若存在與待處理緩存數(shù)據(jù)的話題標(biāo)識對應(yīng)的專題標(biāo)識,則進(jìn)行待處理緩存數(shù)據(jù)的專題入實(shí)時數(shù)據(jù)庫的處理。值得說明的是,本實(shí)施例中,在服務(wù)器中設(shè)置了三種數(shù)據(jù)庫:實(shí)時數(shù)據(jù)庫、近期數(shù)據(jù)庫和歷史數(shù)據(jù)庫,其中,所述實(shí)時數(shù)據(jù)庫位于所述服務(wù)器的內(nèi)存中;所述近期數(shù)據(jù)庫為關(guān)系型數(shù)據(jù)庫;所述歷史數(shù)據(jù)庫為非關(guān)系型NoSQL數(shù)據(jù)庫。其中,實(shí)時數(shù)據(jù)庫用于存儲待處理緩存數(shù)據(jù)一定的生命時長,比如從某待處理緩存數(shù)據(jù)存入實(shí)時數(shù)據(jù)庫中的時間起算,存儲一周的時間,一周時間到達(dá)時自動刪除該條數(shù)據(jù)。
[0035]具體地,在將待處理緩存數(shù)據(jù)進(jìn)行專題入實(shí)時數(shù)據(jù)庫存儲的過程中,本實(shí)施例中提供了兩種存儲格式分別進(jìn)行存儲,分別為第三專題存儲格式和第四專題存儲格式。其中,以第三專題存儲格式存儲該待處理緩存數(shù)據(jù)的專題標(biāo)識、數(shù)據(jù)標(biāo)識和創(chuàng)建時間到實(shí)時數(shù)據(jù)庫中,具體格式直觀表示為:(專題標(biāo)識-數(shù)據(jù)標(biāo)識,創(chuàng)建時間);以第四專題存儲格式存儲該待處理緩存數(shù)據(jù)的專題標(biāo)識和展示字段到實(shí)時數(shù)據(jù)庫中,具體格式直觀表示為:(專題標(biāo)識,list (展示字段))。其中,list是列表的含義,其含義是指將同屬于一個專題標(biāo)識的若干待處理緩存數(shù)據(jù)的展示字段依次分別寫入該list列表中。其中,這兩種存儲格式分別用于不同的用途,第三種專題存儲格式用于判重和淘汰,即為了避免同一個待處理緩存數(shù)據(jù)重復(fù)處理,將重復(fù)處理的待處理緩存數(shù)據(jù)從緩存中刪除;第四種專題存儲格式用于展示實(shí)時專題情況,此時的實(shí)時是指具有一定時間段含義的實(shí)時。另外,數(shù)據(jù)專題信息只存儲在實(shí)時數(shù)據(jù)庫中,這部分信息是為了快速檢索出某專題相關(guān)數(shù)據(jù)展示給用戶。
[0036]在待處理緩存數(shù)據(jù)專題入實(shí)時數(shù)據(jù)庫成功后,或者在確定不存在與其話題標(biāo)識對應(yīng)的專題標(biāo)識后,執(zhí)行下面的后續(xù)步驟,即進(jìn)行待處理緩存數(shù)據(jù)的話題入庫處理。
[0037]步驟105、將所述待處理緩存數(shù)據(jù)的所述話題標(biāo)識、所述數(shù)據(jù)標(biāo)識和所述排序字段關(guān)聯(lián)存儲在所述服務(wù)器的近期數(shù)據(jù)庫中,所述近期數(shù)據(jù)庫用于存儲所述待處理緩存數(shù)據(jù)到第一生命時長。
[0038]本實(shí)施例中,采用先近期數(shù)據(jù)庫,再歷史數(shù)據(jù)庫,再實(shí)時數(shù)據(jù)庫的存儲順序依次存儲待處理緩存數(shù)據(jù)的話題信息。
[0039]首先,將當(dāng)前待處理緩存數(shù)據(jù)的話題標(biāo)識、數(shù)據(jù)標(biāo)識和排序字段關(guān)聯(lián)存儲在服務(wù)器的近期數(shù)據(jù)庫中,其中,具體的存儲格式可直觀表示為:(話題標(biāo)識-數(shù)據(jù)標(biāo)識,排序字段)。該近期數(shù)據(jù)庫用于存儲待處理緩存數(shù)據(jù)到第一生命時長,比如I個月。其中,該近期數(shù)據(jù)庫中存儲的話題信息主要用于分析之用。近期數(shù)據(jù)庫中只存儲待處理緩存數(shù)據(jù)的一部分分析字段即排序字段,不存儲數(shù)據(jù)的詳情。
[0040]步驟106、將擴(kuò)展后的待處理緩存數(shù)據(jù)存入所述服務(wù)器的歷史數(shù)據(jù)庫中,所述歷史數(shù)據(jù)庫用于存儲所述擴(kuò)展后的待處理緩存數(shù)據(jù)到第二生命時長,所述第二生命時長的長度大于所述第一生命時長的長度,所述擴(kuò)展后的待處理緩存數(shù)據(jù)中包括所述待處理緩存數(shù)據(jù)和所述待存儲輿情數(shù)據(jù)中除所述展示字段和所述排序字段之外的其他字段。
[0041]其次,將待存儲輿情數(shù)據(jù)的上述排序字段、展示字段,以及除展示字段和排序字段之外的其他全部或部分字段,存入服務(wù)器的歷史數(shù)據(jù)庫中。其中,歷史數(shù)據(jù)庫用于存儲上述輿情數(shù)據(jù)到第二生命時長,所述第二生命時長的長度大于所述第一生命時長的長度,比如是整個生命周期。
[0042]上述近期數(shù)據(jù)庫和歷史數(shù)據(jù)庫中的數(shù)據(jù)只用于分析,分析問題的角度是以話題為中心的,對于某個話題屬于哪個專題在分析中是沒有用處的,當(dāng)向用戶展示分析成果時,對于專題的所屬話題可直接從專題話題對應(yīng)關(guān)系中獲得。
[0043]步驟107、以預(yù)設(shè)第一話題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述話題標(biāo)識、所述數(shù)據(jù)標(biāo)識和所述創(chuàng)建時間到所述服務(wù)器的實(shí)時數(shù)據(jù)庫中;以預(yù)設(shè)第二話題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述話題標(biāo)識和所述展示字段到所述實(shí)時數(shù)據(jù)庫中,所述實(shí)時數(shù)據(jù)庫用于存儲所述待處理緩存數(shù)據(jù)到第三生命時長,所述第三生命時長的長度小于所述第一生命時長的長度。
[0044]最后,進(jìn)行話題數(shù)據(jù)信息入實(shí)時數(shù)據(jù)庫的處理。具體來說,提供了兩種存儲格式進(jìn)行話題處理:第一話題存儲格式和第二話題存儲格式。其中,以第一話題存儲格式存儲待處理緩存數(shù)據(jù)的話題標(biāo)識、數(shù)據(jù)標(biāo)識和創(chuàng)建時間到服務(wù)器的實(shí)時數(shù)據(jù)庫中,具體格式直觀表示為:(話題標(biāo)識-數(shù)據(jù)標(biāo)識,創(chuàng)建時間);以第二話題存儲格式存儲待處理緩存數(shù)據(jù)的話題標(biāo)識和展示字段到實(shí)時數(shù)據(jù)庫中,具體格式直觀表示為:(話題標(biāo)識,list (展示字段))。其中,list是列表的含義,其含義是指將同屬于一個話題標(biāo)識的若干待處理緩存數(shù)據(jù)的展示字段依次分別寫入該list列表中。所述實(shí)時數(shù)據(jù)庫用于存儲所述待處理緩存數(shù)據(jù)到第三生命時長,所述第三生命時長的長度小于上述第一生命時長的長度,比如為一周。
[0045]其中,這兩種話題存儲格式分別用于不同的用途,第以種專題存儲格式用于判重和淘汰,即為了避免同一個待處理緩存數(shù)據(jù)的話題信息重復(fù)處理,將重復(fù)處理的待處理緩存數(shù)據(jù)從緩存中刪除;第二種專題存儲格式用于展示實(shí)時話題情況,此時的實(shí)時是指具有一定時間段含義的實(shí)時。
[0046]本實(shí)施例中,對輿情數(shù)據(jù)進(jìn)行解析,獲得用于進(jìn)行向用戶展示時需要的展示字段,以及用于對輿情數(shù)據(jù)進(jìn)行分析所需的排序字段,從而在對待存輿情數(shù)據(jù)進(jìn)行話題識別后,首先僅將該輿情數(shù)據(jù)的話題標(biāo)識、數(shù)據(jù)標(biāo)識、展示字段和排序字段這些信息存儲在服務(wù)器的緩存中,進(jìn)而再將緩存中存儲的輿情數(shù)據(jù)的話題標(biāo)識、數(shù)據(jù)標(biāo)識和排序字段存入近期數(shù)據(jù)庫中,之后將該輿情數(shù)據(jù)的所有信息存入歷史數(shù)據(jù)庫中,再將該輿情數(shù)據(jù)的展示字段和排序字段分別都存入實(shí)時數(shù)據(jù)庫中,完成輿情數(shù)據(jù)不同信息在近期數(shù)據(jù)庫、歷史數(shù)據(jù)庫和實(shí)時數(shù)據(jù)庫的依次存儲。由于各個數(shù)據(jù)庫具有不同的存儲時長限制,實(shí)現(xiàn)對輿情數(shù)據(jù)的分級別存儲,而且,先將獲得的海量輿情數(shù)據(jù)進(jìn)行緩存存儲,進(jìn)而進(jìn)行到近期數(shù)據(jù)庫、歷史數(shù)據(jù)庫和實(shí)時數(shù)據(jù)庫的存儲,保證了數(shù)據(jù)存儲可靠性的同時,根據(jù)不同需求對輿情數(shù)據(jù)進(jìn)行實(shí)時、近期和歷史的分別存儲,便于根據(jù)不同需求快速訪問獲得存儲在不同數(shù)據(jù)庫中的輿情數(shù)據(jù)以進(jìn)行分析和應(yīng)用。
[0047]可選的,在上述步驟103中從所述緩存中獲取所述待處理緩存數(shù)據(jù)之后,還包括如下處理步驟:
[0048]確定所述實(shí)時數(shù)據(jù)庫中是否存在與所述待處理緩存數(shù)據(jù)的所述數(shù)據(jù)標(biāo)識和所述話題標(biāo)識對應(yīng)的表項(xiàng);若存在,則刪除所述待處理緩存數(shù)據(jù)。即上述第一話題存儲格式存儲的話題信息的用途體現(xiàn)。如果實(shí)時數(shù)據(jù)庫中已經(jīng)存在了某話題標(biāo)識和某數(shù)據(jù)標(biāo)識,說明該條數(shù)據(jù)已經(jīng)被處理過,無需重復(fù)處理。
[0049]另外,在步驟107將話題入實(shí)時數(shù)據(jù)庫處理完畢后,將緩存中的對應(yīng)的待處理緩存數(shù)據(jù)刪除,并進(jìn)行下一條緩存數(shù)據(jù)的處理過程。
[0050]圖2為本發(fā)明服務(wù)器實(shí)施例的結(jié)構(gòu)示意圖,如圖2所示,該服務(wù)器包括:
[0051]獲取模塊11,用于獲取待存儲輿情數(shù)據(jù),為所述待存儲輿情數(shù)據(jù)分配數(shù)據(jù)標(biāo)識,并根據(jù)預(yù)設(shè)的各話題表達(dá)式確定所述待存儲輿情數(shù)據(jù)對應(yīng)的話題標(biāo)識;
[0052]緩存處理模塊12,用于解析獲得所述待存儲輿情數(shù)據(jù)對應(yīng)的展示字段和排序字段,將所述數(shù)據(jù)標(biāo)識、所述話題標(biāo)識、所述展示字段和所述排序字段關(guān)聯(lián)存儲在服務(wù)器的緩存中,得到待處理緩存數(shù)據(jù);其中,所述展示字段包括所述待存儲輿情數(shù)據(jù)的創(chuàng)建時間、創(chuàng)建者和數(shù)據(jù)內(nèi)容,所述排序字段包括所述待存儲輿情數(shù)據(jù)的轉(zhuǎn)發(fā)次數(shù)和/或評論次數(shù);
[0053]確定模塊13,用于從所述緩存中獲取所述待處理緩存數(shù)據(jù),根據(jù)預(yù)設(shè)的專題話題對應(yīng)關(guān)系,確定是否存在與所述待處理緩存數(shù)據(jù)的話題標(biāo)識對應(yīng)的專題標(biāo)識;
[0054]近期存儲處理模塊14,用于若所述確定模塊13確定不存在所述專題標(biāo)識,則將所述待處理緩存數(shù)據(jù)的所述話題標(biāo)識、所述數(shù)據(jù)標(biāo)識和所述排序字段關(guān)聯(lián)存儲在所述服務(wù)器的近期數(shù)據(jù)庫中,所述近期數(shù)據(jù)庫用于存儲所述待處理緩存數(shù)據(jù)到第一生命時長;
[0055]歷史存儲處理模塊15,用于將擴(kuò)展后的待處理緩存數(shù)據(jù)存入所述服務(wù)器的歷史數(shù)據(jù)庫中,所述歷史數(shù)據(jù)庫用于存儲所述擴(kuò)展后的待處理緩存數(shù)據(jù)到第二生命時長,所述第二生命時長的長度大于所述第一生命時長的長度,所述擴(kuò)展后的待處理緩存數(shù)據(jù)中包括所述待處理緩存數(shù)據(jù)和所述待存儲輿情數(shù)據(jù)中除所述展示字段和所述排序字段之外的其他字段;
[0056]實(shí)時存儲處理模塊16,用于以預(yù)設(shè)第一話題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述話題標(biāo)識、所述數(shù)據(jù)標(biāo)識和所述創(chuàng)建時間到所述服務(wù)器的實(shí)時數(shù)據(jù)庫中;以預(yù)設(shè)第二話題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述話題標(biāo)識和所述展示字段到所述實(shí)時數(shù)據(jù)庫中,所述實(shí)時數(shù)據(jù)庫用于存儲所述待處理緩存數(shù)據(jù)到第三生命時長,所述第三生命時長的長度小于所述第一生命時長的長度。
[0057]可選的,所述確定模塊13還用于:
[0058]確定所述實(shí)時數(shù)據(jù)庫中是否存在與所述待處理緩存數(shù)據(jù)的所述數(shù)據(jù)標(biāo)識和所述話題標(biāo)識對應(yīng)的表項(xiàng);
[0059]所述服務(wù)器還包括:
[0060]刪除模塊17,用于若所述確定模塊13確定存在所述表項(xiàng),則刪除所述待處理緩存數(shù)據(jù)。
[0061]進(jìn)一步地,所述實(shí)時存儲處理模塊16還用于:
[0062]若所述確定模塊確定存在所述專題標(biāo)識,則以預(yù)設(shè)第三專題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述專題標(biāo)識、所述數(shù)據(jù)標(biāo)識和所述創(chuàng)建時間到所述實(shí)時數(shù)據(jù)庫中;以預(yù)設(shè)第四專題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述專題標(biāo)識和所述展示字段到所述實(shí)時數(shù)據(jù)庫中。
[0063]進(jìn)一步地,所述刪除模塊17還用于:
[0064]從所述緩存中刪除所述待處理緩存數(shù)據(jù)。
[0065]其中,所述實(shí)時數(shù)據(jù)庫位于所述服務(wù)器的內(nèi)存中;所述近期數(shù)據(jù)庫為關(guān)系型數(shù)據(jù)庫;所述歷史數(shù)據(jù)庫為非關(guān)系型NoSQL數(shù)據(jù)庫。
[0066]本實(shí)施例的裝置可以用于執(zhí)行圖1所示方法實(shí)施例的技術(shù)方案,其實(shí)現(xiàn)原理和技術(shù)效果類似,此處不再贅述。
[0067]本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述方法實(shí)施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成,前述的程序可以存儲于一計(jì)算機(jī)可讀取存儲介質(zhì)中,該程序在執(zhí)行時,執(zhí)行包括上述方法實(shí)施例的步驟;而前述的存儲介質(zhì)包括:R0M、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
[0068]最后應(yīng)說明的是:以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。
【主權(quán)項(xiàng)】
1.一種輿情數(shù)據(jù)存儲方法,其特征在于,包括: 獲取待存儲輿情數(shù)據(jù),為所述待存儲輿情數(shù)據(jù)分配數(shù)據(jù)標(biāo)識,并根據(jù)預(yù)設(shè)的各話題表達(dá)式確定所述待存儲輿情數(shù)據(jù)對應(yīng)的話題標(biāo)識; 解析獲得所述待存儲輿情數(shù)據(jù)對應(yīng)的展示字段和排序字段,將所述數(shù)據(jù)標(biāo)識、所述話題標(biāo)識、所述展示字段和所述排序字段關(guān)聯(lián)存儲在服務(wù)器的緩存中,得到待處理緩存數(shù)據(jù);其中,所述展示字段包括所述待存儲輿情數(shù)據(jù)的創(chuàng)建時間、創(chuàng)建者和數(shù)據(jù)內(nèi)容,所述排序字段包括所述待存儲輿情數(shù)據(jù)的轉(zhuǎn)發(fā)次數(shù)和/或評論次數(shù); 從所述緩存中獲取所述待處理緩存數(shù)據(jù),根據(jù)預(yù)設(shè)的專題話題對應(yīng)關(guān)系,確定是否存在與所述待處理緩存數(shù)據(jù)的話題標(biāo)識對應(yīng)的專題標(biāo)識; 若不存在所述專題標(biāo)識,則將所述待處理緩存數(shù)據(jù)的所述話題標(biāo)識、所述數(shù)據(jù)標(biāo)識和所述排序字段關(guān)聯(lián)存儲在所述服務(wù)器的近期數(shù)據(jù)庫中,所述近期數(shù)據(jù)庫用于存儲所述待處理緩存數(shù)據(jù)到第一生命時長; 將擴(kuò)展后的待處理緩存數(shù)據(jù)存入所述服務(wù)器的歷史數(shù)據(jù)庫中,所述歷史數(shù)據(jù)庫用于存儲所述擴(kuò)展后的待處理緩存數(shù)據(jù)到第二生命時長,所述第二生命時長的長度大于所述第一生命時長的長度,所述擴(kuò)展后的待處理緩存數(shù)據(jù)中包括所述待處理緩存數(shù)據(jù)和所述待存儲輿情數(shù)據(jù)中除所述展示字段和所述排序字段之外的其他字段; 以預(yù)設(shè)第一話題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述話題標(biāo)識、所述數(shù)據(jù)標(biāo)識和所述創(chuàng)建時間到所述服務(wù)器的實(shí)時數(shù)據(jù)庫中;以預(yù)設(shè)第二話題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述話題標(biāo)識和所述展示字段到所述實(shí)時數(shù)據(jù)庫中,所述實(shí)時數(shù)據(jù)庫用于存儲所述待處理緩存數(shù)據(jù)到第三生命時長,所述第三生命時長的長度小于所述第一生命時長的長度。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從所述緩存中獲取所述待處理緩存數(shù)據(jù)之后,還包括: 確定所述實(shí)時數(shù)據(jù)庫中是否存在與所述待處理緩存數(shù)據(jù)的所述數(shù)據(jù)標(biāo)識和所述話題標(biāo)識對應(yīng)的表項(xiàng); 若存在,則刪除所述待處理緩存數(shù)據(jù)。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定是否存在與所述待處理緩存數(shù)據(jù)的話題標(biāo)識對應(yīng)的專題標(biāo)識之后,還包括: 若存在所述專題標(biāo)識,則以預(yù)設(shè)第三專題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述專題標(biāo)識、所述數(shù)據(jù)標(biāo)識和所述創(chuàng)建時間到所述實(shí)時數(shù)據(jù)庫中;以預(yù)設(shè)第四專題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述專題標(biāo)識和所述展示字段到所述實(shí)時數(shù)據(jù)庫中。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述以預(yù)設(shè)第一話題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述話題標(biāo)識、所述數(shù)據(jù)標(biāo)識和所述創(chuàng)建時間到所述服務(wù)器的實(shí)時數(shù)據(jù)庫中;以預(yù)設(shè)第二話題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述話題標(biāo)識和所述展示字段到所述實(shí)時數(shù)據(jù)庫中之后,還包括: 從所述緩存中刪除所述待處理緩存數(shù)據(jù)。5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其特征在于,所述實(shí)時數(shù)據(jù)庫位于所述服務(wù)器的內(nèi)存中;所述近期數(shù)據(jù)庫為關(guān)系型數(shù)據(jù)庫;所述歷史數(shù)據(jù)庫為非關(guān)系型NoSQL數(shù)據(jù)庫。6.一種服務(wù)器,其特征在于,包括: 獲取模塊,用于獲取待存儲輿情數(shù)據(jù),為所述待存儲輿情數(shù)據(jù)分配數(shù)據(jù)標(biāo)識,并根據(jù)預(yù)設(shè)的各話題表達(dá)式確定所述待存儲輿情數(shù)據(jù)對應(yīng)的話題標(biāo)識; 緩存處理模塊,用于解析獲得所述待存儲輿情數(shù)據(jù)對應(yīng)的展示字段和排序字段,將所述數(shù)據(jù)標(biāo)識、所述話題標(biāo)識、所述展示字段和所述排序字段關(guān)聯(lián)存儲在服務(wù)器的緩存中,得到待處理緩存數(shù)據(jù);其中,所述展示字段包括所述待存儲輿情數(shù)據(jù)的創(chuàng)建時間、創(chuàng)建者和數(shù)據(jù)內(nèi)容,所述排序字段包括所述待存儲輿情數(shù)據(jù)的轉(zhuǎn)發(fā)次數(shù)和/或評論次數(shù); 確定模塊,用于從所述緩存中獲取所述待處理緩存數(shù)據(jù),根據(jù)預(yù)設(shè)的專題話題對應(yīng)關(guān)系,確定是否存在與所述待處理緩存數(shù)據(jù)的話題標(biāo)識對應(yīng)的專題標(biāo)識; 近期存儲處理模塊,用于若所述確定模塊確定不存在所述專題標(biāo)識,則將所述待處理緩存數(shù)據(jù)的所述話題標(biāo)識、所述數(shù)據(jù)標(biāo)識和所述排序字段關(guān)聯(lián)存儲在所述服務(wù)器的近期數(shù)據(jù)庫中,所述近期數(shù)據(jù)庫用于存儲所述待處理緩存數(shù)據(jù)到第一生命時長; 歷史存儲處理模塊,用于將擴(kuò)展后的待處理緩存數(shù)據(jù)存入所述服務(wù)器的歷史數(shù)據(jù)庫中,所述歷史數(shù)據(jù)庫用于存儲所述擴(kuò)展后的待處理緩存數(shù)據(jù)到第二生命時長,所述第二生命時長的長度大于所述第一生命時長的長度,所述擴(kuò)展后的待處理緩存數(shù)據(jù)中包括所述待處理緩存數(shù)據(jù)和所述待存儲輿情數(shù)據(jù)中除所述展示字段和所述排序字段之外的其他字段; 實(shí)時存儲處理模塊,用于以預(yù)設(shè)第一話題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述話題標(biāo)識、所述數(shù)據(jù)標(biāo)識和所述創(chuàng)建時間到所述服務(wù)器的實(shí)時數(shù)據(jù)庫中;以預(yù)設(shè)第二話題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述話題標(biāo)識和所述展示字段到所述實(shí)時數(shù)據(jù)庫中,所述實(shí)時數(shù)據(jù)庫用于存儲所述待處理緩存數(shù)據(jù)到第三生命時長,所述第三生命時長的長度小于所述第一生命時長的長度。7.根據(jù)權(quán)利要求6所述的服務(wù)器,其特征在于,所述確定模塊還用于: 確定所述實(shí)時數(shù)據(jù)庫中是否存在與所述待處理緩存數(shù)據(jù)的所述數(shù)據(jù)標(biāo)識和所述話題標(biāo)識對應(yīng)的表項(xiàng); 還包括: 刪除模塊,用于若所述確定模塊確定存在所述表項(xiàng),則刪除所述待處理緩存數(shù)據(jù)。8.根據(jù)權(quán)利要求6所述的服務(wù)器,其特征在于,所述實(shí)時存儲處理模塊還用于: 若所述確定模塊確定存在所述專題標(biāo)識,則以預(yù)設(shè)第三專題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述專題標(biāo)識、所述數(shù)據(jù)標(biāo)識和所述創(chuàng)建時間到所述實(shí)時數(shù)據(jù)庫中;以預(yù)設(shè)第四專題存儲格式存儲所述待處理緩存數(shù)據(jù)的所述專題標(biāo)識和所述展示字段到所述實(shí)時數(shù)據(jù)庫中。9.根據(jù)權(quán)利要求6所述的服務(wù)器,其特征在于,所述刪除模塊還用于: 從所述緩存中刪除所述待處理緩存數(shù)據(jù)。10.根據(jù)權(quán)利要求6至9中任一項(xiàng)所述的服務(wù)器,其特征在于,所述實(shí)時數(shù)據(jù)庫位于所述服務(wù)器的內(nèi)存中;所述近期數(shù)據(jù)庫為關(guān)系型數(shù)據(jù)庫;所述歷史數(shù)據(jù)庫為非關(guān)系型NoSQL數(shù)據(jù)庫。
【文檔編號】G06F17/30GK106033438SQ201510111930
【公開日】2016年10月19日
【申請日】2015年3月13日
【發(fā)明人】荊艷影, 張丹, 楊建武
【申請人】北大方正集團(tuán)有限公司, 北京大學(xué), 北京北大方正電子有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1