專利名稱:一種獲取信息的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種獲取信息的方法及裝置。
背景技術(shù):
隨著社會(huì)信息化程度不斷提高,信息系統(tǒng)數(shù)據(jù)量不斷膨脹,不同行業(yè)需要處理、分析大量并且不斷更新的數(shù)據(jù)流。目前,各行業(yè)面臨的問題是數(shù)據(jù)量非常大,但其中真正有價(jià)值的信息卻很少,因此,如何從大量并且不斷更新的數(shù)據(jù)中挖掘出有價(jià)值的信息以對(duì)后續(xù)業(yè)務(wù)進(jìn)行指導(dǎo),成為困擾各行業(yè)的難點(diǎn)。數(shù)據(jù)挖掘就是為順應(yīng)從大量數(shù)據(jù)中獲取有價(jià)值信息的需要應(yīng)運(yùn)而生的數(shù)據(jù)處理技術(shù)。數(shù)據(jù)挖掘又稱數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(knowledge discovery indatabase),是指從大量的不完全的、有噪聲的、模糊的數(shù)據(jù)中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價(jià)值的信息或模式,融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的理論和技術(shù)。數(shù)據(jù)挖掘工具能夠?qū)淼内厔?shì)和行為進(jìn)行預(yù)測(cè),從而很好地支持人們的決策。從大量數(shù)據(jù)中獲取有價(jià)值的信息,目前通用的做法是利用關(guān)系數(shù)據(jù)庫,具體過程為將用于獲取信息的大量數(shù)據(jù)統(tǒng)一加載到關(guān)系數(shù)據(jù)庫中,然后在此基礎(chǔ)上對(duì)加載的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘以求發(fā)現(xiàn)有用的信息。關(guān)系數(shù)據(jù)庫是以關(guān)系模型為基礎(chǔ)的數(shù)據(jù)庫,該關(guān)系模型中定義了各種數(shù)據(jù)關(guān)系,即利用定義的關(guān)系來描述數(shù)據(jù),其中,一個(gè)關(guān)系既可以用來描述一個(gè)實(shí)體及其屬性,也可以用來描述實(shí)體間的聯(lián)系。因此,根據(jù)關(guān)系數(shù)據(jù)庫對(duì)數(shù)據(jù)進(jìn)行處理,首先將數(shù)據(jù)源文件完成完整加載形成滿足關(guān)系數(shù)據(jù)庫范式檢查的數(shù)據(jù)集合,然后對(duì)數(shù)據(jù)庫表在組合屬性上進(jìn)行投影計(jì)算,得到計(jì)算統(tǒng)計(jì)值。在實(shí)際應(yīng)用中,采用關(guān)系數(shù)據(jù)庫從大量數(shù)據(jù)中獲取信息,需要等待用于獲取信息的全部數(shù)據(jù)產(chǎn)生完畢后再一次性加載到關(guān)系數(shù)據(jù)庫中處理,使得在關(guān)系數(shù)據(jù)庫中需要進(jìn)行關(guān)系計(jì)算的數(shù)據(jù)量聚集,由此導(dǎo)致的問題在于 一方面,需要消耗大量的CPU、I/O、內(nèi)存等系統(tǒng)資源,系統(tǒng)開銷很大;另一方面,需要一次性處理的數(shù)據(jù)量龐大,處理過程需要耗費(fèi)大量的時(shí)間,信息獲取效率低。綜上所述,現(xiàn)有技術(shù)基于關(guān)系數(shù)據(jù)庫從數(shù)據(jù)中獲取信息,信息獲取效率低,并且系統(tǒng)開銷大。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實(shí)施例提供一種獲取信息的方法及裝置,采用該技術(shù)方案,一方面提高了信息獲取的效率,另一方面降低了系統(tǒng)開銷。本發(fā)明實(shí)施例通過如下技術(shù)方案實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種獲取信息的方法。根據(jù)本發(fā)明實(shí)施例提供的獲取信息的方法,預(yù)先確定用于獲取信息的數(shù)據(jù),并將產(chǎn)生所述數(shù)據(jù)的時(shí)間段劃分為多個(gè)子時(shí)間段;針對(duì)每個(gè)子時(shí)間段執(zhí)行加載當(dāng)前子時(shí)間段產(chǎn)生的數(shù)據(jù);
確定加載的所述數(shù)據(jù)中由預(yù)先設(shè)定的至少一個(gè)數(shù)據(jù)屬性組合得到的各項(xiàng)集對(duì)應(yīng)的第一信息熵;確定在當(dāng)前子時(shí)間段之前的所有子時(shí)間段產(chǎn)生的數(shù)據(jù)中所述各項(xiàng)集對(duì)應(yīng)的第二
信息熵;根據(jù)所述各項(xiàng)集對(duì)應(yīng)的第一信息熵以及第二信息熵更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合。根據(jù)本發(fā)明實(shí)施例的另一個(gè)方面,還提供了一種獲取信息的裝置。根據(jù)本發(fā)明實(shí)施例提供的獲取信息的裝置,包括數(shù)據(jù)加載單元,用于確定用于獲取信息的數(shù)據(jù),并將產(chǎn)生所述數(shù)據(jù)的時(shí)間段劃分為多個(gè)子時(shí)間段,并加載當(dāng)前子時(shí)間段產(chǎn)生的數(shù)據(jù);第一信息熵確定單元,用于確定所述數(shù)據(jù)加載單元加載的所述數(shù)據(jù)中由預(yù)先設(shè)定的至少一個(gè)數(shù)據(jù)屬性組合得到的各項(xiàng)集對(duì)應(yīng)的第一信息熵;第二信息熵確定單元,用于確定所述數(shù)據(jù)加載單元在當(dāng)前子時(shí)間段之前的所有子時(shí)間段加載的數(shù)據(jù)中所述各項(xiàng)集對(duì)應(yīng)的第二信息熵;項(xiàng)集集合更新單元,用于根據(jù)所述第一信息熵確定單元確定的各項(xiàng)集對(duì)應(yīng)的第一信息熵以及所述第二信息熵確定單元確定的第二信息熵更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集
皇A
朱口 ο通過本發(fā)明實(shí)施例提供的上述至少一個(gè)技術(shù)方案,預(yù)先確定用于獲取信息的數(shù)據(jù),并將產(chǎn)生數(shù)據(jù)的時(shí)間段劃分為多個(gè)子時(shí)間段,針對(duì)每個(gè)子時(shí)間段執(zhí)行加載當(dāng)前子時(shí)間段產(chǎn)生的數(shù)據(jù),確定加載的數(shù)據(jù)中由預(yù)先設(shè)定的至少一個(gè)數(shù)據(jù)屬性組合得到的各項(xiàng)集對(duì)應(yīng)的第一信息熵,確定在當(dāng)前子時(shí)間段之前的所有子時(shí)間段產(chǎn)生的數(shù)據(jù)中各項(xiàng)集對(duì)應(yīng)的第二信息熵,并根據(jù)各項(xiàng)集對(duì)應(yīng)的第一信息熵以及第二信息熵更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合。采用該技術(shù)方案,將用于獲取信息的數(shù)據(jù)根據(jù)其產(chǎn)生時(shí)間劃分為多個(gè)子時(shí)間段,一次只加載一個(gè)時(shí)間段的數(shù)據(jù),基于該時(shí)間段內(nèi)產(chǎn)生的數(shù)據(jù)更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合,與現(xiàn)有技術(shù)相比,將從數(shù)據(jù)中獲取信息的任務(wù)分布為多個(gè)執(zhí)行,大大減少了每次處理的數(shù)據(jù)量,從而提高了信息獲取的效率,并且降低了系統(tǒng)開銷。本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明實(shí)施例一起用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的限制。在附圖中圖1為本發(fā)明實(shí)施例一提供的獲取信息的方法流程圖一;圖2為本發(fā)明實(shí)施例一提供的確定第一信息熵的流程圖;圖3為本發(fā)明實(shí)施例一提供的確定第二信息熵的流程圖;圖4為本發(fā)明實(shí)施例一提供的更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合的流程圖;圖5為本發(fā)明實(shí)施例一提供的獲取信息的方法流程圖二 ;圖6為本發(fā)明實(shí)施例三提供的獲取信息的方法流程圖二 ;
圖7為本發(fā)明實(shí)施例三提供的獲取信息的方法流程圖三;圖8為本發(fā)明實(shí)施例三提供的獲取信息的方法流程圖四;圖9為本發(fā)明實(shí)施例三提供的獲取信息的方法流程圖五;圖10為本發(fā)明實(shí)施例三提供的獲取信息的方法流程圖六;圖11為本發(fā)明實(shí)施例三提供的獲取信息的方法流程圖七;圖12為本發(fā)明實(shí)施例四提供的獲取信息的方法流程圖。
具體實(shí)施例方式為了給出提高信息獲取的效率以及減少系統(tǒng)開銷的實(shí)現(xiàn)方案,本發(fā)明實(shí)施例提供了一種獲取信息的方法及裝置,以下結(jié)合說明書附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行說明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實(shí)施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。并且在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。實(shí)施例一根據(jù)本發(fā)明實(shí)施例一,提供了一種獲取信息的方法,該方法將用于獲取信息的數(shù)據(jù)根據(jù)其產(chǎn)生時(shí)間劃分為多個(gè)子時(shí)間段,一次只加載一個(gè)時(shí)間段的數(shù)據(jù),基于該時(shí)間段內(nèi)產(chǎn)生的數(shù)據(jù)更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合,將從數(shù)據(jù)中獲取信息的任務(wù)分布為多個(gè)執(zhí)行以達(dá)到提高信息獲取的效率以及降低系統(tǒng)開銷的目的。本發(fā)明實(shí)施例一提供的獲取信息的方法中,需要預(yù)先確定用于獲取信息的數(shù)據(jù), 并將產(chǎn)生該數(shù)據(jù)的時(shí)間段劃分為多個(gè)子時(shí)間段。優(yōu)選地,可以將產(chǎn)生該數(shù)據(jù)的子時(shí)間段劃分為W個(gè)等時(shí)間間隔T的多個(gè)子時(shí)間段,其中,該時(shí)間間隔T大于等于估計(jì)得到的從每個(gè)子時(shí)間段中獲取信息所需的時(shí)長(zhǎng),即保證在加載當(dāng)前子時(shí)間段產(chǎn)生的數(shù)據(jù)之前,從上一子時(shí)間段產(chǎn)生的數(shù)據(jù)中獲取信息完畢,根據(jù)該優(yōu)選方式,避免了加載當(dāng)前子時(shí)間段對(duì)應(yīng)的數(shù)據(jù)后,由于上一子時(shí)間段對(duì)應(yīng)的數(shù)據(jù)還未處理完畢(即還未從數(shù)據(jù)獲取信息完畢)而導(dǎo)致當(dāng)前子時(shí)間段對(duì)應(yīng)的數(shù)據(jù)處理滯后的問題,從而能夠保證數(shù)據(jù)處理的連續(xù)性,提高數(shù)據(jù)處理的效率。應(yīng)當(dāng)理解,以上提供的劃分子時(shí)間段的方法僅為本發(fā)明實(shí)施例一提供的優(yōu)選實(shí)施方式,具體應(yīng)用中,可以考慮系統(tǒng)處理能力以及具體的數(shù)據(jù)處理量等因素,靈活確定劃分方式,此處不再一一列舉。在確定用于獲取信息的數(shù)據(jù)以及完成子時(shí)間段的劃分以后,本發(fā)明實(shí)施例一提供的獲取信息的方法如圖1所示,針對(duì)劃分得到的每個(gè)子時(shí)間段執(zhí)行如下步驟101至步驟 104 步驟101、加載當(dāng)前子時(shí)間段產(chǎn)生的數(shù)據(jù)。該步驟101中,在確定每個(gè)子時(shí)間段后,對(duì)該子時(shí)間段進(jìn)行計(jì)時(shí),當(dāng)該子時(shí)間段結(jié)束后,意味著對(duì)應(yīng)該子時(shí)間段的數(shù)據(jù)產(chǎn)生完畢,則記載當(dāng)前子時(shí)間段產(chǎn)生的數(shù)據(jù)。實(shí)際應(yīng)用中,可以通過時(shí)間控制器進(jìn)行計(jì)時(shí),并觸發(fā)加載各子時(shí)間段產(chǎn)生的數(shù)據(jù)。步驟102、確定加載的當(dāng)前子時(shí)間段產(chǎn)生的數(shù)據(jù)中由預(yù)先設(shè)定的至少一個(gè)數(shù)據(jù)屬性組合得到的各項(xiàng)集對(duì)應(yīng)的第一信息熵。在執(zhí)行該步驟102之前,預(yù)先設(shè)定要獲取信息的數(shù)據(jù)的數(shù)據(jù)屬性,可以根據(jù)實(shí)際需要設(shè)置一個(gè)或多個(gè)數(shù)據(jù)屬性,并由設(shè)置的數(shù)據(jù)屬性組合得到項(xiàng)集。例如,特殊情況下,只設(shè)置一個(gè)數(shù)據(jù)屬性,則對(duì)應(yīng)的項(xiàng)集也為一個(gè),該項(xiàng)集對(duì)應(yīng)該數(shù)據(jù)屬性;若設(shè)置N個(gè)數(shù)據(jù)屬性 (N大于等于2),則可對(duì)該N個(gè)數(shù)據(jù)屬性進(jìn)行組合得到多個(gè)分別對(duì)應(yīng)不同數(shù)據(jù)屬性的項(xiàng)集, 例如,有3個(gè)數(shù)據(jù)屬性A、B、C,則可以組合得到7種項(xiàng)集,該7個(gè)項(xiàng)集分別為{A}、{B}、{C}、 {A、B}、{B、C}、{A、C}、{A、B、C}。該步驟102中,確定第一信息熵的具體過程將在后續(xù)實(shí)施例中詳細(xì)說明,此處暫不描述。步驟103、確定在當(dāng)前子時(shí)間段之前的所有子時(shí)間段產(chǎn)生的數(shù)據(jù)中各項(xiàng)集對(duì)應(yīng)的
第二信息熵。該步驟103中,若當(dāng)前子時(shí)間段為第一個(gè)子時(shí)間段,則在當(dāng)前子時(shí)間段之前的所有子時(shí)間段產(chǎn)生的數(shù)據(jù)中各項(xiàng)集對(duì)應(yīng)的第二信息熵均為0。該步驟103中,確定第二信息熵的具體過程將在后續(xù)實(shí)施例中詳細(xì)說明,此處暫不描述。步驟104、根據(jù)確定的各項(xiàng)集對(duì)應(yīng)的第一信息熵以及第二信息熵更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合。該步驟103中,更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合的具體過程將在后續(xù)實(shí)施例中詳細(xì)說明,此處暫不描述。至此,根據(jù)一個(gè)子時(shí)間段產(chǎn)生的數(shù)據(jù)更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合的過程結(jié)束,即從當(dāng)前子時(shí)間段產(chǎn)生的數(shù)據(jù)中獲取信息完畢。上述流程中,步驟102和步驟103沒有嚴(yán)格的執(zhí)行順序,實(shí)際應(yīng)用中可以先執(zhí)行步驟103再執(zhí)行步驟102,或者并行執(zhí)行。本發(fā)明實(shí)施例一中,在確定用于獲取信息的數(shù)據(jù)后,按照?qǐng)D1所述的流程依次對(duì)各子時(shí)間段產(chǎn)生的數(shù)據(jù)進(jìn)行處理,從而完成從各子時(shí)間段產(chǎn)生的數(shù)據(jù)中獲取信息的過程。圖1所述流程的步驟102中,確定加載的所述數(shù)據(jù)中每個(gè)項(xiàng)集對(duì)應(yīng)的第一信息熵的過程,如圖2所示,包括如下步驟步驟201、確定加載的數(shù)據(jù)中符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量。步驟202、確定加載的數(shù)據(jù)的總數(shù)據(jù)量。步驟203、根據(jù)確定的符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量以及總數(shù)據(jù)量,確定該項(xiàng)集對(duì)應(yīng)的第一信息熵。至此,確定一個(gè)項(xiàng)集對(duì)應(yīng)的第一信息熵的過程結(jié)束。上述流程中,步驟201和步驟 202沒有嚴(yán)格的執(zhí)行順序,實(shí)際應(yīng)用中可以先執(zhí)行步驟202再執(zhí)行步驟201,或者并行執(zhí)行。圖2所示流程的步驟201以及步驟202中,數(shù)據(jù)的數(shù)據(jù)量可以為數(shù)據(jù)記錄的條數(shù), 也可以為數(shù)據(jù)占用的存儲(chǔ)空間大小。圖2所示流程的步驟203中,根據(jù)確定的符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量以及所述總數(shù)據(jù)量,確定該項(xiàng)集對(duì)應(yīng)的第一信息熵,包括確定符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量與所述總數(shù)據(jù)量的比值;利用該比值乘以對(duì)該比值取對(duì)數(shù)得到的值,將得到的乘積的負(fù)值確定為該項(xiàng)集對(duì)應(yīng)的第一信息熵。本發(fā)明實(shí)施例中,對(duì)該比值取對(duì)數(shù)可認(rèn)為是運(yùn)用對(duì)數(shù)函數(shù)進(jìn)行區(qū)段擴(kuò)散,因?yàn)榇撕瘮?shù)值為負(fù),所以將得到的乘積的負(fù)值確定為該項(xiàng)集對(duì)應(yīng)的第一信息熵。圖1所述流程的步驟103中,確定在當(dāng)前子時(shí)間段之前的所有子時(shí)間段產(chǎn)生的數(shù)據(jù)中每個(gè)項(xiàng)集對(duì)應(yīng)的第二信息熵的過程,如圖3所示,包括如下步驟步驟301、確定當(dāng)前子時(shí)間段之前的所有子時(shí)間段產(chǎn)生的數(shù)據(jù)中符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量。步驟302、確定當(dāng)前子時(shí)間段之前的所有子時(shí)間段產(chǎn)生的數(shù)據(jù)的總數(shù)據(jù)量。步驟303、根據(jù)所述符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量以及所述總數(shù)據(jù)量,確定該項(xiàng)集對(duì)應(yīng)的第二信息熵。至此,確定一個(gè)項(xiàng)集對(duì)應(yīng)的第二信息熵的過程結(jié)束。上述流程中,步驟301和步驟 302沒有嚴(yán)格的執(zhí)行順序,實(shí)際應(yīng)用中可以先執(zhí)行步驟302再執(zhí)行步驟301,或者并行執(zhí)行。圖3所示流程的步驟301以及步驟302中,數(shù)據(jù)的數(shù)據(jù)量可以為數(shù)據(jù)記錄的條數(shù), 也可以為數(shù)據(jù)占用的存儲(chǔ)空間大小。圖3所示流程的步驟303中,根據(jù)符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量以及所述總數(shù)據(jù)量,確定該項(xiàng)集對(duì)應(yīng)的第二信息熵,包括確定該符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量與所述總數(shù)據(jù)量的比值;利用該比值乘以對(duì)該比值取對(duì)數(shù)得到的值,將得到的乘積的負(fù)值確定為該項(xiàng)集對(duì)
應(yīng)的第二信息熵。本發(fā)明實(shí)施例中,對(duì)該比值取對(duì)數(shù)可認(rèn)為是運(yùn)用對(duì)數(shù)函數(shù)進(jìn)行區(qū)段擴(kuò)散,因?yàn)榇撕瘮?shù)值為負(fù),所以將得到的乘積的負(fù)值確定為該項(xiàng)集對(duì)應(yīng)的第二信息熵。圖1所述流程的步驟104中,根據(jù)確定的各項(xiàng)集對(duì)應(yīng)的第一信息熵以及第二信息熵更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合的過程,如圖4所示,包括如下步驟步驟401、確定對(duì)應(yīng)的第一信息熵以及第二信息熵之和達(dá)到第一閾值的第一項(xiàng)集集合,其中第一項(xiàng)集集合中的第一項(xiàng)集通過對(duì)應(yīng)的第一信息熵以及第二信息熵標(biāo)識(shí);步驟402、利用確定的第一項(xiàng)集集合更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合。至此,根據(jù)確定的各項(xiàng)集對(duì)應(yīng)的第一信息熵以及第二信息熵更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合的過程結(jié)束。圖4所示流程的步驟402中,利用確定出的第一項(xiàng)集集合更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合的過程,具體包括若第一項(xiàng)集集合中的第一項(xiàng)集包含在用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中,則利用該第一項(xiàng)集集合中通過對(duì)應(yīng)的第一信息熵以及第二信息熵標(biāo)識(shí)的第一項(xiàng)集替換該用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中的相應(yīng)項(xiàng)集;若第一項(xiàng)集集合中的第一項(xiàng)集未包含在用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中,則刪除該用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中的相應(yīng)項(xiàng)集。進(jìn)一步地,若當(dāng)前子時(shí)間段非產(chǎn)生所述數(shù)據(jù)的時(shí)間段中的最后一個(gè)子時(shí)間段,則上述步驟104中,即根據(jù)各項(xiàng)集對(duì)應(yīng)的第一信息熵以及第二信息熵更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合,還包括確定對(duì)應(yīng)的第一信息熵達(dá)到第二閾值的第二項(xiàng)集集合,其中第二項(xiàng)集集合中的第二項(xiàng)集通過對(duì)應(yīng)的第一信息熵標(biāo)識(shí);利用所述第二項(xiàng)集集合更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合。其中利用所述第二項(xiàng)集集合更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合,包括將第二項(xiàng)集集合中未包含在用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中的第二項(xiàng)集,加入所述用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中。通過以上實(shí)施例對(duì)本發(fā)明提供的技術(shù)方案中從數(shù)據(jù)中獲取信息的過程進(jìn)行了詳細(xì)的描述,為更好地理解本發(fā)明實(shí)施例,以下進(jìn)一步結(jié)合針對(duì)用于獲取信息的數(shù)據(jù)為用戶話單記錄時(shí)的完整處理過程進(jìn)行說明。在執(zhí)行本發(fā)明實(shí)施例一提供的獲取信息的方法之前,進(jìn)行如下設(shè)置設(shè)定項(xiàng)集隱含信息熵閾值Eptl,其中,隱含信息熵對(duì)應(yīng)以上所述的第一信息熵,閾值 Eptl對(duì)應(yīng)以上所述的第二閾值;設(shè)定項(xiàng)集信息熵閾值&,其中,信息熵即隱含信息熵和累計(jì)信息熵之和,累計(jì)信息熵對(duì)應(yīng)以上所述的第二信息熵,閾值&對(duì)應(yīng)以上所述的第一閾值;設(shè)定時(shí)間窗口數(shù)Iwl,其中,時(shí)間窗口對(duì)應(yīng)以上所述的子時(shí)間段,用于對(duì)各子時(shí)間段進(jìn)行計(jì)時(shí),即時(shí)間窗口的滑動(dòng)時(shí)間間隔對(duì)應(yīng)子時(shí)間段的時(shí)間間隔;設(shè)定時(shí)間窗口庫表,分別與設(shè)定的時(shí)間窗口對(duì)應(yīng),用于加載對(duì)應(yīng)時(shí)間窗口內(nèi)產(chǎn)生的數(shù)據(jù);設(shè)定輸出潛在頻繁項(xiàng)集集合ITEM,其中,集合中的每個(gè)項(xiàng)集可通過三元組{項(xiàng)集、 累計(jì)信息熵、隱含信息熵}表示,該潛在頻繁項(xiàng)集集合ITEM對(duì)應(yīng)以上所述的用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合。以上設(shè)置過程中,閾值^jtl可以參考如下因素設(shè)置1、對(duì)項(xiàng)集的所有隱含信息熵的概率分布區(qū)間進(jìn)行分段(p' pi = 1,2,...,n),然后在按照如下公式得到項(xiàng)集隱含信息熵閾值Eptl
處于第/個(gè)子區(qū)間段的所有項(xiàng)集隱含信息熵個(gè)數(shù)’ p0r所有項(xiàng)集的隱含信息熵總數(shù)x Pi其中項(xiàng)集的所有隱含信息熵的概率分布區(qū)間,即表示所有項(xiàng)集的隱含信息熵的分布, 區(qū)間的端點(diǎn)分別為項(xiàng)集的所有隱含信息熵的最小值以及最大值;對(duì)項(xiàng)集的所有隱含信息熵的概率分布區(qū)間進(jìn)行分段,即將確定的概率分布區(qū)間劃分為多個(gè)子區(qū)間段,子區(qū)間段個(gè)數(shù)可以根據(jù)實(shí)際的概率分布區(qū)間長(zhǎng)度確定,例如,概率分布區(qū)間為
,則可以將該概率分布區(qū)間為劃分為5個(gè)子區(qū)間段,每個(gè)子區(qū)間段長(zhǎng)度為 0. 1 ;p' i為第i個(gè)子區(qū)間段的右邊端點(diǎn),η為子區(qū)間段的個(gè)數(shù)。2、對(duì)穩(wěn)態(tài)情況下(各時(shí)間窗口均已加載運(yùn)算),對(duì)項(xiàng)集的所有累計(jì)信息熵的概率分布區(qū)間進(jìn)行分段(P" i,i = 1,2,. . .,η),然后在按照如下公式得到項(xiàng)集信息熵閾值
y處于第/個(gè)子區(qū)間段的所有項(xiàng)集累計(jì)信息熵個(gè)數(shù)
權(quán)利要求
1.一種獲取信息的方法,其特征在于,預(yù)先確定用于獲取信息的數(shù)據(jù),并將產(chǎn)生所述數(shù)據(jù)的時(shí)間段劃分為多個(gè)子時(shí)間段;針對(duì)每個(gè)子時(shí)間段執(zhí)行 加載當(dāng)前子時(shí)間段產(chǎn)生的數(shù)據(jù);確定加載的所述數(shù)據(jù)中由預(yù)先設(shè)定的至少一個(gè)數(shù)據(jù)屬性組合得到的各項(xiàng)集對(duì)應(yīng)的第一信息熵;確定在當(dāng)前子時(shí)間段之前的所有子時(shí)間段產(chǎn)生的數(shù)據(jù)中所述各項(xiàng)集對(duì)應(yīng)的第二信息熵;根據(jù)所述各項(xiàng)集對(duì)應(yīng)的第一信息熵以及第二信息熵更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集皇A朱口 ο
2.如權(quán)利要求1所述的方法,其特征在于,將產(chǎn)生所述數(shù)據(jù)的時(shí)間段劃分為多個(gè)子時(shí)間段,包括將產(chǎn)生所述數(shù)據(jù)的時(shí)間段劃分為等時(shí)間間隔的多個(gè)子時(shí)間段;其中,所述時(shí)間間隔大于等于估計(jì)得到的從每個(gè)子時(shí)間段中獲取信息所需的時(shí)長(zhǎng)。
3.如權(quán)利要求1所述的方法,其特征在于,確定加載的所述數(shù)據(jù)中每個(gè)項(xiàng)集對(duì)應(yīng)的第一信息熵,包括確定加載的所述數(shù)據(jù)中符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量以及加載的所述數(shù)據(jù)的總數(shù)據(jù)量;根據(jù)所述符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量以及所述總數(shù)據(jù)量,確定該項(xiàng)集對(duì)應(yīng)的第一信息熵。
4.如權(quán)利要求3所述的方法,其特征在于,根據(jù)所述符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量以及所述總數(shù)據(jù)量,確定該項(xiàng)集對(duì)應(yīng)的第一信息熵,包括確定所述符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量與所述總數(shù)據(jù)量的比值; 利用所述比值乘以對(duì)所述比值取對(duì)數(shù)得到的值,將得到的乘積的負(fù)值確定為該項(xiàng)集對(duì)應(yīng)的第一信息熵。
5.如權(quán)利要求1所述的方法,其特征在于,確定在當(dāng)前子時(shí)間段之前的所有子時(shí)間段產(chǎn)生的數(shù)據(jù)中每個(gè)項(xiàng)集對(duì)應(yīng)的第二信息熵,包括確定當(dāng)前子時(shí)間段之前的所有子時(shí)間段產(chǎn)生的數(shù)據(jù)中符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量以及當(dāng)前子時(shí)間段之前的所有子時(shí)間段產(chǎn)生的數(shù)據(jù)的總數(shù)據(jù)量;根據(jù)所述符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量以及所述總數(shù)據(jù)量,確定該項(xiàng)集對(duì)應(yīng)的第二信息熵。
6.如權(quán)利要求5所述的方法,其特征在于,根據(jù)所述符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量以及所述總數(shù)據(jù)量,確定該項(xiàng)集對(duì)應(yīng)的第二信息熵,包括確定所述符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量與所述總數(shù)據(jù)量的比值; 利用所述比值乘以對(duì)所述比值取對(duì)數(shù)得到的值,將得到的乘積的負(fù)值確定為該項(xiàng)集對(duì)應(yīng)的第二信息熵。
7.如權(quán)利要求3或5所述的方法,其特征在于,所述數(shù)據(jù)量為 數(shù)據(jù)記錄的條數(shù);或數(shù)據(jù)占用的存儲(chǔ)空間大小。
8.如權(quán)利要求1所述的方法,其特征在于,根據(jù)所述各項(xiàng)集對(duì)應(yīng)的第一信息熵以及第二信息熵更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合,包括確定對(duì)應(yīng)的第一信息熵以及第二信息熵之和達(dá)到第一閾值的第一項(xiàng)集集合,其中所述第一項(xiàng)集集合中的第一項(xiàng)集通過對(duì)應(yīng)的第一信息熵以及第二信息熵標(biāo)識(shí);利用所述第一項(xiàng)集集合更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合。
9.如權(quán)利要求8所述的方法,其特征在于,利用所述第一項(xiàng)集集合更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合,包括若第一項(xiàng)集集合中的第一項(xiàng)集包含在用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中,則利用所述第一項(xiàng)集集合中通過對(duì)應(yīng)的第一信息熵以及第二信息熵標(biāo)識(shí)的第一項(xiàng)集替換所述用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中的相應(yīng)項(xiàng)集;若第一項(xiàng)集集合中的第一項(xiàng)集未包含在用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中,則刪除所述用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中的相應(yīng)項(xiàng)集。
10.如權(quán)利要求8所述的方法,其特征在于,若當(dāng)前子時(shí)間段非產(chǎn)生所述數(shù)據(jù)的時(shí)間段中的最后一個(gè)子時(shí)間段,則根據(jù)所述各項(xiàng)集對(duì)應(yīng)的第一信息熵以及第二信息熵更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合,還包括確定對(duì)應(yīng)的第一信息熵達(dá)到第二閾值的第二項(xiàng)集集合,其中所述第二項(xiàng)集集合中的第二項(xiàng)集通過對(duì)應(yīng)的第一信息熵標(biāo)識(shí);利用所述第二項(xiàng)集集合更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合。
11.如權(quán)利要求10所述的方法,其特征在于,利用所述第二項(xiàng)集集合更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合,包括將第二項(xiàng)集集合中未包含在用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中的第二項(xiàng)集,加入所述用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中。
12.如權(quán)利要求1所述的方法,其特征在于,分別根據(jù)所述各項(xiàng)集對(duì)應(yīng)的第一信息熵以及第二信息熵更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合后,還包括根據(jù)設(shè)定的待提取數(shù)據(jù)屬性以及所述用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中各項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性,對(duì)所述用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中保存的項(xiàng)集進(jìn)行分組處理。
13.一種獲取信息的裝置,其特征在于,包括數(shù)據(jù)加載單元,用于確定用于獲取信息的數(shù)據(jù),并將產(chǎn)生所述數(shù)據(jù)的時(shí)間段劃分為多個(gè)子時(shí)間段,并加載當(dāng)前子時(shí)間段產(chǎn)生的數(shù)據(jù);第一信息熵確定單元,用于確定所述數(shù)據(jù)加載單元加載的所述數(shù)據(jù)中由預(yù)先設(shè)定的至少一個(gè)數(shù)據(jù)屬性組合得到的各項(xiàng)集對(duì)應(yīng)的第一信息熵;第二信息熵確定單元,用于確定所述數(shù)據(jù)加載單元在當(dāng)前子時(shí)間段之前的所有子時(shí)間段加載的數(shù)據(jù)中所述各項(xiàng)集對(duì)應(yīng)的第二信息熵;項(xiàng)集集合更新單元,用于根據(jù)所述第一信息熵確定單元確定的各項(xiàng)集對(duì)應(yīng)的第一信息熵以及所述第二信息熵確定單元確定的第二信息熵更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合。
14.如權(quán)利要求13所述的裝置,其特征在于,所述數(shù)據(jù)加載單元,包括時(shí)間段劃分模塊,用于確定用于獲取信息的數(shù)據(jù),將產(chǎn)生所述數(shù)據(jù)的時(shí)間段劃分為等時(shí)間間隔的多個(gè)子時(shí)間段;其中,所述時(shí)間間隔大于等于估計(jì)得到的從每個(gè)子時(shí)間段中獲取信息所需的時(shí)長(zhǎng);加載模塊,用于對(duì)所述時(shí)間段劃分模塊劃分的各個(gè)子時(shí)間段進(jìn)行計(jì)時(shí),在當(dāng)前子時(shí)間段結(jié)束后,加載當(dāng)前子時(shí)間段產(chǎn)生的數(shù)據(jù)。
15.如權(quán)利要求13所述的裝置,其特征在于,所述第一信息熵確定單元,包括第一數(shù)據(jù)量確定模塊,用于確定加載的所述數(shù)據(jù)中符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量以及加載的所述數(shù)據(jù)的總數(shù)據(jù)量;第一信息熵確定模塊,用于根據(jù)所述第一數(shù)據(jù)量確定模塊確定的符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量以及所述總數(shù)據(jù)量,確定該項(xiàng)集對(duì)應(yīng)的第一信息熵。
16.如權(quán)利要求15所述的裝置,其特征在于,所述第一信息熵確定模塊,具體用于確定所述符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量與所述總數(shù)據(jù)量的比值;利用所述比值乘以對(duì)所述比值取對(duì)數(shù)得到的值,將得到的乘積的負(fù)值確定為該項(xiàng)集對(duì)應(yīng)的第一信息熵。
17.如權(quán)利要求13所述的裝置,其特征在于,所述第二信息熵確定單元,包括第二數(shù)據(jù)量確定模塊,用于確定當(dāng)前子時(shí)間段之前的所有子時(shí)間段產(chǎn)生的數(shù)據(jù)中符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量以及當(dāng)前子時(shí)間段之前的所有子時(shí)間段產(chǎn)生的數(shù)據(jù)的總數(shù)據(jù)量;第二信息熵確定模塊,用于根據(jù)所述第二數(shù)據(jù)量確定模塊確定的符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量以及所述總數(shù)據(jù)量,確定該項(xiàng)集對(duì)應(yīng)的第二信息熵。
18.如權(quán)利要求17所述的裝置,其特征在于,所述第二信息熵確定模塊,具體用于確定所述符合該項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性的數(shù)據(jù)量與所述總數(shù)據(jù)量的比值;利用所述比值乘以對(duì)所述比值取對(duì)數(shù)得到的值,將得到的乘積的負(fù)值確定為該項(xiàng)集對(duì)應(yīng)的第二信息熵。
19.如權(quán)利要求13所述的裝置,其特征在于,所述項(xiàng)集集合更新單元,包括第一項(xiàng)集集合確定模塊,用于確定對(duì)應(yīng)的第一信息熵以及第二信息熵之和達(dá)到第一閾值的第一項(xiàng)集集合,其中所述第一項(xiàng)集集合中的第一項(xiàng)集通過對(duì)應(yīng)的第一信息熵以及第二信息熵標(biāo)識(shí);第一更新模塊,用于利用所述第一項(xiàng)集集合確定模塊確定的第一項(xiàng)集集合更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合。
20.如權(quán)利要求19所述的裝置,其特征在于,所述第一更新模塊,具體用于在第一項(xiàng)集集合中的第一項(xiàng)集包含在用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中時(shí),利用所述第一項(xiàng)集集合中通過對(duì)應(yīng)的第一信息熵以及第二信息熵標(biāo)識(shí)的第一項(xiàng)集替換所述用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中的相應(yīng)項(xiàng)集;在第一項(xiàng)集集合中的第一項(xiàng)集未包含在用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中時(shí),刪除所述用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中的相應(yīng)項(xiàng)集。
21.如權(quán)利要求19所述的裝置,其特征在于,所述項(xiàng)集集合更新單元,還包括第二項(xiàng)集集合確定模塊,用于在當(dāng)前子時(shí)間段非產(chǎn)生所述數(shù)據(jù)的時(shí)間段中的最后一個(gè)子時(shí)間段時(shí),確定對(duì)應(yīng)的第一信息熵達(dá)到第二閾值的第二項(xiàng)集集合,其中所述第二項(xiàng)集集合中的第二項(xiàng)集通過對(duì)應(yīng)的第一信息熵標(biāo)識(shí);第二更新模塊,用于利用所述第二項(xiàng)集集合確定模塊確定的第二項(xiàng)集集合更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合。
22.如權(quán)利要求21所述的裝置,其特征在于,所述第二更新模塊,用于將第二項(xiàng)集集合中未包含在用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中的第二項(xiàng)集,加入所述用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中。
23.如權(quán)利要求13所述的裝置,其特征在于,還包括分組處理單元,用于在分別根據(jù)所述各項(xiàng)集對(duì)應(yīng)的第一信息熵以及第二信息熵更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合后,根據(jù)設(shè)定的待提取數(shù)據(jù)屬性以及所述用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中各項(xiàng)集對(duì)應(yīng)的數(shù)據(jù)屬性,對(duì)所述用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合中保存的項(xiàng)集進(jìn)行分組處理。
全文摘要
本發(fā)明公開了一種獲取信息的方法及裝置,主要技術(shù)方案包括預(yù)先確定用于獲取信息的數(shù)據(jù),并將產(chǎn)生所述數(shù)據(jù)的時(shí)間段劃分為多個(gè)子時(shí)間段;針對(duì)每個(gè)子時(shí)間段執(zhí)行加載當(dāng)前子時(shí)間段產(chǎn)生的數(shù)據(jù);確定加載的所述數(shù)據(jù)中由預(yù)先設(shè)定的至少一個(gè)數(shù)據(jù)屬性組合得到的各項(xiàng)集對(duì)應(yīng)的第一信息熵;確定在當(dāng)前子時(shí)間段之前的所有子時(shí)間段產(chǎn)生的數(shù)據(jù)中所述各項(xiàng)集對(duì)應(yīng)的第二信息熵;根據(jù)所述各項(xiàng)集對(duì)應(yīng)的第一信息熵以及第二信息熵更新用于標(biāo)識(shí)獲取的信息的項(xiàng)集集合。采用該技術(shù)方案,一方面提高了信息獲取的效率,另一方面降低了系統(tǒng)開銷。
文檔編號(hào)G06F17/30GK102411594SQ201010292828
公開日2012年4月11日 申請(qǐng)日期2010年9月25日 優(yōu)先權(quán)日2010年9月25日
發(fā)明者李少年, 蔡俊 申請(qǐng)人:中國(guó)移動(dòng)通信集團(tuán)湖南有限公司