熱點(diǎn)數(shù)據(jù)識別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及云計(jì)算領(lǐng)域,特別涉及一種熱點(diǎn)數(shù)據(jù)識別方法和裝置。
【背景技術(shù)】
[0002] 在云存儲系統(tǒng)中,熱點(diǎn)數(shù)據(jù)多依據(jù)數(shù)據(jù)的訪問頻度、數(shù)據(jù)訪問時(shí)間等信息來確定。 用戶通??蒞將熱點(diǎn)數(shù)據(jù)從云端遷移至本地,從而提高訪問效率。
[0003] 但是,按照目前的熱點(diǎn)數(shù)據(jù)識別方法,識別的各個熱點(diǎn)數(shù)據(jù)之間很可能毫無關(guān)系, 受限于存儲資源、網(wǎng)絡(luò)資源等因素,用戶通常很難將全部熱點(diǎn)數(shù)據(jù)從云端遷移至本地,即便 可W將全部熱點(diǎn)數(shù)據(jù)從云端遷移至本地,其中大部分熱點(diǎn)數(shù)據(jù)很可能不是用戶需要的,從 而造成寶貴的存儲資源和網(wǎng)絡(luò)資源的浪費(fèi)。
[0004] 因此,有必要改進(jìn)熱點(diǎn)數(shù)據(jù)的識別方案,提高用戶所需要的熱點(diǎn)數(shù)據(jù)的命中率。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明實(shí)施例的一個目的是;提出一種新的熱點(diǎn)數(shù)據(jù)識別方案,W提高用戶所需 要的熱點(diǎn)數(shù)據(jù)的命中率。
[0006] 根據(jù)本發(fā)明實(shí)施例的一個方面,提出一種熱點(diǎn)數(shù)據(jù)識別方法,包括;根據(jù)文件名、 文件內(nèi)容、文件訪問順序、文件位置中的至少一項(xiàng)信息確定被訪問熱點(diǎn)文件的關(guān)聯(lián)文件;確 定被訪問熱點(diǎn)文件與其關(guān)聯(lián)文件之間的文件關(guān)聯(lián)度;根據(jù)被訪問熱點(diǎn)文件與其關(guān)聯(lián)文件之 間的文件關(guān)聯(lián)度W及關(guān)聯(lián)文件的訪問熱度信息確定關(guān)聯(lián)文件的熱度權(quán)重;根據(jù)關(guān)聯(lián)文件的 熱度權(quán)重從關(guān)聯(lián)文件中識別出熱點(diǎn)文件。
[0007] 在一個實(shí)施例中,根據(jù)文件名、文件內(nèi)容、文件訪問順序、文件位置中的至少一項(xiàng) 信息確定被訪問熱點(diǎn)文件的關(guān)聯(lián)文件包括:計(jì)算被訪問熱點(diǎn)文件與其他文件之間的文件名 關(guān)聯(lián)系數(shù),選取文件名關(guān)聯(lián)系數(shù)最大的預(yù)設(shè)數(shù)量的文件作為第一關(guān)聯(lián)集合;計(jì)算被訪問熱 點(diǎn)文件與其他文件之間的文件內(nèi)容關(guān)聯(lián)系數(shù),選取文件內(nèi)容關(guān)聯(lián)系數(shù)最大的預(yù)設(shè)數(shù)量的文 件作為第二關(guān)聯(lián)集合;獲取在被訪問熱點(diǎn)文件之前最近被訪問的預(yù)設(shè)數(shù)量的文件作為第Η 關(guān)聯(lián)集合;獲取與被訪問熱點(diǎn)文件在同一目錄下的文件作為第四關(guān)聯(lián)集合;將第一關(guān)聯(lián)集 合、第二關(guān)聯(lián)集合、第Η關(guān)聯(lián)集合和第四關(guān)聯(lián)集合中至少一個集合中的文件作為被訪問熱 點(diǎn)文件的關(guān)聯(lián)文件。
[0008] 在一個實(shí)施例中,通過Apriori算法計(jì)算被訪問熱點(diǎn)文件與其他文件之間的文件 名關(guān)聯(lián)系數(shù)和文件內(nèi)容關(guān)聯(lián)系數(shù)。
[0009] 在一個實(shí)施例中,確定被訪問熱點(diǎn)文件與其關(guān)聯(lián)文件之間的文件關(guān)聯(lián)度包括;計(jì) 算被訪問熱點(diǎn)文件與其關(guān)聯(lián)文件之間的文件名關(guān)聯(lián)系數(shù);計(jì)算被訪問熱點(diǎn)文件與其關(guān)聯(lián)文 件之間的文件內(nèi)容關(guān)聯(lián)系數(shù);根據(jù)各個關(guān)聯(lián)文件的訪問順序計(jì)算每個關(guān)聯(lián)文件的文件訪問 順序系數(shù);根據(jù)被訪問熱點(diǎn)文件與關(guān)聯(lián)文件是否在同一目錄下確定關(guān)聯(lián)文件的文件位置系 數(shù);根據(jù)被訪問熱點(diǎn)文件與其關(guān)聯(lián)文件之間的文件名關(guān)聯(lián)系數(shù)和文件內(nèi)容關(guān)聯(lián)系數(shù)、W及 關(guān)聯(lián)文件的文件訪問順序系數(shù)和文件位置系數(shù),使用歐幾里德距離算法確定被訪問熱點(diǎn)文 件與其關(guān)聯(lián)文件之間的文件關(guān)聯(lián)度。
[0010] 在一個實(shí)施例中,根據(jù)被訪問熱點(diǎn)文件與其關(guān)聯(lián)文件之間的文件關(guān)聯(lián)度W及關(guān)聯(lián) 文件的訪問熱度信息確定關(guān)聯(lián)文件的熱度權(quán)重包括:設(shè)置文件關(guān)聯(lián)度和訪問熱度信息在熱 度權(quán)重中所占的熱度系數(shù);根據(jù)被訪問熱點(diǎn)文件與其關(guān)聯(lián)文件之間的文件關(guān)聯(lián)度及其熱度 系數(shù),并且結(jié)合關(guān)聯(lián)文件的訪問熱度信息及其熱度系數(shù),綜合確定關(guān)聯(lián)文件的熱度權(quán)重;其 中,訪問熱度信息包括訪問時(shí)間和/或訪問頻率。
[0011] 在一個實(shí)施例中,識別出熱點(diǎn)文件之后,還包括;如果本地緩存中沒有識別出的熱 點(diǎn)文件,從云端下載該熱點(diǎn)文件;和/或,如果本地緩存中存留有非熱點(diǎn)文件,從本地緩存 中刪除該非熱點(diǎn)文件。
[0012] 根據(jù)本發(fā)明實(shí)施例的再一個方面,提出一種熱點(diǎn)數(shù)據(jù)識別裝置,包括:關(guān)聯(lián)文件確 定單元,用于根據(jù)文件名、文件內(nèi)容、文件訪問順序、文件位置中的至少一項(xiàng)信息確定被訪 問熱點(diǎn)文件的關(guān)聯(lián)文件;文件關(guān)聯(lián)度確定單元,用于確定被訪問熱點(diǎn)文件與其關(guān)聯(lián)文件之 間的文件關(guān)聯(lián)度;熱度權(quán)重確定單元,用于根據(jù)被訪問熱點(diǎn)文件與其關(guān)聯(lián)文件之間的文件 關(guān)聯(lián)度W及關(guān)聯(lián)文件的訪問熱度信息確定關(guān)聯(lián)文件的熱度權(quán)重;熱點(diǎn)文件識別單元,用于 根據(jù)關(guān)聯(lián)文件的熱度權(quán)重從關(guān)聯(lián)文件中識別出熱點(diǎn)文件。
[0013] 在一個實(shí)施例中,關(guān)聯(lián)文件確定單元,具體用于根據(jù)文件名、文件內(nèi)容、文件訪問 順序、文件位置中的至少一項(xiàng)信息確定被訪問熱點(diǎn)文件的關(guān)聯(lián)文件;計(jì)算被訪問熱點(diǎn)文件 與其他文件之間的文件名關(guān)聯(lián)系數(shù),選取文件名關(guān)聯(lián)系數(shù)最大的預(yù)設(shè)數(shù)量的文件作為第一 關(guān)聯(lián)集合;計(jì)算被訪問熱點(diǎn)文件與其他文件之間的文件內(nèi)容關(guān)聯(lián)系數(shù),選取文件內(nèi)容關(guān)聯(lián) 系數(shù)最大的預(yù)設(shè)數(shù)量的文件作為第二關(guān)聯(lián)集合;獲取在被訪問熱點(diǎn)文件之前最近被訪問的 預(yù)設(shè)數(shù)量的文件作為第Η關(guān)聯(lián)集合;獲取與被訪問熱點(diǎn)文件在同一目錄下的文件作為第四 關(guān)聯(lián)集合;將第一關(guān)聯(lián)集合、第二關(guān)聯(lián)集合、第Η關(guān)聯(lián)集合和第四關(guān)聯(lián)集合中至少一個集合 中的文件作為被訪問熱點(diǎn)文件的關(guān)聯(lián)文件。
[0014] 在一個實(shí)施例中,通過Apriori算法計(jì)算被訪問熱點(diǎn)文件與其他文件之間的文件 名關(guān)聯(lián)系數(shù)和文件內(nèi)容關(guān)聯(lián)系數(shù)。
[0015] 在一個實(shí)施例中,文件關(guān)聯(lián)度確定單元,具體用于;計(jì)算被訪問熱點(diǎn)文件與其關(guān)聯(lián) 文件之間的文件名關(guān)聯(lián)系數(shù);計(jì)算被訪問熱點(diǎn)文件與其關(guān)聯(lián)文件之間的文件內(nèi)容關(guān)聯(lián)系 數(shù);根據(jù)各個關(guān)聯(lián)文件的訪問順序計(jì)算每個關(guān)聯(lián)文件的文件訪問順序系數(shù);根據(jù)被訪問熱 點(diǎn)文件與關(guān)聯(lián)文件是否在同一目錄下確定關(guān)聯(lián)文件的文件位置系數(shù);根據(jù)被訪問熱點(diǎn)文件 與其關(guān)聯(lián)文件之間的文件名關(guān)聯(lián)系數(shù)和文件內(nèi)容關(guān)聯(lián)系數(shù)、W及關(guān)聯(lián)文件的文件訪問順序 系數(shù)和文件位置系數(shù),使用歐幾里德距離算法確定被訪問熱點(diǎn)文件與其關(guān)聯(lián)文件之間的文 件關(guān)聯(lián)度。
[0016] 在一個實(shí)施例中,熱度權(quán)重確定單元,具體用于;設(shè)置文件關(guān)聯(lián)度和訪問熱度信息 在熱度權(quán)重中所占的熱度系數(shù);根據(jù)被訪問熱點(diǎn)文件與其關(guān)聯(lián)文件之間的文件關(guān)聯(lián)度及其 熱度系數(shù),并且結(jié)合關(guān)聯(lián)文件的訪問熱度信息及其熱度系數(shù),綜合確定關(guān)聯(lián)文件的熱度權(quán) 重;其中,訪問熱度信息包括訪問時(shí)間和/或訪問頻率。
[0017] 在一個實(shí)施例中,熱點(diǎn)數(shù)據(jù)識別裝置還包括:熱點(diǎn)文件處理單元,用于在識別出熱 點(diǎn)文件之后,如果本地緩存中沒有識別出的熱點(diǎn)文件,從云端下載該熱點(diǎn)文件;和/或,女口 果本地緩存中存留有非熱點(diǎn)文件,從本地緩存中刪除該非熱點(diǎn)文件。
[0018] 本發(fā)明實(shí)施例在確定文件熱度時(shí)增加對文件相關(guān)性的參考,從而提升熱點(diǎn)文件的 預(yù)判能力,提高用戶所需要的熱點(diǎn)數(shù)據(jù)的命中率。并且,將識別出的熱點(diǎn)文件下載到本地緩 存,可W提高用戶對本地文件的訪問速度。
[0019] 通過W下參照附圖對本發(fā)明的示例性實(shí)施例的詳細(xì)描述,本發(fā)明的其它特征及其 優(yōu)點(diǎn)將會變得清楚。
【附圖說明】
[0020] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可 W根據(jù)送些附圖獲得其他的附圖。
[0021] 圖1是本發(fā)明熱點(diǎn)數(shù)據(jù)識別方法一個實(shí)施例的流程示意圖。
[0022] 圖2是本發(fā)明熱點(diǎn)數(shù)據(jù)識別裝置一個實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0023] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。W下 對至少一個示例性實(shí)施例的描述實(shí)際上僅僅是說明性的,決不作為對本發(fā)明及其應(yīng)用或使 用的任何限制?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提 下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0024] 為了提高用戶所需要的熱點(diǎn)數(shù)據(jù)的命中率,本發(fā)明提出一種新的熱點(diǎn)數(shù)據(jù)識別方 案,包括熱點(diǎn)數(shù)據(jù)識別方法和熱點(diǎn)數(shù)據(jù)識別裝置。本發(fā)明提出的熱點(diǎn)數(shù)據(jù)識別方案可W應(yīng) 用于云存儲領(lǐng)域,例如公有云和私有云結(jié)合的混合云存儲,還可W應(yīng)用于分層分級存儲。下 面分別具體說明熱點(diǎn)數(shù)據(jù)識別方案。
[0025] 圖1是本發(fā)明熱點(diǎn)數(shù)據(jù)識別方法一個實(shí)施例的流程示意圖。如圖1所示,本實(shí)施 例的熱點(diǎn)數(shù)據(jù)識別方法包括W下步驟:
[0026] 步驟S102,根據(jù)文件名、文件內(nèi)容、文件訪問順序、文件位置中的至少一項(xiàng)信息確 定被訪問熱點(diǎn)文件的關(guān)聯(lián)文件。
[0027] 步驟S104,確定被訪問熱點(diǎn)文件與其關(guān)聯(lián)文件之間的文件關(guān)聯(lián)度。
[0028] 步驟S106,根據(jù)被訪問熱點(diǎn)文件與其關(guān)聯(lián)文件之間的文件關(guān)聯(lián)度W及關(guān)聯(lián)文件的 訪問熱度信息確定關(guān)聯(lián)文件的熱度權(quán)重。其中,訪問熱度信息例如包括訪問時(shí)間和/或訪 問頻率等信息。
[0029] 步驟S108,根據(jù)關(guān)聯(lián)文件的熱度權(quán)重從關(guān)聯(lián)文件中識別出熱點(diǎn)文件。
[0030] 本實(shí)施例在確定文件熱度時(shí)增加對文件相關(guān)性的參考,從而提升熱點(diǎn)文件的預(yù)判 能力,提高用戶所需要的熱點(diǎn)數(shù)據(jù)的命中率。
[0