031] 在步驟S102中,根據(jù)文件名、文件內容、文件訪問順序、文件位置中的至少一項信 息確定被訪問熱點文件的關聯(lián)文件的一種實現(xiàn)方法具體如下:
[0032] 步驟S102a,計算被訪問熱點文件與其他文件之間的文件名關聯(lián)系數(shù),選取文件名 關聯(lián)系數(shù)最大的預設數(shù)量的文件作為第一關聯(lián)集合。
[0033] 一種示例性的方法,可W通過Apriori算法(例如k-means算法)計算被訪問熱 點文件與其他文件之間的文件名關聯(lián)系數(shù)。具體來說,可W建立文件名關鍵字索引表(如 表1所示),根據(jù)文件名關鍵字索引表例如采用W下公式計算被訪問熱點文件與其他文件 之間的文件名關聯(lián)系數(shù):
[0034] Ni = support (化,巧)/suppo;rt ({巧)
[0035] 其中,Ni表示被訪問熱點文件F與文件Fi之間的文件名關聯(lián)系數(shù),suppod (.)表 示相關數(shù)據(jù)在索引表中出現(xiàn)的次數(shù),例如,suppod({Fi,巧)表示化,巧在文件名關鍵字索 引表中出現(xiàn)的次數(shù),suppod({F})表示{巧在文件名關鍵字索引表中出現(xiàn)的次數(shù)。
[0036] 表 1
[0037]
[003引另外,例如可W選取文件名關聯(lián)系數(shù)最大的m個文件作為第一關聯(lián)集合FN,F(xiàn)N = (化1,化2,…,fnm},m值可W根據(jù)熱點文件識別精度需要進行設置。
[0039] 步驟S102b,計算被訪問熱點文件與其他文件之間的文件內容關聯(lián)系數(shù),選取文件 內容關聯(lián)系數(shù)最大的預設數(shù)量的文件作為第二關聯(lián)集合。
[0040] -種示例性的方法,可W通過Apriori算法(例如k-means算法)計算被訪問熱 點文件與其他文件之間的文件內容關聯(lián)系數(shù)。具體來說,可W建立文件內容關鍵字索引表 (如表2所示),根據(jù)文件內容關鍵字索引表例如采用W下公式計算被訪問熱點文件與其他 文件之間的文件內容關聯(lián)系數(shù):
[0041] 。= support (化,F(xiàn)}) /suppo;rt ({巧)
[0042] 其中,。表示被訪問熱點文件F與文件Fi之間的文件內容關聯(lián)系數(shù),support (.) 表示相關數(shù)據(jù)在索引表中出現(xiàn)的次數(shù),例如,suppcxrt({Fi,巧)表示化,巧在文件內容關鍵 字索引表中出現(xiàn)的次數(shù),suppod({F})表示{巧在文件內容關鍵字索引表中出現(xiàn)的次數(shù)。
[0043] 表 2
[0044]
[0045] 另外,例如可W選取文件內容關聯(lián)系數(shù)最大的m個文件作為第二關聯(lián)集合FC,F(xiàn)C ={fcl,fc2,…,fcm},m值可W根據(jù)熱點文件識別精度需要進行設置。
[0046] 步驟S102C,獲取在被訪問熱點文件之前最近被訪問的預設數(shù)量的文件作為第Η 關聯(lián)集合。
[0047] 例如,獲取在被訪問熱點文件F之前最近被訪問的m個文件作為第Η關聯(lián)集合FA, FA =柏1,化2,…,fam},m值可W根據(jù)熱點文件識別精度需要進行設置。
[0048] 步驟S102d,獲取與被訪問熱點文件在同一目錄下的文件作為第四關聯(lián)集合抑, FD 二(fdl,fd2,...,fdm,…}。
[0049] 步驟S102e,將第一關聯(lián)集合、第二關聯(lián)集合、第蘭關聯(lián)集合和第四關聯(lián)集合中至 少一個集合中的文件作為被訪問熱點文件的關聯(lián)文件。例如,可W將四個集合中的文件作 為被訪問熱點文件的關聯(lián)文件,也可W選取任意一個集合、任意兩個集合或任意Η個集合 中的文件作為被訪問熱點文件的關聯(lián)文件。選取的關聯(lián)集合越多,所確定的關聯(lián)文件的范 圍也越大,熱點文件的命中率也就越高。
[0050] 通過上述步驟S102a~S102e就可W確定出某一文件的關聯(lián)文件,本實施例應用 上述方法可W確定被訪問熱點文件的關聯(lián)文件。
[0051] 在步驟S104中,確定被訪問熱點文件與其關聯(lián)文件之間的文件關聯(lián)度的一種實 現(xiàn)方法具體如下:
[0052] 步驟S104a,計算被訪問熱點文件與其關聯(lián)文件之間的文件名關聯(lián)系數(shù),具體的計 算方法可W參考前述。另外,如果S102a計算結果中已經包括被訪問熱點文件與其關聯(lián)文 件之間的文件名關聯(lián)系數(shù),則此處無需重復計算,可W直接采用S102a中的計算結果。
[0053] 步驟S104b,計算被訪問熱點文件與其關聯(lián)文件之間的文件內容關聯(lián)系數(shù),具體的 計算方法可W參考前述。另外,如果S10化計算結果中已經包括被訪問熱點文件與其關聯(lián) 文件之間的文件內容名關聯(lián)系數(shù),則此處無需重復計算,可W直接采用S10化中的計算結 果。
[0054] 步驟S104C,根據(jù)各個關聯(lián)文件的訪問順序計算每個關聯(lián)文件的文件訪問順序系 數(shù)。
[0055] -種示例性的文件訪問順序系數(shù)計算方法如下;按照訪問順序對所有的關聯(lián)文件 進行排序,并設置訪問值,越近被訪問的文件對應的訪問值越大,然后可W根據(jù)如下公式計 算文件訪問順序系數(shù):
[0056]
[0057] 其中,Ai表示關聯(lián)文件FRi的文件訪問順序系數(shù),曰1表示關聯(lián)文件FRi的訪問值,m 表示被訪問熱點文件的關聯(lián)文件的數(shù)量。
[0058] 步驟S104d,根據(jù)被訪問熱點文件與關聯(lián)文件是否在同一目錄下確定關聯(lián)文件的 文件位置系數(shù)。
[0059] -種示例性的關聯(lián)文件的文件位置系數(shù)確定方法如下;如果被訪問熱點文件與關 聯(lián)文件在同一目錄下,則該關聯(lián)文件的文件位置系數(shù)Di設置為1,如果被訪問熱點文件與關 聯(lián)文件不在同一目錄下,則該關聯(lián)文件的文件位置系數(shù)Di設置為0。
[0060] 步驟S104e,根據(jù)被訪問熱點文件與其關聯(lián)文件之間的文件名關聯(lián)系數(shù)和文件內 容關聯(lián)系數(shù)、W及關聯(lián)文件的文件訪問順序系數(shù)和文件位置系數(shù),使用歐幾里德距離算法 確定被訪問熱點文件與其關聯(lián)文件之間的文件關聯(lián)度。
[0061] 一種示例性的文件關聯(lián)度計算方法的公式表示如下:
[0062]
[006引其中,Ri表示被訪問熱點文件F與其關聯(lián)文件FRi之間的文件關聯(lián)度,Wn、Wc、Wa、 Wd分別表示文件名關聯(lián)系數(shù)Ni、文件內容關聯(lián)系數(shù)Ci、文件訪問順序系數(shù)Ai、文件位置系數(shù) Di對應的權重值。
[0064] 在步驟S106中,根據(jù)被訪問熱點文件與其關聯(lián)文件之間的文件關聯(lián)度W及關聯(lián) 文件的訪問熱度信息確定關聯(lián)文件的熱度權重的一種實現(xiàn)方法如下:設置文件關聯(lián)度和訪 問熱度信息在熱度權重中所占的熱度系數(shù);根據(jù)被訪問熱點文件與其關聯(lián)文件之間的文件 關聯(lián)度及其熱度系數(shù),并且結合關聯(lián)文件的訪問熱度信息及其熱度系數(shù),綜合確定關聯(lián)文 件的熱度權重。W訪問熱度信息使訪問時間和訪問頻率為例,計算關聯(lián)文件的熱度權重的 公式表示如下:
[0065]
[0066] 其中,化表示關聯(lián)文件F化的熱度權重,Tf表示被訪問熱點文件F的訪問時間, Ti表示關聯(lián)文件F化的訪問時間,Pm。,表示文件訪問的最大頻率,Pi表示關聯(lián)文件F化的 訪問頻率,Wr、Wt、Wp分別表示文件關聯(lián)度、文件訪問時間、文件訪問頻率的權重值。
[0067] 在步驟S108中,根據(jù)關聯(lián)文件的熱度權重從各關聯(lián)文件中識別熱點文件,例如, 可W選取熱度權重最大的預設數(shù)量的關聯(lián)文件作為熱點文件,也可W選取熱度權重大于預 設權重闊值的關聯(lián)文件作為熱點文件。
[0068] 在識別出熱點文件之后,如果本地緩存中沒有識別出的熱點文件,從云端下載該 熱點文件,從而提高本地文件訪問速度;和/或,如果本地緩存中存留有非熱點文件(熱點 文件之外的其他文件),從本地緩存中刪除該非熱點文件,從而節(jié)省存儲資源。
[0069] 上述實施例通過文件名、文件內容、訪問順序、文件位置等信息計算文件關聯(lián)度, 再結合訪問時間、訪問頻度預判文件熱度,提高用戶所需要的熱點數(shù)據(jù)的命中率,提高本地 文件訪問速度。
[0070] 本發(fā)明實施例還提出一種熱點數(shù)據(jù)識別裝置。圖2是本實施例熱點數(shù)據(jù)識別裝置 一個實施例的結構示意圖。如圖2所示,本實施例的熱點數(shù)據(jù)識別裝置包括:
[0071] 關聯(lián)文件確定單元202,用于根據(jù)文件名、文件內容、文件訪問順序、文件位置中的 至少一項信息確定被訪問熱點文件的關聯(lián)文件;
[0072] 文件關聯(lián)度確定單元204,用于確定被訪問熱點文件與其關聯(lián)文件之間的文件關 聯(lián)度;
[0073] 熱度權重確定單元206,用于根據(jù)被訪問熱點文件與其關聯(lián)文件之間的文件關聯(lián) 度W及關聯(lián)文件的訪問熱度信息確定關聯(lián)文件的熱度權重;
[0074] 熱點文件識別單元208,用于根據(jù)關聯(lián)文件的熱度權重從關聯(lián)文件中識別出熱點 文件。
[0075] 在一個實施例中,關聯(lián)文件確定單元202,具體用于根據(jù)文件名、文件內容、文件訪 問順序、文件位置中的至少一項信息確定被訪問熱點文件的關聯(lián)文件:計算被訪問熱點文 件與其他文件之間的文件名關聯(lián)系數(shù),選取文件名關聯(lián)系數(shù)最大的預設數(shù)量的文件作為第 一關聯(lián)集合;計算被訪問熱點文件與其他文件之間的文件內容關聯(lián)系數(shù),選取文件內容關 聯(lián)系數(shù)最大