本發(fā)明是關于一種基于對應區(qū)段樣本的相似度而于二維空間中迭繪數(shù)據(jù)的數(shù)據(jù)可視化方法與數(shù)據(jù)可視化裝置。
背景技術(shù):
受惠于科技的發(fā)展,連線網(wǎng)絡的通訊質(zhì)量越來越好,速度也越來越快,再加上各式提供上網(wǎng)功能的電子裝置也不斷推陳出新,造就了近年來電子商務的市場交易總額有巨幅的成長。因此,已有大量的廠商積極布局于電子商務。
然而,欲從電子商務中精確地掌握消費者的動向,仍是各廠商所面臨的最大難題之一。舉例來說,目前現(xiàn)有作法可包括:統(tǒng)計熱門商品、統(tǒng)計消費者分布(包括時間、地點)、計算預定目標階段下的轉(zhuǎn)換率,甚至于分析特定促銷行為的成效等等。然而上述現(xiàn)有作法,仍無法精確地檢視消費者的行為。
除此之外,針對網(wǎng)站分析(web analytics)的現(xiàn)有作法中,通常僅著眼于點擊序列資料(clickstream)的整體來進行統(tǒng)計。然而整體的點擊序列數(shù)據(jù)可能會包含許多用戶的行為片段。舉例來說,使用者可能漫無目的于網(wǎng)頁中瀏覽、比較商品、購物、或者是進行會員數(shù)據(jù)修改等等。因此,整體的點擊序列數(shù)據(jù)中仍具有大量應用價值偏低的成分。除此之外,在整體的點擊序列數(shù)據(jù)中出現(xiàn)頻率較高的行為樣式,也不見得可直接對應其應用價值較高。
因此,實務上往往需要數(shù)據(jù)科學專家,從整體的點擊序列資料中來逐一檢視,才能進一步找出應用價值較高的行為樣式。然而此舉高度依賴人為經(jīng)驗,于執(zhí)行上亦缺乏效率。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明提供一種數(shù)據(jù)可視化方法與數(shù)據(jù)可視化裝置,用以解決上述問題。
本發(fā)明提供一種數(shù)據(jù)可視化方法,包括下列步驟。擷取一點擊數(shù)據(jù)序列,點擊數(shù)據(jù)序列包括多個點擊數(shù)據(jù)。將各點擊數(shù)據(jù)所對應的一第一序列區(qū)段與一區(qū)段樣本進行比對,以產(chǎn)生各點擊數(shù)據(jù)所對應的一相似度。擷取具有最大相似度的多個點擊數(shù)據(jù),以及具有最大相似度的多個點擊數(shù)據(jù)分別所對應的一第二序列區(qū)段。將各第二序列區(qū)段可視化于一二維空間中,以于二維空間中呈現(xiàn)各第二序列區(qū)段所對應的一視覺序列數(shù)據(jù),并使各視覺序列數(shù)據(jù)中對應具有最大相似度的點擊數(shù)據(jù)的一位置,對應于第一維度上的一基準點。其中,二維空間的一第一維度系關聯(lián)于多個點擊數(shù)據(jù)之間的一相對順序,二維空間的一第二維度系關聯(lián)于各點擊數(shù)據(jù)的一事件狀態(tài)。
在本發(fā)明一實施例中,其中各視覺序列數(shù)據(jù)為具有多個端點的一折線,各端點對應多個點擊數(shù)據(jù)其中之一,而所述數(shù)據(jù)可視化方法包括下列步驟。擷取各第二序列區(qū)段所對應的折線與折線中所具有的多個端點。依序?qū)⒏髡劬€迭繪于二維空間中,且使各折線中對應具有最大相似度的點擊數(shù)據(jù)的端點,對齊于第一維度上的基準點。
在本發(fā)明另一實施例中,所述數(shù)據(jù)可視化方法包括下列步驟。計算各折線中的多個端點所分別具有的一透明度。其中各折線中的多個端點分別所具有的透明度系關聯(lián)于對應的點擊數(shù)據(jù)的相似度。
在本發(fā)明另一實施例中,其中當各端點所對應的相似度越大時,則各端點所具有的透明度越小。
在本發(fā)明另一實施例中,所述數(shù)據(jù)可視化方法更包括下列步驟。計算各折線中相鄰兩端點之間的線段所具有的一透明度。其中各折線中相鄰兩端點之間的線段所具有的透明度為相鄰兩端點分別所具有的透明度的內(nèi)插。
在本發(fā)明另一實施例中,所述數(shù)據(jù)可視化方法更包括下列步驟。計算各折線中的多個端點所分別具有的一色彩。其中各折線中的多個端點所分別具有的色彩關聯(lián)于對應點擊數(shù)據(jù)的事件狀態(tài)。
在本發(fā)明另一實施例中,其中于第二維度上具有相同位置的多個端點之間,彼此具有相同的色彩,
在本發(fā)明另一實施例中,其中于第二維度上具有相異位置的多個端點之間,彼此具有相異的色彩。
在本發(fā)明另一實施例中,所述數(shù)據(jù)可視化方法更包括下列步驟。計算各折線中相鄰兩端點之間的線段所具有的一色彩。其中各折線中相鄰兩端點之間的線段所具有的色彩為相鄰兩端點分別所具有的色彩的混色。
在本發(fā)明另一實施例中,所述數(shù)據(jù)可視化方法包括下列步驟。于一網(wǎng)頁日志中,擷取點擊數(shù)據(jù)序列。
在本發(fā)明另一實施例中,所述數(shù)據(jù)可視化方法更包括下列步驟。對點擊數(shù)據(jù)序列執(zhí)行一滑動窗口法,來逐一擷取各點擊數(shù)據(jù)所對應的第一序列區(qū)段,以及第一序列區(qū)段對應區(qū)段樣本的相似度,其中滑動窗口法的一窗口長度相同于區(qū)段樣本的一區(qū)段長度。
本發(fā)明提供一種數(shù)據(jù)可視化裝置。所述數(shù)據(jù)可視化裝置包括一數(shù)據(jù)擷取模塊、一相似度判定模塊以及一可視化模塊。相似度判定模塊耦接數(shù)據(jù)擷取模塊,可視化模塊耦接數(shù)據(jù)擷取模塊與相似度判定模塊。數(shù)據(jù)擷取模塊用以擷取一點擊數(shù)據(jù)序列,點擊數(shù)據(jù)序列包括多個點擊數(shù)據(jù)。相似度判定模塊用以將各點擊數(shù)據(jù)所對應的一第一序列區(qū)段與一區(qū)段樣本進行比對,以產(chǎn)生各點擊數(shù)據(jù)所對應的一相似度??梢暬K用以擷取具有最大相似度的多個點擊數(shù)據(jù),以及具有最大相似度的多個點擊數(shù)據(jù)分別所對應的一第二序列區(qū)段,以及將各第二序列區(qū)段可視化于一二維空間中,以于二維空間中呈現(xiàn)各第二序列區(qū)段所對應的一視覺序列數(shù)據(jù),并使各視覺序列數(shù)據(jù)中所對應的具有最大相似度的點擊數(shù)據(jù)對應于第一維度上的一基準點。其中,二維空間的一第一維度關聯(lián)于多個點擊數(shù)據(jù)之間的一相對順序,二維空間的一第二維度關聯(lián)于各點擊數(shù)據(jù)的一事件狀態(tài)。
如上所述,本發(fā)明根據(jù)網(wǎng)路日志擷取點擊數(shù)據(jù)序列,并透過滑動窗口法與一區(qū)段樣本進行比對,以產(chǎn)生各點擊數(shù)據(jù)所對應的一相似度。此外,擷取具有最大相似度的多個點擊數(shù)據(jù),以及對應的第二序列區(qū)段,以將各第二序列區(qū)段可視化于一二維空間中,且于迭繪的過程中,基于第一維度上的基準點而對齊視覺序列數(shù)據(jù)。如此一來,可以自動化地從二維空間中呈現(xiàn)出給定區(qū)段樣本在點擊數(shù)據(jù)序列之中的真實序列樣貌,以及顯示出其他可能的變異性,提供數(shù)據(jù)科學家理解序列行為的能力。
以上關于本發(fā)明內(nèi)容及以下關于實施方式的說明用以示范與闡明本發(fā)明的精神與原理,并提供對本發(fā)明的權(quán)利要求保護范圍更進一步的解釋。
附圖說明
圖1為根據(jù)本發(fā)明的一實施例的數(shù)據(jù)可視化裝置的方塊圖。
圖2為根據(jù)本發(fā)明的一實施例的資料可視化方法的流程圖。
圖3為根據(jù)本發(fā)明的一實施例的滑動窗口法的示意圖。
圖4為根據(jù)本發(fā)明的另一實施例的資料可視化方法的流程圖。
圖5為根據(jù)本發(fā)明的一實施例,藉由所擷取的一點擊數(shù)據(jù)序列而于二維空間中呈現(xiàn)的多個折線的迭繪結(jié)果的示意圖。
圖6為根據(jù)本發(fā)明的一實施例,藉由所擷取的另一點擊數(shù)據(jù)序列而于二維空間中呈現(xiàn)的多個折線的迭繪結(jié)果的示意圖。
圖7A~7C為根據(jù)本發(fā)明的另一實施例,將各第二序列區(qū)段可視化于二維空間的示意圖。
【符號說明】
100 數(shù)據(jù)可視化裝置
110 數(shù)據(jù)擷取模塊
120 相似度判定模塊
130 可視化模塊
T1、T2 區(qū)段樣本
S 點擊數(shù)據(jù)序列
W 滑動窗口
C1~C12 第二序列區(qū)段
X 第一維度
Y 第二維度
E1~E13 事件狀態(tài)
S210~S240、S241~S246 數(shù)據(jù)可視化方法的步驟
具體實施方式
以下在實施方式中敘述本發(fā)明的詳細特征,其內(nèi)容足以使任何熟習相關技藝者了解本發(fā)明的技術(shù)內(nèi)容并據(jù)以實施,且依據(jù)本說明書所公開的內(nèi)容、權(quán)利要求保護范圍及圖式,任何熟習相關技藝者可輕易地理解本發(fā)明相關的目的及優(yōu)點。以下實施例進一步說明本發(fā)明的諸面向,但非以任何面向限制本發(fā)明的范疇。
圖1為根據(jù)本發(fā)明的一實施例的數(shù)據(jù)可視化裝置100的方塊圖。如圖1所示,數(shù)據(jù)可視化裝置100包括數(shù)據(jù)擷取模塊110、相似度判定模塊120以及可視化模塊130。相似度判定模塊120耦接數(shù)據(jù)擷取模塊110,可視化模塊130耦接數(shù)據(jù)擷取模塊110與相似度判定模塊120。圖2為根據(jù)本發(fā)明的一實施例的資料可視化方法的流程圖。如圖2所示,在本發(fā)明實施例中,數(shù)據(jù)可視化方法包括步驟S210~S240。下列請同時參照圖1與圖2。
數(shù)據(jù)可視化裝置100可以是個人計算機、可攜式電子裝置、云端服務器或者是其他具有計算功能的電子裝置,在此不加以限制。數(shù)據(jù)擷取模塊110、相似度判定模塊120以及可視化模塊130可以是各種芯片或者是為微處理器,在此亦不加以限制。
在步驟S210中,數(shù)據(jù)擷取模塊110擷取一點擊數(shù)據(jù)序列(clickstream),點擊數(shù)據(jù)序列包括多個點擊數(shù)據(jù)。在本發(fā)明實施例中,數(shù)據(jù)擷取模塊110可于一網(wǎng)頁日志(Weblog)中,擷取所述點擊數(shù)據(jù)序列。舉例來說,所述點擊數(shù)據(jù)序列可以是特定購物網(wǎng)站的使用者的點擊行為的序列數(shù)據(jù),而用戶的每一點擊行為即對應一點擊數(shù)據(jù)。
在步驟S220中,相似度判定模塊120將各點擊數(shù)據(jù)所對應的一第一序列區(qū)段與一區(qū)段樣本進行比對,以產(chǎn)生各點擊數(shù)據(jù)所對應的一相似度。其中,第一序列區(qū)段為點擊數(shù)據(jù)序列的其中一部份。
一般來說,區(qū)段樣本可以是預先所定義的特定序列數(shù)據(jù),用以對應用戶于所述購物網(wǎng)站中所預設的一連串點擊行為。在本發(fā)明實施例中,相似度判定模塊120可以設定一點擊數(shù)據(jù)與之后連續(xù)的n1個(n1為正整數(shù))點擊數(shù)據(jù)為所述第一序列區(qū)段。然而,在本發(fā)明另一實施例中,相似度判定模塊120亦可以設定一點擊數(shù)據(jù)與之前連續(xù)的n2個(n2為正整數(shù))點擊數(shù)據(jù)以及之后連續(xù)的n3個(n3為正整數(shù))點擊數(shù)據(jù)為所述第一序列區(qū)段,在此不加以限制。除此之外,第一序列區(qū)段的長度可相同于區(qū)段樣本的長度,以便于進行上述兩者之間相似度的分析。
在本發(fā)明實施例中,相似度判定模塊120系對點擊數(shù)據(jù)序列執(zhí)行一滑動窗口法,來逐一擷取各點擊數(shù)據(jù)所對應的第一序列區(qū)段,以及第一序列區(qū)段對應區(qū)段樣本的相似度,其中滑動窗口法的一窗口長度相同于區(qū)段樣本的一區(qū)段長度。換句話說,各點擊數(shù)據(jù)即為所對應的滑動窗口的第一筆數(shù)據(jù),各第一序列區(qū)段即為所對應的滑動窗口所含括的所有數(shù)據(jù)。
舉例來說,當指定一點擊數(shù)據(jù)與之后連續(xù)的4個點擊數(shù)據(jù)完全相等區(qū)段樣本時,則指定的該點擊數(shù)據(jù)所對應的相似度為1。當指定一點擊數(shù)據(jù)與之后連續(xù)的4個點擊數(shù)據(jù)與區(qū)段樣本完全不相等時,則指定的該點擊數(shù)據(jù)對應的相似度為0。比對結(jié)果為部分相同時,則相似度可位于0到1之間。下列將輔以圖示加以說明。
圖3為根據(jù)本發(fā)明的一實施例的滑動窗口法的示意圖。如圖3所示,區(qū)段樣本T1為ABCDE,其中A、B、C、D、E分別為不同的事件狀態(tài),點擊數(shù)據(jù)序列S為ABBCDEEB,而滑動窗口的長度與區(qū)段樣本的長度同為5。藉此,可分別計算出點擊數(shù)據(jù)序列的前4個點擊數(shù)據(jù)A、B、B、C所對應的滑動窗口W分別為ABBCD、BBCDE、BCDEE、CDEEB,且對應區(qū)段樣本T所符合的部分分別為BCD、BCDE、BCDE、CDE,因而其相較于區(qū)段樣本T1的相似度分別為0.6、0.8、0.8、0.6。
在步驟S230中,可視化模塊130擷取具有最大相似度的多個點擊數(shù)據(jù),以及具有最大相似度的多個點擊數(shù)據(jù)分別所對應的一第二序列區(qū)段。其中,第二序列區(qū)段為點擊數(shù)據(jù)序列的其中一部份。
在本發(fā)明實施例中,可視化模塊130可以設定一點擊數(shù)據(jù)與之前連續(xù)的n4個(n4為正整數(shù))點擊數(shù)據(jù)以及之后連續(xù)的n5個(n5為正整數(shù))點擊數(shù)據(jù)為所述第二序列區(qū)段。而一第二序列區(qū)段中,可僅包括單一個上述所擷取之具有最大相似度的點擊數(shù)據(jù)。n4與n5可以自行設定,也就是說,第二序列區(qū)段的長度可以自行設定。
在本發(fā)明另一實施例中,上述所擷取的具有最大相似度的這些點擊數(shù)據(jù),可以是用以將點擊數(shù)據(jù)序列劃分為多個第二序列區(qū)段的邊界點。詳細來說,第二序列區(qū)段可以包括單一具有最大相似度的點擊數(shù)據(jù)與其之前連續(xù)的多個點擊數(shù)據(jù),以及其之后連續(xù)的多個點擊數(shù)據(jù)。而所述的具有最大相似度的點擊數(shù)據(jù)之前的連續(xù)的多個點擊數(shù)據(jù),可向前延伸直至下一個具有最大相似度的另一點擊數(shù)據(jù)的后一個點擊數(shù)據(jù)為止。相似地,所述的最大相似度的點擊數(shù)據(jù)之后的連續(xù)的多個點擊數(shù)據(jù),可向后延伸直至下一個具有最大相似度的另一點擊數(shù)據(jù)的前一個點擊數(shù)據(jù)為止。
在步驟S240中,可視化模塊130將各第二序列區(qū)段可視化于一二維空間中,以于二維空間中呈現(xiàn)各第二序列區(qū)段所對應的一視覺序列數(shù)據(jù),并使各視覺序列數(shù)據(jù)中對應具有最大相似度的點擊數(shù)據(jù)的一位置,對應于第一維度上的一基準點。在本發(fā)明實施例中,其中二維空間的一第一維度系關聯(lián)于多個點擊數(shù)據(jù)之間的一相對順序,二維空間的一第二維度系關聯(lián)于各點擊數(shù)據(jù)的一事件狀態(tài)。
在本發(fā)明實施例中,所述的視覺序列數(shù)據(jù)可以是所述二維空間中的多個點。舉例來說,這些點可具有坐標(x,y),x對應第一維度X,y對應第二維度Y。換句話說,二維空間中的每一個點即代表一點擊數(shù)據(jù),x為點擊數(shù)據(jù)的相對順序,y為點擊數(shù)據(jù)的事件狀態(tài)。
舉例來說,經(jīng)由上述步驟S210~S240的處理后,可受助于所述二維空間的基準點附近的視覺序列數(shù)據(jù),而更統(tǒng)整性地呈現(xiàn)出,使用者于特定購物網(wǎng)站最相似于區(qū)段樣本的一連串點擊行為,以及這些點擊行為的前后使用者所執(zhí)行的其他點擊行為。也就是說,從所述二維空間中的視覺序列數(shù)據(jù),可以清楚地呈現(xiàn)出有哪些其他可能的變異性。后續(xù)將會對此加以詳述。
圖4為根據(jù)本發(fā)明的另一實施例的資料可視化方法的流程圖。如圖4所示,在本發(fā)明實施例中,步驟S240可更包括步驟S241~S246。
圖5為根據(jù)本發(fā)明的一實施例,藉由所擷取的一點擊數(shù)據(jù)序列而于二維空間中呈現(xiàn)的多個折線的迭繪結(jié)果的示意圖。圖6為根據(jù)本發(fā)明的一實施例,藉由所擷取的另一點擊數(shù)據(jù)序列而于二維空間中呈現(xiàn)的多個折線的迭繪結(jié)果的示意圖。如圖5所示,在本發(fā)明實施例中,在二維空間的第二維度上可呈現(xiàn)有多個事件狀態(tài)E1~E6。如圖6所示,在本發(fā)明實施例中,在二維空間的第二維度上可呈現(xiàn)有多個事件狀態(tài)E7~E13。下列請同時參照圖1、圖2、圖4、圖5與圖6。
在步驟S241中,可視化模塊130更進一步擷取各第二序列區(qū)段所對應的折線與折線中所具有的多個端點。其中,各端點對應多個點擊數(shù)據(jù)其中之一。舉例來說,與上述相似,各端點可具有坐標(x,y),x對應第一維度,y對應第二維度。換句話說,二維空間中的每一個點即代表一點擊數(shù)據(jù),x為點擊數(shù)據(jù)的相對順序,y為點擊數(shù)據(jù)的事件狀態(tài)。
在步驟S242中,可視化模塊130更進一步設定各折線中的多個端點所分別具有的色彩。在本發(fā)明實施例中,各折線中的多個端點所分別具有的色彩系關聯(lián)于對應的點擊數(shù)據(jù)的事件狀態(tài)。其中于第二維度上具有相同位置的多個端點之間,彼此具有相同的色彩。而于第二維度上具有相異位置的多個端點之間,彼此具有相異的色彩。如圖5所示,多個事件狀態(tài)E1~E6之間可具有不同的色彩。如圖6所示,多個事件狀態(tài)E7~E13之間可具有不同的色彩。
在步驟S243中,可視化模塊130更進一步設定各折線中相鄰兩端點之間的線段所具有的色彩。在本發(fā)明實施例中,各折線中相鄰兩端點之間的線段所具有的色彩為相鄰兩端點分別所具有的色彩的混色?;蛘呤钦f,任相鄰兩端點之間的線段所具有的色彩,在越靠近其中一相鄰端點的位置時,其色彩會越趨近所靠近的相鄰端點的色彩,相對地其色彩也會越不趨近所遠離的相鄰端點的色彩。
舉例來說,當一折線中的一線段其相鄰兩端點的色彩分別為紅色與黃色,則此線段大致上將呈現(xiàn)紅色與黃色的混色(也就是橘色)。當此線段中的位置越靠近紅色端點時,則此線段所呈現(xiàn)的橘色也會逐漸偏紅。當此線段中的位置越靠近黃色端點時,則此線段所呈現(xiàn)的橘色也會逐漸偏黃。
在步驟S244中,可視化模塊130更進一步設定各折線中的多個端點所分別具有的透明度。在本發(fā)明實施例中,各折線中的多個端點分別所具有的透明度系關聯(lián)于對應的點擊數(shù)據(jù)的相似度。其中當各端點所對應的相似度越大時,則各端點所具有的透明度越小。也就是說,當某一端點越不透明時,則代表此端點所對應的相似度越高?;蛘呤钦f,為了在所述二維空間中突顯出較重要的數(shù)據(jù),可以讓對應的資料以較不透明的方式來呈現(xiàn)。
在本發(fā)明一實施例中,所述端點的透明度可以藉由RGBA色彩格式中A(Alpha)頻道來呈現(xiàn),亦可透過HSV色彩格式來呈現(xiàn)。在HSV色彩格式中,端點與線段顏色利用色相(Hue)來呈現(xiàn),并將透明度對應至HSV色彩格式中的飽和度(Saturation)或明度(Value)來表現(xiàn)。舉例來說,當某一端點越不透明時,則可設定此端點的飽和度或明度越高。當某一端點越透明時,則可設定此端點的飽和度或明度越低。然而,所述端點的透明度亦可透過其他的可視化方法來表現(xiàn),在此不加以限制。
在步驟S245中,可視化模塊130更進一步設定各折線中相鄰兩端點之間的線段所具有的透明度。在本發(fā)明實施例中,各折線中相鄰兩端點之間的線段所具有的透明度為相鄰兩端點分別所具有的透明度的內(nèi)插。更詳細來說,各折線中相鄰兩端點之間的線段所具有的透明度為相鄰兩端點分別所具有的透明度的線性內(nèi)插。
在步驟S246中,可視化模塊130更進一步依序?qū)⒏髡劬€迭繪于二維空間中,且使各折線中對應具有最大相似度的點擊數(shù)據(jù)的端點,對齊于第一維度上的基準點。或者是說,各折線中對應具有最大相似度的點擊數(shù)據(jù)的端點,皆對齊于二維空間中的基線。舉例來說,在本發(fā)明實施例中,如圖5與圖6所示,所有折線中對應具有最大相似度的點擊數(shù)據(jù)的端點皆對齊于基線x=0。
此外,當可視化模塊130藉由上述步驟求得各端點與各線段所欲呈現(xiàn)的色彩與透明度之后,可對應將其轉(zhuǎn)換為端點值與線段值。而迭繪的過程中,可于二維空間中對應各端點或各線段的位置上,逐一累加其對應的端點值或線段值。舉例來說,當在同一位置上迭繪有多個端點時,則此位置上的累加總值可根據(jù)其對應的端點值而依序加總求得。
藉此,在可視化模塊130依據(jù)二維空間中的基線x=0來迭繪各折線的過程中,可以發(fā)現(xiàn),隨著折線中較不透明的線段的呈現(xiàn),以及各折線迭加的數(shù)量的越來越多,出現(xiàn)頻率越高以及相似度越高的部分將被突顯出來,如圖5與圖6所示。一般來說,越不透明的折線表示區(qū)段樣本在點擊數(shù)據(jù)序列出現(xiàn)如該折線的相對比例越高,而不同程度的透明度則反映出區(qū)段樣本在點擊數(shù)據(jù)序列中所出現(xiàn)的相對比例。
圖7A~7C為根據(jù)本發(fā)明的另一實施例,將各第二序列區(qū)段可視化于二維空間的示意圖。在本發(fā)明實施例中,在二維空間的第二維度上可呈現(xiàn)有多個事件狀態(tài)E1~E5,區(qū)段樣本T2為E1、E2、E3、E4,滑動窗口的長度與區(qū)段樣本的長度同為4。在圖7A~7C中,可求得各第二序列區(qū)段C1~C12上點擊數(shù)據(jù)所對應的相似度,并設定具有最大相似度的點擊數(shù)據(jù)(在此設定對應事件狀態(tài)E1的點擊數(shù)據(jù))的位置對應于第一維度上的基準點X=0。此外,若于二維空間上有多個點擊數(shù)據(jù)迭繪于同一點,則于該點的相似度值可對應累加上去。
在圖7A中,可從點擊數(shù)據(jù)序列中擷取出第二序列區(qū)段C1~C4。如第7A圖所示,在本發(fā)明實施例中,在二維空間中所呈現(xiàn)出的實際序列樣式(于X=-2~X=5之間)可長于所給定的區(qū)段樣本。也就是說,在X=-2、X=-1、X=4、X=5之處亦可呈現(xiàn)出其他的事件狀態(tài)。
在圖7B中,可從點擊數(shù)據(jù)序列中擷取出第二序列區(qū)段C5~C8。如圖7B所示,在本發(fā)明實施例中,除了在二維空間中所呈現(xiàn)出的實際序列樣式可長于所給定的區(qū)段樣本(于X=-1~X=5之間),所呈現(xiàn)出的實際序列樣式中間亦存在變異性。也就是說,在X=1之處亦可呈現(xiàn)出其他的事件狀態(tài)。
在圖7C中,可從點擊數(shù)據(jù)序列中擷取出第二序列區(qū)段C9~C12。如圖7C所示,在本發(fā)明實施例中,在二維空間中所呈現(xiàn)出的實際序列樣式(于X=1~X=3之間)可短于所給定的區(qū)段樣本。
綜上所述,本發(fā)明根據(jù)網(wǎng)路日志擷取點擊數(shù)據(jù)序列,并透過滑動窗口法與一區(qū)段樣本進行比對,以產(chǎn)生各點擊數(shù)據(jù)所對應的一相似度。此外,擷取具有最大相似度的多個點擊數(shù)據(jù),以及對應的第二序列區(qū)段,以將各第二序列區(qū)段可視化于一二維空間中,且于迭繪的過程中,基于第一維度上的基準點而對齊視覺序列數(shù)據(jù)。如此一來,可以自動化地從二維空間中呈現(xiàn)出給定區(qū)段樣本在點擊數(shù)據(jù)序列之中的真實序列樣貌,以及顯示出其他可能的變異性,提供數(shù)據(jù)科學家理解序列行為的能力。