數(shù)據(jù)采樣方法以及數(shù)據(jù)采樣裝置制造方法
【專利摘要】本發(fā)明公開了一種數(shù)據(jù)采樣方法以及數(shù)據(jù)采樣裝置。本發(fā)明的一個(gè)實(shí)施例包括以下步驟:生成基于原始數(shù)據(jù)反映用戶興趣的興趣模型;以及根據(jù)將基于原始數(shù)據(jù)采樣的模型與興趣模型進(jìn)行比較的結(jié)果,確定采樣模型。根據(jù)本發(fā)明,可以快速、簡(jiǎn)單地獲取反映用戶興趣的采樣模型。
【專利說明】數(shù)據(jù)采樣方法W及數(shù)據(jù)采樣裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)采樣,更加特別地,涉及用于從原始數(shù)據(jù)采樣用戶期望的數(shù)據(jù)的 數(shù)據(jù)采樣方法。
【背景技術(shù)】
[0002] 對(duì)于數(shù)據(jù)處理和數(shù)據(jù)挖掘而言,采樣是基本技術(shù),并且其主要目的在于在維持原 始數(shù)據(jù)集的特征同時(shí)減少目標(biāo)數(shù)據(jù)集的大小。W此方式,通過減少目標(biāo)數(shù)據(jù)集的大小,由此 可減少在不同應(yīng)用中的計(jì)算成本。另外,應(yīng)用適當(dāng)?shù)牟蓸蛹夹g(shù)可導(dǎo)致諸如數(shù)據(jù)分析和數(shù)據(jù) 收集應(yīng)用的性能改進(jìn)W及成本降低的附加效應(yīng),并且可提供罕見類型問題、網(wǎng)絡(luò)流量干擾 問題等的解決方案。
[0003] 由于開發(fā)在其中不同用戶的興趣被歸納的采樣方法非常困難,采樣方法基于特定 問題W及特定用戶興趣被分別地開發(fā)。因?yàn)槿鄙籴槍?duì)采樣歸納的框架,研究者們反復(fù)實(shí)施 開發(fā)采樣方法并驗(yàn)證所開發(fā)的采樣方法的任務(wù),并且在采樣方法開發(fā)過程中的低效致使開 發(fā)適當(dāng)?shù)牟蓸臃椒ㄗ兊美щy。
【發(fā)明內(nèi)容】
[0004] 技術(shù)問題
[0005] 本發(fā)明的目的在于提供一種用于獲取反映用戶興趣的采樣結(jié)果的數(shù)據(jù)采樣方法。
[0006] 本發(fā)明的另一目的在于提供一種用于獲取反映用戶興趣的采樣結(jié)果的數(shù)據(jù)采樣 裝置。
[0007] 技術(shù)方案
[0008] 本發(fā)明的一方面提供了一種數(shù)據(jù)采樣方法,其通過數(shù)據(jù)采樣裝置執(zhí)行,所述方法 包括:基于原始數(shù)據(jù),生成反映用戶興趣的興趣模型;W及根據(jù)通過將基于原始數(shù)據(jù)采樣 的模型與興趣模型進(jìn)行比較獲得的結(jié)果,確定采樣模型。
[0009] 此處,生成興趣模型可包括;基于用戶興趣,將包含在原始數(shù)據(jù)中的元素劃分為多 個(gè)數(shù)據(jù)組;根據(jù)包含在多個(gè)數(shù)據(jù)組的每個(gè)數(shù)據(jù)組中的至少一個(gè)元素與包含在另一數(shù)據(jù)組中 的至少一個(gè)元素之間的比例,計(jì)算多個(gè)數(shù)據(jù)組的權(quán)重;將數(shù)據(jù)組轉(zhuǎn)換為根據(jù)用戶興趣定義 的節(jié)點(diǎn);計(jì)算多個(gè)節(jié)點(diǎn)之間的距離。
[0010] 此處,確定采樣模型可包括:基于包含在原始數(shù)據(jù)中的元素,生成多個(gè)比較模型; 計(jì)算興趣模型與多個(gè)比較模型之間的距離;W及確定具有在計(jì)算得到的距離中滿足預(yù)定標(biāo) 準(zhǔn)的距離的比較模型作為采樣模型。
[0011] 此處,生成多個(gè)比較模型可包括:將包含在原始數(shù)據(jù)中的元素劃分為用于興趣模 型的多個(gè)數(shù)據(jù)組;基于包含在多個(gè)數(shù)據(jù)組中的至少一個(gè)元素,生成多個(gè)比較數(shù)據(jù)組;將比 較數(shù)據(jù)組轉(zhuǎn)換為根據(jù)用戶興趣定義的比較節(jié)點(diǎn);根據(jù)包含在多個(gè)比較節(jié)點(diǎn)的每個(gè)比較節(jié)點(diǎn) 中的至少一個(gè)元素與包含在另一比較節(jié)點(diǎn)中的至少一個(gè)元素之間的比例,計(jì)算多個(gè)比較節(jié) 點(diǎn)的權(quán)重;計(jì)算多個(gè)比較節(jié)點(diǎn)之間的距離。
[0012] 本發(fā)明的另一方面提供了一種數(shù)據(jù)采樣裝置,包括:第一生成器,其被配置為,基 于原始數(shù)據(jù),生成反映用戶興趣的興趣模型;第二生成器,其被配置為,基于包含在原始數(shù) 據(jù)中的元素,生成多個(gè)比較模型;確定器,其被配置為,根據(jù)通過將興趣模型與多個(gè)比較模 型進(jìn)行比較從而獲得的結(jié)果,確定采樣模型。
[0013] 此處,第一生成器可基于用戶興趣將包含在原始數(shù)據(jù)中的元素劃分為多個(gè)數(shù)據(jù) 組,根據(jù)包含在多個(gè)數(shù)據(jù)組的每個(gè)數(shù)據(jù)組中的至少一個(gè)元素與包含在另一數(shù)據(jù)組中的至少 一個(gè)元素之間的比例,計(jì)算多個(gè)數(shù)據(jù)組的權(quán)重,將數(shù)據(jù)組轉(zhuǎn)換為根據(jù)用戶興趣定義的節(jié)點(diǎn), W及計(jì)算多個(gè)節(jié)點(diǎn)之間的距離。
[0014] 此處,第二生成器可將包含在原始數(shù)據(jù)中的元素劃分為用于興趣模型的多個(gè)數(shù)據(jù) 組,基于包含在多個(gè)數(shù)據(jù)組中的至少一個(gè)元素,生成多個(gè)比較數(shù)據(jù)組,將比較數(shù)據(jù)組轉(zhuǎn)換為 根據(jù)用戶興趣定義的比較節(jié)點(diǎn),根據(jù)包含在多個(gè)比較節(jié)點(diǎn)的每個(gè)比較節(jié)點(diǎn)中至少一個(gè)元素 與包含在另一比較節(jié)點(diǎn)中的至少一個(gè)元素之間的比例,計(jì)算多個(gè)比較節(jié)點(diǎn)的權(quán)重,W及計(jì) 算多個(gè)比較節(jié)點(diǎn)之間的距離。
[0015] 此處,確定器可計(jì)算興趣模型和多個(gè)比較模型之間的距離,W及確定具有在計(jì)算 得到的距離中滿足預(yù)定標(biāo)準(zhǔn)的距離的比較模型作為采樣模型。
[0016] 有益效果
[0017] 根據(jù)本發(fā)明,興趣模型基于用戶的興趣被生成,W及根據(jù)通過將基于原始數(shù)據(jù)采 樣的模型與興趣模型進(jìn)行比較而獲得的結(jié)果,從而確定采樣模型。因此,可W簡(jiǎn)單、快速地 獲取反映用戶興趣的采樣模型。
【專利附圖】
【附圖說明】
[0018] 圖1為說明根據(jù)本發(fā)明的具體實(shí)施例的數(shù)據(jù)采樣方法的流程圖。
[0019] 圖2為說明圖1中生成興趣模型的操作的流程圖。
[0020] 圖3為說明圖1中確定采樣模型的操作的流程圖。
[0021] 圖4顯示了通過將原始數(shù)據(jù)劃分為多個(gè)數(shù)據(jù)組而獲得的結(jié)果W及根據(jù)所述劃分 的采樣結(jié)果的坐標(biāo)圖。
[0022] 圖5顯示了通過根據(jù)本發(fā)明的具體實(shí)施例的數(shù)據(jù)采樣方法而生成的興趣模型的 概念圖。
[0023] 圖6顯示了興趣模型(或者比較模型)的實(shí)施例的概念圖。
[0024] 圖7顯示了根據(jù)采樣方法的采樣結(jié)果的概念圖。
[0025] 圖8為顯示根據(jù)采樣方法的采樣結(jié)果與原始數(shù)據(jù)之間差值的概念圖。
[0026] 圖9為基于采樣大小的采樣質(zhì)量變化的坐標(biāo)圖。
[0027] 圖10為根據(jù)本發(fā)明的具體實(shí)施例的數(shù)據(jù)采樣裝置的框圖。 具體實(shí)施例
[0028] 雖然本發(fā)明易于受到各種變型W及替代方式的影響,但是特定實(shí)施例在附圖中給 出并作詳細(xì)描述。
[0029] 然而,應(yīng)當(dāng)理解的是,描述并不旨在將本發(fā)明限定在特定實(shí)施例,相反地,本發(fā)明 涵蓋了落入本發(fā)明的精神和范圍內(nèi)的所有變型、等同物W及替換物。
[0030] 盡管此處術(shù)語"第一","第二"等被用于不同元件,此類元件不應(yīng)解釋為受到該些 術(shù)語限制。該些術(shù)語僅用于把一個(gè)元件與另一元件區(qū)分開來。例如,在不脫離本發(fā)明的范 圍的情形下,第一元件可被稱為第二元件,W及第二元件可被稱為第一元件。術(shù)語"和/或" 包括了一個(gè)或者多個(gè)相關(guān)列舉項(xiàng)目的任一或者所有組合。
[0031] 應(yīng)當(dāng)理解的是,當(dāng)一個(gè)元件被提及"連接"或者"禪合"至另一元件時(shí),其可W直接 連接或者禪合至另一元件或者也可出現(xiàn)中間元件。相反地,當(dāng)一個(gè)元件被提及"直接連接" 或者"直接禪合"至另一元件,則不會(huì)出現(xiàn)中間元件。
[0032] 此處所用的術(shù)語僅用作描述特定實(shí)施例的目的,并不旨在限定本發(fā)明的實(shí)施例。 除非上下文做出明確的其它指示,此處所用的單數(shù)形式"一個(gè)"、"所述"同樣包括了復(fù)數(shù)形 式。進(jìn)一步應(yīng)當(dāng)理解的是,當(dāng)此處使用術(shù)語"包括"、"包含"和/或"由…組成"時(shí),指定闡 明的特征、整體、步驟、操作、元件、部件和/或其組合的出現(xiàn),但是并不排除一個(gè)或者多個(gè) 其它特征、整體、步驟、操作、元件、部件和/或其組合的出現(xiàn)或者附加。
[0033] 除非做出其它定義,此處使用的所有的術(shù)語(包括技術(shù)和學(xué)術(shù)術(shù)語)具有與本發(fā) 明所屬【技術(shù)領(lǐng)域】中普通技術(shù)人員通常理解的含義相同的含義。應(yīng)當(dāng)進(jìn)一步理解的是,在公 用詞典中定義的術(shù)語應(yīng)當(dāng)解釋為具有與相關(guān)【技術(shù)領(lǐng)域】上下文中它們的含義相一致的含義, 除非特意地如此定義,其不應(yīng)作理想化或者過于正式的理解的解釋。
[0034] 在下文中,本發(fā)明的具體實(shí)施例將會(huì)結(jié)合附圖進(jìn)行詳細(xì)描述。為了促進(jìn)本發(fā)明的 整體理解,附圖中相同的部件對(duì)應(yīng)相同的附圖標(biāo)記,并且相同元件的描述將被省略。
[0035] 圖1為說明根據(jù)本發(fā)明具體實(shí)施例的數(shù)據(jù)采樣方法的流程圖。圖2為說明圖1中 生成興趣模型的操作的流程圖,W及圖3為說明圖1中確定采樣模型的操作的流程圖。
[0036] 參照?qǐng)D1-3,根據(jù)本發(fā)明具體實(shí)施例的數(shù)據(jù)采樣方法包括;基于原始數(shù)據(jù),生成反 映用戶興趣的興趣模型的操作(SlOO),W及基于通過將基于原始數(shù)據(jù)的采樣模型與興趣模 型進(jìn)行比較而獲得結(jié)果,從而確定采樣模型的操作(S200)。
[0037] 結(jié)合基于類的分層采樣(下文中稱為"情形1"),基于象限的分層采樣(下文中稱 為"情形2"),平衡兩個(gè)類的欠采樣或者過采樣(下文中稱為"情形3" ),W及流量保持軌 跡采樣(下文中稱為"情形4"),根據(jù)本發(fā)明具體實(shí)施例的數(shù)據(jù)采樣方法將會(huì)在下文中詳細(xì) 描述。此處,根據(jù)本發(fā)明具體實(shí)施例的數(shù)據(jù)采樣方法可通過數(shù)據(jù)采樣裝置執(zhí)行。
[0038] 操作SlOO可包括操作S110,操作S120,操作130和操作S140,并且操作S200可包 括操作S210,操作S220 W及操作S230。此外,操作S210可包括操作S211,操作S212,操作 S213,操作S214 W及操作S215。
[0039] 數(shù)據(jù)采樣裝置可將包含在原始數(shù)據(jù)中的元素劃分為多個(gè)數(shù)據(jù)組(SllO)。
[0040] 在情形1中,用戶興趣為數(shù)據(jù)類型的比例,因此,數(shù)據(jù)采樣裝置可將相同類型的元 素劃分為一個(gè)數(shù)據(jù)組。參照?qǐng)D4 (a),數(shù)據(jù)采樣裝置可根據(jù)數(shù)據(jù)類型將原始數(shù)據(jù)劃分為多個(gè) 數(shù)據(jù)組(參見圖4(a)的左邊的坐標(biāo)圖)。換言之,數(shù)據(jù)采樣裝置可將對(duì)應(yīng)相同類型的H角 形元素劃分為一個(gè)數(shù)據(jù)組并且可將對(duì)應(yīng)相同類型的圓形元素劃分為另一數(shù)據(jù)組。
[0041] 在情形2中,用戶興趣為包含在象限中的數(shù)據(jù)比例,因此數(shù)據(jù)采樣裝置可將包含 在相同象限中的元素劃分為一個(gè)數(shù)據(jù)組。參照?qǐng)D4化),數(shù)據(jù)采樣裝置可根據(jù)數(shù)據(jù)位于其中 的象限將原始數(shù)據(jù)劃分為多個(gè)數(shù)據(jù)組(參見圖4(b)左邊的坐標(biāo)圖)。換言之,數(shù)據(jù)采樣裝 置可將包含在第一象限中的元素劃分為一數(shù)據(jù)組,將包含在第二象限中元素劃分為另一數(shù) 據(jù)組,將包含在第H象限中的元素劃分為其它的另一數(shù)據(jù)組,W及將包含在第四象限中的 元素劃分為另外的另一數(shù)據(jù)組。
[0042] 圖4(a)的右邊的坐標(biāo)圖顯示了基于根據(jù)諸如在圖4(a)中左邊坐標(biāo)圖中數(shù)據(jù)類型 而劃分的多個(gè)數(shù)據(jù)組而生成的采樣結(jié)果,而圖4(b)的右邊的坐標(biāo)圖顯示了基于根據(jù)諸如 在圖4(b)中左邊坐標(biāo)圖中數(shù)據(jù)位于其中的象限而劃分的多個(gè)數(shù)據(jù)組而生成的采樣結(jié)果。 從此類采樣結(jié)果可見:采樣結(jié)果根據(jù)用戶興趣而變化。
[0043] 在情形3中,用戶興趣為數(shù)據(jù)類型的比例,因此,數(shù)據(jù)采樣裝置可根據(jù)數(shù)據(jù)類型 (參見圖4(a)左邊的坐標(biāo)圖)將原始數(shù)據(jù)劃分為多個(gè)數(shù)據(jù)組。
[0044] 在情形4中,用戶興趣為在空間-時(shí)間中特定點(diǎn)上的流量比例,因此數(shù)據(jù)采樣裝置 可將在空間-時(shí)間中特定點(diǎn)上的流量劃分為一個(gè)數(shù)據(jù)組。此處,空間-時(shí)間可通過維度、經(jīng) 度和時(shí)間進(jìn)行定義。
[0045] 在將包含在原始數(shù)據(jù)中元素劃分為多個(gè)數(shù)據(jù)組后,數(shù)據(jù)采樣裝置,根據(jù)包含在多 個(gè)數(shù)據(jù)組的每個(gè)數(shù)據(jù)組中至少一個(gè)元素與包含在另一數(shù)據(jù)組中至少一個(gè)元素之間的比例, 可計(jì)算多個(gè)數(shù)據(jù)組的權(quán)重(S120)。
[0046] 假設(shè)原始數(shù)據(jù)中包含400個(gè)元素并且所有數(shù)據(jù)組權(quán)重的總和為1,計(jì)算多個(gè)數(shù)據(jù) 組權(quán)重的方法將會(huì)參照?qǐng)D5進(jìn)行描述。
[0047] 情形1的特征在于保持?jǐn)?shù)據(jù)類型的比例。因此,當(dāng)數(shù)據(jù)組Cl中包含100個(gè)元素而 另一數(shù)據(jù)組C2中包含300個(gè)元素時(shí),如圖5(a)所示,數(shù)據(jù)采樣裝置可將多個(gè)數(shù)據(jù)組的權(quán)重 表達(dá)為 "Cl = 0.25" W及'乂2 = 0.75"(即,Cl = 100/400, W及 Ca = 300/400)。
[0048] 情形2的特征在于保持包含在象限中的數(shù)據(jù)的比例。因此,當(dāng)一個(gè)數(shù)據(jù)組Qi中包 含100個(gè)元素,另一數(shù)據(jù)組(?中包含100個(gè)元素,其它另一數(shù)據(jù)組Qs中包含100個(gè)元素, W及另外的另一數(shù)據(jù)組Q4中包含100個(gè)元素時(shí),如圖5(b)所示,數(shù)據(jù)采樣裝置可將多個(gè)數(shù) 據(jù)組的權(quán)重表達(dá)為 "Qi = 0. 25,,,''Q2 = 0. 25,,,''Q3 = 0. 25" W及 "Q4 = 0. 25"(即,Qi = 100/400, Qa = 100/400, Qs = 100/400 W及 〇4 = 100/400)。
[0049] 情形3的特征在于保持?jǐn)?shù)據(jù)類型相同的比例。因此,數(shù)據(jù)采樣裝置可將多個(gè)數(shù)據(jù) 組的權(quán)重表達(dá)為"Cl = 0. 5"并且"C2 = 0. 5",無論圖5(c)中所示的數(shù)據(jù)組中包含的元素 的數(shù)量如何。換言之,其可使得多個(gè)數(shù)據(jù)組的權(quán)重相等。
[0050] 情形4的特征在于保持流量比例。因此,數(shù)據(jù)采樣裝置可將數(shù)據(jù)組的權(quán)重表達(dá)為 在空間-時(shí)間中在特定點(diǎn)上歸一化的流量比例。
[0051] 在計(jì)算多個(gè)數(shù)據(jù)組的權(quán)重之后,數(shù)據(jù)采樣裝置可將數(shù)據(jù)組轉(zhuǎn)換為基于用戶興趣定 義的節(jié)點(diǎn)(S130)。此處,節(jié)點(diǎn)表示一個(gè)點(diǎn),W及將數(shù)據(jù)組轉(zhuǎn)換為節(jié)點(diǎn)可認(rèn)為是將包含至少 一個(gè)元素的數(shù)據(jù)組歸納為一個(gè)節(jié)點(diǎn)(即,將圖4(a)轉(zhuǎn)換為圖5(a),W及圖4(b)轉(zhuǎn)換為圖 5(b)) O
[0052] 在情形1中,節(jié)點(diǎn)表示數(shù)據(jù)類型,W及數(shù)據(jù)采樣裝置可將根據(jù)數(shù)據(jù)類型劃分的一 個(gè)數(shù)據(jù)組轉(zhuǎn)換為一個(gè)節(jié)點(diǎn)(參見圖4 (a)中所示的坐標(biāo)圖W及圖5 (a))。
[0053] 在情形2中,節(jié)點(diǎn)表示象限,W及數(shù)據(jù)采樣裝置可將根據(jù)象限劃分的一個(gè)數(shù)據(jù)組 轉(zhuǎn)換為一個(gè)節(jié)點(diǎn)(參見圖4化)中所示的坐標(biāo)圖W及圖5化))。
[0054] 在情形3中,節(jié)點(diǎn)表示數(shù)據(jù)類型,W及數(shù)據(jù)采樣裝置可將根據(jù)數(shù)據(jù)類型劃分的一 個(gè)數(shù)據(jù)組轉(zhuǎn)換為一個(gè)節(jié)點(diǎn)(參見圖4 (a)中所示的坐標(biāo)圖W及圖5 (a))。
[0055] 在情形4中,軌跡涉及在不同時(shí)間的多個(gè)點(diǎn),因此節(jié)點(diǎn)為在空間-時(shí)間中的特定 點(diǎn)。因此,數(shù)據(jù)采樣裝置可將根據(jù)在時(shí)間-空間中的特定點(diǎn)劃分的一個(gè)數(shù)據(jù)組轉(zhuǎn)換為一個(gè) 節(jié)點(diǎn)。
[0056] 在將數(shù)據(jù)組轉(zhuǎn)換為基于用戶興趣定義的節(jié)點(diǎn)后,數(shù)據(jù)采樣裝置可計(jì)算節(jié)點(diǎn)之間的 距離(S140)。
[0057] 在情形1中,節(jié)點(diǎn)之間的距離沒有意義,因而如圖5(a)所示可具有相同的長(zhǎng)度 (例如長(zhǎng)度為1)。然而,當(dāng)節(jié)點(diǎn)間距離彼此不同時(shí),節(jié)點(diǎn)間的距離可具有不同長(zhǎng)度。例如, 當(dāng)節(jié)點(diǎn)1和節(jié)點(diǎn)2之間的距離大于節(jié)點(diǎn)2和節(jié)點(diǎn)1之間的距離,節(jié)點(diǎn)之間的距離具有不同 的長(zhǎng)度。
[0058] 在情形2中,數(shù)據(jù)采樣裝置可計(jì)算象限節(jié)點(diǎn)之間的長(zhǎng)度,并且節(jié)點(diǎn)間計(jì)算的長(zhǎng)度 可表達(dá)為如圖5(b)所示。
[0059] 在情形3中,與情形1中類似,節(jié)點(diǎn)之間的距離沒有意義,因而可表達(dá)為如圖5(c) 所示。
[0060] 在情形4中,節(jié)點(diǎn)為在空間-時(shí)間中的特定點(diǎn),并且節(jié)點(diǎn)間的距離可使用下列等式 1計(jì)算。
[006。 等式1
[0062] 口(護(hù)")=iP-r - + iPfi - %)- + {p! - (}t)~
[0063] 此處,D (p, q)表示節(jié)點(diǎn)P和節(jié)點(diǎn)q之間的距離,Px表示節(jié)點(diǎn)P的締度,Py表示節(jié)點(diǎn) P的經(jīng)度,Pt表示節(jié)點(diǎn)P的時(shí)間,屯表示節(jié)點(diǎn)q的締度,Qy表示節(jié)點(diǎn)q的經(jīng)度,Qt表示節(jié)點(diǎn) q的時(shí)間。
[0064] 如上所述,數(shù)據(jù)采樣裝置可通過操作S110、操作S120、操作S130 W及操作S140生 成興趣模型。
[0065] 在生成反映用戶興趣的興趣模型之后,數(shù)據(jù)采樣裝置可基于包含在原始數(shù)據(jù)中元 素生成多個(gè)比較模型(S210)。
[0066] 數(shù)據(jù)采樣裝置可將包含在原始數(shù)據(jù)中的元素劃分為用于興趣模型的多個(gè)數(shù)據(jù)組 (S211)。
[0067] 在情形1中,用戶興趣為數(shù)據(jù)類型的比例,因此,數(shù)據(jù)采樣裝置可將相同類型的元 素劃分為一個(gè)數(shù)據(jù)組。參照?qǐng)D4 (a),數(shù)據(jù)采樣裝置可基于數(shù)據(jù)類型將原始數(shù)據(jù)劃分為多個(gè) 數(shù)據(jù)組(參見圖4(a)左邊的坐標(biāo)圖)。換言之,數(shù)據(jù)采樣裝置可將對(duì)應(yīng)相同類型的H角形 元素劃分為一個(gè)數(shù)據(jù)組而將對(duì)應(yīng)相同類型的圓形元素劃分為另一數(shù)據(jù)組。
[0068] 在情形2中,用戶興趣為包含在象限中數(shù)據(jù)的比例,因此數(shù)據(jù)采樣裝置可將包含 在相同象限中的元素劃分為一個(gè)數(shù)據(jù)組。參照?qǐng)D4化),數(shù)據(jù)采樣裝置可基于數(shù)據(jù)位于其中 的象限而將原始數(shù)據(jù)劃分為多個(gè)數(shù)據(jù)組(參見圖4(b)左邊的坐標(biāo)圖)。換言之,數(shù)據(jù)采樣 裝置可將包含在第一象限中的元素劃分為一個(gè)數(shù)據(jù)組,將包含在第二象限中的元素劃分為 另一數(shù)據(jù)組,將包含在第H象限中的元素劃分為其它另一數(shù)據(jù)組,并且將包含在第四象限 中的元素劃分為另外的另一數(shù)據(jù)組。
[0069] 在情形3中,用戶興趣為數(shù)據(jù)類型的比例,因此,數(shù)據(jù)采樣裝置可基于數(shù)據(jù)類型將 原始數(shù)據(jù)劃分為多個(gè)數(shù)據(jù)組(參見圖4(a)左邊的坐標(biāo)圖)。
[0070] 在情形4中,用戶興趣為在空間-時(shí)間中特定點(diǎn)上的流量比例,因此,數(shù)據(jù)采樣裝 置可將在空間-時(shí)間中特定點(diǎn)上的流量劃分為數(shù)據(jù)組。此處,空間-時(shí)間可W通過締度、經(jīng) 度和時(shí)間定義。
[0071] 在將包含在原始數(shù)據(jù)中的元素劃分為多個(gè)數(shù)據(jù)組后,數(shù)據(jù)采樣裝置可基于包含在 多個(gè)數(shù)據(jù)組中的至少一個(gè)元素生成多個(gè)比較數(shù)據(jù)組(S212)。換言之,數(shù)據(jù)采樣裝置可選擇 包含在一個(gè)數(shù)據(jù)組中的一些元素并基于選擇的元素而生成比較數(shù)據(jù)組。
[0072] 在生成多個(gè)比較數(shù)據(jù)組之后,可將比較數(shù)據(jù)組轉(zhuǎn)換為根據(jù)用戶興趣定義的比較節(jié) 點(diǎn)悅13)。
[0073] 在情形1中,節(jié)點(diǎn)表示數(shù)據(jù)類型,數(shù)據(jù)采樣裝置可將從根據(jù)數(shù)據(jù)類型劃分的一個(gè) 數(shù)據(jù)組中選擇的一些元素轉(zhuǎn)換為一個(gè)比較節(jié)點(diǎn)(參見圖4(a)所述的坐標(biāo)圖W及圖5(a))。
[0074] 在情形2中,節(jié)點(diǎn)表示象限,數(shù)據(jù)采樣裝置可將從根據(jù)象限劃分的一個(gè)數(shù)據(jù)組中 選擇的一些元素轉(zhuǎn)換為一個(gè)比較節(jié)點(diǎn)(參見圖4(b)的坐標(biāo)圖和圖5(b))。
[0075] 在情形3中,節(jié)點(diǎn)表示數(shù)據(jù)類型,數(shù)據(jù)采樣裝置可將從基于數(shù)據(jù)類型劃分的一個(gè) 數(shù)據(jù)組中選擇的一些元素轉(zhuǎn)換為一個(gè)比較節(jié)點(diǎn)(參見圖4(a)中的坐標(biāo)圖W及圖5(c))。
[0076] 在情形4中,軌跡涉及在不同時(shí)間的多個(gè)點(diǎn),因此節(jié)點(diǎn)為在空間-時(shí)間中的特定 點(diǎn)。因此,數(shù)據(jù)采樣裝置可將從根據(jù)在空間-時(shí)間中的特定點(diǎn)劃分的一個(gè)數(shù)據(jù)組中選擇的 一些元素轉(zhuǎn)換為一個(gè)比較節(jié)點(diǎn)。
[0077] 在將比較數(shù)據(jù)組轉(zhuǎn)換為比較節(jié)點(diǎn)之后,根據(jù)包含在多個(gè)比較節(jié)點(diǎn)的每個(gè)比較節(jié)點(diǎn) 中的至少一個(gè)元素與包含在另一比較節(jié)點(diǎn)中的至少一個(gè)元素之間的比例,數(shù)據(jù)采樣裝置可 計(jì)算多個(gè)比較節(jié)點(diǎn)的權(quán)重(S214)。
[0078] 情形1的特征在于保持?jǐn)?shù)據(jù)類型比例。因此,當(dāng)一個(gè)比較節(jié)點(diǎn)Cl中包含100個(gè)元 素W及另一比較節(jié)點(diǎn)C,中包含300個(gè)元素時(shí),如圖5(a)所示,數(shù)據(jù)采樣裝置可將多個(gè)比較 節(jié)點(diǎn)的權(quán)重表達(dá)為"Cl = 0. 25" W及"Cs = 0. 75"。
[0079] 情形2的特征在于保持包含在象限中數(shù)據(jù)的比例。因此,當(dāng)一個(gè)比較節(jié)點(diǎn)Qi中包 含100個(gè)元素,另一比較節(jié)點(diǎn)化中包含100個(gè)元素,其它另一比較節(jié)點(diǎn)Qs中包含100個(gè)元 素,另外的另一比較節(jié)點(diǎn)Q4中包含100個(gè)元素時(shí),如圖5(b)所示,數(shù)據(jù)采樣裝置可將多個(gè) 比較節(jié)點(diǎn)的權(quán)重表達(dá)為"Qi = 0. 25","Q2 = 0. 25","Qs = 0. 25" W及"Q4 = 0. 25"。
[0080] 情形3的特征在于保持?jǐn)?shù)據(jù)類型相同的比例。因此,數(shù)據(jù)采樣裝置可將多個(gè)數(shù)據(jù) 組的權(quán)重表達(dá)為"Cl = 0. 5" W及"C2 = 0. 5",無論如圖5(c)中所示的比較節(jié)點(diǎn)包含的元 素的數(shù)量如何。
[0081] 情形4的特征在于保持流量比例。因此,數(shù)據(jù)采樣裝置可將多個(gè)比較節(jié)點(diǎn)的權(quán)重 表達(dá)為在空間-時(shí)間中特定點(diǎn)上歸一化的流量比例。
[0082] 在根據(jù)比較節(jié)點(diǎn)中包含的元素的比例而計(jì)算比較節(jié)點(diǎn)的權(quán)重之后,數(shù)據(jù)采樣裝置 可計(jì)算多個(gè)比較節(jié)點(diǎn)之間的距離(S215)。
[008引在情形1中,比較節(jié)點(diǎn)之間的距離沒有意義,如圖5(a)所示可具有相同的長(zhǎng)度 (例如長(zhǎng)度為1)。然而,當(dāng)比較節(jié)點(diǎn)之間的距離彼此不同時(shí),比較節(jié)點(diǎn)之間的距離可具有不 同的長(zhǎng)度。
[0084] 在情形2中,數(shù)據(jù)采樣裝置可計(jì)算象限的比較節(jié)點(diǎn)之間的長(zhǎng)度,并且計(jì)算的比較 節(jié)點(diǎn)之間的長(zhǎng)度可表達(dá)為如圖5(b)所示。
[0085] 在情形3中,與情形I中類似,比較節(jié)點(diǎn)之間的距離沒有意義,因此可表達(dá)為如圖 5(c)所示。
[008引在情形4中,比較節(jié)點(diǎn)為在空間-時(shí)間中的特定點(diǎn),并且比較節(jié)點(diǎn)之間的距離可使 用上述等式1計(jì)算。
[0087] 如上所述,數(shù)據(jù)采樣裝置可通過上述操作S211、操作S212、操作S213 W及操作 S214生成比較模型。
[0088] 在生成比較模型之后,數(shù)據(jù)采樣裝置可計(jì)算興趣模型和比較模型之間的距離 (S220)。
[0089] 參照?qǐng)D6,計(jì)算興趣模型和比較模型之間距離的方法將會(huì)在下文中詳細(xì)介紹。
[0090] 圖6為顯示興趣模型實(shí)施例的概念圖,其中連接彼此節(jié)點(diǎn)的連線上給出的數(shù)字表 示節(jié)點(diǎn)之間的距離,W及節(jié)點(diǎn)中的圖案表示節(jié)點(diǎn)的權(quán)重。換言之,具有方格圖案的節(jié)點(diǎn)的權(quán) 重為0. 5,具有虛線圖案的節(jié)點(diǎn)的權(quán)重為0. 25,而沒有圖案的節(jié)點(diǎn)的權(quán)重為0。
[0091] 兩個(gè)興趣模型之間(或者興趣模型與比較模型之間)的距離可根據(jù)節(jié)點(diǎn)之間的權(quán) 重差值和距離而被定義。由圖6所示的模型直觀地可見;由于圖6(a)所示的模型的節(jié)點(diǎn) ni與圖6(b)所示的模型的節(jié)點(diǎn)ni具有相同的權(quán)重并且圖6(a)所示的模型的節(jié)點(diǎn)n,與圖 6化)所示的模型的節(jié)點(diǎn)n,具有相似的權(quán)重,圖6 (a)所示的模型與圖6化)所示的模型之間 的距離小于(即更加相似)圖6(a)所示的模型與圖6(c)所示的模型之間的距離。
[009引換言么由此可見,興趣模型之間(或者興趣模型與比較模型之間)的相應(yīng)節(jié)點(diǎn)的 權(quán)重為測(cè)量興趣模型之間(或者興趣模型和比較模型之間)距離過程中的因子。
[0093] 同時(shí),在圖6(a)、6(c) W及6(d)所示的模型中,具有相同權(quán)重的節(jié)點(diǎn)的數(shù)量彼此 相同。特別地,圖6(a)所示的模型的節(jié)點(diǎn)n,與圖6(c)所示的模型的節(jié)點(diǎn)n,具有相同的權(quán) 重,并且圖6(a)所示的模型的節(jié)點(diǎn)ni與圖6(d)所示的模型的節(jié)點(diǎn)ni具有相同的權(quán)重。
[0094] 在此情形下,測(cè)量興趣模型之間(或者興趣模型與比較模型之間)的距離可充分 考慮節(jié)點(diǎn)之間的距離。換言之,從圖6(a)、6(c) W及6(d)所示的模型可見:由于節(jié)點(diǎn)ni和 節(jié)點(diǎn)ri3之間的距離小于節(jié)點(diǎn)n,和節(jié)點(diǎn)ri4之間的距離,圖6(a)所示的模型與圖6(c)所示 的模型之間的距離小于(即更加相似)圖6(a)所示的模型與圖6(d)所示的模型之間的距 離。該是由于節(jié)點(diǎn)ni和節(jié)點(diǎn)叫交換所需的工作量小于節(jié)點(diǎn)n,和節(jié)點(diǎn)ri4交換所需的工作 量。
[0095] 如上所述,計(jì)算模型之間距離的問題可被認(rèn)為是交換節(jié)點(diǎn)的問題。
[0096] 因此,可使用本發(fā)明的具體實(shí)施例中的陸地移動(dòng)距離(EMD)計(jì)算興趣模型和比較 模型之間的距離。
[0097] EMD可表達(dá)為下列等式2、等式3 W及等式4。
[0098] 等式 2
[0099]
【權(quán)利要求】
1. 一種數(shù)據(jù)采樣方法,其通過數(shù)據(jù)采樣裝置執(zhí)行,所述方法包括: 基于原始數(shù)據(jù),生成反映用戶興趣的興趣模型;以及 根據(jù)通過將基于原始數(shù)據(jù)采樣的模型與興趣模型進(jìn)行比較獲得的結(jié)果,確定采樣模 型。
2. 根據(jù)權(quán)利要求1所述的方法,其中,生成興趣模型包括: 基于用戶興趣,將包含在原始數(shù)據(jù)中的元素劃分為多個(gè)數(shù)據(jù)組; 根據(jù)包含在多個(gè)數(shù)據(jù)組的每個(gè)數(shù)據(jù)組中的至少一個(gè)元素與包含在另一數(shù)據(jù)組中的至 少一個(gè)元素之間的比例,計(jì)算多個(gè)數(shù)據(jù)組的權(quán)重; 將數(shù)據(jù)組轉(zhuǎn)換為根據(jù)用戶興趣定義的節(jié)點(diǎn); 計(jì)算多個(gè)節(jié)點(diǎn)之間的距離。
3. 根據(jù)權(quán)利要求2所述的方法,其中,確定采樣模型包括: 基于包含在原始數(shù)據(jù)中的元素,生成多個(gè)比較模型; 計(jì)算興趣模型與多個(gè)比較模型之間的距離;以及 確定具有在計(jì)算得到的距離中滿足預(yù)定標(biāo)準(zhǔn)的距離的比較模型作為采樣模型。
4. 根據(jù)權(quán)利要求3所述的方法,其中,生成多個(gè)比較模型包括: 將包含在原始數(shù)據(jù)中的元素劃分為用于興趣模型的多個(gè)數(shù)據(jù)組; 基于包含在多個(gè)數(shù)據(jù)組中的至少一個(gè)元素,生成多個(gè)比較數(shù)據(jù)組; 將比較數(shù)據(jù)組轉(zhuǎn)換為根據(jù)用戶興趣定義的比較節(jié)點(diǎn); 根據(jù)包含在多個(gè)比較節(jié)點(diǎn)的每個(gè)比較節(jié)點(diǎn)中的至少一個(gè)元素與包含在另一比較節(jié)點(diǎn) 中的至少一個(gè)元素之間的比例,計(jì)算多個(gè)比較節(jié)點(diǎn)的權(quán)重; 計(jì)算多個(gè)比較節(jié)點(diǎn)之間的距離。
5. -種數(shù)據(jù)采樣裝置,包括: 第一生成器,基于原始數(shù)據(jù),生成反映用戶興趣的興趣模型; 第二生成器,基于包含在原始數(shù)據(jù)中的元素,生成多個(gè)比較模型;以及 確定器,根據(jù)通過將興趣模型與多個(gè)比較模型進(jìn)行比較從而獲得的結(jié)果,確定采樣模 型。
6. 根據(jù)權(quán)利要求5所述的裝置,其中,第一生成器基于用戶興趣將包含在原始數(shù)據(jù)中 的元素劃分為多個(gè)數(shù)據(jù)組,根據(jù)包含在多個(gè)數(shù)據(jù)組的每個(gè)數(shù)據(jù)組中的至少一個(gè)元素與包含 在另一數(shù)據(jù)組中的至少一個(gè)元素之間的比例,計(jì)算多個(gè)數(shù)據(jù)組的權(quán)重,將數(shù)據(jù)組轉(zhuǎn)換為根 據(jù)用戶興趣定義的節(jié)點(diǎn),以及計(jì)算多個(gè)節(jié)點(diǎn)之間的距離。
7. 根據(jù)權(quán)利要求6所述的裝置,其中,第二生成器將包含在原始數(shù)據(jù)中的元素劃分為 用于興趣模型的多個(gè)數(shù)據(jù)組,基于包含在多個(gè)數(shù)據(jù)組中的至少一個(gè)元素,生成多個(gè)比較數(shù) 據(jù)組,將比較數(shù)據(jù)組轉(zhuǎn)換為根據(jù)用戶興趣定義的比較節(jié)點(diǎn),根據(jù)包含在多個(gè)比較節(jié)點(diǎn)的每 個(gè)比較節(jié)點(diǎn)中至少一個(gè)元素與包含在另一比較節(jié)點(diǎn)中的至少一個(gè)元素之間的比例,計(jì)算多 個(gè)比較節(jié)點(diǎn)的權(quán)重,以及計(jì)算多個(gè)比較節(jié)點(diǎn)之間的距離。
8. 根據(jù)權(quán)利要求5所述的裝置,其中,確定器計(jì)算興趣模型與多個(gè)比較模型之間的距 離,以及確定具有在計(jì)算得到的距離中滿足預(yù)定標(biāo)準(zhǔn)的距離的比較模型作為采樣模型。
【文檔編號(hào)】G06F17/00GK104350491SQ201380030639
【公開日】2015年2月11日 申請(qǐng)日期:2013年4月1日 優(yōu)先權(quán)日:2012年6月13日
【發(fā)明者】劉煥祚, 吳鎮(zhèn)午 申請(qǐng)人:浦項(xiàng)工科大學(xué)校產(chǎn)學(xué)協(xié)力團(tuán)