專利名稱:數(shù)據(jù)篩選的方法、裝置以及證券化貸款的篩選方法、裝置的制作方法
數(shù)據(jù)篩選的方法、裝置以及證券化貨款的篩選方法、裝置 技術(shù)領(lǐng)域'本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,特別涉及一種數(shù)據(jù)篩選的方法、裝置以 及證券化貨款的篩選方法、裝置。背景纟支術(shù)現(xiàn)實(shí)生活中,常常需要從大量的數(shù)據(jù)記錄中篩選出滿足要求的數(shù)據(jù) 記錄,以便于對(duì)篩選出的數(shù)據(jù)進(jìn)行分類、總結(jié)或其它的后續(xù)處理。例如,從記錄有各個(gè)學(xué)科的期末考試成績的數(shù)據(jù)庫中篩選出英語成績大于60分 的學(xué)生;從某公司的員工數(shù)據(jù)庫中篩選出年終評(píng)定為優(yōu)秀的員工;或者 從銀行的貨款數(shù)據(jù)庫中尋找出滿足證券化條件的貨款記錄等?,F(xiàn)有的一種數(shù)據(jù)篩選的方法中,通過將數(shù)據(jù)庫中的全部記錄都提取 到應(yīng)用程序,然后逐條進(jìn)行判斷,來找出滿足要求的數(shù)據(jù)記錄。采用所 述的方法,數(shù)據(jù)傳輸量大,耗時(shí)較長,效率較低。發(fā)明內(nèi)容本發(fā)明提供一種數(shù)據(jù)篩選的方法、裝置以及證券化貨款的篩選方 法、裝置,本發(fā)明進(jìn)行數(shù)據(jù)篩選時(shí)用時(shí)較少且效率較高。本發(fā)明提供的 一種數(shù)據(jù)篩選的方法,應(yīng)用于至少包含有第 一數(shù)據(jù) 項(xiàng)、第二數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)的數(shù)據(jù)庫中的數(shù)據(jù)記錄的篩選,包括Al執(zhí)行預(yù)篩選,從待選數(shù)據(jù)庫中剔除不滿足篩選要求的數(shù)據(jù)記錄, 滿足要求的數(shù)據(jù)記錄形成預(yù)選庫;A2根據(jù)篩選條件生成數(shù)據(jù)庫查詢語句,利用所述查詢語句由所述 預(yù)選庫中篩選出滿足篩選條件的數(shù)據(jù)記錄,形成備選庫;A3在所述備選庫中提取用于隨機(jī)分布控制的第 一數(shù)據(jù)項(xiàng)的內(nèi)容和 用于集中度控制的第二數(shù)據(jù)項(xiàng)的內(nèi)容;A4根據(jù)第一數(shù)據(jù)項(xiàng)內(nèi)容執(zhí)行隨機(jī)分布控制,隨機(jī)訪問所述備選庫 中的數(shù)據(jù)記錄;對(duì)于隨機(jī)訪問的每一條數(shù)據(jù)記錄,根據(jù)第二數(shù)據(jù)項(xiàng)內(nèi)容 對(duì)該數(shù)據(jù)記錄進(jìn)行集中度控制,以控制該數(shù)據(jù)記錄的第三數(shù)據(jù)項(xiàng)內(nèi)容在目標(biāo)數(shù)據(jù)庫中的比例,若所述第三數(shù)據(jù)項(xiàng)內(nèi)容達(dá)到比例要求,則舍棄該數(shù)據(jù)記錄;否則,執(zhí)行步驟A5;A5判斷該數(shù)據(jù)記錄的第三數(shù)據(jù)項(xiàng)內(nèi)容是否滿足匹配條件,若是, 將該數(shù)據(jù)記錄移入目標(biāo)數(shù)據(jù)庫,否則,返回至步驟A4??蛇x的,所述第一數(shù)據(jù)項(xiàng)和第二數(shù)據(jù)項(xiàng)為同一的數(shù)據(jù)項(xiàng);或 第二數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)為同一的數(shù)據(jù)項(xiàng);或第一數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)為同一數(shù)據(jù)項(xiàng);或第 一數(shù)據(jù)項(xiàng)、第二數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)為同 一數(shù)據(jù)項(xiàng)??蛇x的,所述第一數(shù)據(jù)項(xiàng)和/或第二數(shù)據(jù)項(xiàng)和/或第三數(shù)據(jù)項(xiàng)為數(shù)值 數(shù)據(jù)項(xiàng)??蛇x的,在待篩選數(shù)據(jù)庫中按照黑列表的方式,根據(jù)關(guān)鍵字剔除不 滿足篩選要求的數(shù)據(jù)記錄??蛇x的,執(zhí)行隨機(jī)分布控制的步驟如下將所述備選庫中的數(shù)據(jù)記錄導(dǎo)入以數(shù)據(jù)項(xiàng)為分布維度的空間矩陣中;通過均勻隨機(jī)函數(shù)均勻的訪問所述空間距陣中的數(shù)據(jù)記錄。 可選的,所述空間距陣為稀疏的空間距陣??蛇x的,若數(shù)據(jù)項(xiàng)為離散數(shù)值型數(shù)據(jù)項(xiàng),則該數(shù)據(jù)項(xiàng)直接作為空間 坐標(biāo);若數(shù)據(jù)項(xiàng)為連續(xù)數(shù)值型數(shù)據(jù)項(xiàng),則將該連續(xù)值在備選庫的取值范圍 分為N等分,將連續(xù)值轉(zhuǎn)換為分^:的離散值作為空間坐標(biāo)。本發(fā)明還提供一種數(shù)據(jù)篩選的方法,應(yīng)用于至少包含有第 一數(shù)據(jù) 項(xiàng)、第二數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)的數(shù)據(jù)庫中的數(shù)據(jù)記錄的篩選,包括All執(zhí)行預(yù)篩選,從待選數(shù)據(jù)庫中剔除不滿足篩選要求的數(shù)據(jù)記 錄,形成預(yù)選庫;A21根據(jù)篩選條件生成數(shù)據(jù)庫查詢語句,利用所述查詢語句由所述 預(yù)選庫中篩選出滿足篩選條件的數(shù)據(jù)記錄,形成備選庫;A31在所述備選數(shù)據(jù)庫中提取用于隨機(jī)分布控制的第 一數(shù)據(jù)項(xiàng)的 內(nèi)容和用于集中度控制的第二數(shù)據(jù)項(xiàng)的內(nèi)容;A41根據(jù)第一數(shù)據(jù)項(xiàng)內(nèi)容執(zhí)行隨機(jī)分布控制,隨機(jī)訪問所述備選庫 中的數(shù)據(jù)記錄;A51對(duì)于每一條數(shù)據(jù)記錄,判斷該數(shù)據(jù)記錄的第三數(shù)據(jù)項(xiàng)內(nèi)容是否 滿足匹配條件,若是,執(zhí)行步驟A61;否則,舍棄該數(shù)據(jù)記錄,返回至 步驟A41;A61根據(jù)第二數(shù)據(jù)項(xiàng)內(nèi)容對(duì)該數(shù)據(jù)記錄進(jìn)行集中度控制,以控制該 數(shù)據(jù)記錄的第三數(shù)據(jù)項(xiàng)內(nèi)容在目標(biāo)數(shù)據(jù)庫中的比例,若所述第三數(shù)據(jù)項(xiàng) 內(nèi)容達(dá)到比例要求,則舍棄該數(shù)據(jù)記錄,返回步驟A41,否則,將該數(shù) 據(jù)記錄移入目標(biāo)數(shù)據(jù)庫。可選的,所述第一數(shù)據(jù)項(xiàng)和第二數(shù)據(jù)項(xiàng)為同一的數(shù)據(jù)項(xiàng);或 第二數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)為同一的數(shù)據(jù)項(xiàng);或第一數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)為同一數(shù)據(jù)項(xiàng);或 第一數(shù)據(jù)項(xiàng)、第二數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)為同 一數(shù)據(jù)項(xiàng)。 可選的,所述第一數(shù)據(jù)項(xiàng)和/或第二數(shù)據(jù)項(xiàng)和/或第三數(shù)據(jù)項(xiàng)為數(shù)值 數(shù)據(jù)項(xiàng)??蛇x的,在待篩逸數(shù)據(jù)庫中按照黑列表的方式,根據(jù)關(guān)鍵字剔除不 滿足篩選要求的數(shù)據(jù)記錄。本發(fā)明還提供一種數(shù)據(jù)篩選裝置,用于對(duì)至少包含有第一數(shù)據(jù)項(xiàng)、 第二數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)的數(shù)據(jù)庫中的數(shù)據(jù)記錄的篩選,包括用于從待選數(shù)據(jù)庫中剔除不滿足篩選要求的數(shù)據(jù)記錄、形成預(yù)選庫 的預(yù)處理裝置;根據(jù)篩選條件生成數(shù)據(jù)庫查詢語句、利用所述查詢語句由所述預(yù)選 庫中篩選出滿足篩選條件的數(shù)據(jù)記錄、形成備選庫的篩選器;在所述備選庫中提取用于隨機(jī)分布控制的第一數(shù)據(jù)項(xiàng)的內(nèi)容和用 于集中度控制的第二數(shù)據(jù)項(xiàng)的內(nèi)容的數(shù)據(jù)項(xiàng)提取裝置;用于根據(jù)第 一數(shù)據(jù)項(xiàng)內(nèi)容執(zhí)行隨機(jī)分布控制、以隨機(jī)訪問所述備選 庫中的凄t據(jù)記錄隨^L分布控制控制器; _根據(jù)第二數(shù)據(jù)項(xiàng)內(nèi)容對(duì)該數(shù)據(jù)記錄進(jìn)行集中度控制,以控制該數(shù)據(jù)記錄的第三數(shù)據(jù)項(xiàng)內(nèi)容在目標(biāo)數(shù)據(jù)庫中的比例的集中度控制器;用于判斷該數(shù)據(jù)記錄的第三數(shù)據(jù)項(xiàng)內(nèi)容是否滿足匹配條件以及是 否滿足集中度控制的比例要求的判斷裝置??蛇x的,所述集中度控制器包括用于將所述備選庫中的數(shù)據(jù)記錄 導(dǎo)入以數(shù)據(jù)項(xiàng)為分布維度的空間矩陣中的導(dǎo)入單元;和用于通過均勻隨機(jī)函數(shù)均勻的訪問所述空間距陣中的數(shù)據(jù)記錄的 訪問單元。本發(fā)明還提供一種證券化貨款篩選的方法,用于從貨款記錄集合中 篩選出滿足證券化的貨款記錄,包括Bl執(zhí)行預(yù)篩選,從待選貨款記錄集合中剔除不滿足篩選要求的記 錄,滿足要求的貨款記錄形成預(yù)選庫;B2根據(jù)篩選條件生成數(shù)據(jù)庫查詢語句,利用所述查詢語句由所述 預(yù)選庫中篩選出滿足篩選條件的貨款記錄,形成備選庫;B3在所述備選庫中提取用于隨機(jī)分布控制的貨款指標(biāo)的內(nèi)容和用 于集中度控制的貨款指標(biāo)的內(nèi)容;B4根據(jù)隨機(jī)分布控制貨款指標(biāo)的內(nèi)容執(zhí)行隨機(jī)分布控制,隨機(jī)訪 問所述備選庫中的貨款記錄;對(duì)于隨機(jī)訪問的每一條記錄,根據(jù)集中度 控制貨款指標(biāo)的內(nèi)容進(jìn)行集中度控制,以控制該內(nèi)容的貨款記錄的貨款 金額在用于證券化的目標(biāo)貨款金額中的比例,若貨款金額達(dá)到或超過比 例要求,則舍棄該貨款記錄,并返回步驟B4;否則執(zhí)行步驟B5;B5判斷目標(biāo)貨款記錄庫中已有貨款記錄的貨款金額總和與該 該貨款記錄的貨款金額之和是否小于目標(biāo)貨款金額,若是,將該貨款記 錄移入目標(biāo)貨款記錄庫;否則,則舍棄該貨款記錄,返回步驟B4;其中,所述貨款指標(biāo)包括貨款金額、貨款合同期限、剩余期限、利 率和/或擔(dān)保方式。本發(fā)明還提供一種證券化貨款篩選裝置,用于從貨款記錄集合中篩選出滿足證券,的貨款記錄,包括用于從待選貨款記錄集合中剔除不滿足篩選要求的記錄、形成預(yù)選庫預(yù)處理裝置;根據(jù)篩選條件生成數(shù)據(jù)庫查詢語句、利用所述查詢語句由所述預(yù)選 庫中篩選出滿足篩選條件的貨款記錄、形成備選庫的篩選器;在所述備選庫中提取用于隨機(jī)分布控制的貨款指標(biāo)的內(nèi)容和用于 集中度控制的貨款指標(biāo)的內(nèi)容的貨款指標(biāo)提取裝置;根據(jù)隨機(jī)分布控制貨款指標(biāo)的內(nèi)容執(zhí)行隨機(jī)分布控制、隨機(jī)訪問所 述備選庫中的貨款記錄的隨機(jī)分布控制器;對(duì)于隨機(jī)訪問的每一條記錄,根據(jù)集中度控制貨款指標(biāo)的內(nèi)容進(jìn)行 集中度控制,以控制該內(nèi)容的貨款記錄的貨款金額在用于證券化的目標(biāo) 貨款金額中的比例的集中度控制器;判斷目標(biāo)貨款記錄庫中已有貨款記錄的貨款金額總和與該貨款記 錄的貨款金額之和是否小于目標(biāo)貨款金額、判斷該貨款記錄的貨款金額 是否滿足集中度控制要求的判斷裝置;其中,所述貨款指標(biāo)包括貨款金額、貨款合同期限、剩余期限、利 率和/或擔(dān)保方式。與現(xiàn)有技術(shù)相比,上述技術(shù)方案的其中 一個(gè)具有以下優(yōu)點(diǎn)首先通過預(yù)篩選剔除不滿足要求的數(shù)據(jù)記錄,減少篩選時(shí)的數(shù)據(jù)處 理量,接著,根據(jù)篩選條件生成篩選查詢語句執(zhí)行數(shù)據(jù)篩選,利用數(shù)據(jù) 庫的并行處理能力,批量處理數(shù)據(jù)記錄,減少循環(huán)處理的過程開銷,減 少篩選時(shí)間,提高數(shù)據(jù)處理的效率。然后執(zhí)行隨機(jī)分布控制和集中度控 制,保證篩選的隨機(jī)性并對(duì)篩選的結(jié)果進(jìn)行結(jié)構(gòu)性控制,使得篩選出的 目標(biāo)數(shù)據(jù)庫的數(shù)據(jù)記錄滿足比例要求。應(yīng)用所述的數(shù)據(jù)篩選方法在對(duì)貨款記錄進(jìn)行篩選時(shí),首先采用排他 法,先排除不可選中的數(shù)據(jù),然后挑選符合條件的記錄,降低處理過程 中的數(shù)據(jù)量;批量處理數(shù)據(jù)記錄,而不是逐條選擇記錄,減少循環(huán)處理的過程開銷,數(shù)據(jù)處理量小,占用的硬件資源較少,可減少篩選時(shí)間, 提高篩選的效率。并可保證滿某一貨款指標(biāo)的所有內(nèi)容的貨款能夠均勻 且隨機(jī)地被獲取,而不僅是在符合條件的貨款中隨意地挑選。
此外,應(yīng)用所述方法可以對(duì)篩選結(jié)果中具有某一貨款指標(biāo)的貨款余 額進(jìn)行結(jié)構(gòu)性控制,保證該貨款指標(biāo)下的不同內(nèi)容的貨款金額占有的比 例滿足風(fēng)險(xiǎn)控制的要求。
圖1為本發(fā)明凄t據(jù)篩選的方法的第一實(shí)施例的流程圖2為本發(fā)明的數(shù)據(jù)篩選的方法的第二實(shí)施例的流程圖3為本發(fā)明的數(shù)據(jù)處理裝置的實(shí)施例的框圖4為圖3所示的實(shí)施例中的集中度控制器的其中一個(gè)實(shí)施例的框
圖5為本發(fā)明的證券化貨款篩選的方法的實(shí)施例的流程圖; 圖6為本發(fā)明的證券化貨款的篩選裝置的實(shí)施例的框圖。
具體實(shí)施例方式
下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式
做詳細(xì)的說明。
現(xiàn)實(shí)生活中常常從大量的數(shù)據(jù)記錄中篩選出滿足一定要求的數(shù)據(jù) 記錄,本發(fā)明提供一種數(shù)據(jù)篩選的方法,首先,執(zhí)行預(yù)篩選,剔除不滿 足要求的數(shù)據(jù)記錄,減少執(zhí)行篩選時(shí)的處理量;接著,采用數(shù)據(jù)庫查詢 語句批量處理數(shù)據(jù)記錄,提高處理的效率;再接著,執(zhí)行隨機(jī)分布控制 以使篩選記錄的選取具有隨機(jī)性;并執(zhí)行集中度控制,對(duì)篩選結(jié)果進(jìn)行 結(jié)構(gòu)性控制。所述的方法能夠縮短篩選的時(shí)間、提高數(shù)據(jù)篩選的效率、 降低篩選過程中的數(shù)據(jù)處理量且篩選出的數(shù)據(jù)記錄滿足隨機(jī)性要求和 集中度要求。
下面結(jié)合實(shí)施例對(duì)所述的方法進(jìn)行詳細(xì)描述。
圖1為本發(fā)明數(shù)據(jù)篩選的方法的第一實(shí)施例的流程圖。請(qǐng)參考圖1, 步驟S100為執(zhí)行預(yù)篩選,從待選數(shù)據(jù)庫中剔除不滿足篩選要求的數(shù)據(jù) 記錄,滿足要求的數(shù)據(jù)記錄形成預(yù)選庫。待篩選的數(shù)據(jù)庫中一般具有大量的數(shù)據(jù)記錄,例如,十萬甚至百萬 條的數(shù)據(jù)記錄。該數(shù)據(jù)庫每一條數(shù)據(jù)記錄都有第一數(shù)據(jù)項(xiàng)、第二數(shù)據(jù)項(xiàng) 和第三數(shù)據(jù)項(xiàng)。
其中,所述第一數(shù)據(jù)項(xiàng)和第二數(shù)據(jù)項(xiàng)可以為同一的數(shù)據(jù)項(xiàng);或第二 數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)可以為同 一的數(shù)據(jù)項(xiàng);或第一數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng) 可以為同一數(shù)據(jù)項(xiàng);或第一數(shù)據(jù)項(xiàng)、第二數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)可以為同 一數(shù)據(jù)項(xiàng),或者,三者均為不同的數(shù)據(jù)項(xiàng)。
所述第 一數(shù)據(jù)項(xiàng)和/或第二數(shù)據(jù)項(xiàng)和/或第三數(shù)據(jù)項(xiàng)可以為數(shù)值數(shù)據(jù)項(xiàng)。
在執(zhí)行篩選之前,首先執(zhí)行所述的預(yù)篩選,從所述的待選數(shù)據(jù)庫中 剔除不滿足篩選要求的數(shù)據(jù)記錄,減少后續(xù)篩選步驟時(shí)的數(shù)據(jù)處理量, 從而可減少篩選的時(shí)間,提高篩選的效率。
例如,某大學(xué)所有的學(xué)生的英語四級(jí)成績的lt據(jù)庫,該數(shù)據(jù)庫的每 一條數(shù)據(jù)記錄都包括姓名、班級(jí)、專業(yè)、四級(jí)成績等數(shù)據(jù)項(xiàng);其中,班 級(jí)可以是95級(jí)、96級(jí)、97級(jí)和98級(jí)等,專業(yè)可以是數(shù)學(xué)專業(yè)、物理 專業(yè)、化學(xué)專業(yè)等。篩選時(shí)需要從該數(shù)據(jù)庫中篩選出97級(jí)英語四級(jí)成 績?cè)?5分以上(含85分)的學(xué)生500名,且需要每一個(gè)專業(yè)都有一定 比例的學(xué)生被選中。
在執(zhí)行篩選之前,首先進(jìn)行所述的預(yù)篩選,例如,剔除該數(shù)據(jù)庫中 所有的非在校生的成績記錄;再剔除非97級(jí)的成績記錄,剩下的數(shù)據(jù) 庫中的數(shù)據(jù)記錄全部為97級(jí)的所有在校生的成績記錄,這大大減少了 后續(xù)篩選的數(shù)據(jù)量。
又如,從銀行大量的貨款數(shù)據(jù)記錄中挑選出一定金額(例如1000 萬人民幣)的符合證券化的貨款記錄,其中,每一貨款記錄的貨款的數(shù) 據(jù)項(xiàng)(或稱為貨款指標(biāo))可以包括貨款金額、貨款合同期限、剩余期限、 利率和/或擔(dān)保方式等。在篩選之前,執(zhí)行所述的預(yù)篩選,剔除不滿足 證券化條件的貨款記錄,從而減小后續(xù)篩選的數(shù)據(jù)量。如,將貨款記錄 中已經(jīng)轉(zhuǎn)讓的貨l欠記錄剔除,將已經(jīng)^t其它證券化資產(chǎn)池選中的記錄剔 除等。在其中的一個(gè)實(shí)施例中,在待篩選數(shù)據(jù)庫中按照黑列表的方式,根 據(jù)數(shù)據(jù)記錄的關(guān)鍵字批量剔除不滿足篩選要求的數(shù)據(jù)記錄,被黑列表的 數(shù)據(jù)記錄表示已經(jīng)由該待篩選數(shù)據(jù)庫剔除,未被剔除的數(shù)據(jù)記錄形成預(yù) 選庫。
在其它的實(shí)施例中,可以將待篩選數(shù)據(jù)庫中的不滿足要求的數(shù)據(jù)記 錄物理上刪除,只保留滿足篩選要求的數(shù)據(jù)記錄,形成預(yù)選庫。
步驟S110為#4居篩選條件生成數(shù)據(jù)庫查詢語句,利用該查詢語句 對(duì)所述的預(yù)選庫執(zhí)行篩選,篩選出滿足篩選條件的數(shù)據(jù)記錄,形成備選 庫。
該步驟中,可以利用數(shù)據(jù)庫軟件SQL或者Oracle等,生成數(shù)據(jù)庫 查詢語句,例如,結(jié)合使用Select、 from和where語句設(shè)置查詢條件; 然后按照所述的查詢條件執(zhí)行查詢操作,并標(biāo)記出滿足篩選條件的數(shù)據(jù) 記錄。該滿足要求的數(shù)據(jù)記錄生成備選庫。通過利用該數(shù)據(jù)庫軟件的批 量處理能力,執(zhí)行數(shù)據(jù)查詢篩選,可降低應(yīng)用系統(tǒng)的數(shù)據(jù)記錄處理量和 需要獲得的數(shù)據(jù)內(nèi)容,縮短處理的時(shí)間,提高效率。
例如,對(duì)于所述的成績查詢,可以生成查詢條件為四級(jí)成績》=85; 執(zhí)行該查詢命令,可查詢出所有滿足查詢條件的記錄。
又如,對(duì)于所述的滿足證券化要求的貨款記錄查詢,若需要從滿足 要求的貨款記錄中篩選出貨款金額大于或等于10萬的記錄,可生成查 詢條件為貨款金額》=10(萬)。
步驟S120為在所述備選庫中提取用于隨機(jī)分布控制的第一數(shù)據(jù)項(xiàng) 的內(nèi)容和用于集中度控制的第二數(shù)據(jù)項(xiàng)的內(nèi)容。
執(zhí)行完所述的篩選后,形成備選庫,該備選庫中的數(shù)據(jù)記錄并非全 部都需要,僅需要該備選庫中的部分?jǐn)?shù)據(jù)記錄,因而,需要做進(jìn)一步篩 選。
然而步驟S110形成的備選庫中的數(shù)據(jù)記錄具有較強(qiáng)的排列順序 性,若直接由該備選庫中按照排列順序進(jìn)行篩選,形成的目標(biāo)數(shù)據(jù)庫在 某些數(shù)據(jù)項(xiàng)方面就會(huì)高度集中,因而,該步驟的篩選過程中需要進(jìn)行隨機(jī)分布控制,所謂隨機(jī)分布控制即為按照某一數(shù)據(jù)項(xiàng)的內(nèi)容,例如第一 數(shù)據(jù)項(xiàng)的內(nèi)容,對(duì)爭選庫中的數(shù)據(jù)記錄進(jìn)行隨機(jī)篩選,以保證第一數(shù)據(jù) 項(xiàng)的內(nèi)容有相同的幾率被篩選到,避免了形成的目標(biāo)數(shù)據(jù)庫第一數(shù)據(jù)項(xiàng) 的某一內(nèi)容過于集中,而該第一數(shù)據(jù)項(xiàng)的其它內(nèi)容的數(shù)據(jù)記錄較少或沒 有的情形。
此外,執(zhí)行篩選過程中還需要按照第二數(shù)據(jù)項(xiàng)的內(nèi)容進(jìn)行集中度控 制,以保證該第二數(shù)據(jù)項(xiàng)的不同內(nèi)容的對(duì)應(yīng)的第三數(shù)據(jù)項(xiàng)的不同內(nèi)容在 目標(biāo)數(shù)據(jù)庫中的比例(可以是數(shù)值比例或個(gè)數(shù)比例)符合要求。
其中,該第 一數(shù)據(jù)項(xiàng)和第二數(shù)據(jù)項(xiàng)可以為相同的凄t據(jù)項(xiàng)或不同的數(shù) 據(jù)項(xiàng)。
例如,對(duì)于所述的成績查詢,用于執(zhí)行隨機(jī)分布控制的第一數(shù)據(jù)項(xiàng)
為專業(yè),該數(shù)據(jù)項(xiàng)的內(nèi)容為物理專業(yè)、化學(xué)專業(yè)、數(shù)學(xué)專業(yè)等;執(zhí)行 隨機(jī)分布控制,可保證每一專業(yè)的數(shù)據(jù)記錄都有均等的幾率被訪問到。
用于集中度控制的第二數(shù)據(jù)項(xiàng)的內(nèi)容也可以是專業(yè),執(zhí)行集中度控 制,可保證物理專業(yè)的記錄在全部的500條記錄中占有20條,化學(xué)專 業(yè)的記錄占有50條......等。
又如,對(duì)于所述的滿足證券化要求的貨款記錄查詢,用于隨機(jī)分布 控制的第一數(shù)據(jù)項(xiàng)的可以是剩余期限,其內(nèi)容為相應(yīng)的期限;執(zhí)行隨機(jī) 分布控制可保證每一期限的貨款記錄都有相同的幾率被篩選;
用于集中度控制的第二數(shù)據(jù)項(xiàng)可以是擔(dān)保方式,其內(nèi)容為抵押、質(zhì) 押、保證等,通過集中庫控制可控制形成的目標(biāo)庫中的不同的擔(dān)保方式 的貨款記錄的比例。
步驟S130為根據(jù)第一數(shù)據(jù)項(xiàng)內(nèi)容執(zhí)行隨機(jī)分布控制,隨機(jī)訪問所 述備選庫中的數(shù)據(jù)記錄。
在其中的一個(gè)實(shí)施例中,建立以所述備選庫中的所有數(shù)據(jù)項(xiàng)為分布 維度的空間矩陣,將每一數(shù)據(jù)記錄的作為空間的點(diǎn)置于所述空間矩陣 中,每一空間點(diǎn)都記錄有第一數(shù)據(jù)項(xiàng)的內(nèi)容;然后通過均勻隨機(jī)函數(shù)均 勻的訪問所述的空間矩陣中的每一個(gè)空間點(diǎn)的第一數(shù)據(jù)項(xiàng)的內(nèi)容,進(jìn)而訪問該第 一數(shù)據(jù)項(xiàng)內(nèi)容所在的數(shù)據(jù)記錄,確保滿足篩選條件的每一數(shù)據(jù) 記錄在所述空間矩陣中能夠被均勻的被訪問到,且每一空間點(diǎn)的數(shù)據(jù)記 錄能夠以相同的幾率被選中。
在其中的一個(gè)實(shí)施例中,所述第 一數(shù)據(jù)項(xiàng)和/或第二數(shù)據(jù)項(xiàng)和/或第 三數(shù)據(jù)項(xiàng)為數(shù)值數(shù)據(jù)項(xiàng),若數(shù)據(jù)項(xiàng)為離散數(shù)值型數(shù)據(jù)項(xiàng),則該數(shù)據(jù)項(xiàng)直
接作為空間坐標(biāo);
若數(shù)據(jù)項(xiàng)為連續(xù)數(shù)值型數(shù)據(jù)項(xiàng),則將該連續(xù)值在備選庫的取值范圍
分為N等分(其中N的取值可以根據(jù)實(shí)際的需要而定),將連續(xù)值轉(zhuǎn)換 為分段的離散值作為空間坐標(biāo)。
在其中的一個(gè)實(shí)施例中,所述空間矩陣可以是稀疏空間矩陣,將不 滿足篩選條件的空間點(diǎn)設(shè)為零,從而可減少在隨機(jī)分布控制中的數(shù)據(jù)處 理量,減少訪問時(shí)間,可以提高數(shù)據(jù)篩選的效率。
步驟S140,對(duì)于步驟S130中執(zhí)行隨機(jī)控制時(shí)隨機(jī)訪問的每一條記 錄,根據(jù)第二數(shù)據(jù)項(xiàng)的內(nèi)容對(duì)該數(shù)據(jù)執(zhí)行集中度控制,以控制該數(shù)據(jù)記 錄的第三數(shù)據(jù)項(xiàng)的內(nèi)容在目標(biāo)數(shù)據(jù)庫中的比例,若第三數(shù)據(jù)項(xiàng)的內(nèi)容達(dá) 到比例要求,則舍棄該數(shù)據(jù)記錄(步驟S170),并返回步驟S130,繼續(xù) 隨機(jī)篩選下一條數(shù)據(jù)記錄;否則執(zhí)行步驟S150。
例如,對(duì)于所述的成績查詢,隨機(jī)篩選篩選出內(nèi)容如下的數(shù)據(jù)記錄 姓名AAA; 班級(jí)97級(jí); 專業(yè)物理專業(yè) 四級(jí)成績91;
若第二數(shù)據(jù)項(xiàng)為專業(yè),第三lt據(jù)項(xiàng)為四級(jí)成績,目標(biāo)數(shù)據(jù)庫要求物 理專業(yè)的四級(jí)成績大于90分的占全部目標(biāo)數(shù)據(jù)庫總?cè)藬?shù)中的百分之一, 若目標(biāo)數(shù)據(jù)庫中為500人,則該步驟需要控制人數(shù)為5個(gè);在該步驟中, 需要判斷物理專業(yè)人數(shù)在已經(jīng)篩選出的記錄中的個(gè)數(shù)加上本記錄是否 超過5個(gè),若超過,則舍棄該數(shù)據(jù)記錄,返回步驟S130,否則,執(zhí)行 步驟S150;對(duì)于第二數(shù)據(jù)項(xiàng)為其它的內(nèi)容,例如數(shù)學(xué)專業(yè),化學(xué)專業(yè)等,根據(jù)相應(yīng)的比例要求執(zhí)行該步驟。又如,對(duì)于所述的滿足證券化要求的貨款記錄查詢,隨機(jī)篩選篩選出的貨款記錄如下貨款金額¥25萬元; 貨款期限10年; 剩余期限5年; 利率 5.17%; 擔(dān)保方式抵押;其中,第二數(shù)據(jù)項(xiàng)為擔(dān)保方式,第三數(shù)據(jù)項(xiàng)為貨款金額;篩選要求 目標(biāo)數(shù)據(jù)庫中貨款金額總額為1000萬元,其中擔(dān)保方式為抵押的貨款 金額占全部總額的百分之十,即100萬元;本步驟中,需要判斷該貨款 記錄的貨款金額加上已經(jīng)篩選出的滿足要求的擔(dān)保方式為抵押的貨款 記錄是否達(dá)到100萬元,若已經(jīng)達(dá)到,則舍棄該數(shù)據(jù)記錄,返回步驟 S130;否則,執(zhí)行步驟S150。對(duì)于其它擔(dān)保方式的貨款記錄的貨款金 額,按照目標(biāo)數(shù)據(jù)庫所需要的比例執(zhí)行本步驟的集中度控制。步驟S150,判斷該數(shù)據(jù)記錄的第三數(shù)據(jù)項(xiàng)內(nèi)容是否滿足匹配條件, 若是,將該數(shù)據(jù)記錄移入目標(biāo)數(shù)據(jù)庫(步驟S160);否則,則舍棄該數(shù) 據(jù)記錄(步驟S170)返回至步驟S130。其中,所述的匹配條件為需要篩選出的目標(biāo)數(shù)據(jù)庫的某一數(shù)據(jù)項(xiàng)所 需要滿足的條件。例如對(duì)于所述的成績查詢大于85分的需要500人, 即為匹配條件。對(duì)于滿足隨機(jī)分布控制和集中度控制的數(shù)據(jù)記錄,判斷 成績大于85分的成績記錄是否小于了 500人,若是,將該數(shù)據(jù)記錄移 入目標(biāo)數(shù)據(jù)庫;否則,舍棄該數(shù)據(jù)記錄,返回步驟S130。又如,對(duì)于所述的滿足證券化要求的貨款記錄查詢,全部的貨款記 錄的貨款金額之和總額為1000萬元,所述的總額小于1000萬即為匹配 條件。對(duì)于滿足隨機(jī)分布控制和集中度控制的數(shù)據(jù)記錄,判斷目標(biāo)數(shù)據(jù) 庫中已有的貨款記錄加上該貨款記錄的貨款金額總額是否小于IOOO萬, 若是,則將該數(shù)據(jù)記錄移入目標(biāo)數(shù)據(jù)庫;否則,舍棄該數(shù)據(jù)記錄,返回步驟S130。所述的數(shù)據(jù)篩選的方法中,首先通過預(yù)篩選剔除不滿足要求的數(shù)據(jù) 記錄,減少篩選時(shí)的數(shù)據(jù)處理量,接著,根據(jù)篩選條件生成篩選查詢語 句執(zhí)行數(shù)據(jù)篩選,利用數(shù)據(jù)庫的并行處理能力,批量處理數(shù)據(jù)記錄,減 少循環(huán)處理的過程開銷,減少篩選時(shí)間,提高數(shù)據(jù)處理的效率。然后執(zhí) 行隨機(jī)分布控制和集中度控制,保證篩選的隨機(jī)性并對(duì)篩選的結(jié)果進(jìn)行 結(jié)構(gòu)性控制,使得篩選出的目標(biāo)數(shù)據(jù)庫的數(shù)據(jù)記錄滿足比例要求。圖2為本發(fā)明的數(shù)據(jù)篩選的方法的第二實(shí)施例的流程圖。請(qǐng)參考圖2,步驟S200,執(zhí)行預(yù)篩選,從待選數(shù)據(jù)庫中剔除不滿足 篩選要求的數(shù)據(jù)記錄,形成預(yù)選庫。其中,所述待選數(shù)據(jù)庫包含有第一數(shù)據(jù)項(xiàng)、第二數(shù)據(jù)項(xiàng)和第三數(shù)據(jù) 項(xiàng)的數(shù)據(jù)庫中的數(shù)據(jù)記錄的篩選。所述第一數(shù)據(jù)項(xiàng)和第二數(shù)據(jù)項(xiàng)可以為同一的數(shù)據(jù)項(xiàng);或第二數(shù)據(jù)項(xiàng) 和第三數(shù)據(jù)項(xiàng)為同 一的數(shù)據(jù)項(xiàng);或第一數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)為同 一數(shù)據(jù) 項(xiàng);或第一數(shù)據(jù)項(xiàng)、第二數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)為同一數(shù)據(jù)項(xiàng);或者第一 數(shù)據(jù)項(xiàng)、第二數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)均為不同的數(shù)據(jù)項(xiàng);所述第 一數(shù)據(jù)項(xiàng)和/或第二數(shù)據(jù)項(xiàng)和/或第三數(shù)據(jù)項(xiàng)可以為數(shù)值數(shù)據(jù)項(xiàng)。在其中的一個(gè)實(shí)施例中,在待篩選數(shù)據(jù)庫中按照黑列表的方式,根 據(jù)關(guān)鍵字剔除不滿足篩選要求的數(shù)據(jù)記錄。步驟S210,根據(jù)篩選條件生成數(shù)據(jù)庫查詢語句,利用所述查詢語 句由所述備選庫中篩選出滿足篩選條件的數(shù)據(jù)記錄,形成備選庫。步驟S220,在所述備選數(shù)據(jù)庫中提取用于隨機(jī)分布控制的第一數(shù) 據(jù)項(xiàng)的內(nèi)容和用于集中度控制的第二數(shù)據(jù)項(xiàng)的內(nèi)容。步驟S230,根據(jù)第一數(shù)據(jù)項(xiàng)內(nèi)容執(zhí)行隨機(jī)分布控制,隨機(jī)訪問所 述備選庫中的數(shù)據(jù)記錄。步驟S240,對(duì)于每一條記錄,判斷該數(shù)據(jù)記錄的第三數(shù)據(jù)項(xiàng)內(nèi)容 是否滿足匹配條件,若是,寺丸行步驟S250;否則,舍棄該數(shù)據(jù)記錄(步驟S270),返回至步驟S230。步驟S250,根據(jù)第二數(shù)據(jù)項(xiàng)內(nèi)容對(duì)該數(shù)據(jù)記錄進(jìn)行集中度控制, 以控制該數(shù)據(jù)記錄的第三數(shù)據(jù)項(xiàng)內(nèi)容在目標(biāo)數(shù)據(jù)庫中的比例,若所述第 三數(shù)據(jù)項(xiàng)內(nèi)容達(dá)到比例要求,則舍棄該數(shù)據(jù)記錄(步驟S270),返回步 驟S230,,否則,將該數(shù)據(jù)記錄移入目標(biāo)數(shù)據(jù)庫(步驟S260)。本發(fā)明還提供一種數(shù)據(jù)處理裝置,用于對(duì)至少包含有第一數(shù)據(jù)項(xiàng)、 第二數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)的數(shù)據(jù)庫中的數(shù)據(jù)記錄的篩選。圖3為本發(fā)明 的數(shù)據(jù)處理裝置的實(shí)施例的框圖。請(qǐng)參考圖3,該數(shù)據(jù)處理裝置包括用于從待選數(shù)據(jù)庫中剔除不滿足篩選要求的數(shù)據(jù)記錄、形成預(yù)選庫 的預(yù)處理裝置10;根據(jù)篩選條件生成數(shù)據(jù)庫查詢語句、利用所述查詢語句從預(yù)選庫中 篩選出滿足篩選條件的數(shù)據(jù)記錄、形成備選庫的篩選器12;在所述備選庫中提取用于隨機(jī)分布控制的第 一數(shù)據(jù)項(xiàng)的內(nèi)容和集 中度控制的第二數(shù)據(jù)項(xiàng)的內(nèi)容的數(shù)據(jù)項(xiàng)提取裝置14;用于根據(jù)第 一數(shù)據(jù)項(xiàng)內(nèi)容執(zhí)行隨機(jī)分布控制、以隨機(jī)訪問所述備選 庫中的數(shù)據(jù)記錄隨機(jī)分布控制控制器16;根據(jù)第二數(shù)據(jù)項(xiàng)內(nèi)容對(duì)該數(shù)據(jù)記錄進(jìn)行集中度控制,以控制該數(shù)據(jù) 記錄的第三數(shù)據(jù)項(xiàng)內(nèi)容在目標(biāo)數(shù)據(jù)庫中的比例的集中度控制器18;用于判斷該數(shù)據(jù)記錄的第三數(shù)據(jù)項(xiàng)內(nèi)容是否滿足匹配條件以及是 否滿足集中度控制要求的判斷裝置20。在其中的一個(gè)實(shí)施例中,所述集中度控制器包括用于將所述備選 庫中的數(shù)據(jù)記錄導(dǎo)入以數(shù)據(jù)項(xiàng)為分布維度的空間矩陣中的導(dǎo)入單元 18a;和用于通過均勻隨機(jī)函數(shù)均勻的訪問所述空間距陣中的數(shù)據(jù)記錄 的訪問單元18b;請(qǐng)參考圖4利用圖3所示數(shù)據(jù)篩選裝置,預(yù)處理裝置接受待處理的數(shù)據(jù)庫,執(zhí) 行數(shù)據(jù)篩選的預(yù)處理,剔除不滿足要求的數(shù)據(jù)記錄,滿足要求的數(shù)據(jù)記 錄生成預(yù)選庫;接著,通過所述篩選器執(zhí)行數(shù)據(jù)篩選,形成備選庫;通 過所述數(shù)據(jù)項(xiàng)提取裝置在所述備選庫中提取用于隨機(jī)分布的第 一數(shù)據(jù)項(xiàng)內(nèi)容和用于集中度控制的第二數(shù)據(jù)項(xiàng)的內(nèi)容,并通過隨機(jī)分布控制器 隨機(jī)篩選數(shù)據(jù)記錄,通過集中度控制器對(duì)于篩選的數(shù)據(jù)記錄執(zhí)行集中度 控制,通過判斷裝置判斷該數(shù)據(jù)記錄是否滿足集中度控制要求和匹配要 求,若是,將該數(shù)據(jù)記錄移入目標(biāo)數(shù)據(jù)庫。通過所述實(shí)施例的數(shù)據(jù)篩選裝置l丸行數(shù)據(jù)篩選,可減少篩選時(shí)的數(shù)據(jù)處理量、減少數(shù)據(jù)處理時(shí)間、提高效率;且保證篩選的隨機(jī)性并對(duì)篩 選的結(jié)果進(jìn)行結(jié)構(gòu)性控制,使得篩選出的目標(biāo)數(shù)據(jù)庫的數(shù)據(jù)記錄滿足比 例要求。本發(fā)明還提高一種證券化貨款篩選的方法,圖5為所述的證券化貨 款篩選的方法的實(shí)施例的流程圖。請(qǐng)參考圖5,步驟S300,執(zhí)行預(yù)篩選,從待選貨款記錄集合中剔除 不滿足篩選要求的記錄,滿足要求的貨款記錄形成預(yù)選庫。在篩選正式進(jìn)行之前,在待篩選數(shù)據(jù)庫上按照黑列表的方式,根據(jù) 貨款記錄的貨款指標(biāo)關(guān)鍵字批量剔出不滿足篩選要求的數(shù)據(jù),例如/人待篩選數(shù)據(jù)庫中剔除處于轉(zhuǎn)讓狀態(tài)的貨;從待篩選數(shù)據(jù)庫中剔除被其他備選庫選中的貨款,該貨款可以是被 選中、鎖定或待入庫的貨款;從待篩選列表中剔除被指定在刪除列表中的貨款。其中,所述貨款指標(biāo)包括貨款金額、貨款合同期限、剩余期限、利 率和/或擔(dān)保方式步驟S310,才艮據(jù)篩選條件生成數(shù)據(jù)庫查詢語句,利用所述查詢語 句篩選出滿足篩選條件的貨款記錄,形成備選庫。根據(jù)用戶輸入的篩選條件生成數(shù)據(jù)庫的查詢語句,將待篩選列表中 沒有被剔除或沒有剔除標(biāo)記的貨款,標(biāo)記為"可選,,貨款,形成備選庫。步驟S320,在所述備選庫中提取用于隨機(jī)分布控制的貨款指標(biāo)的 內(nèi)容和用于集中度控制的貨款指標(biāo)的內(nèi)容。根據(jù)備選庫中貨款記錄的貨款指標(biāo)關(guān)鍵字,從貨款數(shù)據(jù)表中提取供 隨機(jī)分布和集中度控制所需的數(shù)據(jù)項(xiàng)內(nèi)容,放入隨機(jī)分布控制矩陣和集中度控制矩陣。步驟S330,根據(jù)隨機(jī)分布控制貨款指標(biāo)的內(nèi)容執(zhí)行隨機(jī)分布控制, 隨機(jī)訪問所述備選庫中的貨款記錄。直接基于數(shù)據(jù)庫的批量篩選過程所挑選出的貨款,在從數(shù)據(jù)庫中被 讀取時(shí)具有很強(qiáng)的排列順序性,使得最終的貨款數(shù)據(jù)在某些指標(biāo)方面高度集中。隨機(jī)分布控制是為了保證某一貨款指標(biāo)的不同內(nèi)容的貨款能夠 均勻的被獲取,而不僅是在符合條件的貨款中隨意地挑選。隨機(jī)分布控制是根據(jù)貨款記錄的某一貨款指標(biāo),將貨款記錄歸類為N維(貨款指標(biāo)的個(gè)數(shù)即為維數(shù))空間中的點(diǎn),每個(gè)點(diǎn)中記錄屬于該點(diǎn)的 貨款記錄的該貨款指標(biāo)。通過均勻隨機(jī)分布,均勻得訪問空間點(diǎn)和該點(diǎn) 中的貨款指標(biāo)內(nèi)容,確保符合條件的貨款可以在預(yù)先定義的維度空間上 被均勻化的訪問到,并且每個(gè)空間中的貨款記錄可以隨機(jī)的被選中。貨款記錄上的每個(gè)貨款指標(biāo)都可以作為分布維度。該指標(biāo)內(nèi)容若是 數(shù)值型,分為兩種類型,離散值和連續(xù)值,離散值直接作為空間點(diǎn)的坐標(biāo),而連續(xù)值則采取貨款記錄樣本中連續(xù)值的取值范圍分為10份,將連續(xù)的值轉(zhuǎn)為分段后的離散值作為空間點(diǎn)的坐標(biāo),這樣每筆貨款記錄就可以落入N維空間的離散點(diǎn)上。如果采取每個(gè)維度維值的笛卡爾集形成選取空間,那么可能存在大 量的維值組合不存在對(duì)應(yīng)的貨款記錄,這樣會(huì)浪費(fèi)大量的訪問時(shí)間。因 此本實(shí)施例中建立稀疏的空間矩陣,從已有貨款記錄的角度創(chuàng)建并記錄 該貨款所對(duì)應(yīng)的空間坐標(biāo)。步驟S340,對(duì)于隨機(jī)訪問的每一條記錄,根據(jù)集中度控制貨款指 標(biāo)的內(nèi)容進(jìn)行集中度控制,以控制該內(nèi)容的貨款記錄的貨款金額在用于 證券化的目標(biāo)貨款金額中的比例,若貨款金額達(dá)到或超過比例要求,貝'J 舍棄該貨款記錄(步驟S370 ),并返回步驟S330;否則執(zhí)行步驟S350。被隨機(jī)分布選中的貨款已經(jīng)是符合篩選條件的貨款,但是還需要通 過集中度控制,以達(dá)到對(duì)篩選結(jié)果的結(jié)構(gòu)性控制。在經(jīng)過隨機(jī)分布控制和集中度控制后,在待篩選列表的符合條件的 貨款記錄上標(biāo)記為"選中"。步驟S350,判斷目標(biāo)貨款記錄庫中所有貨款記錄的貨款金額總和與該貨款記錄的貨款金額之和是否小于目標(biāo)貨款金額,若是,,該貨款記錄移入目標(biāo)貨款記錄庫(步驟S360);否則,返回步驟S330;利用本實(shí)施例的方法,在對(duì)貨款記錄進(jìn)行篩選時(shí),采用排他法,先排 除不可選中的數(shù)據(jù),然后挑選符合條件的記錄,降低處理過程中的數(shù)據(jù) 量;批量處理數(shù)據(jù)記錄,而不是逐條選擇記錄,減少循環(huán)處理的過程開 銷,數(shù)據(jù)處理量小,占用的硬件資源較少,可減少篩選時(shí)間,提高篩選 的效率。通常情況下挑出每一筆貨款數(shù)據(jù),然后逐項(xiàng)判斷是否符合要求,在 與本實(shí)施例方案相同的設(shè)備環(huán)境下,10萬筆貨款的挑選時(shí)間需要5000秒 以上。但應(yīng)用本實(shí)施例10萬筆貨款的挑選時(shí)間為100秒左右。此外,利用本實(shí)施例的方法,可保證滿某一貨款指標(biāo)的所有內(nèi)容的 貨款能夠均勻且隨機(jī)地被獲取,而不僅是在符合條件的貨款中隨意地挑 選。此外,應(yīng)用本實(shí)施例的方法可以對(duì)篩選結(jié)果中具有某一貨款指標(biāo)的 貨款余額進(jìn)行結(jié)構(gòu)性控制。保證該貨款指標(biāo)下的不同內(nèi)容的貨款金額占 有的比例滿足風(fēng)險(xiǎn)控制的要求。本發(fā)明還提供一種證券化貨款的篩選裝置,圖6所述的證券化貨款 的篩選裝置的實(shí)施例的框圖。請(qǐng)參考圖6,該裝置包括用于從待選貨款記錄集合中剔除不滿足篩選要求的記錄、形成預(yù)選 庫預(yù)處理裝置100;根據(jù)篩選條件生成數(shù)據(jù)庫查詢語句、利用所述查詢語句篩選出滿足 篩選條件的貨款記錄形成備選庫的篩選器120;在所述備選庫中提取用于隨機(jī)分布控制的貨款指標(biāo)的內(nèi)容和用于 集中度控制的貨款指標(biāo)的內(nèi)容的貨款指標(biāo)提取裝置140;根據(jù)隨機(jī)分布控制貨款指標(biāo)的內(nèi)容執(zhí)行隨機(jī)分布控制、隨機(jī)訪問所 述備選庫中的貨款記錄的隨機(jī)分布控制器160;對(duì)于隨機(jī)訪問的每一條記錄,根據(jù)集中度控制貨款指標(biāo)的內(nèi)容進(jìn)行 集中度控制,以控制該內(nèi)容的貨款記錄的貨款金額在用于證券化的目標(biāo)貨款金額中的比例的集中度控制器180;判斷目標(biāo)貨款記錄庫中.所有貨款記錄的貨款金額總和與該貨款記 錄的貨款金額之和是否小于目標(biāo)貨款金額、判斷該貨款記錄的貨款金額是否滿足集中度控制要求的判斷裝置200;其中,所述貨款指標(biāo)包括貨款金額、貨款合同期限、剩余期限、利 率和/或擔(dān)保方式。應(yīng)用本實(shí)施例的裝置,在對(duì)貨款記錄進(jìn)行篩選時(shí),可降低處理過程中 的數(shù)據(jù)量,減少篩選時(shí)間,提高篩選的效率。本發(fā)明雖然以較佳實(shí)施例公開如上,但其并不是用來限定本發(fā)明, 任何本領(lǐng)域技術(shù)人員在不脫離本發(fā)明的精神和范圍內(nèi),都可以做出可能 的變動(dòng)和修改,因此本發(fā)明的保護(hù)范圍應(yīng)當(dāng)以本發(fā)明權(quán)利要求所界定的 范圍為準(zhǔn)。
權(quán)利要求
1、一種數(shù)據(jù)篩選的方法,應(yīng)用于至少包含有第一數(shù)據(jù)項(xiàng)、第二數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)的數(shù)據(jù)庫中的數(shù)據(jù)記錄的篩選,其特征在于,包括A1執(zhí)行預(yù)篩選,從待選數(shù)據(jù)庫中剔除不滿足篩選要求的數(shù)據(jù)記錄,滿足要求的數(shù)據(jù)記錄形成預(yù)選庫;A2根據(jù)篩選條件生成數(shù)據(jù)庫查詢語句,利用所述查詢語句由所述預(yù)選庫中篩選出滿足篩選條件的數(shù)據(jù)記錄,形成備選庫;A3在所述備選庫中提取用于隨機(jī)分布控制的第一數(shù)據(jù)項(xiàng)的內(nèi)容和用于集中度控制的第二數(shù)據(jù)項(xiàng)的內(nèi)容;A4根據(jù)第一數(shù)據(jù)項(xiàng)內(nèi)容執(zhí)行隨機(jī)分布控制,隨機(jī)訪問所述備選庫中的數(shù)據(jù)記錄;對(duì)于隨機(jī)訪問的每一條數(shù)據(jù)記錄,根據(jù)第二數(shù)據(jù)項(xiàng)內(nèi)容對(duì)該數(shù)據(jù)記錄進(jìn)行集中度控制,以控制該數(shù)據(jù)記錄的第三數(shù)據(jù)項(xiàng)內(nèi)容在目標(biāo)數(shù)據(jù)庫中的比例,若所述第三數(shù)據(jù)項(xiàng)內(nèi)容達(dá)到比例要求,則舍棄該數(shù)據(jù)記錄;否則,執(zhí)行步驟A5;A5判斷該數(shù)據(jù)記錄的第三數(shù)據(jù)項(xiàng)內(nèi)容是否滿足匹配條件,若是,將該數(shù)據(jù)記錄移入目標(biāo)數(shù)據(jù)庫,否則,返回至步驟A4。
2、 如權(quán)利要求1所述的數(shù)據(jù)篩選的方法,其特征在于 所述第一數(shù)據(jù)項(xiàng)和第二數(shù)據(jù)項(xiàng)為同一的數(shù)據(jù)項(xiàng);或 第二數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)為同一的數(shù)據(jù)項(xiàng);或 第一數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)為同一數(shù)據(jù)項(xiàng);或 第一數(shù)據(jù)項(xiàng)、第二數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)為同一數(shù)據(jù)項(xiàng)。
3、 如權(quán)利要求1所述的數(shù)據(jù)篩選的方法,其特征在于所述第一 數(shù)據(jù)項(xiàng)和/或第二數(shù)據(jù)項(xiàng)和/或第三數(shù)據(jù)項(xiàng)為數(shù)值數(shù)據(jù)項(xiàng)。
4、 如權(quán)利要求1所述的數(shù)據(jù)篩選的方法,其特征在于在待篩選 數(shù)據(jù)庫中按照黑列表的方式,根據(jù)關(guān)鍵字剔除不滿足篩選要求的數(shù)據(jù)記 錄。
5、 如權(quán)利要求1所述的數(shù)據(jù)篩選的方法,其特征在于,執(zhí)行隨機(jī) 分布控制的步驟如下將所述備選庫中的數(shù)據(jù)記錄導(dǎo)入以數(shù)據(jù)項(xiàng)為分布維度的空間矩陣中;.通過均勻隨^/l函數(shù)均勻的訪問所述空間距陣中的婆:據(jù)記錄。
6、 如權(quán)利要求5所述的數(shù)據(jù)篩選的方法,其特征在于所述空間 距陣為稀疏的空間距陣。
7、 如權(quán)利要求5所述的數(shù)據(jù)篩選的方法,其特征在于若數(shù)據(jù)項(xiàng) 為離散數(shù)值型數(shù)據(jù)項(xiàng),則該數(shù)據(jù)項(xiàng)直接作為空間坐標(biāo);若數(shù)據(jù)項(xiàng)為連續(xù)數(shù)值型數(shù)據(jù)項(xiàng),則將該連續(xù)值在備選庫的取值范圍 分為N等分,將連續(xù)值轉(zhuǎn)換為分^&的離散值作為空間坐標(biāo)。
8、 一種數(shù)據(jù)篩選的方法,應(yīng)用于至少包含有第一數(shù)據(jù)項(xiàng)、第二數(shù) 據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)的數(shù)據(jù)庫中的數(shù)據(jù)記錄的篩選,其特征在于,包括All執(zhí)行預(yù)篩選,從待選數(shù)據(jù)庫中剔除不滿足篩選要求的數(shù)據(jù)記 錄,形成預(yù)選庫;A21根據(jù)篩選條件生成數(shù)據(jù)庫查詢語句,利用所述查詢語句由所述 預(yù)選庫中篩選出滿足篩選條件的數(shù)據(jù)記錄,形成備選庫;A31在所述備選數(shù)據(jù)庫中提取用于隨機(jī)分布控制的第一數(shù)據(jù)項(xiàng)的 內(nèi)容和用于集中度控制的第二數(shù)據(jù)項(xiàng)的內(nèi)容;A41根據(jù)第 一數(shù)據(jù)項(xiàng)內(nèi)容執(zhí)行隨機(jī)分布控制,隨機(jī)訪問所述備選庫 中的數(shù)據(jù)記錄;A51對(duì)于每一條數(shù)據(jù)記錄,判斷該數(shù)據(jù)記錄的第三數(shù)據(jù)項(xiàng)內(nèi)容是否 滿足匹配條件,若是,執(zhí)行步驟A61;否則,舍棄該數(shù)據(jù)記錄,返回至 步驟A41;A61根據(jù)第二數(shù)據(jù)項(xiàng)內(nèi)容對(duì)該數(shù)據(jù)記錄進(jìn)行集中度控制,以控制該 數(shù)據(jù)記錄的第三數(shù)據(jù)項(xiàng)內(nèi)容在目標(biāo)數(shù)據(jù)庫中的比例,若所述第三數(shù)據(jù)項(xiàng) 內(nèi)容達(dá)到比例要求,則舍棄該數(shù)據(jù)記錄,返回步驟A41,否則,將該數(shù) 據(jù)記錄移入目標(biāo)數(shù)據(jù)庫。
9、 如權(quán)利要求8所述的數(shù)據(jù)篩選的方法,其特征在于 所述第一數(shù)據(jù)項(xiàng)和第二數(shù)據(jù)項(xiàng)為同一的數(shù)據(jù)項(xiàng);或第二數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)為同一的數(shù)據(jù)項(xiàng);或 第一數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)為同一數(shù)據(jù)項(xiàng);或 第一數(shù)據(jù)項(xiàng)、第二數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)為同一數(shù)據(jù)項(xiàng)。
10、 如權(quán)利要求8所述的數(shù)據(jù)篩選的方法,其特征在于所述第一 數(shù)據(jù)項(xiàng)和/或第二數(shù)據(jù)項(xiàng)和/或第三數(shù)據(jù)項(xiàng)為數(shù)值數(shù)據(jù)項(xiàng)。
11、 如權(quán)利要求8所述的數(shù)據(jù)篩選的方法,其特征在于在待篩選 數(shù)據(jù)庫中按照黑列表的方式,根據(jù)關(guān)鍵字剔除不滿足篩選要求的數(shù)據(jù)記錄。
12、 一種數(shù)據(jù)篩選裝置,用于對(duì)至少包含有第一數(shù)據(jù)項(xiàng)、第二數(shù)據(jù) 項(xiàng)和第三數(shù)據(jù)項(xiàng)的數(shù)據(jù)庫中的數(shù)據(jù)記錄的篩選,其特征在于,包括用于從待選數(shù)據(jù)庫中剔除不滿足篩選要求的數(shù)據(jù)記錄、形成預(yù)選庫 的預(yù)處理裝置;才艮據(jù)篩選條件生成翁:據(jù)庫查詢語句、利用所述查詢語句由所述預(yù)選 庫中篩選出滿足篩選條件的數(shù)據(jù)記錄、形成備選庫的篩選器;在所述備選庫中提取用于隨機(jī)分布控制的第 一數(shù)據(jù)項(xiàng)的內(nèi)容和用 于集中度控制的第二數(shù)據(jù)項(xiàng)的內(nèi)容的數(shù)據(jù)項(xiàng)提取裝置;用于根據(jù)第 一數(shù)據(jù)項(xiàng)內(nèi)容執(zhí)行隨機(jī)分布控制、以隨機(jī)訪問所述備選 庫中的數(shù)據(jù)記錄隨機(jī)分布控制控制器;根據(jù)第二數(shù)據(jù)項(xiàng)內(nèi)容對(duì)該數(shù)據(jù)記錄進(jìn)行集中度控制,以控制該數(shù)據(jù) 記錄的第三數(shù)據(jù)項(xiàng)內(nèi)容在目標(biāo)數(shù)據(jù)庫中的比例的集中度控制器;用于判斷該數(shù)據(jù)記錄的第三數(shù)據(jù)項(xiàng)內(nèi)容是否滿足匹配條件以及是 否滿足集中度控制的比例要求的判斷裝置。
13、 如權(quán)利要求12所述的數(shù)據(jù)篩選裝置,其特征在于,所述集中 度控制器包括用于將所述備選庫中的數(shù)據(jù)記錄導(dǎo)入以數(shù)據(jù)項(xiàng)為分布維 度的空間矩陣中的導(dǎo)入單元;和訪問單元。
14、 一種證券化貨款篩選的方法,用于從貨款記錄集合中篩選出滿足證券化的貨款記錄,其特征在于,包括Bl執(zhí)行預(yù)篩選,從待選貨款記錄集合中剔除不滿足篩選要求的記 錄,滿足要求的貨款記錄形成預(yù)選庫;B2才艮據(jù)篩選條件生成數(shù)據(jù)庫查詢語句,利用所述查詢語句由所述 預(yù)選庫中篩選出滿足篩選條件的貨款記錄,形成備選庫;B3在所述備選庫中提取用于隨機(jī)分布控制的貨款指標(biāo)的內(nèi)容和用 于集中度控制的貨款指標(biāo)的內(nèi)容;B4根據(jù)隨機(jī)分布控制貨款指標(biāo)的內(nèi)容執(zhí)行隨機(jī)分布控制,隨機(jī)訪 問所述備選庫中的貨款記錄;對(duì)于隨機(jī)訪問的每一條記錄,根據(jù)集中度 控制貨款指標(biāo)的內(nèi)容進(jìn)行集中度控制,以控制該內(nèi)容的貨款記錄的貨款 金額在用于證券化的目標(biāo)貨款金額中的比例,若貨款金額達(dá)到或超過比 例要求,則舍棄該貨款記錄,并返回步驟B4;否則執(zhí)行步驟B5;B5判斷目標(biāo)貨款記錄庫中已有貨款記錄的貨款金額總和與該 該貨款記錄的貨款金額之和是否小于目標(biāo)貨款金額,若是,將該貨款記 錄移入目標(biāo)貨款記錄庫;否則,則舍棄該貨款記錄,返回步驟B4;其中,所述貨款指標(biāo)包括貨款金額、貨款合同期限、剩余期限、利 率和/或擔(dān)保方式。
15、 一種證券化貨款篩選裝置,用于從貨款記錄集合中篩選出滿足 證券化的貨款記錄,其特征在于,包括用于從待選貨款記錄集合中剔除不滿足篩選要求的記錄、形成預(yù)選 庫預(yù)處理裝置;才艮據(jù)篩選條件生成數(shù)據(jù)庫查詢語句、利用所述查詢語句由所述預(yù)選 庫中篩選出滿足篩選條件的貨款記錄、形成備選庫的篩選器;在所述備選庫中提取用于隨機(jī)分布控制的貨款指標(biāo)的內(nèi)容和用于 集中度控制的貨款指標(biāo)的內(nèi)容的貨款指標(biāo)提取裝置;根據(jù)隨機(jī)分布控制貨款指標(biāo)的內(nèi)容執(zhí)行隨機(jī)分布控制、隨機(jī)訪問所 述備選庫中的貨款記錄的隨機(jī)分布控制器;對(duì)于隨機(jī)訪問的每一條記錄,根據(jù)集中度控制貨款指標(biāo)的內(nèi)容進(jìn)行 集中度控制,以控制該內(nèi)容的貨款記錄的貨輯金額在用于證券化的目標(biāo)貨款金額中的比例的集中度控制器;判斷目標(biāo)貨款記錄庫中已有貨款記錄的貨款金額總和與該貨款記 錄的貨款金額之和是否小于目標(biāo)貨款金額、判斷該貨款記錄的貨款金額是否滿足集中度控制要求的判斷裝置;其中,所述貨款指標(biāo)包括貨款金額、貨款合同期限、剩余期限、利 率和/或擔(dān)保方式。
全文摘要
一種數(shù)據(jù)篩選的方法,應(yīng)用于至少包含有第一數(shù)據(jù)項(xiàng)、第二數(shù)據(jù)項(xiàng)和第三數(shù)據(jù)項(xiàng)的數(shù)據(jù)庫中的數(shù)據(jù)記錄的篩選,包括執(zhí)行預(yù)篩選,剔除不滿足篩選要求的數(shù)據(jù)記錄,形成預(yù)選庫;由所述預(yù)選庫中篩選出滿足篩選條件的數(shù)據(jù)記錄,形成備選庫;提取用于隨機(jī)分布控制的第一數(shù)據(jù)項(xiàng)的內(nèi)容和用于集中度控制的第二數(shù)據(jù)項(xiàng)的內(nèi)容;根據(jù)第一數(shù)據(jù)項(xiàng)內(nèi)容執(zhí)行隨機(jī)分布控制,隨機(jī)篩選數(shù)據(jù)記錄,然后根據(jù)第二數(shù)據(jù)項(xiàng)內(nèi)容對(duì)該數(shù)據(jù)記錄進(jìn)行集中度控制;若該記錄滿足集中度要求,判斷該數(shù)據(jù)記錄的第三數(shù)據(jù)項(xiàng)內(nèi)容是否滿足匹配條件,若是,將該數(shù)據(jù)記錄移入目標(biāo)數(shù)據(jù)庫。本發(fā)明還提供一種數(shù)據(jù)篩選裝置以及證券化貸款的篩選方法、裝置。本發(fā)明進(jìn)行數(shù)據(jù)篩選時(shí)用時(shí)較少且效率較高。
文檔編號(hào)G06F17/30GK101221578SQ20081000607
公開日2008年7月16日 申請(qǐng)日期2008年2月1日 優(yōu)先權(quán)日2008年2月1日
發(fā)明者孫延凡, 佩 張, 李金波, 東 梁, 王步鋒, 昆 邱, 郭紅軍, 成 霍, 輝 黃, 黃耀奇 申請(qǐng)人:中國建設(shè)銀行股份有限公司