亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種機(jī)器學(xué)習(xí)中避免大數(shù)據(jù)冗余的方法與流程

文檔序號(hào):11143536閱讀:772來源:國知局
一種機(jī)器學(xué)習(xí)中避免大數(shù)據(jù)冗余的方法與制造工藝

本發(fā)明涉及機(jī)器學(xué)習(xí)領(lǐng)域,具體涉及一種機(jī)器學(xué)習(xí)中避免大數(shù)據(jù)冗余的方法。



背景技術(shù):

機(jī)器學(xué)習(xí)是一門讓計(jì)算機(jī)在非精確編程下進(jìn)行活動(dòng)的科學(xué),在過去十年,機(jī)器學(xué)習(xí)促成了無人駕駛車、高效語音識(shí)別、精確網(wǎng)絡(luò)搜索及人類基因組織認(rèn)知的大力發(fā)展。機(jī)器學(xué)習(xí)最基本的做法是采用算法來解析數(shù)據(jù)、從中學(xué)習(xí),然后對(duì)真實(shí)世界中的事件作出決策和預(yù)測(cè),與傳統(tǒng)的為解決特定任務(wù)、硬編碼的軟件程序不同,機(jī)器學(xué)習(xí)是用大量的數(shù)據(jù)來“訓(xùn)練”,通過各種算法從數(shù)據(jù)中學(xué)習(xí)如何完成任務(wù)。傳統(tǒng)算法包括決策樹學(xué)習(xí)、推導(dǎo)邏輯規(guī)劃、聚類、強(qiáng)化學(xué)習(xí)和貝葉斯網(wǎng)絡(luò)等等,眾所周知,我們還沒有實(shí)現(xiàn)強(qiáng)人工智能,早期機(jī)器學(xué)習(xí)方法甚至都無法實(shí)現(xiàn)弱人工智能。

機(jī)器學(xué)習(xí)最常見的一個(gè)應(yīng)用場(chǎng)合就是大數(shù)據(jù)分析,現(xiàn)實(shí)世界中,越來越多的應(yīng)用涉及到海量的數(shù)據(jù),這些大數(shù)據(jù)的屬性包括數(shù)量、速度和多樣性等,都是呈現(xiàn)了大數(shù)據(jù)不斷增長(zhǎng)的復(fù)雜性,所以,大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說是決定最終信息是否有價(jià)值的決定性因素。機(jī)器學(xué)習(xí)是自動(dòng)化流程已經(jīng)大數(shù)據(jù)規(guī)?;治龅闹刂兄兀瑱C(jī)器學(xué)習(xí)對(duì)大數(shù)據(jù)應(yīng)用的貢獻(xiàn)主要體現(xiàn)在兩個(gè)方面:一是促進(jìn)數(shù)據(jù)科學(xué)家門的多產(chǎn)性;二是發(fā)現(xiàn)一些被忽視的方案,有些方案甚至遭到了最好的數(shù)據(jù)科學(xué)家們的忽視,這些價(jià)值來自于機(jī)器學(xué)習(xí)的核心功能:即讓分析算法無需人類干預(yù)和顯式程序即可對(duì)最新數(shù)據(jù)進(jìn)行學(xué)習(xí)。

利用機(jī)器學(xué)習(xí)對(duì)大數(shù)據(jù)進(jìn)行分析確實(shí)是一種非常有效的方式,但是同時(shí)又出現(xiàn)了另一個(gè)問題,即機(jī)器學(xué)習(xí),典型的如支持向量機(jī)和深度學(xué)習(xí)等算法往往包含著極為復(fù)雜和繁瑣的計(jì)算迭代過程,計(jì)算量十分巨大,因此,如果處理的數(shù)據(jù)本身非常巨大,則對(duì)硬件的計(jì)算能力要求非常高。在一些大量圖片的分類任務(wù)中,即便同時(shí)使用大量眾核設(shè)備進(jìn)行加速,也要等待數(shù)天甚至數(shù)月的時(shí)間。針對(duì)這種情況,在滿足精度的要求下,適當(dāng)?shù)乜s減數(shù)據(jù)規(guī)模,不僅是有效的,而且是十分必要的,以提高數(shù)據(jù)處理的邊際效益。

有鑒于此,急需提供一種在滿足精度的要求下,適當(dāng)縮減機(jī)器學(xué)習(xí)中數(shù)據(jù)規(guī)模的方法。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明所要解決的技術(shù)問題是提供一種在滿足精度的要求下,適當(dāng)縮減機(jī)器學(xué)習(xí)中數(shù)據(jù)規(guī)模的方法。

為了解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)方案是提供一種機(jī)器學(xué)習(xí)中避免大數(shù)據(jù)冗余的方法,包括以下步驟:

S1、將訓(xùn)練數(shù)據(jù)按照預(yù)設(shè)規(guī)則均勻劃分為規(guī)模相當(dāng)?shù)娜舾煞荩?/p>

S2、對(duì)每一份數(shù)據(jù)按照預(yù)設(shè)的訓(xùn)練步驟進(jìn)行訓(xùn)練計(jì)算,并繪制出跟隨訓(xùn)練步驟的屬性值曲線;

S3、根據(jù)每份屬性值曲線的相似度,保留相應(yīng)的屬性值曲線對(duì)應(yīng)的數(shù)據(jù)和初步訓(xùn)練結(jié)果;

S4、根據(jù)屬性值曲線的相似度對(duì)保留的數(shù)據(jù)和初步訓(xùn)練結(jié)果進(jìn)行排序,將相鄰的相似度達(dá)到閾值的屬性值曲線對(duì)應(yīng)的數(shù)據(jù)和初步訓(xùn)練結(jié)果分別進(jìn)行加權(quán),返回步驟S2,直至所有訓(xùn)練數(shù)據(jù)合并為一個(gè)數(shù)據(jù),并得到最終的訓(xùn)練結(jié)果。

在上述技術(shù)方案中,當(dāng)所述訓(xùn)練數(shù)據(jù)采用空間數(shù)據(jù)時(shí),所述預(yù)設(shè)規(guī)則為:按照空間坐標(biāo)信息將所述空間數(shù)據(jù)均勻劃分為規(guī)模相當(dāng)?shù)娜舾煞荨?/p>

在上述技術(shù)方案中,所述屬性值曲線為精度曲線或誤差曲線。

在上述技術(shù)方案中,步驟S3具體為:

比較每份屬性值曲線的相似度,判斷相似度是否達(dá)到閾值;

若相似度達(dá)到閾值,則隨機(jī)保留其中一份屬性值曲線對(duì)應(yīng)的數(shù)據(jù)和初步訓(xùn)練結(jié)果;若相似度未達(dá)到閾值,則保留所有屬性值曲線對(duì)應(yīng)的數(shù)據(jù)和初步訓(xùn)練結(jié)果。

在上述技術(shù)方案中,所述相似度的閾值上限為95%,所述相似度的閾值下限為99%。

本發(fā)明根據(jù)每份屬性值曲線的相似度,保留相應(yīng)的屬性值曲線對(duì)應(yīng)的數(shù)據(jù)和初步訓(xùn)練結(jié)果,并根據(jù)屬性值曲線的相似度對(duì)保留的數(shù)據(jù)和初步訓(xùn)練結(jié)果進(jìn)行排序,將相鄰的相似度達(dá)到閾值的屬性值曲線對(duì)應(yīng)的數(shù)據(jù)和初步訓(xùn)練結(jié)果分別進(jìn)行加權(quán),直至所有訓(xùn)練數(shù)據(jù)合并為一個(gè)數(shù)據(jù),并得到最終的訓(xùn)練結(jié)果,操作簡(jiǎn)單,易于實(shí)現(xiàn),并行度較高,極大的減小了計(jì)算量,提高了計(jì)算效率。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明中一種機(jī)器學(xué)習(xí)中避免大數(shù)據(jù)冗余的方法流程圖;

圖2為本發(fā)明中訓(xùn)練數(shù)據(jù)采用空間數(shù)據(jù)時(shí)的計(jì)算示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

本發(fā)明實(shí)施例提供了一種機(jī)器學(xué)習(xí)中避免大數(shù)據(jù)冗余的方法,如圖1所示,包括以下步驟:

S1、將訓(xùn)練數(shù)據(jù)按照預(yù)設(shè)規(guī)則均勻劃分為規(guī)模相當(dāng)?shù)娜舾煞荨?/p>

當(dāng)上述訓(xùn)練數(shù)據(jù)采用空間數(shù)據(jù)時(shí),上述預(yù)設(shè)規(guī)則為:按照空間坐標(biāo)信息將空間數(shù)據(jù)均勻劃分為規(guī)模相當(dāng)?shù)娜舾煞荨?/p>

S2、對(duì)每一份數(shù)據(jù)按照預(yù)設(shè)的訓(xùn)練步驟進(jìn)行訓(xùn)練計(jì)算,并繪制出跟隨訓(xùn)練步驟的屬性值曲線(精度曲線或誤差曲線)。

S3、根據(jù)每份屬性值曲線的相似度,保留相應(yīng)的屬性值曲線對(duì)應(yīng)的數(shù)據(jù)和初步訓(xùn)練結(jié)果。

步驟S3具體為:比較每份屬性值曲線的相似度,判斷相似度是否達(dá)到閾值;若相似度達(dá)到閾值,則隨機(jī)保留其中一份屬性值曲線對(duì)應(yīng)的數(shù)據(jù)和初步訓(xùn)練結(jié)果;若相似度未達(dá)到閾值,則保留所有屬性值曲線對(duì)應(yīng)的數(shù)據(jù)和初步訓(xùn)練結(jié)果。

其中,相似度的閾值上限為95%,所述相似度的閾值下限為99%。

S4、根據(jù)屬性值曲線的相似度對(duì)保留的數(shù)據(jù)和初步訓(xùn)練結(jié)果進(jìn)行排序,將相鄰的相似度達(dá)到閾值的屬性值曲線對(duì)應(yīng)的數(shù)據(jù)和初步訓(xùn)練結(jié)果分別進(jìn)行加權(quán),返回步驟S2,直至所有訓(xùn)練數(shù)據(jù)合并為一個(gè)數(shù)據(jù),并得到最終的訓(xùn)練結(jié)果。

如圖2所示,為訓(xùn)練數(shù)據(jù)采用空間數(shù)據(jù)時(shí)的計(jì)算示意圖,其中白球部分為初步訓(xùn)練結(jié)果經(jīng)過排序后,剔除的相似度達(dá)到閾值的數(shù)據(jù),其它黑球部分的數(shù)據(jù)再兩兩加權(quán)繼續(xù)進(jìn)行計(jì)算,經(jīng)過若干層計(jì)算,得到最終的訓(xùn)練結(jié)果。

本發(fā)明具有以下優(yōu)點(diǎn):

(1)計(jì)算量小,提高了計(jì)算效率:由于每層都剔除了相似度達(dá)到閾值的數(shù)據(jù),因此極大的減小了計(jì)算量,提高了計(jì)算效率;

(2)由于每一層都對(duì)數(shù)據(jù)獨(dú)立處理,因此并行度高,對(duì)于并行程序的可擴(kuò)展性有本質(zhì)的提升;

(3)由于每一層的計(jì)算都會(huì)對(duì)各個(gè)數(shù)據(jù)進(jìn)行相似度排序,因此對(duì)于數(shù)據(jù)的內(nèi)部屬性有比較充分的了解;

(4)操作簡(jiǎn)單,易于實(shí)現(xiàn)。

綜上所述,借助于本發(fā)明的上述技術(shù)方案,通過

以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1