亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種訓(xùn)練模型信息輸出方法及裝置與流程

文檔序號(hào):11261953閱讀:163來源:國(guó)知局
本申請(qǐng)涉及數(shù)據(jù)分析
技術(shù)領(lǐng)域
:,尤其涉及一種訓(xùn)練模型信息輸出方法及裝置。
背景技術(shù)
::數(shù)據(jù)挖掘工程師在完成一項(xiàng)模型訓(xùn)練任務(wù)之后,如果模型評(píng)估的結(jié)果符合預(yù)期,則需要將該模型的相關(guān)信息以模型文件的形式輸出,以便后續(xù)部署到系統(tǒng)中實(shí)際應(yīng)用。為了令產(chǎn)出的模型文件能夠具有較好的通用性,一般還會(huì)采用一定的標(biāo)準(zhǔn)格式對(duì)模型的相關(guān)信息進(jìn)行輸出,目前較為常見的模型描述標(biāo)準(zhǔn)包括pmml(predictivemodelmarkuplanguage,預(yù)測(cè)模型標(biāo)記語言)等。理想情況下,只要系統(tǒng)中安裝了相應(yīng)的標(biāo)準(zhǔn)格式解析器,則可以很方便地讀取采用該標(biāo)準(zhǔn)格式輸出的模型文件,并將對(duì)應(yīng)的模型直接部署到系統(tǒng)上。然而,根據(jù)現(xiàn)有技術(shù)的方案,在輸出模型文件時(shí),僅會(huì)記錄該模型本身的特征信息,例如對(duì)于一個(gè)訓(xùn)練后得到的模型y=ax2+bx+c,其中x對(duì)應(yīng)輸入數(shù)據(jù),y對(duì)應(yīng)輸出數(shù)據(jù),a、b、c分別為訓(xùn)練得出的參數(shù),則在模型文件中需要記錄的信息包括公式ax2+bx+c以及a、b、c的具體取值,即“輸入”→“輸出”的對(duì)應(yīng)關(guān)系信息。但是在實(shí)際訓(xùn)練模型的過程中,工程師可能需要在給定的訓(xùn)練樣本數(shù)據(jù)的基礎(chǔ)上增加一些特殊處理,例如缺失值填充、離散化等等。這種情況下,訓(xùn)練樣本數(shù)據(jù)并不等同于模型的輸入數(shù)據(jù),換言之,在后續(xù)將模型部署到系統(tǒng)時(shí),獲取到的實(shí)際數(shù)據(jù)也不能直接輸入模型進(jìn)行計(jì)算。進(jìn)而,在模型部署階段,除了讀取模型文件中的信息之外,還需要開發(fā)人員在系統(tǒng)中手動(dòng)寫入與 該模型對(duì)應(yīng)的缺失值填充、離散化等處理邏輯,以配合模型使用??梢?,在這種情況下,模型文件的通用性已經(jīng)難以體現(xiàn),進(jìn)而導(dǎo)致了模型部署難度的提升,特別是當(dāng)模型需要在多個(gè)系統(tǒng)間進(jìn)行移植時(shí),總體的投入成本將明顯增加。技術(shù)實(shí)現(xiàn)要素:針對(duì)上述技術(shù)問題,本申請(qǐng)?zhí)峁┮环N訓(xùn)練模型信息輸出方法及裝置,技術(shù)方案如下:根據(jù)本申請(qǐng)的第一方面,提供一種訓(xùn)練模型信息輸出方法,該方法包括:根據(jù)模型訓(xùn)練需求,對(duì)訓(xùn)練樣本數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理結(jié)果,并且對(duì)所述預(yù)處理的邏輯進(jìn)行記錄;利用所述預(yù)處理結(jié)果作為模型輸入數(shù)據(jù),通過訓(xùn)練處理得到訓(xùn)練模型;將所述訓(xùn)練模型的特征信息以及所述預(yù)處理的邏輯寫入模型文件進(jìn)行輸出。根據(jù)本申請(qǐng)的第二方面,提供一種訓(xùn)練模型信息輸出裝置,其特征在于,該裝置包括:預(yù)處理模塊,用于對(duì)訓(xùn)練樣本數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理結(jié)果;處理邏輯記錄模塊,用于對(duì)所述預(yù)處理的邏輯進(jìn)行記錄;訓(xùn)練模塊,用于利用所述預(yù)處理結(jié)果作為模型輸入數(shù)據(jù),通過訓(xùn)練處理得到訓(xùn)練模型;輸出模塊,用于將所述訓(xùn)練模型的特征信息以及所述預(yù)處理的邏輯寫入模型文件進(jìn)行輸出。本申請(qǐng)實(shí)施例所提供的技術(shù)方案,在模型訓(xùn)練處理的過程中,對(duì)數(shù)據(jù)預(yù)處理的邏輯也進(jìn)行記錄,并且將預(yù)處理邏輯與最終的訓(xùn)練得到的結(jié)果匯總后寫入模型文件中。這樣,在模型部署階段,通過讀取模型文件,就可以獲得預(yù)處理邏輯和模型的相關(guān)信息,根據(jù)這兩部分信息,可以直接將數(shù)據(jù)預(yù)處理模塊和模型處理模塊自動(dòng)部署到系統(tǒng)上。與現(xiàn)有技術(shù)相比,本申請(qǐng)方案可以令通過預(yù)處理數(shù)據(jù)訓(xùn)練得到的模型信息也能夠以通用的方式進(jìn)行保存,從而避免在部署階段的人工重寫步驟,有效降低了模型的部署難度和成本。應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本申請(qǐng)。附圖說明為了更清楚地說明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請(qǐng)中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本申請(qǐng)的訓(xùn)練模型信息輸出方法的第一種流程示意圖;圖2是本申請(qǐng)的訓(xùn)練模型信息輸出方法的第二種流程示意圖;圖3是本申請(qǐng)的訓(xùn)練模型信息輸出裝置的結(jié)構(gòu)示意圖。具體實(shí)施方式為了使本領(lǐng)域技術(shù)人員更好地理解本申請(qǐng)中的技術(shù)方案,下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行詳細(xì)地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本申請(qǐng)保護(hù)的范圍。針對(duì)現(xiàn)有模型文件通用性差、難以部署的問題,本申請(qǐng)?zhí)峁┮环N訓(xùn)練模型信息輸出方法,參見圖1所示,該方法可以包括以下步驟:s101,根據(jù)模型訓(xùn)練需求,對(duì)訓(xùn)練樣本數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理結(jié)果,并且對(duì)預(yù)處理的邏輯進(jìn)行記錄;s102,利用所述預(yù)處理結(jié)果作為模型輸入數(shù)據(jù),通過訓(xùn)練處理得到訓(xùn)練模型;s103,將所述訓(xùn)練模型的特征信息以及所述預(yù)處理的邏輯寫入模型文件進(jìn)行輸出。數(shù)據(jù)預(yù)處理一般是由數(shù)據(jù)挖掘工程師多次嘗試后確定的處理方案,其基本 目的是對(duì)原始的數(shù)據(jù)進(jìn)行加工改造,使其能夠更好地適應(yīng)模型。對(duì)訓(xùn)練樣本數(shù)據(jù)進(jìn)行預(yù)處理的步驟一般可以包括缺失值處理、特征離散化處理、特征組合處理、特征選擇處理等。本申請(qǐng)并不需要對(duì)這些步驟的具體實(shí)現(xiàn)細(xì)節(jié)進(jìn)行限定,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際情況選擇合適的處理方式,另外,根據(jù)實(shí)際的應(yīng)用需求,上述的每個(gè)步驟在預(yù)處理時(shí)都不一定是必須的,例如,當(dāng)訓(xùn)練數(shù)據(jù)樣本數(shù)據(jù)原本就是離散化取值時(shí),則可以跳過離散化處理的處理步驟。與現(xiàn)有技術(shù)相比,本申請(qǐng)的方案在對(duì)數(shù)據(jù)進(jìn)行預(yù)處理時(shí),除了得到用于后續(xù)訓(xùn)練模型的數(shù)據(jù)預(yù)處理結(jié)果之外,還需要對(duì)預(yù)處理的邏輯也進(jìn)行記錄。這樣處理的原因在于:在模型訓(xùn)練階段,實(shí)際上是將“經(jīng)過預(yù)處理后的訓(xùn)練樣本數(shù)據(jù)”作為輸入數(shù)據(jù)訓(xùn)練得到的模型。但是模型在部署以后,能夠直接獲取到的數(shù)據(jù)是與訓(xùn)練樣本數(shù)據(jù)形式一致的,而這樣的數(shù)據(jù)并不能直接輸入模型進(jìn)行計(jì)算。為解決該問題,本申請(qǐng)方案將得到預(yù)處理結(jié)果時(shí)所使用的處理邏輯也記錄下來,并且寫入模型文件。這樣,在模型部署階段,通過讀取模型文件,就可以獲得預(yù)處理邏輯和模型的相關(guān)信息,根據(jù)這兩部分信息,可以直接將數(shù)據(jù)預(yù)處理模塊和模型處理模塊自動(dòng)部署到系統(tǒng)上。舉例說明,假設(shè)在訓(xùn)練樣本數(shù)據(jù)中,特征字段x的取值范圍為(0,100],數(shù)據(jù)挖掘工程師通過反復(fù)嘗試,認(rèn)為將[0,100]離散化為4個(gè)區(qū)間會(huì)獲得較好的效果:具體對(duì)應(yīng)的離散區(qū)間為(0,25]、(26,50]、(51,75]、(76,100],分別指定對(duì)應(yīng)的離散取值0、1、2、3。假設(shè)利用上述離散化結(jié)果,最終訓(xùn)練得到模型為y=2x+3。根據(jù)現(xiàn)有技術(shù)的實(shí)現(xiàn)方式,在模型文件中只會(huì)寫入y=2x+3,但是通過前面的處理過程可知,對(duì)于該模型而言,輸入的“x”實(shí)際應(yīng)該對(duì)應(yīng)的是離散化的取值0、1、2、3,但是在模型部署后中能夠直接獲得的數(shù)據(jù)取值范圍仍然是與訓(xùn)練樣本數(shù)據(jù)一致的(0,100],為了保證模型的正確使用,離散化的處理邏輯則需要人工重新寫入。而根據(jù)本申請(qǐng)的方案,在模型文件中會(huì)寫入兩部分信息:第一部分是模型的特征信息,在本例中為y=2x+3;第二部分是預(yù)處理的邏輯,在本例中為:(0,25]→0、(26,50]→1(51,75]→2(76,100]→3進(jìn)而,在模型部署階段,通過讀取模型文件的第一部分信息,可以將模型處理模塊自動(dòng)部署到系統(tǒng)上,而通過讀取模型文件的第二部分信息,可以將與該模型配合的離散化處理模塊自動(dòng)部署到系統(tǒng)上,避免人工重寫離散化處理模塊。當(dāng)然,以上舉例僅用于示意性說明,在的實(shí)際模型文件中需要以特定的規(guī)范寫入相應(yīng)信息,本申請(qǐng)并不需要進(jìn)行限定。下面結(jié)合一個(gè)更具體的實(shí)施例,對(duì)本申請(qǐng)的方案進(jìn)行說明,在該實(shí)施例中,最終的模型文件采用pmml格式輸出。數(shù)據(jù)挖掘中一般性的建模方法論將建模過程分為以下幾個(gè)步驟:缺失值處理、特征離散化處理、特征組合處理、特征選擇處理、模型訓(xùn)練、模型評(píng)估。其中“模型評(píng)估”屬于對(duì)產(chǎn)出模型的測(cè)試,與本申請(qǐng)方案無關(guān),而前4個(gè)步驟均屬于本申請(qǐng)方案中的“預(yù)處理”,基于上述過程,本申請(qǐng)?zhí)峁┤鐖D2所示的數(shù)據(jù)訓(xùn)練模型信息輸出方法,其中將s101a~s101d分別對(duì)應(yīng)缺失值處理、特征離散化處理、特征組合處理、特征選擇處理,這4個(gè)預(yù)處理步驟均輸出兩部分?jǐn)?shù)據(jù):1)本步驟對(duì)輸入數(shù)據(jù)處理后得到的結(jié)果;2)本步驟的處理邏輯。相應(yīng)地,整體的處理流程也包括兩部分:一方面,4個(gè)步驟在的預(yù)處理過程中為串接關(guān)系,即訓(xùn)練樣本數(shù)據(jù)首先輸入s101a、前一個(gè)步驟輸出的結(jié)果作為下一個(gè)步驟的輸入,依次執(zhí)行4個(gè)步驟后,s101d輸出預(yù)處理結(jié)果,用于后續(xù)步驟s102進(jìn)行模型訓(xùn)練;另一方面,4個(gè)步驟分別輸出處理邏輯,與s102訓(xùn)練得到的模型信息進(jìn)行匯總寫入模型文件。也就是說,最終輸出的模型文件中,除了記錄模型自身信息之外,還分別記錄了4個(gè)預(yù)處理步驟的處理邏輯信息,以及4個(gè)預(yù)處理步驟的執(zhí)行順序。在實(shí)際應(yīng)用中,如果某些預(yù)處理步驟不需要執(zhí)行,可以通過改寫模塊代碼 來實(shí)現(xiàn)預(yù)處理功能的關(guān)閉。為了便于統(tǒng)一管理及擴(kuò)展,對(duì)于缺失值處理、特征離散化處理、特征組合處理及特征選擇處理4個(gè)模塊,可以定義統(tǒng)一的模塊設(shè)計(jì)規(guī)范,本申請(qǐng)以yaml格式為例,具體設(shè)計(jì)規(guī)范示意如下:在上述設(shè)計(jì)規(guī)范中,每個(gè)處理模塊包括3個(gè)子模塊:輸入子模塊inputs、算法子模塊algorithm、輸出子模塊outputs,其中子算法模塊algorithm為可選,子模塊之間以schemas、datas、models和evaluations進(jìn)行串接。在outputs子模塊中,可以分別配置是否輸出這四種信息:其中schemas用于輸出當(dāng)前模塊的處理結(jié)果,后一個(gè)模塊根據(jù)前一個(gè)模塊的輸出的schemas,可以直接到數(shù)據(jù)庫搜索數(shù)據(jù)作為自身的輸入;datas可以用于將數(shù)據(jù)輸出至本地的文本文件;models用于當(dāng)前模塊的處理邏輯,evaluations則用于輸出模型效果等內(nèi)容的文件,一般用于可視化展現(xiàn)??梢?,根據(jù)本申請(qǐng)方案,對(duì)于預(yù)處理模塊,至少應(yīng)在outputs中配置schemas和datas的值為true。下面以特征離散化處理為例,對(duì)模塊的處理過程進(jìn)行說明:假設(shè)特征離散化處理模塊的標(biāo)識(shí)(taskid)為10003,該模塊依賴于缺失值填充處理模塊(taskid為10002),為了便于描述,假設(shè)離散化處理模塊需要用到的輸入數(shù)據(jù)(即缺失值填充處理模塊的輸出數(shù)據(jù))如下,以schema的形式進(jìn)行表達(dá):該數(shù)據(jù)所表達(dá)的意思為:采用“user_table”表內(nèi)20150301和20150302分區(qū)的數(shù)據(jù),同時(shí)只選擇列x1、x2、x3。其中,from表示的是當(dāng)前字段的值是如何得到的,有以下幾種可能:“origin”:當(dāng)前的字段內(nèi)的值是原始字段繼承來的“fill”:當(dāng)前字段內(nèi)的值經(jīng)過了缺失值處理“discrete”:當(dāng)前字段內(nèi)的值經(jīng)過了離散化“combine”:當(dāng)前字段內(nèi)的值是經(jīng)過了特征組合得到的“dummy”:當(dāng)前字段內(nèi)的值是經(jīng)過dummy得到的在前述設(shè)計(jì)規(guī)范的基礎(chǔ)上,設(shè)計(jì)特征離散化處理模塊實(shí)現(xiàn)如下:該離散化處理模塊以上述的schema作為輸入數(shù)據(jù),并選擇對(duì)x1、x2和x3列進(jìn)行離散化。其中x1列的離散化方法為給定1,5,9為分割點(diǎn),x2列的離散化方法為等頻離散化且離散化區(qū)間為3個(gè),x3列的離散化方法為等頻離散化且每個(gè)區(qū)間樣本個(gè)數(shù)為5個(gè)。注意到在outputs子模塊中,schemas和models字段取值均為true,表明該離散化模塊最終的輸出包括兩部分:對(duì)輸入數(shù)據(jù)進(jìn)行離散化處理的結(jié)果(schemas),以及離散化處理的邏輯(models),其中后者可以用json文件的形式輸出,該文件內(nèi)容如下:可見,在該json文件中,表達(dá)了離散化的處理邏輯,:x1列的離散化點(diǎn)為-inf~1、1~5、5~9、9~+inf,x2列的離散化區(qū)間為-inf~1、1~7、7~+inf,x3列的離散化區(qū)間為~inf~2、2~7、7~+inf。在s102訓(xùn)練得到模型后,將此離散化的處理邏輯的json文件匯總進(jìn)入最終的pmml文件中,json文件的內(nèi)容在pmml文件中的具體寫入方式如下所示:可以看出,離散化的處理邏輯實(shí)際是寫入了pmml文件的localtransformations(lt,本地轉(zhuǎn)換)區(qū)段中,localtransformations是pmml標(biāo)準(zhǔn)中定義的數(shù)據(jù)轉(zhuǎn)換區(qū)段,專門用于放置數(shù)據(jù)的前置處理邏輯,支持常用的數(shù)據(jù)填充、格式轉(zhuǎn)換、離散化等功能,也支持自定義的數(shù)據(jù)處理,lt區(qū)段可以被pmml解析器所識(shí)別。這樣,在后續(xù)的模型部署階段,系統(tǒng)通過解析pmml模型文件中的localtransformations區(qū)段,就可以得到離散化的處理邏輯,并且能夠在系統(tǒng)中自動(dòng)重構(gòu)相應(yīng)的離散化處理模塊。當(dāng)然,除了離散化處理之外,對(duì)于其他數(shù)據(jù)預(yù)處理模塊,例如特征組合處理模塊、特征選擇處理模塊等等,也可以按照類似的方法將相應(yīng)的處理邏輯寫入模型文件,本申請(qǐng)實(shí)施例不再一一列舉。相應(yīng)于上述方法實(shí)施例,本申請(qǐng)還提供一種訓(xùn)練模型信息輸出裝置,參見圖3所示,該裝置可以包括:預(yù)處理模塊110,用于根據(jù)模型訓(xùn)練需求,對(duì)訓(xùn)練樣本數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理結(jié)果;處理邏輯記錄模塊120,用于對(duì)預(yù)處理的邏輯進(jìn)行記錄;訓(xùn)練模塊130,用于利用預(yù)處理結(jié)果作為模型輸入數(shù)據(jù),通過訓(xùn)練處理得到訓(xùn)練模型140;輸出模塊,用于將訓(xùn)練模型的特征信息以及預(yù)處理的邏輯寫入模型文件進(jìn)行輸出。在本申請(qǐng)的一種具體實(shí)施方式中,預(yù)處理模塊110可以具體用于使用以下一種或多種方式對(duì)訓(xùn)練樣本數(shù)據(jù)進(jìn)行預(yù)處理:缺失值處理、特征離散化處理、特征組合處理、特征選擇處理。在本申請(qǐng)的一種具體實(shí)施方式中,在預(yù)處理模塊110使用多種方式對(duì)訓(xùn)練樣本數(shù)據(jù)進(jìn)行預(yù)處理情況下,處理邏輯記錄模塊120可以具體用于:分別記錄各個(gè)方式的處理邏輯,并且記錄各個(gè)方式的執(zhí)行順序。在本申請(qǐng)的一種具體實(shí)施方式中,輸出模塊140具體可以采用預(yù)測(cè)模型標(biāo)記語言pmml格式輸出模型文件。進(jìn)一步地,輸出模塊140可以具體用于將預(yù)處理的邏輯寫入pmml格式文件的本地轉(zhuǎn)換區(qū)段localtransformations中。通過以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請(qǐng)可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn)?;谶@樣的理解,本申請(qǐng)的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如rom/ram、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請(qǐng)各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于裝置實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的模塊可以是或者也可以不是物理上分開的,在實(shí)施本申請(qǐng)方案時(shí)可以把各模塊的功能在同一個(gè)或多個(gè)軟件和/或 硬件中實(shí)現(xiàn)。也可以根據(jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。以上所述僅是本申請(qǐng)的具體實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本
技術(shù)領(lǐng)域
:的普通技術(shù)人員來說,在不脫離本申請(qǐng)?jiān)淼那疤嵯?,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本申請(qǐng)的保護(hù)范圍。當(dāng)前第1頁12當(dāng)前第1頁12
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1