亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

運單號歸屬的識別方法及裝置與流程

文檔序號:12673054閱讀:652來源:國知局
運單號歸屬的識別方法及裝置與流程
本申請涉及物流信息處理
技術(shù)領(lǐng)域
,特別是涉及運單號歸屬的識別方法及裝置。
背景技術(shù)
:在電子商務(wù)應(yīng)用廣泛普及的今天,物流服務(wù)在產(chǎn)品提供商,電子商務(wù)平臺,以及購買產(chǎn)品的終端用戶三者之間承擔(dān)了不可或缺的角色,多數(shù)實體產(chǎn)品的運輸,都依賴于物流服務(wù)來完成。在電子商務(wù)的相關(guān)應(yīng)用中,經(jīng)常存在根據(jù)物流包裹的運單號判斷屬于哪家物流服務(wù)提供商(以下稱為“物流商”)的需求。例如在一些電子商務(wù)平臺推出的查詢網(wǎng)站或者應(yīng)用中,系統(tǒng)可以對用戶輸入的運單號自動識別和匹配其對應(yīng)的物流商,從而簡化查詢流程,節(jié)約查詢操作的時間成本。運單號是快遞包裹的唯一標(biāo)識代碼,通常由數(shù)字和字母組成,通常情況下,特定物流商的使用的運單號的編碼方式具有特定規(guī)律。例如,某物流商的運單號由12位字母和數(shù)字組成,前后各兩位英文,固定第一位是E,最后是CS等等。在實現(xiàn)運單號與物流商的匹配時,技術(shù)人員可以運單號的特定規(guī)律,設(shè)計匹配的實現(xiàn)方式,例如可以編寫與這些不同規(guī)律的運單號相匹配的正則表達(dá)式,實現(xiàn)運單號與物流商的匹配。但是,這種人編寫規(guī)則的方式常常無法顧及所有可能性而導(dǎo)致的匹配準(zhǔn)確度不高,對屬于不同物流商但規(guī)律相似的運單號常常無法有效分辨,而且維護成本高,當(dāng)某一物流商使用不同的規(guī)則的運單號時,可能導(dǎo)致大面積的修改。另一種運單號歸屬的識別方式是,根據(jù)用戶輸入的運單號對所有可能的物流商的服務(wù)器進(jìn)行輪詢,根據(jù)各服務(wù)器是否及時返回有效來確定對應(yīng)的物流商,這種方式的缺陷是,對物流商服務(wù)器的壓力和依賴性太大,在物流商服務(wù)器信息更新滯后的情況下,難以保證用戶查詢到及時有效的結(jié)果。因此,如何更準(zhǔn)確、高效地根據(jù)確定運單號所歸屬的物流商,成為需要本領(lǐng)域技術(shù)人員解決的技術(shù)問題。技術(shù)實現(xiàn)要素:本申請?zhí)峁┝诉\單號歸屬的識別方法及裝置,更準(zhǔn)確高效的識別運單號的歸屬,并且更加易于更新維護。本申請?zhí)峁┝巳缦路桨福阂环N運單號歸屬的識別方法,包括:收集樣本運單數(shù)據(jù),所述樣本運單數(shù)據(jù)中的條目包括運單號及其對應(yīng)的物流商標(biāo)識;根據(jù)各樣本運單數(shù)據(jù)的運單號中的字符以及字符出現(xiàn)順序,提取各樣本運單數(shù)據(jù)的樣本特征標(biāo)記,將所提取到的所述樣本特征標(biāo)記組成特征空間;將各樣本運單數(shù)據(jù)對應(yīng)物流商標(biāo)識以及樣本特征標(biāo)記,輸入到預(yù)置的分類學(xué)習(xí)機中,通過分類學(xué)習(xí)分別確定各物流商標(biāo)識對應(yīng)的所述特征空間中,各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù);在需要對運單號歸屬進(jìn)行識別時,根據(jù)待識別運單號的字符以及字符出現(xiàn)順序,提取待識別運單號的特征標(biāo)記;根據(jù)所提取的待識別運單號的特征標(biāo)記,匹配各物流商標(biāo)識對應(yīng)的所述特征空間中各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù),根據(jù)所匹配到的各權(quán)重系數(shù),確定待識別運單號的歸屬。一種運單號歸屬的識別裝置,包括:樣本收集單元,用于收集樣本運單數(shù)據(jù),所述樣本運單數(shù)據(jù)中的條目包括運單號及其對應(yīng)的物流商標(biāo)識;樣本標(biāo)記提取單元,用于根據(jù)各樣本運單數(shù)據(jù)的運單號中的字符以及字符出現(xiàn)順序,提取各樣本運單數(shù)據(jù)的樣本特征標(biāo)記,將所提取到的所述樣本特征標(biāo)記組成特征空間;分類學(xué)習(xí)單元,用于將各樣本運單數(shù)據(jù)對應(yīng)物流商標(biāo)識以及樣本特征標(biāo)記,輸入到預(yù)置的分類學(xué)習(xí)機中,通過分類學(xué)習(xí)分別確定各物流商標(biāo)識對應(yīng)的所述特征空間中,各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù);識別標(biāo)記提取單元,用于在需要對運單號歸屬進(jìn)行識別時,根據(jù)待識別運單號的字符以及字符出現(xiàn)順序,提取待識別運單號的特征標(biāo)記;運單號歸屬確定單元,用于根據(jù)所提取的待識別運單號的特征標(biāo)記,匹配各物流商標(biāo)識對應(yīng)的所述特征空間中各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù),根據(jù)所匹配到的各權(quán)重系數(shù),確定待識別運單號的歸屬。根據(jù)本申請?zhí)峁┑木唧w實施例,本申請公開了以下技術(shù)效果:通過本申請實施例,可以收集樣本運單數(shù)據(jù);根據(jù)各樣本運單數(shù)據(jù)運單號中的字符以及字符出現(xiàn)順序,以預(yù)置的提取方法提取各樣本運單數(shù)據(jù)的樣本特征標(biāo)記,將所提取到的所述樣本特征標(biāo)記組成特征空間;將各樣本運單數(shù)據(jù)對應(yīng)物流商標(biāo)識以及樣本特征標(biāo)記,輸入到預(yù)置的分類學(xué)習(xí)機中,通過分類學(xué)習(xí)分別確定各物流商標(biāo)識對應(yīng)的特征空間中,各樣本特征標(biāo)記權(quán)重系數(shù);各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù),實際上反應(yīng)了各樣本特征標(biāo)記的統(tǒng)計學(xué)規(guī)律,同時也從量化的角度準(zhǔn)確的體現(xiàn)了不同物流商所使用運單號的客觀規(guī)律,能夠有效的運用于對運單號歸屬的預(yù)測,并且,分類學(xué)習(xí)的成本低,預(yù)測精度高。根據(jù)待識別運單號的字符以及字符出現(xiàn)順序,提取待識別運單號的特征標(biāo)記;根據(jù)待識別運單號的特征標(biāo)記,匹配各物流商標(biāo)識對應(yīng)的所述特征空間中各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù),確定待識別運單號的歸屬。通過該方法可以更準(zhǔn)確高效的識別運單號的歸屬,并且更加易于維護和更新。當(dāng)然,實施本申請的任一產(chǎn)品并不一定需要同時達(dá)到以上所述的所有優(yōu)點。附圖說明為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本申請實施例提供的方法的流程圖;圖2是本申請實施例提供的裝置的示意圖。具體實施方式下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├绢I(lǐng)域普通技術(shù)人員所獲得的所有其他實施例,都屬于本申請保護的范圍。本申請實施例公開了運單號歸屬的識別方法,實現(xiàn)了基于自動分類學(xué)習(xí)模型的運單號歸屬的識別,通過樣本訓(xùn)練生成分類器,利用分類器對待識別運單號的歸屬進(jìn)行自動識別,具有識別精確度高,易于更新和維護等優(yōu)點,下面對本申請實施例提供運單號歸屬的識別方法進(jìn)行詳細(xì)的介紹。請參看圖1,為該運單號歸屬的識別方法的流程圖,如圖1所示,該方法可以包括以下步驟:S101:收集樣本運單數(shù)據(jù),所述樣本運單數(shù)據(jù)中的條目包括運單號及其對應(yīng)的物流商標(biāo)識;首先可以對樣本運單數(shù)據(jù)進(jìn)行收集,其中,樣本運單數(shù)據(jù)通常包括多個條目,每個條目中包括了運單號以及對應(yīng)的物流商標(biāo)識信息,運單號和對應(yīng)的物流商標(biāo)識一般成對收集。具體在實現(xiàn)樣本運單數(shù)據(jù)的收集時,可以在終端購買用戶購買的過程中產(chǎn)生的物流服務(wù)數(shù)據(jù)中提取,例如可以收集物流業(yè)務(wù)中的運單號以及對應(yīng)的物流商標(biāo)識作為原始運單數(shù)據(jù),其中包括了物流服務(wù)中產(chǎn)生的運單號以及對應(yīng)的物流商標(biāo)識等信息,通過對原始運單數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和抽樣,得到樣本運單數(shù)據(jù)。其中,對原始運單數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗可以包括去除無效或無用的信息,去除重復(fù)收集的信息等過程;而對原始運單數(shù)據(jù)的抽樣,可以有多種實現(xiàn)方式,本著樣本運單數(shù)據(jù)全面覆蓋的原則,可以根據(jù)原始運單數(shù)據(jù)的采集時間,在一個較大的時間跨度上選擇原始運單數(shù)據(jù)作為樣本運單數(shù)據(jù);另外,也可以根據(jù)原始運單數(shù)據(jù)中的物流商標(biāo)識進(jìn)行選擇,盡量覆蓋所有出現(xiàn)的物流商,并且對于每個物流商都有足夠數(shù)據(jù)量的樣本運單數(shù)據(jù)。所收集到的樣本運單數(shù)據(jù)的條目中,包括了運單號及其對應(yīng)的物流商標(biāo)識,樣本運單數(shù)據(jù)可以保存為特定格式的計算機數(shù)據(jù),例如保存為表1所示的格式的數(shù)據(jù)庫條目:表1樣本運單數(shù)據(jù)運單號物流商標(biāo)識樣本運單數(shù)據(jù)001運單號001SF樣本運單數(shù)據(jù)002運單號002SF樣本運單數(shù)據(jù)003運單號003UC樣本運單數(shù)據(jù)004運單號004YTO………其中,運單號列中的數(shù)據(jù)為收集到的樣本運單數(shù)據(jù)中的運單號,物流商標(biāo)識列中的數(shù)據(jù)為所收集到樣本運單數(shù)據(jù)中的運單號對應(yīng)的物流商標(biāo)識。S102:根據(jù)各樣本運單數(shù)據(jù)的運單號中的字符以及字符出現(xiàn)順序,提取各樣本運單數(shù)據(jù)的樣本特征標(biāo)記,將所提取到的所述樣本特征標(biāo)記組成特征空間;在確定了樣本運單數(shù)據(jù)后,可以對樣本運單數(shù)據(jù)中各運單號的特征進(jìn)行提取,在本申請實施例提供的方法中,根據(jù)特定物流商的使用的運單號的編碼方式具有特定規(guī)律的特點,可以根據(jù)各樣本運單數(shù)據(jù)的運單號中的字符以及字符出現(xiàn)順序進(jìn)行樣本運單數(shù)據(jù)特征的提取。具體的,可以根據(jù)各樣本運單數(shù)據(jù)的運單號中的字符以及字符出現(xiàn)順序,以預(yù)置的提取方法提取各樣本運單數(shù)據(jù)的樣本特征標(biāo)記。例如,物流商標(biāo)識為SF的某一運單號如下:100365321372;該運單號中的前4位“1003”為該物流商在某一時間段內(nèi)固定使用的前綴標(biāo)識,基于運單號中的字符以及字符出現(xiàn)順序進(jìn)行的特征提取,可以通過大量的運單號特征標(biāo)記的統(tǒng)計結(jié)果反應(yīng)出該固有特征標(biāo)記,應(yīng)用這些統(tǒng)計結(jié)果進(jìn)行分類學(xué)習(xí),就可以通過得到的分類學(xué)習(xí)機進(jìn)行運單號歸屬的預(yù)測。在實際應(yīng)用中,根據(jù)各樣本運單數(shù)據(jù)的運單號中的字符以及字符出現(xiàn)順序,以預(yù)置的提取方法提取各樣本運單數(shù)據(jù)的樣本特征標(biāo)記時,可以在樣本運單數(shù)據(jù)的字符串中,依位次以預(yù)置窗口長度滾動截取的方式,提取各樣本運單數(shù)據(jù)的樣本特征標(biāo)記。例如上述物流商標(biāo)識為SF的運單號100365321372,在以窗 口長度3進(jìn)行依位次的滾動截取時,可以得到的樣本特征標(biāo)記包括:{100,003,036,365,653,532,321,213,137,372};可見,通過依位次以預(yù)置窗口長度滾動截取的方式,所提取各樣本運單數(shù)據(jù)的樣本特征標(biāo)記,是根據(jù)樣本運單數(shù)據(jù)的運單號中的字符以及字符出現(xiàn)順序所提取的特征標(biāo)記,這些樣本特征標(biāo)記中,總會至少有一部分能夠反應(yīng)出特定物流商使用的運單號的編碼方式的固有特點或規(guī)律,通過對大量運單號提取的分類學(xué)習(xí),就可以找出這些特點和規(guī)律。在依位次以預(yù)置窗口長度滾動截取的方式提取樣本運單數(shù)據(jù)的樣本特征標(biāo)記時,可以根據(jù)各樣本運單數(shù)據(jù)的運單號中的字符以及字符出現(xiàn)順序,使用N元文法N-gram方法,提取各樣本運單數(shù)據(jù)樣本特征標(biāo)記。N-gram方法是一種用于連續(xù)詞匯識別的一種語言模型,在本申請實施例提供的方法中,可以利用N-gram方法中對詞匯的抽取的部分,依位次以預(yù)置窗口長度滾動截取的方式提取樣本運單數(shù)據(jù)的樣本特征標(biāo)記。N-gram方法中的N代表了元數(shù),應(yīng)用于本方法則對應(yīng)了預(yù)置的窗口長度,例如上述在以窗口長度3進(jìn)行依位次的滾動截取的示例。在實際應(yīng)用中,可以使用二元文法Bi-gram方法,或三元文法Tri-gram方法,提取各樣本運單數(shù)據(jù)的樣本特征標(biāo)記,也可以對該兩種方法進(jìn)行疊加使用,提取各樣本運單數(shù)據(jù)的樣本特征標(biāo)記。之所以使用Bi-gram方法,和/或三元文法Tri-gram方法,一則對于較大數(shù)據(jù)量的樣本運單數(shù)據(jù),這兩種已經(jīng)能夠提取出足夠多和足夠有效的樣本特征標(biāo)記,同時還兼顧了樣本特征標(biāo)記提取以及分類學(xué)習(xí)訓(xùn)練的效率需求,所得到的分類學(xué)習(xí)機也能夠達(dá)到期望的精度需求。如果使用N-gram方法中N>=4,則計算量通常會增長幾個數(shù)量級,其時間成本較高,同時對預(yù)測結(jié)果精度的提升卻并不顯著。此外,由于特定物流商的使用的運單號的編碼規(guī)律通常體現(xiàn)在運單號的特定位置,例如運單號的開始幾位或者結(jié)束的幾位,在進(jìn)行各樣本運單數(shù)據(jù)的樣本特征標(biāo)記的提取時,還可以通過所提取的樣本特征標(biāo)記,來突出運單號在特定位置上的這些規(guī)律和特點。具體實現(xiàn)時,可以在依位次以預(yù)置窗口長度滾動截取時,確定所截取字符串在樣本運單數(shù)據(jù)中的位置,在依位次以預(yù)置窗口長度滾動截取時,在截取得到的樣本特征標(biāo)記中加入對應(yīng)的位置標(biāo)記。例如對于 運單號:100365321372;以Tri-gram方法,即依位次以預(yù)置窗口長度3進(jìn)行滾動截取,同時在截取得到的樣本特征標(biāo)記中加入對應(yīng)的位置標(biāo)記后,可以得到的樣本特征標(biāo)記包括:{1&4-100,2&5-003,3&6-036,4&7-365,…};在這些樣本特征標(biāo)記中,諸如“1&4-”的前綴,也即所加入的位置標(biāo)記,標(biāo)識出了該樣本特征標(biāo)記在運單號中的位置。此外,對于一些比較特殊的位置,例如運單號的開始和結(jié)束的位置的字段,即對于樣本運單數(shù)據(jù)字符串中開始字段和結(jié)束字段,在依位次以預(yù)置窗口長度滾動截取時,還在對應(yīng)的樣本特征標(biāo)記中分別加入開始標(biāo)記和結(jié)束標(biāo)記。例如對于運單號:100365321372;以Tri-gram方法,即依位次以預(yù)置窗口長度3進(jìn)行滾動截取時,在樣本運單數(shù)據(jù)字符串中開始字段和結(jié)束字段對應(yīng)的樣本特征標(biāo)記中,分別加入開始標(biāo)記和結(jié)束標(biāo)記后,可以得到的樣本特征標(biāo)記包括:{B-100,E372};在這些樣本特征標(biāo)記中,諸如“B-”,“E-”的前綴,標(biāo)識出了這些樣本分別為樣本運單數(shù)據(jù)字符串中的開始字段和結(jié)束字段。在實際應(yīng)用中,對樣本特征標(biāo)記的提取也可以結(jié)合使用上述的多種方式。如可以在依位次以預(yù)置窗口長度滾動截取的方式,提取各樣本運單數(shù)據(jù)不帶有其他信息的樣本特征標(biāo)記,同時對于樣本運單數(shù)據(jù)字符串中開始字段和結(jié)束字段,提取分別加入開始標(biāo)記和結(jié)束標(biāo)記的樣本特征標(biāo)記,同時還可以確定所截取字符串在樣本運單數(shù)據(jù)中的位置,提取加入位置標(biāo)記的樣本特征標(biāo)記。例如對于上述運單號:100365321372,同時使用上述三種提取方法進(jìn)行特征標(biāo)記的提取時,可以得到的樣本特征標(biāo)記包括:{100,003,036,365,653,532,321,213,137,372,1&4-100,2&5-003,3&6-036,4&7-365,…,B-100,E372};可見,在根據(jù)各樣本運單數(shù)據(jù)的運單號中的字符以及字符出現(xiàn)順序,以預(yù)置的提取方法提取各樣本運單數(shù)據(jù)的樣本特征標(biāo)記后,可以得到一個包括多個無重復(fù)的樣本特征標(biāo)記的集合,即可以將所提取到的樣本特征標(biāo)記組成一個特征空間。當(dāng)從多個樣本運單數(shù)據(jù)中提取樣本特征標(biāo)記,經(jīng)過去重后,就可以得到將各樣本運單數(shù)據(jù)的樣本特征標(biāo)記組成的特征空間。以下結(jié)合具體的計算機程序示例,對根據(jù)各樣本運單數(shù)據(jù)的運單號中的字符以及字符出現(xiàn)順序,提取各樣本運單數(shù)據(jù)的樣本特征標(biāo)記的實現(xiàn)進(jìn)行詳細(xì)說明。在本示例中,同時使用了二元文法Bi-gram方法,以及三元文法Tri-gram方法進(jìn)行樣本特征標(biāo)記的提取,同時還提取了加入開始標(biāo)記和結(jié)束標(biāo)記的樣本特征標(biāo)記,以及加入了位置標(biāo)記的樣本特征標(biāo)記。其中有如下定義:輸入:快遞面單號,例如100365321372;minNGramLeng,最小窗口長度,例如2;maxNGramLeng,最大窗口長度,例如3;輸出:特征空間。所使用的計算機程序示例代碼如下:以下為基于上述計算機程序示例,對幾個模擬運單號進(jìn)行樣本特征標(biāo)記提取得到的樣本特征標(biāo)記的列表,請參看表2:表2如表2所提取到的樣本特征標(biāo)記,經(jīng)過去重后,可以組成由這些樣本特征標(biāo)記組成的特征空間。其中,含有“678”的運單號所提取的樣本特征標(biāo)記包 括了1&3-67,67,1&4-678,678,2&4-78,78等,以“567”開頭的運單號所提取的樣本特征標(biāo)記包括了B-56,0&2-56,56,B-567,0&3-567,567等,以“784”結(jié)尾的運單號所提取的樣本特征標(biāo)記包括了E-784,2&5-784,784,E-84,3&5-84,84等,可見,當(dāng)特定物流商的使用的運單號的編碼方式具有特定規(guī)律時,這些不同物流商對應(yīng)的特定規(guī)律,可以通過所得到的特征空間中的一些樣本特征標(biāo)記體現(xiàn)出來,反過來,當(dāng)通過對大量樣本數(shù)據(jù)提取到的樣本特征標(biāo)記按照不同的物流商進(jìn)行統(tǒng)計,獲得其在統(tǒng)計學(xué)上的規(guī)律后,這種規(guī)律就可以用于對運單號的歸屬進(jìn)行預(yù)測。S103:將各樣本運單數(shù)據(jù)對應(yīng)物流商標(biāo)識以及樣本特征標(biāo)記,輸入到預(yù)置的分類學(xué)習(xí)機中,通過分類學(xué)習(xí)分別確定各物流商標(biāo)識對應(yīng)的所述特征空間中,各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù);樣本空間,實質(zhì)上是一組樣本特征標(biāo)記的集合,通俗的講也可以視為一組樣本特征標(biāo)記的命名空間,對于每一條樣本運單數(shù)據(jù)中提取的樣本特征標(biāo)記,都可以映射為樣本空間的一個實例,例如通過表2中樣本運單號的樣本特征標(biāo)記提取,可以提取到32個不重復(fù)的樣本特征標(biāo)記,這些樣本特征標(biāo)記可以組成一個樣本空間,示例如下:<S1,S2,S3,S4,S5,…,S31,S32>;對于一條樣本運單數(shù)據(jù)中提取的所有樣本特征標(biāo)記,通常是這個樣本空間的一個子集,且通常是真子集,可以將這個子集映射到樣本空間中,若該子集中存在與樣本空間中相同的元素,則將對應(yīng)位置為1,否則可以置為0,這樣,可以將樣本運單數(shù)據(jù)中提取的樣本特征標(biāo)記映射為一個32維的向量表示。例如某樣本運單數(shù)據(jù)中提取的所有樣本特征標(biāo)記映射到樣本空間可以表示為:<1,1,1,0,1,0,……,1,0,1>;在將所有的樣本運單數(shù)據(jù)的樣本特征標(biāo)記進(jìn)行向量表示后,可以將各樣本運單數(shù)據(jù)對應(yīng)物流商標(biāo)識以及樣本特征標(biāo)記,輸入到預(yù)置的分類學(xué)習(xí)機中,如前所述,特定物流商的使用的運單號的編碼方式具有特定規(guī)律,這種特定規(guī)律可以通過樣本數(shù)據(jù)的樣本特征標(biāo)記的統(tǒng)計數(shù)據(jù)體現(xiàn)出來,例如對于某一物流商, 其運單號通常以數(shù)字“56”開始,那么在對該物流商對應(yīng)的運單號進(jìn)行樣本特征標(biāo)記的統(tǒng)計時,必然會大量出現(xiàn)一些向量,其對應(yīng)位置相應(yīng)的數(shù)據(jù)為1。利用分類學(xué)習(xí)機,可以將這中規(guī)律量化,進(jìn)而形成判斷運單號歸屬的有效工具。分類學(xué)習(xí)機的實現(xiàn)方式可以有多種,例如貝葉斯分類器,支持向量機等等,在本申請實施例提供的方法中,主要使用LBFG-QN擬牛頓算法實現(xiàn)的分類學(xué)習(xí)機,在實際應(yīng)用中,也可以使用隨機梯度下降,牛頓法,以及其他的擬牛頓算法實現(xiàn)。而LBFG-QN擬牛頓算法實現(xiàn)的分類學(xué)習(xí)機,具有內(nèi)存占用小,實現(xiàn)簡潔高效的特點,其預(yù)測結(jié)果也能滿足運單號歸屬預(yù)測的精度需求,所以在本申請實施例提供的方法中,主要使用LBFG-QN擬牛頓算法實現(xiàn)的分類學(xué)習(xí)機。在應(yīng)用該分類學(xué)習(xí)時,可以通過分類學(xué)習(xí)機的分類學(xué)習(xí),分別確定各物流商標(biāo)識對應(yīng)的特征空間中,各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù)。例如表2的示例中,共有32個樣本特征標(biāo)記組成樣本空間,同時,還包括SF和ZT兩個物流商分類,通過LBFG-QN擬牛頓算法分類學(xué)習(xí)機的分類學(xué)習(xí),可以得到各物流商標(biāo)識對應(yīng)的所述特征空間中,各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù)。其形式表示如下:SF:<W1-1,W1-2,W1-3,W1-4,W1-5,…,W1-31,W1-32>;ZT:<W2-1,W2-2,W2-3,W2-4,W2-5,…,W2-31,W2-32>;其中,W為各物流商標(biāo)識對應(yīng)的所述特征空間中,各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù),與樣本空間中的樣本特征標(biāo)具有一一對應(yīng)的關(guān)系。S105:在需要對運單號歸屬進(jìn)行識別時,根據(jù)待識別運單號的字符以及字符出現(xiàn)順序,提取待識別運單號的特征標(biāo)記;通過分類學(xué)習(xí)機的分類學(xué)習(xí),得到了各物流商標(biāo)識對應(yīng)的所述特征空間中,各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù),接下來,在需要對運單號歸屬進(jìn)行識別時,就可以根據(jù)待識別運單號的字符以及字符出現(xiàn)順序,提取待識別運單號的特征標(biāo)記。在提取待識別運單號的特征標(biāo)記時,為了實現(xiàn)與樣本空間中的樣本特征標(biāo)記的一致性,可以使用步驟S120中所述的預(yù)置的提取方法,如可以在待識別運單號的字符串中,依位次以預(yù)置窗口長度滾動截取的方式,提取待識別運單號的特征標(biāo)記。在待識別運單號中提取的特征標(biāo)記與前述樣本空間中的樣本 特征標(biāo)記具有對應(yīng)關(guān)系,且通常為樣本空間的真子集。例如樣本空間表示為:<S1,S2,S3,S4,S5,…,S31,S32>;在某一待識別運單號中提取的特征標(biāo)記可以表示為:<T1,T2,T3,N/A,N/A,…,N/A,T32>;其中,在該待識別運單號中提取的特征標(biāo)記T1,T2,T3分別與樣本空間中的樣本特征標(biāo)記S1,S2,S3對應(yīng),而N/A則表示對應(yīng)的樣本特征標(biāo)記在該待識別運單號中并沒有被提取到。S105:根據(jù)所提取的待識別運單號的特征標(biāo)記,匹配各物流商標(biāo)識對應(yīng)的所述特征空間中各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù),根據(jù)所匹配到的各權(quán)重系數(shù),確定待識別運單號的歸屬。在根據(jù)待識別運單號的字符以及字符出現(xiàn)順序,提取待識別運單號的特征標(biāo)記后,可以根據(jù)在待識別運單號中提取的特征標(biāo)記,匹配各物流商標(biāo)識對應(yīng)的特征空間中各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù),根據(jù)所匹配到的各權(quán)重系數(shù),確定待識別運單號的歸屬。例如前述的某一待識別運單號中提取的特征標(biāo)記可以表示為:<T1,T2,T3,N/A,N/A,…,N/A,T32>;其中的特征標(biāo)記與樣本空間<S1,S2,S3,S4,S5,…,S31,S32>;中的樣本特征標(biāo)記存在對應(yīng)關(guān)系。同時,待識別運單號中提取的特征標(biāo)記,與經(jīng)過步驟S140的分類學(xué)習(xí),得到的各物流商標(biāo)識對應(yīng)的所述特征空間中,各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù):SF:<W1-1,W1-2,W1-3,W1-4,W1-5,…,W1-31,W1-32>;ZT:<W2-1,W2-2,W2-3,W2-4,W2-5,…,W2-31,W2-32>;同樣存在對應(yīng)關(guān)系,進(jìn)而可以根據(jù)所提取的待識別運單號的特征標(biāo)記,匹配各物流商標(biāo)識對應(yīng)的特征空間中各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù),根據(jù)所匹配到的各權(quán)重系數(shù),確定待識別運單號的歸屬。各物流商標(biāo)識對應(yīng)的特征空間 中各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù),反應(yīng)的是物流商標(biāo)識對應(yīng)的特征空間中各樣本特征標(biāo)記的統(tǒng)計學(xué)規(guī)律,在進(jìn)行統(tǒng)計時往往數(shù)據(jù)平滑性較差,為了提高數(shù)據(jù)的平滑性,通常在進(jìn)行機器學(xué)習(xí)的過程中,或者在根據(jù)所匹配到的各權(quán)重系數(shù)確定待識別運單號的歸屬的過程中做一些處理,例如對各權(quán)重系數(shù)進(jìn)行以10或者常數(shù)e為底的對數(shù)計算等。在實際應(yīng)用中,也可能出現(xiàn)待識別運單號的特征標(biāo)記未匹配任何所述特征空間中各樣本特征標(biāo)記的情況,例如一些比較特殊的運單號,或者新近出現(xiàn)的運單號其規(guī)律并未在訓(xùn)練樣本中出現(xiàn)過,對于這些運單號中提取的特征標(biāo)記,可以將該標(biāo)記的權(quán)重系數(shù)置為預(yù)置的非零值,例如0.5。此外,為了提高使用的便利性和識別效率,后臺服務(wù)可以不比等待用戶輸入完整的待識別運單號,而是根據(jù)用戶的輸入字符串動態(tài)實時的進(jìn)行識別,如可以根據(jù)用戶實時輸入字符串中字符以及字符出現(xiàn)順序,動態(tài)提取待識別運單號的特征標(biāo)記,進(jìn)而根據(jù)所提取的待識別運單號的特征標(biāo)記,匹配各物流商標(biāo)識對應(yīng)的特征空間中各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù),根據(jù)所匹配到的各權(quán)重系數(shù),動態(tài)地確定待識別運單號的歸屬,方便用戶使用。以上對運單號歸屬的識別方法進(jìn)行了詳細(xì)的介紹,通過該方法,可以根據(jù)各樣本運單數(shù)據(jù)的運單號中的字符以及字符出現(xiàn)順序,以預(yù)置的提取方法提取各樣本運單數(shù)據(jù)的樣本特征標(biāo)記,將所提取到的樣本特征標(biāo)記組成特征空間;進(jìn)而將各樣本運單數(shù)據(jù)對應(yīng)物流商標(biāo)識以及樣本特征標(biāo)記,輸入到預(yù)置的分類學(xué)習(xí)機中,通過分類學(xué)習(xí)分別確定各物流商標(biāo)識對應(yīng)的所述特征空間中,各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù),各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù),實際上反應(yīng)了各樣本特征標(biāo)記的統(tǒng)計學(xué)規(guī)律,同時也從量化的角度準(zhǔn)確的體現(xiàn)了不同物流商所使用運單號的客觀規(guī)律,能夠有效的運用于對運單號歸屬的預(yù)測,并且,分類學(xué)習(xí)的成本低,預(yù)測精度高。在需要對運單號歸屬進(jìn)行識別時,根據(jù)待識別運單號的字符以及字符出現(xiàn)順序,提取待識別運單號的特征標(biāo)記;根據(jù)所提取的待識別運單號的特征標(biāo)記,匹配各物流商標(biāo)識對應(yīng)的特征空間中各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù),根據(jù)所匹配到的各權(quán)重系數(shù),就可以確定待識別運單號的歸屬。該方法實現(xiàn)了一種自動化學(xué)習(xí)分類以及識別運單號歸屬,相比較現(xiàn)有技術(shù),具有自動化程度高,預(yù)測準(zhǔn)確,易于維護,更新及時等優(yōu)勢。與本申請實施例提供的運單號歸屬的識別方法相對應(yīng),本申請實施例還提供了一種運單號歸屬的識別裝置,如圖2所示,該裝置可以包括:樣本收集單元201,用于收集樣本運單數(shù)據(jù),樣本運單數(shù)據(jù)中的條目包括運單號及其對應(yīng)的物流商標(biāo)識;樣本標(biāo)記提取單元202,用于根據(jù)各樣本運單數(shù)據(jù)的運單號中的字符以及字符出現(xiàn)順序,提取各樣本運單數(shù)據(jù)的樣本特征標(biāo)記,將所提取到的樣本特征標(biāo)記組成特征空間;分類學(xué)習(xí)單元203,用于將各樣本運單數(shù)據(jù)對應(yīng)物流商標(biāo)識以及樣本特征標(biāo)記,輸入到預(yù)置的分類學(xué)習(xí)機中,通過分類學(xué)習(xí)分別確定各物流商標(biāo)識對應(yīng)的特征空間中,各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù);識別標(biāo)記提取單元204,用于在需要對運單號歸屬進(jìn)行識別時,根據(jù)待識別運單號的字符以及字符出現(xiàn)順序,提取待識別運單號的特征標(biāo)記;運單號歸屬確定單元205,用于根據(jù)所提取的待識別運單號的特征標(biāo)記,匹配各物流商標(biāo)識對應(yīng)的特征空間中各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù),根據(jù)所匹配到的各權(quán)重系數(shù),確定待識別運單號的歸屬。其中,樣本收集單元201可以包括:原始數(shù)據(jù)收集單元,用于收集物流業(yè)務(wù)中的運單號以及對應(yīng)的物流商標(biāo)識作為原始運單數(shù)據(jù);以及,原始數(shù)據(jù)處理單元,用于對原始運單數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和抽樣后得到樣本運單數(shù)據(jù)。在另一種實現(xiàn)方式下,樣本標(biāo)記提取單元202可以包括:樣本標(biāo)記提取子單元,用于在樣本運單數(shù)據(jù)的字符串中,依位次以預(yù)置窗口長度滾動截取的方式,提取各樣本運單數(shù)據(jù)的樣本特征標(biāo)記。其中,樣本標(biāo)記提取子單元,具體用于:根據(jù)各樣本運單數(shù)據(jù)的運單號中的字符以及字符出現(xiàn)順序,使用N元文法N-gram方法,提取各樣本運單數(shù)據(jù)樣本特征標(biāo)記。具體的,樣本標(biāo)記提取子單元可以用于:使用二元文法Bi-gram方法,和/或三元文法Tri-gram方法,提取各樣本運單數(shù)據(jù)的樣本特征標(biāo)記。在另一種實現(xiàn)方式下,該運單號歸屬的識別裝置還可以包括:第一標(biāo)記單元,用于對于樣本運單數(shù)據(jù)字符串中開始字段和結(jié)束字段,在依位次以預(yù)置窗口長度滾動截取時,在對應(yīng)的樣本特征標(biāo)記中分別加入開始標(biāo)記和結(jié)束標(biāo)記。此外,該運單號歸屬的識別裝置還可以包括:第二標(biāo)記單元,用于確定所截取字符串在樣本運單數(shù)據(jù)中的位置,在依位次以預(yù)置窗口長度滾動截取時,在截取得到的樣本特征標(biāo)記中加入對應(yīng)的位置標(biāo)記。另外,預(yù)置的分類學(xué)習(xí)機可以包括使用LBFG-QN擬牛頓算法實現(xiàn)的分類學(xué)習(xí)機。為了處理待識別運單號提取到的特征空間中沒有出現(xiàn)的標(biāo)記,該運單號歸屬的識別裝置還可以包括:特殊標(biāo)記處理單元,用于如果待識別運單號的特征標(biāo)記未匹配任何特征空間中各樣本特征標(biāo)記,則將該標(biāo)記的權(quán)重系數(shù)置為預(yù)置的非零值。此外,識別標(biāo)記提取單元204還可以包括:識別標(biāo)記提取子單元,用于根據(jù)用戶實時輸入字符串中字符以及字符出現(xiàn)順序,動態(tài)提取待識別運單號的特征標(biāo)記,以提高該裝置的響應(yīng)的實時性。以上對運單號歸屬的識別裝置進(jìn)行了詳細(xì)的介紹,通過該裝置,可以根據(jù)各樣本運單數(shù)據(jù)的運單號中的字符以及字符出現(xiàn)順序,以預(yù)置的提取方法提取各樣本運單數(shù)據(jù)的樣本特征標(biāo)記,將所提取到的樣本特征標(biāo)記組成特征空間;進(jìn)而將各樣本運單數(shù)據(jù)對應(yīng)物流商標(biāo)識以及樣本特征標(biāo)記,輸入到預(yù)置的分類學(xué)習(xí)機中,通過分類學(xué)習(xí)分別確定各物流商標(biāo)識對應(yīng)的所述特征空間中,各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù),各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù),實際上反應(yīng)了各樣本特征標(biāo)記的統(tǒng)計學(xué)規(guī)律,同時也從量化的角度準(zhǔn)確的體現(xiàn)了不同物流商 所使用運單號的客觀規(guī)律,能夠有效的運用于對運單號歸屬的預(yù)測。在需要對運單號歸屬進(jìn)行識別時,根據(jù)待識別運單號的字符以及字符出現(xiàn)順序,提取待識別運單號的特征標(biāo)記;根據(jù)所提取的待識別運單號的特征標(biāo)記,匹配各物流商標(biāo)識對應(yīng)的特征空間中各樣本特征標(biāo)記對應(yīng)的權(quán)重系數(shù),根據(jù)所匹配到的各權(quán)重系數(shù),就可以確定待識別運單號的歸屬。該方法實現(xiàn)了一種自動化學(xué)習(xí)分類以及識別運單號歸屬,相比較現(xiàn)有技術(shù),具有自動化程度高,預(yù)測準(zhǔn)確,易于維護,更新及時的特點。通過以上的實施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請可借助軟件加必需的通用硬件平臺的方式來實現(xiàn)?;谶@樣的理解,本申請的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在存儲介質(zhì)中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個實施例或者實施例的某些部分所述的方法。本說明書中的各個實施例均采用遞進(jìn)的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統(tǒng)或系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關(guān)之處參見方法實施例的部分說明即可。以上所描述的系統(tǒng)及系統(tǒng)實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。以上對本申請所提供的運單號歸屬的識別方法及裝置,進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本申請的原理及實施方式進(jìn)行了闡述,以上實施例的說明只是用于幫助理解本申請的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請的思想,在具體實施方式及應(yīng)用范圍上均會有改變之處。綜上所述,本說明書內(nèi)容不應(yīng)理解為對本申請的限制。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1