本發(fā)明涉及計算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種用于物流監(jiān)控的數(shù)據(jù)分析方法和裝置。
背景技術(shù):
電子商務(wù)的不斷普及催生了物流行業(yè)的迅猛發(fā)展,當(dāng)前物流平臺對于倉儲和運轉(zhuǎn)已有基本的功能模塊,其中在進(jìn)行運單檢測時,主要是根據(jù)各節(jié)點傳回的信息來監(jiān)控運單流轉(zhuǎn)情況。而對于在途運單的監(jiān)控則是一個薄弱環(huán)節(jié),要么通過與司機(jī)進(jìn)行通話了解情況,要么只能通過GPS信息得到各物流車輛所在的位置。對于物流平臺而言,在數(shù)萬條道路、數(shù)十萬輛物流車輛的數(shù)據(jù)中,運單延誤是頻繁發(fā)生的事件,對于這些事件的原因如果通過實時電話溝通,需要一一撥打電話,實現(xiàn)麻煩且在司機(jī)開車過程中也不建議接打電話。通過GPS信息也只能獲取位置信息,無法獲得延遲原因。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明提供了一種用于物流監(jiān)控的數(shù)據(jù)分析方法和裝置,以便于自動診斷物流延遲的原因。
具體技術(shù)方案如下:
本發(fā)明提供了一種用于物流監(jiān)控的數(shù)據(jù)分析方法,該方法包括:
模型建立階段:
從各時間段的商品銷售記錄和各地區(qū)在各時間段的外部因素中,提取各物流線路在各時間段的影響因素;
依據(jù)各物流線路在各時間段的配送時長信息,確定發(fā)生延遲的各物流線路在各時間段的影響因素以及延遲原因;
依據(jù)發(fā)生延遲的各物流線路在各時間段的影響因素以及延遲原因,建立延遲原因識別模型;
原因識別階段:
獲取待分析物流線路以及出發(fā)時間,從所述出發(fā)時間所對應(yīng)時間段t的商品銷售記錄和所述物流線路所涉及地區(qū)在所述時間段t的外部因素中,確定所述待分析物流線路在所述時間段t的影響因素;
將所述待分析物流線路在所述時間段t的影響因素輸入所述延遲原因識別模型,得到所述待分析物流線路的延遲原因。
根據(jù)本發(fā)明一可選實施方式,從各時間段的商品銷售記錄中,提取各物流線路在各時間段的影響因素包括:
從所述商品銷售記錄中確定各物流線路在各時間段的商品銷售量;
提取出某物流線路對應(yīng)的銷售量幅度變化超過預(yù)設(shè)幅度閾值的時間段,將銷量驟升或驟減作為所述某物流線路在所提取時間段的影響因素。
根據(jù)本發(fā)明一可選實施方式,從各地區(qū)在各時間段的外部因素中,提取各物流線路在各時間段的影響因素包括:
以預(yù)設(shè)時間粒度將影響因素庫和/或媒體數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行整合,得到各地區(qū)在各時間段的外部因素;
針對各地區(qū)和各時間段分別執(zhí)行:將地區(qū)r作為起點,終點為任意地區(qū)形成物流線路,以及將所述地區(qū)r作為終點,起點為任意地區(qū)形成物流線路,將地區(qū)r在時間段t1的外部因素作為地區(qū)r所形成物流線路在時間段t1的外部因素,其中地區(qū)r為任一個地區(qū),時間段t1為任一個時間段。
根據(jù)本發(fā)明一可選實施方式,以預(yù)設(shè)時間粒度將媒體數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行整合包括:
以預(yù)設(shè)的時間粒度確定媒體數(shù)據(jù)庫中各時間段熱點事件的表現(xiàn);
針對各時間段分別執(zhí)行:將時間段t2中熱點事件的表現(xiàn)作為該熱點事件所發(fā)生地區(qū)在時間段t2的外部因素,所述時間段t2為任一個時間段。
根據(jù)本發(fā)明一可選實施方式,依據(jù)各物流線路在各時間段的配送時長信息, 確定發(fā)生延遲的各物流線路在各時間段的影響因素以及延遲原因包括:
依據(jù)各物流線路在各時間段的配送時長信息,確定各物流線路在各時間段的延遲時長信息;
篩選出延遲時長大于設(shè)定閾值的各物流線路在各時間段的影響因素;
確定篩選出的各物流線路在各時間段的影響因素對應(yīng)的延遲原因。
根據(jù)本發(fā)明一可選實施方式,確定影響因素f對應(yīng)的延遲原因包括:
判斷所述影響因素f是否包含延遲原因詞典中的關(guān)鍵詞或關(guān)鍵詞的同義詞,如果是,則將該延遲原因詞典中關(guān)鍵詞所映射的延遲原因作為所述影響因素f對應(yīng)的延遲原因。
根據(jù)本發(fā)明一可選實施方式,根據(jù)用戶輸入的信息對所述延遲原因進(jìn)行篩選、歸并或修正。
根據(jù)本發(fā)明一可選實施方式,所述建立延遲原因識別模型包括:
利用關(guān)聯(lián)規(guī)則分別確定每個物流線路上各影響因素和延遲原因的共現(xiàn)概率。
根據(jù)本發(fā)明一可選實施方式,所述出發(fā)時間所對應(yīng)時間段包括:從所述出發(fā)時間開始至所述原因識別階段所覆蓋的時間段。
根據(jù)本發(fā)明一可選實施方式,將所述待分析物流線路在所述時間段t的影響因素輸入所述延遲原因識別模型后,所述延遲原因識別模型確定所述待分析物流線路的影響因素產(chǎn)生的延遲原因,以及各延遲原因的產(chǎn)生概率;
所述延遲原因識別模型輸出產(chǎn)生概率超過預(yù)設(shè)閾值,或者產(chǎn)生概率排在前若干個的延遲原因。
本發(fā)明還提供了一種用于物流監(jiān)控的數(shù)據(jù)分析裝置,該裝置包括模型建立單元和原因識別單元;
所述模型建立單元包括:
第一因素提取單元,用于從各時間段的商品銷售記錄和各地區(qū)在各時間段的外部因素中,提取各物流線路在各時間段的影響因素;
因素過濾單元,用于依據(jù)各物流線路在各時間段的配送時長信息,確定發(fā)生延遲的各物流線路在各時間段的影響因素以及延遲原因;
原因分類單元,用于依據(jù)發(fā)生延遲的各物流線路在各時間段的影響因素以及延遲原因,建立延遲原因識別模型;
所述原因識別單元包括:
監(jiān)控輸入單元,用于獲取待分析物流線路以及出發(fā)時間;
第二因素提取單元,用于從所述出發(fā)時間所對應(yīng)時間段t的商品銷售記錄和所述物流線路所涉及地區(qū)在所述時間段t的外部因素中,確定所述待分析物流線路在所述時間段t的影響因素;
原因分析單元,用于將所述待分析物流線路在所述時間段t的影響因素輸入所述延遲原因識別模型,得到所述待分析物流線路的延遲原因。
根據(jù)本發(fā)明一可選實施方式,所述第一因素提取單元包括:
銷售因素提取子單元,用于從所述商品銷售記錄中確定各物流線路在各時間段的商品銷售量;提取出某物流線路對應(yīng)的銷售量幅度變化超過預(yù)設(shè)幅度閾值的時間段,將銷量驟升或驟減作為所述某物流線路在所提取時間段的影響因素。
根據(jù)本發(fā)明一可選實施方式,所述第一因素提取單元包括:
外部因素提取子單元,用于以預(yù)設(shè)時間粒度將影響因素庫和/或媒體數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行整合,得到各地區(qū)在各時間段的外部因素;針對各地區(qū)和各時間段分別執(zhí)行:將地區(qū)r作為起點,終點為任意地區(qū)形成物流線路,以及將所述地區(qū)r作為終點,起點為任意地區(qū)形成物流線路,將地區(qū)r在時間段t1的外部因素作為地區(qū)r所形成物流線路在時間段t1的外部因素,其中地區(qū)r為任一個地區(qū),時間段t1為任一個時間段。
根據(jù)本發(fā)明一可選實施方式,所述外部因素提取子單元在以預(yù)設(shè)時間粒度將媒體數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行整合時,具體執(zhí)行:
以預(yù)設(shè)的時間粒度確定媒體數(shù)據(jù)庫中各時間段熱點事件的表現(xiàn);
針對各時間段分別執(zhí)行:將時間段t2中熱點事件的表現(xiàn)作為該熱點事件所發(fā)生地區(qū)在時間段t2的外部因素,所述時間段t2為任一個時間段。
根據(jù)本發(fā)明一可選實施方式,所述因素過濾單元,具體用于:
依據(jù)各物流線路在各時間段的配送時長信息,確定各物流線路在各時間段的 延遲時長信息;
篩選出延遲時長大于設(shè)定閾值的各物流線路在各時間段的影響因素;
確定篩選出的各物流線路在各時間段的影響因素對應(yīng)的延遲原因。
根據(jù)本發(fā)明一可選實施方式,所述因素過濾單元在確定影響因素f對應(yīng)的延遲原因時,具體執(zhí)行:
判斷所述影響因素f是否包含延遲原因詞典中的關(guān)鍵詞或關(guān)鍵詞的同義詞,如果是,則將該延遲原因詞典中關(guān)鍵詞所映射的延遲原因作為所述影響因素f對應(yīng)的延遲原因。
根據(jù)本發(fā)明一可選實施方式,該裝置還包括:交互式輸入單元,用于根據(jù)用戶輸入的信息對所述延遲原因進(jìn)行篩選、歸并或修正。
根據(jù)本發(fā)明一可選實施方式,所述原因分類單元在建立延遲原因識別模型時,利用關(guān)聯(lián)規(guī)則分別確定每個物流線路上各影響因素和延遲原因的共現(xiàn)概率。
根據(jù)本發(fā)明一可選實施方式,所述出發(fā)時間所對應(yīng)時間段包括:從所述出發(fā)時間開始至所述原因識別階段所覆蓋的時間段。
根據(jù)本發(fā)明一可選實施方式,所述原因分析單元將所述待分析物流線路在所述時間段t的影響因素輸入所述延遲原因識別模型后,所述延遲原因識別模型確定所述待分析物流線路的影響因素產(chǎn)生的延遲原因,以及各延遲原因的產(chǎn)生概率;
所述原因分析單元獲取所述延遲原因識別模型輸出的產(chǎn)生概率超過預(yù)設(shè)閾值的延遲原因,或者產(chǎn)生概率排在前若干個的延遲原因。
由以上技術(shù)方案可以看出,本發(fā)明利用各時間段的商品銷售記錄、各地區(qū)在各時間段的外部因素以及各物流線路在各時間段的配送時長信息,建立延遲原因識別模型,將待分析物流線路在出發(fā)時間所對應(yīng)時間段的影響因素輸入該延遲原因識別模型就能夠自動得到待分析物流線路的延遲原因。
【附圖說明】
圖1為本發(fā)明實施例提供的方法流程圖;
圖2為電商銷售數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)實例圖;
圖3為本發(fā)明實施例提供的裝置結(jié)構(gòu)圖。
【具體實施方式】
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖和具體實施例對本發(fā)明進(jìn)行詳細(xì)描述。
圖1為本發(fā)明實施例提供的方法流程圖,如圖1中所示,該方法可以包括以下步驟:
在101中,以預(yù)設(shè)時間粒度將電商銷售數(shù)據(jù)庫中的銷售記錄進(jìn)行整合,得到各類別商品在各時間段中的銷售記錄,其中銷售記錄可以包括物流線路和銷售量。
電商銷售數(shù)據(jù)庫中記錄了各商品的銷售記錄,由于電商銷售數(shù)據(jù)庫中的各商品具有屬性的類別層次,因此電商銷售數(shù)據(jù)庫中的數(shù)據(jù)結(jié)構(gòu)可以體現(xiàn)為如圖2中所示的層次結(jié)構(gòu)。
以預(yù)設(shè)時間粒度將各銷售記錄進(jìn)行整合后,可以得到各類別商品在各時間段中的銷售記錄,假設(shè)時間粒度為天,那么可以得到各類別商品每天的銷售記錄可以按照“商品類別+物流線路+銷售時間+銷售量”,其中銷售量可以采用單數(shù)表示,也可以采用銷售額表示。例如下所示:
大家電合肥~上海2015年1月1日10000單
大家電合肥~上海2015年1月2日5000單
服裝福建~北京2015年1月1日120000單
服裝福建~北京2015年1月2日100000單
……
將某物流線路在某時間段上的各類別商品的銷售量進(jìn)行整合,就能夠得到該物流線路在該時間段上的商品銷售量,分別針對各物流線路在各時間段上執(zhí)行該整合的操作,就能夠得到各物流線路在各時間段的商品銷售量。
在102中,以預(yù)設(shè)時間粒度將影響因素庫與媒體數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行整 合,得到各地區(qū)在各時間段中的外部因素。
影響因素庫通常為對物流影響較大、且影響比較穩(wěn)定的因素,例如氣象因素。影響因素庫中的數(shù)據(jù)可以從第三方獲取,例如從氣象服務(wù)部門獲取氣象數(shù)據(jù),存儲格式可以諸如:“時間+區(qū)域+氣象信息”,氣象信息中可以包括天氣類別、溫度等信息。例如:
2015年1月1日杭州晴,10~15度
2015年1月1日烏魯木齊暴雪,--15~-4度
…
媒體數(shù)據(jù)庫可以包含諸如新聞、數(shù)字期刊等傳統(tǒng)媒體的數(shù)據(jù),也可以包含諸如微博、人人等社交媒體的數(shù)據(jù)。媒體數(shù)據(jù)庫中記錄了從傳統(tǒng)媒體或社交媒體獲取的影響物流的事件信息,將各時間段內(nèi)的事件信息作為外部因素。在提取事件信息時,可以采用熱點事件的提取方式,例如依據(jù)點擊量、討論量、搜索量等的時序特征,對于點擊量、討論量、搜索量等驟升的事件,可以作為熱點事件,也可以將特殊通知、特殊新聞等作為熱點事件。由于不同類別的媒體都有各自熱點事件的提取方式,本發(fā)明實施例對于熱點事件的提取方式并不加以限制。本發(fā)明實施例中可以將熱點事件的表現(xiàn)作為影響物流的事件信息,即外部因素。以時間段t2為例,將時間段t2中熱點事件的表現(xiàn)作為該熱點事件所發(fā)生地區(qū)在時間段t2的外部因素。
媒體數(shù)據(jù)庫中包含的數(shù)據(jù)格式可以為“時間+地點+事件信息”,例如:
2015年1月1日北京五環(huán)堵車微博討論量驟升
2015年1月1日貴州省福泉市山體滑坡新聞點擊量驟升
2015年1月1日北京二環(huán)交通管制
…
需要說明的而是,上述步驟101和步驟102的執(zhí)行順序并不加以限制,可以任意的順序先后執(zhí)行,也可以同時執(zhí)行。
在103中,從各類別商品在各時間段中的銷售記錄和各地區(qū)在各時間段的外部因素中,提取各物流線路在各時間段的影響因素。
從各類別商品在各時間段中的銷售記錄中,可以提取出某物流線路對應(yīng)銷量幅度變化(該幅度變化可以與前一時間段的銷量相比,也可以與之前設(shè)定時長時間段的銷量平均值相比,這里的幅度變化可以包括增幅和降幅)超過預(yù)設(shè)幅度閾值的時間段,將銷量驟升或驟減作為某物流線路在所提取時間段的影響因素。例如在雙十一、新年促銷等時,某類別商品的銷量可能驟升,那么就可以提取出作為影響因素。格式可以為:
大家電合肥~上海2015年1月1日銷量驟升
從各時間段的外部因素中,將其中的區(qū)域或地點信息作為物流線路的起點或終點,形成如下格式的影響因素:
**~杭州2015年1月1日溫度驟升
杭州~**2015年1月1日溫度驟升
**~烏魯木齊2015年1月1日氣候暴雪
烏魯木齊~**2015年1月1日氣候暴雪
**~北京2015年1月1日五環(huán)堵車微博討論量驟升
北京~**2015年1月1日五環(huán)堵車微博討論量驟升
**~貴州省福泉市2015年1月1日山體滑坡新聞點擊量驟升
貴州省福泉市~**2015年1月1日山體滑坡新聞點擊量驟升
…
其中,**為通配符,可以指代任意地點。
在104中,依據(jù)各物流線路在各時間段的配送時長信息,確定各物流線路在各時間段的延遲時長信息。
可以預(yù)先設(shè)定各物流線路的正常配送時長,取實際配送時長與正常配送時長的差值作為延遲時長,這里物流線路在某時間段的實際配送時長可以取該物流線路在該時間段對應(yīng)的各訂單的實際配送時長的平均值。
例如:合肥~上海2015年1月1日延遲18小時
福建~北京2015年1月1日延遲8小時
北京~烏魯木齊2015年1月1日延遲34小時
……
步驟103與步驟104的執(zhí)行順序也不加以限制,可以以任意的順序先后執(zhí)行,也可以同時執(zhí)行。
在105中,確定延遲的各物流線路在各時間段的影響因素以及延遲原因。
在本步驟中,可以依據(jù)步驟104中確定的各物流線路在各時間段的延遲時長信息,對各物流線路在各時間段的影響因素進(jìn)行篩選,篩選出延遲的各物流線路在各時間段的影響因素。在篩選時,可以將延遲時長設(shè)定一個閾值,將延遲時長大于該設(shè)定的閾值的各物流線路在各時間段的影響因素篩選出來,作為延遲的各物流線路在各時間段的影響因素。
假設(shè)設(shè)定的閾值為12小時,那么篩選出如下物流線路在時間段的影響因素:
合肥~上海2015年1月1日銷量驟升
北京~**2015年1月1日五環(huán)堵車微博討論量驟升
**~烏魯木齊2015年1月1日氣候暴雪
…
然后確定上述造成延遲的各物流線路在各時間段的影響因素對應(yīng)的延遲原因。在提取延遲原因時,可以預(yù)先設(shè)置延遲原因詞典,該延遲原因詞典中包含延遲原因的關(guān)鍵詞。如果影響因素中包含這些關(guān)鍵詞或者關(guān)鍵詞的同義詞,則該影響因素就能夠映射到具體的延遲原因上。例如,影響因素“五環(huán)堵車微博討論量驟升”包含關(guān)鍵詞“堵車”,延遲原因詞典中“堵車”對應(yīng)的延遲原因為“交通堵塞”,則該影響因素對應(yīng)的延遲原因為“交通堵塞”。影響因素“氣候暴雪”包含關(guān)鍵詞“大雪”的同義詞“暴雪”,延遲原因詞典中“大雪”對應(yīng)的延遲原因為“大雪”,則該影響因素對應(yīng)的延遲原因為“大雪”。除了該方式之外,也可以采用其他方式確定影響因素對應(yīng)的延遲原因,例如進(jìn)行語義分析的方式等。
在本步驟執(zhí)行完畢后,可以進(jìn)行人工干預(yù),對上述確定的延遲原因進(jìn)行篩選、歸并或修正。
在106中,基于延遲的各物流線路在各時間段的影響因素以及延遲原因,訓(xùn)練分類模型,從而建立延遲原因識別模型。
在建立延遲原因識別模型時,可以采用關(guān)聯(lián)規(guī)則分別確定每個物流線路上各影響因素和延遲原因的共現(xiàn)概率。即針對每個延遲的物流線路進(jìn)行統(tǒng)計,統(tǒng)計步驟105確定出的該物流線路的條目中影響因素a和延遲原因b同時出現(xiàn)的次數(shù)N1,步驟105確定出的該物流線路的總條目數(shù)N2,N1和N2的比值就是該物流線路上影響因素a和延遲原因b同時出現(xiàn)的概率。
例如,按照“物流線路+影響因素+延遲原因+概率”的格式,可以得到如下條目:
合肥~上海2015年1月1日銷量驟升銷量驟升80%
北京~**2015年1月1日五環(huán)堵車微博討論量驟升交通堵塞70%
**~烏魯木齊2015年1月1日氣候暴雪大雪50%
…
以上是延遲原因識別模型的建立過程,上述過程可以是預(yù)先建立的,并周期性地或者實時地進(jìn)行更新。如果需要對某物流線路的延遲原因進(jìn)行分析,則開始執(zhí)行以下分析過程:
在107中,獲取待分析物流線路以及待分析物流線路的出發(fā)時間。
在本發(fā)明實施例中,可以從已有的物流車輛監(jiān)控系統(tǒng)獲取已發(fā)生延遲的物流車輛信息,該物流車輛信息可以包括該物流車輛對應(yīng)的物流線路和出發(fā)時間,可以將已發(fā)生延遲的物流車輛對應(yīng)的物流線路作為待分析物流線路。
本步驟獲取的數(shù)據(jù)格式可以為“車輛+物流線路+出發(fā)時間”,例如下所示:
車輛A北京烏魯木齊2015年1月15日
在108中,從各類別商品在上述出發(fā)時間的銷售記錄和外部因素中,提取待分析物流線路在該出發(fā)時間所對應(yīng)時間段的影響因素。
由于從出發(fā)時間到原因識別階段之間都可能發(fā)生造成延遲的原因事件,因此可以將從出發(fā)時間到原因識別階段所覆蓋的時間段作為該出發(fā)時間所對 應(yīng)時間段的影響因素。
為了描述方便,將出發(fā)時間所對應(yīng)時間段稱為時間段t。本步驟中,影響因素的提取方式與上述103中所述的方式相同,即從各時間段中的銷售記錄中確定待分析物流線路在時間段t對應(yīng)的銷售記錄,將影響因素庫與媒體數(shù)據(jù)庫中與待分析物流線路相關(guān)的時間段t的數(shù)據(jù)進(jìn)行整合,得到待分析物流線路在時間段t的外部因素,然后從確定的銷售記錄和外部因素中提取影響因素。
例如,北京烏魯木齊2015年1月15日的外部因素包括:
北京2015年1月15日三環(huán)堵車微博討論量驟升
北京2015年1月15日氣候暴雨
北京2015年1月15日暴雨新聞點擊量驟升
烏魯木齊2015年1月15日發(fā)生爆炸搜索量驟升
烏魯木齊2015年1月15日高速車禍微博討論量驟升
在109中,將待分析物流線路及時間段t、該時間段t對應(yīng)的影響因素輸入延遲原因識別模型,得到該待分析物流線路的延遲原因。
將上述信息輸入延遲原因識別模型后,得到的是上述物流線路的影響因素產(chǎn)生的延遲原因,以及各延遲原因的產(chǎn)生概率。可以最終輸出產(chǎn)生概率超過預(yù)設(shè)閾值,或者產(chǎn)生概率排在前M個的延遲原因,M為預(yù)設(shè)的正整數(shù)。例如最終輸出:
暴雨 80%
高速事故 60%
以上是對本發(fā)明所提供的方法進(jìn)行的詳細(xì)描述,下面對本發(fā)明提供的裝置進(jìn)行詳細(xì)描述。
圖3為本發(fā)明實施例提供的裝置結(jié)構(gòu)圖,如圖3所示,該裝置主要包括模型建立單元00和原因識別單元10,還可以包括交互式輸入單元20。其中,模型建立單元00用以完成模型建立階段的功能,原因識別單元10用以完成原因識別階段的功能。具體地,模型建立單元00可以包括第一因素提取單元 01、因素過濾單元02和原因分類單元03。原因識別單元10可以包括監(jiān)控輸入單元11、第二因素提取單元12和原因分析單元13。各組成單元的主要功能如下:
第一因素提取單元01負(fù)責(zé)從各時間段的商品銷售記錄和各地區(qū)在各時間段的外部因素中,提取各物流線路在各時間段的影響因素。
第一因素提取單元01可以包括:銷售因素提取子單元011和外部因素提取子單元012。其中銷售因素提取子單元011負(fù)責(zé)從商品銷售記錄中確定各物流線路在各時間段的商品銷售量;提取出某物流線路對應(yīng)的銷售量幅度變化超過預(yù)設(shè)幅度閾值的時間段,將銷量驟升或驟減作為某物流線路在所提取時間段的影響因素。
其中,將某物流線路在某時間段上的各類別商品的銷售量進(jìn)行整合,就能夠得到該物流線路在該時間段上的商品銷售量,分別針對各物流線路在各時間段上執(zhí)行該整合的操作,就能夠得到各物流線路在各時間段的商品銷售量。
外部因素提取子單元012以預(yù)設(shè)時間粒度將影響因素庫和/或媒體數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行整合,得到各地區(qū)在各時間段的外部因素;針對各地區(qū)和各時間段分別執(zhí)行:將地區(qū)r作為起點,終點為任意地區(qū)形成物流線路,以及將地區(qū)r作為終點,起點為任意地區(qū)形成物流線路,將地區(qū)r在時間段t1的外部因素作為地區(qū)r所形成物流線路在時間段t1的外部因素,其中地區(qū)r為任一個地區(qū),時間段t1為任一個時間段。
上述的影響因素庫通常為對物流影響較大、且影響比較穩(wěn)定的因素,例如氣象因素。影響因素庫中的數(shù)據(jù)可以從第三方獲取,例如從氣象服務(wù)部門獲取氣象數(shù)據(jù)。媒體數(shù)據(jù)庫可以包含諸如新聞、數(shù)字期刊等傳統(tǒng)媒體的數(shù)據(jù),也可以包含諸如微博、人人等社交媒體的數(shù)據(jù)。媒體數(shù)據(jù)庫中記錄了從傳統(tǒng)媒體或社交媒體獲取的影響物流的事件信息。
其中,外部因素提取子單元012在以預(yù)設(shè)時間粒度將媒體數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行整合時,可以以預(yù)設(shè)的時間粒度確定媒體數(shù)據(jù)庫中各時間段熱點事件的表 現(xiàn);針對各時間段分別執(zhí)行:將時間段t2中熱點事件的表現(xiàn)作為該熱點事件所發(fā)生地區(qū)在時間段t2的外部因素,時間段t2為任一個時間段。熱點事件的表現(xiàn)可以是某熱點事件的點擊量、討論量、搜索量等的時序特征反映,例如某熱點事件的微博討論量驟升。
因素過濾單元02依據(jù)各物流線路在各時間段的配送時長信息,確定發(fā)生延遲的各物流線路在各時間段的影響因素以及延遲原因。具體地,可以依據(jù)各物流線路在各時間段的配送時長信息,確定各物流線路在各時間段的延遲時長信息;篩選出延遲時長大于設(shè)定閾值的各物流線路在各時間段的影響因素;確定篩選出的各物流線路在各時間段的影響因素對應(yīng)的延遲原因。
其中,因素過濾單元02在確定某影響因素對應(yīng)的延遲原因時,可以判斷該影響因素是否包含延遲原因詞典中的關(guān)鍵詞或關(guān)鍵詞的同義詞,如果是,則將該延遲原因詞典中關(guān)鍵詞所映射的延遲原因作為該影響因素對應(yīng)的延遲原因。
用戶可以通過交互式輸入單元20與該裝置進(jìn)行交互,相應(yīng)地,交互式輸入單元20可以根據(jù)用戶輸入的信息對延遲原因進(jìn)行篩選、歸并或修正。
原因分類單元03負(fù)責(zé)依據(jù)發(fā)生延遲的各物流線路在各時間段的影響因素以及延遲原因,建立延遲原因識別模型。實際上就是利用各物流線路在各時間段的影響因素以及延遲原因訓(xùn)練分類模型,原因分類單元03在訓(xùn)練分類模型時,可以利用關(guān)聯(lián)規(guī)則分別確定每個物流線路上各影響因素和延遲原因的共現(xiàn)概率。
監(jiān)控輸入單元11負(fù)責(zé)獲取待分析物流線路以及出發(fā)時間。在本發(fā)明實施例中,可以從已有的物流車輛監(jiān)控系統(tǒng)獲取已發(fā)生延遲的物流車輛信息,該物流車輛信息可以包括該物流車輛對應(yīng)的物流線路和出發(fā)時間,可以將已發(fā)生延遲的物流車輛對應(yīng)的物流線路作為待分析物流線路。
第二因素提取單元12負(fù)責(zé)從出發(fā)時間所對應(yīng)時間段t的商品銷售記錄和物流線路所涉及地區(qū)在時間段t的外部因素中,確定待分析物流線路在時間段t的影響因素。第二因素提取單元12的處理原理與第一因素提取單元01相同,也第二因素提取單元12也可以復(fù)用第一因素提取單元01來實現(xiàn)。
原因分析單元13負(fù)責(zé)將待分析物流線路在時間段t的影響因素輸入延遲原因識別模型,得到待分析物流線路的延遲原因。
上述的出發(fā)時間所對應(yīng)時間段t可以包括:從出發(fā)時間開始至原因識別階段所覆蓋的時間段。
原因分析單元13在將待分析物流線路在時間段t的影響因素輸入延遲原因識別模型后,延遲原因識別模型確定待分析物流線路的影響因素產(chǎn)生的延遲原因,以及各延遲原因的產(chǎn)生概率。然后,原因分析單元13獲取延遲原因識別模型輸出的產(chǎn)生概率超過預(yù)設(shè)閾值的延遲原因,或者產(chǎn)生概率排在前若干個的延遲原因。
在本發(fā)明所提供的幾個實施例中,應(yīng)該理解到,所揭露的裝置和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式。
另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用硬件加軟件功能單元的形式實現(xiàn)。
上述以軟件功能單元的形式實現(xiàn)的集成的單元,可以存儲在一個計算機(jī)可讀取存儲介質(zhì)中。上述軟件功能單元存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機(jī)設(shè)備(可以是個人計算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明各個實施例所述方法的部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(Read-Only Memory,ROM)、隨機(jī)存取存儲器(Random Access Memory,RAM)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。