大數(shù)據(jù)在GIS智慧高速中的創(chuàng)新應用!通過分析信息化建設脈絡中高速公路數(shù)據(jù)的海量產(chǎn)生,結構復雜的海量數(shù)據(jù)存儲及處理,闡述大數(shù)據(jù)平臺在智慧高速建設中的作用,總結大數(shù)據(jù)在智慧高速中的客戶服務、運營優(yōu)化、稽查分析、應急資源調(diào)度、預測預警等方面的具體應用,對交通指揮中心工作提供支持。
1引言
隨著經(jīng)濟社會的發(fā)展,城市人口持續(xù)增長,數(shù)量持續(xù)增長的車輛給交通基礎設施通行能力帶來極大壓力。交通擁堵、交通事故、環(huán)境污染及能源短缺已成為目前面臨的重要問題,尤其在高速公路交通管理尤其變得更加明顯。如何有效利用傳統(tǒng)的高速公路數(shù)據(jù)與設備,提高交通運輸效率、安全性、整體效益,提高交通的科學管理和組織服務水平是管理者迫切需要解決的問題。
車輛在高速公路上,本身的動作及設備會產(chǎn)生海量數(shù)據(jù),在沒有大數(shù)據(jù)平臺之前,高速公路上產(chǎn)生的數(shù)據(jù)分門別類的分布在Oracle、MySQL等數(shù)據(jù)庫中,因為各自處理語言不同,在剛使用時分析速度尚且可以,但隨著數(shù)據(jù)量越來越多,查詢調(diào)用越來越頻繁,速度變得越來越慢,無法滿足高速管理需求。
2高速公路數(shù)據(jù)產(chǎn)生
高速公路的信息化建設包含從基建到信息記錄等多個層面。所有的環(huán)節(jié)都在不停地產(chǎn)生數(shù)據(jù),成為智慧高速中的海量數(shù)據(jù)來源。首先是高速公路的硬件和基礎設施,當一輛車開進收費站,先經(jīng)過地下預埋的地感線圈,經(jīng)過地板線圈進行切割磁力線,產(chǎn)生很弱的電流,車輛開進來會由定焦在地感線圈的攝像機拍一張圖片,產(chǎn)生車輛進入收費站的第一個數(shù)據(jù)。繼而遞交收費卡、讀卡、寫卡,寫卡的同時計算從A點到B點的費用,每一個動作都在產(chǎn)生數(shù)據(jù)。高速公路收費還涉及更加復雜的情況,如起點A到終點B,中間經(jīng)過三段高速公路,三段的收費主體不同,需要在收費的金額上進行三個收費主體的拆分,這涉及到后臺的數(shù)據(jù)計算。所以一輛車從進入收費口到駛離收費口,至少會產(chǎn)生兩張圖片,十余條流水數(shù)據(jù),同時還會產(chǎn)生車道攝像和停位攝像等大量的視頻信息。
產(chǎn)生大量車輛數(shù)據(jù)的同時,收費員的動作,如按抬桿鍵、放行鍵、軍車鍵等,也會產(chǎn)生數(shù)據(jù)記錄,方便后續(xù)稽查時的圖片分析,避免逃費等行為。設備本身也會產(chǎn)生大量數(shù)據(jù),比如抬桿、打票、紅綠燈轉換,全部都會產(chǎn)生日志信息進入數(shù)據(jù)庫,這還只是收費相關的數(shù)據(jù)信息。在看不到的地面上,還會存在很多信息采集系統(tǒng),比如地磁式傳感器、攝像頭,檢測車輛通過時的平均速度、平均車間距和平均占有率等等信息,大量數(shù)據(jù)都會進入數(shù)據(jù)庫,進行后續(xù)的存儲分析。一輛車在駛離高速公路時,已經(jīng)產(chǎn)生了大量的數(shù)據(jù)信息,其中包含結構化和非結構化數(shù)據(jù)、流數(shù)據(jù)等多種數(shù)據(jù)形式。
3大數(shù)據(jù)平臺架構設計及數(shù)據(jù)處理
高速公路上產(chǎn)生的海量數(shù)據(jù),需要一個企業(yè)級的大數(shù)據(jù)平臺,對數(shù)據(jù)進行分門別類的存儲管理,TDH企業(yè)級一站式大數(shù)據(jù)平臺,以分布式架構對數(shù)據(jù)進行存儲和計算,并在此基礎上進行數(shù)據(jù)處理和應用。
3.1大數(shù)據(jù)平臺架構設計
數(shù)據(jù)進入大數(shù)據(jù)平臺,上游業(yè)務系統(tǒng)中的數(shù)據(jù),通過文件交換或Sqoop方式同步到大數(shù)據(jù)平臺的貼源層,然后經(jīng)過批處理加工后,形成明細層、匯總層和模型層。對于歷史數(shù)據(jù),比如收費站入口流水表和出口流水表,選擇存儲在Search引擎中,可以進行快速的歷史數(shù)據(jù)檢索。對于非結構化數(shù)據(jù),例如圖片和視頻影像,選擇存儲在Hyperbase引擎中。
同時,為了提高大數(shù)據(jù)平臺的數(shù)據(jù)質(zhì)量,使用Governor管理元數(shù)據(jù)(包括表和存儲過程),監(jiān)控所有數(shù)據(jù)的更改歷史,進行數(shù)據(jù)血緣分析和影響分析。對上層的基于大數(shù)據(jù)平臺的應用,可以使用標準的JDBC或ODBC與大數(shù)據(jù)平臺進行連接,對數(shù)據(jù)挖掘需求,如節(jié)假日車流量預測、高速路擁堵程度預測等,可以圖形化拖拽機器學習平臺Sophon組件進行預測。
3.2高速公路的數(shù)據(jù)存儲及處理
高速公路中產(chǎn)生的車輛動作和收費員動作、信息采集系統(tǒng)等產(chǎn)生的海量數(shù)據(jù)都進入大數(shù)據(jù)平臺進行存儲和處理。這些結構復雜,形式多樣的海量數(shù)據(jù),對數(shù)據(jù)存儲和處理提出了很高的要求。
大數(shù)據(jù)平臺支持兼容Oracle、DB2、Teradata數(shù)據(jù)庫/數(shù)據(jù)倉庫SQL方言,可以輕松的將數(shù)據(jù)從傳統(tǒng)架構中進行遷移,所以方便應用研發(fā)人員利用這一特性實現(xiàn)數(shù)據(jù)處理核心的升級換代。同時,TDH支持低延時和高吞吐的實時計算場景,可實現(xiàn)基礎結構化數(shù)據(jù)、非結構化數(shù)據(jù)和流數(shù)據(jù)的存儲,并隨時無縫擴容。大數(shù)據(jù)平臺基本架構在于,對全省高速路網(wǎng)監(jiān)控收費運營數(shù)據(jù)進行采集和整合,進入數(shù)據(jù)中心,基礎數(shù)據(jù)庫經(jīng)過大數(shù)據(jù)平臺處理形成專題數(shù)據(jù)庫,然后將路網(wǎng)設備設施等資源統(tǒng)一融合,形成GIS和視頻支撐平臺,繼而在集成平臺以GIS和視頻平臺做支撐形成五大應用系統(tǒng)相互協(xié)作,最終在終端設置,如監(jiān)控中心的監(jiān)控大屏、會商室顯示、普通的監(jiān)控工作站、移動終端等設備上進行展示和發(fā)布。
高速公路大數(shù)據(jù)由幾個大的部分構成:高速收費數(shù)據(jù)主要應用于收費管理、風險管理、運營優(yōu)化;監(jiān)控設備數(shù)據(jù)主要應用于視頻監(jiān)控、運營管理、指揮調(diào)度;交調(diào)設備數(shù)據(jù)主要應用于基礎采集、運營管理、指揮調(diào)度。交通數(shù)據(jù)尤其是視頻數(shù)據(jù)和圖像數(shù)據(jù),在一個省份數(shù)萬個攝像頭下,以TB量級甚至PB量級增長,數(shù)據(jù)量巨大,在大數(shù)據(jù)平臺支撐下,完成平滑擴容和查詢分析等業(yè)務應用。
4智慧高速中的大數(shù)據(jù)應用
4.1大數(shù)據(jù)平臺的處理
大數(shù)據(jù)平臺把實時數(shù)據(jù),包括高速公路上的收費、監(jiān)控等實時數(shù)據(jù)上傳,與傳統(tǒng)業(yè)務數(shù)據(jù)進行整合,包括一些城市交通等外聯(lián)單位的歷史數(shù)據(jù)。將各類結構化、非結構化、半結構化的數(shù)據(jù),包括監(jiān)控圖像、抓拍信息、收費日志和視頻等信息,進行數(shù)據(jù)集成、數(shù)據(jù)轉換處理,然后各自建模分析,形成專題數(shù)據(jù),把專題數(shù)據(jù)應用到相應的應用系統(tǒng)中,提供支撐。
4.2主要應用方面
大數(shù)據(jù)在高速中的應用主要包括以下幾方面:
?。?)客戶服務。在ETC用戶管理與車輛引導中,主要使用Apriori算法進行關聯(lián)分析,提供客戶增值服務和精準信息推送,同時滿足客戶關系管理的要求??梢愿鶕?jù)客戶的車輛遷徙路線等分析,進行相關的路線信息推送等。
在ETC用戶管理與車輛引導中,基于客戶歷史遷徙路線和商品購買歷史,運用高維矩陣分解方法,發(fā)現(xiàn)客戶購買偏好和潛在需求以及出行規(guī)律。當客戶通過ETC時,實時拍照識別鑒定客戶之后,基于客戶車輛歷史通過卡口數(shù)據(jù),調(diào)用訓練好在線數(shù)據(jù)挖掘模型,可以以大數(shù)據(jù)可視化的方式顯示出來客戶遷徙路線,并預測出客戶未來遷徙線路,進而進行精準的地點線路信息推送。
路線遷徙的可視化和路線預測的建模過程如下:
利用大數(shù)據(jù)可視化方法,不僅可以詳細每個車輛在地圖上車輛行駛軌跡,而且可以顯示所有車輛的運行總線路。例如春運年前的時候,可以看到小轎車大部分都是從北上廣深流向中西部城市,年后的時候大部分車輛向北上廣深匯集。再者,某個客運或者貨車司機的路線有其固定的運行線路。路線預測建模過程如下:
基于客戶信息、車輛信息、車輛通過何時通過卡口數(shù)據(jù)歷史數(shù)據(jù),利用關聯(lián)分析和高維矩陣分解方法,找到車輛和卡口進出對應關系,預測客戶在下一段時間會通過的卡口,進而預測車輛行駛軌跡,從而提供精準的信息推送。
?。?)運營優(yōu)化。通過流式機器學習實現(xiàn)時效分析,提前預警,協(xié)同各單位指揮調(diào)度;在進入大數(shù)據(jù)平臺之后,通過數(shù)據(jù)分析,可以通過高速公路熱點視頻查看,進行自動推送;建立領導駕駛艙,設定流量排名,為優(yōu)化運營提供決策依據(jù)。
通過流式機器學習實現(xiàn)時效分析,提前預警,協(xié)同各單位指揮調(diào)度;在進入大數(shù)據(jù)平臺之后,通過數(shù)據(jù)分析,可以通過高速公路熱點視頻查看,進行自動推送;建立領導駕駛艙,設定流量排名,為優(yōu)化運營提供決策依據(jù)?;趕ophon的在線的流式增量機器學習算法,開發(fā)時空深度殘差網(wǎng)絡(ST-ResNet)預測車輛密度。例如把高速公路,劃成很多個矩形小區(qū)域,多個區(qū)域同時分析,它是一種整體性的預測。主要基于平滑性、周期性以及趨勢性等三個個時間屬性以及空時間屬性和外部天氣數(shù)據(jù)。
第一,模擬局部相鄰時刻。它是一個平滑的過程,比如中午三點跟中午四點流量變化不會很大。
第二,模擬周期性。把對應時間點昨天、前天、近一周平均、近一個月平均這個時刻的數(shù)據(jù),作為輸入,來刻畫周期性。
第三,模擬趨勢性。把當前時間點更遠點(前推半個、一個小時)的時間點(例如昨天、上周、上個月)的數(shù)據(jù),模擬趨勢性。
第四,抽取空間屬性。利用深度卷積神經(jīng)網(wǎng)絡,把一些地區(qū)劃成子區(qū)域之后,相關的區(qū)域做會做卷積運算并合并,通過卷積之后,抓住了這個區(qū)域周圍的車輛流量的相關性。這樣卷積多次之后,相當于把更遠相關區(qū)域的屬性的影響都聚合到一起了。
基于這四個結果,系統(tǒng)再做一個融合。第一部分融合,就是只考慮它的時間和空間屬性。再考慮外部因素,比如最近的附近天氣數(shù)據(jù)拿做第二次融合得到最終結果。
?。?)稽查分析。通過在Inceptor中對原始交易流水費分析,提供逃費稽查、出入口流水對比等異常行為的分析服務。
通過在Inceptor中對原始的交易流水統(tǒng)計分析,抽取車輛逃費稽查和出入口流量相關歷史特征,具體有,車輛最近一周、最近一個月、最近半年的繳費信息,繳費卡口每天每個時間點的出入流量信息。
利用discover模型融合方法,融合時序預測模型和異常檢測模型,效果較單獨一種方法提升1.6倍。具體實現(xiàn)如下:
首先,利用discover大數(shù)據(jù)分布式自動的時序預測方法,預測此卡口的當前流量,并和當前實際的出入情況對比,如果當前流量少于預測流量,則可能有逃費稽查情況出現(xiàn);其次,利用分布式異常檢測算法iforest和無監(jiān)督算法深度自編碼器檢測數(shù)據(jù)異常,發(fā)現(xiàn)行為詭異車輛,業(yè)界先進的iforest和深度自編碼器算法可以自動異常檢測此種逃費稽查的車輛,會和平時它的繳費習慣不同,也會和其自前所屬群體的習慣有所偏離,綜合的偏離程度月的,逃費的概率越大。最后,利用非線性模型融合的方法,融合時序預測模型和異常檢測模型兩者的優(yōu)點,能更準確的定位異常行為的車輛,為車輛稽查分析提供智能。
(4)聯(lián)合指揮。通過各項數(shù)據(jù)在Inceptor中的匯總和分析,綜合呈現(xiàn)各相關數(shù)據(jù),形成聯(lián)合指揮。基于應急資源管理、路網(wǎng)交通協(xié)同調(diào)度、應急預案管理、處置效果評估、無人機監(jiān)控等模塊,實現(xiàn)交警、消防、路政等多部門聯(lián)動響應,為各類交通事件條件下的路網(wǎng)協(xié)同控制和誘導管理提供可視化管理界面和決策支持。
(5)應急資源調(diào)度。借助Inceptor的大規(guī)模數(shù)據(jù)處理能力,整合傳統(tǒng)的應急資源設備與資源,協(xié)同建立最優(yōu)化的調(diào)度。應急指揮調(diào)度系統(tǒng)可以采取“掛圖作戰(zhàn)”的形式進行,有效地保證在出現(xiàn)特殊情況時可以采取科學的應急措施,積極、快速、有序地處理各類事件,保障高速公路的正常、安全運行,實現(xiàn)應急指揮、應急資源和應急過程的信息化管理。
?。?)預測預警。擴充傳統(tǒng)全面風險管理的數(shù)據(jù)維度,在交通預警等角度分析,提前告知用戶。根據(jù)往年節(jié)假日各收費站流量統(tǒng)計數(shù)據(jù),通過分析算法對本年節(jié)假日流量做出預測并進行排名。預測值是否超過對應收費站設定的報警門限,可以根據(jù)顏色分級進行預警。根據(jù)歷史通行數(shù)據(jù)對車流量進行分析和預測,為節(jié)假日高峰時段的安全暢通發(fā)出預警、提前采取保暢措施,為高速路網(wǎng)的安全暢通提供保障。
基于對各收費站實時數(shù)據(jù)的分析結果,可以對平日車流量按站點、小時/天分別進行統(tǒng)計得到時間序列,ARIMA是做時間序列預測較為成熟的模型,分別對該時間時間序列采用ARIMA自回歸進行建模,然后對未來一個周期的數(shù)據(jù)進行預測。ARIMA全稱為自回歸積分滑動平均模型,可以記作ARIMA(p,d,q),其中p為自回歸項,d為差分階數(shù),q為移動平均項數(shù),通過ARIMA模型可以對收費站某個時段流量進行預測與應用,從而提升對車流量的預測預警。
(7)資產(chǎn)管理。結合Inceptor和workflow,實現(xiàn)交通設備資產(chǎn)全生命周期管理,包括設備故障預測、質(zhì)量分析等;通過設備監(jiān)控專題,可以對高速公路外場設備如車檢器、攝像機、氣象站、情報板、GPS車輛及無人機等進行基于GIS地圖的一體化監(jiān)控;點擊設備圖標即可查看各種設備的狀態(tài)、數(shù)據(jù)及圖像。
結合Inceptor和workflow,實現(xiàn)交通設備資產(chǎn)全生命周期管理,包括設備故障預測、質(zhì)量分析等;通過設備監(jiān)控專題,可以對高速公路外場設備如車檢器、攝像機、氣象站、情報板、GPS車輛及無人機等進行基于GIS地圖的一體化監(jiān)控;點擊設備圖標即可查看各種設備的狀態(tài)、數(shù)據(jù)及圖像。
基于新老設備的歷史數(shù)據(jù),建立設別的壽命預測,可以大大降低故障率,及時對故障進行預警,并及時更換設備。抽取樣本從當前狀態(tài)到達設備不能使用或者故障的狀態(tài)所經(jīng)過的時間作為樣本標簽,設備的各種溫度、電壓、電流、功率、脈沖,表面數(shù)字清晰度、當前個指標的誤差等作為特征,從而基于這些的建立訓練數(shù)據(jù),訓練一個GBDT模型。經(jīng)過交叉驗證,證明此壽命預測模型的精度高于90%。
總體來講,通過Slipstream的流式處理,Inceptor的復雜邏輯數(shù)據(jù)加工,Discover和Sophon的數(shù)據(jù)挖掘和分析,可以及時、高效、全面地對高速場景和業(yè)務進行深度優(yōu)化處理,為“智慧高速”的構建提供了強有力的支撐。
5結語
現(xiàn)在,在平臺上的技術應用與數(shù)據(jù)分析已經(jīng)發(fā)展到集合機器學習和深度學習階段,應用中算法模型也會不斷根據(jù)新的數(shù)據(jù)進行迭代學習。同時,隨著物聯(lián)網(wǎng)建設的推進,產(chǎn)生更多海量的數(shù)據(jù),數(shù)據(jù)處理和應用的價值將得到進一步體現(xiàn)。高速公路的數(shù)據(jù)將和更多的行業(yè)數(shù)據(jù)打通進行跨界應用,讓高速公路更加“智慧”,并應用到實際的場景中。