首页 / 案例

客户背景

近年来,我国快递行业的规模随着电子商务的井喷出现了快速的扩张。据统计,全国现在已有上百万快递从业人员、十几万营业网点、几十万辆快递货车和一年近百亿件业务量。这些数字还在以每年超过40%的速率增长。天文数字的市场需求给快递公司带来了巨大的商机和前所未有的挑战。快递行业公司众多,彼此竞争极为激烈,在人工价格上升的趋势下还要维持服务的低价并且盈利,就必须严格控制成本。而每年的双“十一”会给公司施加远高于平时的压力。怎样缓解双“十一”的爆仓、避免快件变“慢件”是每个快递公司的难题。这些难题的答案就在快递公司自己手中—它就是快递的每一个生产环节都会产生的大量数据。监控这些数据进而对全国各处理中心的收寄和运载能力、出班投递计划做优化调整,公司就能降低成本。分析这些数据来对双“十一”的趋势做出预测,公司就能做好准备应对暴涨的需求。然而,快递生产环节中的数据具有数据量大、类型复杂、结构杂乱的特点,而上层应用对实时性要求很高,传统数据库在这样的情况下捉襟见肘,所以快递公司需要大数据解决方案。

问题与需求

客户需要搭建一个大数据平台来对它在全国的揽投部、处理中心和集散中心的数据(包括已接收、留存件、已下段、未下段、已投递、未投递、揽收员、地址、已封发、已发运、未发运等等)进行处理。大数据平台需要将ESB(企业生产总线)流来的数据实时动态加载进数据库,进行处理和统计并且实现实时数据查询。客户原先的技术在每次处理数据时都需要对所有数据进行一次全面ETL(萃取-转置-加载),查询延时在二十分钟以上,完全无法进行实时查询。

TDH方案的实施效果

在快递公司项目中,TDH平台下组件中起主要作用的是Transwarp Stream,Transwarp Hyperbase和Transwarp Inceptor。它们的工作流程为(如上图所示):从ESB总线和网络文件加载数据到Transwarp Stream集群中进行处理;处理完毕后存入Transwarp Hyperbase;提供API给上层J2EE应用实时查询数据;也可以提供JDBC接口给上层J2EE应用从基于Hyperbase建立的Inceptor外表中实时查询数据。

TDH通过此项目在国内乃至全球的快递行业中首次用大数据技术实现了生产环节数据的实时监控。效果如下:

数据实现实时导入:数据从ESB总线上流入、TDH处理完毕到查询结果显示的整个过程不超过1秒,导入平均速度为每秒1700条,仅需要用到TDH最高性能的1/500。

数据处理时间迅速:Transwarp Stream对单条数据的处理在毫秒级完成,平均一条记录从处理到进入Transwarp Hyperbase只需要1-2毫秒左右。

数据查询简单高效:合作方的J2EE应用要求的秒级查询能由TDH平台轻松胜任。而TDH提供的Java API和JDBC接口可以非常简单地与现有系统进行集成从而实现数据查询,对于现有的企业级开发环境极其友好,应用迁移难度很小,快递公司的工作人员可以无学习成本地上手使用。