首页 / 新闻

07.

30

2015

2015Hadoop技术峰会演讲速记3: 基于Transwarp Stream和Discover的实时大数据人流密度估计

技术博客

引言:随着城市化和现代交通运输的极大发展,在许多大城市都出现了核心区域人流巨大甚至过大的现象,这背后隐藏着极大的管理和安全隐患。老一代监控摄像等人流密度估计方法在速度、精确度上都已落后于需求,利用新技术解决这一难题迫在眉睫,其中使用大数据监控人流已成为热门的新动向。在2015Hadoop技术峰会的Spark专题论坛上,星环科技首席数据工程师程先生介绍了一种全新的人流密度实时估计解决方案,该方案在数据挖掘上使用了新颖的方法,令人耳目一新。

 

随着城市化的发展,城市内的人口流动展现出新特征:人流密度增大,群体活动增多,出行方式越发丰富,人流信息越发多元化。然而,在人潮涌动的背后,往往隐藏着极大的危险——人流过于密集乃至拥堵不仅加大了管理的难度,甚至可能引发踩踏等重大公共安全事故,上海外滩踩踏事故就是一个惨痛的前车之鉴。在人流实时估计和管理方面,当前最为有效、最先进的措施是通过Hadoop大数据实行人群智能感知,实时监测人流密集度。

 

 

然而,由于人流密度大数据存在着以下四个特性,想要方便快捷地利用大数据估计人流并非易事:数据量大,平均都在PB级以上;具有多样性,结构化和非结构化俱存,且存储在多个部门;数据存在冗余,需要清理出有价值的部分;具有实时性,需要及时快速处理。

在2015Hadoop技术峰会的Spark专题论坛上,如何高效地利用大数据技术估计人流密集度也成为一大议题。会上,来自星环科技的程先生介绍了一种全新的人流密度实时估计解决方案,该方案在数据挖掘上使用了新颖的方法,令人耳目一新。

这一方案分为数据收集、数据挖掘两个阶段。

一、数据收集

由于城市内部有地面交通、轨道交通、商业圈等多种需要人流监控的区域,所以要想快速、准确地估计人流密度,不可能仅仅依靠单方面数据进行判断,而应综合利用多方面的数据。

据程先生介绍,星环的人流密度估计方案可以收集包括交通卡、手机APP、摄像监控、银行卡、呼叫日志、网络访问日志、社交媒体等在内的多方面数据,并根据不同的区域、场所以及不同的监控目的利用不同的数据源。

 

 

比如利用地铁闸口的进出刷卡信息、地铁内监控视频统计任意时间维度的出入人流的历史规律信息,利用图计算进行入度的动态监测并计算其最可能的出度路径,进而进行人流动态监测;利用出租车GPS数据进行经纬度信息统计分析,画出出租车的动态轨迹图,还可预测动态运动轨迹;

 

 

利用交通卡口过车记录统计任意时间维度的出入人流,并进行人流动态监测;利用治安卡口动态统计数据统计人流量,实时上报人流密度。

 

 

同时,利用城市公共WIFI在线连接和上网内容对人流、商流密集处的人流密度进行统计,在紧急情况下还可以传递公共信息。

 

 

利用手机基站数据定位用户的活动密集区域同样是比较高效的方法之一,通过人群密集度算法算出时间、经纬度、人群密度等关键指标,分析出人群迁移和密度变化趋势。

 

 

利用POS机刷卡信息分析商圈人群密度,从而得出高峰时间段的密集商圈,使得相关部门可以提前布控密集商圈区域,预判人群移动趋势。

 

 

最终通过同时利用多个数据源实时统计城市某区域的人流密度。以上海为例,可以利用话务量、基站用户量、上网流量等信息统计人民广场、外滩、南京东路、中山公园等面积较小、人流较大区域的人流密度。

 

二、人流密度估计实现方法

接下来程先生重点介绍了如何利用基站数据进行人流密度估计的技术方案。因为未经处理的原始数据需要经过数据清洗、转换、挖掘,才能得到最终有价值的人流密度信息,因此数据挖掘是人流密度估计中最核心、最富有技术性的一环。程先生介绍称,星环人流密度估计方案在基于Transwarp Stream的人流密度估计平台之上进行数据挖掘,主要分为三个步骤:

1.利用Kafka获取来源数据,进入消息队列;

2.利用Transwarp Stream首先过滤数据,对数据进行清洗;其次进行坐标转换,将数据信息转换为地图上具体坐标的信息;最后进入Discover模块的实时核密度估计函数进行密度估计;

3. 将密度估计的结果Transwarp Discover进行实时展现。

 

 

本方案存在着两大主要技术实现关键点:

1.在数据坐标转换过程中,由于数据量巨大,平均每秒有几万至几十万条记录从消息队列传入,一旦时间窗口较大则很容易造成集群资源不够用,如何实现在大数据量时可以有效地在不增加资源开销的情况下保留关键的数据信息是一大难点。

2.流上实时性要求很高,需要在一个时间窗口内将其密度实时估计出来,即需要体现最近的时间窗口人流密度特性又需要兼顾历史数据信息。

程先生表示,针对以上两大挑战,星环研发团队通过以下方法使其得到了有效地解决:

1.由于系统设计时,一个重要的需求就是用户可以自定义人流密度估计的时间窗口大小,所以为了应付坐标转换中差异极大的数据量,实现时将一个时间窗口内的数据都映射到一个大表中,将增量数据转变为大表中不同的count值,从而大大降低了数据量。

 

 

2.针对流上做机器学习的问题,比较通用的方法是先将机器学习的模型进行离线训练,然后在Stream上将模型重构出来进行预测;而星环采用的是直接在流上进行基于时间窗的增量学习的方法,训练模型可随输入的数据不断做更新和迭代。如下面就是一个基于Stream的K-Means聚类的增量学习的例子。

 

 

利用大数据技术得出人流密度估计之后,就可以用于人流管理实际应用了。据程先生介绍,在实际应用中,仍然需要参考星环实践出的“大数据应用三部曲”不断地迭代和优化方案,使得模型的准确度更高。

 

 

当然,想更好地利用Hadoop大数据实时估计人流密度,目前还存在着一些亟待解决的难题:

1.缺乏数据,数据量较低,或者数据分布在不同部门。在一个大城市内利用大数据估计人流密度需要各种数据,而这些数据往往存储在不同的部门,获取它们并不容易。

2.当前用于估计人流的各种数据的格式不尽相同,统一数据标准势在必行,但依然任重道远。

3.数据的使用不够高效、公开,不合理使用数据造成数据和计算资源的极大浪费。

4.执行方案、设置配套预案、建立工作流程等仍有大量工作要做。

作为近年来最为火热的前沿科技之一,大数据已深入我们生活的方方面面。利用大数据估计人流密度、助力城市管理的方法虽然才刚起步,却有着极为光明的前景。作为目前国内极少数掌握企业级大数据Hadoop和Spark核心技术的高科技公司,星环科技明显已走在了队伍的前列,其开发的Transwarp Discover拥有业界领先的分布式统计学习和机器学习算法库、同时提供R语言交互式数据挖掘和数据展现功能,此外,Transwarp Discover还可以和Transwarp Stream无缝整合提供流上的实时统计和机器学习。Transwarp Stream不仅保留了所有Spark计算框架的优点,还具有高性能、稳定性好等优点。