首页 / 新闻

02.

15

2016

星环科技 - 2016年国内大数据平台技术展望

公司新闻

 

新的一年不仅仅意味着换一本新台历或者揉着眼睛在下一个清晨醒来。新的一年应该拥有一个新开端的喜悦,也标志着新“希望”的到来。大数据时代,新技术层数不穷,让从业者目不暇接。近日,笔者采访了星环科技(该公司上个月刚刚被 Gartner 列为国际主流 hadoop 发行版厂商,也是国内唯一的一家)创始人兼CTO孙元浩,请他分享对2016大数据平台市场的展望。 孙元浩总结了四个方向的展望:

 

1.大数据、数据库未来:分布式必将替代关系型数据库 

 

孙元浩认为数据处理市场可分为三块,交易型的市场、数据分析、非结构化数据,这三块中交易型可能占三分之一,分析型的占了三分一以上,纵观市场的发展,未来Hadoop会完全取代分析型市场,因为前者今天的性能、功能慢慢开始超越后者了,节点大概是在2018年,而数据仓库也会随之发生大的变化。在数据交易类型的市场方面,可能还需要五到十年的时间,但未必被Hadoop技术取代,也有可能是NewSQL来取代,因为NewSQL是纯分布式的系统,且目前在数据仓库里用户需要保持一致性,否则不能做一些关键应用,这也是2015年星环在金融行业进展迅速的原因。而关系型数据库变成分布式的是一个必然趋势,只不过挑战在于过去几千万的代码要重构是有相当大的难度。

 

2.SQL on Hadoop 技术促使混合架构逐渐消失、SSD 慢慢替代内存 

 

孙元浩2015年曾经预测,其一是随着SQL on Hadoop技术的快速发展,SQL完整程度的大幅提高和性能提升,混合架构将逐渐开始消失;而在数据仓库领域也继续会上演着同样的趋势,将取代未来的操作系统,这是由于SQL on Hadoop和Spark技术的高速发展。现在看引擎技术发展非常快,Flink显然比Spark更好,而通过优化过的Spark也可以很不错,只不过它们两者之间不是革命性的变化。但是从应用角度来说,市场关注的是SQL on Hadoop,它是真正把大数据技术应用到系统应用当中去的。像Spark等新技术的问题就是怎么跟老系统进行对接,因为企业投资多年,不会轻易的推翻掉原有的模式,所以新技术必须采用向后兼容的方式。 其二是随着硬件技术的发展,内存可以被大容量的SSD取代做缓存,不管是数据库还是新的架构都会为SSD做优化,目前已经有很多的厂商开始做这些事情。但技术的发展是非常快的,在今年Intel和镁光联合推出了新的硬件技术3D Xpoint,它是一个非常小的指甲盖的芯片,可以存储几个T的容量,孙元浩认为该技术是革命性、颠覆性的,未来对生态系统将产生巨大的变化。不过,孙元浩也认为该技术的应用会晚两三年,因为从仓储到数据库再到应用面临着非常大的改造,但肯定会引起另一轮的IT革命,现在只能拭目以待。 

 

3.实时大数据的痛点及应用 

 

过去两年间,星环一直在推Spark方面的产品,也在推广流处理产品,这个市场究竟如何?孙元浩表示,去年星环就把流的实时数据写到了内存扩展器中做分析,但发现一个致命性的问题:应用复制非常难,每一个都需要定制,导致开发难度极高,所以今年推出了流的第二代产品,是完全用SQL做流,支持最完整的SQL 2003,以前开发要写几百上千行语句,现在通过几条SQL就可以搞定了,仍然是在同一个SQL里面,而且还是一个实时的数据,这种方式使得应用的复制性和速度很强。 孙元浩称,目前市场对实时大数据的需求非常大,是刚需。流产品是公司的主打产品之一,部署量非常大,主要的应用在物联网中,另外金融机构也在用,主要是做实时风控,模型也非常复杂。星环的客户加起来有上百种模型,过去使用的技术使得效率极低,所以需要新技术来加速,这是星环使用SQL很重要的原因。 

 

4.2016云操作系统(TOS)大有可为 

 

孙元浩介绍了星环两大产品:Transwarp Data  Hub(TDH)和云操作系统(TOS),两者是交叉的两个方向,Transwarp Data Hub (TDH)是一站式Hadoop和Spark大数据平台,提供完整的SQL支持、丰富的R语言挖掘能力以及更快的性能。后者云操作系统TOS,是为大数据应用量身订做的云操作系统,基于Docker和Kubernetes,TOS支持一键部署TDH,基于优先级的抢占式资源调度和细粒度资源分配,让大数据应用轻松拥抱云服务。但是TOS的定位和TDH不一样,TOS是借助容器技术打造下一代的私有云部署,上面不光跑大数据,是可以跑所有的企业应用、所有的其他的数据库、所有的中间件,同时也支持把应用打包Docker Image,平台再帮你把应用全部组建好,使得整个应用的部署和上线非常方便,深刻地改变了以往应用开发的模式;同时,应用模式也发生了改变,以前的应用模式安装在一台机器上请监控程序去管,其扩容是非常痛苦的,过去是通过OpenStack虚拟机扩容,使得速度非常慢且完全不能满足高弹性业务的需求,而如今,创建几千个上万个Docker却非常容易。