首页 / 新闻

12.

21

2015

【观点】2016大数据分布式数据库热点展望

公司新闻

大数据时代,新技术层数不穷,让从业者目不暇接,不管是传统企业还是淘金者都需要认清现状,才不至于在市场洗牌中成为被淘汰的那一个,为此CSDN日前在BDTC 2015上独家采访了星环科技创始人兼CTO孙元浩,请他分享对如今数据市场的看法和做一些展望。

 

SQL on Hadoop 技术促使混合架构逐渐消失SSD 慢慢替代内存

 

孙元浩首先回顾了去年在BDTC大会上所做的预测,其一是随着SQL on Hadoop技术的快速发展,SQL完整程度的大幅提高和性能提升,混合架构将逐渐开始消失;而在数据仓库领域也继续会上演着同样的趋势,将取代未来的操作系统,这是由于SQL on Hadoop和Spark技术的高速发展。现在看引擎技术发展非常快,Flink显然比Spark更好,而通过优化过的Spark也可以很不错,只不过它们两者之间不是革命性的变化。但是从应用角度来说,市场关注的是SQL on Hadoop,它是真正把大数据技术应用到系统应用当中去的。像Spark等新技术的问题就是怎么跟老系统进行对接,因为企业投资多年,不会轻易的推翻掉原有的模式,所以新技术必须采用向后兼容的方式。

星环科技创始人兼CTO孙元浩

 

其二是随着硬件技术的发展,内存可以被大容量的SSD取代做缓存,不管是数据库还是新的架构都会为SSD做优化,目前已经有很多的厂商开始做这些事情。但技术的发展是非常快的,在今年Intel和镁光联合推出了新的硬件技术3D Xpoint,它是一个非常小的指甲盖的芯片,可以存储几个T的容量,孙元浩认为该技术是革命性、颠覆性的,未来对生态系统将产生巨大的变化。不过,孙元浩也认为该技术的应用会晚两三年,因为从仓储到数据库再到应用面临着非常大的改造,但肯定会引起另一轮的IT革命,现在只能拭目以待。

 

实时大数据的痛点及应用

 

过去两年间,星环一直在推Spark方面的产品,也在推广流处理产品,这个市场究竟如何?孙元浩表示,去年星环就把流的实时数据写到了内存扩展器中做分析,但发现一个致命性的问题:应用复制非常难,每一个都需要定制,导致开发难度极高,所以今年推出了流的第二代产品,是完全用SQL做流,支持最完整的SQL 2003,以前开发要写几百上千行语句,现在通过几条SQL就可以搞定了,仍然是在同一个SQL里面,而且还是一个实时的数据,这种方式使得应用的复制性和速度很强。

 

孙元浩称,目前市场对实时大数据的需求非常大,是刚需。从星环来看,流产品是该公司的第二大产品,部署量非常大,主要的应用在物联网中,另外金融机构也在用,主要是做实时风控,模型也非常复杂。星环的客户加起来有上百种模型,过去使用的技术使得效率极低,所以需要新技术来加速,这是星环使用SQL很重要的原因。

 

Transwarp Data Hub(TDH)和云操作系统(TOS

 

孙元浩也介绍了星环两大产品:Transwarp Data Hub(TDH)和云操作系统(TOS),两者是交叉的两个方向,Transwarp Data Hub(TDH)是一站式Hadoop和Spark大数据平台,提供完整的SQL支持、丰富的R语言挖掘能力以及更快的性能。后者云操作系统TOS,是为大数据应用量身订做的云操作系统,基于Docker和Kubernetes,TOS支持一键部署TDH,基于优先级的抢占式资源调度和细粒度资源分配,让大数据应用轻松拥抱云服务。但是TOS的定位和TDH不一样,TOS是借助容器技术打造下一代的私有云部署,上面不光跑大数据,是可以跑所有的企业应用、所有的其他的数据库、所有的中间件,同时也支持把应用打包Docker Image,平台再帮你把应用全部组建好,使得整个应用的部署和上线非常方便,深刻地改变了以往应用开发的模式;同时,应用模式也发生了改变,以前的应用模式安装在一台机器上请监控程序去管,其扩容是非常痛苦的,过去是通过OpenStack虚拟机扩容,使得速度非常慢且完全不能满足高弹性业务的需求,而如今,创建几千个上万个Docker却非常容易。

 

大数据、数据库未来:分布式必将替代关系型数据库

 

孙元浩认为数据处理市场可分为三块,交易型的市场、数据分析、非结构化数据,这三块中交易型可能占三分之一,分析型的占了三分一以上,纵观市场的发展,未来Hadoop会完全取代分析型市场,因为前者今天的性能、功能慢慢开始超越后者了,节点大概是在2018年,而数据仓库也会随之发生大的变化。在数据交易类型的市场方面,可能还需要五到十年的时间,但未必被Hadoop技术取代,也有可能是NewSQL来取代,因为NewSQL是纯分布式的系统,且目前在数据仓库里用户需要保持一致性,否则不能做一些关键应用,这也是今年星环在金融行业进展迅速的原因。而关系型数据库变成分布式的是一个必然趋势,只不过挑战在于过去几千万的代码要重构是有相当大的难度。

 

 

(文章来源:CSDN)