首页 / 新闻

04.

20

2015

让SQL用户装上hadoop大数据的引擎,星环科技TDH4.1最新发布

公司新闻

《企业网D1Net》4月20日讯

2015年4月16日,第六届中国数据库技术大会(DTCC)在北京震撼登场。大会以"大数据技术交流和价值发现"为主题,吸引了2500多人参加,100多名数据库技术专家来分享技术,堪称数据库领域国内最大规模的专业会议。星环科技作为唯一受邀的大数据平台商参展,CTO孙元浩发表了题为“大数据基础技术发展的两大方向和最新研发成果”的主题演讲。

孙元浩的演讲分析了Hadoop技术经过最近十年发展,已经开始深入各行业和各类应用,但从市场的反馈来看,Hadoop还没有被大面积普遍采用,他表示主要制约因素来自两个方面:1. SQL on Hadoop的技术进展制约了企业原有应用的迁移以及新应用的开发; 2. 企业在建设大数据平台或者Data Lake时,往往有多租户资源管控和弹性计算的需求,这些需求现有的YARN或者虚拟化技术没有满足。随后孙元浩介绍了星环科技在这两方面的最新突破,可帮助企业快速完成应用迁移和部署。

同时在本次大会上,星环科技发布了全新的软件版本TDH 4.1。孙元浩向参会者介绍道:“最新版本产品提供80%的PL/SQL语法支持,并增加了大量的SQL优化,可以满足用户对大数据处理的需求;另外新版本的TDH增加了分布式Cube功能,可以让用户在十亿级别的数据量上实现交互式分析。下一步,星环还将发布为大数据应用量身定做的TOS云操作系统。TOS基于Docker和Kubernetes,支持一键部署TDH,让TDH和其他Docker应用共享集群,其基于优先级的抢占式资源调度和细粒度资源分配,让大数据应用轻松拥抱云服务。”(更多详情,请点击http://www.transwarp.cn/news/detail?id=51)

新版本各个组件增强特性如下:

1. Transwarp Inceptor 4.1

Transwarp Inceptor 4.1包含新版本的Holodesk,支持Distribute OLAP Cube,通过在内存或SSD中内建OLAP Cube来加速即席查询,对十亿级别的数据做查询延时能够降到10s以内;支持用SQL做增删改查,进一步满足用户对数据管理上的需求;新增加了容错设计与高可用性,在Inceptor服务出现故障恢复后能够直接通过Zookeeper上的元数据来自动恢复 Holodesk数据和服务。

为了满足企业数据仓库的需求,Transwarp Inceptor 4.1增加了完整的增删改查的支持,用户可以对HDFS、Holodesk以及Hyperbase上的数据做Insert/Update/Delete/Merge Into操作,满足业务上的多样性需求。同时,Inceptor 4.1完善了事务方面的支持,支持批量事务、自治事务以及原子事务,可以更加有效的支持数据仓库的应用开发。

Transwarp Inceptor 4.1继续增强对PL/SQL语法的支持。Inceptor 4.1开始支持包、隐式游标、动态SQL执行、系统自定义包/函数/异常,以及集合数据类型。此外,Inceptor 4.1支持存储过程中的会话级临时表和事务级临时表。

Transwarp Inceptor 4.1进一步增强了SQL优化器,支持预编译SQL以加速高并发下查询效率,新增代码生成技术来解决性能热点问题。此外,CBO进一步完善规则,增加了Bushy Join Tree等技术的支持。

为了和业界更好的整合,Transwarp Inceptor 4.1继续增强了JDBC和ODBC的功能,并完成了与更多的报表工具、ETL工具和中间件的对接工作。目前Inceptor能够和IBM Data stage 11.3,Cognos 10.2.1,SAP Data Service以及Hibernate 4.3等软件完美兼容。

此外,在数据挖掘方面,Inceptor 4.1新增加了基于流的多个挖掘算法,包括流上的统计类挖掘算法,流上的Kmeans、逻辑回归、线性回归以及密度估计算法等。

 

2. Transwarp Stream 4.1

Transwarp Stream 4.1包含了基于SQL流计算的多项关键技术。首先Stream 4.1与Inceptor深度整合,可以支持SQL 99标准的SQL在流上的计算;同时为了提高计算实时性,Stream 4.1开发了SQL预编译和DAG缓存功能,并结合Job Server复用Spark Context,能非常有效的降低SQL编译的开销,保证计算的实时性。此外,Stream 4.1与Holodesk做了进一步的整合,流计算的结果数据可以直接录入Holodesk,因此能够大幅度提高系统的数据入库吞吐率。

Transwarp Stream 4.1还新增了对流上的数据挖掘功能,目前用户可以在流上构建数据挖掘和推荐系统,一些常见的挖掘算法已经产品化,如统计类算法、KMean、逻辑回归算法等。

此外,Transwarp Stream 4.1增强了系统的监控能力,用户能够更有效的监控系统的各项性能指标以及负载状况,让运维工作更加有效。

 

3. Transwarp Hyperbase 4.1

Transwarp Hyperbase 4.1新增了多个功能,在数据适配、数据导入、事务处理和全文检索方面提供了更好的解决方案。

Transwarp Hyperbase 4.1大幅增强了对外部数据源的支持。Hyperbase 4.1支持直接存入JSON和BSON文件,并通过SQL可以直接查询文件中的属性值;同时,XML文件的存储和查询功能得到进一步的增强,使得对XML文件的查询和XPath计算更加便利;此外为了满足很多业务场景对图像视频文件的存储需求,Hyperbase 4.1增加了Object Store的支持,使得多媒体文件的存取和检索更加有效。

数据导入是NoSQL应用的一个非常关键过程,尤其是选取合适的Split Key对Hyperbase整体性能非常重要。为了有效的降低数据导入的难度,Hyperbase 4.1增加了基于SQL的One-Click BulkLoad功能。首先它根据数据和表信息生成最佳的Split Key,然后生成SQL语句来导入数据进Hyperbase。

在分布式事务处理方面,Hyperbase 4.1支持批处理事务和自治事务处理,并优化了高并发下的分布式事务处理吞吐率。此外,Hyperbase 4.1新增加了用SQL来做全文检索,用户可以对多个维度用SQL来实现简单高效的模糊查询,进一步降低开发门槛。

除了组件的功能升级以外,TDH 4.1还增强了对国产操作系统平台的支持,目前已经支持红旗Linux 3.4平台,并在进一步研发对其他国产平台的支持。

大数据的热度还在不断攀升,市场规模诱惑巨大,不断加剧着竞争的激烈程度。同时随着软硬件技术的快速发展,现有大数据基础技术开始快速发展和演变,不断涌现新的技术热点引领大数据生态圈。大数据快速发展的趋势会持续很长一段时间,数据中还隐藏着巨大价值有待发掘,让我们拭目以待。

 

星环科技简介:星环科技是目前国内极少数掌握企业级大数据基础软件技术的供应厂商,从事大数据时代核心平台数据库软件的研发与服务。在全球去IOE的大背景下,Hadoop技术已成为公认的替代传统数据库的大数据产品。公司产品Transwarp Data Hub (TDH)的整体架构及功能特性比肩硅谷同行, 三大组件Transwarp Hyperbase, Transwarp Stream,Transwarp Inceptor, 产品性能在业界处于领先水平。(公司官网:www.transwarp.io)