首页 / 新闻

12.

10

2014

星环科技发布Transwarp Data Hub 4.0

公司新闻

2014年12月12日,星环信息科技(上海)有限公司(以下简称星环科技)将在2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)上正式发布其最新一代的企业级一站式大数据综合平台Transwarp Data Hub (TDH) 4.0。星环科技一直致力于帮助企业更加快速、高效地处理海量数据。在国内建立众多大数据上线案例的星环科技早已表现不俗。而现在,TDH4.0满载星环科技的最新技术,将给用户带来目前为止业内最好的一站式大数据解决方案。4.0版本中,TDH下的三大组件:Transwarp Inceptor交互式分析引擎、Transwarp Hyperbase实时数据库和Transwarp Stream流计算引擎都在功能和性能上有了质的飞跃。新版本的TDH更快、更稳定、更安全、性价比更高。在提供更好的大数据解决方案的道路上,星环科技从没停止过自己的步伐。下面,让我们看看TDH4.0中三大组件的具体技术提升。

Transwarp Inceptor 4.0

更完善的内存计算架构

Inceptor4.0包含了全新的数据平台Holodesk。 Holodesk增加了数据索引支持,并内置了多种数据编码和压缩算法,因此除了能提供更好的数据分析能力以外,还可以更有效地使用内存;Holodesk支持数据的动态插入和分析,满足ODS市场的应用需求。Holodesk的底层是基于内存和SSD的列式存储,并且为SSD和内存的混合存储模型做了大量的优化,使得Holodesk在SSD上的性能得到了大幅提升,为客户提供了性价比更高的计算平台。此外,Holodesk与Transwarp Stream进行了深入地整合,支持将Stream数据实时地插入Inceptor并做实时分析的业务。

更完整的SQL支持

Inceptor 4.0提供了Hadoop业界最全面的SQL支持,兼容SQL'99和SQL2003标准,并且更好的支持PL/SQL语言。

SQL标准部分,新版本的Inceptor增加了集合运算INTERSECT/EXCEPT, 提供了包括非等值JOIN在内的全部JOIN原语,支持多维度统计GROUPING/GROUPING_ID等函数,添加了WITH AS和VIEW等物理化的功能,优化了各种子查询、临时查询的执行效率,因而在SQL的兼容性和性能上都有明显的提升。目前TPC-DS基准测试集能够完整的在Inceptor上运行,并且无论是测试案例数还是性能都完胜美国主流的Hadoop厂商。

PL/SQL部分,Inceptor在以下方面增加了支持:

数据类型:支持标量、集合、RECORD数据类型,并支持隐式与显式的类型转换

过程控制:支持IF/ELSE,GOTO,LOOP,FOR,FORALL,WHILE/CONTINUE/EXIT等控制语句

过程调用:支持SQL语句,函数,存储过程,匿名块,以及与存储过程嵌套调用

游标处理:支持显式的游标操作如OPEN/FECTCH等,支持SELECT INTO语句与SQL的交互

异常处理:支持用户自定义异常和系统预定义异常,支持异常在存储过程内部和之间的传播

此外,Inceptor 4.0还支持部分的系统函数,并且在提供编译期错误检测等功能。因此可以兼容绝大部分客户的应用场景,是Hadoop业界首个提供完善支持PL/SQL语法的产品。

更全面的安全控制

Inceptor 4.0提供了入门级和增强型两种安全认证方式,从而满足不同应用场景下用户对的安全方面的要求。入门级安全通过在Hive Server上使用LDAP技术来实现安全控制,而增强型方式则对包括Spark,Hive,Zookeeper,HDFS等所有组件上配置了Kerberos技术来确保系统的安全性。

更全面的数据挖掘算法

Inceptor 4.0支持多种深度学习算法,整合了开源的H2O项目,比Spark社区更早地支持深度学习计算平台。 此外,Inceptor 4.0还增加了GLM等算法的支持。与MLlib相比,Inceptor 4.0有下表所列的更多的算法实现。

Transwarp Hyperbase 4.0 

Hyperbase 4.0 支持基于SQL的分布式事务操作(Commit、Rollback、Begin Transaction、End Transaction),并且重点优化了高并发情况下的事务操作,因此可以满足大部分的OLTP应用场景。另外Hyperbase 4.0推出创新的CBI (Cost Based Indexing)技术,无需用户指定要使用的索引,Hyperbase在运行时会计算使用各个索引的成本来选择更有效的索引,因此可以提高查询效率,延时可降到百毫秒级,并降低了数据库上索引技术的开发门槛。

此外,Hyperbase对多个组件做了升级,HBase组件升级到0.98.6版本,全文索引技术使用ElasticSearch 1.3.1版本,并且新版本对系统结构和算法做了深入的优化。目前SQL统计的性能比上一版本提高2倍。

另外Hyperbase 4.0加强了数据一致性方面的功能,系统智能的根据数据的增删改记录来同步更新各级索引,从而保证了数据的强一致性,确保系统的高可靠性。

Hyperbase 4.0版本也加强了与生态链的结合,目前支持ODBC 3.5和JDBC 4.0标准,因此可以和大部分应用无缝对接。此外,通过对ETL工具Data Service的对接,Hyperbase 4.0可以支持与SAP HANA等数据库的实时数据同步,满足更多场景的应用需求。

Transwarp Stream 4.0 

Stream 4.0在系统安全和监控方面做了重大升级,增加了对Kafka消息队列以及Spark On Yarn的Kerberos安全认证来确保计算时的数据安全,从而满足企业用户对于实时计算的安全和多租户要求。

Stream 4.0 推出了创新的基于SQL的实时统计分析功能,不熟悉Java/Scala API的用户如DBA也可以通过SQL来完成实时计算,使得实时分析应用的开发门槛进一步降低。

新版本的Stream与Inceptor进行了深入整合,可以将实时计算结果写入Holodesk,极大的降低了写入延时并提高写入数据的吞吐量,保证即使在计算高峰期间系统数据不会被丢失。

此外,Stream 4.0增加了更多系统监控方面的改进,用户能够在界面上检测各个数据流的负载情况,以及各个任务的Stage分别等计算细节,从而给开发者更好的交互体验。

Transwarp Hadoop

在TDH 4.0中,Hadoop的版本升级到2.5.2,HDFS的性能得到了明显提升,并且增强了Yarn的高可用性,进一步提高了系统的稳定性并降低用户的运维成本。

TDH 4.0集成进了ETL工具Pentaho,用户可以通过Kettle将数据导入TDH。

此外为了给DBA提供更好的体验,TDH 4.0整合了开发者工具SQuirrel,因此习惯于使用图形界面的DBA无需改变自己的使用习惯。

在数据挖掘方面,TDH 4.0整合了Windows版的R Studio,以方便更多的数据科学家使用。