首页 / 新闻

05.

05

2017

星环的划时代版本-Transwarp Data Hub 5.0

技术博客

星环科技历时10个月打造的新一代一站式Hadoop发行版——TDH 5.0正式发布。TDH 5.0包含了6大产品, 15个功能组件,共实现3000多个功能、改进以及Bug修复。到目前为止,TDH 5.0是星环最为革命性的一个版本,在可用性以及产品化程度方面,都达到了星环史无前例的高度。

核心产品从四个变为六个

TDH 5.0包含六个核心产品,在原来四个产品(Inceptor、Hyperbase、Stream、Discover)的基础上新增了大规模搜索引擎Search和深度学习平台Sophon。此外,Stream带来了革命性的技术成果,并正式更名为Slipstream。

  • Transwarp Inceptor

    Inceptor是TDH产品中最复杂的,同时也是最重要的产品。它是一个独立的分析数据库,自上而下可以分为5层:服务层,编译层,执行引擎层,存储接口层,存储层。

    TDH 5.0中的Inceptor实现了对Teradata、Oracle和DB2数据库方言的全面支持,同时增加了全文检索的SQL扩展和StreamSQL的CEP扩展。

    Inceptor在编译层中新增了一款优化器——物化优化器。它可以基于物化的OLAP Cube或者视图来优化输入的SQL查询,根据对执行成本的计算,决定是否执行读取物化对象的存储计划。

    另外,TDH 5.0在Inceptor执行引擎层中做了较大的功能创新,首次引入并发布调度器SLA Scheduler,以解决在混合负载的情况下重任务阻塞小任务的问题。它为不同任务指定不同的优先级,限定用户同时提交的任务数量,将系统任务和用户任务明确分割,以及通过更细粒度的资源调度等方式来提供更好的混合负载处理能力。

    TDH 5.0的列式存储引擎Holodesk在功能和性能方面都有非常大的提升,可以满足高并发交互式分析的需求。

  • Transwarp Slipstream

    从5.0开始,流处理产品从Stream 正式更名为Slipstream。

    Slipstream在计算模式和可用性方面都实现了巨大的变革。首先它提供同时支持事件驱动和微批处理的混合计算引擎,事件驱动模式满足低至5ms的低延时需求,而微批处理模式则满足高吞吐的需要。

    在可用性方面,Slipstream共有6项重要功能,包括复杂时间处理 CEP 引擎,全面的ANSI SQL支持,支持多种时间窗口并能容忍数据的乱序到达,允许多流的聚合分析,以及流上数据和历史数据关联,此外Slipstream还支持用户在流上运行一些数据挖掘的模型。

  • Transwarp Search

    Search是TDH在版本5.0中引入的一个新产品,它能够提供大规模搜索的引擎,以及海量数据上的统计分析能力。Search和Inceptor SQL Engine配合使用,提供标准的SQL接口,以及兼容Oracle扩展标准的全文检索的SQL扩展。

    在系统可用性方面,Search也做了大量的工作,包括采用对外的内存管理技术让系统更加可靠和稳定,支持混合存储模型,以更好的利用SSD等快速存储从而加速系统性能。

    根据星环的某次测试,用10台机器构建的Search集群,可以在几百毫秒内完成对100TB的数据的模糊检索。

  • Transwarp Hyperbase

    Hyperbase是一种NewSQL数据库,它继承了HBase的架构优势,能够支持超高的并发业务,而且提供非常好的SQL开发接口,内置许多索引功能。Hyperbase对并发性和非结构化数据有很好的支持,因此非常适用于数据高速入库的场景,譬如交通行业的实时数据入库。

  • Transwarp Discover

    Discover是倾向于为数据科学家提供使用的数据挖掘平台。它支持以Inceptor、HDFS以及关系数据库为数据源,提供了完善的R语言开发接口和环境,支持Python和Spark编程,并从版本5.0开始为许多行业提供多样的建模模板。

    此外,Discover支持模型导出,因此可以在其他引擎如Slipstream中做预测分析。同时整合了Zeppelin,使用户比较方便的实现数据可视化以及团队共享与协助。

  • Transwarp Sophon

    Sophon是除Discover之外的另一个机器学习产品,随TDH 5.0发布。

    它和Discover之间有三点差异:第一,Sophon包含一个交互式的开发IDE——Midas,用户可以在Midas中通过拖拽算子的方式来实现复杂的数据分析工作流程;第二,它内置了100+个挖掘算子,基本涵盖了常用的挖掘算法;第三,它很好的整合了深度学习的框架TensorFlow和MxNet,方便用户在图形化平台上构建神经网络模型并灵活调参。

革命性的开发工具套件

TDH 5.0架构的上层包含两部分:全新的数仓开发工具集Transwarp Studio,以及机器学习开发套件。Transwarp Studio工具套件是为了提升大数据的开发效率所设计实现的,它包含5大交互式开发工具,分别为数据开发周期中SQL开发、ETL设计、工作流与调度、元数据管理以及OLAP Cube设计这五个阶段,提供便捷的功能支持。这五大开发工具分别为:

  • Transporter,数据整合工具。能够在秒级将数据从RDBMS同步到TDH,同时支持多种格式的文件数据,以及去重、聚合、关联等在内丰富的数据转换操作。

  • Governor,数据治理工具。可以有效的管理TDH中的元数据,同时提供可视化的数据血缘分析和影响分析,梳理数据的流转,提高数据的质量。

  • Workflow,图形化的工作流设计、调度工具,同时还提供丰富的分析功能,帮助定位工作流中的异常问题、性能回归等问题。

  • Rubik,OLAP Cube设计工具。用户可以根据业务特点,用Rubik来设计多维Cube,Inceptor将利用这些Cube加速SQL查询的性能和并发度。

  • Waterdrop,SQL开发的IDE。Waterdrop支持编辑SQL或存储过程,执行SQL并预览数据,同时提供关键字高亮、语法检查、格式化辅助等功能,有效的帮助开发人员提高SQL开发效率。

在机器学习和数据挖掘方面,TDH 5.0提供了下面两项工具。对于机器学习,TDH 5.0提供了交互式的开发工具Midas,允许用户用拖拽的方式生成数据挖掘模型。另外星环整合了Zeppelin,为数据科学家提供很好的R、Scala等开发接口和可视化功能,同时支持模型的团队共享。

更强大的基础服务层

TDH 5.0开始在Hadoop层之下,将底层资源容器化,并使TOS正式成为底层的资源管理和调度平台,TOS内置Docker和Kubernetes服务,除了能带来更好地弹性计算、更细粒度的资源调度外,还对服务快速升级、扩容和缩容等有更好的响应。这一改变将带来三个方面的好处:

  • 首先,底层资源的容器化,将极大地简化大数据平台的部署、安装、运维复杂度。

  • 其次,底层资源的容器化,将促进对多租户业务应用的支持。不同部门可同时面向不同业务完成开发,同时确保隔离性。这意味着,星环Hadoop将更好地支持大型集团型客户,把在此前其已具备的PB级数据处理能力发挥到极致。

  • 最后,增加资源管理层,使云计算与大数据结合的更加紧密。大数据技术利用云实现资源的集约,同云计算相融合来提升提供服务的能力。

     

星环还实现了一个支持抢占的资源调度系统,可以根据不同的优先级和Quota在不同的Docker容器之间做灵活的资源调度。原本基于YARN做资源管理的应用如Inceptor,也都改用Kubernetes来做管理。

此外,TDH 5.0将Apache Hadoop的版本升级到2.7.2。从而支持透明加密、灰度升级、分级存储以及Namenode Federation这些功能。

在安全管控方面,Guardian成为一个独立的服务,包含一个独立的交互式页面来全局的管理平台的安全和资源。

TDH 5.0中的部署、运维等服务依然由Transwarp Manager提供。但与之前的版本不同,TDH 5.0中Manager的管理对象是独立的Docker容器。

TDH 5.0中的技术变革

以下是对TDH 5.0各项大的技术层面变革的总结:

  1. 基于Docker和Kubernetes的基础部署平台,带来更好的弹性计算和资源管理;

  2. 全面的数仓开发工具集合,让大数据开发的效率提升,数据质量得到改善;

  3. SQL更全面的涵盖了全文检索、流处理等新型业务的开发;

  4. Inceptor在批处理方面的整体性能比4.6系列提升30%,交互式分析的性能和并发性提高数倍,仍然大幅度领先Spark和MPP;

  5. 新的调度器提供了混合负载下的QoS的管理能力,让Inceptor可以适应更多的复杂场景应用;

  6. Slipstream引入了低延时的事件处理模型,结合微批处理的计算模型,加上高可用、CEP等技术,大幅度提高了流计算的可用性和适用业务范围;

  7. Search通过SQL的引入和强劲的检索、分析能力,为用户构建大数据搜索引擎提供了简单的选择;

  8. Discover推出了多个行业挖掘模型,可以有效的降低企业在数据挖掘方面的学习成本,让新应用的构建更加简单。

  9. 新产品Sophon通过整合深度学习平台,让大数据的管道和人工智能的引擎能够高效连接;

有了这些新的创新,TDH可以满足更多的领域内的数据开发工作:

  1. 基于Inceptor,开发人员可以很方便的构建新型数仓如逻辑数仓或实时数仓,或者构建高并发的数据集市提供交互式分析;

  2. 使用Slipstream,降低搭建IoT的实时监控、复杂在线风控等实时应用的开发的难度;

  3. 通过Search来构建大数据搜索引擎,可以很好的解决Pb级别的高速数据检索需求;

  4. Inceptor Graphene能够提供大规模的图分析和社交分析能力;

  5. Sophon和Midas相组合,通过构建交互式的数据挖掘模型,极大的降低了数据科学的入门门槛,大量的内置特征工程模型也加速了大型模型的开发;

  6. 大量的行业模型,可以更有效的帮助用户来构建应用,如文本分析、用户画像、风险预测。

TDH 5.0在技术、可用性、性能方面都实现了质的飞越与突破,努力成为更有影响力和引导力的Hadoop商业产品。

对此篇文章如有任何问题,欢迎以邮件形式联系我们:bigdataopenlab@transwarp.io