首页 / 新闻

12.

23

2015

高可靠高稳定高性能, 支持多租户及动态扩容部署的一站式大数据平台--TDH

技术博客

 

满足新一代数据管理需求的TDH一站式大数据综合平台

 

  • 超强计算能力和一流稳定性

高速SQL引擎的执行性能比Apache Hadoop快10倍左右,比开源Spark快2~3倍,并超过MPP数据库;全稳定运行。

 

  • 最完整的SQL支持

全部组件实现了高可用性,解决了大数据处理中的各种不稳定的问题,保证业务7x24小时不间断运行

支持SQL 99标准和SQL 2003 OLAP扩展,唯一支持Oracle PL/SQL的引擎(98%)和DB2 SQL PL的引擎(80%),唯一支持ACID分布式事务的SQL引擎;定位数据仓库和数据集市市场,可用于补充或替代Oracle、DB2等分析用数据库。

 

  • 高效内存/SSD计算

第一个支持SSD的基于Hadoop的高效存储引擎,可比基于硬盘的引擎快一个数量级;高效支持内存/ 闪存/硬盘混合存储,可提供最佳性价比存储配置;可用于建立各种数据集市,对接多种主流报表工具

 

  • 最完整的分布式机器学习算法库

支持最全(超过50余种)的分布式统计算法和机器学习算法,同时整合超过5000个R语言算法包。适合金融业风险控制、反欺诈、文本分析、精准营销等应用

 

  • 灵活数据处理

支持结构化、半结构化 、非结构化等多种类型数据的在线存储 、OLAP检索、全文搜索 、图分析和批处理统计业务等全方位需求;超高并发查询能力,满足企业的并发应用需求

 

  • 最健壮和功能丰富的流处理框架

流处理支持真正的Exactly Once语义,保证数据不重不丢;所有组件支持高可用(HA);支持流式SQL和流式机器学习,极大降低企业流应用的开发门槛

 

  • 无限水平扩展

系统可线性扩充存储容量或提高处理性能,只需要简单地向集群中增加机器,无需停机。有效解决企业由于数据增长导致的处理性能缓慢或频繁迁移数据的问题。

 

大数据时代的来临为众多企业带来了更多全新的发展机遇。星环科技基于Apache Hadoop为企业开发了一站式大数据综合平台Transwarp Data Hub(简称TDH), 通过提供从数据存储、分布式计算、数据分析挖掘以及数据可视化的整套支持,帮助企业建立一个统一的数据和计算平台。企业用户可以在星环科技TDH一站式大数据综合平台上采集、存储、分析、搜索、挖掘海量数据及其内在价值。

 

TDH一站式大数据综合平台涵盖:

 

  • 一站式数据存储平台: TDH通过内存计算技术、高效索引、执行计划优化和高度容错的技术,使得一个平台能够处理从GB到PB的数据,并且在每个数量级上都能提供比现有技术更快的性能; 企业客户不再需要混合架构,不需要孤立的多个集群。TDH可以伴随企业客户的数据增长而动态不停机扩容,避免MPP或传统架构数据迁移的棘手问题。

  • 一站式资源管理平台:TDH在统一存储上建立资源管理层,提供企业用户统一的计算资源管理、动态资源分配、多部门之间的资源配置和动态共享等功能,使多部门多应用可以灵活地在统一平台上平滑运行。

  • 一站式数据分析平台:TDH支持批处理统计分析、交互式SQL分析、在线数据检索、R语言数据挖掘、机器学习、实时流处理、全文搜索和图计算,为企业客户提供广泛的计算支持能力,客户无需切换平台或架构即可完成复杂的任务。

  • 一站式管理平台:TDH作为企业级解决方案,开发了用户友好的管理界面、提供了系统安装、集群配置、安全访问控制、监控及预警等多方面支持,在可管理性方面优势显著。

 

TDH一站式大数据综合平台是国内外首个全面基于Apache Spark计算框架的大数据平台软件,也是国内外领先的高性能大数据分析平台。TDH包含五个组成部分:Transwarp Hadoop发行版、Transwarp Inceptor 高速SQL引擎、Transwarp Discover大数据挖掘探索软件、Transwarp Hyperbase分布式实时数据库、Transwarp Stream流处理引擎。

 

Transwarp Data Hub 体系架构

 

 

Transwarp Hadoop

Transwarp Hadoop 提供基础的分布式文件系统作为存储引擎,YARN作为资源管理框架,组合了一系列Apache项目,为用户提供了数据的采集、存储、数据同步、批处理、工作流分析以及全文搜索功能,是TDH不可或缺的基石。

 

Transwarp Inceptor

Transwarp Inceptor高速SQL引擎提供最完整的SQL语法支持,支持99%的ANSI SQL2003语法,也是第一个支持Oracle PL/SQL和DB2 SQL PL扩展的SQL on Hadoop引擎,可帮助企业建立高速可扩展的数据仓库

和/或数据集市。Inceptor支持分布式事务,可以保证数据加工的一致性和正确性。Inceptor也是第一个为SSD高速闪存优化的SQL引擎,结合多种报表工具,提供交互式数据分析、即时报表和可视化能力。

 

Transwarp Discover

Transwarp Discover是针对海量数据平台提供的分布式机器学习引擎,提供数十种分布式的统计算法和机器学习算法,同时可利用6000多个R语言算法包中的串行算法,为包括文本分析、交易反欺诈、风险分析、精准营销、故障检测在内的多种应用提供全面的算法和模型支持。Discover软件提供R语言接口和Java接口两种访问方式。

 

Transwarp Hyperbase

Transwarp Hyperbase实时数据库是融合了多种索引技术、分布式事务处理、全文实时搜索、图形数据库在内的实时NoSQL数据库。Hyperbase可以高效地支持企业的在线OLTP应用、高并发OLAP应用、批处理应用和全文搜索应用,结合Inceptor高速SQL引擎,是企业创建可扩展在线运营数据库(Operational Database)或者实时分析型数据库(ODS - Operational Data Store)的最佳选择。

 

Transwarp Stream

Transwarp Stream实时流处理引擎提供了强大的流计算表达能力,支持复杂的应用逻辑,生产系统的消息通过实时消息队列进入计算集群,在集群内以流水线方式被依次处理,完成数据转换、特征提取、策略检查、分析告警等复杂服务计算。Stream支持SQL来开发应用,极大降低应用开发的门槛。系统具备强扩展性、强容错、低延迟、高吞吐等特点 ,成熟应用于实时数据 ( 如传感器数据 ) 的实时告警、风险控制、在线统计和挖掘等业务。

 

TDH 产品功能特性表

 

Transwarp Hadoop

 

Erasure Code先进的编码容错技术,相比传统HDFS的3副本策略,Transwarp Hadoop只需1.5副本,降低一倍存储量需求,可容忍4个数据块同时丢失,平均无故障时间提高了一倍。

YARN:新一代资源管理框架,允许多个应用集群同时高效地运行在一个物理集群上。经改进后,成为真正的多应用程序平台,可服务于整个企业。

Map/Reduce:一个分布式批处理计算框架,将输入的数据集切分成块后并行处理、排序、再归集的整个过程,可处理PB级别的数据。

Pig:Pig数据处理语言将类SQL的数据分析请求转换为Map/Reduce任务。

Oozie:Oozie是一个工作流调度引擎,可按时间或数据变化触发运行。

Flume:Flume是一个分布式、高可靠、高可用的海量日志聚合系统。

HUE:基于Web的图形化使用和开发工具。

Sqoop/Sqoop2:Sqoop(SQL to Hadoop)可实现在Hadoop和关系数据库间的数据传递。

Elastic Search:分布式实时搜索与分析引擎,可实时对数据进行深度搜索。

 

Transwarp Inceptor

 

SQL编译器:高度优化的高速SQL引擎,可高速处理磁盘表或者缓存在内存或SSD上的列式数据。支持ANSI SQL 92和SQL 99标准,并且支持ANSI SQL 2003 OLAP核心扩展,适用于数据仓库批量统计应用,同时也适用于数据集市交互式分析类应用场景。

Holodesk:跨内存 / 闪存 / 磁盘等介质的分布式混合列式存储,常用于缓存数据供Spark高速访问。Holodesk内建内存索引,可提供比开源Spark更高的交互式统计性能;结合使用低成本的内存/闪存混合存储方案,可接近全内存存储的分析性能。

存储过程:支持Oracle PL/SQL 和 DB2 SQL PL两大主流SQL标准,包括完整的数据类型、流程控制、Package、游标、异常处理以及动态SQL执行,并且支持在存储过程中做高速统计,增删改查与分布式事务操作。能够满足数据仓库业务的复杂数据分析业务需求,帮助用户实现应用从传统数据库到Inceptor的快速迁移。

分布式事务:兼容SQL 2003 CRUD SQL语法,支持对CRUD操作的commit/rollback,保证数据的一致性;通过锁级别的控制实现事务原子性的保证;此外支持串行化的事务隔离控制。

高速执行引擎:基于Apache Spark深度开发了专用分布式计算引擎,不仅大幅提高了计算性能,而且有效的解决了Spark在稳定性方面的很多问题,确保计算引擎能够7x24小时无间断运行。包含基于代价的优化器和基于规则的优化器,可以保证SQL应用在无需手工改动的情况下能够发挥最大的性能。

多数据源连接:连接执行引擎和各种数据源的连接器,可以将多种不同数据源的数据接入引擎做实时的统计分析,而无需事先将数据导入HDFS,兼容Oracle DB-Link规范,无需业务重构,从而更加方便用户的业务构建多样化需求。

多租户管理:允许对多租户进行CPU和内存资源的配置和管理,支持通过SQL对用户磁盘空间的配置和管理,支持使用LDAP协议做用户访问控制,支持Kerberos协议用作底层访问控制,支持对表的数据进行精确的行级权限控制。

丰富的工具支持:支持主流可视化和BI/挖掘工具,包括Tableau、IBM Cognos、SAP BO、Oracle BI、SAS等。支持Pentaho/Kettle等ETL工具。支持与数据同步工具的对接,包括IBM CDC,Oracle Golden Gate等工具。

统计库:并行化的高性能统计算法库,用于对原始数据进行去噪、去缺省 / 异常值、归一化、统计分布等,是机器学习或数据挖掘的基础工具包。

机器学习库:并行化的高性能机器学习算法库,包含分类、聚类、回归、预测、推荐等大量常用机器学习算法,可用于构建在线和离线海量数据挖掘系统。

R语言/RStudio:强大的主流数据统计和绘图语言R以及Web图形化开发界面RStudio。通过调用内置并行算法库,支持对大数据集进行数据挖掘和统计。

完整的解决方案支持:提供文本分析、交易反欺诈、风险分析、推荐系统、故障检测在内的多个行业解决方案,使得用户可以基于Discover平台快速地基于自身业务系统构建解决方案。

 

Transwarp Hyperbase

 

SQL支持:通过Inceptor支持采用SQL进行批处理和高并发查询,批处理比Map/Reduce快10倍。可从Hyperbase的行存储转换成Holodesk的列存储,同时支持在线查询和高速OLAP分析。

索引:支持全局、局部、高维索引和高级过滤器,可用于高并发低延时的OLAP查询。

CRUD:支持通过SQL高并发毫秒级数据插入/修改/查询/删除。

全文搜索:基于Lucene的分布式全文索引,可结合Big Table实时创建索引并进行搜索。

分布式事务处理:支持SQL命令COMMIT和ROLLBACK进行跨表跨行的分布式事务处理以及事务回滚,保证数据更新的一致性。支持Snapshot based read committed的事务隔离级别

多数据类型支持:支持文档型数据(如JSON/BSON)的存储、索引和搜索,支持对象数据(图片、音视频、二进制文档等)的存储、检索和自动回收。

 

Transwarp Stream

 

StreamSQL:支持用SQL开发流处理应用,兼容SQL 2003标准;支持括Socket,文件以及Kafka等多种流输入方式,支持HBase,HDFS以及Holodesk等输出方式,支持按数据字段时间切分滑动窗口和跳动窗口。

Kafka:低延时高吞吐的分布式消息队列,支持发布/订阅模式,同时满足在线和离线处理海量消息数据派发的系统。星环科技为Kafka实现了一套访问控制管理策略,只有授权的用户才可以对Kafka集群进行读写操作,避免发生数据泄露或者其他用户发生误写操作。

流处理引擎:高吞吐的流式计算引擎;提供强大的流计算表达能力,支持在流数据上进行包括实时事件检测和批处理、机器学习在内的复杂计算逻辑。

交互式探索分析:支持将实时数据流转成列式存储存放到Holodesk上,可以利用Inceptor使用SQL对实时数据进行Ad-hoc分析以及利用R进行数据挖掘等。

流式机器学习:支持用户在实时计算过程进行统计学习和机器学习,如聚类算法,可以实时调整聚类中心;分类算法可以实时更新分类模型,并对流数据进行类比判断。

 

Transwarp Manager

 

安装、部署:Web图形化界面和快速向导,帮助用户在短时间内部署一个或多个集群。

监控、告警:丰富的性能指标监控和功能故障监控,并且可定制邮件告警。

 

核心技术优势

 

Apache Hadoop是针对大规模分布式数据而开发的软件框架,已经成为企业管理大数据的基础支撑技术。然而开源Hadoop仍然面临一些挑战:首先,尽管性能上Hadoop在100TB以上的数据上远远领先于传统数据处理技术,然而对GB到TB级数据的处理效率较低;其次,只有对海量的数据进行高效的分析及利用才能将大数据中存在的巨大潜在价值转换为实际的商业价值,这就需要完备的决策分析工具集运行在Hadoop架构之上;最后,亟需完备的企业级解决方案来加速大数据应用的广泛部署。

 

有鉴于此,星环科技从企业应用角度出发,针对性地对Apache Hadoop进行了系列技术开发,形成了适应企业级应用的TDH平台,从而使这一理论框架更能满足各类企业用户的要求。

 

支持SQL2003,存储过程和分布式事务

 

星环TDH目前支持完整的SQL 99标准和SQL 2003核心扩展,可以运行TPC-DS标准测试集的全部99个测试项;支持绝大部分PL/SQL语法,包括存储过程、函数、游标、逻辑控制、异常处理、包等功能,可以实现数据仓库业务中复杂数据分析。TDH还支持对数据的增删改操作,并通过分布式事务处理保证数据增删改查过程中的原子性和一致性。 TDH包含多级优化器和代码生成器,对SQL生成执行计划进行了大量优化,保证批量处理业务在Inceptor上有非常好的性能。TDH更完整的SQL支持、存储过程以及事务处理功能,使得用户能将原有数据分析应用方便地迁移到Transwarp大数据平台,同时又能处理更大的数据量。

 

 

超快的执行速度

 

Transwarp Inceptor采用专有的高效列式内存存储格式和为内存优化的Apache Spark计算引擎,相比广泛使用的Map/Reduce框架消除了频繁的I/O磁盘访问。此外,Spark引擎还采用了轻量级的调度框架和多线程计算模型,相比Map/Reduce中的进程模型具有极低的调度和启动开销,除带来更快的执行速度以外,更使得系统的平均修复时间(MTTR)极大的缩短。在实时在线应用方面,Transwarp Hyperbase构建了全局索引、辅助索引和全文索引,扩展了SQL语法,满足在线存储和在线业务分析系统(OLAP)的低延时需求。综合在执行引擎及数据存储层上的优化,使得TDH性能全面领先开源 Apache Hadoop 2.0,SQL支持完整程度和性能大幅领先Cloudera Impala,比主流MPP数据库快1.5到10倍。

 

超强的数据分析功能

 

将大数据放在数据分析师的手中,交互式地探索数据,获得洞察并发现模式和趋势,以便展开进一步的挖掘及决策已经变得越来越重要。Discover支持R交互式数据分析引擎同时内置了大量常用机器学习算法的分布式实现,可以与R语言中的数千个算法混合使用,可高速分析现有平台中的海量数据。Discover还提供了包括文本分析、交易反欺诈、风险分析、推荐系统、故障检测在内的多个行业解决方案,使得用户可以基于Discover平台快速地基于自身业务系统构建解决方案。超高的易用性和对数据挖掘算法的全面覆盖使Discover成为在大数据的数据挖掘和可视化应用领域的利器。结合Discover高效快速的数据挖掘能力与TDH对主流可视化和BI工具的支持,星环科技可以帮助客户将新的大数据应用轻松融合进原有业务中,通过对真实场景全量数据的学习和挖掘,为客户产生更多价值。

 

 

与数据分析生态系统的强力整合

 

DH非常重视与数据分析生态系统的整合以提高系统的易用性。TDH与现有成熟系统的无缝整合涉及了数据获取,数据分析以及数据可视化端。传统的关系型数据库的数据可以直接作为数据源接入到集群中参与计算分析,目前已经支持Oracle,DB2及MySQL数据库。数据分析层与R语言的整合带来了R的数千种统计算法的同时,可以充分利用R语言中的绘图工具绘制专业的统计报表;数据可视化不仅可将最终分析结果展示给用户,还可以帮助数据分析师来进行数据探索来发现和解决新问题。TDH支持多种可视化及报表生成工具,包括Tableau、SAP Business Objects、Oracle OBIEE等,使得基于大数据分析的商业决策更易被理解和接受,从而将大数据的潜在价值最大化。虽然有些工具也支持Apache Hadoop,但只有高性能的TDH才真正使得交互式地探索大数据成为现实。

 

 

完备的企业级解决方案

 

TDH通过提供数据存储、分布式计算、数据分析挖掘以及数据可视化的整套支持,解决了企业在GB到PB级数据分析领域碰到的各种问题。作为企业级解决方案,可管理性是TDH的显著优势,用户友好的管理界面提供了系统安装、系统及集群配置、监控及预警等多方面的一站式支持。TDH架构具有高可用性和快速故障恢复能力,HDFS做为其底层存储系统的支撑技术(Hyperbase亦基于此)保证了数据的持久化和冗余复制,并具有数据自动检测和修复的容错功能;基于HDFS的所有服务为HDFS的HA功能而优化,确保整个大数据处理系统的高可用性。在安全领域,与Kerberos/LDAP进行整合,支持细粒度访问控制、应用程序安全及数据加密及解密等等。