产品概述

一站式数据存储平台
TDH通过内存计算技术、高效索引、执行计划优化和高度容错的技术,使得一个平台能够处理从GB到PB的数据,并且在每个数量级上,都能比现有技术提供更快的性能; 企业客户不再需要混合架构,不需要孤立的多个集群,TDH可以伴随企业客户的数据增长,动态不停机扩容,避免MPP或传统架构数据迁移的棘手问题。
一站式资源管理平台
TDH在统一存储上建立资源管理层,提供企业用户统一的计算资源管理、动态资源分配、多部门之间资源配置和动态共享,灵活支持多部门多应用在统一平台上平滑运行。
一站式数据分析平台
TDH支持批处理统计分析、交互式SQL分析、在线数据检索、R语言数据挖掘、机器学习、实时流处理、全文搜索和图计算,为企业客户提供广泛的计算支持能力,客户无需切换平台或架构即可完成复杂的任务。
一站式管理平台
TDH作为企业级解决方案,开发了用户友好的管理界面、提供了系统安装、集群配置,安全访问控制、监控及预警等多方面支持,在可管理性方面优势显著。
技术优势

Apache Hadoop是针对大规模分布式数据而开发的软件框架,已经成为企业管理大数据的基础支撑技术。然而开源Hadoop仍然面临一些挑战:首先,尽管性能上Apache Hadoop在100TB以上的数据上远远领先于传统数据处理技术,然而对GB到TB级数据的处理效率较低;其次,只有对海量的数据进行高效的分析及利用才能将大数据中存在的巨大潜在价值转换为实际的商业价值,这就需要完备的决策分析工具集运行在Apache Hadoop架构之上;最后,亟需完备的企业级解决方案来加速大数据应用的广泛部署。

有鉴于此,星环科技从企业应用角度出发,针对性地对Apache Hadoop进行了系列技术开发,形成了适应企业级应用的TDH平台,从而使这一理论框架更能满足各类企业用户的要求。

超快的执行速度

Transwarp Inceptor采用专有的高效列式内存存储格式和为内存优化的Apache Spark计算引擎,相比广泛使 用的Map/Reduce框架消除了频繁的I/O磁盘访问。此外,Spark引擎还采用了轻量级的调度框架和多线程计算模型,相比Map/Reduce中的进程模型具有极低的调度和启动开销,除带来更快的执行速度以外,更使得系统的平均修复时间(MTTR)极大的缩短。在实时在线应用方面,Transwarp Hyperbase构建了全局索引、辅助索引和全文索引,扩展了SQL语法,满足在线存储和在线业务分析系统(OLAP)的低延时需求。综合在执行引擎及数据存储层上的优化,使得TDH性能全面领先开源Apache Hadoop 2.0,SQL支持完整程度和性能大幅领先Cloudera Impala,比主流MPP数据库快1.5到10倍。

支持SQL2003,存储过程和分布式事务

星环TDH目前支持完整的SQL 99标准和SQL 2003核心扩展,可以运行TPC-DS标准测试集的全部99个测试项;支持绝大部分PL/SQL语法,包括存储过程、函数、游标、逻辑控制、异常处理、包等功能,可以实现数据仓库业务中复杂数据分析。TDH还支持对数据的增删改操作,并通过分布式事务处理保证数据增删改查过程中的原子性和一致性。 TDH包含多级优化器和代码生成器,对SQL生成执行计划进行了大量优化,保证批量处理业务在Inceptor上有非常好的性能。TDH更完整的SQL支持、存储过程以及事务处理功能,使得用户能将原有数据分析应用方便地迁移到Transwarp大数据平台,同时又能处理更大的数据量。

超强的数据分析功能

将大数据放在数据分析师的手中,交互式地探索数据,获得洞察并发现模式和趋势,以便展开进一步的挖掘及决策已经变得越来越重要。Discover支持R交互式数据分析引擎同时内置了大量常用机器学习算法的分布式实现,可以与R语言中的数千个算法混合使用,可高速分析现有平台中的海量数据。Discover还提供了包括文本分析、交易反欺诈、风险分析、推荐系统、故障检测在内的多个行业解决方案,使得用户可以基于Discover平台快速地基于自身业务系统构建解决方案。超高的易用性和对数据挖掘算法的全面覆盖使Discover成为在大数据的数据挖掘和可视化应用领域的利器。结合Discover高效快速的数据挖掘能力与TDH对主流可视化和BI工具的支持,星环科技可以帮助客户将新的大数据应用轻松融合进原有业务中,通过对真实场景全量数据的学习和挖掘,为客户产生更多价值。

与数据分析生态系统的强力整合

TDH非常重视与数据分析生态系统的整合以提高系统的易用性。TDH与现有成熟系统的无缝整合涉及了数据获取,数据分析以及数据可视化端。传统的关系型数据库的数据可以直接作为数据源接入到集群中参与计算分析,目前已经支持Oracle,DB2及MySQL数据库。数据分析层与R语言的整合带来了R的数千种统计算法的同时,可以充分利用R语言中的绘图工具绘制专业的统计报表; 数据可视化不仅可将最终分析结果展示给用户, 还可以帮助数据分析师来进行数据探索来发现和解决新问题。TDH支持多种可视化及报表生成工具,包括Tableau、SAP Business Objects、Oracle OBIEE等,使得基于大数据分析的商业决策更易被理解和接受,从而将大数据的潜在价值最大化。 虽然有些工具也支持Apache Hadoop,但只有高性能的TDH才真正使得交互式地探索大数据成为现实。

完备的企业级解决方案

TDH通过提供数据存储、分布式计算、数据分析挖掘以及数据可视化的整套支持,解决了企业在GB到PB级数据分析领域碰到的各种问题。作为企业级解决方案,可管理性是TDH的显著优势,用户友好的管理界面提供了系统安装、系统及集群配置、监控及预警等多方面的一站式支持。TDH架构具有高可用性和快速故障恢复能力,HDFS2.5做为其底层存储系统的支撑技术(Hyperbase亦基于此)保证了数据的持久化和冗余复制,并具有数据自动检测和修复的容错功能;基于HDFS的所有服务为HDFS 2.5的HA功能而优化,确保整个大数据处理系统的高可用性。在安全领域,与Kerberos/LDAP进行整合,支持细粒度访问控制、应用程序安全及数据加密及解密等等。