星环大数据平台TDH(Transwarp Data Hub),以下简称TDH,可以选择使用开源hadoop软件或者TDH优化过的Spark框架,整体软件框架支持Hadoop、Spark平台以及HBase、Pig、Hive、SparkSQL等主流的大数据分析软件,提供组件间良好的匹配支持, 无论是开源hadoop软件或者TDH优化过的Spark框架都可以使用标准的sql语句查询数据,广泛支持SQL99、 HiveQL、PL/SQL语法、标准SQL1999的查询语言接口、JDBC/ODBC接口,并提供二次开发的集成开发环境(如Eclipse),支持R语言开发环境RStudio访问分布式内存数据实现聚类、分类、推荐引擎、模式挖掘等并行分析能力,同时也支持C/C++语言对HBase的Thrift接口访问,完全兼容运行在主流X86服务器硬件平台, 具有扩展性强、容错性强、延迟低、吞吐高等特点,单台服务器的性能可以达到每秒扫描GB级别数据,单台机器可在1秒内扫描上亿条记录(优于原生hadoop至少1~3个数量级以上),在国内拥有7x24小时不间断运行案例。

TDH默认采用YARN资源调度框架的Spark技术亦同时兼容Map/Reduce,随需动态调整计算集群可以支持对硬件的内存管理和CPU调度策略,支持原生Spark资源各种调度算法。

TDH支持使用Kerberos进行用户认证,HDFS中的数据可以根据认证用户(组)进行读/写访问控制。

TDH系统中支持构建完整的组件冗余框架,每个组件都可设置物理备份机器节点承担进行冗余(单台服务器节点故障可在5分钟内进行修复回滚,在Erasure Code模式下,副本节点不高于总系统节点的1.5倍,即可以容纳四台故障节点),并在监控页面上可以实时监控错误状态,所有节点支持自动修复数据保证系统7X24小时不间断运行,错误处理支持单子任务修正无需干预整个集群框架运作,TDH内置分布式数据库框架的远程双向同步功能可原生支持实现异地容灾。

TDH系统流处理系统默认使用小批量流式处理(处理间隔在100毫秒之间),可实现复杂SQL应用及online流式机器学习,消息队列方面支持常见的队列工具(如:Kafka, Flume分布式日志文件采集工具等,可实现Topic级别的读写以及操作权限控制),并完全兼容现有hadoop社区发展体系。

TDH系统提供FTP服务接口,可实现FTP协议上次数据文件,兼容图形化ETL工具、Sqoop、Tableau、Oracle BI, SAP Business Object等组件在Hadoop框架和外部数据集实时高速导入导出数据及大型数据图表生成,支持可视化前端对查询语句进行编辑、管理、查阅日志。

TDH系统支持各种类型的结构化数据的查询分析(数据源可以来自于HDFS或者HBase),半结构化数据以及非结构化数据(如图片等)或是二维关系表等均可在内置内存数据库中高速存放和检索实现交互式SQL分析和数据挖掘,支持内存、机械磁盘、SSD磁盘数据库(可保证不低于机械磁盘10倍以上性能)互换保障SQL业务持续性,提供数据库自定义字段建立辅助高维索引以实现任意特征字段进行搜索,提供full index功能,内容管理功能可实现文字等非结构化数据的处理和导出,同时也具备增量创建full index,实时动态更新新增数据的搜索,可自动化索引创建过程,并实现索引数据根据源表内容动态更新,提供高速随机Key-Value类型数据的低延时查询、插入、统计,数据操作均在万级别/秒,单条数据的流处理及系统延时处理间隔性能在毫秒级别(单台服务器空负载情况下相应速度不低于万级别记录处理)。

TDH系统提供全局搜索功能进行系统运维,从监控、部署、配置等方面实现系统资源消耗的有效控制,可同时管理多个Hadoop/HBase集群并统一管理,亦可支持在同个HDFS集群上创建多个HBase、Hive、Map/Reduce集群,提供图形化的Hadoop及其子项目的参数配置与调优。

TDH系统操作系统兼容各种RHEL-compatible systems,一般主流RPM发行系列均可原生或支持定制安装。

TDH系统提供标准技术支持服务,包括升级服务、集群故障侦测、集群错误修复、软件错误修正、漏洞补丁等,可随时提供补丁包。严重故障响应时间在2小时以内,7x24 Web支持和8x5小时电话支持(节假日除外),提供问题解答和错误报告。