Transwarp分布式文件存储引擎

提供基础的分布式文件系统作为存储引擎,YARN作为资源管理框架,组合了一系列Apache 项目,为用户提供了数据的采集、存储、数据同步、批处理、工作流分析以及全文搜索功能,是TDH不可或缺的基石。星环科技改进了Apache YARN资源管理框架,可以在同一个HDFS数据集上动态创建Inceptor交互式分析集群、Map/Reduce批处理集群以及实时流处理集群,提供多部门间资源配额管理、动态资源调配、资源共享的能力,为企业建立一站式数据平台提供有力支持。

Features of Transwarp's Distribution for Apache Hadoop
功能 描述
Erasure Code 先进的编码容错技术,相比传统HDFS的3副本策略,Transwarp's Distribution for Apache Hadoop只需1.5副本, 降低一倍存储量需求,可容忍4个数据块同时丢失,平均无故障时间提高了一倍。
YARN 新一代资源管理框架,允许多个应用集群同时高效地运行在一个物理集群上。经改进后,成为真正的多应用程序平台,可服务于整个企业。
Map/Reduce 一个分布式批处理计算框架,将输入的数据集切分成块后并行处理、排序、再归集的整个过程,可处理PB级别的数据。
Pig Pig数据处理语言将类SQL的数据分析请求转换为Map/Reduce任务。
Oozie Oozie是一个工作流调度引擎,可按时间或数据变化触发运行。
Flume Flume是一个分布式、高可靠、高可用的海量日志聚合系统。
HUE 基于Web的图形化使用和开发工具。
Sqoop/Sqoop2 Sqoop(Sql to hadoop)可实现在Hadoop和关系数据库间的数据传递。
Elastic Search 分布式实时搜索与分析引擎,可实时对数据进行深度搜索。