Transwarp Discover分布式机器学习引擎

Transwarp Discover是针对海量数据平台提供的分布式机器学习引擎,主要由R语言、Spark分布式内存计算框架以及MapReduce分布式计算框架构成。Discover支持R语言引擎,用户可以通过R访问HDFS或者Hyperbase中的数据,还支持访问存储在Inceptor分布式内存中的数据。在Discover中,用户既可以通过R命令行,也可以使用图形化的RStudio执行R语言程序来访问TDH中的数据,易用性极高。Discover内置了大量常用机器学习算法的并行化实现,可以与R语言中的数千个算法混合使用,配合TDH内置的高度优化的专有算法,可高速分析关联关系网络等图数据。此外,Discover还集成了多个机器学习算法库,包含了聚类分析、 分类算法、频度关联分析和推荐系统在内的常用算法。

Transwarp Discover架构图
Transwarp Discover功能特性表
功能 描述
统计库 并行化的高性能统计算法库,用于对原始数据进行去噪、去缺省 / 异常值、归一化、统 计分布等,是机器学习或数据挖掘的基础工具包。
机器学习库 并行化的高性能机器学习算法库 ,包含分类 、聚类 、预测、推荐等机器学习算法。可 用于构建高精度的推荐引擎或者预测引擎。
R语言 强大的主流数据统计和绘图语言 R,支持对接Web图形化开发界面RStudio 。 通 过调用Inceptor内置并行算法库,支持对大数据集进行数据挖掘和统计。
完整的解决方案支持 提供文本分析、交易反欺诈、风险分析、推荐系统、故障检测在内的多个行业解决方案,使得用户可以基于Discover平台快速地基于自身业务系统构建解决方案。