WeDataSphere 是一套一站式、金融级、全连通、开源开放的大数据平台套件。由功能工具、中间件、基础引擎三大层次组成,形成了完整的大数据平台技术体系,提供数据分析、数据治理、机器学习、平台管理等丰富数据平台组件及功能支撑。


1. 已开源项目

Github WeDataSphere:https://github.com/WeBankFinTech/WeDataSphere

  1. Apache Linkis计算中间件 :https://github.com/apache/incubator-linkis
  2. DataSphereStudio一站式数据应用开发管理门户:https://github.com/WeBankFinTech/DataSphereStudio
  3. Qualitis 数据质量管理平台 :https://github.com/WeBankFinTech/Qualitis
  4. Schedulis 工作流任务调度系统:https://github.com/WeBankFinTech/Schedulis
  5. Exchangis 数据交换平台:https://github.com/WeBankFinTech/Exchangis
  6. Prophecis 一站式机器学习平台:https://github.com/WeBankFinTech/Prophecis
  7. Scriptis 交互式数据分析 Web 工具:https://github.com/WeBankFinTech/Scriptis
  8. Visualis 数据可视化工具:https://github.com/WeBankFinTech/Visualis
  9. Streamis 流式应用开发管理系统:https://github.com/WeBankFinTech/Streamis



视频介绍:全面解读一站式开源大数据平台 WeDataSphere套件


2. 已集成的组件

2.1 DSS集成组件

官网组件列表:https://github.com/WeBankFinTech/DataSphereStudio/blob/master/README-ZH.md

(下面的图不一定是最新,最新的图看上面的链接)

应用工具

描述

DSS0.X 兼容版本(推荐 DSS0.9.1)

DSS1.0 兼容版本(推荐 DSS1.1.0)

Linkis

计算中间件 Apache Linkis,通过提供 REST/WebSocket/JDBC/SDK 等标准接口,上层应用可以方便地连接访问 MySQL/Spark/Hive/Presto/Flink 等底层引擎.

推荐 Linkis0.11.0(已发布

>= Linkis1.1.1(已发布

DataApiService

(DSS已内置的第三方应用工具)数据API服务。可快速将SQL脚本发布为一个 Restful 接口,对外提供 Rest 访问能力。

不支持

推荐 DSS1.1.0(已发布

Scriptis

(DSS 已内置的第三方应用工具)支持在线写 SQL、Pyspark、HiveQL 等脚本,提交给 Linkis

执行的数据分析 Web 工具。

推荐 DSS0.9.1(已发布

推荐 DSS1.1.0(已发布

Schedulis

基于 Azkaban 二次开发的工作流任务调度系统,具备高性能,高可用和多租户资源隔离等金融级特性。

推荐 Schedulis0.6.1(已发布

>= Schedulis0.7.0(已发布

EventCheck

(DSS 已内置的第三方应用工具)提供跨业务、跨工程和跨工作流的信号通信能力。

推荐 DSS0.9.1(已发布

推荐 DSS1.1.0(已发布

SendEmail

(DSS 已内置的第三方应用工具)提供数据发送能力,所有其他工作流节点的结果集,都可以通过邮件进行发送

推荐 DSS0.9.1(已发布

推荐 DSS1.1.0(已发布

Qualitis

数据质量校验工具,提供数据完整性、正确性等数据校验能力

推荐 Qualitis0.8.0(已发布

>= Qualitis0.9.2(已发布

Streamis

流式应用开发管理工具。支持发布 Flink Jar 和 Flink SQL ,提供流式应用的开发调试和生产管理能力,如:启停、状态监控、checkpoint 等。

不支持

>= Streamis0.2.0(已发布

Prophecis

一站式机器学习平台,集成多种开源机器学习框架。Prophecis 的 MLFlow 通过 AppConn 可以接入到 DSS 工作流中。

不支持

>= Prophecis 0.3.2(已发布

Exchangis

支持对结构化及无结构化的异构数据源之间的数据传输的数据交换平台,即将发布的 Exchangis1.0,将与 DSS 工作流打通

不支持

= Exchangis1.0.0(已发布

Visualis

基于宜信开源项目 Davinci 二次开发的数据可视化 BI 工具,为用户在数据安全方面提供金融级数据可视化能力。

推荐 Visualis0.5.0

= Visualis1.0.0(已发布

DolphinScheduler

Apache DolphinScheduler,分布式易扩展的可视化工作流任务调度平台,支持一键将DSS工作流发布到 DolphinScheduler。

不支持

DolphinScheduler1.3.X(已发布

UserGuide

(DSS 将内置的第三方应用工具)包含帮助文档、新手指引、Dark模式换肤等。

不支持

>= DSS1.1.0(已发布

DataModelCenter

(DSS 将内置的第三方应用工具)主要提供数仓规划、数据模型开发和数据资产管理的能力。数仓规划包含主题域、数仓分层、修饰词等;数据模型开发包含指标、维度、度量、向导式建表等;数据资产打通 Apache Atlas,提供数据血缘能力。

不支持

规划在 DSS1.2.0(开发中

UserManager

(DSS 已内置的第三方应用工具)自动初始化一个 DSS 新用户所必须的所有用户环境,包含:创建 Linux 用户、各种用户路径、目录授权等。

推荐 DSS0.9.1(已发布

规划中

Airflow

支持将 DSS 工作流发布到 Apache Airflow 进行定时调度。

PR 尚未合并

不支持



2.2 Linkis已支持的引擎

官方链接:https://github.com/apache/incubator-linkis/blob/master/README_CN.md

(下面的图不一定是最新,最新的图看上面的链接)

引擎名

支持底层组件版本
(默认依赖版本)

Linkis 版本要求

是否默认包含在发布包中

说明

Spark

Apache 2.0.0~2.4.7,
CDH >= 5.4.0,
(默认 Apache Spark 2.4.3)

>=1.0.3

Spark EngineConn, 支持 SQL, Scala, Pyspark 和 R 代码

Hive

Apache >= 1.0.0,
CDH >= 5.4.0,
(默认 Apache Hive 2.3.3)

>=1.0.3

Hive EngineConn, 支持 HiveQL 代码

Python

Python >= 2.6,
(默认 Python2*)

>=1.0.3

Python EngineConn, 支持 python 代码

Shell

Bash >= 2.0

>=1.0.3

Shell EngineConn, 支持 Bash shell 代码

JDBC

MySQL >= 5.0, Hive >=1.2.1,
(默认 Hive-jdbc 2.3.4)

>=1.0.3

JDBC EngineConn, 已支持 MySQL 和 HiveQL,可快速扩展支持其他有 JDBC Driver 包的引擎, 如 Oracle

Flink

Flink >= 1.12.2,
(默认 Apache Flink 1.12.2)

>=1.0.3

Flink EngineConn, 支持 FlinkSQL 代码,也支持以 Flink Jar 形式启动一个新的 Yarn 应用程序

Pipeline

-

>=1.0.3

Pipeline EngineConn, 支持文件的导入和导出

openLooKeng

openLooKeng >= 1.5.0,
(默认 openLookEng 1.5.0)

>=1.1.1

openLooKeng EngineConn, 支持用 Sql 查询数据虚拟化引擎 openLooKeng

Sqoop

Sqoop >= 1.4.6,
(默认 Apache Sqoop 1.4.6)

>=1.1.2

Sqoop EngineConn, 支持 数据迁移工具 Sqoop 引擎

Presto

Presto >= 0.180,
(默认 Presto 0.234)

>=1.2.0

Presto EngineConn, 支持 Presto SQL 代码

ElasticSearch

ElasticSearch >=6.0,
((默认 ElasticSearch 7.6.2)

>=1.2.0

ElasticSearch EngineConn, 支持 SQL 和 DSL 代码

Impala

Impala >= 3.2.0, CDH >=6.3.0

ongoing

-

Impala EngineConn,支持 Impala SQL 代码

MLSQL

MLSQL >=1.1.0

ongoing

-

MLSQL EngineConn, 支持 MLSQL 代码.

Hadoop

Apache >=2.6.0,
CDH >=5.4.0

ongoing

-

Hadoop EngineConn, 支持 Hadoop MR/YARN application

TiSpark

1.1

ongoing

-

TiSpark EngineConn, 支持用 SparkSQL 查询 TiDB


2.3 Linkis特点

(1)丰富的底层计算存储引擎支持。

目前支持的计算存储引擎:Spark、Hive、Python、Presto、ElasticSearch、MLSQL、TiSpark、JDBC和Shell等。

正在支持中的计算存储引擎:Flink(>=1.0.2版本已支持)、Impala等。

支持的脚本语言:SparkSQL, HiveQL, Python, Shell, Pyspark, R, Scala 和JDBC 等。

(2)强大的计算治理能力。

基于Orchestrator、Label Manager和定制的Spring Cloud Gateway等服务,Linkis能够提供基于多级标签的跨集群/跨IDC 细粒度路由、负载均衡、多租户、流量控制、资源控制和编排策略(如双活、主备等)支持能力。

(3)全栈计算存储引擎架构支持。

能够接收、执行和管理针对各种计算存储引擎的任务和请求,包括离线批量任务、交互式查询任务、实时流式任务和存储型任务;

(4)资源管理能力。

ResourceManager 不仅具备 Linkis0.X 对 Yarn 和 Linkis EngineManager 的资源管理能力,还将提供基于标签的多级资源分配和回收能力,让 ResourceManager 具备跨集群、跨计算资源类型的强大资源管理能力。

(5)统一上下文服务。

为每个计算任务生成context id,跨用户、系统、计算引擎的关联管理用户和系统资源文件(JAR、ZIP、Properties等),结果集,参数变量,函数等,一处设置,处处自动引用;

(6)统一物料。

系统和用户级物料管理,可分享和流转,跨用户、系统共享物料。


3. 安装部署

3.1 Apache Linkis 计算中间件

3.2 DataSphereStudio 一站式数据应用开发管理门户

3.3 Qualitis 数据质量管理平台

3.4 Schedulis 工作流任务调度系统

3.5 Exchangis 数据交换平台

3.6 Prophecis 一站式机器学习平台

3.7 Scriptis 交互式数据分析 Web 工具

3.8 Visualis 数据可视化工具

3.9 Streamis 流式应用开发管理系统


部分链接可能会失效,请到GitHub项目中查阅最新的安装部署文档。



  • No labels