【案例分享】基于Linkis+DSS构建合合信息一站式数据开发平台 #3338
Ritakang0451
started this conversation in
Solicit Articles(征文)
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
作者:介龙平
文章来源:大猿小猿向前冲 公众号
编者荐语:
介龙平作为Apache Linkis的Committer,详尽的分享了如何使用Linkis+DSS构建企业内部的大数据平台
目录指引
IDS 的简介
IDS 的诞生背景
IDS——合数据工坊的实践之路
3.1 用户权限
3.2 引擎增强
3.3 作业调度
3.4 数据治理
3.5 IDS 中一些小的功能改造点或应用项
总结
参考文档
1. IDS 的简介
Intsig Data Studio(IDS)是上海合合信息科技股份有限公司,大数据平台基于微众WDS社区开源的Linkis&DSS组件构建的一站式敏捷数据应用开发管理门户,面向的主要用户群体包括数据开发、数据分析、数据产品经理和数据质检人员等。
对外提供的核心能力包括一站式数据开发交互平台,支持数据从进来(数据集成),到处理(数据探查、作业调度),到出去(数据服务,BI 报表),到运维(任务运维、数据质量)等全链路的可视化操作。
下图展示了 IDS 在我们大数据平台中的定位,其上层衔接用户或各种应用系统,底层联通各种各样的计算或存储引擎。
2. IDS 的诞生背景
在未引入 Linkis 和 DSS 之前,公司内部缺少一个统一的开发入口,数据平台中的用户在进行数据探查、业务上线的过程中要分别登入到不同的组件中进行操作,比如:对库表元数据的访问需求,需要使用自研的指标系统或数据地图;做数据分析时,又要借助于 zeppelin 或 ipython 等工具进行交互式数据查询;作业流调度发布时,又重度依赖于平台组同事来编写Airflow底层复杂的任务依赖描述代码。
在数据开发的整条链路中,涉及到的系统之间无法做到有效联通,应用孤岛问题日渐严重,用户也疲于在各种组件之间反复切换,这种现状一直影响着大数据平台用户的开发效率和使用体验。同时,多个开发入口的存在,也增加了我们大数据平台的运维成本,其潜在的数据流出风险也被叠加放大。
在此背景之下,我们需要一个统一的一站式数据开发、分析和可视化的平台。为此,我们先后调研或试用了商业化的大数据中台产品,如网易的数帆和阿里的dataworks等。一线大厂开发出来的产品,确实有着一套业界非常领先的标准和规范,以及拥有着非常强大而全面的数据治理能力,但综合考量我们现有的需求场景和成本投入等多方面因素,我们最终没有接受商业化的数据中台解决方案。
不得已,我们又把目光投向了开源界的产品,WDS 顺理成章地闯入了我们的视野,虽记不清与 WDS 相识的具体日子,但 WDS 社区及其生态组件所展现出来的能力,着实让我们怦然心动。
WDS 是一站式、金融级、全连通、开源开放的大数据平台套件。目前支持的开源组件包括,DataSphere Studio 、Linkis,Qualitis 等。WDS 社区运营给力,成员活跃,自 19 年以来发布的 9 个开源组件,填补了业界“开源体系大数据平台套件”的空白,受到了各行业的广泛好评和采用。基于包装好的轮子,让众多中小企业依托开源社区的力量来搭建内部一站式大数据平台的梦想变得不再遥不可及。
IDS(合数据工坊)是我们对 Linkis 和 DSS 的统称,Linkis 作为计算中间件,底层对接各种计算或存储引擎,上层衔接各种服务或应用,DSS 则提供一站式数据开发管理门户的基层组件。在现阶段,我们使用的 DataSphere Studio 和 Linkis 组件的版本分别是:1.0.1 和 1.0.3。
在这其中,最重要的工作是完成对 Linkis 的适配和应用,我司目前的大数据平台基于 cdh5.13.1,为此我们修改了 Linkis 中依赖的大数据组件的版本以适配我们的版本,在这个过程中基本没遇到什么太大的坑,因为自 Linkis1.x 版本以来,针对 CDH5、6 以及其他社区组件版本的兼容性都很好,基本不会出现太大的依赖冲突等问题,即使出现问题,依靠强大且活跃的 Linkis 社区,我们也能得到及时而有效的反馈。
除了与内部 hadoop 等组件做适配兼容之外,针对 Linkis1.1.x 版本中的一些大的特性修复,我们也以 patch 的形式打到了内部 1.0.3 版本里,如:
#1765
#1780
现阶段是我们 IDS 的建设初期,内部针对 DSS&Linkis 的应用方式或一些小的改造点,我将在下文中从如下几个方面来叙述:
用户权限
引擎增强
作业调度
数据治理
小型优化
3.1 用户权限
更多内容请访问 https://mp.weixin.qq.com/s?__biz=MzI4MDkxNzUxMg==&mid=2247489090&idx=1&sn=bb816c97e2b904825eb8bdb19aaf4e1e&chksm=ebb07525dcc7fc331534c69f60fd9e0049a7fe1fdd4a3ecdabe95eea885035b141f8d5cb0f1a&token=173691862&lang=zh_CN#rd
Beta Was this translation helpful? Give feedback.
All reactions