南京网络推广建站,珠海建设网站的公司哪家好,江津哪里找做网站的,营销网站文章目录 前言利用Kubernetes技术云原生平台初始化迁移基于Argo CD添加GitOpsDolphinScheduler 在 k8s 上的服务自愈可观测性集成服务网格云原生工作流调度从HDFS升级到S3文件技术总结 前言
DolphinScheduler 的高效云原生部署模式#xff0c;比原始部署模式节省了95%以上的人… 文章目录 前言利用Kubernetes技术云原生平台初始化迁移基于Argo CD添加GitOpsDolphinScheduler 在 k8s 上的服务自愈可观测性集成服务网格云原生工作流调度从HDFS升级到S3文件技术总结 前言
DolphinScheduler 的高效云原生部署模式比原始部署模式节省了95%以上的人力资源和工作时间提升了部署效率和成本效益。通过集成 GitOps 技术我们提升了 DolphinScheduler 的 DevOps 管理能力改善了软件交付效率和安全审计能力。通过集成新的云原生技术我们为 DolphinScheduler 增加了水平扩展、健康探测和滚动部署等功能提升了其灵活性和适应性。将 Prometheus 等可观测性技术整合到基础设施和服务网格中显著提升了 DolphinScheduler 的监控功能为其性能和健康状态提供了更深入的洞察。与 Kubernetes 作业技术深度整合实现了 DolphinScheduler 的混合调度器适用于传统虚拟机和基于容器的运行环境提升了其多样性和兼容性。 DolphinScheduler 是由 Analysys 开源的分布式、易于扩展的可视化工作流任务调度平台解决了需要企业级问题
多源数据连接和访问技术领域中最常见的数据源都可以访问添加新数据源不需要太多改动。多样化、专业化和大规模数据任务管理这涉及到大数据Hadoop 系列、Flink 等任务调度的问题与传统调度器有着显著区别。图形化任务编排提供了方便的用户体验与商业产品具有竞争力尤其是对于大多数无法通过拖放直接生成数据任务的国外开源产品而言。任务细节丰富的任务、日志和运行时间轴显示满足了开发人员对精细化数据任务管理的需求快速定位慢 SQL 和性能瓶颈。支持各种分布式文件系统丰富了用户对非结构化数据的选择。本地多租户管理满足了大型组织对数据任务管理和隔离的需求。完全自动化的分布式调度算法来平衡所有调度任务。本地集群监控可以监控 CPU、内存、连接数和 Zookeeper 状态适用于中小企业的一站式运维。本地任务告警功能最大程度地减少任务操作的风险。强大的社区运营倾听客户的真实声音不断添加新功能持续优化客户体验。 基于早期的微服务技术DolphinScheduler采用了服务注册表的概念通过使用Zookeeper进行集群的分布式管理许多大数据技术使用Zookeeper作为分布式集群管理。Worker主节点可以任意添加或者可以独立部署API管理和告警管理。作为一个企业级技术模块它实现了微服务分离、独立部署和模块化管理的良好技术特性。然而在容器化云原生应用迅速发展的时代这种基本的技术模式存在一些不足之处
需要从头开始部署无论是安装在物理机还是虚拟机上DolphinScheduler都需要数百个shell操作一个节点集群可能需要数千个shell操作。标准化的企业级DolphinScheduler涉及到管理大量基本环境并且通常需要超过八个节点、主机和IP地址。这些基础设施信息带来了一定的管理难度。添加节点时还需要进行数十个操作安装Java、配置主机、设置DS Linux用户、设置免密码登录、修改安装节点配置文件并且整个集群需要停止和重新启动。大型企业通常有多个集群来支持不同的业务单元这将在工作负载中带来大量的重复。调度器具有一些可观察性功能但无法与主流工具集成。整体而言调度器仍然需要日常例行检查工作例如调查核心Java进程异常退出。在不同的需求和场景下调度器的配置设置缺乏有效的管理机制或工具。 解决这些技术缺陷的核心思路包括
如何将DolphinScheduler集成到当今主流的云原生技术中如何在减少人力资源的情况下部署DolphinScheduler是否能实现完全自动化的集群安装和部署模式如何实现完全无服务器的DolphinScheduler并大幅降低配置管理的管理成本如何标准化技术组件的实现规范是否可以实现无人监管运行并且系统具备自我修复能力如何构建并将其集成到现有的可观测性平台中。
利用Kubernetes技术
作为云原生系统技术的事实标准Kubernetes已经给整个IT应用技术系统带来了革命性的变化。Kubernetes主要基于服务注册和发现、负载均衡、自动化软件发布和回滚、容器化隔离、软件自愈和分布式配置管理等核心技术特性。不仅如此还可以整合 Cloud Native Computing FoundationCNCF的许多优秀项目至 ds on k8s 部署
DolphinScheduler的部署技术得到了改进。我们使用了Helm和Argo CD来大大简化和实现一键部署。通过Argo CD实现了配置内容的GitOps管理机制从而实现了现代DevOps的完整审计能力。Kubernetes的水平Pod自动缩放技术大大简化了应用扩展的操作难度。Kubernetes的标准化健康探针技术使得调度器的所有技术组件都具备了强大的自愈能力。Kubernetes和Argo CD的滚动发布技术实现了DolphinScheduler工具的优雅简单升级。使用Kube-Prometheus技术为DolphinScheduler带来了标准化的可观测性能力。强大的UI技术简化了CMDB可视化管理、基于Kubernetes的组件配置管理、应用日志管理等。
还可以向DolphinScheduler引入了更强大的工具以获取更丰富的云原生特性
通过Kubernetes服务注册发现和Ingress技术实现了更轻松的服务访问引入了Linkerd将服务网格的功能引入DolphinScheduler提高了所有API的管理和监控能力将DolphinScheduler与Argo Workflows或标准的Kubernetes作业结合起来引入对象存储技术MinIO将存储非结构化数据的技术与DolphinScheduler统一起来。
云原生平台初始化迁移
部署步骤 从 GitHub 存储库的 dolphinscheduler-1.3.9.tar.gz 文件中的 ./dolphinscheduler-1.3.9/docker/kubernetes/dolphinscheduler 文件夹中获取 Helm 包: https://github.com/apache/dolphinscheduler/archive/refs/tags/1.3.9.tar.gz 使用以下命令来部署一个由 Kubernetes 管理的 DolphinScheduler 实例 kubectl create ns ds139
helm install dolphinscheduler . -n ds139有时DolphinScheduler 用户需要集成 DataX、MySQL JDBC 驱动程序或 Oracle JDBC 驱动程序以进行 ETL 和数据库连接。我们可以下载必要的组件构建新的 Docker 镜像然后升级 Kubernetes 管理的 DolphinScheduler 实例 #Download the additional components
https://repo1.maven.org/maven2/mysql/mysql-connector-java/5.1.49/mysql-connector-java-
5.1.49.jar
https://repo1.maven.org/maven2/com/oracle/database/jdbc/ojdbc8/
https://github.com/alibaba/DataX/blob/master/userGuid.md#Create a new docker image with new tag by this Dockerfile
FROM apache/dolphinscheduler:1.3.9
COPY *.jar /opt/dolphinscheduler/lib/
RUN mkdir -p /opt/soft/datax
COPY datax /opt/soft/datax#Edit image tag of helm value.yaml file, and execute helm upgrade.
helm upgrade dolphinscheduler -n ds139一般建议在生产环境中使用独立的外部 PostgreSQL 作为 DolphinScheduler 的管理数据库。z这样切换到外部数据库后即使在 Kubernetes 中完全删除并重新部署 DolphinScheduler也不需要重新创建 DolphinScheduler 的应用数据例如用户定义的数据处理任务。这再次证明了高可用性和数据完整性。此外建议为 DolphinScheduler 组件配置 PersistentVolume因为如果 pod 重新启动或升级历史 DolphinScheduler 应用日志将会丢失。 与传统模式下执行数百个 shell 命令相比只需修改一个配置文件并使用单行安装命令就可以自动安装八个 DolphinScheduler 组件节省了大量人力成本和操作错误。对于多个 DolphinScheduler 集群这将大大降低人力成本业务部门的等待时间将从几天减少到不到一个小时甚至可能十分钟内完成。
基于Argo CD添加GitOps
Argo CD 是一个基于 Kubernetes 的声明式 GitOps 持续交付工具是 CNCF 的孵化项目也是 GitOps 的最佳实践工具。GitOps 对 Apache DolphinScheduler 的实现带来了以下优势
集群软件的图形化和一键式安装Git 记录了完整的发布过程实现一键回滚方便的 DolphinScheduler 工具日志查看
一旦实施完成我们可以看到由 Argo CD 自动部署的 Pod、ConfigMap、Secret、Service、Ingress 等资源它还显示了清单提交信息和用户名完全记录了所有发布事件信息。同时还可以通过一键点击回滚到历史版本。相关资源信息可以通过kubectl命令查看:
[roottpk8s-master01 ~]# kubectl get po -n ds139NAME READY STATUS RESTARTS AGE
Dolphinscheduler-alert-96c74dc84-72cc9 1/1 Running 0 22m
Dolphinscheduler-api-78db664b7b-gsltq 1/1 Running 0 22m
Dolphinscheduler-master-0 1/1 Running 0 22m
Dolphinscheduler-master-1 1/1 Running 0 22m
Dolphinscheduler-master-2 1/1 Running 0 22m
Dolphinscheduler-worker-0 1/1 Running 0 22m
Dolphinscheduler-worker-1 1/1 Running 0 22m
Dolphinscheduler-worker-2 1/1 Running 0 22m[roottpk8s-master01 ~]# kubectl get statefulset -n ds139NAME READY AGE
Dolphinscheduler-master 3/3 22m
Dolphinscheduler-worker 3/3 22m[roottpk8s-master01 ~]# kubectl get cm -n ds139NAME DATA AGE
Dolphinscheduler-alert 15 23m
Dolphinscheduler-api 1 23m
Dolphinscheduler-common 29 23m
Dolphinscheduler-master 10 23m
Dolphinscheduler-worker 7 23m[roottpk8s-master01 ~]# kubectl get service -n ds139
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
Dolphinscheduler-api ClusterIP 10.43.238.5 none 12345/TCP 23m
Dolphinscheduler-master-headless ClusterIP None none 5678/TCP 23m
Dolphinscheduler-worker-headless ClusterIP None none 1234/TCP,50051/TCP 23m[roottpk8s-master01 ~]# kubectl get ingress -n ds139NAME CLASS HOSTS ADDRESS
Dolphinscheduler none ds139.abc.com还可以看到 Kubernetes 集群中所有 Pod 都部署在不同的主机上例如worker1 和 worker2 分别部署在不同的节点上。一旦我们配置了 Ingress我们就可以使用域名在公司的内部网络中访问 DolphinScheduler 的 Web 用户界面让我们以 DNS 子域名 abc.com 为例http://ds139.abc.com/dolphinscheduler/ui/#/home。我们可以在 Argo CD 中查看 Apache DolphinScheduler 的每个组件的内部日志使用 Argo CD修改主节点、工作节点、API 或警报等组件的副本数量非常方便。Apache DolphinScheduler 的 Helm 配置还保留了 CPU 和内存的设置信息。在 value.yaml 文件中修改副本的设置。修改后我们可以将其推送到公司的内部源代码系统
master:podManagementPolicy: Parallelreplicas: 5
worker:podManagementPolicy: Parallelreplicas: 5
alert:replicas: 3
api:replicas: 3只需在 Argo CD 上点击同步即可进行同步所需的相应 pod 将被添加。
[roottpk8s-master01 ~]# kubectl get po -n ds139NAME READY STATUS RESTARTS AGE
Dolphinscheduler-alert-96c74dc84-72cc9 1/1 Running 0 43m
Dolphinscheduler-alert-96c74dc84-j6zdh 1/1 Running 0 2m27s
Dolphinscheduler-alert-96c74dc84-rn9wb 1/1 Running 0 2m27s
Dolphinscheduler-api-78db664b7b-6j8rj 1/1 Running 0 2m27s
Dolphinscheduler-api-78db664b7b-bsdgv 1/1 Running 0 2m27s
Dolphinscheduler-api-78db664b7b-gsltq 1/1 Running 0 43m
Dolphinscheduler-master-0 1/1 Running 0 43m
Dolphinscheduler-master-1 1/1 Running 0 43m
Dolphinscheduler-master-2 1/1 Running 0 43m
Dolphinscheduler-master-3 1/1 Running 0 2m27s
Dolphinscheduler-master-4 1/1 Running 0 2m27s
Dolphinscheduler-worker-0 1/1 Running 0 43m
Dolphinscheduler-worker-1 1/1 Running 0 43m
Dolphinscheduler-worker-2 1/1 Running 0 43m
Dolphinscheduler-worker-3 1/1 Running 0 2m27s
Dolphinscheduler-worker-4 1/1 Running 0 2m27s不仅如此基于 Argo CD 的 GitOps 技术为整个 DolphinScheduler 工具提供了图形化、自动化、可追溯、可审计和强大的 DevOps、回滚和监控功能而无需对 DolphinScheduler 进行任何代码修改。
DolphinScheduler 在 k8s 上的服务自愈
众所周知当代的IT环境总是处于不稳定状态。换句话说我们的技术系统将服务器、操作系统和网络的各种故障视为集群中的常规事件。当最终用户无法通过浏览器正常访问 DolphinScheduler 的任务管理页面或者 DolphinScheduler 无法运行常规的大数据任务时已经为时已晚。 然而在 DolphinScheduler 转向云原生之前它只能依靠日常监控来检查主节点/工作节点/API等组件是否正常运行通过 DolphinScheduler 管理UI或者通过 jps 检查Java进程是否存在。当企业拥有数百个调度环境时这不仅会花费大量时间而且更重要的是系统的可用性将面临巨大风险。 值得注意的是Kubernetes 技术本身可以自动重启和恢复标准化应用程序的有状态和部署类型甚至 CRD 本身也可以自动重启和恢复。当应用程序失败时会记录异常事件并重新拉取应用程序以重新启动应用程序Kubernetes 将记录 pod 重新启动的次数以便技术人员可以快速定位故障。 除了标准化的自愈机制外还有主动的健康监控方法。通过构建一个服务接口来主动探测正在运行 DolphinScheduler 的 pod使用 livenessProbe 机制当检测次数超过失败重试次数时该机制可以自动重启 pod。此外通过使用 readinessProbeKubernetes 集群可以在探测器捕获异常时自动切断对异常 pod 的流量并在异常事件消失后自动恢复对 pod 的流量请求。
livenessProbe:enabled: trueinitialDelaySeconds: 30periodSeconds: 30timeoutSeconds: 5failureThreshold: 3successThreshold: 1
readinessProbe:enabled: trueinitialDelaySeconds: 30periodSeconds: 30timeoutSeconds: 5failureThreshold: 3successThreshold: 1可观测性
我们知道Prometheus 已经成为云原生系统中监控工具的事实标准将 DolphinScheduler 的标准监控整合到 Prometheus 系统中对我们来说是最合理的选择。Kube-Prometheus 技术可以监控 Kubernetes 集群中的所有资源。StatefulSet、命名空间和 Pod 是 DolphinScheduler 的三个主要资源特性。通过 Kube-Prometheus 技术可以自动进行 CPU、内存、网络、IO、副本等方面的常规监控无需额外的开发或配置。 我们在 Kubernetes 中使用 Kube-Prometheus operator 技术在部署后自动监控 Apache DolphinScheduler 的每个组件的资源。但请注意Kube-Prometheus 的版本需要与 Kubernetes 的主版本对应。
集成服务网格
作为数据服务提供商DolphinScheduler 通过服务网格技术实现了服务链接的可观察性管理并将其纳入内部服务治理系统中。 DolphinScheduler 不仅需要通用资源监控还需要服务调用链的监控技术。通过服务网格技术可以实现 DolphinScheduler 的内部服务调用以及 DolphinScheduler API 的外部调用的可观察性分析优化 DolphinScheduler 产品的服务。 此外作为数据工具的服务组件DolphinScheduler 可以通过服务网格工具无缝集成到企业的内部服务模式中。它使得具有 TLS 服务通信能力、客户端服务通信重试机制和跨集群服务注册发现等功能成为可能而无需修改 DolphinScheduler 的代码。通过服务网格技术可以实现对 Apache DolphinScheduler 的 API 外部服务调用和内部调用的可观察性分析从而优化 Apache DolphinScheduler 产品服务。 我们使用了 Linkerd 作为服务网格产品进行集成这也是 CNCF 出色的毕业项目之一。通过修改 Apache DolphinScheduler Helm 中 value.yaml 文件中的注释并重新部署可以快速将网格代理 sidecar 注入到 DolphinScheduler 的 master、worker、API、alert 等组件中。
annotations:linkerd.io/inject: enabled还可以观察组件之间通信的服务质量包括每秒请求的数量
云原生工作流调度
要成为真正的云原生调度工具DolphinScheduler需要能够调度云原生作业流程。 DolphinScheduler调度的任务都是在固定的Pod中执行。在这种模式下任务开发技术的隔离要求相对较高。 特别是在Python语言环境下团队中会存在不同版本的Python基础和依赖包甚至版本之间的差异可能会出现数百种组合。依赖包的轻微差异就会导致Python程序运行错误。这也是阻止DolphinScheduler运行大量Python应用程序的障碍。建议采取以下方法以便DolphinScheduler能够快速与Kubernetes作业系统集成并具有强大的任务隔离和并发能力
使用标准的Kubernetes API系统进行作业提交。可以通过kubectl命令行或REST API直接提交任务。将kubectl命令文件上传到DolphinScheduler并通过DolphinScheduler的shell任务提交。使用Argo Workflows项目的Argo CLI命令或REST API命令进行提交。
无论是Kubernetes还是Argo Workflows都需要添加watch功能因为Kubernetes是一种异步技术需要等待任务完成。 在这里我们以Argo Workflows为例我们可以在DolphinScheduler中创建一个新的shell任务或步骤并将以下命令粘贴到其中。结果我们可以将常规的数据作业例如数据库SQL作业、Spark作业或Flink作业和云原生作业结合起来执行更全面的作业流程。例如这个作业是一个Hive SQL任务用于导出Web应用的用户点击数据
beeline -u jdbc:hive2://192.168.1.1:10006 --outputformatcsv2 -e select * from database.user-click user-click.csv 这个示例作业是一个Python Tensorflow任务用于通过训练数据构建机器学习模型。该作业通过HTTP方式运行。首先我们运行该作业通过HTTP方式运行Python Tensorflow作业
curl --request POST -H Authorization: ${ARGO_TOKEN} -k \--url https://argo.abc.com/api/v1/workflows/argo \--header content-type: application/json \--data {namespace: argo,serverDryRun: false,workflow: {metadata: {name: python-tensorflow-job,namespace: argo},spec: {templates: [{name: python-tensorflow,container: {image: tensorflow/tensorflow:2.9.1,command: [python],args: [training.py],resources: {}}}],entrypoint: python-tensorflow,serviceAccountName: argo,arguments: {}}}}然后我们可以检查工作信息和状态:
#Http way to check the Python Tensorflow job information and status
curl --request GET -H Authorization: ${ARGO_TOKEN} -k \--url https:/argo.abc.com/api/v1/workflows/argo/python-tensorflow-job从HDFS升级到S3文件技术
分布式算法是云原生技术领域之一比如谷歌的Kubeflow技术它完美地结合了TensorFlow和Kubernetes。分布式算法通常使用文件而S3是存储大型数据文件的事实标准这些文件可以很容易地访问。当然DolphinScheduler还集成了MinIO技术通过简单的配置可以实现S3文件管理。 首先通过修改Helm value.yaml文件中的configmap部分将其指向一个MinIO服务器。
configmap:DOLPHINSCHEDULER_OPTS: DATA_BASEDIR_PATH: /tmp/dolphinschedulerRESOURCE_STORAGE_TYPE: S3RESOURCE_UPLOAD_PATH: /dolphinschedulerFS_DEFAULT_FS: s3a://dfsFS_S3A_ENDPOINT: http://192.168.1.100:9000FS_S3A_ACCESS_KEY: adminFS_S3A_SECRET_KEY: password在MinIO中存储文件的桶的名称称为“dolphinscheduler”。用户通过DolphinScheduler UI上传的共享文件存储在这个文件夹中。
总结
作为一款新一代的云原生大数据工具Apache DolphinScheduler 有望在将来与 Kubernetes 生态系统中更多优秀的工具和功能集成以满足多样化的用户群体和场景需求。ds 将来的规划路线包括下边
使用 sidecar 定期删除 worker 作业日志实现轻松的运维管理与 Argo Workflows 更深入地集成用户可以通过 API、CLI 等在 Apache DolphinScheduler 中调用 Argo Workflows 进行单一作业、DAG 作业和定期作业使用 HPAHorizontal Pod Autoscaling自动调整 DolphinScheduler 的任何组件的规模实现更具弹性的运行环境并处理不确定的工作负载集成 Spark 操作器和 Flink 操作器进行全面的云原生分布式计算实现多云和多集群的分布式作业调度并加强无服务器和 FAAS 类架构属性。