发布 Kubeflow Spark Operator:构建更强大的 Spark on Kubernetes 社区
我们很高兴宣布 Google 的 Spark Operator 已迁移至 Kubeflow Spark Operator,标志着 Kubeflow 生态系统迎来了一个重要的补充。Kubeflow Spark Operator 简化了在 Kubernetes 上部署和管理 Apache Spark 应用程序。本次发布不仅仅是关于一项新技术,更是关于围绕 Spark on Kubernetes 构建一个更强大、开放治理且更具协作性的社区。
Kubeflow Spark Operator 的发展历程
Kubeflow Spark Operator 的发展历程始于 Google Cloud Platform 的 Spark on Kubernetes Operator (https://cloud.google.com/blog/products/data-analytics/data-analytics-meet-containers-kubernetes-operator-for-apache-spark-now-in-beta)。该项目在 GitHub 上拥有超过 2.3k 星和 1.3k 分支(forks),为强大的 Spark on Kubernetes 体验奠定了基础,使用户能够跨 Kubernetes 集群无缝部署 Spark 工作负载。
成长和创新不仅需要代码,还需要社区。认识到 Google Cloud 原始维护者面临的资源和时间限制,Kubeflow 接过了这个重任。这次过渡不仅仅是管理上的变动,更是朝着培育一个充满活力、多元化且更积极参与的社区迈出的战略性一步。
为什么选择 Kubeflow?
-
增强的社区参与度:过渡到 Kubeflow 为更广泛的开发者群体敞开了大门,鼓励贡献和协作。由于 Kubeflow 是一个 CNCF 孵化项目,这次过渡将有助于整合 Cloud Native 和 Spark 社区,使其更紧密地合作,构建运行 Spark 应用程序在 Kubernetes 上的强大基础设施。
-
更强大的治理:Kubeflow 的治理模式为决策和项目管理提供了一个结构化环境,确保 Spark Operator 的可持续增长。
-
统一的生态系统:通过将 Spark Operator 纳入 Kubeflow 旗下,我们不仅仅是合并项目;我们正在构建一个增强 Spark on Kubernetes 体验的内聚生态系统。
-
与 AI/ML 集成:Kubeflow 提供了多个组件来解决 AI/ML 生命周期中的许多阶段。Spark 的分布式数据处理能力是一个自然的扩展,允许 Spark 社区紧密协作并更好地融入端到端的 ML 生命周期中。
接下来?
我们致力于长期维护并增强 Kubeflow Spark Operator。以下是您可以期待的内容:
-
即将发布的路线图:作为第一个版本的一部分,我们计划更新文档中对 Kubeflow 的引用,解决 GitHub 工作流程问题,更新到 Kubeflow 的容器注册表,以及解决其他任何关键问题。
-
持续支持和增强:迁移到 Kubeflow 仓库时,该仓库包含 450 多个 issue 和 60 多个 pull request。我们恳请贡献者对他们的代码进行 rebase,并在 PR 中添加评论说明其持续相关性。对于未解决的 issue,在后续版本中,随着更广泛的社区和贡献者的参与,将考虑解决。该 operator 将继续发展,整合新功能和改进,以保持在 Kubernetes 部署的前沿。
-
丰富的社区资源:从详细文档到动手教程,我们正在精心制作资源,以帮助您成功使用 Spark Operator。我们计划定期举办 Spark Operator 通话,讨论用户问题、疑问和未来的路线图。
-
欢迎贡献:这是一封致开发者、写作者和爱好者的号召信!您的贡献是本项目命脉所在,每个人都有机会留下自己的印记。
-
Kubeflow 数据工作组:为了整合 Kubeflow 生态系统中围绕 Spark Operator 和 Model Registry 等新数据工具的努力,新的数据工作组即将正式成立。请随时查阅 此 PR 以参与其中并就章程提供您的反馈。
加入我们
Kubeflow Spark Operator 不仅仅是一个软件。它是一项社区的共同努力。以下是您可以如何成为这个旅程的一部分:
-
深入了解:访问我们的 GitHub 仓库,开始您的 Kubeflow Spark Operator 之旅。
-
贡献:每一段代码、每一次文档更新以及每一条反馈都很重要。了解如何在 GitHub 上贡献。
-
加入社区:加入 CNCF Slack 工作区,然后在
#kubeflow-spark-operator
频道参与讨论。无论您是寻求建议、分享见解还是仅仅旁听,您的参与都将使我们受益。按照 本指南 了解更多关于 Kubeflow 社区的信息。 -
Kubeflow Spark Operator 社区会议:我们很高兴宣布 Spark Operator 社区面向开源贡献者的每月会议将于 2024年5月17日(太平洋标准时间上午 10-11 点) 开始举行。这些会议定于每月第三个星期五举行,是您讨论项目更新、分享想法并与社区协作的机会。您可以在这篇 Google 文档 中找到 Zoom 会议详情和会议记录。
本着在 Slack 等平台上培育的协作精神,并在 Google Cloud 团队的慷慨支持下,我们准备扬帆驶向充满希望的未来。Kubeflow Spark Operator 不仅仅是一个工具,更是我们集体迈向释放 Spark on Kubernetes 真正潜力的重要一步。让我们共同塑造云原生大数据处理的未来。
相关 Issue