2023 年 4 月,Kubeflow 用户调查启动,旨在收集社区反馈。该调查旨在了解 Kubeflow 的采用情况,并收集关于其在机器学习用例方面的优势、不足和需求的意见。

该调查包含 21 个问题,采用选择题和开放题形式。调查于 4 月 11 日至 5 月 26 日进行,共收到 90 份回复。与 2023 年的调查相比,今年的调查产生了更具针对性和可操作性的开放式回答,这为用户需求和 Kubeflow 的潜在改进提供了进一步的见解。此外,我们还收到了大量关于促成 Kubeflow 及其社区成功的因素的积极反馈。一位受访者表达了他们的赞赏,说:“我喜欢它帮助团队完成高质量的 ML 工作,同时提供灵活性。我喜欢它是开源的。我喜欢社区一直在努力工作,使其变得更好。”另一位受访者强调了他们喜欢 Kubeflow 的原因是“一些项目(如 Pipelines 组件)的广泛潜力以及不同的集成使得端到端体验更完整。

我们感谢所有参与调查的人员,我们将利用这些改进意见和积极反馈来指导我们增强 Kubeflow 的工作,确保它仍然是以用户为中心的平台。

主要发现

  • 84% 的用户部署了多个 Kubeflow 组件
  • 排名前三的 Kubeflow 组件是 Pipelines (90%)、Notebooks (76%) 和 Katib (47%)
  • 用户使用的主要贡献组件是 KServe (62%)
  • 文档 (55%) 是 Kubeflow 最大的不足,其次是教程 (50%),并列第三位的是安装 (39%) 和升级 (39%)
  • 模型监控 (45%) 是用户 ML 生命周期中最大的不足,其次是模型注册 (44%) 和初始设置 (39%)
  • 52% 的用户使用原始 manifest 安装方式来安装 Kubeflow
  • 用于安装 Kubeflow 的主要分发方式是 AWS (28%),其次是 Google Cloud (17%)
  • 74% 的用户在云上部署 Kubeflow,45% 在本地部署
  • 49% 的用户在生产环境中运行 Kubeflow
  • 17% 的用户对 Kubeflow 做出了贡献
  • 49% 的用户正在使用最新的 Kubeflow 1.7 版本,43% 的用户运行的是 Kubeflow 1.6 版本

调查受访者

2023 survey demographics and location graph

本次 Kubeflow 用户调查收到了社区 90 名成员的回复,主要来自美国 (43%)、欧洲 (34%) 和亚太地区 (10%)。大多数受访者来自科技行业 (49%),其次是金融业 (13%) 和咨询业 (11%)。

虽然社区成员的角色多样化,但大多数成员的头衔是 MLOps 工程师 (18%)、ML 工程师 (17%) 和架构师 (15%)。

在去年的 2022 年用户调查中,我们开始看到在其生产环境中采用 Kubeflow 的用户数量增加,并且随着他们对项目专业知识的增长,他们积极为 Kubeflow 项目做出贡献。今年,我们看到这一趋势仍在继续,生产环境中运行 Kubeflow 的比例最高 (49%),以及为项目做出贡献的用户数量最多 (17%)。随着 Kubeflow 采用率的持续上升,这将对项目的积极增长和发展产生重大影响。

2023 survey demographics kubeflow experience graph

文档和教程

2023 survey Kubeflow gaps graph

文档和教程长期以来一直是社区面临的挑战,今年这一趋势仍在继续,文档 (55%) 被投票选为 Kubeflow 的第一大不足,其次是教程 (49%),被认为是第二大不足。

在以前的调查中,关于文档和教程的反馈非常笼统。然而,今年用户正在寻求更具体的文档,以帮助他们更好地采用 Kubeflow。用户正在寻找的一些文档和教程包括以下内容:

  • 关于如何利用新版本提供的新功能的教程和示例
  • Kubeflow 的架构图,说明每个组件如何工作
  • 如何使用原始 manifest 安装方式设置传输层安全性 (TLS)
  • 关于如何向平台添加贡献者和映射凭证的用户入门文档
  • 展示与 MLflow 等其他工具集成的文档
  • KFP 包所有功能的示例
  • 涵盖 Kubeflow 中 RBAC 和授权的文档
  • 每个版本的升级指南

除了具体的诉求之外,用户对哪种类型的文档改进的主要诉求主题是:

  • 面向高级用户和高级用例的文档
  • 关于 Kubeflow 最佳实践的文档
  • 更多样化的端到端示例,而不仅仅是 mnist 示例
  • 频繁更新文档,因为许多文档已过时

为了解决 Kubeflow 文档面临的挑战,我们正在寻求社区的帮助。如果您有兴趣改进现有 Kubeflow 文档并参与未来的改进工作,我们邀请您参加下一次社区会议,向社区介绍自己。

安装和升级

2023 survey Kubeflow installation graph

Kubeflow 最大不足的投票选项中排名前三的答案之一是安装,与升级并列。调查结果显示,52% 的用户使用原始 manifest 安装方式来安装 Kubeflow。由于 Kubeflow 仅支持 Kustomize 作为安装工具的选择,许多用户正在寻求对工具的更多样化支持,尤其是 Helm。

请求支持 Helm 的最大原因之一是由于安装的复杂性。一位受访者分享道:“Kustomize 并不能完全提供相同的体验,需要对底层系统和 manifest 更熟悉才能正确配置……”,这使得安装对于试图采用 Kubeflow 的小型团队来说过于困难。

对于一些人来说,支持不同的安装工具并不是唯一的答案。我们还收到了很多关于安装需要更加轻量级的反馈。由于技术栈的复杂性以及众多组件的集成,人们在定制其 Kubeflow 实例时遇到困难,这是由于紧密的耦合和对大量资源的需要。

除了安装之外,升级也是许多用户关注的焦点。虽然有一些针对特定分发版本的升级指南,但许多用户是在没有特定分发版本的情况下安装 Kubeflow 的。由于没有为原始 manifest 安装方式提供升级指南,升级需要用户付出巨大的努力。

模型监控和模型注册

2023 survey Kubeflow ML lifecycle gaps graph

在去年的调查中,监控跃居首位,成为机器学习生命周期中最大的不足。今年,这一趋势仍在继续,监控 (45%) 被投票选为第一大关注点,紧随其后的是模型注册 (44%)。

对于这两个不足,用户正在寻找内置解决方案,以满足监控和模型注册的需求,特别是请求支持集成 Grafana 和 MLflow,以实现与 Kubeflow pipelines 的无缝体验。由于缺乏对这两个工具的支持,用户正在表达他们在管理和跟踪模型方面面临的挑战。

安全性

在之前的2022 年 Kubeflow 用户调查中,安全性成为投票选出的前三大答案之一,凸显了它是 Kubeflow 的一个重要不足。自那时起,社区高度重视安全性,促成了由具有安全意识的成员组成的 Kubeflow 安全团队的成立。他们的主要目标是解决安全问题,并确保 Kubeflow 保持一个强大和安全的平台。更多详细信息,请访问Kubeflow 安全团队并考虑参加下一次安全团队会议。

下一步是什么?

目前,所有工作组正在为计划于2023 年 10 月 4 日发布的 1.8 版本努力。在成功发布 1.8 版本后,每个工作组将把重点转移到为下一个后续版本的功能优先级排序上。在新的版本初始规划阶段,每个工作组负责人将重新评估调查结果,根据您的调查反馈确定他们的优先级。如果您对未来的方向感兴趣,欢迎参加他们未来的会议,与他们一起讨论路线图。所有 Kubeflow 社区会议都可以在Kubeflow 社区日历中找到。

至于文档和教程的改进,Kubeflow 社区正在积极寻求社区成员的帮助。如果您有兴趣改进现有 Kubeflow 文档并参与未来的改进工作,我们邀请您参加下一次社区会议,向社区介绍自己并表达您加入这项工作的兴趣。

加入社区

我们感谢所有参与本次调查的人员。正如您从调查结果中看到的,Kubeflow 社区充满活力且多样化,正在为全球组织解决现实世界的问题。

想提供帮助吗?Kubeflow 社区工作组召开公开会议,一直在寻找更多的志愿者和用户来释放机器学习的潜力。如果您有兴趣成为一名 Kubeflow 贡献者,请查看Kubeflow 社区页面了解更多信息。我们期待与您合作!