Kubeflow 用户调查于 2022 年 5 月启动,旨在收集社区反馈。调查的目标是了解 Kubeflow 的采用情况,并收集关于机器学习用例的优势、差距和需求的输入。

本次调查包含 24 个问题(选择题和自由回答)。调查于 5 月 6 日至 6 月 7 日期间进行,共收到 151 份回复。在 151 份回复中,有 91 份提供了关于如何改进 Kubeflow 和社区的可选反馈。在 2022 年的调查中,我们收到的自由回答数量有所增加,这为用户需求提供了更多洞察。

主要发现

  • 85% 的用户部署了不止一个 Kubeflow 组件
  • 排名前 3 位的 Kubeflow 组件是 Pipelines (89%)、Notebooks (75%)、KServe (原名 KFServing) (63% - 使用 KServe 或 KFServing 或两者都使用的不同用户的总计结果)。
  • 数据预处理和转换是机器学习生命周期中最具挑战性 (44%) 和最耗时 (73%) 的步骤
  • 59% 的用户认为模型监控是其机器学习生命周期中的最大差距,32% 的用户认为模型监控是最具挑战性的
  • 44% 的用户正在生产环境中运行 Kubeflow
  • 90% 的用户依赖 Kubeflow 社区获取最新的教程
  • Kubeflow 用户使用的排名前 5 位机器学习工具是 Tensorflow (66%)、Scikit-Learn (61%)、PyTorch (60%)、Keras (44%) 和 MLflow (43%)
  • 47% 的用户正在跟进最新的 Kubeflow 1.5 版本,42% 的用户正在运行 Kubeflow 1.4
  • 缺乏文档和教程是 Kubeflow 采用过程中面临的最大挑战
  • Kubeflow 的安装和升级对用户来说是一个挑战
  • 用户希望安全问题,尤其是镜像中的 CVE,得到及时解决
  • 命名空间隔离是社区最受关注的功能请求

调查受访者

Kubeflow 用户调查收到了来自社区 151 名成员的回复,他们拥有在生产环境中运行 Kubeflow 的经验 (44%)、在实验环境中运行的经验 (23%)、升级 Kubeflow 集群的经验 (18%)、对 Kubeflow 做贡献的经验 (10%),以及刚开始使用的经验 (5%)。

大多数受访者来自科技行业 (48%),其次是金融行业 (15%) 和医疗健康行业 (8%)。

主要职位是机器学习工程师 (47%)、架构师 (26%) 和数据科学家/分析师 (23%)。

2022 survey demographics industry graph

2022 survey demographics title graph

文档和教程

缺乏文档和教程是 Kubeflow 采用过程中面临的最大挑战。随着新功能和组件版本的发布,社区正在寻求更好的示例和教程来帮助他们采用新功能。

此外,许多用户仍然觉得 Kubeflow 很复杂。用户希望进一步澄清 Kubeflow 的内部工作原理,以及如何与许多其他机器学习组件集成,包括其他 Kubeflow 组件。

社区的一些请求包括:

  • 最新的版本化文档
  • 一个托管的实验平台,用于演示和学习 Kubeflow 的功能
  • Kubeflow 与其他机器学习工具的比较
  • 关于在生产环境中运行 Kubeflow 的技巧和知识
  • 关于如何充分利用构成 Kubeflow 版本的各个组件的端到端教程
  • 来自 Kubeflow 分发版本所有者的更好示例文档
  • 问答论坛

2022 survey documentation word cloud

安装和升级

在关于 Kubeflow 最大差距的投票中,安装是排名前三的回答之一(与安全性并列)。此外,超过 25% 的自由回答提及了关于安装过程和/或用户希望得到支持的安装工具的反馈。

用户正在寻找更简单的安装方式,并希望提供更好的支持来升级他们的 Kubeflow 组件和集群。

安全性

“... 以 Kubeflow 当前的状态,我们的客户如果没有进行大量修改,是无法使用 Kubeflow 的,因为所有镜像中都存在大量明显的安全问题和大量的 CVE,需要在投入生产环境之前进行修补。”

在关于 Kubeflow 最大差距的投票中,安全性是排名前三的回答之一(与安装并列)。此外,16% 的自由回答提及了改进 Kubeflow 安全性的必要性,主要关注点是镜像中的 CVE 和用户隔离。

2022 survey biggest gaps

Kubernetes 版本

“提前跟进 k8s 发布周期,必须在最旧版本正式 EOL 之前支持最新的 k8s 版本。另请注意 1.25 中的重大变化!”

社区提出了关于 Kubeflow 对最新 Kubernetes 版本缺乏支持的合理担忧。随着 Kubernetes 1.21 在 2022 年 6 月 28 日达到生命周期结束,用户认为 1.5 版本缺乏对 1.22 的支持有问题,并请求 Kubeflow 跟上其依赖项的发布节奏。

命名空间隔离

约有 15% 的自由回答包含“namespace”一词,涉及用户希望 Kubeflow 支持的资源隔离。许多用户正在寻求跨各种 Kubeflow 资源的命名空间隔离,这些资源包括 pipelines、实验、artifact 和元数据。

在调查中请求的所有功能列表中,命名空间隔离是来自社区的最受关注的请求。

与 2021 年用户调查的比较

监控方面的挑战

在 2021 年和 2022 年,Kubeflow 用户都认为数据预处理和转换是机器学习生命周期中最耗时和最具挑战性的步骤。尽管排名靠前的回答保持不变,但在最具挑战性问题的后续排名方面却发生了很大变化。

2021 年,排名前 5 位的挑战是数据预处理和转换、流水线构建、特征工程、超参数调优和分布式训练。

2022 年,排名前 5 位的挑战是数据预处理和转换、特征工程、模型监控、分布式训练和流水线构建。与去年的最大区别在于超参数调优排名的变化以及模型监控排名的上升。

2022 survey - ML tasks time consuming and challenging
2022
2021 survey - ML tasks time consuming and challenging
2021

由于用户认为模型监控是机器学习生命周期中的挑战之一,它也被认为是用户机器学习活动中的最大差距。

2021 年,最大差距被认为是将数据流水线连接到机器学习流水线。2022 年,最大差距被认为是模型监控。尽管排名前三的回答没有变化,但数据显示,监控是用户最关注的问题,因为他们认为它最具挑战性,也是差距最大的地方。

2022 survey - gaps in ML activities and workflow
2022
2021 survey - gaps in ML activities and workflow
2021

完整调查结果

完整的调查结果可在初步调查结果自由回答总结中找到。

下一步计划

调查结果将在 10 月份的 Kubeflow 峰会上与 Kubeflow 社区讨论。更多关于峰会的详细信息将通过 kubeflow-discuss 邮件列表分享。加入邮件列表以及时了解 Kubeflow 峰会新闻。

加入社区

我们衷心感谢所有参与本次调查的人员。正如您从调查结果中看到的,Kubeflow 社区充满活力且多元化,正在为全球组织解决实际问题。

想提供帮助吗?Kubeflow 社区工作组举行公开会议,一直在寻找更多志愿者和用户来释放机器学习的潜力。如果您有兴趣成为 Kubeflow 贡献者,请随时查看以下资源。我们期待与您合作!