加入收藏 | 设为首页 | 会员中心 | 我要投稿 济宁站长网 (https://www.0537zz.cn/)- 行业智能、边缘计算、专有云、AI硬件、5G!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

为企业解决的4个问题

发布时间:2021-02-13 14:53:50 所属栏目:外闻 来源:互联网
导读:数据科学家将工作流程写成DAG步骤,就像数据工程师使用Airflow一样。和Airflow一样,可以使用任何数据科学库,因为Metaflow只执行Python代码。Metaflow在后台分布处理和训练。所有的代码和数据都会自动快照到S3中,以确保每个模型和实验都有版本历史。Pickle

数据科学家将工作流程写成DAG步骤,就像数据工程师使用Airflow一样。和Airflow一样,可以使用任何数据科学库,因为Metaflow只执行Python代码。Metaflow在后台分布处理和训练。所有的代码和数据都会自动快照到S3中,以确保每个模型和实验都有版本历史。Pickle是默认的模型序列化格式。

开源版本还没有内置的调度器。其鼓励用户“主要依赖于垂直可伸缩性”,尽管他们可以使用AWS SageMaker实现水平可伸缩性,它与AWS紧密耦合。

Lyft:Flyte

 

数据管理由内部工具Zipline处理。Redspot是一个托管的、集装的、多用户的Jupyter Notebook服务。Bighead库用于数据转换和管道提取,为通用模型框架提供了包装器。其通过转换保存元数据,因此可用于跟踪沿袭。

Deep Thought是一个用于在线预测的REST API。Kubernetes对服务进行精心优化。对于离线预测,Airbnb则使用他们自己的自动装置。

Netflix也面临着与上述公司类似的问题。他们的解决方案是运用Metaflow,这是一个为数据科学家提供的Python库,用于处理数据管理和模型训练,而不提供预测服务。因此,它不是用于机器学习的端到端平台,可能更适合于公司内部的用例,而不是面向用户的用例。当然,它可以与由Kubernetes或AWS SageMaker支持的Seldon结合转化为一个成熟的解决方案。

 

Uber: Michelangelo

大约在2015年,Uber的ML工程师注意到机器学习系统中隐藏的技术债务。Uber已经建立了一个一次性的自定义系统,与ML模型集成在一起,这在大型工程组织中不是很容易扩展。用他们自己的话来说,没有合适的系统来建立可靠、统一和可重复的管道以创建和管理大规模的训练和预测数据。

这就是他们创造Michelangelo的原因。它依赖于Uber的数据湖——事务性和日志数据,支持离线(批处理)和在线(流)预测。对于脱机预测,包含的Spark作业生成批预测,而对于在线部署,模型在预测服务集群中提供服务,该集群通常由负载均衡器后面的数百台机器组成,客户机将单个或批预测请求作为rpc发送到该集群。

为每个实验存储与模型管理相关的元数据,例如,训练师的运行时统计信息、模型配置、沿袭、分布和特性的相对重要性、模型评估指标、标准评估图表、学习的参数值和汇总统计信息等。

Michelangelo可以在同一个服务容器中部署多个模型,这允许从旧模型版本到新模型版本的安全转换,以及对模型的并行A/B测试。

 

TensorFlow和TFX均可免费使用,不过后者在2019年才发布,比谷歌提供的ML基础设施晚了两年,远不如前者成熟。

模型性能度量用于部署安全服务模型。因此,如果新模型的性能不如现有模型,它就无法投入生产。按照TFX的说法,该模型并非幸运儿。有了TFX,整个过程都是自动化的。

以下是一个开源TFX组件的基本概述:

  • ExampleGen提取并分割输入数据集。
  • StatisticsGen为数据集计算统计数据。
  • SchemaGen检查统计数据并创建数据模式。
  • ExampleValidator在数据集中查找异常值和缺失值。
  • Transform对数据集执行特征工程。
  • Trainer使用TensorFlow对模型进行训练。
  • Evaluator分析训练结果。
  • ModelValidator确保模型的高安全性。
  • Pusher将模型部署到服务基础设施中。

TensorFlow服务是一个c++后端,服务于TensorFlow SavedModel文件。为了最小化训练/服务偏差,TensorFlow转换会“冻结”计算图中的值,这样在训练中发现的相同值会在服务中使用。当训练在运行时间是单一的固定值时,DAG可能会有若干个操作。


(编辑:济宁站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读