微信公众平台 服务热线:400-9971-510

公司新闻

您当前位置:首页 > 新闻中心 > 公司新闻

连通体系与机器学习的MLOps应战在哪?这篇文章讲清楚了

  时间:2024-09-15 06:12:35 | 来源:金年会官方网站入口登录

  机器学习彻底改变了人们运用数据以及与数据交互的办法,提高了商业功率,从根本上改变了广告业的格局,全面革新了医疗健康技能。可是,机器学习若要持续扩展其影响力和影响规模,开发 pipeline 必 须得到改善。经过将数据库体系、散布式核算和运用布置等范畴数十年的作业引进机器学习范畴,机器学习体系研讨能够满足这一需求。此外,经过充沛运用模型并行以及改善旧有处理方案,咱们能够运用体系的从头规划来改善机器学习。曩昔十年,机器学习(ML)现已成为各种范畴中很多运用和服务的重要组成部分。得益于机器学习的快速开展,从医疗健康到主动驾驶等许多范畴现已呈现了深入的革新。

  机器学习在实践运用中日益添加的重要性使人们开端重视一个专心于「实践中机器学习」的新范畴,即机器学习体系(或简称 MLOps)。该范畴连通核算机体系和机器学习,并从传统体系研讨的视角考虑机器学习的新应战。

  Kabir Nagrecha 要点剖析了数据搜集、验证和服务使命中的应战,并探讨了模型练习中的一些问题,这是由于近年来模型练习现已成为体系开发中本钱越来越昂扬的部分。

  尽管学界研讨者对 CIFAR 或 SQuAD 等随时可用的数据集感到满足,但业界从业者往往需求在模型练习中手动标示并生成自定义数据集。可是,创立这类数据集,尤其是需求范畴常识时,需求的本钱或许十分昂扬。

  怎么处理呢?该问题最成功的处理方案之一是学习体系与机器学习范畴的研讨。比方,经过结合数据办理技能与自监督学习作业,斯坦福大学研讨者在 2017 年的论文《 Snorkel: Rapid Training Data Creation with Weak Supervision 》中提出了一种弱监督的数据编程办法。

  他们提出的 SnorkelAI 将数据集创立视作一个编程问题,其间用户能够为弱监督标示指定函数,然后经过组合和加权操作以生成高质量的标签。这样一来,专家标示的高质量数据和主动标示的低质量数据能够进行交融和盯梢以保证模型练习完结精确加权,然后充沛考虑到不同等级的标签质量。SnorkelAI 结合了不同来历的标签,以答应模型大规模地聚合和改善混合质量的标签。图源:

  这种办法令人联想到数据库办理体系的数据交融,将其运用到机器学习是一个支点和再规划,而不是仅仅针对 ML 的革命性发明。经过承认体系和 ML 范畴的共有问题,并结合数据来历,传统的体系技能能够运用于机器学习设置中。

  数据验证是数据搜集的后续操作。数据质量是机器学习 pipeline 中的关键问题。维护者假如想要为自己的体系生成高质量模型,则有必要保证输入的数据也是高质量的。

  调整机器学习办法并不能轻易地处理这一问题,因而需求对 ML 体系进行调整。走运的是,尽管机器学习的数据验证是一个新问题,但数据验证不是。

  数据验证既不是一个新问题,也不是机器学习独有的,所以咱们能够学习数据库体系等相关范畴中的处理方案。可是,咱们以为数据验证在机器学习场景中面临着共同的应战,因而需求从头考虑现有处理方案。

  再一次,经过承认机器学习体系和传统核算机体系之间的并行应战,咱们能够经过一些机器学习导向的修改来从头运用现有处理方案。

  TFDV 的处理方案运用了数据办理体系中久经验证的处理方案——schemas。一个数据库强制履行特点以保证数据输入和更新遵从指定的格局。同样地,TFDV 的数据形式体系也对输入至模型的数据强制履行一些规矩。TFDV 的用于 ML 数据验证的形式体系运用户能够防止生成体系中数据馈送的异常现象。图源:

  当然会有一些不同的当地,反映出了机器学习体系与传统范式的差异。ML 形式不只需求与时俱进和实时调整以习惯散布改变,而且需求考虑体系生命周期中模型本身或许呈现的改变。

  ML 从业者或许感到惊奇的是将模型练习作为体系优化的一个范畴。究竟,假如机器学习运用中有一个范畴真实依靠 ML 技能,那就是练习。但即便这样,体系研讨仍然能够发挥作用。

  以模型并行化为例,跟着 Transformer 兴起,各种运用 ML 范畴在模型尺度方面都呈现了显着添加。几年前,BERT-Large 模型的参数达到了 3.45 亿,现在 Megatron-LM 添加到了 1 万亿以上。

  这些模型的内存本钱现已达到了数百 GB,没有一个 GPU 能够 hold 它们。传统处理方案——模型并行化采用了一种相对简略的办法,即在不同的设备上对模型进行区分以分配相应的内存本钱。传统模型并行化遭到神经网络架构序列性的影响。高效的并行化核算机会是有限的。

  可是,这种技能也存在问题,即模型本质上是接连的,而且练习模型需求在层间前向和后向地传递数据。因而,每次只能运用一个层和一个设备。这种状况将导致设备运用严重不足。

  以一个深度神经网络为例,假如将其分解为最小的组件,则它能够被视为一系列转化数据的算子。简略地练习意味着这样一个进程:经过算子传递数据,发生梯度,再次经过算子将梯度反应回来,终究更新算子。

  其间,GPipe 体系经过这种 CPU 并行指令将模型练习改变成了一个 pipeline 问题。模型的每个分区都被视为一个 pipe 的不同阶段,而且 mini-batch 经过分区进行分级以完结运用作用最大化。序列模型并行化中的 SOTA——pipeline 并行化能够并行处理 mini-batch 的练习。可是,同步开支十分高,尤其是在前向和后向传递的转化进程中。

  可是请注意,反向传达经过相反的次序复用这些阶段。这意味着:在前向 pipeline 彻底疏通之前,反向传达无法发动。即便如此,这种技能能够将模型并行练习加快至一个很好的水平,在 8 个 GPU 时速度提高 5 倍。

  Hydra 则采用了别的一种办法,它将可扩展性和并行性分割为两个不同的进程。数据库办理体系中的一个常见概念是溢出(spilling),剩余数据被发送至内存层级结构的较低层次。Hydra 充沛运用模型并行中的序列核算,并观察到不活泼的模型分区不需求在 CPU 上处理。相反,Hydra 将不需求的数据溢出至 DRAM,在 GPU 上连续性地切换模型分区,以模仿传统的模型并行履行。Hydra 的模型溢出技能将深度学习练习的本钱转移至 DRAM 而不是 GPU 内存,一起坚持了 GPU 履行的加快优势。

  这样一来,一次只运用一个 GPU 就能够练习模型。因而,在顶端引进必定程度的使命并行性很简略。每个模型,不管它的巨细怎么,一次只需求一个 GPU,这样体系能够充沛运用每个 GPU。在 8 个 GPU 时能够完结 7.4 倍以上的近乎最优加快。

  可是,模型并行仅仅体系研讨为模型练习所能带来的开端,其他有潜力的奉献包括数据并行(如 PyTorch DDP)、模型挑选(如 Cerebro 或模型挑选办理体系)、散布式履行结构(Spark 或 Ray)等。模型练习是体系研讨优化的老练范畴。

  归根到底,构建机器学习模型终究是为了运用。模型服务与猜测是最重要的机器学习实践范畴之一,也是体系研讨发生最大影响的范畴之一。

  离线布置相对愈加直接,它涉及到单一的、不定期运转的大批量猜测作业。常见的设置包括商业智能、稳妥评价和医疗健康剖析;

  在线布置归于网络运用,假如用户想要自己的查询得到快速呼应,则需求快速、低推迟的猜测。

  离线布置和在线布置具有各自的需求和要求。一般来说,离线布置需求高通量的练习进程以快速阅读很多的示例,在线布置在单一猜测上需求极快的周转时刻,而不是一次进行多个猜测。

  MQO 不是一个新的范畴,它是数十年来联系数据库规划的一部分。整体思路很简略:不同的查询或许同享相关组件,然后能够保存和复用这些组件。Krypton 东西观察到,CNN 推理一般是在批量相关图画上完结,比方在视频剖析中。

  一般来说,视频是以高帧率生成,这样一来,相邻帧往往相对共同。帧 1 中的大部分信息仍然呈现在帧 2 中。这种状况与 MQO 显着相同,即一系列使命之间同享信息。

  Krypton 在榜首帧上运转惯例推理,然后具象或保存 CNN 在猜测进程中发生的中心数据。随后的图画与榜首帧进行比较以确认图画中的哪些 patch 发生的改变足以值得从头核算。一旦确认了 patch,Krypton 经过 CNN 核算 patch 的「改变域」,以确认模型整个状况中哪些神经元输出发生了改变。这些神经元会依据改变的数据从头运转,其他的数据只需求从根底帧中复用即可。

  成果就是在推理负载上完结 4 倍以上的端到端加快,而且过期数据只要很小的精确率丢失。这种运转时改善关于安全录像视频剖析等长时刻运转的流媒体运用来说至关重要。

  开源东西包 NeMo 是一个集成主动语音辨认(ASR)、自然语言处理(NLP)和语音组成(TTS)的对话式 AI 东西包,便于开发者开箱即用,仅用几行代码便能够便利快速的完结对话式 AI 场景中的相关使命。

  8月26日20:00-21:00,系列共享第2期:运用NeMo快速构建智能问答体系。

  报名办法:进入直播间——移动端点击底部「观看直播」、PC端点击「当即学习」——填写报名表单后即可进入直播间观看。

  原标题:《连通体系与机器学习的 MLOps 应战在哪?这篇文章讲清楚了》