加入收藏 | 设为首页 | 会员中心 | 我要投稿 保山站长网 (https://www.0875zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

你不知道的7个好玩的Python技巧

发布时间:2021-02-19 15:27:43 所属栏目:动态 来源:互联网
导读:PyTorch 1.6 nightly增加了一个子模块 amp,支持自动混合精度训练。值得期待。来看看性能如何,相比Nvidia Apex 有哪些优势? 即将在 PyTorch 1.6上发布的 torch.cuda.amp 混合精度训练模块实现了它的承诺,只需增加几行新代码就可以提高大型模型训练50-60%

PyTorch 1.6 nightly增加了一个子模块 amp,支持自动混合精度训练。值得期待。来看看性能如何,相比Nvidia Apex 有哪些优势?

即将在 PyTorch 1.6上发布的 torch.cuda.amp 混合精度训练模块实现了它的承诺,只需增加几行新代码就可以提高大型模型训练50-60% 的速度。

预计将在 PyTorch 1.6中推出的最令人兴奋的附加功能之一是对自动混合精度训练(automatic mixed-precision training)的支持。

混合精度训练是一种通过在半精度浮点数 fp16上执行尽可能多的操作来大幅度减少神经网络训练时间的技术,fp16 取代了PyTorch默认的单精度浮点数 fp32。最新一代 NVIDIA GPU 搭载了专门为快速 fp16矩阵运算设计的特殊用途张量核(tensor cores)。

然而,到目前为止,这些张量核仍然很难用,因为它需要手动将精度降低的操作写入模型中。这就是自动化混合精度训练的用武之地。即将发布的 torc h.cuda.amp API 将允许你只用五行代码就可以在训练脚本中实现混合精度训练!

 

无论是在传统机器学习领域还是现今炙手可热的深度学习领域,基于训练样本有明确标签或结果的监督学习仍然是一种主要的模型训练方式。尤其是深度学习领域,需要更多数据以提升模型效果。目前,已经有一些规模较大的公开数据集,如ImageNet,COCO等。对于深度学习入门者,这些公开数据集可以提供非常大的帮助;但是对于大部分企业开发者,特别在医学成像、自动驾驶、工业质检等领域中,他们更需要利用专业领域的实际业务数据定制AI模型应用,以保证其能够更好地应用在业务中。因此,业务场景数据的采集和标注也是在实际AI模型开发过程中必不可少的重要环节。

数据标注的质量和规模通常是提升AI模型应用效果的重要因素,然而完全通过人力手动标注数据建立一个高质量、大规模专业领域数据集却并不容易:标注人员的培训与手工标注成本高、耗时长。为解决此问题,我们可以利用主动学习的方法,采用“Human-in-the-loop”的交互式框架(图1)进行数据标注,以有效减少人工数据标注量。

 

近期EasyDL新上线了华为Atlas 200、Atlas300加速卡的支持,能够支持最新DaVinci架构的昇腾310AI处理器,同时兼顾开发板及服务器的场景。结合EasyDL现有的优化技术,在EasyDL的高性能模型上,可以达到6ms的性能。开启多Batch优化后,单张300加速卡可以一秒处理高达1000张图片。

在EasyDL平台上,模型加速优化的全过程都会在系统中自动完成,用户只需根据自己的场景需要,选择具体的硬件,即可自动生成适配对应硬件的端计算部署包。现在,在发布模型的时候,用户只需要勾选“同时获取加速版”,EasyDL后台便会自动为用户生成具备量化、压缩等优化能力的加速版SDK和模型,用户可以直接下载使用,且使用的流程也基本一致。且部署包的使用十分快速简便,用户无需关注深度学习、具体硬件等底层逻辑,只需关注输入图片和输出的识别结果即可。

目前,已有多家企业根据具体业务场景,通过EasyDL平台仅用少量业务数据训练高精度AI模型,并根据使用场景和运行环境选择适配的部署方式。使用门槛低、方便快捷的加速版SDK具备的量化压缩等能力,正在越来越多的业务场景中发挥作用,快速解决业务需求。


在芯片层面,EasyDL会根据具体的硬件类型进行特属优化。比如在ARM64上如果芯片支持NEON,会充分利用其16个128位寄存器进行浮点数计算的优化;在英伟达GPU设备上,EasyDL会利用TensorRT库进行子图的计算和加速;在苹果手机上,会利用CoreML引擎进行推理加速;在华为手机上,如果支持DDK,会调用华为HiAI引擎进行推理。此外,EasyDL还支持英特尔的 MKL OpenVino, 高通的SNPE等推理引擎。在一些平台上,能够根据具体的深度学习网络、芯片类型进行合理的自动选择,在保证精度的同时最大化利用芯片能力,极大地提升推理速度。经过网络、硬件等各层面的优化之后,模型在体积、内存占用、推理速度上都会有更优的表现,部分模型的推理速度可以提升数倍以上。


(编辑:保山站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读