侵权投诉

完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>

3天内不再提示

TensorFlow 2:专为性能和易用性而设计

tensorflowers ? 来源:TensorFlow ? 2020-09-08 16:02 ? 次阅读

衡量机器学习性能的业界标准 MLPerf(https://mlperf.org) 发布了 MLPerf Training v0.7 轮的最新基准测试结果。我们开心地与大家分享,Google 的提交结果展现出一流的性能(达到目标质量用时最短),能够扩展至 4,000 多个加速器,并且在 Google Cloud 上为 TensorFlow 2 开发者提供了灵活的开发体验。

在本文中,我们将探讨 TensorFlow 2 MLPerf 提交结果,以及这些结果展示了企业如何在 Google Cloud 中尖端的 ML 加速器上运行 MLPerf 所代表的有价值的工作任务,如广泛部署的几代 GPU 和 Cloud TPU(

TensorFlow 2:专为性能和易用性而设计

在今年早些时候举行的 TensorFlow 开发者峰会上,我们着重介绍了 TensorFlow 2 将注重易用性和实际性能。为争取赢得基准测试,工程师们往往依赖于低阶 API 调用和硬件专用的代码,而这些在日常企业环境中可能很少见或不实用。借助 TensorFlow 2,我们的目标是通过更直接的代码提供开箱即用的高性能,避免低级优化在代码重用性、代码运行状况和工程效率方面带来的重大问题。

MLPerf Training v0.7 中 Google 使用带 8 个 NVIDIA V100 GPU 的 Google Cloud VM 的收敛时间(分钟)。提交结果在“可用”类别中

TensorFlow 的 Keras API(请参阅相关的一系列指南)支持多种硬件架构,提供了易用性和可移植性。例如,模型开发者可以使用 Keras 混合精度 API 和 Distribution Strategy API 来使同一代码库尽可能在多个硬件平台上流畅运行。Google 的“云端可用”类别中的 MLPerf 提交结果是由这些 API 实现的。这些提交结果证明了使用高阶 Keras API 编写的几乎相同的 TensorFlow 代码可以在业界两个领先的广泛可用的 ML 加速器平台上提供高性能使用体验:NVIDIA 的 V100 GPU 和 Google 的 Cloud TPU v3 Pod。

指南
https://tensorflow.google.cn/guide/keras/sequential_model

Keras混合精度 API
https://tensorflow.google.cn/guide/keras/mixed_precision

Distribution Strategy API
https://tensorflow.google.cn/guide/distributed_training

注:图表中显示的所有结果均于 2020 年 7 月 29 日从 www.mlperf.org 中获取。MLPerf 名称和徽标为商标。有关详细信息,请访问 www.mlperf.org。显示的结果:0.7-1 和 0.7-2。

MLPerf Training v0.7 中使用含 16 个 TPU 芯片的 Google Cloud TPU v3 Pod 切片的收敛时间(分钟)。提交结果在“可用”类别中

深入了解:借助 XLA 提升性能

Google 提交的在 GPU 和 Cloud TPU Pod 上的测试结果使用了 XLA 编译器来优化 TensorFlow 性能。XLA 是 TPU 编译器技术栈的核心部分,可以选择性地为 GPU 启用。XLA 是一个基于图模型的即时编译器,用于执行各种不同类型的全程序优化,包括 ML 运算的广泛 融合 。

XLA 编译器
https://tensorflow.google.cn/xla

算子融合降低了 ML 模型对存储容量和带宽的要求。此外,融合减少了运算的启动开销,尤其是在 GPU 上。总体而言,XLA 优化具有通用性和可移植性,与 cuDNN 和 cuBLAS 库的互操作性十分出色,并且通常可以作为手动编写低级内核的有力替代方案。

Google 的“云端可用”类别中的 TensorFlow 2 提交结果使用了 TensorFlow 2.0 中引入的 @tf.function API。@tf.function API 提供了一种简单的方法来有选择地启用 XLA,从而可以精确控制将要编译的函数。

启用 XLA
https://www.tensorflow.org/xla/tutorials/compile

XLA 带来的性能提升令人赞叹:在连接 8 个 Volta V100 GPU(每个具有 16 GB GPU 内存)的 Google Cloud VM 上,XLA 将 BERT训练吞吐量从每秒 23.1 个序列提高到每秒 168 个序列,提升了约 7 倍。XLA 还使每个 GPU 的可运行批次大小增加了 5 倍。XLA 减少了内存使用量,因此使得高级训练技术(如梯度积累)的使用成为可能。

在 Google Cloud 上使用 8 个 V100 GPU 的 BERT 模型中启用 XLA 的影响(分钟)(Google 在 MLPerf Training 0.7 中提交的测试结果)与停用优化条件下同一系统中未经验证的 MLPerf 结果

Google Cloud 上最先进的加速器

Google Cloud 是唯一支持访问最新 GPU 和 Cloud TPU 的公共云平台,使 AI 研究人员和数据科学家可以自由地为每个任务选择合适的硬件。

GPU
https://cloud.google.com/blog/products/compute/announcing-google-cloud-a2-vm-family-based-on-nvidia-a100-gpu

Cloud TPU
https://cloud.google.com/tpu/

BERT 等前沿模型已在 Google 内广泛使用,并在整个行业范围内用于各种自然语言处理任务,现在可以使用训练 Google 内部工作任务所用的基础架构在 Google Cloud 上进行训练。借助 Google Cloud,您可以在一个小时内在具有 16 个 TPU 芯片的 Cloud TPU v3 Pod 切片上将 BERT 训练 300 万个序列,总成本不到 32 美元。

BERT
https://github.com/tensorflow/models/blob/master/official/benchmark/bert_benchmark.py

结论

Google 的 MLPerf 0.7 训练提交结果展示了 TensorFlow 2 在最新的 ML 加速器硬件上的性能、易用性和可移植性。立即开始,体验 TensorFlow 2 在 Google Cloud GPU、Google Cloud TPU 和具有 Google Cloud Deep Learning VM 的 TensorFlow Enterprise 上的易用性和功能。

致谢

GPU 的 MLPerf 提交结果离不开与 NVIDIA 的密切协作。NVIDIA 的所有工程师都为提交测试结果提供了帮助,在此一并表示感谢。

原文标题:TensorFlow 2 MLPerf 提交结果在 Google Cloud 上展现出同类最佳性能

文章出处:【微信号:tensorflowers,微信公众号:TensorFlow】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    机器学习中的无监督学习应用在哪些领域

    监督学习|机器学习| 集成学习|进化计算| 非监督学习| 半监督学习| 自监督学习|?无监督学习| ....
    发表于 01-20 10:52 ? 2次 阅读
    机器学习中的无监督学习应用在哪些领域

    采用集成电路进行数字系统设计的优点

    引入    逻辑门是组成各类数字逻辑电路的基本逻辑器件。    集成电路(集成电路芯片):实现各种逻辑功能的...
    发表于 01-20 08:28 ? 0次 阅读

    MSP432飞控软件框架的相关资料分享

    飞控整个软件代码运行在定时器调度模式,同时对各个外设模块中断优先级进行了合理设计,确保程序运行的实时性和稳健性。其中对实...
    发表于 01-20 07:12 ? 0次 阅读

    关于元学习研究的综合概述

    元学习研究综述 摘要 深度学习和强化学习严重受限于小样本数据集,容易发生过拟合,无法实现类似于人类强....
    发表于 01-19 16:45 ? 12次 阅读
    关于元学习研究的综合概述

    突破传统“超算”加速新药研发

    Alveo 加速器卡为打造Yaddle MD提供了独特的可重配置加速功能,不仅能够支持其灵活适应算法....
    发表于 01-19 13:47 ? 254次 阅读
    突破传统“超算”加速新药研发

    STM32写PWM四路输出St_link突然就不能用了是为什么?

    STM32写PWM四路输出St_link突然就不能用了是为什么?...
    发表于 01-19 07:25 ? 0次 阅读

    MediaTek发布《6G愿景白皮书》,定义三大基本设计原则S.O.C.

    MediaTek认为,伴随全球范围6G技术研究不断深入,移动性能增强、网络架构设计、频谱资源使用效率....
    发表于 01-18 14:53 ? 93次 阅读

    《自动化学报》—多Agent深度强化学习综述

    多Agent 深度强化学习综述 来源:《自动化学报》,作者梁星星等 摘 要?近年来,深度强化学习(D....
    发表于 01-18 10:08 ? 8次 阅读
    《自动化学报》—多Agent深度强化学习综述

    【年度精选】2021年度top5榜单——LabVIEW技术论坛社区经验

    本榜单汇总了2021年阅读量最多的经验帖,都是深受各位开发者喜欢的项目开发经验,相信你也能从中找到适合自己的知识,快来阅读收...
    发表于 01-17 16:19 ? 404次 阅读

    基于三维激光点云的目标识别与跟踪研究

    基于三维激光点云的目标识别与跟踪研究 来源:《汽车工程》 ,作者徐国艳等 [摘要] 针对无人车环境感....
    发表于 01-17 11:22 ? 18次 阅读

    如何安装单片机keil5破解版本?

    如何安装单片机keil5破解版本?
    发表于 01-17 08:32 ? 0次 阅读

    如何去实现座椅位置的自动控制和调节呢

    如何去实现座椅位置的自动控制和调节呢? 霍尔传感器和电机在座椅位置的自动控制和调节中有何作用?...
    发表于 01-17 07:13 ? 0次 阅读

    深度学习_硬件知识_上拉寄存器与下拉寄存器

    上拉寄存器上拉寄存器是控制对应端口上拉使能的。当对应位为0时,设置对应引脚上拉使能,对应位为1时,禁....
    发表于 01-14 14:31 ? 7次 阅读
    深度学习_硬件知识_上拉寄存器与下拉寄存器

    《南京邮电大学学报》—量子计算机研究进展

    量子计算机研究进展 来自《南京邮电大学学报(自然科学版)》,作者郭光灿等 摘要:量子计算机是未来量子....
    发表于 01-14 10:33 ? 18次 阅读

    上拉寄存器与下拉寄存器分别是何含义

    上拉寄存器上拉寄存器是控制对应端口上拉使能的。当对应位为0时,设置对应引脚上拉使能,对应位为1时,禁止对应引脚上拉使能。如...
    发表于 01-14 08:27 ? 0次 阅读

    RS-485学习和使用相关资料分享

    文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人...
    发表于 01-14 07:41 ? 0次 阅读

    Python串口通信代码分享

    最近开发一个项目需要使用python进行串口的数据发送和接收,在查询资料和实际测试后终于找到一个比较好用的串口通信代码,如下:...
    发表于 01-14 06:15 ? 0次 阅读

    望繁信速递:一文看懂任务挖掘和流程挖掘的区别

    如今,随着企业信息化管理改革的不断深化,面对复杂的业务流程,企业管理者迫不及待的想要深入了解其自身的....
    的头像 话说科技 发表于 01-13 12:23 ? 149次 阅读
    望繁信速递:一文看懂任务挖掘和流程挖掘的区别

    数字化转型知识方法系列之五:数字化转型战略

    数字化转型知识方法系列之五:数字化转型战略 ? 一、数字化转型是信息时代企业级核心战略 ? 新一轮科....
    发表于 01-13 09:02 ? 29次 阅读

    笔记本电脑连上电源会亮灯吗_使用错误的电源可以降低笔记本电脑的速度吗?...

    笔记本电脑连上电源会亮灯吗Sometimes, through no fault of our ow....
    发表于 01-12 12:52 ? 10次 阅读
    笔记本电脑连上电源会亮灯吗_使用错误的电源可以降低笔记本电脑的速度吗?...

    LattePanda Delta 电源测试以及风扇清理

    LattePanda Delta 电源测试以及风扇清理LattePanda Delta 电源测试La....
    发表于 01-12 12:22 ? 8次 阅读
    LattePanda Delta 电源测试以及风扇清理

    如何设计蓝牙智能牙刷

    这是智能牙刷带给我们的好处,更容易确定如何为客户提供保险。 随着时间的推移,我们期望降低牙科费用,因....
    的头像 SiliconLabs 发表于 01-12 10:10 ? 207次 阅读

    新思科技人工智能设计系统DSO.ai助力三星移动芯片实现自主设计

    三星采用新思科技的自主芯片设计解决方案,在其先进工艺技术上取得了里程碑式的卓越结果。实现了自主芯片设....
    发表于 01-12 09:54 ? 256次 阅读

    人工智能支撑马赛克战机理研究

    人工智能支撑马赛克战机理研究 来源:《航空兵器》,作者付翔等 0 引言 近30年来, 随着信息化军事....
    发表于 01-12 08:54 ? 13次 阅读

    机器学习的基础内容介绍

    文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人...
    发表于 01-12 08:12 ? 0次 阅读

    powercfg_在Windows 7中使用PowerCfg评估电源效率

    powercfgIt’s quite annoying when you have work to ....
    发表于 01-11 13:36 ? 12次 阅读
    powercfg_在Windows 7中使用PowerCfg评估电源效率

    交直流线性电源行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)

    交直流线性电源市场的企业竞争态势 该报告涉及的主要国际市场参与者有Cincon Electroni....
    发表于 01-11 11:55 ? 16次 阅读
    交直流线性电源行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)

    2021-2025年中国电源管理IC(PMIC)行业市场供需与战略研究报告

    电源管理IC(PMIC)市场的企业竞争态势 该报告涉及的主要国际市场参与者有Qualcomm、TI....
    发表于 01-11 10:24 ? 11次 阅读
    2021-2025年中国电源管理IC(PMIC)行业市场供需与战略研究报告

    2021GOPS全球运维大会落幕七牛云分享AIOps探索经验

    11月19日,为期两天的2021 GOPS全球运维大会完美落幕。大会由高效运维社区(GreatOPS....
    的头像 话说科技 发表于 01-11 10:10 ? 219次 阅读
    2021GOPS全球运维大会落幕七牛云分享AIOps探索经验

    【优化求解】基于遗传算法实现电动汽车有序充电matlab源码

    一、遗传算法概述 遗传算法(Genetic Algorithm,GA)是进化计算的一部分,是模....
    发表于 01-11 09:38 ? 10次 阅读
    【优化求解】基于遗传算法实现电动汽车有序充电matlab源码

    基于图嵌入的兵棋联合作战态势实体知识表示学习方法

    基于图嵌入的兵棋联合作战态势实体知识表示学习方法 来源:《指挥控制与仿真》,作者王保魁等 摘 要:为....
    发表于 01-11 08:34 ? 12次 阅读

    【心电信号】基于matlab自适应滤波算法胎儿心电信号提取【含Matlab源码 953期】

    一、简介1 心音:心脏收缩舒张时产生的声音,可用耳或听诊器在胸壁听到,亦可用电子仪器记录下来(心音图....
    发表于 01-10 11:46 ? 10次 阅读
    【心电信号】基于matlab自适应滤波算法胎儿心电信号提取【含Matlab源码 953期】

    汽车启动电源UL2743检测标准/应急电源UL2595标准

    汽车启动电源UL2743检测标准/应急电源UL2595标准随着汽车应急电源的日渐普及,市面上出现了各....
    发表于 01-10 10:18 ? 19次 阅读
    汽车启动电源UL2743检测标准/应急电源UL2595标准

    基于兵棋推演系统的作战方案评估方法研究

    基于兵棋推演系统的作战方案评估方法研究 来源:《兵器装备工程学报》,作者秦园丽 摘要:在分析总结模糊....
    发表于 01-10 08:48 ? 23次 阅读

    从“看得清”到“看得懂”:视域提升带来的管理“魔法”

    熟悉脑极体的读者可能会对极术社区有印象,我们好几篇有关芯片的稿件中都提及过这个技术社区。极术社区是我....
    的头像 脑极体 发表于 01-08 11:22 ? 1681次 阅读

    《自动化学报》—大数据智能决策

    大数据智能决策 来源:《自动化学报》?,作者于洪等 摘 要?在全球信息化快速发展的背景下,大数据已经....
    发表于 01-08 08:36 ? 30次 阅读

    竹间科技再登IDC中国FinTech50榜单助推金融企业发展

    此前,IDC中国FinTech 50榜单揭晓,竹间科技连续两年登上该榜单,同时荣获IDC中国金融行业....
    发表于 01-07 16:39 ? 42次 阅读
    竹间科技再登IDC中国FinTech50榜单助推金融企业发展

    可调电源的电路设计

    可调电源在电路调试中经常用到,可调电源分为两种2-5v(非0点可调)和0-5v(低至0点可调)可调两....
    发表于 01-07 14:23 ? 33次 阅读
    可调电源的电路设计

    电源变换适用于非独立源码_适用于非None测试的Python程序

    电源变换适用于非独立源码As we have discussed in the previous p....
    发表于 01-07 13:23 ? 17次 阅读
    电源变换适用于非独立源码_适用于非None测试的Python程序

    2021-2027全球与中国半导体激光电源市场现状及未来发展趋势

    报告摘要2019年,全球半导体激光电源市场规模达到了xx亿元,预计2026年将达到xx亿元,年复合增....
    发表于 01-07 12:17 ? 30次 阅读
    2021-2027全球与中国半导体激光电源市场现状及未来发展趋势

    交直流DIN导轨电源行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)

    交直流DIN导轨电源市场的企业竞争态势 该报告涉及的主要国际市场参与者有Puls、Phoenix、....
    发表于 01-06 15:58 ? 13次 阅读
    交直流DIN导轨电源行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)

    2021-2027全球与中国飞机交流座椅内电源市场现状及未来发展趋势

    报告摘要2019年,全球飞机交流座椅内电源市场规模达到了xx亿元,预计2026年将达到xx亿元,年复....
    发表于 01-06 15:54 ? 27次 阅读
    2021-2027全球与中国飞机交流座椅内电源市场现状及未来发展趋势

    基于深度学习的目标检测研究综述

    基于深度学习的目标检测研究综述 来源:《电子学报》?,作者罗会兰等 摘 要:?目标检测是计算机视觉领....
    发表于 01-06 09:14 ? 31次 阅读
    基于深度学习的目标检测研究综述

    智能摄像头将迈入64 位处理技术

    通过迁移至 64 位处理技术,可以更好地利用先进的64位CPU 硬件与身俱来的更高性能和效率。最重要....
    发表于 01-05 14:18 ? 1762次 阅读
    智能摄像头将迈入64 位处理技术

    基调听云:APM市场冰火两重天,或许只是行业无处安放的焦虑

    近两年来,无论从国内还是到国外,市场出现一种批判APM的论调,甚至有“传统APM已经落后”的个别声音....
    的头像 话说科技 发表于 01-05 14:14 ? 195次 阅读

    人工智能开始对现实世界产生重大影响 ????

    专家:人工智能开始对现实世界产生重大影响 本文摘自中国日报网 中国日报网11月8日电 据英国《卫报》....
    发表于 01-05 11:23 ? 17次 阅读

    安富利喜获爱普生电子元器件核心代理商奖

    新年的脚步悄然而至,转眼间2021已翻至最后一页。回溯过去一年的成长与收获,我们为公司成立百年而欢欣....
    的头像 安富利 发表于 01-05 10:04 ? 345次 阅读

    《系统工程与电子技术》—空战决策知识构建方法研究

    空战决策知识构建方法研究? ?本文来自《系统工程与电子技术》,作者吕跃等? 0 引言 随着空战训练以....
    发表于 01-04 14:32 ? 16次 阅读
    《系统工程与电子技术》—空战决策知识构建方法研究

    《光学精密工程》—滑翔导弹末段多约束智能弹道规划

    滑翔导弹末段多约束智能弹道规划 来源:《光学精密工程》,作者邵会兵等 摘要:滑翔导弹末段飞行时空复杂....
    发表于 01-03 10:21 ? 14次 阅读

    微功耗霍尔开关CC6207应用于便携式果汁机,具有功耗低、响应速度快的优势

    ?便携式果汁机一般采用内部电池供电,因此对霍尔开关要求具有体积小、功耗低、高灵敏度、低温漂的特性。针....
    发表于 12-31 19:19 ? 34次 阅读
    微功耗霍尔开关CC6207应用于便携式果汁机,具有功耗低、响应速度快的优势

    基于位置的知识图谱链接预测

    基于位置的知识图谱链接预测 人工智能技术与咨询? 本文来自《中文信息学报》,作者张宁豫等 摘?要: ....
    发表于 12-31 10:07 ? 36次 阅读
    基于位置的知识图谱链接预测

    边缘机器学习成功的关键因素

    ABI Research预测,2021年至2026年,具有边缘机器学习功能的设备出货量将以24.5%....
    的头像 NXP客栈 发表于 12-31 09:55 ? 318次 阅读

    人工智能技术在智能制造中的典型应用场景与标准体系研究

    人工智能技术在智能制造中的典型应用场景与标准体系研究 来源:《中国工程科学》?,作者李瑞琪等 摘要:....
    发表于 12-30 14:56 ? 146次 阅读

    规则引导的知识图谱联合嵌入方法

    规则引导的知识图谱联合嵌入方法 人工智能技术与咨询? 本文来自《计算机研究与发展》?,作者姚思雨等 ....
    发表于 12-28 10:42 ? 31次 阅读

    嵌入式人工智能的应用与展望

    嵌入式人工智能的应用与展望 人工智能技术最初级出现在人们的视野中是在1950年, 浮浮沉沉地发展了5....
    发表于 12-25 10:16 ? 57次 阅读
    嵌入式人工智能的应用与展望

    水声被动定位中的机器学习方法研究进展综述

    水声被动定位中的机器学习方法研究进展综述 来源:《信号处理》,作者牛海强等 摘 要:?本文对基于机器....
    发表于 12-24 11:18 ? 23次 阅读
    水声被动定位中的机器学习方法研究进展综述

    基于K210的MNIST手写数字识别

    基于K210的MNIST手写数字识别硬件平台 采用Maixduino开发板 在sipeed官方有售软....
    发表于 12-22 18:44 ? 40次 阅读
    基于K210的MNIST手写数字识别

    HBM3内存:向更高的带宽突破

    随着数据中心对人工智能和机器学习(AI/ML)的利用率越来越高,大量数据不断被产生和消耗,这给数据中....
    发表于 12-22 10:20 ? 415次 阅读
    HBM3内存:向更高的带宽突破

    可编程能力在新一代安全设备中的重要性

    FPGA 的 TLS 处理功能是 TCP 卸载引擎的扩展,其中 TCP 有效载荷的加密与解密在 FP....
    发表于 12-21 16:18 ? 2759次 阅读
    可编程能力在新一代安全设备中的重要性
    她的小梨涡完整版免费阅读