NVIDIA Megatron 是一个基于 PyTorch 的框架,用于训练基于 Transformer 架构的巨型语言模型。本系列文章将详细介绍Megatron的设计和实践,探索这一框架如何助力大模型的预训练计算。 上篇主要介绍了大模型训练的发展趋势、NVIDIA Megatron的模型并行设计,本篇将承接上篇的内容,解析Megatron 在NVIDIA DGX SuperPOD 上的实践。
优化的分布式集群架构:NVIDIA DGX SuperPOD
有了高效的分布式训练框架,自然也需要优化的分布式训练集群。
NVIDIA DGX SuperPOD 便是 NVIDIA 推出的一个分布式集群的参考架构,最新一代是基于NVIDIA DGX A100 和NVIDIA HDR 200Gb/s ConnectX-6 HCAs组建,旨在帮助AI 研究人员快速搭建一套强大、灵活、高效的系统,以满足工业界日益复杂、多变的模型对计算资源不同程度的需求。尤其对于超大语言模型预训练这一复杂场景,DGX SuperPOD 架构尤为重要。
DGX SuperPOD 采用模块化的设计,支持不同规模大小的设计。一个标准的SuperPOD 由140 台DGX A100和三层Infiniband 交换机通过胖树结构全互联起来。每台DGX A100 配有8个200Gb/s 的高速计算网,并配有2个200Gb/s的高速存储网,采用计算和存储网络分离的方案。
多个POD之间可以通过核心层交换机直连起来,可以支持多达560 台DGX A100的互联规模。
更多关于NVIDIA DGX SuperPOD 架构的详细设计,请参阅下列连接中的白皮书:https://images.nvidia.com/aem-dam/Solutions/Data-Center/gated-resources/nvidia-dgx-superpod-a100.pdf
NVIDIA Megatron 在 DGX SuperPOD 上的实践
基于DGX SuperPOD 的Megatron实践在不同大小的模型上,都表现出了很好的计算效率。
模型从1.7B 到1T ,训练规模从32 卡到3072 卡。
基于GPT-3 175B 模型的训练,采用如下的配置:
128 台 DGX A100,总共 1024张 A100
Tensor 并行度:8;Pipeline 并行度:16; 数据并行度:8
全局Batch size : 1536;Micro-batch size: 1
在如此大的训练规模下,GPU 仍可达到44% 左右的计算效率,在规模和效率上,都远远超过已有的公开结果。
详细内容请参考以下链接:
Megatron repro: https://github.com/nvidia/megatron-lm
GPT3-175B training scripts: https://github.com/NVIDIA/Megatron-LM/blob/main/examples/pretrain_gpt3_175B.sh
总结
1. 大模型是大势所趋。
2. 大规模分布式训练是训练大模型的必须。
3. NVIDIA Megatron 是开源的、软硬协同设计的训练框架,专为Transformer-based的超大语言模型设计。
4. NVIDIA DGX SuperPOD 是开放的集群参考设计架构,专为大规模分布式训练而准备。
5. Megatron 优化的Tensor模型并行:用于intra-transformer 层,可以高效地执行在HGX based的系统上。
6. Megatron优化的 Pipeline 模型并行:用于inter-transformer 层,可以有效地利用集群中多网卡的设计。
7. 数据并行的加持,可以扩展到更大规模、训练更快。
8. GPT-3 175B 的大模型,在1024 张 A100上可达到44%左右的计算效率。
9. NVIDIA Megatron 的设计和实践,已广泛用于学术界和工业界。
编辑:jq
原文标题:NVIDIA Megatron:超大Transformer语言模型的分布式训练框架 (二)
文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。
相关推荐
随着数字经济加速发展,海量数据与丰富应用场景成为新焦点,海量存储更是被高频提及。在数十甚至数百PB的....
科技绿洲 发表于 05-19 17:13
?
187次
阅读
这种以 DevOps 为中心的方法意味着可以在 NVIDIA Air 平台上托管的数字孪生模型中模拟....
科技绿洲 发表于 05-19 16:49
?
206次
阅读
QCA8334是一种高度集成的四端口千兆以太网交换机,带有非阻塞交换机fabric是一种高性能查找单....
发表于 05-19 14:32 ?
12次
阅读
经过长期的发展,物联网在各个领域催生了类目众多、数量庞大的物联设备,例如水务行业的智能水表、医疗行业....
发表于 05-19 10:56 ?
25次
阅读
工业交换机现在是愈来愈普及化了,许多相对性较严苛、繁杂的办公环境基本上都靠工业交换机来开展数据信息通....
有方科技自主研发的高精度异动监测仪T915,是一款专为监测预防房屋或桥梁等建筑物坍塌、边坡地质灾害、....
科技绿洲 发表于 05-18 17:17
?
315次
阅读
./oschina_soft/scraper.zip
发表于 05-18 15:05 ?
7次
阅读
Kallot 在迄今为止规模最大的一届非洲人工智能博览会开幕当天向一万名线上观众发表了主题演讲。她重....
科技绿洲 发表于 05-18 14:22
?
221次
阅读
我们的开发者社区继续帮助塑造 CloudXR ,我们对推出 CloudXR 3.2 感到无比兴奋....
在开始使用 TensorRT 进行任何优化工作之前,必须确定应该测量什么。没有衡量标准,就不可能取得....
位于 GitHub 存储库中的sampleMNIST演示了如何导入经过训练的模型、构建 Tens....
IIfConditional实现了一个 if-then-else 流控制结构,该结构提供基于动态布尔....
随着 AI 技术的发展, 数字内容创建业务也变得越来越火热。人脸美化,身材修图,虚拟姿势和背景等功能....
在今年最重要的图形学大会(SIGGRAPH 2022)上, NVIDIA 的论文合著者将发表创纪录的....
为了满足数据中心配电的高特定性需求,SCHURTER推出了其新型4750系列IEC?Type F连接....
21克888 发表于 05-17 11:50
?
518次
阅读
作为一项顶级光通信和网络行业全球展会,2022年OFC大会将众多业界参与者齐聚一堂,与会的观众达80....
科技绿洲 发表于 05-17 11:17
?
162次
阅读
一家英国公司使用 NVIDIA GPU 对风电场进行详细的模拟,为自己、为客户以及未来的净零排放开辟....
全球领先的智能自动化供应商来也科技(北京)有限公司(以下简称 “来也科技” )携手甲骨文公司,采用....
科技绿洲 发表于 05-16 15:28
?
320次
阅读
自中科昊芯推出专题讲解SCI串口通信以来,第一期主要讲解SCI串口FIFO通信原理,第二期主要讲解S....
科技绿洲 发表于 05-16 09:53
?
185次
阅读
NeMo 是用于培训 对话人工智能 模型的框架。在 NeMo 存储库内的 released co....
A30 旨在通过提供四个视频解码器、一个 JPEG 解码器和一个光流解码器来加速智能视频分析( ....
可以通过 GitHub 存储库问题跟踪器 或我们现有的 最终用户支持论坛 报告问题。请通过 Gi....
RTSP 采用 Server/Client 模式,在本样例场景中 Hi3518EV300为RTSP ....
RTXGI 提供了可扩展的解决方案来计算无限多跳照明和软阴影遮挡,而无需烘焙时间、光泄漏或昂贵的....
NVIDIA TensorRT 支持循环结构,这对于循环网络很有用。 TensorRT 循环支持....
中国北京2022年5月13日?— 全球领先的测试测量企业泰克科技日前发布了首次2022年校准服务趋势....
21克888 发表于 05-13 16:54
?
279次
阅读
NVIDIA TensorRT 支持多种类型的层,其功能不断扩展;但是,在某些情况下,支持的层不能满....
举一个简单的例子,如果要实现一个6*1的mux可以用一个6输入的LUT或者是2个4输入的LUT来实现....
TensorRT builder 使用时间来找到最快的内核来实现给定的运算符。时序内核会受到噪声....
PoE交换机带有供电设备,给使用现场带来了便利,也使PoE交换机得到广泛的应用,但是不少使用商会反应....
发表于 05-13 15:49 ?
9次
阅读
基于Redisson组件,使用redlock算法实现
CUDA 上下文会在 TensorRT 第一次调用 CUDA 时自动创建,如果在该点之前不存在。通常....
Polygraphy 是一个工具包,旨在帮助在 TensorRT 和其他框架中运行和调试深度学习....
今天跟大家探讨一下分布式锁的设计与实现。希望对大家有帮助,如果有不正确的地方,欢迎指出,一起学习,一....
使用 NVIDIA Air 应该足以帮助您测试和验证迁移。但是,我们强烈建议您与 NVIDIA ....
毫无疑问,曲线 ILT 掩模设计为电路设计师提供了更大的自由度和创造力,以创建性能更好的电路,同....
NVIDIA DOCA 通过提供行业标准的开放 API 和框架,以及对 NVIDIA DOCA ....
系统中的多个模块在不同服务器上部署,即可称为分布式系统。如 Tomcat 和数据库分别部署在不同的服....
迈进“十四五”,“碳达峰、碳中和”是推动中国产业结构变革和升级的重要抓手,也是实现可持续发展的时代答....
科技绿洲 发表于 05-13 14:12
?
211次
阅读
介绍使用 NVIDIA Omniverse 3D 模拟和协作平台推动艺术或设计流程的个人创作者和开发....
人工智能数据资源服务商北京海天瑞声科技股份有限公司发布2021年报,具体内容如下。 近三年主要会计数....
汽车玩家 发表于 05-13 11:26
?
221次
阅读
太阳系外的行星是什么样的?研究人员使用配备 NVIDIA GPU 的超级计算机,从哈勃望远镜的数据中....
百图生科(BioMap)是一家生物计算驱动的生命科学平台公司,致力于将先进 AI 技术与前沿生物技术....
IBM(纽约证券交易所代码:IBM)商业价值研究院 (IBV) 最新发布的《2022年CEO调研报告....
科技绿洲 发表于 05-13 11:11
?
157次
阅读
上海市磁共振重点实验室(Shanghai Key Laboratory of Magnetic Re....
TAO 工具提供提供 QAT (Quantize Aware Training) 量化感知的训练模式....
从制造汽车到帮助外科医生和送披萨,机器人不仅逐渐自动化,而且将完成任务的速度提高了许多倍。随着人工智....
网易互娱 AI Lab 的研发人员,基于 Wenet 语音识别工具进行优化和创新,利用 NVIDIA....
对话式 AI 是一种综合运用多种技术的复杂的人工智能形式,能够使人机间实现类似于真人的交互。复杂系统....
卷积神经网络是一种深度学习网络,主要用于识别图像和对其进行分类,以及识别图像中的对象。
(以下内容来自开发者分享,不代表 OpenHarmony 项目群工作委员会观点)
成翔
OpenAtom OpenHarmony(以下简称“OpenH...
发表于 04-25 11:14 ?
1395次
阅读
import http from '@ohos.net.http';
export function doList() {
const url
const httpRequ...
发表于 04-25 10:15 ?
861次
阅读
在调试CAN,接收数据都没什么问题,但是发送那一块,有的时候rt_device_write的返回值为0,就是没发出去,这个应该怎么解决这...
发表于 04-20 09:22 ?
1457次
阅读
(以下内容来自开发者分享,不代表 OpenHarmony 项目群工作委员会观点)
刘丽红
随着社会的进步与发展,科技手段的推陈出新...
发表于 04-18 15:37 ?
2002次
阅读
有时候需要FINSH把接收到的数据保存到本地文件中,有时候需要从本地文件中导入输入命令或数据,FINSH是否有这个功能 ?...
发表于 04-18 09:22 ?
1269次
阅读
1、OpenHarmony3.1的分布式硬件管理框架
简介分布式硬件管理框架是为分布式硬件子系统提供信息管理能力的部件。分布式硬件管理...
发表于 04-11 11:50 ?
1677次
阅读
(以下内容来自开发者分享,不代表 OpenHarmony 项目群工作委员会观点)
邢碌
上一章,我们通过分布式音乐播放器、分布式炸...
发表于 04-07 18:48 ?
5576次
阅读
1.介绍
基于TS扩展的声明式开发范式开发一个分布式手写板应用。涉及的OS特性有分布式拉起和分布式数据管理,使用这两个特性...
发表于 04-07 11:42 ?
1104次
阅读
请问怎么将bh1750软件包2.0里的bh1750_read_light是光强的数据吗?(onenet_mqtt_upload_string("light", 这里应该是什么) < ...
发表于 04-06 09:35 ?
818次
阅读
人工智能 (AI) 将改变世界。但要实现其潜力,我们将不得不改变设计计算系统的方式。
诸如在云中训练神经网络或在边缘实时执...
发表于 03-29 14:40 ?
2591次
阅读
TS3USB3200是一款差分单刀双掷(DPDT)多路复用器,在同一封装内包含一个高速移动高清链接(MHL)开关或移动显示端口(MyDP)开关以及一个USB 2.0高速
(480Mbps)开关。此外,此器件还包括一个用于简化信息控制的单刀双掷(SPDT)USB /MHL或MyDP ID开关。这些配置使得系统设计人员能够为MHL /MyDP视频信号和USB数据使用一个普通USB或者微型USB连接器。
TS3USB3200具有一个2.7V至4.3V的V CC 范围,并且可选择由V BUS (不使用V CC )供电。该器件支持过压容限(OVT)特性,允许I /O引脚承受过压条件(最高可达5.5V)。当供电消失时,断电保护特性强制所有I /O引脚变为高阻抗模式。这样可实现信号线路的完全隔离,从而避免的过多的泄漏电流.TS3USB3200的选择引脚与1.8V控制电压兼容,允许它们直接与移动处理的通用I /O(GPIO)相连。
TS3USB3200采用小型16引脚UQFN封装(尺寸为2.6毫米×1.8毫米),是移动应用的理想选择。
特性
V CC 范围:2.7V至4.3V
移动高...
发表于 09-13 14:22 ?
344次
阅读
TS3L4892是一个16位至8位多路复用器/多路分解器LAN开关,具有单选(SEL)输入。 SEL控制多路复用器/多路分解器的数据路径。该器件提供额外的I /O,用于指示LED信号的开关状态。
器件提供低且平坦的导通电阻(r ON )和出色的导通电阻比赛。低输入/输出电容,高带宽,低偏斜和通道间低串扰使该器件适用于各种LAN应用,例如10/100/1000 Base-T。
此器件可用于在LAN应用中更换机械继电器。它还可用于将信号从10/100 Base-T以太网收发器路由到笔记本电脑或扩展坞中的RJ-45 LAN连接器。
特性
Wide Bandwidth (BW = 1100 MHz Typ)
Low Crosstalk (XTALK = -37 dB Typ)
Low Bit-to-Bit Skew (tsk(o) = 100 ps Max)
Low and Flat ON-State Resistance
(rON = 4 Typ)
Low Input/Output Capacitance
(CON = 8 pF Typ)
Rail-to-Rail Switching on Data I/O Ports
(0 to 5 V)
VCC Operating Range From 3 V to 3...
发表于 09-12 15:50 ?
818次
阅读
TS3L500是一个16位至8位多路复用器/多路分解器LAN开关,具有单选(SEL)输入。 SEL控制多路复用器/多路分解器的数据路径。该器件提供额外的I /O,用于指示LED信号的开关状态。
器件提供低且平坦的导通电阻(r on )和出色的导通电阻比赛。低输入/输出电容,高带宽,低偏斜和通道间低串扰使该器件适用于各种LAN应用,例如10/100/1000 Base-T。
此器件可用于在LAN应用中更换机械继电器。它还可用于将信号从10/100 Base-T以太网收发器路由到笔记本电脑或扩展坞中的RJ-45 LAN连接器。
特性
宽带宽(BW> 1100 MHz典型值)
低串扰(X TALK = -37 dB(典型值)
低位到位偏移(t sk(o) =最大100 ps)
低且平坦ON-州抵抗(r on = 4 Typ)
低输入/输出电容(C ON = 8 pF典型值)
数据I /O端口(0至5 V)上的轨到轨切换
V CC 工作范围3 V至3.6 V
闩锁性能超过每JESD 78 mA,Class II
ESD性能测试根据JESD 22
...
发表于 09-07 17:28 ?
363次
阅读
TS3L301是一个16位至8位多路复用器/多路分解器局域网(LAN)开关,具有单选(SEL)输入。 SEL输入控制多路复用器/多路分离器的数据路径。
器件提供低且平坦的导通电阻(r on )和良好的导通状态电阻匹配。低输入/输出电容,高带宽,低偏斜和通道间低串扰使该器件适用于各种LAN应用,例如10/100/1000 Base-T。
特性
宽带宽(BW = 900 MHz典型值)
低串扰(X TALK = -41 dB(典型值)
低位到位偏移[t sk(o) = 0.2 ns Max]
低和平坦导通状态抵抗
(r on = 4 Typ)
低输入/输出电容
(C ON = 10 pF典型值)
数据I /O端口上的轨到轨切换
(0至5 V)
V DD 工作范围从3 V至3.6 V
I off 支持部分断电 - 模式操作
闩锁性能超过每JESD 78 mA,Class II
每个JESD测试的ESD性能22
2000-V人体模型(A114) -B,Class II)
1000V充电器件型号(C101)
...
发表于 09-06 17:22 ?
529次
阅读
评论