全球最大体育平台-世界最大的体育平台

全球最大体育平台-世界最大的体育平台

首页 世界最大的体育平台 全球最大体育平台 Voyager AI 超级计算机为研究人员提供...

Voyager AI 超级计算机为研究人员提供了新的深度学习实验平台

时间:2022-01-13 作者:肯·斯特兰伯格 来源:supermicro

随着人为造成的气候变化使地球变暖,在美国西部创造了更干燥的条件,野火的强度也在增加。 过去几年加州的野火摧毁了土地、家庭和社区。 几十年来不断增加的树木和灌木丛密度为灾难性火灾提供了燃料。 持续的干旱在全州创造了易燃易爆的条件,并导致了接近全年的火灾季节。 这些情况在俄勒冈州、华盛顿州、蒙大拿州、阿拉斯加州和加拿大西部重复出现。

地面上的情况很重要。 皇冠大火是一种毁灭性的野火,会蔓延余烬并引发现场火灾,其原因是梯子燃料有助于造成当今的特大火灾,例如 烧毁近 100 万英亩的 迪克西大火。 受控燃烧有助于减少这种类型的燃料负荷。 但是,数百万英亩的林地,包括健康的森林、等待重新种植的烧毁荒地,以及恢复生长的非针叶树改变景观和燃料负荷的土地,对管理机构的有限资源提出了巨大挑战。 挑战不仅限于森林,还涉及草原、灌木丛和其他受到人类引火威胁的植被区,这些区域导致了加利福尼亚州 95% 的火灾和闪电( )。

对于火灾管理人员、火灾科学家和消防员来说,分析和了解宏观和微观尺度的燃料负荷可以帮助他们了解如何保护土地并更有效地减轻和扑灭野火。 卫星和航空图像为分析地面上的情况提供了有用的资源。 与该领域研究人员进行的小型调查相比,来自卫星和飞机的大量累积数据提供了更多的洞察力和地面真实性。 有太多的地方需要覆盖。 手动分析数千平方米的图像需要大量时间。

“人们对使用人工智能进行野火管理很感兴趣,” 加州大学圣地亚哥分校 (UC San Diego) 圣地亚哥超级计算机中心 (SDSC) 的研究员兼数据分析负责人 Mai Nguyen评论道。 “加州大学圣地亚哥分校和整个加州大学系统都参与了这类研究。”

Nguyen 正在开发工具来加速燃料负荷的图像分析。 她和其他研究人员正计划使用专为人工智能加速而构建的新型实验性超级计算机。 该系统名为 Voyager ,建立在 Habana Labs 的 GAUDI 训练加速器 GOYA 推理加速器之上 围绕他们的新张量处理器核心 (TPC) 架构和第三代“Ice Lake”英特尔至强可扩展处理器设计。 每个训练和推理加速器都包含八个张量处理单元 (TPU)。

由 NSF 资助的实验性 SDSC Voyager 超级计算机的关键方面。 学分:本·托洛,SDSC/加州大学圣地亚哥分校。

“目标是在野火管理的背景下了解一个地区的土地覆盖构成,”Nguyen 说。 “火灾行为取决于很多环境条件,可用的燃料很重要。 草会产生一种火,而枯木会产生另一种可能更强烈的火。”

Nguyen 已将 AI 用于许多应用程序。 除了图像分析,她还将深度学习技术应用于跨学科问题,包括灾难管理和自然语言处理。 对于图像处理,她使用了一条她和她的 WIFIRE 同事已应用于多种不同应用的管道,包括了解城市的构成、难民营的建成速度以及检测非洲农村地区学校的位置.

“我们希望将我们的 AI 模型与火灾科学模型和火灾科学专业知识相结合,并建立一个平台,整合所有这些不同的技术供研究人员使用。 他们可以研究和模拟特定条件下的火灾行为,以更好地了解如何扑灭野火。”

科学探索的新架构

Nguyen 在 TensorFlow 框架上开发了她的深度学习 (DL) 算法,可在基于 GPU 的系统上运行。 Voyager 为她提供了一种替代架构来测试和开发她的工作,并轻松过渡到使用 TPU 和 CPU 而不是 GPU 的新加速器。

虽然 GPU 传统上一直是大规模深度学习训练工作负载的首选架构,但 Habana Labs 的 Gaudi 和 Goya 加速器等新技术正在不断涌现,为研究人员提供了大规模探索的新技术。 Voyager 允许他们试验、学习和了解可以解决一些最紧迫的研究挑战的新方法。 Voyager由美国 国家科学基金会 (NSF) 资助 ,是首批以 NSF 人工智能为重点的超级计算机之一,因此数据科学家可以利用这种新架构。

“我们与几位科学家讨论了他们的研究需要什么,”SDSC 数据支持科学计算 (DESC) 部门的主管 Amit Majumdar 说。 “人工智能本身就是一门学科,并成为他们研究的重要组成部分。 当美国国家科学基金会要求为独特的实验性超级计算机提出建议时,我们开始构建 Voyager 并寻求 NSF 资助。 这是专门为 AI 构建的硬件,包括训练和推理。 我们需要这些硬件来进行实验、测试和学习,以推进 AI 方法。”

超微高迪系统

Voyager 包括 42 个 全球最大体育平台 X12 GAUDI 训练服务器训练节点,配备英特尔最新的第三代 Xeon 可扩展“Ice Lake”处理器。 每个训练节点包含八张高迪训练卡。 为推理部署了两个 全球最大体育平台 SuperServer 节点,每个节点配备第二代英特尔至强可扩展“Cascade Lake”处理器和八个 Goya 推理卡。

在当今海量数据集上进行 AI 训练需要具有大量处理器内核和节点的庞大系统,以便在合理的时间内训练算法。 在这种规模下,跨系统的通信通常受到网络的限制。 每个 Gaudi 训练处理器都集成了十个 100 Gbps RDMA over Converged Ethernet (RoCE) 接口。 互连可以通过多种方式进行配置,使其能够灵活地用于不同的应用。

在 Voyager 中,服务器中包含的八张 Gaudi 卡中的每一张都专用于七个 100 Gbps 端口,以全对多、非阻塞配置连接到其他卡。 其他三个 100 Gigabit 端口专用于横向扩展,为每个 Voyager 节点提供 24 100 Gigabit 端口。 英特尔旗下公司 Habana Labs 的 Susan Lansing 表示,集成 RoCE 的可扩展性使整个系统更加高效。 最近,Amazon Web Services 在其 EC2 实例中添加了 Gaudi 卡, 作为其 GPU 实例的替代品。

对于推理,Goya 使用与 Gaudi 相同的 TPU 以低功耗进行加速推理。 Goya 建立在 Habana 的 Tensor 处理器核心架构之上,每个推理卡中都有 8 个可编程核心,Goya 可以加速 AI 工作负载,而不管他们在何种架构上进行训练。 它原生支持多种混合精度数据类型,包括 FP32、INT32/16/8、UINT32/16/8。

“我们正在与同时进行训练和推理的科学家合作,”Majumdar 补充道。 “有些人会将基于其他技术的工作负载迁移到 Voyager。 其他人将直接在 Voyager 上开发他们的模型。 他们还需要将他们的模型从训练转移到推理,所以在一个系统中同时拥有两者是很好的。”

航海者号的 NSF 实验计划允许一小群科学家与 SDSC 和 Habana 应用专家密切合作,为期三年。 经过三年的研究、实验、开发并与社区分享他们的发现,航海者号将可用于一般科学研究。 Nguyen 的工作是运行这些早期实验项目的众多学科之一。 其他包括生物学、遗传学、材料科学、大气和天文科学以及高能物理学。

“我们将构建和测试算法,优化它们,并为社区贡献我们从 Voyager 及其技术中学到的东西,”Majumdar 说。

从 GPU 到 TPU

许多数据科学家使用 DL 框架(如 PyTorch 和 TensorFlow)创建他们的算法以在 GPU 上运行。 根据 Lansing 的说法,该公司的软件堆栈和应用程序套件旨在简化新模型的开发和构建,或简化从现有基于 GPU 的深度学习和推理架构到 Gaudi 和 Goya 的迁移。 Habana Labs 软件套件与 TensorFlow 和 PyTorch 框架集成,并针对 Gaudi 训练和 Goya 推理部署进行了性能优化。 虽然 Voyager 正在为其前三年的实验做好准备,但 SDSC 已经可以访问 Habana Labs 的基于 Gaudi 的测试集群。 这种访问有助于简化向 Voyager 的迁移。

“科学家们并没有为 Habana Labs 的技术做任何特别的事情,”Majumdar 评论道。 “他们能够运行他们的 TensorFlow 应用程序,基本上没有任何改变。 他们的代码只需要调整与系统相关的参数。”

Nguyen 已经开始在 Habana Labs 集群上运行她的一些代码,并希望她的算法能够轻松迁移到 Voyager。

“在大多数情况下,调整我的深度学习代码以在 Habana 系统上运行很简单,”她总结道。 “这对于像我这样的研究人员的采用和易用性很重要。”

据 Majumdar 称,Voyager 引起了科学界的极大兴趣。

“航海者号现已部署完毕。 我们正在做初步的基准测试。 许多科学家已准备好在新系统上工作并等待时间,”他总结道。

Ken Strandberg 是一位技术讲故事的人。 他为新兴技术公司、财富 100 强企业和跨国公司撰写文章、白皮书、研讨会、基于网络的培训、视频和动画脚本以及技术营销和互动宣传资料。