美邦天下科技出品
扫描关注微信公众账号

扫一扫微信二维码

产品简介

[ NVIDIA L40S GPU ]

产品方案AI加速平台产品及方案
产品标签
gpu服务器
ai加速卡
gpu加速卡
gpu计算卡
产品方案详情

功能强大的通用型 GPU

NVIDIA L40S GPU 可为您提供突破性的多工作负载性能体验。 精心设计的 L40S GPU 将强大的 AI 计算性能与出色的图形和媒体加速功能相结合,旨在为新一代数据中心工作负载提供支持。从生成式 AI 和大型语言模型(LLM)推理与训练,到 3D 图形、渲染和视频,都能应对自如。AI训练推理性能超过A100/A800。

出色的性能亮点

特性

由 NVIDIA Ada Lovelace 架构提供支持

第四代 Tensor Core

第四代 Tensor Core

针对结构化稀疏和优化的 TF32 格式提供硬件支持,为更快的 AI 和数据科学模型训练提供开箱即得的性能提升。可利用 DLSS 技术加速 AI 增强型图形功能,从而在特定应用中提供更高的分辨率和更出色的性能。

第三代 RT Core

第三代 RT Core

增加的吞吐量以及并发光线追踪和着色功能可提升光线追踪性能,从而加快产品设计以及架构、工程和施工工作流程的渲染。可利用硬件加速的动态模糊技术提供令人惊艳的实时动画效果,以帮助了解逼真设计的实际效果。

NVIDIA CUDA Core 核心

CUDA Core 核心

加速单精度浮点(FP32)吞吐量和更高的能效可显著提升 3D 模型开发和计算机辅助工程(CAE)仿真等工作流程的性能。可使用增强的 16-bit Math Capability(BF16)支持混合精度工作负载。

Transformer 引擎

Transformer 引擎

Transformer 引擎可显著加速 AI 性能,并提高训练和推理的内存利用率。凭借 Ada Lovelace 第四代 Tensor Core 的强大功能,Transformer 引擎可以智能地扫描转换器架构神经网络的各个层,并在 FP8 和 FP16 精度之间自动重铸,从而提供更快的 AI 性能并加速训练和推理。

效率和安全性

效率和安全性

L40S GPU 针对全天候企业数据中心运营进行了优化,经过 NVIDIA 的精心设计、构建、测试和支持,可确保更大限度地提高性能、耐用性和正常运行时间。L40S GPU 符合新数据中心标准,支持网络设备构建系统(NEBS)3 级标准,并且采用了信任根技术实现安全启动,可为数据中心提供额外的安全保护。

NVIDIA DLSS 3

DLSS 3

依靠 NVIDIA DLSS 3 的加持,L40S GPU 可以支持超快渲染和更高帧率,使画面有如行云流水。这项突破性的帧生成技术利用深度学习及 Ada Lovelace 架构和 L40S GPU 中的新一代硬件创新(包括第 4 代 Tensor Core 和光流加速器)来提升渲染性能,在提高每秒帧数(FPS)的同时显著降低延迟。

前沿特性3 生成式AI推理训练 规格参数 产品规格

NVIDIA L40S Specifications

L40S A100 80GB SXM
Best For Universal GPU for Gen AI Highest Perf Multi-Node AI
GPU Architecture NVIDIA Ada Lovelace NVIDIA Ampere
FP64 N/A 9.7 TFLOPS
FP32 91.6 TFLOPS 19.5 TFLOPS
RT Core 212 TFLOPS N/A
TF32 Tensor Core 366 TFLOPS 312 TFLOPS
FP16/BF16 Tensor Core 733 TFLOPS 624 TFLOPS
FP8 Tensor Core 1466 TFLOPS N/A
INT8 Tensor Core 1466 TOPS 1248 TFLOPS
GPU Memory 48 GB GDDR6 80 GB HBM2e
GPU Memory Bandwidth 864 GB/s 2039 GB/s
L2 Cache 96 MB 40 MB
Media Engines 3 NVENC(+AV1)
3 NVDEC
4 NVJPEG
0 NVENC
5 NVDEC
5 NVJPEG
Power Up to 350 W Up to 400 W
Form Factor 2-slot FHFL 8-way HGX
Interconnect PCle Gen4 x 16: 64 GB/s PCle Gen4 x 16: 64 GB/s

NVIDIA L40S for LLM Training

Great solution for fine tuning, training small models and small/mid scale training up to 4K GPU.
Fine-Tuning Existing Models
(Time to Train 860M Tokens)
Expected Speedup w TE/FP8
HGX A100 L40S HGX H100
GPT-40B LoRA (8 GPU) 12 hrs. 1.7x 4.4x
GPT-175B LoRA (64 GPU) 6 hrs. 1.6x 4.3x


Training Small Models
(Time to Train 10B Tokens)
Expected Speedup w TE/FP8
HGX A100 L40S HGX H100
GPT-7B (8 GPU) 12 hrs. 1.7x 4.4x
GPT-13B (8 GPU) 6 hrs. 1.6x 4.3x


Training Foundation Models
(Time to Train 300B Tokens)
Expected Speedup w TE/FP8
HGX A100 L40S HGX H100
GPT-175B (256 GPU) 64 hrs. 1.4x 4.5x
GPT-175B (1K GPU) 16 hrs. 1.3x 4.6x
GPT-175B (4K GPU) 4 hrs. 1.2x 4.1x

训练服务器

PCIE GPU x8 NF5468M7服务器及AI LLaMA训练

训练服务器 LLaMA训练成绩