概况
NVIDIA L40S 加速下一代工作负载,为数据中心赋予出色的 AI 和图形性能的GPU,生成式 AI 正在推动转型变革,为各行各业开辟领域迎来新的机遇。要借助 AI 实现转型,企业需要更多的计算资源、更大的规模和更为广泛的功能来满足不断增长的多种复杂工作负载的需求。
NVIDIA L40S GPU 是一款适用于数据中心的功能强大的通用型 GPU,可为下一代AI 应用提供端到端加速服务 ‒ 从生成式 AI 以及模型训练和推理到 3D 图形、渲染和视频应用。
应用
> 生成式 AI
> 大语言模型 (LLM)
> 训练和推理
> NVIDIA Omniverse™ Enterprise
> 渲染和 3D 图形
> 串流和视频内容
特性
第四代 Tensor Core
针对结构化稀疏和优化的 TF32 格式提供硬件支持, 为 AI 和数据科学模型训练提供开箱即得的性能提升。可利用 DLSS 技术加速 AI 增强型图形功能,从而在特定应用中提供更高的分辨率和更出色的性能。
第三代 RT Core
增加的吞吐量以及并发光线追踪和着色功能可提升光线追踪性能,从而加快产品设计以及建筑、工程和施工工作流程的渲染。借助硬件加速的动态模糊和令人惊叹的实时动画,查看逼真的设计。
Transformer 引擎
Transformer 引擎可显著加速 AI 性能,并提高训练和推理的显存利用率。凭借 Ada Lovelace 第四代 Tensor Cores 的强大功能,Transformer 引擎可以智能扫描Transformer 架构神经网络的各个层,并在 FP8 和 FP16 精度之间自动重铸,从而提供更快的 AI 性能并加速训练和推理
数据中心就绪
NVIDIA L40S GPU 针对全天候企业数据中心运营进行了优化,并由 NVIDIA 提供设计、构建、测试和支持,以确保更大限度地实现出色的性能、耐用性和正常运行时间。NVIDIA L40S GPU 符合最新的数据中心标准,支持网络设备构建系统 (NEBS) 3 级标准,并采用了信任根技术的安全启动功能,可为数据中心提供额外的安全保护层
规格
*采用稀疏技术
规格
GPU 架构 | NVIDIA Ada Lovelace 架构 |
GPU 显存 | 带有 ECC 的 48GB GDDR6 |
显存带宽 | 864Gb/s |
互联接口 | PCIe 4.0x16:64Gb/s 双向 |
基于 NVIDIA Ada Lovelace 架构的
CUDA Core 核心
|
18,176 |
NVIDIA 第三代 RT Core | 142 |
NVIDIA 第四代 Tensor Core | 568 |
RT Core 性能 TFLOPS | 209 |
FP32 TFLOPS 单精度浮点运算能力 | 91.6 |
TF32 Tensor Core TFLOPS | 183 I 366* |
Bfloat16 浮点运算性能 Tensor Core TFLOPS | 362.05 I 733* |
FP16 Tensor Core | 362.05 I 733* |
FP8 Tensor Core | 733 I 1,466* |
INT8 Tensor TOPS 峰值
INT4 Tensor TOPS 峰值
|
733 I 1,466*
733 I 1,466*
|
外形规格 | 4.4"(高)x 10.5"(长)- 双插槽 |
显示端口 | 4 个 DisplayPort 1.4a |
最大功耗 | 350 瓦 |
电源接口 | 16 针 |
散热 | 被动 |
支持虚拟 GPU (vGPU) 软件 | 是 |
支持 vGPU 配置文件 | 请参阅《虚拟 GPU 许可指南》 |
NVENC | NVDEC | 3x | 3x(包含 AV1 编码和解码) |
通过硬件信任根进行安全启动 | 是 |
NEBS Ready | 3 级 |
MIG 支持 | 否 |
NVLink 支持 | 否 |
*采用稀疏技术