产品简介

[ nVidia Tesla V100S GPU加速卡 ]

产品方案•AI加速平台产品及方案

Tesla V100S

NVIDIA^® Tesla^® V100S 是全球最先进的资料中心GPU，专为加速人工智慧，HPC和图形的运算速度而设计。

产品标签: gpu服务器; ai加速卡; gpu加速卡; gpu计算卡

产品方案详情

欢迎进入人工智能时代

发现隐藏在海量数据中的深刻见解或将革新整个行业，从个性化癌症治疗到帮助虚拟个人助手自然交谈和预测下一次超强飓风。

NVIDIA^® V100S Tensor Core 是有史以来极其先进的数据中心 GPU，能加快 AI、高性能计算 (HPC) 和图形技术的发展。其采用 NVIDIA Volta 架构，并带有 16 GB 和 32GB 两种配置，在单个 GPU 中即可提供高达 100 个 CPU 的性能。如今，数据科学家、研究人员和工程师可以减少优化内存使用率的时间，从而将更多时间用于设计下一项 AI 突破性作品。

人工智能训练

从语音识别到训练虚拟个人助理和教会自动驾驶汽车自动驾驶，数据科学家们正利用人工智能解决日益复杂的挑战。解决此类问题需要花大量时间密集训练复杂性飞速增长的深度学习模型。

V100S 拥有 640 个 Tensor 内核，是世界上第一个突破 100 万亿次 (TFLOPS) 深度学习性能障碍的 GPU。新一代 NVIDIA NVLink™ 以高达 300 GB/s 的速度连接多个 V100S GPU，在全球打造出功能极其强大的计算服务器。现在，在之前的系统中需要消耗数周计算资源的人工智能模型在几天内就可以完成训练。随着训练时间的大幅缩短，人工智能现在可以解决各类新型问题。

人工智能推理

为了利用最相关的信息、服务和产品加强人与人之间的联系，超大规模计算公司已经开始采用人工智能。然而，及时满足用户需求是一项困难的挑战。例如，全球最大的超大规模计算公司最近估计，如果每个用户一天仅花费三分钟时间使用其语音识别服务，他们便需要将数据中心的容量翻倍。

我们设计 V100S 就是为了在现有的超大规模服务器机架上提供更高的性能。由于将人工智能作为核心，V100S GPU 可提供比 CPU 服务器高 30 倍的推理性能。这种吞吐量和效率的大幅提升将使人工智能服务的扩展变成现实。

推理吞吐量比CPU服务器高 24 倍

高性能计算 (HPC)

高性能计算是现代科学的基石。从天气预报到发现药物和发现新能源，研究人员使用大型计算系统来模拟和预测我们的世界。人工智能可让研究人员分析大量数据，在仅凭模拟无法完全预测真实世界的情况下快速获取见解，从而扩展了传统的高性能计算。

V100S 的设计能够融合人工智能和高性能计算。它为高性能计算系统提供了一个平台，在用于科学模拟的计算机科学和用于在数据中发现见解的数据科学方面表现优异。通过在一个统一架构内搭配使用 NVIDIA CUDA^® 内核和 Tensor 内核，配备 V100S GPU 的单台服务器可以取代数百台仅配备通用 CPU 的服务器来处理传统的高性能计算和人工智能工作负载。现在，每位研究人员和工程师都可以负担得起使用人工智能超级计算机处理最具挑战性工作的做法。

VOLTA 架构

配备Tesla V100S GPU的单一伺服器，可通过在整合架构内部将CUDA核心与Tensor核心配对后，取代上百部供传统HPC和深度学习使用的市售CPU伺服器。

TENSOR 核心

Tesla V100S配备了640个Tensor核心，可展现120 TeraFLOPS的深度学习效能。相较于NVIDIA Pascal™ GPU，DL训练可达12倍Tensor FLOPS，DL可以能力则可达6倍Tensor FLOPS。

新一代 NVLINK

相较于旧世代，Tesla V100S的NVIDIA NVLink能展现高达2倍的输送量。达到高达300 GB / s的速度，可与最高八部Tesla V100S加速器互连，在单一伺服器上展现最高的应用效能。

最大效率模式

资料中心可利用全新的最大效率模式，在现有的功率分配中，达到每机架提高 40％的运算容量。在此模式中，Tesla V100S会以尖峰处理效率运行，以减半能耗提供高达 80％的效能。

HBM2

Tesla V100S可在结合改良900 GB / s的原始频宽和高达 95％的DRAM使用效率后，在于STREAM上测量般，展现高达1.5倍的Pascal GPU记忆体频宽。

编程能力

Tesla V100S从初始即采用精简编程能力的架构。全新独立执行绪排程是通过由共享小型工作的资源，达到细粒度同步及改善GPU使用率。

Tesla V100S是Tesla运算平台进行深度学习、HPC与绘图的旗舰产品。Tesla平台能为超过450种HPC应用项目及各种主要深度学习架构加速。使用范围从桌上型电脑到服务器，及云端服务，能提供大幅提升效能与节省成本的机会。

产品规格

双精度效能	8.2 teraFLOPS
单精度效能	16.4 teraFLOPS
深度学习效能	130 teraFLOPS
双向互联带宽	PCIE 32 GB/s
GPU 内存显存容量	32 GB HBM2
GPU 内存显存带宽	1134 GB/s
功率最大功耗	250 W