在 2025 年的 CES 活动上, (NVDA.US)这宣布与联发科合作开发了一款售价 3000 美元的新型台式电脑,该电脑搭载了基于 Arm 的全新精简版 Grace CPU 和 Blackwell GPU 超级芯片。新系统名为“Project DIGITS”(不要与 Nvidia 的深度学习 GPU 训练系统:DIGITS混淆)。该平台为 AI 和 HPC 市场提供了一系列新功能。
Project DIGITS 采用具有 20 个 Arm 核心的全新 Nvidia GB10 Grace Blackwell 超级芯片,旨在提供“千万亿次”(FP4 精度)的 GPU-AI 计算性能,用于原型设计、微调和运行大型 AI 模型。(强制性浮点解释器可能在这里有所帮助。)
自 G8x 系列显卡发布(2006 年)以来,Nvidia 一直致力于提供适用于整个 GPU 系列的 CUDA 工具和库。能够使用低成本客户显卡进行 CUDA 开发有助于创建充满活力的应用程序生态系统。由于高性能 GPU 的成本和稀缺性,DIGITS 项目应该能够实现更多基于 LLM 的软件开发。与低成本 GPU 一样,在桌面上运行、配置和微调开放式变压器模型(例如 llama)的能力应该对开发人员具有吸引力。例如,通过提供 128GB 内存,DIGITS 系统将有助于克服许多低成本消费级显卡上的 24GB 限制。
规格不足
新款 GB10 超级芯片采用 Nvidia Blackwell GPU,配备最新一代 CUDA 核心和第五代 Tensor 核心,通过 NVLink-C2C 芯片到芯片互连连接到高性能 Nvidia Grace 类 CPU,其中包括20 个节能的 Arm 核心(十个 Arm Cortex-X925 和十个 Cortex-A725 CPU 核心)。
虽然没有可用的规格,但 GB10 的 GPU 端被认为提供的性能低于Grace-Blackwell GB200。需要明确的是;GB10 不是分档或激光修剪的GB200。GB200超级芯片有 72 个 Arm Neoverse V2 核心和两个 B200 Tensor Core GPU。
DIGITS 系统的定义特征是 CPU 和 GPU 之间统一、一致的内存 128GB(LPDDR5x)。这种内存大小在 GPU 上运行 AI 或 HPC 模型时打破了“GPU 内存障碍”;例如,80GB Nvidia A100 的当前市场价格从 18,000 美元到 20,000 美元不等。有了统一、一致的内存,CPU 和 GPU 之间的 PCIe 传输也被消除了。下图中的渲染表明内存量是固定的,用户无法扩展。该图还表明ConnectX 网络(以太网?)、Wifi、蓝牙和 USB 连接可用。
该系统还提供高达 4TB 的 NVMe 存储。在电源方面,Nvidia 提到了标准电源插座。没有特定的电源要求,但尺寸和设计可能会提供一些线索。首先,与 Mac mini 系统一样,小尺寸(见图 2)表明产生的热量一定不会那么高。其次,根据 CES 展厅的图像,没有风扇通风口或切口。机箱的正面和背面似乎有一种海绵状的材料,可以提供气流,并可能充当整个系统的过滤器。由于散热设计表明功率,功率表明性能,因此 DIGITS 系统可能不是一款为实现最大性能(和功耗)而调整的尖叫器,而是一款具有优化内存架构的凉爽、安静、高效的 AI 桌面系统。
如上所述,该系统非常小。下图提供了一些键盘和显示器的视角(没有显示电缆。根据我们的经验,其中一些小型系统可能会因电缆重量而从桌面上拉下来。)
桌面上的人工智能
Nvidia 报告称,开发人员可以运行多达 2000 亿个参数的大型语言模型,以增强 AI 创新。此外,使用 Nvidia ConnectX 网络,两台 Project DIGITS AI 超级计算机可以连接起来,运行多达 4050 亿个参数的模型。借助 Project DIGITS,用户可以使用自己的桌面系统开发和运行模型推理,然后在加速云或数据中心基础设施上无缝部署模型。
Nvidia 创始人兼首席执行官黄仁勋表示:“AI 将成为各行各业中每一种应用的主流。借助 Project DIGITS,Grace Blackwell 超级芯片将惠及数百万开发者。将 AI 超级计算机放在每一位数据科学家、AI 研究人员和学生的桌子上,将使他们能够参与并塑造 AI 时代。”
这些系统不适用于训练,而是设计用于在本地运行量化的 LLM(减少模型权重的精度大小)。Nvidia 引用的 1 petaFLOP 性能数字适用于 FP4 精度权重(四位,或 16 个可能的数字)许多模型可以在此级别充分运行,但量化可以增加到 FP8、FP16 或更高,以获得更好的结果,具体取决于模型的大小和可用内存。例如,对 Llama-3-70B 模型使用 FP8 精度权重需要每个参数一个字节或大约 70GB 的内存。将精度减半到 FP4 会将其减少到 35GB 的内存,但增加到 FP32 将需要 140GB,这比 DIGITS 系统提供的内存还要大。
有人用 HPC 集群吗?
可能不为人所知的是,DIGITS 并不是第一款桌边 Nvidia 系统。2024年,GPTshop.ai推出了一款基于 GH200 的桌边系统。HPCwire提供了包括 HPC 基准测试在内的报道。与 DIGITS 项目不同,GPTshop 系统在桌边机箱中提供了 GH200 Grace-Hopper 超级芯片和 GB200 Grace-Blackwell 超级芯片的全部功能。性能的提升也伴随着更高的成本。
将 DIGITS 项目系统用于桌面 HPC 可能是一种有趣的方法。除了运行更大的 AI 模型之外,集成的 CPU-GPU 全局内存对 HPC 应用程序也非常有益。请考虑最近HPCwire 的一篇关于仅在两颗 Xeon 6 Granite Rapids 处理器(无 GPU)上运行的 CFD 应用程序的故事。根据作者 Moritz Lehmann 博士的说法,模拟的促成因素是他能够用于模拟的内存量。
同样,许多 HPC 应用程序不得不想方设法绕过常见 PCIe 连接视频卡的小内存域。使用多张卡或 MPI 有助于扩展应用程序,但 HPC 中最有利的因素始终是更多内存。
当然,需要基准测试来确定 DIGITS 项目是否完全适用于桌面 HPC,但还有另一种可能性:“用这些构建一个 Beowulf 集群”。这句话通常被认为是一个玩笑,但对于 DIGITS 项目来说可能更严肃一些。当然,集群是用服务器和(多个)PCEe 连接的 GPU 卡构建的。然而,一个小型、中等功率、完全集成的全局内存 CPU-GPU 可能会成为更平衡、更有吸引力的集群构建块。还有一个好处:它们已经运行 Linux 并具有内置的 ConnectX 网络。
本文转自“半导体行业观察”微信公众号;智通财经编辑:陈筱亦。
发表评论