期刊介绍
期刊导读
下一代旗舰显卡:Radeon RX 7900 XT、GeForce RTX 4090
下一代 AMD RDNA 3 驱动的 Radeon RX 7900 XT 和 NVIDIA Ada Lovelace 驱动的 GeForce RTX 4090 显卡的传闻规格再次详细说明。谣言来自Greymon55,他一直在他的 Twitter 提要上积极发布有关即将推出的硬件(例如 CPU 和 GPU)的详细信息。
AMD RDNA 3 和 NVIDIA Ada Lovelace GPU 驱动的下一代旗舰 Radeon RX 7900 XT 和 GeForce RTX 4090 显卡详解
AMD RDNA 3 驱动的 Navi 31 和 Ada Lovelace 驱动的 AD102 GPU 有望带来巨大的性能提升,也将成为有史以来最耗电的芯片。虽然 NVIDIA 的目标是采用其 Ada Lovelace 架构的整体方法,但 AMD 将利用完整的 MCM 设计,该设计已经在 CDNA 2 驱动的 MI200 系列“Aldebaran”的发布中处于领先地位。AMD 现在将为消费端和游戏 GPU 使用相同的 MCM 技术。那么让我们来谈谈我们从泄密者那里得到的最新传闻规格:
AD102
5nm TSMC144SM CUDA384bit 24G GDDR6X 21Gbps?2.3~2.5GHz?85~92T FP32?-Greymon55 (@greymon55)2021 年 11 月 9 日
AMD Radeon RX 7900 XT 显卡 - RDNA 3 Powered Navi 31 旗舰 GPU
AMD Navi 31 GPU 是旗舰 RDNA 3 芯片,将为下一代 Radeon RX 7900 XT 显卡提供动力。我们听说 AMD 将在其下一代 RDNA 3 GPU 上放弃 CU(计算单元)以支持 WGP(工作组处理器)。由于 Navi 31 是 MCM GPU,它将具有两个关键 IP,一个基于台积电 5nm 工艺的 GCD(图形核心芯片)和一个基于台积电 6nm 工艺节点的 MCD(多缓存芯片)。早前有传言称 AMD已经开发出了其 Navi 31 GPU 芯片。
此处显示的 Navi 31 GPU 配置具有两个 GCD(图形核心芯片)和一个 MCD(多缓存芯片)。每个 GCD 有 3 个着色器引擎(总共 6 个),每个着色器引擎有 2 个着色器阵列(每个 SE 2 个/每个 GCD 6 个/总共 12 个)。每个着色器阵列由 5 个 WGP 组成(每个 SE 10 个/每个 GCD 30 个/总共 60 个),每个 WGP 具有 8 个 SIMD32 单元和 32 个 ALU(每个 SA 40 个 SIMD32/每个 SE 80 个/每个 GCD 240 个/总共 480 个)。这些 SIMD32 单元组合起来构成每个 GCD 7,680 个内核和总共 15,360 个内核。
在性能方面,GPU 预计将具有 2.4 - 2.5 GHz 的时钟速度,这使其理论性能约为 75 TFLOPs (FP32)。与 Radeon RX 6900 XT 显卡相比,这是惊人的 226% 改进。
Navi 31 (RDNA 3) MCD 将通过下一代 Infinity Fabric 互连连接到双 GCD,并具有 256-512 MB 的 Infinity Cache。每个 GPU 还应具有 4 个内存连接链接(32 位)。对于 256 位总线接口,总共有 8 个 32 位内存控制器。据称,该卡将配备高达 32 GB 的 GDDR6 内存,以 18 Gbps 的引脚速度运行,并提供高达 576 GB/s 的带宽。最近出现的另一个传言表明,AMD将在其 RDNA 3 产品线中使用 3D Infinity Cache 技术,该技术将在 GPU 上的垂直堆栈中集成新缓存,类似于Vermeer-X 芯片将 L3 缓存堆叠在 CCD 上的方式。
NVIDIA GeForce RTX 4090 显卡 - Ada Lovelace 供电 AD102 旗舰 GPU
根据之前的传闻,有传言称 NVIDIA 将在其 Ada Lovelace GPU 上使用台积电的 N5 (5nm) 工艺节点。这也包括 AD102 SKU,它将是一个完全单体设计。在他关于特定 GPU 配置的最新推文中,据说 AD102 GPU 的时钟速度高达 2.5 GHz(平均提升 2.3 GHz)。这条特定的推文指出,Ada Lovelace 'AD102' 的 GPU 时钟可能是 2.3 GHz 或更高,所以让我们将其作为基线和之前泄露的规格,以确定性能应该在哪里。
NVIDIA AD102“ADA GPU”似乎有 个 CUDA 核心,基于初步规格(可以更改),安装在 144 个 SM 单元内。这几乎是 Ampere 中核心的两倍,而 Ampere 已经是 Turing 的一大进步。2.3-2.5 GHz 的时钟速度将为我们提供高达 85 到 92 TFLOP 的计算性能 (FP32)。这是现有 RTX 3090 FP32 性能的两倍多,后者包含 36 TFLOP 的 FP32 计算能力。
150% 的性能提升看起来很大,但应该记住,NVIDIA 已经在这一代 Ampere 的 FP32 数量上实现了大幅提升。
文章来源:《下一代英才》 网址: http://www.xydbjb.cn/zonghexinwen/2021/1116/2264.html