|
|
过去很多年,半导体行业拼的核心,一直是谁能把晶体管做得更小。
但这两年我越来越明显地感受到,AI时代真正“失控”的,其实已经不是Compute,而是Memory。因为当大模型开始进入长上下文、多模态、Reasoning阶段之后,GPU再强,也会被内存带宽、KV Cache和数据搬运拖住。尤其是HBM越来越贵、功耗越来越高之后,整个行业突然发现:未来真正决定AI上限的,已经不只是GPU,而是谁能把“Memory系统”做得更聪明。
而这份报告最值得看的地方就在于,它第一次非常系统地讲透了:未来AI内存架构不会只有HBM一种答案,而是SRAM、eDRAM、MRAM、FeRAM、CXL、3D封装、Hybrid Bonding,甚至光互连一起协同演进。某种意义上,AI时代已经正式从“算力竞争”,进入“内存与互连竞争”。
一、这份材料真正想说明什么?
AI时代真正的核心矛盾,已经从“算力不足”转向“内存与带宽不足”,而未来半导体行业的核心任务,就是围绕“Memory”做跨技术协同优化(XTCO)。
整份内容其实是在回答一个问题:当AI模型越来越大、KV Cache越来越夸张、HBM越来越贵之后,未来内存系统到底该怎么演进?
二、AI正在把整个半导体行业变成“Memory-driven”
文档一开始就强调:未来十年AI会成为半导体行业最核心增长引擎。但问题是:AI性能增长速度,已经远远超过Memory的发展速度。尤其是:LLM推理KV Cache长上下文多模态Reasoning模型开始疯狂吞噬:内存 容量 带宽 功耗
文档指出:推理(Inference)本质是:“Memory bandwidth hungry”(极度依赖内存带宽)因为:训练更偏GEMM,而推理更偏GEMV。GEMV运算的特点是:算力利用率低数据搬运巨大KV Cache持续增长所以:未来AI真正瓶颈不是Compute,而是Memory System。
三、数据搬运成本,已经成为AI最大能耗来源
这是全文最核心的逻辑之一。报告给出了一组非常关键的数据:在5nm工艺下,小SRAM访问能耗 = 1 ,大SRAM = 150倍 HBM3E = 600倍 DDR5 = 2000倍 也就是说:“数据搬得越远,能耗越恐怖。” 所以未来最重要的事情就是:尽可能把数据留在本地(Stay Local)。这也是为什么:3D Integration ,Hybrid Bonding ,Near-memory ,In-memory ,On-chip ,SRAM ,eDRAM会突然变得极其重要,文档甚至明确写到:3D Integration是实现高能效Memory系统的关键。
四、HBM虽然强,但已经开始暴露巨大问题
文档对HBM的态度非常有意思:一方面,HBM仍然是AI时代最重要的高带宽内存。比如:HBM4已经做到2048 I/O 3.3TB/s 36GB容量 ,但另一方面,明确提出“Curse of HBM”(HBM的诅咒)因为HBM开始出现:功耗爆炸,热密度过高,良率压力,成本太贵,封装面积失控。文档提到:HBM虽然比LPDDR带宽高20倍,但成本贵5~10倍。因此未来行业不会只靠HBM,而是会形成“分层内存体系”。即:热数据 → HBM Warm数据 → HBS 冷数据 → SSD/CXL
五、未来Memory会进入“异构混合时代”
全文最大的重点,其实是:不同Memory技术会开始共存。报告认为未来不存在“唯一赢家”。而是:SRAM、eDRAM、MRAM、FeRAM、DRAM、HBM、NAND会分别承担不同角色。
SRAM负责:最低延迟最关键Cache但SRAM面积与功耗已经越来越难缩放。
eDRAM:eDRAM可能重新崛起。因为IGZO-based eDRAM:密度更高泄漏更低成本更低适合作为:Global Buffer ,LLC ,Activation Memory
MRAM: MRAM被认为:适合低功耗非易失In-memory Computing但目前仍然受限制:写入能耗,Selector,密度
FeRAM / FeFET重点方向是:Non-destructive Read ,高密度 ,低功耗 ,AI Edge
六、未来AI封装会进入“3D Memory时代”
这是全文最重要的产业趋势之一。文档认为:未来AI系统会从2.5D HBM逐渐进入3D HBM-on-GPU时代。也就是:HBM直接堆在GPU上。关键技术包括:Hybrid Bonding Active Interposer ,Glass Interposer ,Panel-level Packaging ,Wafer-scale Integration因为未来:Memory与Compute之间的距离,必须继续缩短。
七、未来AI互连会全面“光学化”
文档最后进一步提出:当GPU规模越来越大,传统电互连已经开始不够。所以:未来会进入Optical Interconnect时代。包括:GPU-EIC-PIC 3D Stack ,Optical Interposer ,Wafer-scale Optical Fabric甚至单个XPU未来可能访问4倍HBM资源。
八、核心洞察
整份文档其实一直在强调:过去几十年,半导体行业核心是Logic Scaling。但未来AI时代,核心会变成,“Memory + Bandwidth + Interconnect Co-Optimization”。也就是说:未来真正决定AI性能上限的,已经不只是GPU制程而是:Memory架构 ,数据搬运效率 ,3D封装 ,Hybrid Bonding ,Optical Interconnect ,CXL ,系统级协同优化
|
|