【光电共封CPO】打破AI扩展瓶颈:Celestial AI在万亿参数时代的光学互连革新
【湾芯展推荐】本文涉及的相关厂商:Celestial AI、Nvidia、TSMC
大模型的瓶颈从算力到互联
互联通信和浮点数计算本来就是两个学科,在AI模型发展初期业界一直着眼于提升算力,电子芯片组和铜缆互联架构一直以算力为中心,例如Intel、Google等云服务商都是堆算力。而如今AI模型以前所未有的速度从数十亿扩展到数十万亿参数,传统的电子互连架构已经成为 AI 大规模算力机组的瓶颈,尤其是在内存墙和数据传输效率上。
Celestial AI 是一家位于加利福尼亚州圣克拉拉的硅谷初创公司,致力于开发光互连平台 Photonic Fabric,该平台旨在解决当今 AI 计算架构中的“内存墙”瓶颈。通过利用光互连,Celestial AI 提供了高带宽、低延迟和低功耗的解决方案,支持 AI 加速器从芯片内到多机架部署的扩展。
面对巨量参数的AI大模型架构,参数化的数据在内存中已经“爆量”,内存墙已成为系统性能扩展的最大障碍,由于算力单元(CPU、NPU等)和内存(DDR、HBM)数据访问速度严重不匹配。在参数规模较小时,尚可以通过堆硬件来缓解;但是随着模型的参数膨胀到数十万亿时,算力单元的计算能力被低内存带宽和高延迟所严重拖累,系统的效率大打折扣。Celestial AI 和行业其他专注于互联的公司一样,其Photonic Fabric光互联平台着眼于解决计算和内存之间的瓶颈,目前已经完成了多轮融资,共筹集超过 5.15 亿美元,这些核心投资者包括:
Fidelity Management & Research Company:在 2025 年 3 月领投了 2.5 亿美元的 C1 轮融资,使 Celestial AI 的估值达到 25 亿美元。
BlackRock:作为全球最大的资产管理公司之一;其也参与了 C1 轮融
Maverick Silicon:专注于先进半导体技术的公司;加入了 C1 轮融资。
Tiger Global Management:全球知名的投资公司;参与了 C1 轮融资。
Lip-Bu Tan:Cadence 前首席执行官,现任英特尔首席执行官;个人参与了 C1 轮融资。
AMD Ventures:AMD 的企业风险投资部门;一直是 Celestial AI 的坚定支持者。
Koch Disruptive Technologies (KDT):科氏工业集团的创新投资部门;参与了多轮融资。
Temasek Holdings 及其子公司 Xora Innovation:新加坡主权财富基金及其创新部门;参与了多轮融资。
Porsche Automobil Holding SE:德国汽车巨头;在多轮融资中进行了投资。
The Engine Ventures:由麻省理工学院孵化的风险投资公司;参与了多轮融资。
Samsung Catalyst Fund:三星的创新投资部门;参与了多轮融资。
M Ventures:默克集团的风险投资部门;在多轮融资中积极参与。
Tyche Partners:专注于深度技术的风险投资公司;参与了多轮融资。
纵观这些核心投资者诸如AMD、Samsung、Maverick等业界知名的半导体公司,在提供资金的同时,还提供了宝贵的战略资源和行业联系,进一步加速了 Celestial AI 在光互连技术方面的创新和商业化。Celestial AI首席执行官 David Lazovsky评论称:“AI 基础设施正在从单个 XPU 向机架间数千个相互连接的处理器演变,为了解决传统电子互联架构的“内存墙”瓶颈,Photonic Fabric 是唯一能够同时解决带宽、延迟、能效和总拥有成本(TCO)挑战的全栈平台。不单单是一种光电共封(CPO)解决方案,更是为未来 AI 系统架构量身定制的全栈光学平台。它在能效、可扩展性、模块化设计以及对大规模 AI 推理的支持方面的优势,使其有潜力重塑行业格局。
Celestial AI的破局三件套
算力“内存墙”的其实本质上是三个部分,分别是:“容量墙”,“带宽墙”和“功耗墙”。
“容量墙”:据业界统计,在十万亿参数时代,GPU 40% 时间在“空转”,单卡 HBM3e 封顶 141 GB,要装下 32 TB 模型需 228 张 H100,显存利用率却不足 60%——因为模型并行切分后,每个 GPU 只用到局部数据,所以显存容量实际上不是不够,而是不合理。
“带宽墙”:现在主流协议NVLink 4.0 带宽900GB/s,而HBM3e理论带宽为3.2TB/s,通常稳定传输取理论峰值带宽的一半,NVLink互联也只有内存峰值的50%,Meta的内部研究论文表明,目前在LLM推理模型中美伦训练的25%时间花费在等待权重数据搬运上。
“成本墙”:算力机组疯狂堆硬件,8卡H100的服务器换为16卡,NVSwitch+SerDes 功耗从 650 W 涨到 1.4 kW,整机效率 40% 花在“搬数据”而非“算数据”,也就是说堆砌GPU带来的边际收益越来越小,总体效用比却越来越低。
早在2024年的OFC上,Celestial AI 展示了其Photonic Fabric platform,该平台利用GeSi-EAMs取代了主流的MZMs+MRMs硅光调制法,其独有的GeSi(锗硅)-EAMs(电吸收调制器)技术加上先进封装,实现了行业领先的 14.4 TB/s的芯片间互联带宽,远超主流的NVLink和PCIe,此外该平台不仅能够实现数千个 XPU 的大规模扩展,还集成了 HBM3e 和 DDR5,形成了高达32TB的内存共享池,突破了传统超算机组内存配置的天花板。具体详解Celestial AI这种开创性的解决方案:通过光互联组织架构,将内存与计算单元解耦,从底层重塑和AI系统互联:
解耦内存与GPU封装限制:使得不再受限于单个GPU卡上的HBM容量,光互联架构使得GPU可以与外部共享HBM集群互联-通过构建容量高达32TB的共享内存池与GPU通信的高速通道,实现内存和GPU的近距离独享的解耦。
超高带宽光学互连(PFLink/PFSwitch):支持每通道 28.8 太比特每秒的带宽,远远超过 NVLink 或 PCIe,同时将延迟大幅降低到 150 纳秒范围。
动态资源调度和内存虚拟化:允许 XPU 集群实时访问远程内存,极大地提高了资源利用率。
总结下来这套互联方案拥有:
芯片组间互联带宽为现阶段主流方案的30x倍
延迟和功耗降低了10x倍
拥有卓越的热稳定性,可无需DSP在高 TDP ASIC 上直接部署
完全兼容当前的 2.5D/3D 封装工艺和标准互连协议,如 CXL 和 PCIe
总结下Photonic Fabric Platform核心参数:
16个Photonic Fabric Modules构成一个完整的PFA,为XPU集群提供32TB的共享内存池和高达256个光互联接口。
GeSi-EAMs驱动PFA实现56GB/s的NZR信令,驱动电压仅为1.8v,通过良好的芯片和封装设计达到同时拥有高带宽密度、卓越的热稳定性和低功耗的优势。
此外每个PFA模块仅有150ns的传输延迟,能效低至每比特几皮焦pJ/bit。实际基准测试显示,与使用 NVLink 的 GPU 系统相比,推理吞吐量提高了 22 倍以上。
采用HBM+DDR5混合共享内存池,取代单HBM堆叠方案,每个 PFA 模块集成了两个 HBM3e 堆栈和四个 DDR5 DIMM 通道,通过超高速光互联系统外联到XPU池,具备8TB/s互联能力。
OMIB是Celestial AI 克服异构芯片间封装中带宽和热挑战的先进解决方案,集成了GeSi-EAMs和低功耗接收器(包括TIA和前端模拟均衡器)提供超过14.4TB/s片间带宽,单通道支持56-112GB/s的NRZ或PAM4信令,可在高TDP ASIC封装中无热调谐运行,且优于传统MRM调制器。
Celestial AI 将其称为:增强版 Grace-Hopper-一种比NvidiaGrace-Hopper 更灵活且更具成本效益的架构,还不用为系统集成额外资本支出。Celestial AI 的PFP不仅解决了传统封装和内存架构的带宽和延迟瓶颈,还将 XPU 与 HBM/DDR 内存资源解耦、实施光学互连以及引入多级连接和分布式内存池化等突破性操作,可以说这种范式转变的方法有可能重新定义未来 AI 计算中心的架构。
革新、资本与超车路线
Celestial AI将互联体系技术纵深,将光传输做成一个整体系统,从材料端入手用GeSi-EAMs代替硅光MRM,省去高功耗驱动;与 TSMC 共建“光电 CoWoS”封装,4 nm CMOS 制程做 Driver/TIA,3D堆叠PIC和EIC封装;系统端建立高速共享CXL + DDR5 + HBM3e 融合内存池,其DDR5每GB价格为HBM3e 1/8,TCO降低35%。
Celestial AI并且吸引来一众资本竞相押注,AMD和Intel急需打破Nvidia的 NVLink封闭圈,将自家的算力芯片延伸到全新的光域互联,三星HBM和DDR产能全球第一,需要Celestial AI内存池扩大一商业模式;淡马锡、BlackRock、默克集团则更希望押注全新领先时代的技术获得超额回报。从其融资路线不难看出“先验证技术,再绑定客户,最后让金融巨头抬估值”,典型的深科技资本打法。
反观国内GPU和光互联公司独立且分散,缺少类似于Celestial AI系统整合的公司,如若设想可以从以下几个方面实现光互联的“超车”:
封装端:可以整合长江电子、通富微电的CoWoS、2.5D和3D封装量产能力
光芯片端:天孚通信、仕佳光子等开发铌酸锂或者GeSi外延光芯片
材料端:中电科所具备一定的GeSi外延片量产能力,急需商业化产能提升。
系统端:目前华为、中兴在光通信领域实力强劲,可以大力拓展其光域能力
资本和政策端:需要类似于Celestial AI“巨头探路,资本搭台,科技唱戏”的组合打法,例如由阿里、腾讯算力巨头领头风投,科创板+地方融资加码孵化技术,最终实现“技术验证,客户绑定,上市抬估值扩大市占并出海”的模式。
结语
Celestial AI 的PFP告诉业界Nvidia巨头的NVLink并非高不可攀,万亿参数的大模型内存墙的瓶颈可以通过系统来解决,GeSi+光互联+内存池这一全新架构正在悄然改变整个算力机组领域,而我国电子产业虽存在差距,可是在光电产业有着不小的超车机会。在芯片行业一句话:要不点着别人的电灯泡交着专利费,要不就从火把开始研发,一直到拥有自己的光束,来照亮自己未来的路。
*参考资料
1.《Beyond NVLink Celestial AI Photonic Interconnect》
2.Nvidia
3.Celestial AI
版权声明:与非网经原作者授权转载,版权属于原作者。文章观点仅代表作者本人,不代表与非网立场。文章及其配图仅供工程师学习之用,如有侵权或者其他问题,请联系本站作侵删。侵权投诉
人工客服
(售后/吐槽/合作/交友)
相关知识
光电共封装(CPO)商业化应用进程加快 未来行业发展空间广阔
浪潮信息刷新AI推理天花板!智能体产业化竞赛给出高分答卷,8.9毫秒Token生成速度、1元/百万Token
CPO反弹!通信设备爆发,还能上车吗?
机构密集调研AI眼镜概念股 一、机构密集调研AI眼镜概念股!本月接待量居前热门股名单来了 AI眼镜概念股爆发,截至周五收盘,预计明年上半年AI眼镜相...
探寻AI时代智慧农业新未来!2024年生物光学与智慧农业国际论坛在广州召开
盘他!风口上的飞猪,富信科技TEC:从CPO到人形机器人,解码热电制冷的“精准温控”新战场
突破瓶颈,打造芯片检测智能工厂
突破瓶颈,河北打造芯片检测智能工厂
恒小花:AI人工智能如何改变未来趋势
新闻纵深·追踪“人工智能+”|突破瓶颈,打造芯片检测智能工厂
网址: 【光电共封CPO】打破AI扩展瓶颈:Celestial AI在万亿参数时代的光学互连革新 https://www.huajiangbk.com/newsview2486967.html
| 上一篇: 什么花先开花再长叶 |
下一篇: 先开花,后长叶的植物是() |
推荐分享
- 1君子兰什么品种最名贵 十大名 4012
- 2世界上最名贵的10种兰花图片 3364
- 3花圈挽联怎么写? 3286
- 4迷信说家里不能放假花 家里摆 1878
- 5香山红叶什么时候红 1493
- 6花的意思,花的解释,花的拼音 1210
- 7教师节送什么花最合适 1167
- 8勿忘我花图片 1103
- 9橄榄枝的象征意义 1093
- 10洛阳的市花 1039
