首页分享【光电共封CPO】打破AI扩展瓶颈：Celestial AI在万亿参数时代的光学互连革新

【光电共封CPO】打破AI扩展瓶颈：Celestial AI在万亿参数时代的光学互连革新

来源：花匠小妙招时间：2025-11-28 11:05

【湾芯展推荐】本文涉及的相关厂商：Celestial AI、Nvidia、TSMC

大模型的瓶颈从算力到互联

互联通信和浮点数计算本来就是两个学科，在AI模型发展初期业界一直着眼于提升算力，电子芯片组和铜缆互联架构一直以算力为中心，例如Intel、Google等云服务商都是堆算力。而如今AI模型以前所未有的速度从数十亿扩展到数十万亿参数，传统的电子互连架构已经成为 AI 大规模算力机组的瓶颈，尤其是在内存墙和数据传输效率上。

Celestial AI 是一家位于加利福尼亚州圣克拉拉的硅谷初创公司，致力于开发光互连平台 Photonic Fabric，该平台旨在解决当今 AI 计算架构中的“内存墙”瓶颈。通过利用光互连，Celestial AI 提供了高带宽、低延迟和低功耗的解决方案，支持 AI 加速器从芯片内到多机架部署的扩展。

面对巨量参数的AI大模型架构，参数化的数据在内存中已经“爆量”，内存墙已成为系统性能扩展的最大障碍，由于算力单元（CPU、NPU等）和内存（DDR、HBM）数据访问速度严重不匹配。在参数规模较小时，尚可以通过堆硬件来缓解；但是随着模型的参数膨胀到数十万亿时，算力单元的计算能力被低内存带宽和高延迟所严重拖累，系统的效率大打折扣。Celestial AI 和行业其他专注于互联的公司一样，其Photonic Fabric光互联平台着眼于解决计算和内存之间的瓶颈，目前已经完成了多轮融资，共筹集超过 5.15 亿美元，这些核心投资者包括：

Fidelity Management & Research Company：在 2025 年 3 月领投了 2.5 亿美元的 C1 轮融资，使 Celestial AI 的估值达到 25 亿美元。

BlackRock：作为全球最大的资产管理公司之一；其也参与了 C1 轮融

Maverick Silicon：专注于先进半导体技术的公司；加入了 C1 轮融资。

Tiger Global Management：全球知名的投资公司；参与了 C1 轮融资。

Lip-Bu Tan：Cadence 前首席执行官，现任英特尔首席执行官；个人参与了 C1 轮融资。

AMD Ventures：AMD 的企业风险投资部门；一直是 Celestial AI 的坚定支持者。

Koch Disruptive Technologies (KDT)：科氏工业集团的创新投资部门；参与了多轮融资。

Temasek Holdings 及其子公司 Xora Innovation：新加坡主权财富基金及其创新部门；参与了多轮融资。

Porsche Automobil Holding SE：德国汽车巨头；在多轮融资中进行了投资。

The Engine Ventures：由麻省理工学院孵化的风险投资公司；参与了多轮融资。

Samsung Catalyst Fund：三星的创新投资部门；参与了多轮融资。

M Ventures：默克集团的风险投资部门；在多轮融资中积极参与。

Tyche Partners：专注于深度技术的风险投资公司；参与了多轮融资。

纵观这些核心投资者诸如AMD、Samsung、Maverick等业界知名的半导体公司，在提供资金的同时，还提供了宝贵的战略资源和行业联系，进一步加速了 Celestial AI 在光互连技术方面的创新和商业化。Celestial AI首席执行官 David Lazovsky评论称：“AI 基础设施正在从单个 XPU 向机架间数千个相互连接的处理器演变，为了解决传统电子互联架构的“内存墙”瓶颈，Photonic Fabric 是唯一能够同时解决带宽、延迟、能效和总拥有成本（TCO）挑战的全栈平台。不单单是一种光电共封（CPO）解决方案，更是为未来 AI 系统架构量身定制的全栈光学平台。它在能效、可扩展性、模块化设计以及对大规模 AI 推理的支持方面的优势，使其有潜力重塑行业格局。

Celestial AI的破局三件套

算力“内存墙”的其实本质上是三个部分，分别是：“容量墙”，“带宽墙”和“功耗墙”。

“容量墙”：据业界统计，在十万亿参数时代，GPU 40% 时间在“空转”，单卡 HBM3e 封顶 141 GB，要装下 32 TB 模型需 228 张 H100，显存利用率却不足 60%——因为模型并行切分后，每个 GPU 只用到局部数据，所以显存容量实际上不是不够，而是不合理。

“带宽墙”：现在主流协议NVLink 4.0 带宽900GB/s，而HBM3e理论带宽为3.2TB/s，通常稳定传输取理论峰值带宽的一半，NVLink互联也只有内存峰值的50%，Meta的内部研究论文表明，目前在LLM推理模型中美伦训练的25%时间花费在等待权重数据搬运上。

“成本墙”：算力机组疯狂堆硬件，8卡H100的服务器换为16卡，NVSwitch+SerDes 功耗从 650 W 涨到 1.4 kW，整机效率 40% 花在“搬数据”而非“算数据”，也就是说堆砌GPU带来的边际收益越来越小，总体效用比却越来越低。

早在2024年的OFC上，Celestial AI 展示了其Photonic Fabric platform，该平台利用GeSi-EAMs取代了主流的MZMs+MRMs硅光调制法，其独有的GeSi（锗硅）-EAMs（电吸收调制器）技术加上先进封装，实现了行业领先的 14.4 TB/s的芯片间互联带宽，远超主流的NVLink和PCIe，此外该平台不仅能够实现数千个 XPU 的大规模扩展，还集成了 HBM3e 和 DDR5，形成了高达32TB的内存共享池，突破了传统超算机组内存配置的天花板。具体详解Celestial AI这种开创性的解决方案：通过光互联组织架构，将内存与计算单元解耦，从底层重塑和AI系统互联：

解耦内存与GPU封装限制：使得不再受限于单个GPU卡上的HBM容量，光互联架构使得GPU可以与外部共享HBM集群互联-通过构建容量高达32TB的共享内存池与GPU通信的高速通道，实现内存和GPU的近距离独享的解耦。

超高带宽光学互连（PFLink/PFSwitch）：支持每通道 28.8 太比特每秒的带宽，远远超过 NVLink 或 PCIe，同时将延迟大幅降低到 150 纳秒范围。

动态资源调度和内存虚拟化：允许 XPU 集群实时访问远程内存，极大地提高了资源利用率。

总结下来这套互联方案拥有：

芯片组间互联带宽为现阶段主流方案的30x倍

延迟和功耗降低了10x倍

拥有卓越的热稳定性，可无需DSP在高 TDP ASIC 上直接部署

完全兼容当前的 2.5D/3D 封装工艺和标准互连协议，如 CXL 和 PCIe

总结下Photonic Fabric Platform核心参数:

16个Photonic Fabric Modules构成一个完整的PFA，为XPU集群提供32TB的共享内存池和高达256个光互联接口。

GeSi-EAMs驱动PFA实现56GB/s的NZR信令，驱动电压仅为1.8v，通过良好的芯片和封装设计达到同时拥有高带宽密度、卓越的热稳定性和低功耗的优势。

此外每个PFA模块仅有150ns的传输延迟，能效低至每比特几皮焦pJ/bit。实际基准测试显示，与使用 NVLink 的 GPU 系统相比，推理吞吐量提高了 22 倍以上。

采用HBM+DDR5混合共享内存池，取代单HBM堆叠方案，每个 PFA 模块集成了两个 HBM3e 堆栈和四个 DDR5 DIMM 通道，通过超高速光互联系统外联到XPU池，具备8TB/s互联能力。

OMIB是Celestial AI 克服异构芯片间封装中带宽和热挑战的先进解决方案，集成了GeSi-EAMs和低功耗接收器（包括TIA和前端模拟均衡器）提供超过14.4TB/s片间带宽，单通道支持56-112GB/s的NRZ或PAM4信令，可在高TDP ASIC封装中无热调谐运行，且优于传统MRM调制器。

Celestial AI 将其称为：增强版 Grace-Hopper-一种比NvidiaGrace-Hopper 更灵活且更具成本效益的架构，还不用为系统集成额外资本支出。Celestial AI 的PFP不仅解决了传统封装和内存架构的带宽和延迟瓶颈，还将 XPU 与 HBM/DDR 内存资源解耦、实施光学互连以及引入多级连接和分布式内存池化等突破性操作，可以说这种范式转变的方法有可能重新定义未来 AI 计算中心的架构。

革新、资本与超车路线

Celestial AI将互联体系技术纵深，将光传输做成一个整体系统，从材料端入手用GeSi-EAMs代替硅光MRM，省去高功耗驱动；与 TSMC 共建“光电 CoWoS”封装，4 nm CMOS 制程做 Driver/TIA，3D堆叠PIC和EIC封装；系统端建立高速共享CXL + DDR5 + HBM3e 融合内存池，其DDR5每GB价格为HBM3e 1/8，TCO降低35%。

Celestial AI并且吸引来一众资本竞相押注，AMD和Intel急需打破Nvidia的 NVLink封闭圈，将自家的算力芯片延伸到全新的光域互联，三星HBM和DDR产能全球第一，需要Celestial AI内存池扩大一商业模式；淡马锡、BlackRock、默克集团则更希望押注全新领先时代的技术获得超额回报。从其融资路线不难看出“先验证技术，再绑定客户，最后让金融巨头抬估值”，典型的深科技资本打法。

反观国内GPU和光互联公司独立且分散，缺少类似于Celestial AI系统整合的公司，如若设想可以从以下几个方面实现光互联的“超车”：

封装端：可以整合长江电子、通富微电的CoWoS、2.5D和3D封装量产能力

光芯片端：天孚通信、仕佳光子等开发铌酸锂或者GeSi外延光芯片

材料端：中电科所具备一定的GeSi外延片量产能力，急需商业化产能提升。

系统端：目前华为、中兴在光通信领域实力强劲，可以大力拓展其光域能力

资本和政策端：需要类似于Celestial AI“巨头探路，资本搭台，科技唱戏”的组合打法，例如由阿里、腾讯算力巨头领头风投，科创板+地方融资加码孵化技术，最终实现“技术验证，客户绑定，上市抬估值扩大市占并出海”的模式。

结语

Celestial AI 的PFP告诉业界Nvidia巨头的NVLink并非高不可攀，万亿参数的大模型内存墙的瓶颈可以通过系统来解决，GeSi+光互联+内存池这一全新架构正在悄然改变整个算力机组领域，而我国电子产业虽存在差距，可是在光电产业有着不小的超车机会。在芯片行业一句话：要不点着别人的电灯泡交着专利费，要不就从火把开始研发，一直到拥有自己的光束，来照亮自己未来的路。

*参考资料

1.《Beyond NVLink Celestial AI Photonic Interconnect》

2.Nvidia

3.Celestial AI

人工客服
（售后/吐槽/合作/交友）