详细解读UCIe 2.0

因为摩尔定律的失效,半导体行业过去多年正在寻找提升芯片性能的方法,而Chiplet正在成为几乎所有巨头的共同目标。然而,因为Chiplet的理念是将芯片的不同功能模块变成一个die,如何保证这些die能够更通用地连接到一起就成为了行业的头等大事。

于是,UCIe( Universal Chiplet Interconnect Express )便顺势成立。据介绍,UCIe是一种开放的行业架构标准,可在不同chiplet之间提供die-to-die之间的接口,解决物理芯片间 I/O 层、芯片间协议和软件堆栈问题。

UCIe 2.0 UCIe为die提供了标准接口

而继之前的UCIe 1.0和UCIe 1.1之后,新的UCIe 2.0标准正式发布。

UCIe 2.0,发布

UCIe联盟日前宣布发布其 2.0 规范。UCIe 2.0 规范增加了对标准化系统架构的支持,以实现可管理性,并全面解决了跨多个chiplets的 SIP 生命周期(从分类到现场管理)的可测试性、可管理性和调试 (DFx) 设计挑战。可选的可管理性功能和 UCIe DFx Architecture (UDA) 的引入,包括每个芯片内的管理结构,用于测试、遥测和调试功能,允许通过灵活统一的 SIP 管理和 DFx 操作方法实现与供应商无关的芯片互操作性。

此外,2.0 规范支持 3D 封装,与 2D 和 2.5D 架构相比,可提供更高的带宽密度和更高的功率效率。UCIe-3D 针对混合键合进行了优化,凸块间距可适用于大至 10-25 微米、小至 1 微米或更小的凸块间距,从而提供灵活性和可扩展性。

另一个功能是针对互操作性和合规性测试优化的封装设计。合规性测试的目标是根据已知良好的参考 UCIe 实现来Device Under Test (DUT) 的主频带支持功能。UCIe 2.0 为物理、适配器和协议合规性测试建立了初始框架。

UCIe 联盟总裁兼三星电子公司副总裁 Cheolmin Park 表示:“UCIe 联盟支持多种芯片,以满足快速变化的半导体行业的需求。UCIe 2.0 规范在之前的版本基础上开发了全面的解决方案堆栈,并鼓励芯片解决方案之间的互操作性。这又是联盟致力于蓬勃发展的开放芯片生态系统的又一例证。”

UCIe 2.0 规范的亮点

  • 全面支持具有多个chiplets的任何系统级封装 (SiP) 结构的可管理性、调试和测试。
  • 支持3D封装,显著提升带宽密度和功率效率。
  • 改进的系统级解决方案,其可管理性被定义为chiplet堆栈的一部分。
  • 针对互操作性和合规性测试优化的封装设计。
  • 完全向后兼容 UCIe 1.1 和 UCIe 1.0。

与此同时,我们也带来了UCIe联盟同步发布的UCIe 2.0白皮书,以飨读者。

以下为白皮书正文

UCIe 2.0 规范:持续创新,推动开放 Chiplet 生态系统

Universal Chiplet Interconnect Express (UCIe) 是一种开放的行业标准互连,可在 Chiplet 之间提供高带宽、低延迟、节能且经济高效的封装内连接。它满足了整个计算领域(涵盖云、边缘、企业、5G、汽车、高性能计算和手持设备)对计算、内存、存储和连接的预计不断增长的需求。UCIe 能够封装来自各种来源的die,包括不同的代工厂、设计和封装技术。

UCIe 2.0 规范涉及两个广泛的领域,以推动蓬勃发展的开放 Chiplet 生态系统。第一个规范以整体方式解决了任何具有多个 Chiplet 的系统级封装 (SiP) 结构中出现的可管理性、调试和测试挑战。该解决方案超越了 UCIe 接口,使用 UCIe 增强功能,以完全向后兼容的方式进行扩展;第二个领域涉及使用混合键合互连等技术(我们将其称为 UCIe-3D)的间距非常细(9 µm 到大约 1 µm,甚至更低)的垂直集成芯片。

在整个芯片生命周期中解决 SiP 级别的可管理性、调试和测试挑战

可测试性、可管理性和调试是需要持续创新的三个主要方面。UCIe 1.0 和 1.1 规范有几种机制来处理互连级别的可管理性和测试/调试/遥测(统称为 DFx)设计的各个方面。示例包括通道裕度(lane margining)、合规性测试、故障报告、边带访问(sideband access)等。然而,在芯片和 SiP 级别仍有许多具有挑战性的问题必须解决,才能实现开放、即插即用的基于chiplet的生态系统的愿景。

UCIe 联盟正在全面解决这些挑战,超越接口级别,解决从die分类、封装/键合到现场级别的挑战——这涵盖整个硅片生命周期,这些增强功能将使我们的成员能够应用这些学习成果并改进上游。

在本文中,我们提供了实现广泛的、即插即用的基于小芯片的生态系统所需克服的挑战的示例。

在分类芯片测试期间,虽然我们可以探测凸块,但无法对微凸块进行探测;尤其是当我们转向 25µ 凸块间距时。因此,我们必须创新,使用其他凸块。同样,我们应该能够在现场无缝管理维修或固件升级。

对于在封装级别可控性和可观察性有限的Chiplet,调试提出了独特的挑战(例如,无法在封装内插入逻辑分析仪或示波器)。行业应如何处理 SiP 中芯片的可管理性?最重要的是,我们如何安全地解决这些问题?一些chiplets可能无法从封装引脚直接访问(见图 1a),这一事实使这些问题变得更加困难。我们还需要处理各种带宽需求。例如,不同的chiplets对扫描链、调试、可管理性等所需的带宽范围不同。

UCIe 2.0

我们对 UCIe 2.0 规范的方法是定义一个通用基础设施,该基础设施可在使用现有 IP 构建块(building blocks )以及封装级别的外部接口的同时解决所有已确定的挑战。我们认为这些功能是互补的,我们的方法适用于现有 IP(甚至非 UCIe IP),并对 UCIe PHY 进行了增强。我们还使用外部封装引脚来访问芯片集,以通过规范中定义的桥接机制进行管理、调试或测试。这些接口和 IP 必须与封装上的 UCIe 2.0 链路无缝协作,以提供所需的外部和内部访问。图 1b 列出了不同接口可用的带宽,为 SiP 设计人员提供了多种选择。

在 UCIe 2.0 规范中,可管理性是可选的。支持的机制包括发现chiplet集及其配置;初始化芯片集结构(initialization of chiplet structures)和参数(即串行 EEPROM 替换);固件下载;电源和热管理;错误报告;遥测;检索日志和崩溃转储信息;测试和调试;启动和报告自检状态;以及芯片安全的各个方面。这些机制利用现有的适用行业标准,并且与chiplets上的底层协议无关。这些机制旨在跨来自不同供应商的chiplet工作,并支持特定于供应商的扩展。这些功能是可发现和可配置的,允许在 SiP 之间快速部署通用固件库。UCIe 可管理性所需的核心功能可以通过硬件和/或固件实现,从而提高灵活性。

UCIe 2.0 可管理性基线架构(manageability baseline architecture,如图 2)定义了一种桥接功能,用于连接到外部接口(例如 SMBus 或 PCIe),从而实现封装外连接。每个chiplet组中的管理结构由多个管理元素组成,其中一个元素充当管理主管,负责发现、配置和协调 SiP 的整体管理,并充当可管理性信任根。

UCIe 管理传输被定义为一种独立于媒体(media-independent)的协议,用于芯片组中管理实体之间以及 SiP 中芯片组之间的通信。安全机制被定义为根据功能提供所需的保护级别。定义了两种管理链路封装机制,以使用边带和主带传输 UCIe 管理传输数据包。UCIe 定义了最多八个独立的虚拟通道来提供服务质量,每个通道都具有有序或无序语义。数据包基于信用(credits)进行交换,信用最初是在链路训练期间协商的。

UCIe 2.0

UCIe DFx 架构 (UDA:UCIe DFx architecture) 包含测试、遥测和调试,并通过管理结构进行覆盖。UDA 基于每个chiplet内的 Hub-Spoke 模型(图 2)。每个chiplet都支持一个 DFx 管理中心 (DMH:DFx Management Hub ),这是一个管理元素,可充当访问芯片内测试、调试和遥测功能的网关。DMH 允许发现这些功能,并将与这些功能相关的管理传输数据包路由到各种连接的 DFx 管理“辐条”(DMS:DFx Management “Spokes” )。辐条(Spokes)是实现给定测试、调试或遥测功能的实体。一些示例包括扫描控制器、MEM BIST、SoC(片上系统)结构调试、跟踪协议引擎、核心调试、遥测等。

UCIe 2.0

架构配置寄存器(图 3)在现有寄存器之上具有 UCIe-wrapper,为软件提供了一个通用框架。对于系统级使用,可以根据 Spoke 的(UCIe 联盟分配的)供应商 ID (VID) 和(供应商分配的)Device ID (DID) 加载特定于供应商的驱动程序以支持每个独特的功能。UDA 的管理数据包可以作为内存访问协议数据包(例如,用于发现chiplet中的 DMH/DMS)和/或以供应商定义的 UCIe DFx 消息格式(例如,用于通过chiplet将调试信号发送到 PCIe 等封装引脚,以便使用逻辑分析仪进行观察)发送。图 4 演示了其他使用模型。

UCIe 2.0

虽然管理数据包可以在现有 UCIe 端口上进行时分复用,但 UCIe 2.0 还提供了添加专用 UCIe-S 端口以实现可管理性和 UDA 功能的额外功能。这些端口可以是简单的边带(sideband),以 4 个凸块或半宽 (x8) 提供 800 Mb/s/方向,或更高,UCIe-S 以 32 GT/s 的速度为每个 x8 提供 256 Gb/s/方向。

垂直集成芯片组可显著提高功率性能,并采用 UCIe-3D

UCIe 联盟于 2022 年 3 月成立,我们发布了定义明确的 UCIe 1.0 规范,解决了平面连接(2D 和 2.5D)问题。我们认识到垂直集成的重要性,并表示我们打算研究 3D 芯片组。UCIe 2.0 规范通过完全定义的规范(涵盖平面和垂直连接)兑现了这一承诺。

十多年来,随着封装内存和计算的商业化,提供垂直连接的 3D 互连芯片组的技术取得了显著进步,证实了需求的存在。现在是时候通过一系列选项来标准化接口,以满足生态系统中的各种需求。

3D 封装技术(例如混合键合 (HB:Hybrid Bonding))的最新趋势是大幅缩Chiplet之间的凸块间距。UCIe-3D 的目标是将凸块间距从 9 µm 缩小到 1 µm,甚至可能更低。3D 互连将Chiplet之间的距离缩小到几乎为 0。因此,互操作性需要限制在相同的凸块间距内。虽然这不是一种广泛的即插即用(即,凸块间距为 1 µm 的芯片只能与凸块间距为 1 µm 的另一个chiplet混合键合,而不能与凸块间距为 9 µm 的chiplet混合键合),但关键性能指标 (KPI:key performance indicator) 的改进(例如带宽密度、功率效率等)是巨大的。如表 1 所示。

UCIe 2.0

UCIe-3D 的第一大优势是带宽密度增加。这是双重优势。首先,减小的凸块间距(从 9 µm 降至 1µm 以下)意味着给定面积的导线数量与平方成反比;例如,将 2.5D 的 25 µm 与 3D 的 5 µm 进行比较,可得出相同面积的导线数量增加 25 倍;其次是面积本身。与 UCIe 2D/2.5D 相比,UCIe-3D 具有真实连接与海岸线消耗的优势。这意味着外围 PHY 上不会浪费任何面积,并且整个芯片组都可用于 3D 连接。

UCIe 2.0

图 5 显示了使用 UCIe-3D 连接的两个Chiplet组和九个片上网络控制器 (NOC)。要获得凸块间距缩放的好处,必须保持相关电路简单,限制凸块。随着带宽密度的增加,无需驱动更高的频率。如表 1 所示,即使在 4 GT/s 频率下,带宽密度也比 32 GT/s 的 UCIe 2.5D 提高了几个数量级(例如,凸块间距为 1 µm 的 UCIe-3D 为 300 TB/s/mm²,而凸块间距为 25 µm 的 UCIe-2.5D 为 1.35 TB/s/mm²)。为了适应减小的凸块间距,我们通过选择适当的误码率 (BER:bit error rate ) 消除了对 (反) 序列化、CRC、重放等的需求(如表 1 所示)。同样,ESD 保护电路必须先降低至 5V CDM,并从 3 µm 开始逐渐消除。

UCIe-3D 的第二个主要优势是功耗更低。随着距离减小(~0),相关的电寄生效应也随之减小。随着 SoC 频率(<= 4 GT/s),电路变得简单 - 由简单的逆变器组成。再加上频率降低,功耗甚至更低(至少低一个数量级)。

结论

UCIe 技术发展势头强劲!自 UCIe 联盟成立以来,UCIe 联盟成员已宣布了产品开发,并提供了基于 UCIe 1.0 和 1.1 规范的可操作硅片演示。我们正处于与其他成功标准(包括 PCIe、CXL 和 USB)类似的数十年历程的早期阶段。随着技术的普及,我们的成员致力于对未来规范进行必要的改进;

UCIe 2.0 是我们承诺的体现。可管理性和 DFx 增强功能表明我们不断致力于改进现有方法,而 UCIe-3D 则表明我们愿意接受必要的挑战,以实现能效性能的指数级改进。

最后,我想描绘一个系统级封装的愿景,其中使用现有的 UCIe-2.5D 和 UCIe-2D 平面互连连接多个 UCIe-3D 芯片组堆栈,以及所有即将推出的增强功能。如今的芯片级封装就像是小城市,其密度高于十年前的单片芯片,而后者可以比作小村庄。未来采用 UCIe-3D 的 SiP 将像一座摩天大楼林立的大都市,密度极高。计算和内存元件紧密封装在一起的高密度意味着比特传输距离更短,从而实现卓越的性能和更低的功耗。换句话说,未来确实非常光明。

值得一提的的是,作为芯片行业的重要参与者,NVIDIA 硬件工程副总裁 Ashish Karandikar在评价UCIe新标准时候谈到:“UCIe 2.0 规范的发布标志着基于芯片的系统设计发展的一个重要里程碑,它提供了一种初始化、管理和调试片上系统的标准化方法。作为 UCIe 联盟的成员,NVIDIA 致力于推进该规范的各个方面,以帮助推动下一代计算系统的创新和性能。”