新的架构,更快的芯片

芯片行业在多个物理维度和多种架构方法方面取得了进展。基于更多模块化和异构设计、新的先进封装选项以及至少几个工艺节点的数字逻辑的持续扩展,为性能的巨大提升奠定了基础。

大规模创新,推动性能提升数量级。

在最近的会议上讨论了其中的一些变化。就部分个体而言,它们具有潜在的意义。但从整体上看,随着设备扩展的好处减少和市场需求的变化,他们指出了一些重要的趋势。其中:

  • 对于高性能应用,芯片的设计基于更有限的数据移动和近内存计算。这可以从I/O位于芯片周边而不是中心的平面图中看出,这种方法将通过减少数据需要传输的距离来提高性能,从而降低整体功耗。
  • 使用高数值孔径 EUV、各种全栅极 FET(CFET、纳米片/纳米线 FET)和碳纳米管器件,数字逻辑的缩放将继续超过 3nm。同时,光罩尺寸将增加,以允许更多的组件适合封装,如果不是单个芯片。这两项举措都将通过缩小功能来增加更多的空间,从而实现更高的计算密度。此外,SRAM的扩展将继续进行,并将为高带宽存储器(HBM)模块和3D-NAND闪存添加更多层。
  • 设计正变得越来越模块化和异构化,为更多的定制和更快的上市时间奠定了基础。所有主要的晶圆代工厂和OSAT现在都支持小芯片战略,他们根据价格和性能要求提供多种选择。

其中一些已经进行了多年,但大部分开发都是零碎的。不再有单一的行业路线图,过去一直被用作所有发展如何结合在一起的指南。在没有该路线图的情况下,所有方面的工作仍在继续,但通常很难理解大局是如何发展的,因为并非一切都在同步发展。例如,ASML甚至在EUV商业上可行之前就公开谈论高数值孔径EUV,它用变形透镜取代了平面透镜。在这十年的大部分时间里,ASE 和 Amkor 等公司一直在开发多个版本的扇出、2.5D 和 3D-IC,尽管这些封装方案的市场与最初想象的截然不同。

还有许多新的发展即将到来。台积电、联电、GlobalFoundries和三星等主要晶圆代工厂正在将先进的封装能力融入到制造后端。台积电还计划使用无凸块混合键合(称为SoIC)将小芯片添加到前端。所有这些都可能需要整个行业进行重大变革,从EDA工具到测试和硅后监控。

目前尚不清楚所有这些不同元素的结合速度有多快。没有人喜欢成为第一,在这一点上,这些方法和技术中哪一种会获胜,甚至它们是否会相互竞争,都不清楚。但是,随着数据量的持续增长,改变是必不可少的。这推动了更多定制的解决方案,以在更接近源头的地方处理和利用这些数据,其中包括几乎无处不在的某种程度的智能。

过去,解决方案是围绕最先进的硬件或软件开发的,其假设是下一代工艺将大大提高性能。这不再起作用。扩展变得越来越困难和昂贵,缩小功能的功耗/性能优势正在减弱。此外,一种尺寸不再适合所有人。根据最终客户在计算层次结构中的位置(端点、边缘或云)以及需要如何构建数据和确定其优先级,它可能会有很大差异。因此,芯片制造商已将重点转移到新的、更模块化的架构上,这些架构能够从云中的大规模模拟和训练算法,到从源头剔除无用的图像和流式视频数据。

从长远来看,需要在任何地方更快地进行更多的处理,并且需要使用相同或更少的功率来完成。此外,系统需要更快地创建,并且随着市场需求的发展和算法的不断变化,它们需要能够更快地发生变化。

架构转变

为了实现这一目标,硬件架构需要改变。芯片制造商已经看到这种情况已经有一段时间了。例如,IBM 的新型 Power 10 芯片将定制的计算元素集中在芯片的中心,并将外围设备和 I/O 移动到边缘。

“加速需要被推到处理器核心中,”该芯片的首席架构师比尔·斯塔克(Bill Starke)在最近的Hot Chips会议上说。“芯片周边是PHY。”IBM 还引入了 Pod 级集群,并添加了一个新的微架构来支持所有这些。

其他的也在采取类似的方法。英特尔推出了一种基于内部开发的小芯片的新架构,该架构使用其嵌入式多芯片互连桥接到 HBM 模块,将模块化处理元件聚集在一起。此外,它还更新了其最新的服务器芯片架构,以最大限度地减少数据移动。

同样,制造人工智能系统的 Tenstorrent 创建了一个高度模块化的系统,其中包括 120 个独立的内核,这些内核与 2D 双向环面 NoC 相连。“每个核心都按照自己的节奏发展,”Tenstorrent 软件工程总监 Jasmina Vasiljevic 说。

扩展仍在继续

数据中心芯片对成本的敏感度远低于消费类应用,因此它们在性能方面往往处于行业领先地位。例如,高性能服务器将芯片开发成本与系统价格摊销,而不是通过体积来分摊,这对于手机应用处理器来说至关重要。因此,尽管关于摩尔定律终结的预测永无止境,但出于密度原因,许多这些设备中的数字逻辑将继续使用最新的工艺几何形状。

然而,不同的是,对性能不太关键的电路以及模拟模块越来越多地被分流到单独的芯片上,这些芯片使用高速接口连接。

“你现在可以按节点进行分区,”西门子旗下公司 Mentor 的产品总监 Matt Hogan 说。“因此,您可以确定设计特定部分的正确技术是什么。这也允许你扩大一些副作用。

戈登·摩尔(Gordon Moore)在1965年首次发表他现在著名的观察结果时提到了这种方法。

Synopsys首席应用工程师Tim Kogel表示:“随着工艺技术的快速发展,使用现成的解决方案通常比开发定制芯片更便宜。“到现在为止,每个新工艺节点的高性能和低功耗的免费午餐几乎已经结束。另一方面,人工智能、自动驾驶、AR/VR等杀手级应用对处理能力和计算效率的需求不可抑制。谷歌的TPU和特斯拉的FSD芯片等著名例子表明,根据目标工作负载的特定特征定制架构,其投资回报率令人印象深刻。

尽管如此,摩尔定律的价值正在减弱,这既有经济意义,也有技术意义。平面缩放的经济效益随着finFET的引入而结束,当时每个晶体管的成本从前一个节点停止下降。同样,自90nm以来,功耗/性能优势一直在下降。台积电研发高级副总裁Y.J. Mii表示,在相同功率下,3nm将带来10%至15%的性能提升,或在相同速度下降低25%至30%的功耗。

然而,从技术角度来看,这并不是一条死胡同。架构改进,包括不同的封装方法和 3D 布局,可以将性能提高几个数量级。缩放仍然有助于将更多的密度封装到这些封装中,即使缩小的晶体管本身的运行速度并没有明显加快。

“多年来,我们一直被超越摩尔定律的话题轰炸,”Cadence设计IP营销总监Tom Wong说。“但是,真的是面积减小、功耗降低或晶体管性能改进(传统PPA)推动了这些讨论,还是硅经济性和光刻/设备的局限性导致我们撞上了砖墙?事实证明,硅经济性和掩模版尺寸的限制是推动颠覆的两大因素,这促使设计人员寻找新的芯片设计方法,并转向新的架构。

通过不同的封装方案和光罩尺寸的增加,经济性和光罩尺寸限制都得到了解决,从而允许更大的单个芯片。台积电研发副总裁Doug Yu表示,通过晶圆代工厂的InFO(集成扇出)封装方法,掩模版尺寸将增加1.7倍。此外,台积电计划在明年第一季度推出 110 x 110 mm² 的光罩,这将使光罩尺寸增加 2.5 倍。

所有这些都是必要的,因为将所有东西都放在一个芯片上的成本不断上升。模块化允许芯片制造商根据平台类型的方法相对快速地定制芯片。CPU、GPU 和 FPGA 芯片设计人员在五年多前就发现了这一点,此后开始向分解实现迈进,采用多芯片,让中介层/封装负责集成。Wong说,这就是为什么die-to-die连接IP成为当今舞台的中心舞台的原因之一。

“CPU、GPU 和 FPGA 都走上了小芯片的路线,因为这些公司自己设计芯片(小芯片),不需要依赖商业小芯片生态系统。他们可以利用基于小芯片的设计可以提供的功能,“Wong指出。“包括 CPU、GPU 和 FPGA 在内的多核设计可以从这种架构变化/趋势中受益。能够分离“核心计算”和高速 I/O 的 SoC 设计也可以从中受益。AI 加速 SoC 和加密 SoC 就是两个例子。数据中心交换机和结构(例如用于超大规模计算和云构建者的 25.6Tb/s)也可以从这种架构更改为基于小芯片的设计中受益。这些设计可以像 200 亿+ 晶体管一样复杂。

到目前为止,Intel、AMD和Marvell等IDM已经采用了这种方法,每个IDM都创建了自己的模块化方案和互连。因此,他们没有制造芯片并试图向广泛的客户推销其优势,而是使用小芯片提供一系列选项,在英特尔的情况下,还提供各种连接选项,例如高速桥接器。

变化无处不在,有大有小

正确看待所有这些变化通常很困难,因为整个行业都在运动,尽管不一定以相同的速度或出于相同的原因。因此,例如,当处理器和进程发生变化时,内存会远远滞后。

此外,有些技术需要完全重新思考,而另一些技术则保持不变。这在 GPU 中尤为明显,GPU 一直是 AI/ML 训练的首选解决方案,因为它们价格便宜且可扩展。但它们并不是最节能的方法。

Imagination Technologies产品管理和技术营销高级总监Kristof Beets表示:“我们已经看到了带宽,我们已经看到了它的强大功能,”所有这些不同的限制都会发挥作用。从 GPU 的角度来看,这是一个棘手的演变,因为显然 GPU 是巨大的数字运算器,显示器越来越大,设备越来越小。所以很多这样的问题一直在发生。有一个蛮力阶段,这有点取决于摩尔定律。我们将 GPU 翻了一番,这在一段时间内是可以的,因为工艺技术跟上了。但现在回报正在减少,所以虽然我们可以放下更多的逻辑,但我们基本上不能再打开它了,因为它消耗了太多的电量。所以蛮力的方式是行不通的。

动态电压和频率调节 (DVFS) 在一定程度上有助于降低电压,从而允许更大的 GPU 在较低频率下运行。然而,即使是这种方法也有局限性,因为在固定的功率预算内可以使用的 GPU 内核数量有限。“这为我们提供了更好的每瓦FPS(每秒帧数),但即使这样,现在也开始变慢,因为泄漏再次上升,”Beets说。“对于 GPU 来说,这就是光线追踪的有趣之处。这是一种摆脱蛮力的方式。它们非常灵活。我们在人工智能和神经网络处理方面也看到了同样的情况。这是完全相同的概念。在这里,你真正看到了比GPU好10到20倍的解决方案,考虑到数据流和具体操作,所以这很有趣。它并不像过去的固定函数处理那么糟糕。我们还没有回到那里。但其中一些肯定会开始以更专用的处理类型回归。

有许多方法可以增强扩展性能。Codasip高级营销总监Roddy Urquhart表示:“在一些领域,例如应用处理器、GPU、MCU、DSP,我们已经有相当通用的架构利用摩尔定律来做越来越多的事情。“但现在有大量的想法围绕着尝试新颖的架构,新颖的结构,具有一系列可编程性。在脉动阵列端,有些东西往往是硬连线的处理元素,或者它们具有已上传固件并处于静态状态一段时间的进程。另一个极端是特定于域的进程,这些进程是高度可编程的。我看到了高度并行、高度流水线的数组类型结构的创新回归,这与不同类型的神经网络非常契合。另一方面,人们更多地跳出框框思考,以摆脱MCU、GPU、DSP和应用处理器的孤岛,并创造一些更像这些东西的混合版本来满足特定需求。

微架构

除了这些广泛的架构转变之外,还有微架构创新。在许多方面,这是一个分区问题,在更大的系统中,某些计算功能优先于其他计算功能。这可能会对性能和计算效率产生重大影响。

“利用固有的并行性,应用程序应该映射到一组最佳的异构处理元素,”Synopsys的Kogel说。“为每个函数选择一个提供最低灵活性的处理内核,可以提供尽可能高的计算效率。此外,内存架构的组织对性能和功耗有非常大的影响。由于外部存储器访问成本高昂,因此数据应保存在片上存储器中,靠近处理位置。

然而,这说起来容易做起来难,它需要多学科和越来越多的多维规划。Kogel说:“管理复杂性并预测在具有分布式内存的异构多处理平台上运行的高度并行应用程序的动态效果是一个相当大的挑战。“我们建议在开发过程的早期使用虚拟原型来定量分析架构权衡。这使得来自应用程序和实施团队的利益相关者能够在承诺实施规范之前进行协作。

新的平衡

展望未来,如何进行功耗和性能的权衡取决于市场。一些市场对成本高度敏感,因此他们还没有解决这个问题。同时,其他软件对成本的敏感度较低,对延迟的敏感度较高。

“人们越来越不耐烦了。你想尽快得到你想要的东西,“英特尔首席技术官迈克·梅伯里(Mike Mayberry)在DARPA最近的电子复兴倡议(ERI)峰会的小组演讲中说。“但我们也看到了平衡的系统和更多的计算能力,这是我们看到的持续趋势之一。

Mayberry 指出,密度缩放没有硬性停止,但它将越来越多地包括 Z 轴。“我们还看到了新型的超越CMOS器件,这些器件将支持异构架构。十年后,你会看到这些在货架上。

英特尔等公司正在研究除了沉积和蚀刻不同材料之外的器件生长方法。多年来,人们一直在谈论定向自组装等方法。在某种程度上,这在经济上仍然是可行的,但普遍的共识可能要等到3nm之后。

除此之外,光子学也开始积聚一些动力,以最小的热量在这些日益密集的结构中和周围移动大量数据。一种更新颖的方法涉及使用光进行处理。LightMatter 首席执行官尼克·哈里斯 (Nick Harris) 表示,光学设备消除了泄漏效应,从而降低了热量并提高了性能。这种方法特别独特的是,光可以被划分为不同的波长,从而可以优先考虑不同的颜色。

“使用100GHz波长,这是一个非常小的间距,我们可以容纳1000种颜色,”哈里斯说。缺点是激光器不会永远持续下去,因此需要有足够的冗余来使这些系统在其预期的使用寿命内持续使用。

对于更传统的计算,进程节点选项的数量也在增加。晶圆代工厂提供中间节点,无需完全重新设计即可提高性能或功耗。例如,台积电(TSMC)打开了其N4工艺的瓶塞,该工艺将于明年年底进入风险生产。台积电首席执行官魏中瀛在演讲中表示,N5(5nm)和N4中使用的IP将兼容,这使公司能够以最小的重新设计来提高密度和降低功耗。

尽管如此,选项的数量仍然令人眼花缭乱。除了不同的节点数量外,还有不同的工艺选项,以实现低功耗和高性能。最重要的是,不同的衬底材料开始受到关注,包括用于功率晶体管的碳化硅和氮化镓,以及用于低成本、低功耗应用的绝缘体上硅。

所有这些都对用于防止故障的设计规则有很大影响。“如果你正在设计一个小芯片,你不知道它将如何使用或放置,”Mentor的Hogan说。“你不知道它是否会在MCU旁边,所以你必须弄清楚如何以一种深思熟虑的方式做到这一点。你需要保护它免受电磁效应和其他潜在问题的影响。

而且,由于芯片有望在更长的时间内正常运行——就汽车而言,前导节点逻辑可能需要长达 18 年——所有这些都需要在老化的背景下完成。这可能会变得非常复杂,尤其是在多芯片封装中。

Ansys半导体业务部营销副总裁兼首席策略师Vic Kulkarni表示:“您需要关注不同刺激和场景的阈值变化等因素。“你可以对寄存器进行精确分析,但如果 Vdd 没有下降,Vt 也没有下降,那么剩下的余量就不多了。您还需要考虑诸如电气过载之类的事情。晶圆厂不愿意接受这一点。

权衡范围从功耗、性能和成本到服务质量。

“我们过去总是有无损压缩,”Imagination 的 Beets 说。“大约一两年前,我们也推出了有损,这样我们就可以在质量上进行权衡。在GPU中,我们开始看到质量与成本的权衡,有损压缩可以降低质量,这也节省了带宽和功耗。在 GPU 处理中,我们开始看到同样的东西,即可变速率着色。这基本上是当你看视频时,你会说你真正关心的只是脸,你想要完整的细节,所以背景并不重要。游戏本质上是做同样的事情。例如,在赛车游戏中,汽车非常清晰,有很多细节,但其余部分都有运动模糊。

在精度方面也存在权衡。较低的精度可以大大加快处理速度,而稀疏算法可以写得不那么精确,无论是 16 位精度还是 1 位精度。但是,这种精度也可以由硬件和固件控制,并且会对整体系统性能产生重大影响,其中某些功能比其他功能更准确。

结论

在摩尔定律的前 40 年左右,功耗、性能和面积的改进对于大多数应用程序来说已经足够了,并且数据的增长通常可以通过经典扩展来管理。在90nm之后,经典缩放开始显示出压力的迹象。虽然已经很长时间没有注意到了,但它并没有被忽视。

然而,令人惊讶的是,仍然有多少途径可用于大幅提高性能、降低功耗和潜在的成本节约。工程团队正在以新颖有趣的方式进行创新。几十年来对当时看似晦涩难懂的话题或切线的研究现在正在得到回报,还有很多研究正在酝酿中。