技术 | 应对硬件故障与静默数据损坏:新思科技SLM方案以端到端可靠性守护AI芯片万亿算力

来源: 新思科技 Synopsys 作者:Synopsys 2025-11-19 13:13:49

2024年,Meta训练了一款AI模型“Llama 3”,并将相关训练成果汇总发表了一篇论文,受到广泛关注。在为期54天的预训练过程中,Llama 3遭遇了466次训练中断,其中意外中断高达419次。通过进一步调查,Meta了解到,这些异常中断中78%源自GPU及主机组件等硬件问题。

  
此类硬件问题不仅会导致工作任务中断,还可能导致静默数据损坏(SDC),造成意外数据丢失或异常,而这些问题往往长期难以被察觉。

  
Meta预训练时遭遇的中断虽出乎意料,但这种现象其实不难理解。像Llama 3这样的AI模型处理需求巨大,必须依赖超大规模计算集群支持。仅在训练环节,AI工作负载往往需要数十万个计算节点及其配套GPU持续协同工作数周甚至数月之久。

  
高强度、大规模的AI处理和数据交换会产生大量热量、电压波动和噪声,这些因素给计算硬件施加了巨大的压力。相较于以往的常规条件,GPU等底层芯片的退化速度大幅加快,性能和可靠性也随之下降。

  
这种情况在5nm以下制程中尤为突出,无论是制造环境和实际应用厂家,都能观察到明显的芯片退化和故障行为。

 

那么,我们该如何应对此类情况?又该如何减少意外中断和SDC?随着行业不断推出更新、规模更大AI工作任务,面对市场对处理能力与规模持续攀升的需求,芯片设计团队应如何确保最佳性能和可靠性?

确保芯片可靠性、可用性和可维护性(RAS)

以Meta为代表的AI创新企业已构建起完善的监控诊断体系,旨在持续改善计算环境的可用性与可靠性。然而随着算力需求激增、硬件故障频发以及SDC问题日益严峻,行业亟需建立更深层的测试与遥测能力,而且这种能力需要贯穿每个XPU/GPU内部的晶粒、多芯片封装以及互连架构等基础层面。

  
芯片生命周期管理(SLM)解决方案正是保障端到端RAS的关键所在,其覆盖范围贯穿芯片设计、制造、启动调试及现场运维全流程。

  
凭借更出色的可见性、监控和芯片层级诊断,设计团队可以:

通过遥测数据了解芯片故障或发生SDC的原因。

识别芯片组件、Multi-Die封装和高速互连中的电压或时序退化、过热和机械故障。

更精确地分析AI工作任务的热性能和功耗性能分析。

检测、特征分析和解决辐射、电压噪声以及可能引发位翻转和SDC的潜在故障机制。

提高芯片的良率、质量和现场RAS。

在寄存器传输级(RTL)设计阶段采用triple modular redundancy and dual core lock step(三模冗余和双核锁步等以可靠性为核心的技术),降低SDC风险。

建立准确的硅前老化仿真方法检测敏感或脆弱电路,并用抗老化电路替换。

优化可靠性模型中的异常检测(识别偏离正常行为的数据点),最大程度减少现场SDC。

新思科技SLM解决方案

作为系统设计的全球领导者,新思科技提供SLM IP和分析解决方案,可显著提升芯片健康状态,并在系统生命周期的各个阶段提供关键运行指标。

  

该解决方案具备三大监测特性,即环境监测、结构监测和功能监测,分别可以基于器件运行环境了解和优化芯片性能;识别从设计到现场运行阶段的性能变化;以及用于跟踪关键器件功能的健康状况和异常情况。 

  
我们的SLM IP和分析解决方案包括:

 

工艺、电压和温度监测器

确保最优运行状态,同时最大化性能、功耗与可靠性。

全芯片高精度分布式监测,支持通过频率调节实现热管理。

支持28nm至3nm工艺节点。

  
路径裕量监测器

测量1000多条综合和功能路径(测试和现场)的时序裕量。

基于实际裕量优化芯片性能。

自动化路径选择、IP插入和扫描生成功能。

  
时钟和延迟监测器

测量一个或多个信号的边缘之间的延迟。

监测时钟占空比的质量。

借助内置自测(BIST)跟踪,测量内存读取访问时间。

对数字延迟线进行特征分析。

  
UCIe监测、测试和修复

监测Die-to-Die UCIe通道的信号完整性。

生成算法BIST向量,以检测互连故障类型,包括通道间串扰。

通过冗余分配执行累积通道修复(制造和现场)。

  
高速访问和测试

支持通过功能接口(PCIe、USB、SPI等)进行测试。

适用于现场运行以及晶圆分拣、最终测试和系统级测试。

可以与自动化测试设备结合使用。

通过减少引脚数量,方便现场远程诊断,降低测试成本。

 

高带宽内存(HBM)外部测试和修复

全面且经过硅验证的DRAM堆叠测试、修复和诊断引擎。

支持第三方HBM DRAM堆叠提供商解决方案。

高性能Die-to-Die互连测试和修复支持。

与HBM PHY协同工作,并支持一系列HBM协议和配置。

  
SLM分层子系统

面向片上系统(SoC)的自动化分层SLM和测试可管理性解决方案。

借助系统内调度,自动集成和访问所有IP/核心。

预先验证、随时可用的ATE向量和向量移植功能。

AI时代的芯片测试和遥测

随着AI器件和工作任务的规模和处理需求持续上升,系统可靠性、芯片健康和SDC问题愈发常见。虽然不存在能够彻底规避这些问题的单一解决方案或万能方法,但在芯片层级进行更深入、更全面的测试、修复和遥测,能极大缓解相关风险。其中,检测或预测现场芯片退化的能力尤为关键,这使我们能够在突发或灾难性系统故障发生之前及时采取纠正措施。

  
在AI技术快速演进的时代背景下,我们必须提供端到端的可见性和RAS保障,这使得芯片测试、修复和遥测的重要性与日俱增。

专题

查看更多
IC品牌故事

IC 品牌故事 | 三次易主,安世半导体的跨国迁徙

IC 品牌故事 | 开放合作+特色深耕,华虹的突围之路

IC 品牌故事 | Wolfspeed:从LED到SiC,被中国厂商围追堵截的巨头

人形机器人

市场 | 全球首家机器人6S店在深圳龙岗开业

方案 | Allegro解决方案助力机器人应用提升效率、可靠性和创新

方案 | 爱仕特SiC三电平方案:突破工商储能PCS高效极限

毫米波雷达

毫米波雷达 | 智能驾驶不可或缺的4D毫米波雷达技术全解析

毫米波雷达 | 有哪些热门毫米波雷达芯片和解决方案?

毫米波雷达 | 超百亿美元的毫米波雷达都用在了哪里?

0
收藏
0