特斯拉揭示了100万种技术来检测Dojo Core的超级计
作者:365bet亚洲体育 发布时间:2025-06-09 12:18
他在6月7日报道说,特斯拉昨天发表声明,他为用户提供了100万个Dojo核心的超级计算系统的断层核检测技术。报告说,公司开发的压力工具可以检测到在处理器和不舒适组之间轻松触发无声数据错误(SDC)的核。特斯拉说,Dojo目前是世界上两个最大的处理器之一。晶圆级的芯片由300毫米的完全晶片制成,单芯片的大小已达到其物理极限。由于大型Dojo芯片的复杂性极高,即使在生产中,也很难检测到100%有缺陷的谷物,但是对无声数据错误的检测更加困难。在整个硬件中,SDC是不可避免的,但是Dojo处理器具有8,850个核心,18,000A电流和15,000 W超高的功率。这将扩大影响的影响,因此所有核必须按设计工作。特斯拉称司法部的“训练模块”o晶粒级别的处理器,其中包括TSMC Info_sow技术中的25645mm²包装的D1芯片,并集成了354个64位的自定义RISC-V核(包括1.25 MB的SRAM以存储数据和指令)。每个D1还支持4TB/S芯片之外的带宽,因此一个“训练模块”总共有8,850个核心,该核心将允许8/16/32/64全部和多个数据格式。为了应对中央故障的风险,特斯拉最初采用了差异模糊测试技术。生成一组随机指令,同时将其发送到所有核,并通过比较输出结果来识别差异。但是,主机和训练模块之间的通信过载太高,这对于该过程来说是相当长的。为了改善耶和华,特斯拉找到了改善检测技术的方法。此过程主要是通过三项创新完成的:为培训中的每个高频段通信的每个核心分配0.5 MB指令的特定随机负载模块(主机的非通信)。)要增加负载转移的数量和核之间的指令测试,这允许在不揭示环境的情况下执行核,并且在不排除无不排除的情况下不排除不排除的情况的情况下,无需排除而无需排除不排除的不排除,就可以不排除无需排除而无需排除不排除的不排除的不排除而无需排除不排除。该公司表示,由更长的执行时间造成的速度损失远低于更好的检测可靠性。操作XOR会定期整合指定的SRAM区域中记录的值,并将可控性能的损失增加10倍(在有缺陷的核中进行测试)。特斯拉不仅是在模块级别的Orcabinet级别培训的适当技术,该技术集成了12个模块,而且还可以在TH上工作E群集水平并在100万个操作核中达到故障位置。特斯拉报告显示了优化的配置应力。监测系统检测到道场群集中的许多失败核。检测时间需要时间的分布是极化的。执行1 GB-100GB(几秒钟到几分钟)的加载指令将发现大多数缺陷。难以检测到的缺陷需要1000GB或更多说明(几个小时)。应该强调的是,压力工具测试是轻巧,自主和允许的 - 无线背景测试。最终,只有失败的核被禁用,并且每个D1芯片可以支持几个基本故障而不会影响一般功能。除了检测失败的核外,特斯拉还表明,应力工具可以检测到罕见的缺陷deSign L,并通过软件设置进行修复。在广泛的监视系统实施过程中,还发现和解决了多个基本软件问题。他学会了fROS官方网站,将压力工具完全集成到执行中的Dojo群集中,以在AI培训期间实施硬件健康监测。特斯拉说,通过监视观察到的故障率与Google和Meta发布的数据相当,表明监视工具和硬件与行业的水平相同。
电话
020-66888888