来自Facebook(Arxiv 2月2021)的本文在谷歌故障沉默的腐败执行错误(CEES)纸上被称为最近的最近的工作。这篇论文都讨论了同样的现象。
本文提供了杂志上涉及多年来的CEES的说明。在运行100K机器的广泛静音错误测试场景后,他们发现100多岁的CPU被标识为具有这些错误,显示CEES跨越世代的系统问题。本文作为Google Paper,不会指定特定的供应商或芯片组类型。此处报告的〜1/1000比率符合Google纸报告的〜1/1000的核心核心比率。
本文声称,由于设备特性,可能会发生静默数据损坏,并且在比例下可重复发生。他们观察到这些故障是可重复的,而不是瞬态。那么,这些CPU如何通过芯片生产者通过质量控制测试?在基于软错误的故障注射研究中,CPU CEES被评估为百万出现的一个,在Facebook和Google的部署中观察到1。本文表示,由于功能块内的纠错最小,CPU CEE处于更高的速率。我认为不同的环境条件(频率,电压,温度)和老化/穿着也在增加误差率时起作用。
本文还表示,增加密度,技术缩放和更广泛的数据路径增加了静音误差的概率。它声称cees不限于CPU,适用于特殊功能加速器和具有宽带达道的其他设备。
本文给出了在Spark部署中检测到的实际CEE的示例,并说这将导致数据丢失。
"在一个这样的计算中,当计算文件大小时,在解压缩流水线内提供具有有效文件大小的文件作为对解压缩算法的输入。该算法调用Scala库提供的功率功能(Scala:用于Spark的编程语言)。有趣的是,Scala函数返回一个已知具有非零解压缩文件大小的文件的0大小值。由于文件大小计算的结果现在为0,因此该文件未写入解压缩输出数据库。
想象一下,每天的数百万次进行相同的计算。这意味着对于某些随机场景,当文件大小为零时,从未执行解压缩活动。因此,数据库丢失了文件。丢失的文件随后传播到应用程序。保留用于压缩文件的键值存储映射列表的应用程序立即观察压缩的文件不再可恢复。这种依赖链导致应用程序失败。最终,查询基础架构在解压缩后报告关键数据丢失。当用户在机器集群上调度相同的工作量时,偶尔会显示出问题的复杂性。这意味着重现和调试的模式是非确定性的。"
"一旦再加在汇编语言中,我们会优化大会的效率。准确地再现缺陷的组装代码减少到60线组装电平再现器。我们开始使用430K的线路再现,并将其缩小到60行。图3提供了高级调试流,然后导致根引起的静音错误。"
在2000-2005之间,我用100多个无线传感器网络节点工作。我们经常发现不良的传感器板(具有杂散的检测或根本没有检测)和不良无线电。一般不良的无线电配对:当两个收音机的频率彼此有显着差异时,这两个可能互相交谈,但他们都没有与其他无线电谈话。
通过低质量控制,传感器节点具有更高的差距传感器和无线电。我们并没有真正观察到失败的cees,但谁知道。我们没有访问100K节点,我们没有良好的观察到节点计算:因为节点是低功耗并具有有限的资源,很难从它们中提取详细的日志信息。
返回数据中心计算,面对这种故障沉默的cee现象我们的下一步是什么?芯片生产商应该抵消他们的质量控制游戏。但我认为这是赢得' t就够了。由于两篇论文显示,老年可能开始在老化后和某些环境条件下表现出来。开发人员的实用解决方案是更改的代码:介绍更多的先决条件/后照相,甚至高级(规格级)监视器,以便在检查比计算便宜时仔细检查代码的理智。
我谈到上周阅读基础论文的重要性。要跟进,这是我在分布式系统区域的基础上的汇编。 (我专注于核心分布式系统区,并没有涵盖网络,安全,分布式分区,验证工作等。我甚至遗漏了分布式交易,我希望在以后覆盖它们。)我被主题分类了论文,并按时间顺序列出它们。我还在每个部分结束时列出了展示论文和博客帖子。分布式系统时间,时钟和分布式系统中事件的排序的时间和状态。 Leslie Lamport,Commn。 ACM,1978.分布式快照:确定分布式系统的全局状态。 K. Mani Chandy Leslie Lamport,Computer Systems上的ACM交易,1985年。虚拟时间和分布式系统的全球状态。 TIMESN,F. 1988.博客和博客帖子现在没有。 Justin Sheehy,ACM队列2015年为什么逻辑时钟
这听起来像你爸爸曾经讲的陈词滥调,但经过多年的新领域,企业和职业,我发现这是最受低估的职业建议。这是我希望我的孩子在长大后内化的第一建议。这是我希望每一个进行新的创业的最重要的想法。如果你认为你不够好,那就成为一个自我实现的预言。如果你认为你不享受某些东西,你开始讨厌它。我以前几次给出了这一点。让&#39 ......就这一人提供了以下方式:在研究生院,我读到了"黑客:计算机革命的英雄"从斯蒂芬征求并享受很多。 (我仍然让狗耳纸副本副本。)所以,很久以前,我应该阅读Steven Levy'但由于某种原因,我没有......即使我知道这本书。我想这是由于我的愚蠢怪癖;我对安全/加密res有一些厌恶
对于秋季学期分布式系统研讨会,我们将讨论这些论文:BIPARTISAN PAXOS:一个快速,无线,模块化的状态机复制协议在实践中的极端建模:云功能Service Services Lambada:Contractive数据分析数据使用无服务器云基础架构分层复制:一个经济级别群集地质复制可扩展状态机复制的替代品,使用近似同步在数据中心网络中使用近似同步:高性能并发计划的低级验证海洋Vista:Gossip基于尾部的迅速地理分布式事务的可见性控制和尾部的冲突下的犯罪的并发控制和共识:尾随延迟的硬件,操作系统和应用程序级来源近乎最佳延迟与成本权衡在地理分布式存储缩放符号自动化验证评估
Warning: Can only detect less than 5000 characters