Failure is inevitable. Disks fail.

Failure is inevitable. Disks fail. Software bugs lie dormant waiting for just the right conditions to bite. People make mistakes. Data centers are built on farms of unreliable commodity hardware. If you’re running in a cloud environment, then many of these factors are outside of your control. To compound the problem, failure is not predictable and doesn’t occur with uniform probability and frequency. The lack of a uniform frequency increases uncertainty and risk in the system. In the face of such inevitable and unpredictable failure, how can you build a reliable service that provides the high level of availability your users can depend on? A naive approach could attempt to prove the correctness of a system through rigorous analysis. It could model all different types of failures and deduce the proper workings of the system through a simulation or another theoretical framework that emulates or analyzes the real operating environment. Unfortunately, the state of the art of static analysis and testing in the industry hasn’t reached those capabilities.4 A different approach could attempt to create exhaustive test suites to simulate all failure modes in a separate test environment. The goal of each test suite would be to maintain the proper functioning of each component, as well as the entire system when individual components fail. Most software systems use this approach in one form or another, with a combination of unit and integration tests. More advanced usage includes measuring the coverage surface of tests to indicate completeness. While this approach does improve the quality of the system and can prevent a large class of failures, it is insufficient to maintain resilience in a large-scale distributed system. A distributed system must address the challenges posed by data and information flow. The complexity of designing and executing tests that properly capture the behavior of the target system is greater than that of building the system itself. Layer on top of that the attribute of large scale, and it becomes unfeasible, with current means, to achieve this in practice while maintaining a high velocity of innovation and feature delivery. Yet another approach, advocated in this article, is to induce failures in the system to empirically demonstrate resilience and validate intended behavior. Given that the system was designed with resilience to failures, inducing those failures—within original design parameters—validates that the system behaves as expected. Because this approach uses the actual live system, any resilience gaps that emerge are identified and caught quickly as the system evolves and changes. In the second approach just described, many complex issues aren’t caught in the test environment and manifest themselves in unique and infrequent ways only in the live environment. This, in turn, increases the likelihood of latent bugs remaining undiscovered and accumulating, only to cause larger problems when the right failure mode occurs. With failure induction, the added need to model changes in the data, information flow, and deployment architecture in a test environment is minimized and presents less of an opportunity to miss problems.

0/5000

源语言: -

目标语言: -

结果 (简体中文) 1: [复制]

复制成功！

失败是不可避免的。磁盘故障。软件错误处于休眠状态，等待合适的条件发生。人们会犯错误。数据中心建立在不可靠的商品硬件群上。如果您在云环境中运行，那么其中许多因素都在您的控制范围之外。使问题更加复杂的是，失败是不可预测的，并且不会以统一的概率和频率发生。缺乏统一的频率会增加系统的不确定性和风险。面对这种不可避免且不可预测的故障，您如何构建可靠的服务来提供您的用户可以依赖的高水平可用性？一种天真的方法可能会尝试通过严格的分析来证明系统的正确性。它可以模拟所有不同类型的故障，并通过模拟或其他模拟或分析真实操作环境的理论框架推断系统的正常工作。不幸的是，业界最先进的静态分析和测试技术还没有达到这些能力。4 一种不同的方法可以尝试创建详尽的测试套件，以在单独的测试环境中模拟所有故障模式。每个测试套件的目标是在单个组件出现故障时保持每个组件以及整个系统的正常运行。大多数软件系统以一种或另一种形式使用这种方法，结合单元测试和集成测试。更高级的用法包括测量测试的覆盖面以指示完整性。虽然这种方法确实提高了系统的质量并且可以防止大量故障，但不足以在大型分布式系统中保持弹性。分布式系统必须解决数据和信息流带来的挑战。设计和执行正确捕获目标系统行为的测试的复杂性大于构建系统本身的复杂性。在此之上的大规模属性，以目前的手段，在实践中实现这一点，同时保持高速创新和功能交付变得不可行。本文提倡的另一种方法是诱导系统中的故障，以凭经验证明弹性并验证预期行为。鉴于该系统的设计具有抗故障能力，在原始设计参数内引发这些故障可验证系统是否按预期运行。因为这种方法使用实际的实时系统，所以随着系统的发展和变化，出现的任何弹性差距都会被快速识别和捕捉。在刚刚描述的第二种方法中，许多复杂的问题并没有在测试环境中发现，并且只有在实际环境中才会以独特且不常见的方式表现出来。反过来，这增加了潜在错误未被发现和积累的可能性，只会在发生正确的故障模式时导致更大的问题。通过故障归纳，在测试环境中对数据、信息流和部署架构的变化进行建模的额外需求被最小化，并减少了遗漏问题的机会。

正在翻译中..

结果 (简体中文) 2:[复制]

复制成功！

失败是不可避免的。磁盘故障。软件漏洞处于休眠状态，等待合适的条件出现。人们会犯错。数据中心建立在不可靠的商品硬件农场上。如果您在云环境中运行，那么这些因素中的许多都超出了您的控制范围。使问题复杂化的是，故障是不可预测的，并且不会以统一的概率和频率发生。缺乏统一的频率会增加系统中的不确定性和风险。面对这种不可避免和不可预测的故障，您如何构建一个可靠的服务，提供用户可以依赖的高可用性水平？天真的方法可以尝试通过严格的分析来证明系统的正确性。它可以对所有不同类型的故障进行建模，并通过模拟或分析真实操作环境的另一个理论框架来推断系统的正确工作。不幸的是，行业中最先进的静态分析和测试还没有达到这些能力。4不同的方法可以尝试创建详尽的测试套件，以在单独的测试环境中模拟所有故障模式。每个测试套件的目标是在单个组件出现故障时，保持每个组件以及整个系统的正常功能。大多数软件系统以一种或另一种形式使用这种方法，并结合了单元测试和集成测试。更高级的用法包括测量测试的覆盖面以表明完整性。虽然这种方法确实提高了系统的质量，可以防止大量故障，但它不足以在大规模分布式系统中保持恢复能力。分布式系统必须解决数据和信息流带来的挑战。设计和执行正确捕获目标系统行为的测试的复杂性大于构建系统本身的复杂性。再加上大规模的属性，以目前的方式，在实践中实现这一点，同时保持高速的创新和功能交付是不可行的。本文提倡的另一种方法是诱导系统中的失败，以经验性地证明恢复力并验证预期行为。鉴于系统的设计具有故障恢复能力，在原始设计参数范围内引入这些故障可验证系统的性能是否符合预期。因为这种方法使用的是实际的实时系统，所以随着系统的发展和变化，出现的任何恢复力缺口都会被迅速识别和抓住。在刚刚描述的第二种方法中，许多复杂的问题没有在测试环境中被捕获，并且仅在实时环境中以独特和不常见的方式表现出来。这反过来又增加了潜在错误未被发现和积累的可能性，只有在出现正确的故障模式时才会导致更大的问题。通过故障诱导，在测试环境中对数据、信息流和部署体系结构中的更改建模的额外需求被最小化，并减少了错过问题的机会。

正在翻译中..

结果 (简体中文) 3:[复制]

复制成功！

失败是必然的。磁盘出现故障。软件bug处于休眠状态，等待合适的条件出现。人都会犯错。数据中心建立在不可靠的商品硬件农场上。如果您在云环境中运行，那么许多因素都超出了您的控制范围。更糟糕的是，故障是不可预测的，并且不会以统一的概率和频率发生。缺乏统一的频率增加了系统的不确定性和风险。面对这种不可避免和不可预测的失败，您如何构建一个可靠的服务来提供用户可以依赖的高可用性？一种天真的方法可能试图通过严格的分析来证明系统的正确性。它可以模拟所有不同类型的故障，并通过模拟或其他模拟或分析真实操作环境的理论框架来推断系统的正常工作。不幸的是，行业中静态分析和测试的技术水平还没有达到这些能力。4一种不同的方法可以尝试创建详尽的测试套件，在单独的测试环境中模拟所有的故障模式。每个测试套件的目标都是在单个组件出现故障时保持每个组件以及整个系统的正常运行。大多数软件系统以某种形式使用这种方法，结合了单元测试和集成测试。更高级的用法包括测量测试的覆盖面以指示完整性。虽然这种方法确实提高了系统的质量，并且可以防止一大类故障，但它不足以在大规模分布式系统中保持弹性。分布式系统必须解决数据和信息流带来的挑战。设计和执行正确捕获目标系统行为的测试的复杂性大于构建系统本身的复杂性。再加上大规模的属性，以目前的手段，在实践中实现这一点，同时保持高速度的创新和功能交付变得不可行。本文提倡的另一种方法是在系统中引发故障，以经验证明弹性并验证预期行为。假设系统被设计成具有对故障的恢复力，在原始设计参数内引发这些故障将验证系统的行为是否符合预期。因为这种方法使用实际的实时系统，所以随着系统的发展和变化，任何出现的弹性差距都会被快速识别和捕捉。在刚刚描述的第二种方法中，许多复杂的问题并没有在测试环境中被捕捉到，它们只是在实时环境中以独特且不常见的方式表现出来。这反过来增加了潜在bug未被发现和积累的可能性，只会在正确的故障模式出现时导致更大的问题。通过故障归纳，对测试环境中的数据、信息流和部署架构中的模型变更的额外需求被最小化，并且更少出现遗漏问题的机会。

正在翻译中..

其它语言

本翻译工具支持: 世界语, 丹麦语, 乌克兰语, 乌兹别克语, 乌尔都语, 亚美尼亚语, 伊博语, 俄语, 保加利亚语, 信德语, 修纳语, 僧伽罗语, 克林贡语, 克罗地亚语, 冰岛语, 加利西亚语, 加泰罗尼亚语, 匈牙利语, 南非祖鲁语, 南非科萨语, 卡纳达语, 卢旺达语, 卢森堡语, 印地语, 印尼巽他语, 印尼爪哇语, 印尼语, 古吉拉特语, 吉尔吉斯语, 哈萨克语, 土库曼语, 土耳其语, 塔吉克语, 塞尔维亚语, 塞索托语, 夏威夷语, 奥利亚语, 威尔士语, 孟加拉语, 宿务语, 尼泊尔语, 巴斯克语, 布尔语(南非荷兰语), 希伯来语, 希腊语, 库尔德语, 弗里西语, 德语, 意大利语, 意第绪语, 拉丁语, 拉脱维亚语, 挪威语, 捷克语, 斯洛伐克语, 斯洛文尼亚语, 斯瓦希里语, 旁遮普语, 日语, 普什图语, 格鲁吉亚语, 毛利语, 法语, 波兰语, 波斯尼亚语, 波斯语, 泰卢固语, 泰米尔语, 泰语, 海地克里奥尔语, 爱尔兰语, 爱沙尼亚语, 瑞典语, 白俄罗斯语, 科西嘉语, 立陶宛语, 简体中文, 索马里语, 繁体中文, 约鲁巴语, 维吾尔语, 缅甸语, 罗马尼亚语, 老挝语, 自动识别, 芬兰语, 苏格兰盖尔语, 苗语, 英语, 荷兰语, 菲律宾语, 萨摩亚语, 葡萄牙语, 蒙古语, 西班牙语, 豪萨语, 越南语, 阿塞拜疆语, 阿姆哈拉语, 阿尔巴尼亚语, 阿拉伯语, 鞑靼语, 韩语, 马其顿语, 马尔加什语, 马拉地语, 马拉雅拉姆语, 马来语, 马耳他语, 高棉语, 齐切瓦语, 等语言的翻译.