自制分布式存储系统入门篇:系统概要设计
提到存储系统,就绕不开成名已久的两大系统:文件系统和关系型数据库系统。这两大系统切实的解决了用户的关键问题,并且演进的比较成熟,是我们实现分布式存储系统的重要参考。
近几年,随着互联网规模的扩大,我们需要处理的数据也变得越来越多;随着机器学习的发展,我们的数据也变得越来越有价值。在这一时代背景下,大规模分布式系统变得越来越重要。遗憾的是,这一领域由于出现的比较晚,相关的学习资料比较少,大家对这一领域的认识和了解都比较有限。我认识的一些名校毕业名企工作的非常优秀的工程师,虽然日常工作中会使用 Hadoop 生态的一些产品,但是对于大规模分布式系统的底层原理的理解也十分有限。
于是我认为,将我有限的知识分享出来,让大家能够对分布式存储系统有一个初步的感性认识,仍然是一件非常有意义的事情,于是便准备开始这样一个系列。
在数据库领域,Transaction是一个非常重要的抽象,其关键在于保证并发请求的正确性。由于Serialisability级别的一致性所需要付出的代价较高,所以通常会使用弱一些的一致性级别来换取性能提升。特别的,在一些特殊场景下,使用弱一致性并不会带来错误。遗憾的是,ANSI SQL对于一致性级别的分类还不够细致,特别的,对于一些常见的弱一致性实现没有形式化规范。这导致人们很难确认特定供应商提供的弱一致性实现在某个特定场景下是否真的不会引入错误。[2]
ARC是一种缓存替换算法,在很多种负载环境的表现优于常用的LRU算法,并且实现难度和算法复杂度与LRU近似。
ARC算法具有以下优良特性:
在recency和frequency之间持续的进行动态(在线)调整
无需事先指定特别的参数(先验知识)
具有全局优化策略(意译,不确定翻译的对不对,原文empirically universal,note说明该词出自LZ77的论文)
可以(在某种程度上)抵抗线性扫描(scan-resistant)
本文特别写给想要学习分布式系统但是还不知道该如何下手的读者,宽泛并点到为止的介绍了我个人对于分布式系统各个方面的一些不成熟的理解,帮助读者认识到分布式系统领域的一个全景图,以便接下来寻找感兴趣的领域进行深入的学习。
学习分布式系统,需要回答以下几个问题:
(需求分析)分布式系统主要解决哪些问题?主要应用场景有哪些?
(实现方案)构建分布式系统的常见问题有哪些?解决这些问题的主流方案有哪些?
(技术难点)实现分布式系统的本质困难是什么?这些困难影响了那些问题?
(工业应用)工业上正在构建那些分布式系统?他们的发展情况如何?
说到大规模集群管理,就离不开运维自动化。一个人手工也许可以运维几百台机器,但是随着集群规模的增长,我们需要的是一个人运维数万台机器。 这在大规模集群管理中是一个常见的问题。因此,运维自动化是一个很重要的事情,这也是为什么很多公司原因上云,因为上云之后运维的问题就托管给 云平台了。这也是云平台这么贵还能卖的这么好的原因。
运维自动化的问题到底是一个什么问题?我认为,可以拆解为以下子问题:
自动发现错误
自动修复错误
安全(Safety而非Security)
这里的每一个问题都是复杂的,困难的问题,远非表面上看起来那么简单。以下仅作简单的展开,提供一些思路。