1 摘要
2 介绍
- 适用性广泛
- 可扩展
- 高性能和高可用性
3 数据模型
(row:string, column:string, time:int64)->string

3.1 行
3.2 列族
3.3 时间戳
- 用户可以指定只保存最后 n 个版本的数据
- 只保存“足够新”的版本的数据(比如,只保存最近 7 天的内容写入的数据)
// Open the table
Table *T = OpenOrDie(“/bigtable/web/webtable”);
// Write a new anchor and delete an old anchor
RowMutation r1(T, “com.cnn.www”);
r1.Set(“”, “CNN”);
Operation op;
Apply(&op, &r1);
Scanner scanner(T);
ScanStream *stream;
stream = scanner.FetchColumnFamily(“anchor”);
for (; !stream->Done(); stream->Next()) {
printf(“%s %s %lld %s\n”,
5 BigTable构件
- 确保在任何给定的时间内最多只有一个活动的 Master 副本
- 存储 BigTable 数据的自引导指令的位置
- 查找 Tablet 服务器,以及在 Tablet 服务器失效时进行善后
- 存储 BigTable 的模式信息
- 以及存储访问控制列表
6 介绍
- 为 Tablet 服务器分配 Tablets
- 检测新加入的或者过期失效的 Table 服务器
- 对 Tablet 服务器进行负载均衡
- 以及对保存在 GFS 上的文件进行垃圾收集
- 处理对模式的相关修改操作,例如建立表和列族
6.1 Tablet的位置

6.2 Table分配
- Master 服务器从 Chubby 获取一个唯一的 Master 锁,用来阻止创建其它的 Master 服务器实例
- Master 服务器扫描 Chubby 的服务器文件锁存储目录,获取当前正在运行的服务器列表
- Master 服务器和所有的正在运行的 Tablet 表服务器通信,获取每个 Tablet 服务器上 Tablet 的分配信息
- Master 服务器扫描 METADATA 表获取所有的 Tablet 的集合
6.3 Tablet服务

6.4 空间收缩
7 优化
7.1 局部性群组
7.2 压缩
7.3 通过缓存提高读操作的性能
7.3.1 Bloom 过滤器
7.3.2 Commit 日志的实现
7.3.3 Tablet恢复提速
7.3.4 利用不变性
8 性能评估

8.1 单个 Tablet 服务器的性能
8.2 性能提升
9 实际应用

9.1 Google Analytics
- Row Click 表(大约有 200TB 数据)的每一行存放了一个最终用户的会话。行的名字是一个包含 Web 站点名字以及用户会话创建时间的元组。这种模式保证了对同一个 Web 站点的访问会话是顺序的,会话按时间顺序存储。这个表可以压缩到原来尺寸的 14%
- Summary 表(大约有 20TB 的数据)包含了关于每个 Web 站点的、各种类型的预定义汇总信息。一个周期性运行的 MapReduce 任务根据 Raw Click 表的数据生成 Summary 表的数据,能够压缩到原有尺寸的 29%
9.2 Google Earth
9.3 个性化查询
10 经验教训
- 很多类型的错误都会导致大型分布式系统受损,这些错误不仅仅是通常的网络中断、或者很多分布式协议中设想的 fail-stop 类型的错误。内存数据损坏、网络中断、时钟偏差、机器挂起、扩展的和非对称的网络分区、使用的其它系统的Bug(比如 Chubby)、GFS 配额溢出、计划内和计划外的硬件维护。通过修改协议来解决这些问题, 比如RPC 机制中加入了 Checksum
- 在彻底了解一个新特性会被如何使用之后,再决定是否添加这个新特性是非常重要的。
- 系统级的监控对 Bigtable 非常重要。这个特性允许我们检测和修正很多的问题,比如 Tablet 数据结构上的锁的内容、在修改操作提交时对 GFS 的写入非常慢的问题、以及在 METADATA 表的 Tablet 不可用时,对 METADATA 表的访问挂起的问题。还可以帮助我们跟踪所有的集群状态、监控它们的大小、检查集群运行的我们软件的版本、监控集群流入数据的流量,以及检查是否有引发集群高延时的潜在因素。
- 简洁的设计和编码给维护和调试带来的巨大好处。
11 相关工作
- Boxwood:提供了诸如分布式协议、锁、分布式 Chunk 存储以及分布式 B-tree 存储,目的是提供创建类似文件系统、数据库等高级服务的基础构件。
- 分布式的hash表: CAN、Chord、Tapestry和 Pastry,应对各种不同的传输带宽、不可信的协作者、频繁的更改配置等。
- 并行的数据库系统,能够存储海量的数据:RAC, DB2
- 基于列的存储方案在压缩和磁盘读取方面具有的性能:C-Store、 Sybase IQ、SenSage、KDB+, MonetDB/X100,Daytona
- C-Store: 操作更像关系型数据库
12 结论
