【图文详解】一文全面彻底搞懂HBase、LevelDB、RocksDB等NoSQL背后的存储原理：LSM-tree 日志结构合并树开发者社区

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

【图文详解】一文全面彻底搞懂HBase、LevelDB、RocksDB等NoSQL背后的存储原理：LSM-tree 日志结构合并树

比较项	B树	B+树
指针	所有内部和叶节点都有数据指针	只有叶节点有数据指针
搜索	由于并非所有键都在叶中可用，因此搜索通常需要更多时间。	所有的键都在叶节点，因此搜索更快更准确。
冗余键	树中没有保留键的副本。	保留密钥的副本，并且所有节点都存在于叶子中。
插入	插入需要更多时间，而且有时无法预测。	插入更容易，结果始终相同。
删除	内部节点的删除非常复杂，树必须经历很多变换。	删除任何节点都很容易，因为所有节点都在叶子上找到。
叶节点	叶节点不存储为结构链表。	叶节点存储为结构链表。
使用权	无法顺序访问节点	可以像链表一样顺序访问
高度	对于特定数量的节点高度较大	对于相同数量的节点，高度小于 B 树
应用	用于数据库、搜索引擎的 B 树	B+ 树用于多级索引、数据库索引
节点数	任何中间层 'l' 的节点数是 2 l。	每个中间节点可以有 n/2 到 n 个子节点。

// 定义了数据块的位置和大小
struct BlockHandler {
  varint offset;
  varint size;
struct Footer {
  BlockHandler metaIndexHandler;  // MetaIndexBlock的文件偏移量和长度
  BlockHandler indexHandler; // IndexBlock的文件偏移量和长度
  byte[n] padding;  // 内存垫片
  int32 magicHighBits;  // 魔数后32位
  int32 magicLowBits; // 魔数前32位
复制代码

$ echo http://code.google.com/p/leveldb/ | sha1sum
db4775248b80fb57d0ce0768d85bcee39c230b61
复制代码

struct Block {
  byte[] data;
  int8 compressType;
  int32 crcValue;
}

crcValue = crc32(data, compressType)

Key = sharedKey + unsharedKey

struct Entry {
  varint sharedKeyLength;
  varint unsharedKeyLength;
  varint valueLength;
  byte[] unsharedKeyContent;
  byte[] valueContent;
struct DataBlock {
  Entry[] entries;
  int32 [] restartPointOffsets;
  int32 restartPointCount;
}

struct FilterEntry {
  byte[] rawbits;
struct FilterBlock {
  FilterEntry[n] filterEntries;
  int32[n] filterEntryOffsets;
  int32 offsetArrayOffset;
  int8 baseLg;  // 分割系数
}

// 每个 Key 占用 10bit 存放指纹信息
options.SetFilterPolicy(levigo.NewBloomFilter(10))

key = "filter." + filterName
// value 定义了数据块的位置和大小
struct BlockHandler {
  varint offset;
  varint size;
}

【图文详解】一文全面彻底搞懂HBase、LevelDB、RocksDB等NoSQL背后的存储原理：LSM-tree 日志结构合并树

【图文详解】一文全面彻底搞懂HBase、LevelDB、RocksDB等NoSQL背后的存储原理：LSM-tree 日志结构合并树

什么是 LSM 树？

B tree 与 B+ tree

LSM tree 问题场景

关于磁盘IO

性能比较-机械硬盘

性能比较-固态硬盘

LSM tree 特性

SSTable Definitions:

Memtable

SSTable

References

SSTable 数据模型

Footer 结构

Block 结构

DataBlock 结构

FilterBlock 结构

MetaIndexBlock 结构

IndexBlock 结构

SSTable in Apache Cassandra

LSM树的Compact策略

RocksDB读写简介

通用compaction策略

size-tiered compaction与空间放大

leveled compaction与写放大

RocksDB的混合compaction策略

leveled compaction