主流开源分布式图数据库 Benchmark-搜云库技术团队

1. 前言

近年来，深度学习和知识图谱技术发展迅速，相比于深度学习的“黑盒子”，知识图谱具有很强的可解释性，在搜索推荐、智能助理、金融风控等场景中有着广泛的应用。美团基于积累的海量业务数据，结合使用场景进行充分地挖掘关联，逐步建立起包括美食图谱、旅游图谱、商品图谱在内的近十个领域知识图谱，并在多业务场景落地，助力本地生活服务的智能化。

为了高效存储并检索图谱数据，相比传统关系型数据库，选择图数据库作为存储引擎，在多跳查询上具有明显的性能优势。当前业界知名的图数据库产品有数十款，选型一款能够满足美团实际业务需求的图数据库产品，是建设图存储和图学习平台的基础。我们结合业务现状，制定了选型的基本条件：

开源项目，对商业应用友好
- 拥有对源代码的控制力，才能保证数据安全和服务可用性。
支持集群模式，具备存储和计算的横向扩展能力
- 美团图谱业务数据量可以达到千亿以上点边总数，吞吐量可达到数万 qps，单节点部署无法满足存储需求。
能够服务 OLTP 场景，具备毫秒级多跳查询能力
- 美团搜索场景下，为确保用户搜索体验，各链路的超时时间具有严格限制，不能接受秒级以上的查询响应时间。
具备批量导入数据能力
- 图谱数据一般存储在 Hive 等数据仓库中。必须有快速将数据导入到图存储的手段，服务的时效性才能得到保证。

我们试用了 DB-Engines 网站上排名前 30 的图数据库产品，发现多数知名的图数据库开源版本只支持单节点，不能横向扩展存储，无法满足大规模图谱数据的存储需求，例如：Neo4j、ArangoDB、Virtuoso、TigerGraph、RedisGraph。经过调研比较，最终纳入评测范围的产品为：NebulaGraph（原阿里巴巴团队创业开发）、Dgraph（原 Google 团队创业开发）、HugeGraph（百度团队开发）。

2. 测试概要

2.1 硬件配置

数据库实例：运行在不同物理机上的 Docker 容器。
单实例资源：32 核心，64GB 内存，1TB SSD 存储。【Intel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz】
实例数量：3

2.2 部署方案

Nebula v1.0.1

Metad 负责管理集群元数据，Graphd 负责执行查询，Storaged 负责数据分片存储。存储后端采用 RocksDB。

实例 1	实例 2	实例 3
Metad	Metad	Metad
Graphd	Graphd	Graphd
Storaged[RocksDB]	Storaged[RocksDB]	Storaged[RocksDB]

Dgraph v20.07.0

Zero 负责管理集群元数据，Alpha 负责执行查询和存储。存储后端为 Dgraph 自有实现。

实例 1	实例 2	实例 3
Zero	Zero	Zero
Alpha	Alpha	Alpha

HugeGraph v0.10.4

HugeServer 负责管理集群元数据和查询。HugeGraph 虽然支持 RocksDB 后端，但不支持 RocksDB 后端的集群部署，因此存储后端采用 HBase。

1. 前言

2. 测试概要

2.1 硬件配置

2.2 部署方案

JetBrains 全家桶，激活、破解、教程