ClickHouse为何查询速度快

发布时间：2023-02-16 09:17:04 所属栏目：云计算来源：互联网

导读：从存储引擎视角看 ClickHouse速度快的秘诀在于利用存储引擎的特殊设计充分减少磁盘I/O对查询速度的影响。从用户提交一条SQL语句进行查询到最终输出结果的过程中，大量的时间是消耗在了磁盘I/O上，在很多情况下，I/O所占用的时间可以达到整个时间的90%以上。

　　从存储引擎视角看

　　ClickHouse速度快的秘诀在于——利用存储引擎的特殊设计充分减少磁盘I/O对查询速度的影响。从用户提交一条SQL语句进行查询到最终输出结果的过程中，大量的时间是消耗在了磁盘I/O上，在很多情况下，I/O所占用的时间可以达到整个时间的90%以上。对存储引擎磁盘I/O的优化可以获得非常大的收益。ClickHouse的存储引擎设计中大量优化的目的也是为了减少磁盘I/O。本节将从该视角对ClickHouse存储引擎的优化进行解读。

　　1、预排序

　　ClickHouse与传统事务数据库的一个不同之处在于ClickHouse写入数据文件的数据时有序的，这就是本节将要介绍的预排序：将数据在写入磁盘前进行排序，以保证数据在磁盘上有序。

　　预排序在数据库系统是一个被广泛使用的技术，在实现范围查找时，可以将大量的随机读转换为顺序读，从而有效提高I/O效率，降低范围查询时的I/O时间。在点查找时，预排序能做到和未排序数据相同的性能。因此，预排序可以在不降低点查找性能的情况下，有效提高范围查询的性能。

　　2、压缩

　　ClickHouse的另一个降低I/O的手段是压缩，压缩可以减少读取和写入的数据量，从而减少I/O时间。并不是所有场景下都可以引入压缩的，很显然，压缩必然带来压缩和解压缩的CPU消耗，这是一个利用CPU时间换I/O时间的手段。事务数据库由于大部分情况下是针对行的操作，因此如果对每一行都进行一次压缩解压缩，带来的时间消耗是远大于磁盘I/O时间的。这就是事务数据库没有使用压缩技术的原因。

　　从计算引擎视角看

　　不同于存储引擎的设计，ClickHouse计算引擎的设计在很多方面都有着很大的争议，一方面向量化引擎的精妙设计让人拍案叫绝，另一方面相对粗糙的SQL解析和优化（解释）器也让ClickHouse在执行某些操作时让用户咬牙切齿。

　　1、 ClickHouse速度快的前提

　　在正式进入本节内容之前，我们首先需要明确一个前提：ClickHous不是在所有场景下都能获得很强的性能。因此，需要先分析ClickHouse在满足哪些前提下才能获得最强的查询性能。

　　ClickHouse计算引擎最精妙的设计在于向量化引擎，那么ClickHouse由于计算引擎原因导致的快，肯定是来自向量化引擎的加持。而ClickHouse的计算引擎导致的慢是因为缺乏代价优化器，那么由于计算引擎导致的慢也来自缺乏代价优化器带来的缺陷。基于这两个逻辑，我们可以分析出ClickHouse速度快的前提。

　　1）大量使用向量化运算

　　ClickHouse提供了很多内置函数，在使用这些内置函数时，ClickHouse会自动进行向量化优化。因此尽可能使用提供的内置函数进行计算，而不是自己写SQL语句。

　　2）查询语句中没有使用Join子句，或尽可能少的使用Join操作

　　ClickHouse没有代价优化器，这导致了ClickHouse在Join操作时会出现内存不足等情况，导致查询失败。Join的性能问题其实并不仅仅是ClickHouse才遇到，任何数据库在遇到大表Join时都有可能导致查询时间暴增。

　　大数据中的Spark计算引擎对Join操作做了非常多的优化，借助其强大的CBO实现了Join算法的自动选择。更是在此基础上，通过AQE（Adaptive Query Execution,自适应查询引擎），解决了大表Join操作时遇到数据倾斜时的性能问题。

（编辑：莱芜站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!