加入收藏 | 设为首页 | 会员中心 | 我要投稿 莱芜站长网 (https://www.0634zz.com/)- 云连接、建站、智能边缘云、设备管理、大数据!
当前位置: 首页 > 云计算 > 正文

ClickHouse为何查询速度快

发布时间:2023-02-16 09:17:04 所属栏目:云计算 来源:互联网
导读:从存储引擎视角看 ClickHouse速度快的秘诀在于利用存储引擎的特殊设计充分减少磁盘I/O对查询速度的影响。从用户提交一条SQL语句进行查询到最终输出结果的过程中,大量的时间是消耗在了磁盘I/O上,在很多情况下,I/O所占用的时间可以达到整个时间的90%以上。

  从存储引擎视角看
 
  ClickHouse速度快的秘诀在于——利用存储引擎的特殊设计充分减少磁盘I/O对查询速度的影响。从用户提交一条SQL语句进行查询到最终输出结果的过程中,大量的时间是消耗在了磁盘I/O上,在很多情况下,I/O所占用的时间可以达到整个时间的90%以上。对存储引擎磁盘I/O的优化可以获得非常大的收益。ClickHouse的存储引擎设计中大量优化的目的也是为了减少磁盘I/O。本节将从该视角对ClickHouse存储引擎的优化进行解读。
 
  1、预排序
 
  ClickHouse与传统事务数据库的一个不同之处在于ClickHouse写入数据文件的数据时有序的,这就是本节将要介绍的预排序:将数据在写入磁盘前进行排序,以保证数据在磁盘上有序。
 
  预排序在数据库系统是一个被广泛使用的技术,在实现范围查找时,可以将大量的随机读转换为顺序读,从而有效提高I/O效率,降低范围查询时的I/O时间。在点查找时,预排序能做到和未排序数据相同的性能。因此,预排序可以在不降低点查找性能的情况下,有效提高范围查询的性能。
 
  2、压缩
 
  ClickHouse的另一个降低I/O的手段是压缩,压缩可以减少读取和写入的数据量,从而减少I/O时间。并不是所有场景下都可以引入压缩的,很显然,压缩必然带来压缩和解压缩的CPU消耗,这是一个利用CPU时间换I/O时间的手段。事务数据库由于大部分情况下是针对行的操作,因此如果对每一行都进行一次压缩解压缩,带来的时间消耗是远大于磁盘I/O时间的。这就是事务数据库没有使用压缩技术的原因。

  从计算引擎视角看
 
  不同于存储引擎的设计,ClickHouse计算引擎的设计在很多方面都有着很大的争议,一方面向量化引擎的精妙设计让人拍案叫绝,另一方面相对粗糙的SQL解析和优化(解释)器也让ClickHouse在执行某些操作时让用户咬牙切齿。
 
  1、 ClickHouse速度快的前提
 
  在正式进入本节内容之前,我们首先需要明确一个前提:ClickHous不是在所有场景下都能获得很强的性能。因此,需要先分析ClickHouse在满足哪些前提下才能获得最强的查询性能。
 
  ClickHouse计算引擎最精妙的设计在于向量化引擎,那么ClickHouse由于计算引擎原因导致的快,肯定是来自向量化引擎的加持。而ClickHouse的计算引擎导致的慢是因为缺乏代价优化器,那么由于计算引擎导致的慢也来自缺乏代价优化器带来的缺陷。基于这两个逻辑,我们可以分析出ClickHouse速度快的前提。
 
  1)大量使用向量化运算
 
  ClickHouse提供了很多内置函数,在使用这些内置函数时,ClickHouse会自动进行向量化优化。因此尽可能使用提供的内置函数进行计算,而不是自己写SQL语句。
 
  2)查询语句中没有使用Join子句,或尽可能少的使用Join操作
 
  ClickHouse没有代价优化器,这导致了ClickHouse在Join操作时会出现内存不足等情况,导致查询失败。Join的性能问题其实并不仅仅是ClickHouse才遇到,任何数据库在遇到大表Join时都有可能导致查询时间暴增。
 
  大数据中的Spark计算引擎对Join操作做了非常多的优化,借助其强大的CBO实现了Join算法的自动选择。更是在此基础上,通过AQE(Adaptive Query Execution,自适应查询引擎),解决了大表Join操作时遇到数据倾斜时的性能问题。

(编辑:莱芜站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读