Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Apache CarbonData社区很高兴发布1.4.0版本,在社区开发者和用户的共同努力下,1.4.0解决了超过220个JIRA Tickets(新特性和bug修复),欢迎大家试用。

简介

CarbonData是一个高性能的数据解决方案,目标是实现一份数据支持多种分析场景,包括BI分析,即席SQL查询,明细数据分析,流式分析等。CarbonData已经部署在许多企业生产环境中,例如一个规模较大的场景,支持单个表5PB数据(超过10万亿条记录)上明细数据分析,响应时间小于3秒!

下面是1.4.0支持的新特性介绍。

Carbon Core

数据加载性能提升

通过增强入库过程中的IO读写(包括排序临时文件改进,分区排序,免拷贝等),数据加载性能得到了显着提高。 在其中一个生产环境中,与上一版本相比,我们观察到多达300%的改进,加载吞吐量从35MB每秒每节点提升到102MB每秒每节点。

数据Compaction性能提升

通过在Compaction过程中采用数据预取和矢量化读取的改进,CarbonData表上的Compaction执行性能与上一版本相比提高了500%。得益于这个提升,在其中一个生产环境中,可以实现每5分钟的数据加载(数据量为几百GB)的同时达到秒级查询响应,通过设置自动Compaction,系统每隔30分钟和60分钟进行一次Compaction("carbon.compaction.level.threshold"设置为"6,2"),减少了Segments的数量,使CarbonData的索引更有效。 Test