Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Apache CarbonData社区很高兴发布1.4.0版本,在社区开发者和用户的共同努力下,1.4.0解决了超过230个JIRA Tickets(新特性和bug修复),欢迎大家试用。

简介

CarbonData是一个高性能的数据解决方案,目标是实现一份数据支持多种分析场景,包括BI分析,即席SQL查询,明细数据分析,流式分析等。CarbonData已经部署在许多企业生产环境中,例如一个规模较大的场景,支持单个表5PB数据CarbonData是一个高性能的数据解决方案,目标是实现一份数据支持多种分析场景,包括BI分析,即席SQL查询,明细数据分析,流式分析等。CarbonData已经部署在许多企业生产环境中,例如一个规模较大的场景,支持单个表3PB数据(超过10万亿条记录超过5万亿条记录)上明细数据分析,响应时间小于3秒!

下面是1.4.0支持的新特性介绍。

...

通过增强入库过程中的IO读写(包括排序临时文件改进,分区排序,免拷贝等),数据加载性能得到了显著提高。 在其中一个生产环境中,与上一版本相比,我们观察到多达300%的改进,加载吞吐量从35MB每秒每节点提升到102MB每秒每节点。在一个实际的生产环境中,与上一版本相比,我们观察到多达300%的改进。

数据Compaction性能提升

通过在Compaction过程中采用数据预取和矢量化读取的改进,CarbonData表上的Compaction执行性能与上一版本相比提高了500%。得益于这个提升,在其中一个生产环境中,可以实现每5分钟的数据加载通过在Compaction过程中采用数据预取和矢量化读取的改进,CarbonData表上的Compaction执行性能与上一版本相比提高了500%。得益于这个提升,在一个面向IoT的场景中,做到每5分钟的数据加载(数据量为几百GB)的同时达到秒级查询响应,通过设置自动Compaction,系统每隔30分钟和60分钟进行一次Compaction("carbon.compaction.level.threshold"设置为"6,2"),减少了Segments的数量,使CarbonData的索引更有效。 

...

现在您可以通过CREATE TABLE ... LOCATION ...来指定Carbon数据文件的存储位置,这个特性的行为和用户与Hive External Table相同。

支持云存储

您可以使用云存储来建立Carbon外部表,例如将Carbon表存储在AWS 您可以使用云存储来建立CarbonData外部表,例如将CarbonData表存储在AWS S3,华为云OBS等云存储中。

支持在独立应用程序中使用SDK

...