中文版本 Chinese Version

Apache CarbonData社区很高兴发布1.4.0版本，在社区开发者和用户的共同努力下，1.4.0解决了超过220个JIRA Tickets（新特性和bug修复），欢迎大家试用。

简介

CarbonData是一个高性能的数据解决方案，目标是实现一份数据支持多种分析场景，包括BI分析，即席SQL查询，明细数据分析，流式分析等。CarbonData已经部署在许多企业生产环境中，例如一个规模较大的场景，支持单个表5PB数据(超过10万亿条记录)上明细数据分析，响应时间小于3秒!

下面是1.4.0支持的新特性介绍。

Carbon Core

数据加载性能提升

通过增强入库过程中的IO读写(包括排序临时文件改进，分区排序，免拷贝等)，数据加载性能得到了显着提高。在其中一个生产环境中，与上一版本相比，我们观察到多达300%的改进，加载吞吐量从35MB每秒每节点提升到102MB每秒每节点。

数据Compaction性能提升

通过在Compaction过程中采用数据预取和矢量化读取的改进，CarbonData表上的Compaction执行性能与上一版本相比提高了500%。得益于这个提升，在其中一个生产环境中，可以实现每5分钟的数据加载(数据量为几百GB)的同时达到秒级查询响应，通过设置自动Compaction，系统每隔30分钟和60分钟进行一次Compaction("carbon.compaction.level.threshold"设置为"6,2")，减少了Segments的数量，使CarbonData的索引更有效。

DataMap管理

1.4.0中的CREATE DATAMAP语句中引入了新的语法'DEFERRED REBUILD'，这使得用户可以选择DataMap管理机制是自动或手动。在创建DataMap时，如果用户指定了'DEFERRED REBUILD'，系统会默认设置DataMap的状态为不可用，当用户执行REBUILD DATAMAP命令后，系统会触发DataMap的加载，并在查询时使用该DataMap。这使用户可以控制何时加载DataMap，有利于用户控制对资源的使用。相对地，用户也可以不指定'DEFERRED REBUILD', 每当有新的数据加载发生时系统会自动触发所有相关DataMap的加载（与老版本一样）。

外部表

现在您可以通过CREATE TABLE ... LOCATION ...来指定Carbon数据文件的存储位置，这个特性的行为和用户与Hive External Table相同。

支持云存储

您可以使用云存储来建立Carbon外部表，例如将Carbon表存储在AWS S3，华为云OBS等云存储中。

支持在独立应用程序中使用SDK

1.4.0提供了Java SDK，通过使用该SDK，应用程序可以不依赖Hadoop和Spark来创建表格、写入和读取CarbonData文件。例如，用户可以写一个独立的Java程序将现有数据转换为CarbonData文件。，目前，SDK支持把以下格式转换为CarbonData文件，支持写入到本地磁盘或云存储。

1。CSV数据，Schema由用户指定。

2。JSON数据，Schema通过Avro对象表达。

Page tree