您的位置：首页 > 技术中心 > 运维 >

一文详解apache druid

时间：2022-09-07 11:13

前言：

什么是apache druid？

它是一个集时间序列数据库、数据仓库和全文检索系统特点于一体的分析性数据平台。

本文会为大家简单了解一下druid的特性、使用场景、技术特点和架构等，这会有助于我们选择数据存储方案，深入了解druid存储和时间序列存储等。

概览

一个现代化的云原生，流原生，分析型数据库

Druid是为快速查询和快速摄入数据的工作流而设计的。Druid强在有强大的UI，运行时可操作查询，和高性能并发处理。Druid可以被视为一个满足多样化用户场景的数据仓库的开源替代品。

轻松与现有的数据管道集成

Druid可以从消息总线流式获取数据（如Kafka，Amazon Kinesis），或从数据湖批量加载文件（如HDFS，Amazon S3和其他同类数据源）。

比传统方案快100倍的性能

Druid对数据摄入和数据查询的基准性能测试大大超过了传统解决方案。

Druid的架构融合了数据仓库，时间序列数据库和检索系统最好的特性。

解锁新的工作流

Druid为Clickstream，APM(应用性能管理系统)，supply chain(供应链)，网络遥测，数字营销和其他事件驱动形式的场景解锁了新的查询方式和工作流。Druid专为实时和历史数据的快速临时查询而构建。

部署在AWS/GCP/Azure，混合云，k8s和租用服务器上

Druid可以部署在任何*NIX环境中。无论是内部环境还是云环境。部署Druid是非常easy的：通过添加或删减服务来扩容缩容。

使用场景

Apache Druid适用于对实时数据提取，高性能查询和高可用要求较高的场景。因此，Druid通常被作为一个具有丰富GUI的分析系统，或者作为一个需要快速聚合的高并发API的后台。Druid更适合面向事件数据。

比较常见的使用场景：

点击流分析（web和mobile分析）

风控分析

网路遥测分析（网络性能监控）

服务器指标存储

供应链分析（制造业指标）

应用性能指标

商业智能/实时在线分析系统OLAP

下面将详细分析这些使用场景：

用户活动和行为

Druid经常用在点击流，访问流，和活动流数据上。具体场景包括：衡量用户参与度，为产品发布追踪A/B测试数据，并了解用户使用方式。Druid可以做到精确和近似计算用户指标，例如不重复计数指标。这意味着，如日活用户指标可以在一秒钟计算出近似值(平均精度98%)，以查看总体趋势，或精确计算以展示给利益相关者。Druid可以用来做“漏斗分析”，去测量有多少用户做了某种操作，而没有做另一个操作。这对产品追踪用户注册十分有用。

网络流

Druid常常用来收集和分析网络流数据。Druid被用于管理以任意属性切分组合的流数据。Druid能够提取大量网络流记录，并且能够在查询时快速对数十个属性组合和排序，这有助于网络流分析。这些属性包括一些核心属性，如IP和端口号，也包括一些额外添加的强化属性，如地理位置，服务，应用，设备和ASN。Druid能够处理非固定模式，这意味着你可以添加任何你想要的属性。

数字营销

Druid常常用来存储和查询在线广告数据。这些数据通常来自广告服务商，它对衡量和理解广告活动效果，点击穿透率，转换率（消耗率）等指标至关重要。

Druid最初就是被设计成一个面向广告数据的强大的面向用户的分析型应用程序。在存储广告数据方面，Druid已经有大量生产实践，全世界有大量用户在上千台服务器上存储了PB级数据。

应用性能管理

Druid常常用于追踪应用程序生成的可运营数据。和用户活动使用场景类似，这些数据可以是关于用户怎样和应用程序交互的，它可以是应用程序自身上报的指标数据。Druid可用于下钻发现应用程序不同组件的性能如何，定位瓶颈，和发现问题。

不像许多传统解决方案，Druid具有更小存储容量，更小复杂度，更大数据吞吐的特点。它可以快速分析数以千计属性的应用事件，并计算复杂的加载，性能，利用率指标。比如，基于百分之95查询延迟的API终端。我们可以以任何临时属性组织和切分数据，如以天为时间切分数据，如以用户画像统计，如按数据中心位置统计。

物联网和设备指标

Driud可以作为时间序列数据库解决方案，来存储处理服务器和设备的指标数据。收集机器生成的实时数据，执行快速临时的分析，去估量性能，优化硬件资源，和定位问题。

和许多传统时间序列数据库不同，Druid本质上是一个分析引擎。Druid融合了时间序列数据库，列式分析数据库，和检索系统的理念。它在单个系统中支持了基于时间分区，列式存储，和搜索索引。这意味着基于时间的查询，数字聚合，和检索过滤查询都会特别快。

你可以在你的指标中包括百万唯一维度值，并随意按任何维度组合group和filter(Druid 中的 dimension维度类似于时间序列数据库中的tag)。你可以基于tag group和rank，并计算大量复杂的指标。而且你在tag上检索和过滤会比传统时间序列数据库更快。

OLAP和商业智能

Druid经常用于商业智能场景。公司部署Druid去加速查询和增强应用。和基于Hadoop的SQL引擎(如Presto或Hive)不同，Druid为高并发和亚秒级查询而设计，通过UI强化交互式数据查询。这使得Druid更适合做真实的可视化交互分析。

技术

Apache Druid 是一个开源的分布式数据存储引擎。Druid的核心设计融合了OLAP/analytic databases，timeseries database，和search systems的理念，以创造一个适用广泛用例的统一系统。Druid将这三种系统的主要特性融合进Druid的ingestion layer(数据摄入层)，storage format(存储格式化层)，querying layer(查询层)，和core architecture(核心架构)中。