Flume 教程学习手册

收录于 2023-04-20 00:10:05 · English · بالعربية · Español · हिंदीName · 日本語 · Русский язык · 中文繁體

什么是Flume?

Apache Flume 是一种工具/服务/数据摄取机制,用于收集大量流数据,例如日志文件、事件(等)从各种来源收集并传输到集中式数据存储。
Flume 是一个高度可靠、分布式和可配置的工具。它主要用于将流数据(日志数据)从各种 Web 服务器复制到 HDFS。
Apache Flume

Flume 的应用

假设一个电子商务 Web 应用程序想要分析来自特定区域的客户行为。为此,他们需要将可用的日志数据移动到 Hadoop 中进行分析。在这里,Apache Flume 来拯救我们。
Flume 用于将应用服务器生成的日志数据以更高的速度移动到 HDFS。

Flume 的优势

以下是使用 Flume 的优势-
使用 Apache Flume,我们可以将数据存储到任何集中式存储(HBase、HDFS)中。 当传入数据的速率超过数据写入目的地的速率时,Flume 会充当数据生产者和集中式存储之间的中介,并在它们之间提供稳定的数据流。 Flume 提供了上下文路由的功能。 Flume 中的事务是基于通道的,其中为每条消息维护两个事务(一个发送者和一个接收者)。它保证可靠的消息传递。 Flume 可靠、容错、可扩展、可管理且可定制。

Flume 的特点

Flume 的一些显着特性如下-
Flume 可以高效地将来自多个 Web 服务器的日志数据提取到集中式存储(HDFS、HBase)中。 使用 Flume,我们可以将来自多个服务器的数据立即导入 Hadoop。 除了日志文件,Flume 还用于导入 Facebook 和 Twitter 等社交网站以及亚马逊和 Flipkart 等电子商务网站生成的大量事件数据。 Flume 支持大量的源和目标国家类型。 Flume 支持多跳流、扇入扇出流、上下文路由等。 Flume 可以水平缩放。