Apache Flume简介 Apache Flume数据传输 什么是Flume? Apache Flume是一种工具/服务/数据提取机制,用于收集聚合并将大量流数据(例如日志文件,事件(等等))从各种源传输到集中式数据存储。 Flume是一种高度可靠,分布式和可配置的工具。它主要用于将流数据(日志数据)从各种Web服务器复制到HDFS。 Flume的应用 假设电子商务Web应用程序想要分析来自特定区域的客户行为。为此,他们需要将可用的日志数据移动到Hadoop进行分析。在这里,Apache Flume来救我们。 Flume用于将应用程序服务器生成的日志数据以更高的速度移动到HDFS中。 Flume的优点 以下是使用Flume的优点 使用Apache Flume,我们可以将数据存储到任何集中存储(HBase,HDFS)中。 当传入数据的速率超过可以将数据写入目标的速率时,Flume充当数据生成器和集中存储之间的中介,并在它们之间提供稳定的数据流。 Flume提供了 上下文路由 的功能。 Flume中的交易是基于渠道的,其中为每条消息维护两个交易(一个发送者和一个接收者)。它保证了可靠的消息传递。 Flume可靠,容错,可扩展,易于管理和可定制。 Features的特点 Flume的一些显着特征如下 Flume有效地将来自多个Web服务器的日志数据提取到集中存储(HDFS,HBase)中。 使用Flume,我们可以立即将来自多个服务器的数据导入Hadoop。 除了日志文件外,Flume还用于导入由Facebook和Twitter等社交网站以及亚马逊和Flipkart等电子商务网站生成的大量事件数据。 Flume支持大量的源和目的地类型。 Flume支持多跳流,扇入扇出流,上下文路由等。 Flume可以水平缩放。 Flume教程内容导航 Apache Flume简介 Apache Flume数据传输 Apache Flume架构 Apache Flume数据流 Apache Flume环境 Apache Flume配置 Apache Flume获取Twitter数据 Apache Flume序列发生器源 Apache Flume NetCat Source Apache Flume数据传输