Flume传输数据给Kafka

Flume Kafka

字数统计: 561阅读时长: 2 min

 2019/09/29   Share

Flume

Flume是一个海量日志采集、聚合和传输的日志收集系统。

Kafka是一个可持久化的分布式的消息队列。

由于采集和处理数据的速度不一定同步，所以使用Kafka这个消息中间件来缓冲，如果你收集了日志后，想输出到多个业务方也可结合Kafka，Kafka支持多个业务来读取数据。在这里插入图片描述
上图中Kafka生产的数据，是由Flume提供的，这里我们需要用到Flume集群，通过Flume集群将Agent的日志收集分发到Kafka（供实时计算处理）和HDFS（离线计算处理）。

Flume将收集到的数据输送到Kafka中间件，以供Storm去实时消费计算，整个流程从各个Web节点上，通过Flume的Agent代理收集日志，然后汇总到Flume集群，再由Flume的Sink将日志输送到Kafka集群，完成数据的传输流程。

#定义各个组件  
agent1.sources  = src  
agent1.channels = ch_hdfs ch_kafka  
agent1.sinks    = des_hdfs des_kafka  
#配置source  
agent1.sources.src.type = syslogtcp  
agent1.sources.src.bind = localhost  
agent1.sources.src.port = 6666  
#配置channel  
agent1.channels.ch_hdfs.type = memory  
agent1.channels.ch_kafka.type = memory  
#配置hdfs sink  
agent1.sinks.des_hdfs.type = hdfs  
agent1.sinks.des_hdfs.hdfs.path = hdfs://localhost:9000/myflume/syslog_mem_hdfsandkafka/  
agent1.sinks.des_hdfs.hdfs.useLocalTimeStamp = true  
#设置flume临时文件的前缀为 . 或 _ 在hive加载时，会忽略此文件。  
agent1.sinks.des_hdfs.hdfs.inUsePrefix=_  
#设置flume写入文件的前缀是什么  
agent1.sinks.des_hdfs.hdfs.filePrefix = q7  
agent1.sinks.des_hdfs.hdfs.fileType = DataStream  
agent1.sinks.des_hdfs.hdfs.writeFormat = Text  
#hdfs创建多久会新建一个文件，0为不基于时间判断,单位为秒  
agent1.sinks.des_hdfs.hdfs.rollInterval = 20  
#hdfs写入的文件达到多大时，创建新文件 0为不基于空间大小,单位B  
agent1.sinks.des_hdfs.hdfs.rollSize = 10  
#hdfs有多少条消息记录时，创建文件，0为不基于条数判断  
agent1.sinks.des_hdfs.hdfs.rollCount = 5  
#hdfs空闲多久就新建一个文件,单位秒  
agent1.sinks.des_hdfs.hdfs.idleTimeout = 20  
#配置kafka sink  
agent1.sinks.des_kafka.type = org.apache.flume.sink.kafka.KafkaSink  
agent1.sinks.des_kafka.brokerList = localhost:9092  
agent1.sinks.des_kafka.topic = flumekafka  
agent1.sinks.des_kafka.batchSize=100  
agent1.sinks.des_kafka.requiredAcks=1  
##下面是把上面设置的组件关联起来（把点用线连起来）  
agent1.sources.src.channels = ch_hdfs ch_kafka  
agent1.sinks.des_hdfs.channel    = ch_hdfs  
agent1.sinks.des_kafka.channel   = ch_kafka

启动kafka-server

原文作者：浩翰

原文链接：https://plutoacharon.github.io/2019/09/29/Flume传输数据给Kafka/

发表日期：September 29th 2019, 11:07:18 pm

更新日期：September 29th 2019, 11:07:48 pm

Next Post

Flume多source，多sink组合框架搭建
Previous Post

Hive学习笔记

CATALOG

1. Flume



Total : 190

2020

2019

11/28Hive基本命令操作
11/28WindowsServer2016 Anaconda下TensorFlow-GPU环境搭建详细教程（包含CUDA+cuDNN安装过程）
11/28使用etree与xpath爬取Discuz论坛
11/28华为服务器H22H-03的Windows Server2012安装
11/28Ubuntu 18.04.2 LTS网络设置
11/28Hbase Java API接口
11/28Spark Shell操作
11/28WindowsServer 2016 最新激活方法
11/28Docker实战创建支持SSH服务的镜像(超详细)
11/28Hive java API接口
11/04Docker入门详解笔记
11/04Centos7 Docker基本命令详解
11/04Docker数据管理:实现将主机目录挂载到容器中并共享
11/04hbase shell报错:zookeeper.RecoverableZooKeeper: ZooKeeper exists failed after 4 attempts
11/04win10 Git修改打开时的路径与上传文件夹到GitHub
10/24Hive启动报错 Could not create ServerSocket on address 0.0.0.0/0.0.0.0:9083
10/24源码安装httpd报错: checking for APR... configure: error: the --with-apr parameter is incorrect.
10/24Hive报错:javax.jdo.JDOFatalDataStoreException: Unable to open a test connection to the given database.
10/24vsphere报错: 连接到虚拟机控制台失败并显示错误：VMRC 控制台的连接已断开。正在尝试重新连接
10/24ctf线下AWD攻防赛学习笔记
10/24CTF线下AWD攻防步骤总结
10/16Centos7 bg与fg命令
10/16解决httpd: Could not reliably determine the server's fully qualified domain name
10/14大数据环境准备-搭建数据仓库
10/14Centos7配置时间同步
10/14Centos7配置yum源安装Mysql
10/14大数据基础环境搭建
10/10Centos7安装Anaconda详细版
10/10基于PySpark的电影推荐引擎
10/10使用PySpark对招聘信息数据进行分析
10/10PHP代码审计工具Rips的使用
10/10CTF 河北大赛AWD简单的代码审计
10/10Liunx 管理用户、组及权限
10/06Liunx提权常用命令
10/06kali20119最新更新源
10/06Kali apt报错E: 无法获得锁 /var/cache/apt/archives/lock - open (11: 资源暂时不可用)
10/06Kali apt-get报E: 无法打开锁文件 /var/lib/dpkg/lock-frontend - open (2: 没有那个文件或目录)
10/06payload、shellcode、exp、poc区分方法
10/06思科模拟器使用IOS配置启用ospf路由
10/06MobaXterm汉化以及解决中文乱码问题
10/03centos7 挂载使用外部存储系统
10/03centos7 使用vi编辑器配置网络环境
10/03yum更新报错您可以尝试添加 --skip-broken 选项来解决该问题
10/03Centos7 图形化安装,分区,网络设置
10/03centos7 使用linux命令管理目录和文件
10/02CTF隐写总结
10/02Python 爬取Boos直聘
10/02Liunx curl命令详解
10/02Linux crontab命令详解
10/02Linux下查看用户列表
10/02Nmap工具命令详解
09/29基于Facenet与MTCNN的人脸识别
09/29Hive学习笔记
09/29python 字典列表相互转换与排序
09/29Hive beeline Hiveserver2
09/29修改Compare.py报错时的解决方案
09/29Hive报错记录
09/29在Ubuntu的Anaconda环境下创建深度学习环境
09/29Hive2.3.0的环境搭建
09/29分布式消息系统Kafka
09/29Spark 2.4.2的环境搭建
09/29Zookeeper环境搭建
09/29VMware Workstation 14运行虚拟机黑屏时的解决方案
09/29Flume学习笔记
09/29Flume传输数据给Kafka
09/29python 读写csv数据
09/29Flume多source，多sink组合框架搭建
09/29Sqoop学习笔记
09/29ZooKeeper学习笔记
09/29centos7 访问php 该网页无法正常运作目前无法处理此请求
09/29Esxi centos7搭建NAT和DHCP服务器
09/06Liunx中etc下的passwd与shadow文件详解
09/05tracert命令详解
08/31win10下用IDEA+Hadoop运行时的环境搭建
08/31JobTracker和TaskTracker
08/31解决vmware（vsphere）部署linux系统模板后无法联网问题
08/31CentOS7关闭SELinux
08/31HDFS文件接口
08/31在Centos 7下安装PHP 7
08/31Windows下的MapReduce编程实现
08/20Linux下进程kill掉的N种方法
08/20Centos7 防火墙关闭与nginx无法访问
08/20Mysql（双主）主主架构配置
08/20keepalived+nginx+apache+mysql实现高可用、负载均衡的网站(下)
08/20Centos7 安装 php 和 php-fpm
08/20keepalived+nginx+apache+mysql实现高可用、负载均衡的网站(上)
08/17本地安装maven库与IDEA安装本地maven库
08/17IDEA使用Git将项目上传到Github
08/13初识Spark
08/13Java中“==”与equeals的区别
08/10Java编程思想学习笔记
08/10Java编程思想学习笔记(二)
08/09Hadoop2.8.0的环境搭建
08/08初识Scala
08/08Liunx中tar命令的使用
08/08Scala的安装
08/02Java变量类型
08/02什么是环境变量
07/31Centos7下的JDK安装
07/30Centos7下NAT设置静态ip
07/17Github学习笔记
05/21hexo搭建个人博客（二）
05/20hexo搭建个人博客（一）

缺失模块。
1、请确保node版本大于6.2
2、在博客根目录（注意不是archer根目录）执行以下命令：
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置：

jsonContent:
  meta: false
  pages: false
  posts:
    title: true
    date: true
    path: true
    text: false
    raw: false
    content: false
    slug: false
    updated: false
    comments: false
    link: false
    permalink: false
    excerpt: false
    categories: true
    tags: true