浩翰Redamancy的博客

Flume传输数据给Kafka

FlumeFlume是一个海量日志采集、聚合和传输的日志收集系统。 Kafka是一个可持久化的分布式的消息队列。由于采集和处理数据的速度不一定同步，所以使用Kafka这个消息中间件来缓冲，如果你收集了日志后，想输出到多个业务方也可结合Kafka，Kafka支持多个业务来读取数据。上图中Kafka生产的数据，是由Flume提供的，这里我们需要用到Flume集群，通过Flume集群将Agent的日志收集分发到Kafka（供实时计算处理）和HDFS（离线计算处理）。Flume将收集到的数据输送到Kafka中间件，以供Storm去实时消费计算，整个流程从各个Web节点上，通过Flume的Age...

2019/09/29

Flume Kafka

Hive学习笔记

Hive内部是什么Hive二进制分支版本核心包含3个部分。主要部分是Java代码本身。在$HIVE_HOME/lib 目录下发现有众多的jar包文件。所有的Hive客户端都需要一个metastoreservice（元数据服务），Hive使用这个服务来存储表模式信息和其他元数据信息。通常情况下会使用一个关系型数据库中的表来存储这些信息。默认情况下，Hive会使用内置的Derby sql服务器，我这里使用的是MySQL 最后，Hive还提供了一个简单的网页界面，也就是Hive网页界面，提供了远程访问的Hive服务 conf目录下存放了配置Hive的配置文件。Hive具有非常多的配置属性...

2019/09/29

Hive

Hive beeline Hiveserver2

HiveServer2HiveServer 2(HS2)是一种服务，使客户端能够对Hive执行查询。HiveServer 2是HiveServer 1的继承者，HiveServer 1已被废弃。HS2支持多客户端并发和身份验证。它的设计是为了更好地支持开放API客户机，如JDBC和ODBC。HS2是一个作为复合服务运行的单个进程，它包括基于Thwift的Hive服务(TCP或HTTP)和用于WebUI的JettyWeb服务器。启动HiveServer2在bin目录下 ./hiveserver2 启动hive的服务： [root@hdp20-04 hive-1.2.1]# bin/hiv...

2019/09/29

Hive

Hive报错记录

创建表的时候报错，重新复制了一下操作成功使用load函数传数据的时候报错问题出在用户夹错误修改配置文件 hive-site,xml <name>hive.metastore.warehouse.dir</name>#hive元数据存放目录,hdfs <value>/usr/hive/warehouse</value> <name>hive.exec.scratchdir</name>#hive缓存存放目录,hdfs <value>/tmp/hive</value> <nam...

2019/09/29

Hive

Hive2.3.0的环境搭建

前期准备完成hadoop的安装完成mysql的安装下载Hivewget http://mirror.bit.edu.cn/apache/hive/hive-2.3.0/apache-hive-2.3.0-bin.tar.gz或者去官网安装解压到指定安装目录用xftp将安装包传到opt/hadoop中解压：tar -zxvf apache-hive-2.3.0-bin.tar.gz 修改文件夹名称：mv ./apache-hive-2.3.0-bin ./hive-2.3.0 修改环境变量vi /etc/profile 插入 export HIVE_HOME=/opt/hadoop/...

2019/09/29

Hadoop Hive

Spark 2.4.2的环境搭建

依赖环境：Scala Spark是使用Scala编写的，用Scala编写Spark任务可以像操作本地集合对象一样操作分布式数据集RDD 安装的过程可以参考我的这篇文章Scala安装安装完scala可以查看版本scala -version 这里重点介绍Spark的安装，相比于hadoop的安装要简单一些，而且步骤类似，话不多说，开始！ Spark的安装解压tar -zxvf /spark-2.2.2-bin-hadoop2.7.tgzmv spark-2.4.2-bin-hadoop2.7 spark-2.4.2 修改环境变量#spark export SPARK_HOME=/opt...

2019/09/29

Spark

VMware Workstation 14运行虚拟机黑屏时的解决方案

管理员运行 netsh winsock reset 帮你解决一切烦恼好吧，说正经的，虚拟机和主机之间的通信，基本上是以 socket 的方式进行通信的（这里的 socket 泛指一切 socket，包括本地的、网络的等等）某个程序通过 LSP 给系统的 TCP/IP stack 注入了自己的 DLL，如果程序退出时，没有把这个 DLL 收回来，或者回收失败、没有彻底回收等，那么这个 DLL 残留的东西影响了整个 TCP/IP stack，而且是永久性的每个 socket 收发的数据包是要经过 TCP/IP stack 的，这个 DLL 可能会对这些 socket 的数据包做了些什么...

2019/09/29

Vmware

Esxi centos7搭建NAT和DHCP服务器

什么是NATNAT（Network address translation）即网络地址转换，作为一种过渡解决手段，可以用来减少对全球合法IP地址的需求。简单的说，NAT就是在内部专用网络中使用内部地址，而当内部节点要与外界网络发生联系时，就在边缘路由器或者防火墙处，将内部地址转换成公网地址，从而使得在外网（Internet）上使用一个和数个合法IP地址正常传输数据。其中，这里的外网和内网是相对来讲的，下面假设能够访问互联网的网络为外网。什么是DHCPDHCP（Dynamic Host Configuration Protocol，动态主机配置协议）通常被应用在大型的局域网络环境中，主要...

2019/09/29

Liunx Esxi

Liunx中etc下的passwd与shadow文件详解

在linux操作系统中， /etc/passwd文件中的每个用户都有一个对应的记录行,记录着这个用户的一下基本属性。该文件对所有用户可读。而/etc/shadow文件正如他的名字一样，他是passwd文件的一个影子，/etc/shadow文件中的记录行与/etc/passwd中的一一对应，它由pwconv命令根据/etc/passwd中的数据自动产生。但是/etc/shadow文件只有系统管理员才能够进行修改和查看。 /etc/passwd文件介绍首先，我们通过命令行cat /etc/passwd进行查看/etc/passwd文件内容： root:x:0:0:r...

2019/09/06

Liunx

tracert命令详解

tracert命令Tracert是路由跟踪程序，用于确定 IP 数据报访问目标所经过的路径。Tracert 命令用 IP 生存时间 (TTL) 字段和 ICMP 错误消息来确定从一个主机到网络上其他主机的路由。在工作环境中有多条链路出口时，可以通过该命令查询数据是经过的哪一条链路出口。 Tracert一般用来检测故障的位置，我们可以使用用tracert IP命令确定数据包在网络上的停止位置，来判断在哪个环节上出了问题，虽然还是没有确定是什么问题，但它已经告诉了我们问题所在的地方，方便检测网络中存在的问题。 Tracert工作原理通过向目标发送不同 IP 生存时间 (TTL) 值的“I...

2019/09/05

Just Do IT !