Just Do IT !

Just Do IT !

一个对技术永远充满热爱的大学生

Flume传输数据给Kafka
FlumeFlume是一个海量日志采集、聚合和传输的日志收集系统。 Kafka是一个可持久化的分布式的消息队列。 由于采集和处理数据的速度不一定同步,所以使用Kafka这个消息中间件来缓冲,如果你收集了日志后,想输出到多个业务方也可结合Kafka,Kafka支持多个业务来读取数据。上图中Kafka生产的数据,是由Flume提供的,这里我们需要用到Flume集群,通过Flume集群将Agent的日志收集分发到Kafka(供实时计算处理)和HDFS(离线计算处理)。Flume将收集到的数据输送到Kafka中间件,以供Storm去实时消费计算,整个流程从各个Web节点上,通过Flume的Age...
Hive学习笔记
Hive内部是什么Hive二进制分支版本核心包含3个部分。主要部分是Java代码本身。在$HIVE_HOME/lib 目录下发现有众多的jar包文件。 所有的Hive客户端都需要一个metastoreservice(元数据服务),Hive使用这个服务来存储表模式信息和其他元数据信息。通常情况下会使用一个关系型数据库中的表来存储这些信息。默认情况下,Hive会使用内置的Derby sql服务器, 我这里使用的是MySQL 最后,Hive还提供了一个简单的网页界面,也就是Hive网页界面,提供了远程访问的Hive服务 conf目录下存放了配置Hive的配置文件。Hive具有非常多的配置属性...
Hive beeline Hiveserver2
HiveServer2HiveServer 2(HS2)是一种服务,使客户端能够对Hive执行查询。HiveServer 2是HiveServer 1的继承者,HiveServer 1已被废弃。HS2支持多客户端并发和身份验证。它的设计是为了更好地支持开放API客户机,如JDBC和ODBC。HS2是一个作为复合服务运行的单个进程,它包括基于Thwift的Hive服务(TCP或HTTP)和用于WebUI的JettyWeb服务器。 启动HiveServer2在bin目录下 ./hiveserver2 启动hive的服务: [root@hdp20-04 hive-1.2.1]# bin/hiv...
Hive报错记录
创建表的时候报错,重新复制了一下操作成功 使用load函数传数据的时候报错问题出在用户夹错误修改配置文件 hive-site,xml <name>hive.metastore.warehouse.dir</name>#hive元数据存放目录,hdfs <value>/usr/hive/warehouse</value> <name>hive.exec.scratchdir</name>#hive缓存存放目录,hdfs <value>/tmp/hive</value> <nam...
Hive2.3.0的环境搭建
前期准备完成hadoop的安装完成mysql的安装 下载Hivewget http://mirror.bit.edu.cn/apache/hive/hive-2.3.0/apache-hive-2.3.0-bin.tar.gz或者去官网安装 解压到指定安装目录用xftp将安装包传到opt/hadoop中 解压:tar -zxvf apache-hive-2.3.0-bin.tar.gz 修改文件夹名称:mv ./apache-hive-2.3.0-bin ./hive-2.3.0 修改环境变量vi /etc/profile 插入 export HIVE_HOME=/opt/hadoop/...
Spark 2.4.2的环境搭建
依赖环境:Scala Spark是使用Scala编写的,用Scala编写Spark任务可以像操作本地集合对象一样操作分布式数据集RDD 安装的过程可以参考我的这篇文章Scala安装 安装完scala可以查看版本scala -version 这里重点介绍Spark的安装,相比于hadoop的安装要简单一些,而且步骤类似,话不多说,开始! Spark的安装解压tar -zxvf /spark-2.2.2-bin-hadoop2.7.tgzmv spark-2.4.2-bin-hadoop2.7 spark-2.4.2 修改环境变量#spark export SPARK_HOME=/opt...
VMware Workstation 14运行虚拟机黑屏时的解决方案
管理员运行 netsh winsock reset 帮你解决一切烦恼 好吧,说正经的,虚拟机和主机之间的通信,基本上是以 socket 的方式进行通信的(这里的 socket 泛指一切 socket,包括本地的、网络的等等) 某个程序通过 LSP 给系统的 TCP/IP stack 注入了自己的 DLL,如果程序退出时,没有把这个 DLL 收回来,或者回收失败、没有彻底回收等,那么这个 DLL 残留的东西影响了整个 TCP/IP stack,而且是永久性的 每个 socket 收发的数据包是要经过 TCP/IP stack 的,这个 DLL 可能会对这些 socket 的数据包做了些什么...
Esxi centos7搭建NAT和DHCP服务器
什么是NATNAT(Network address translation)即网络地址转换,作为一种过渡解决手段,可以用来减少对全球合法IP地址的需求。简单的说,NAT就是在内部专用网络中使用内部地址,而当内部节点要与外界网络发生联系时,就在边缘路由器或者防火墙处,将内部地址转换成公网地址,从而使得在外网(Internet)上使用一个和数个合法IP地址正常传输数据。其中,这里的外网和内网是相对来讲的,下面假设能够访问互联网的网络为外网。 什么是DHCPDHCP(Dynamic Host Configuration Protocol,动态主机配置协议)通常被应用在大型的局域网络环境中,主要...
Liunx中etc下的passwd与shadow文件详解
  在linux操作系统中, /etc/passwd文件中的每个用户都有一个对应的记录行,记录着这个用户的一下基本属性。该文件对所有用户可读。   而/etc/shadow文件正如他的名字一样,他是passwd文件的一个影子,/etc/shadow文件中的记录行与/etc/passwd中的一一对应,它由pwconv命令根据/etc/passwd中的数据自动产生。但是/etc/shadow文件只有系统管理员才能够进行修改和查看。  /etc/passwd文件介绍   首先,我们通过命令行cat /etc/passwd进行查看/etc/passwd文件内容: root:x:0:0:r...
tracert命令详解
tracert命令Tracert是路由跟踪程序,用于确定 IP 数据报访问目标所经过的路径。Tracert 命令用 IP 生存时间 (TTL) 字段和 ICMP 错误消息来确定从一个主机到网络上其他主机的路由。 在工作环境中有多条链路出口时,可以通过该命令查询数据是经过的哪一条链路出口。 Tracert一般用来检测故障的位置,我们可以使用用tracert IP命令确定数据包在网络上的停止位置,来判断在哪个环节上出了问题,虽然还是没有确定是什么问题,但它已经告诉了我们问题所在的地方,方便检测网络中存在的问题。 Tracert工作原理通过向目标发送不同 IP 生存时间 (TTL) 值的“I...
avatar
浩翰Redamancy
文质彬彬 然后君子
FRIENDS
My CSDN