SparkSQL，加载文件，处理文件，存储文件

Spark

字数统计: 785阅读时长: 3 min

 2020/01/16   Share

简介

Spark SQL重要的是操作DataFrame，DataFrame本身提供了Save和Load的操作，

Load：可以创建DataFrame。

Save：把DataFrame中的数据保存到文件或者说用具体的格式来指明我们要读取的文件类型，以及用具体的格式来指出我们要输出的文件是什么类型。

Spark SQL执行基本操作时，内部结构流程图如下：

在这里插入图片描述
DataFrame本质是数据 + 数据的描述信息（结构元信息）。

所有的上述SQL及DataFrame操作最终都通过Catalyst翻译成Spark程序RDD操作代码。

Spark SQL前身是Shark，大量依赖Hive项目的jar包与功能，但在上面的扩展越来越难，因此出现了Spark SQL，它重写了分析器，执行器脱离了对Hive项目的大部分依赖，基本可以独立去运行，只用到Hive项目的两个地方：

（1）借用了Hive词汇分析的jar即HiveQL解析器

（2）借用了Hive的metastore和数据访问API即Hive Catalog

也就是说上图的左半部分的操作，全部用的是SparkSQL本身自带的内置SQL解析器解析SQL进行翻译，用到内置元数据信息(比如结构化文件中自带的结构元信息，RDD的schema中的结构元信息)右半部分则是走的Hive的HQL解析器，还有Hive元数据信息。因此左右两边的API调用的底层类会有不同。

SQLContext使用：

1.简单的解析器（Scala语言写的SQL解析器）比如：

（1）在半结构化的文件里面使用SQL查询时，是用这个解析器解析的。

（2）访问（半）结构化文件的时候，通过sqlContext使用schema，类生成DataFrame，然后DataFrame注册为表时，registerTempTable（注册临时表）然后从这个表里面进行查询时，即使用的简单的解析器。

simpleCatalog此对象中存放关系（表），比如我们指定的schema信息，类的信息，都是关系信息。

2.HiveContext使用：

（1）HiveQL解析器支持Hive的HQL语法，如只有通过HiveContext生成的DataFrame才能调用saveAsTable操作。

（2）hiveCatalog（存放数据库和表的元数据信息）

操作

读取HDFS中/myspark6的goods_visit.json文件。

val df=sqlContext.read.json("hdfs://localhost:9000/myspark6/goods_visit.json")

6.查看goods_visit.json中的所有数据。

df.show()
在这里插入图片描述
7.查看goods_visit.json的表结构。

df.printSchema()
在这里插入图片描述
8.只查看商品ID(goods_id)。

df.select("goods_id").show()
在这里插入图片描述
9.统计文件行数。

df.count
在这里插入图片描述
10.条件查询，查询点击次数超过500商品。(show是返回字段和表数据，collect是返回集合)

df.filter(df("click_num")>500).show
在这里插入图片描述

11.统计点击次数的最值、总和及平均数。

df.agg(max("click_num"),sum("click_num"),min("click_num"),avg("click_num")).show
在这里插入图片描述
12.过滤点击次数小于200的商品。

df.filter(df("click_num") < 200).show()
在这里插入图片描述
13.按点击次数进行分组统计。

df.groupBy("click_num").count().show()
在这里插入图片描述
14.读取goods_visit.json文件，保存为parquet格式。

val df = sqlContext.read.format("json").load("hdfs://localhost:9000/myspark6/goods_visit.json")  
df.select("goods_id", "click_num").write.format("parquet").save("goods_visit.parquet")

在这里插入图片描述
15.查看保存的goods_visit.parquet文件。

hadoop fs -ls /user/zhangyu
在这里插入图片描述

原文作者：浩翰

原文链接：https://plutoacharon.github.io/2020/01/16/SparkSQL，加载文件，处理文件，存储文件/

发表日期：January 16th 2020, 8:38:48 pm

更新日期：January 16th 2020, 8:39:12 pm

Next Post

CentOS7 Failed to start LSB: Bring up/down解决方法
Previous Post

SparkSQL，创建表，查询数据

CATALOG

1. 简介
2. 操作



Total : 190

2020

2019

11/28Hive基本命令操作
11/28WindowsServer2016 Anaconda下TensorFlow-GPU环境搭建详细教程（包含CUDA+cuDNN安装过程）
11/28使用etree与xpath爬取Discuz论坛
11/28华为服务器H22H-03的Windows Server2012安装
11/28Ubuntu 18.04.2 LTS网络设置
11/28Hbase Java API接口
11/28Spark Shell操作
11/28WindowsServer 2016 最新激活方法
11/28Docker实战创建支持SSH服务的镜像(超详细)
11/28Hive java API接口
11/04Docker入门详解笔记
11/04Centos7 Docker基本命令详解
11/04Docker数据管理:实现将主机目录挂载到容器中并共享
11/04hbase shell报错:zookeeper.RecoverableZooKeeper: ZooKeeper exists failed after 4 attempts
11/04win10 Git修改打开时的路径与上传文件夹到GitHub
10/24Hive启动报错 Could not create ServerSocket on address 0.0.0.0/0.0.0.0:9083
10/24源码安装httpd报错: checking for APR... configure: error: the --with-apr parameter is incorrect.
10/24Hive报错:javax.jdo.JDOFatalDataStoreException: Unable to open a test connection to the given database.
10/24vsphere报错: 连接到虚拟机控制台失败并显示错误：VMRC 控制台的连接已断开。正在尝试重新连接
10/24ctf线下AWD攻防赛学习笔记
10/24CTF线下AWD攻防步骤总结
10/16Centos7 bg与fg命令
10/16解决httpd: Could not reliably determine the server's fully qualified domain name
10/14大数据环境准备-搭建数据仓库
10/14Centos7配置时间同步
10/14Centos7配置yum源安装Mysql
10/14大数据基础环境搭建
10/10Centos7安装Anaconda详细版
10/10基于PySpark的电影推荐引擎
10/10使用PySpark对招聘信息数据进行分析
10/10PHP代码审计工具Rips的使用
10/10CTF 河北大赛AWD简单的代码审计
10/10Liunx 管理用户、组及权限
10/06Liunx提权常用命令
10/06kali20119最新更新源
10/06Kali apt报错E: 无法获得锁 /var/cache/apt/archives/lock - open (11: 资源暂时不可用)
10/06Kali apt-get报E: 无法打开锁文件 /var/lib/dpkg/lock-frontend - open (2: 没有那个文件或目录)
10/06payload、shellcode、exp、poc区分方法
10/06思科模拟器使用IOS配置启用ospf路由
10/06MobaXterm汉化以及解决中文乱码问题
10/03centos7 挂载使用外部存储系统
10/03centos7 使用vi编辑器配置网络环境
10/03yum更新报错您可以尝试添加 --skip-broken 选项来解决该问题
10/03Centos7 图形化安装,分区,网络设置
10/03centos7 使用linux命令管理目录和文件
10/02CTF隐写总结
10/02Python 爬取Boos直聘
10/02Liunx curl命令详解
10/02Linux crontab命令详解
10/02Linux下查看用户列表
10/02Nmap工具命令详解
09/29基于Facenet与MTCNN的人脸识别
09/29Hive学习笔记
09/29python 字典列表相互转换与排序
09/29Hive beeline Hiveserver2
09/29修改Compare.py报错时的解决方案
09/29Hive报错记录
09/29在Ubuntu的Anaconda环境下创建深度学习环境
09/29Hive2.3.0的环境搭建
09/29分布式消息系统Kafka
09/29Spark 2.4.2的环境搭建
09/29Zookeeper环境搭建
09/29VMware Workstation 14运行虚拟机黑屏时的解决方案
09/29Flume学习笔记
09/29Flume传输数据给Kafka
09/29python 读写csv数据
09/29Flume多source，多sink组合框架搭建
09/29Sqoop学习笔记
09/29ZooKeeper学习笔记
09/29centos7 访问php 该网页无法正常运作目前无法处理此请求
09/29Esxi centos7搭建NAT和DHCP服务器
09/06Liunx中etc下的passwd与shadow文件详解
09/05tracert命令详解
08/31win10下用IDEA+Hadoop运行时的环境搭建
08/31JobTracker和TaskTracker
08/31解决vmware（vsphere）部署linux系统模板后无法联网问题
08/31CentOS7关闭SELinux
08/31HDFS文件接口
08/31在Centos 7下安装PHP 7
08/31Windows下的MapReduce编程实现
08/20Linux下进程kill掉的N种方法
08/20Centos7 防火墙关闭与nginx无法访问
08/20Mysql（双主）主主架构配置
08/20keepalived+nginx+apache+mysql实现高可用、负载均衡的网站(下)
08/20Centos7 安装 php 和 php-fpm
08/20keepalived+nginx+apache+mysql实现高可用、负载均衡的网站(上)
08/17本地安装maven库与IDEA安装本地maven库
08/17IDEA使用Git将项目上传到Github
08/13初识Spark
08/13Java中“==”与equeals的区别
08/10Java编程思想学习笔记
08/10Java编程思想学习笔记(二)
08/09Hadoop2.8.0的环境搭建
08/08初识Scala
08/08Liunx中tar命令的使用
08/08Scala的安装
08/02Java变量类型
08/02什么是环境变量
07/31Centos7下的JDK安装
07/30Centos7下NAT设置静态ip
07/17Github学习笔记
05/21hexo搭建个人博客（二）
05/20hexo搭建个人博客（一）

缺失模块。
1、请确保node版本大于6.2
2、在博客根目录（注意不是archer根目录）执行以下命令：
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置：

jsonContent:
  meta: false
  pages: false
  posts:
    title: true
    date: true
    path: true
    text: false
    raw: false
    content: false
    slug: false
    updated: false
    comments: false
    link: false
    permalink: false
    excerpt: false
    categories: true
    tags: true