Just Do IT !

Just Do IT !

一个对技术永远充满热爱的大学生

python 字典列表相互转换与排序
列表 元组 字典 集合的区别列表:清单可重复,类型可不同 list元组: 类似列表不可修改类型 tuple集合:就是我们数学学的集合应用是去重 set字典:字典存储键值对数据价值是查询,通过键,查找值 dict 列表列表的特点:可重复,类型可不同,这是与数组最本质的区别。python中的列表用“[]”表示 list=[‘asd’,123] 向list中添加项有两种方法:append和extend。append使用append可能会出现下面的这种情况列表里会叠加列表这是使用extend就不会出现这种问题 元组元组和列表在结构上没有什么区别,唯一的差异在于元组是只读的,不能修改。元组用“(...
python 读写csv数据
CSV文件简介CSV(Comma-Separated Values,逗号分隔值),是一种纯文本形式存储表格数据的文件。该文件由任意数目的记录组成,每条记录被分隔符分隔为字段(最常见的分隔符是逗号或制表符),且每条记录都有相同的字段序列,因此csv相当于一个结构化表的纯文本形式。从直观上看,它比Excel文件更加简洁,然而它不包含诸如XLS电子表格的数值、公式和格式等内容,它仅仅为一个结构化的纯文本。 CSV文件读取和写入在CSV文件读写操作中,常用两种读写方式是列表读写和字典读写,下面我们分别来对此进行介绍。 文件读取csv文件读取主要是使用reader()和DictReader()方法...
在Ubuntu的Anaconda环境下创建深度学习环境
环境准备首先在所在系统中安装Anaconda。可以打开命令行输入conda -V检验是否安装以及当前conda的版本conda版本为4.5.11 conda常用的命令 conda list 查看安装了哪些包 conda env list或 conda info -e 查看当前存在哪些虚拟环境 conda update conda 检查更新当前conda 创建python虚拟环境使用 conda create -n your_env_name python=X.X(2.7、3.6等)命令创建python版本为X.X、名字为your_env_name的虚拟环境。your_env_na...
分布式消息系统Kafka
分布式消息系统KafkaKafka可以处理消费者规模的网站中的所有动作流数据。 对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息 kafka是一个分布式的、可分区的、可复制的消息系统; kafka是由LinkedIn开发,使用Scala编写; 支持水平拓展和高吞吐率; 可与Apache Storm、Spark等多种开源分布式处理系统集成。 相关知识:(1)以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间复杂度的访问性能(...
ZooKeeper学习笔记
一 什么是 ZooKeeperZooKeeper 的由来Zookeeper最早起源于雅虎研究院的一个研究小组。在当时,研究人员发现,在雅虎内部很多大型系统基本都需要依赖一个类似的系统来进行分布式协调,但是这些系统往往都存在分布式单点问题。所以,雅虎的开发人员就试图开发一个通用的无单点问题的分布式协调框架,以便让开发人员将精力集中在处理业务逻辑上。 关于“ZooKeeper”这个项目的名字,其实也有一段趣闻。在立项初期,考虑到之前内部很多项目都是使用动物的名字来命名的(例如著名的Pig项目),雅虎的工程师希望给这个项目也取一个动物的名字。时任研究院的首席科学家RaghuRamakrishn...
Zookeeper环境搭建
zookeeper集群安装在master,slave1,slave2上安装 hadoop用户进入master cd /opt/hadoop/ tar -zxvf zookeeper-3.4.8.tar.gz vim /etc/profile #zookeeper export ZOOKEEPER_HOME=/opt/hadoop/zookeeper-3.4.8 export PATH=$ZOOKEEPER_HOME/bin:$PATH cd zookeeper-3.4.8/conf cp zoo_sample.cfg zoo.cfg 修改配置文件 zoo.cfg # The numbe...
Sqoop学习笔记
数据转移工具SqoopSqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Apache框架Hadoop是一个越来越通用的分布式计算环境,主要用来处理大数据。随着云提供商利用这个框架,更多的用户将数据集在Hadoop和传统数据库之间转移,Sqoop这个帮助数据传输的工具变得更加重要。 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)...
Flume学习笔记
为什么用Flume: 可靠性:Flume是Cloudera公司的一款高性能、高可用的分布式日志收集系统。 Flume的核心是把数据从数据源收集过来再送到目的地。为了保证输送一定成功,在送到目的地之前,会先缓存数据,待数据真正到达目的地后,再删除缓存的数据。 Flume传输数据的基本单位是event,如果是文本文件,通常是一行记录,这也是事务的基本单位。 Flume运行的核心是Agent。它是一个完整的数据收集工具,含有三个核心组件,分别是Source、Channel、Sink。 Source组件是专门用于收集日志的,可以处理各种类型各种格式的日志数据,包括Avro、Thrift、Ex...
Flume多source,多sink组合框架搭建
Flume多source,多sink组合框架搭建Flume运行的核心是Agent。它是一个完整的数据收集工具,含有三个核心组件,分别是Source、Channel、Sink。通过这些组件,Event可以从一个地方流向另一个地方。 Source可以接收外部源发送过来的数据。不同的Source可以接受不同的数据格式。 Channel是一个存储地,接收Source的输出,直到有Sink消费掉Channel中的数据。 Sink消费Channel中的数据,将数据推送给外部源或者其他Source。当Sink写入失败后,可以自动重启,不会造成数据丢失,因此很可靠。 在实际生产环境中,Flume允许多个...
avatar
浩翰Redamancy
文质彬彬 然后君子
FRIENDS
My CSDN