使用etree与xpath爬取Discuz论坛

Python

字数统计: 88阅读时长: 1 min

 2019/11/28   Share

引入模块

在pycharm中下载lxml库
通过from lxml import etree引入模块

测试

import requests
from lxml import etree
url = "https://www.discuz.net/forum-developer-1.html"
text = requests.get(url).text
html = etree.HTML(text)
context = etree.tostring(html).decode()
print(html.xpath('//div[@id="threadlist"]/div[2]/form/table/*'))
print(html.xpath('//*[@id="threadlisttableid"]/*'))

在这里插入图片描述

这里是通过xpath语法将论坛的所有tbody便签

1	print(html.xpath('//tbody/tr/th/a[@class="s xst"]/text()'))

在这里插入图片描述

原文作者：浩翰

原文链接：https://plutoacharon.github.io/2019/11/28/使用etree与xpath爬取Discuz论坛/

发表日期：November 28th 2019, 5:38:36 pm

更新日期：November 28th 2019, 5:39:13 pm

Next Post

Spark Shell操作
Previous Post

WindowsServer2016 Anaconda下TensorFlow-GPU环境搭建详细教程（包含CUDA+cuDNN安装过程）

CATALOG

1. 引入模块
2. 测试



Total : 190

2020

2019

11/28Hive基本命令操作
11/28WindowsServer2016 Anaconda下TensorFlow-GPU环境搭建详细教程（包含CUDA+cuDNN安装过程）
11/28使用etree与xpath爬取Discuz论坛
11/28华为服务器H22H-03的Windows Server2012安装
11/28Ubuntu 18.04.2 LTS网络设置
11/28Hbase Java API接口
11/28Spark Shell操作
11/28WindowsServer 2016 最新激活方法
11/28Docker实战创建支持SSH服务的镜像(超详细)
11/28Hive java API接口
11/04Docker入门详解笔记
11/04Centos7 Docker基本命令详解
11/04Docker数据管理:实现将主机目录挂载到容器中并共享
11/04hbase shell报错:zookeeper.RecoverableZooKeeper: ZooKeeper exists failed after 4 attempts
11/04win10 Git修改打开时的路径与上传文件夹到GitHub
10/24Hive启动报错 Could not create ServerSocket on address 0.0.0.0/0.0.0.0:9083
10/24源码安装httpd报错: checking for APR... configure: error: the --with-apr parameter is incorrect.
10/24Hive报错:javax.jdo.JDOFatalDataStoreException: Unable to open a test connection to the given database.
10/24vsphere报错: 连接到虚拟机控制台失败并显示错误：VMRC 控制台的连接已断开。正在尝试重新连接
10/24ctf线下AWD攻防赛学习笔记
10/24CTF线下AWD攻防步骤总结
10/16Centos7 bg与fg命令
10/16解决httpd: Could not reliably determine the server's fully qualified domain name
10/14大数据环境准备-搭建数据仓库
10/14Centos7配置时间同步
10/14Centos7配置yum源安装Mysql
10/14大数据基础环境搭建
10/10Centos7安装Anaconda详细版
10/10基于PySpark的电影推荐引擎
10/10使用PySpark对招聘信息数据进行分析
10/10PHP代码审计工具Rips的使用
10/10CTF 河北大赛AWD简单的代码审计
10/10Liunx 管理用户、组及权限
10/06Liunx提权常用命令
10/06kali20119最新更新源
10/06Kali apt报错E: 无法获得锁 /var/cache/apt/archives/lock - open (11: 资源暂时不可用)
10/06Kali apt-get报E: 无法打开锁文件 /var/lib/dpkg/lock-frontend - open (2: 没有那个文件或目录)
10/06payload、shellcode、exp、poc区分方法
10/06思科模拟器使用IOS配置启用ospf路由
10/06MobaXterm汉化以及解决中文乱码问题
10/03centos7 挂载使用外部存储系统
10/03centos7 使用vi编辑器配置网络环境
10/03yum更新报错您可以尝试添加 --skip-broken 选项来解决该问题
10/03Centos7 图形化安装,分区,网络设置
10/03centos7 使用linux命令管理目录和文件
10/02CTF隐写总结
10/02Python 爬取Boos直聘
10/02Liunx curl命令详解
10/02Linux crontab命令详解
10/02Linux下查看用户列表
10/02Nmap工具命令详解
09/29基于Facenet与MTCNN的人脸识别
09/29Hive学习笔记
09/29python 字典列表相互转换与排序
09/29Hive beeline Hiveserver2
09/29修改Compare.py报错时的解决方案
09/29Hive报错记录
09/29在Ubuntu的Anaconda环境下创建深度学习环境
09/29Hive2.3.0的环境搭建
09/29分布式消息系统Kafka
09/29Spark 2.4.2的环境搭建
09/29Zookeeper环境搭建
09/29VMware Workstation 14运行虚拟机黑屏时的解决方案
09/29Flume学习笔记
09/29Flume传输数据给Kafka
09/29python 读写csv数据
09/29Flume多source，多sink组合框架搭建
09/29Sqoop学习笔记
09/29ZooKeeper学习笔记
09/29centos7 访问php 该网页无法正常运作目前无法处理此请求
09/29Esxi centos7搭建NAT和DHCP服务器
09/06Liunx中etc下的passwd与shadow文件详解
09/05tracert命令详解
08/31win10下用IDEA+Hadoop运行时的环境搭建
08/31JobTracker和TaskTracker
08/31解决vmware（vsphere）部署linux系统模板后无法联网问题
08/31CentOS7关闭SELinux
08/31HDFS文件接口
08/31在Centos 7下安装PHP 7
08/31Windows下的MapReduce编程实现
08/20Linux下进程kill掉的N种方法
08/20Centos7 防火墙关闭与nginx无法访问
08/20Mysql（双主）主主架构配置
08/20keepalived+nginx+apache+mysql实现高可用、负载均衡的网站(下)
08/20Centos7 安装 php 和 php-fpm
08/20keepalived+nginx+apache+mysql实现高可用、负载均衡的网站(上)
08/17本地安装maven库与IDEA安装本地maven库
08/17IDEA使用Git将项目上传到Github
08/13初识Spark
08/13Java中“==”与equeals的区别
08/10Java编程思想学习笔记
08/10Java编程思想学习笔记(二)
08/09Hadoop2.8.0的环境搭建
08/08初识Scala
08/08Liunx中tar命令的使用
08/08Scala的安装
08/02Java变量类型
08/02什么是环境变量
07/31Centos7下的JDK安装
07/30Centos7下NAT设置静态ip
07/17Github学习笔记
05/21hexo搭建个人博客（二）
05/20hexo搭建个人博客（一）

缺失模块。
1、请确保node版本大于6.2
2、在博客根目录（注意不是archer根目录）执行以下命令：
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置：

jsonContent:
  meta: false
  pages: false
  posts:
    title: true
    date: true
    path: true
    text: false
    raw: false
    content: false
    slug: false
    updated: false
    comments: false
    link: false
    permalink: false
    excerpt: false
    categories: true
    tags: true