优草派 > Python

python如何爬取网页中的文字?python爬虫只爬取文字的方法

翟嘉慧         优草派

Python爬虫的学习也是在学习编程语言的基础中要掌握的知识,我们知道爬虫可以干很多的事情,比如:数据的收集、流量获取、程序自动化等,其中最大的特点就是数据的收集,有很多的小伙伴问,怎么在爬取网页的时候获取到的都是文字,下面就带大家一起了解一下。

python如何爬取网页中的文字?python爬虫只爬取文字的方法

一、编写爬虫的思路

当我们在使用爬虫收集信息的时候,首先要确定的就是我们要操作的步骤,具体的操作如下:

1、先确定我们要下载的目标,也就是要爬取的网页,并且找到这个网页打开。

2、进入到网页中,打开网页后使用F12打开开发者模式,进入之前,可以点击Network,在这里就可以看到很多信息,一般网页中的文字信息都会保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。如果需要的数据找不到的时候,可以需要输入的信息,使用快捷键ctrl+f,进行搜索。查看信息前后包含哪些特定字段。

3、注意编码的格式,在输入的字符集中要将字符的编码设置为utf_8,因为网页中的编码采用的是GBK,如果我们不设置的话,就会出现乱码的情况。

4、最后将获得到的数据保存即可。

二、获取文字信息

下面通过一个Python爬虫获取网页中文字的实例进行讲解,相关的代码如下:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
# 打开一个网页的界面
url = 'https://…...html'
# 模拟浏览器发送http请求
response = requests.get(url)
# 设置编程的格式
response.encoding='utf-8'
# 获取网页界面中的文字信息。
html = response.text
print(html)

以上就是关于python如何爬取网页中的文字?python爬虫只爬取文字的方法的相关内容的讲解了,希望能改大家的学习带来帮助。

  • 微信好友

  • 朋友圈

  • 新浪微博

  • QQ空间

  • 复制链接

取消
5天短视频训练营
新手入门剪辑课程,零基础也能学
分享变现渠道,助你兼职赚钱
限时特惠:0元
立即抢
新手剪辑课程 (精心挑选,简单易学)
第一课
新手如何学剪辑视频? 开始学习
第二课
短视频剪辑培训班速成是真的吗? 开始学习
第三课
不需要付费的视频剪辑软件有哪些? 开始学习
第四课
手机剪辑app哪个好? 开始学习
第五课
如何做短视频剪辑赚钱? 开始学习
第六课
视频剪辑接单网站APP有哪些? 开始学习
第七课
哪里可以学短视频运营? 开始学习
第八课
做短视频运营需要会什么? 开始学习
【原创声明】凡注明“来源:优草派”的文章,系本站原创,任何单位或个人未经本站书面授权不得转载、链接、转贴或以其他方式复制发表。否则,本站将依法追究其法律责任。

客服热线:0731-85127885

湘ICP备19005950号-1  

工商营业执照信息

违法和不良信息举报

举报电话:0731-85127885 举报邮箱:tousu@csai.cn

优草派  版权所有 © 2024