python如何爬取网页中的文字?python爬虫只爬取文字的方法
翟嘉慧
优草派
Python爬虫的学习也是在学习编程语言的基础中要掌握的知识,我们知道爬虫可以干很多的事情,比如:数据的收集、流量获取、程序自动化等,其中最大的特点就是数据的收集,有很多的小伙伴问,怎么在爬取网页的时候获取到的都是文字,下面就带大家一起了解一下。
一、编写爬虫的思路
当我们在使用爬虫收集信息的时候,首先要确定的就是我们要操作的步骤,具体的操作如下:
1、先确定我们要下载的目标,也就是要爬取的网页,并且找到这个网页打开。
2、进入到网页中,打开网页后使用F12打开开发者模式,进入之前,可以点击Network,在这里就可以看到很多信息,一般网页中的文字信息都会保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。如果需要的数据找不到的时候,可以需要输入的信息,使用快捷键ctrl+f,进行搜索。查看信息前后包含哪些特定字段。
3、注意编码的格式,在输入的字符集中要将字符的编码设置为utf_8,因为网页中的编码采用的是GBK,如果我们不设置的话,就会出现乱码的情况。
4、最后将获得到的数据保存即可。
二、获取文字信息
下面通过一个Python爬虫获取网页中文字的实例进行讲解,相关的代码如下:
#!/usr/bin/python # -*- coding: UTF-8 -*- import requests import re # 打开一个网页的界面 url = 'https://…...html' # 模拟浏览器发送http请求 response = requests.get(url) # 设置编程的格式 response.encoding='utf-8' # 获取网页界面中的文字信息。 html = response.text print(html)
以上就是关于python如何爬取网页中的文字?python爬虫只爬取文字的方法的相关内容的讲解了,希望能改大家的学习带来帮助。
【原创声明】凡注明“来源:优草派”的文章,系本站原创,任何单位或个人未经本站书面授权不得转载、链接、转贴或以其他方式复制发表。否则,本站将依法追究其法律责任。