HTMLHTML 是整个网页的结构，相当于整个网站的框架。带“＜”、“＞”符号的都是属于 HTML 的标签，并且标签都是成对出现的。

.. 表示标记中间的元素是网页

.. 表示用户可见的内容

表示框架

表示段落

表示列表

..表示图片

..

表示标题

..表示超链接

CSSCSS 表示样式，图 1 中第 13 行＜style type=＂text/css＂＞表示下面引用一个 CSS，在 CSS 中定义了外观。

JScriptJScript 表示功能。交互的内容和各种特效都在 JScript 中，JScript 描述了网站中的各种功能。

如果用人体来比喻，HTML 是人的骨架，并且定义了人的嘴巴、眼睛、耳朵等要长在哪里。CSS 是人的外观细节，如嘴巴长什么样子，眼睛是双眼皮还是单眼皮，是大眼睛还是小眼睛，皮肤是黑色的还是白色的等。JScript 表示人的技能，例如跳舞、唱歌或者演奏乐器等。

写一个简单的 HTML通过编写和修改 HTML，可以更好地理解 HTML。首先打开一个记事本，然后输入下面的内容：

Python 3 爬虫与数据清洗入门与实战

Python 3爬虫与数据清洗入门与实战

数据清洗

运行该文件后的效果，如图 2 所示。

这段代码只是用到了 HTML，读者可以自行修改代码中的中文，然后观察其变化。

关于爬虫的合法性几乎每一个网站都有一个名为 robots.txt 的文档，当然也有部分网站没有设定 robots.txt。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页面数据都可以爬取。如果网站有 robots.txt 文档，就要判断是否有禁止访客获取的数据。

图 3 淘宝网的robots.txt文件内容

淘宝网允许部分爬虫访问它的部分路径，而对于没有得到允许的用户，则全部禁止爬取，代码如下：

User-Agent:*

这一句代码的意思是除前面指定的爬虫外，不允许其他爬虫爬取任何数据。

选择“Project Interpreter”（项目编译器）命令，确认当前选择的编译器，然后单击右上角的加号，如图 5 所示。

在搜索框输入：requests（注意，一定要输入完整，不然容易出错），然后单击左下角的“Install Package”（安装库）按钮。如图 6 所示：

安装完成后，会在 Install Package 上显示“Package‘requests’ installed successfully”（库的请求已成功安装），如图 7 所示；如果安装不成功将会显示提示信息。

图 7 安装成功爬虫的基本原理网页请求的过程分为两个环节：Request （请求）：每一个展示在用户面前的网页都必须经过这一步，也就是向服务器发送访问请求。Response（响应）：服务器在接收到用户的请求后，会验证请求的有效性，然后向用户（客户端）发送响应的内容，客户端接收服务器响应的内容，将内容展示出来，就是我们所熟悉的网页请求，如图 8 所示。

图 8 Response相应

网页请求的方式也分为两种：GET：最常见的方式，一般用于获取或者查询资源信息，也是大多数网站使用的方式，响应速度快。POST：相比 GET 方式，多了以表单形式上传参数的功能，因此除查询信息外，还可以修改信息。

所以，在写爬虫前要先确定向谁发送请求，用什么方式发送。

如图 8 所示，标题可以在源码中搜索到，请求对象是www.cntour.cn，请求方式是GET（所有在源码中的数据请求方式都是GET），如图 9 所示。

图 10 运行结果效果图（点此查看高清大图）

加载库使用的语句是 import+库的名字。在上述过程中，加载 requests 库的语句是：import requests。

用 GET 方式获取数据需要调用 requests 库中的 get 方法，使用方法是在 requests 后输入英文点号，如下所示：

requests.get

将获取到的数据存到 strhtml 变量中，代码如下：strhtml = request.get(url)

这个时候 strhtml 是一个 URL 对象，它代表整个网页，但此时只需要网页中的源码，下面的语句表示网页源码：strhtml.text

按快捷键 F12，进入开发者模式，单击 Network，此时内容为空，如图 11 所示：

在有道翻译中输入“我爱中国”，单击“翻译”按钮，如图 12 所示：

在开发者模式中，依次单击“Network”按钮和“XHR”按钮，找到翻译数据，如图 13 所示：

单击 Headers，发现请求数据的方式为 POST。如图 14 所示：

找到数据所在之处并且明确请求方式之后，接下来开始撰写爬虫。

首先，将 Headers 中的 URL 复制出来，并赋值给 url，代码如下：

POST 的请求获取数据的方式不同于 GET，POST 请求数据必须构建请求头才可以。

Form Data 中的请求参数如图 15 所示：

将其复制并构建一个新字典：From_data={‘i’:’我愛中國’,’from’:’zh-CHS’,’to’:’en’,’smartresult’:’dict’,’client’:’fanyideskweb’,’salt’:’15477056211258′,’sign’:’b3589f32c38bc9e3876a570b8a992604′,’ts’:’1547705621125′,’bv’:’b33a2f3f9d09bde064c9275bcb33d94e’,’doctype’:’json’,’version’:’2.1′,’keyfrom’:’fanyi.web’,’action’:’FY_BY_REALTIME’,’typoResult’:’false’}

接下来使用 requests.post 方法请求表单数据，代码如下：import requests #导入requests包

response = requests.post(url,data=payload)

将字符串格式的数据转换成 JSON 格式数据，并根据数据结构，提取数据，并将翻译结果打印出来，代码如下：

import jsoncontent = json.loads(response.text)print(content[‘translateResult’][0][0][‘tgt’])使用 requests.pos

python爬虫入门教程，python3爬虫入门教程

..

Similar Posts

发表评论取消回复

..

Similar Posts

发表评论 取消回复

发表评论取消回复