python爬虫菜鸟教程，黑马爬虫python教程网盘

简单点，网络爬虫是我们编写的自动从网络上抓取对我们有用的信息的程序

2 必备HTML、CSS知识

网页的标题网页主体在浏览器中显示的内容包含在这里 2.1 了解HTML基本组成

详细学习HTML：菜鸟教程runoob

用“<”、“>”包含单词或字母构成html的标签，标签一般是成对的，如“

”。

“”中包含网页的基本信息，如网页标题（显示在浏览器标题栏）、编码、作者、描述等。

“”中包含的内容将展示在浏览器中。

标签有属性。如src、href等。

详细学习CSS：菜鸟教程runoob

CSS用来告诉浏览器该怎么显示网页内容使网页更美观。

常用CSS选择器：id、class、标签选择器

4 Python开发网络爬虫

4.1 requests

安装requests模块：pip3 install requests

用途：从网络上下载文件和网页。

常用函数：requests.get函数接受一个要下载的URL

安装bs4模块：pip3 install bs4

使用方法：用select方法寻找HTML元素，用标签的get方法从元素中获取数据。