获取内容资料
Python开发

python爬虫菜鸟教程,黑马爬虫python教程网盘

简单点,网络爬虫是我们编写的自动从网络上抓取对我们有用的信息的程序

2 必备HTML、CSS知识

网页的标题 网页主体在浏览器中显示的内容包含在这里 2.1 了解HTML基本组成

详细学习HTML:菜鸟教程runoob

用“<”、“>”包含单词或字母构成html的标签,标签一般是成对的,如“

”。

“”中包含网页的基本信息,如网页标题(显示在浏览器标题栏)、编码、作者、描述等。

“”中包含的内容将展示在浏览器中。

标签有属性。如src、href等。

详细学习CSS:菜鸟教程runoob

CSS用来告诉浏览器该怎么显示网页内容使网页更美观。

常用CSS选择器:id、class、标签选择器

4 Python开发网络爬虫

4.1 requests

安装requests模块:pip3 install requests

用途:从网络上下载文件和网页。

常用函数:requests.get函数接受一个要下载的URL

安装bs4模块:pip3 install bs4

使用方法:用select方法寻找HTML元素,用标签的get方法从元素中获取数据。

Similar Posts

发表评论

邮箱地址不会被公开。 必填项已用*标注