简单点,网络爬虫是我们编写的自动从网络上抓取对我们有用的信息的程序
2 必备HTML、CSS知识
详细学习HTML:菜鸟教程runoob
用“<”、“>”包含单词或字母构成html的标签,标签一般是成对的,如“
”。
“
”中包含网页的基本信息,如网页标题(显示在浏览器标题栏)、编码、作者、描述等。“
”中包含的内容将展示在浏览器中。标签有属性。如src、href等。
详细学习CSS:菜鸟教程runoob
CSS用来告诉浏览器该怎么显示网页内容使网页更美观。
常用CSS选择器:id、class、标签选择器
4 Python开发网络爬虫
4.1 requests
安装requests模块:pip3 install requests
用途:从网络上下载文件和网页。
常用函数:requests.get函数接受一个要下载的URL
安装bs4模块:pip3 install bs4
使用方法:用select方法寻找HTML元素,用标签的get方法从元素中获取数据。