python爬虫爬取慕课网视频

如何使用BS?现在正式开始今天的主要内容：如何使用BS爬取慕课网所有课程及其对应的评分。本文依托的Python环境为Python 3.6.0，pip版本为pip3，BS版本为BS4。

def parse_one_page(html):pattern = re.compile(‘

.*?lecturer-info.*?(.*?).*?shizhan-intro-box.*?title=”.*?”>”(.*?)

.*?class=”grade”>(.*?).*?imv2-set-sns.*?”(.*?).*?class=”big-text”>(.*?)

.*?shizan-desc.*?>”(.*?)

.*?

‘,re.S)items = re.findall(pattern,html)for item in items:#格式化每一条数据为字典类型的数据yield {‘teacher’: item[0],’title’: item[1],’grade’: item[2],’people’:item[3],’score’: item[4],’describe’: item[5]}完整代码:。

def parse_one_page(html): pattern = re.compile(‘.*?lecturer-info.*?(.*?).*?shizhan-intro-box.*?title=”.*?”>’ ‘(.*?)

.*?class=”grade”>(.*?).*?imv2-set-sns.*?‘ ‘(.*?).*?class=”big-text”>(.*?)

.*?shizan-desc.*?>’ ‘(.*?)

.*?

‘,re.S) items = re.findall(pattern,html) for item in items: #格式化每一条数据为字典类型的数据 yield { ‘teacher’: item[0], ‘title’: item[1], ‘grade’: item[2], ‘people’:item[3], ‘score’: item[4], ‘describe’: item[5] }完整代码:。

def parse_data: “”” :brief 从html文本中提取指定信息 :return: None “”” # # 解析为HTML文档 try: while True: # 等待25s，超时则抛出异常 detail_url = url_queue.get(timeout=25) html = send_request(detail_url, headers, param=None) html_obj = etree.HTML(html) item = # 发布日期 item[‘publishTime’] = html_obj.xpath(“.//div[@class=’info-primary’]//span[@class=’time’]/text”)[0] # 职位名 item[‘position’] = html_obj.xpath(“.//div[@class=’info-primary’]//h1/text”)[0] # 发布者姓名 item[‘publisherName’] = html_obj.xpath(“//div[@class=’job-detail’]//h2/text”)[0] # 发布者职位 item[‘publisherPosition’] = html_obj.xpath(“//div[@class=’detail-op’]//p/text”)[0] # 薪水 item[‘salary’] = html_obj.xpath(“.//div[@class=’info-primary’]//span[@class=’badge’]/text”)[0] # 公司名称 item[‘companyName’] = html_obj.xpath(“//div[@class=’info-company’]//h3/a/text”)[0] # 公司类型 item[‘companyType’] = html_obj.xpath(“//div[@class=’info-company’]//p//a/text”)[0] # 公司规模 item[‘companySize’] = html_obj.xpath(“//div[@class=’info-company’]//p/text”)[0] # 工作职责 item[‘responsibility’] = html_obj.xpath(“//div[@class=’job-sec’]//div[@class=’text’]/text”)[0].strip # 招聘要求 item[‘requirement’] = html_obj.xpath(“//div[@class=’job-banner’]//div[@class=’info-primary’]//p/text”)[0] print(item) jobs_queue.put(item) # 添加到队列中 time.sleep(15) except: pass保存数据为json文件代码如下：

对于小白来说，爬虫可能是一件非常复杂、技术门槛很高的事情。比如有的人认为学爬虫必须精通 Python，然后哼哧哼哧系统学习 Python 的每个知识点，很久之后发现仍然爬不了数据；有的人则认为先要掌握网页的知识，遂开始 HTML\CSS，结果入了前端的坑，瘁……。

这个爬虫主要就是获取慕课网的课程信息，并把获得的信息存储到一个文件中，其中要用到cheerio库，它可以让我们方便的操作HTML，就像是用jQ一样。

MVC 设计模式让我们来研究一个简单的例子，通过该实例，你可以分辨出，通过Web框架来实现的功能与之前的方式有何不同。下面就是通过使用Django来完成以上功能的例子：首先，我们分成4个Python的文件，(models.py ,views.py , urls.py ) 和html模板文件 (latest_books.html )。

个某民宿公司做市场运营的实习生，每天午休抽空学习 Python 爬虫，通过抓取竞品店铺的下单情况、单价、销售额、人群画像等，做出每日价格趋势分析报表，帮助公司提升了业绩，受到老板赏识，不仅直接提前转正，底薪还涨了一级。

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

python爬虫爬取慕课网视频

Similar Posts

发表评论取消回复

Similar Posts

发表评论 取消回复

发表评论取消回复