Spider-Scrapy
本文最后更新于:2024年11月13日 下午
scrapy
1.scrapy
1 |
|
1 |
|
1.scrapy项目的创建以及运行
1 |
|
1 |
|
1 |
|
1 |
|
3.scrapy架构组成
1 |
|
4.scrapy工作原理
案例:1.汽车之家
2.scrapy shell
1 |
|
1 |
|
1 |
|
3.yield
1. 带有 yield 的函数不再是一个普通函数,而是一个生成器generator,可用于迭代
2. yield 是一个类似 return 的关键字,迭代一次遇到yield时就返回yield后面(右边)的值。重点是:下一次迭代时,从上一次迭代遇到的yield后面的代码(下一行)开始执行
3. 简要理解:yield
就是 return 返回一个值,并且记住这个返回的位置,下次迭代就从这个位置后(下一行)开始
案例:
1.当当网 ( 1 )yield( 2 ).管道封装( 3 ).多条管道下载 ( 4 )多页数据下载
2.电影天堂 ( 1 )一个item包含多级页面的数据
4.Mysql
( 1 )下载(https://dev.mysql.com/downloads/windows/installer/5.7.html)
( 2 )安装(https://jingyan.baidu.com/album/d7130635f1c77d13fdf475df.html)
5.pymysql的使用步骤
1 |
|
6.CrawlSpider
1 |
|
1 |
|
1 |
|
运行原理:
7.CrawlSpider案例
需求:读书网数据入库
1 |
|
8. 数据入库
1 |
|
1 |
|
1 |
|
1 |
|
1 |
|
1 |
|
1 |
|
9.日志信息和日志等级
1 |
|
10.scrapy的post请求
1 |
|
11.代理
1 |
|
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!