Scrapy笔记

下载scrapy

pip install scrapy

创建项目

scrapy startproject spiderTest1

创建爬虫

scrapy genspider baidu www.baidu.com

将项目拖入pycharm 添加虚拟环境再次安装scrapy 三方库，装入虚拟环境

设置请求头，伪装成浏览器

USER_AGENT = 'Mozilla/5.0(Macintosh;intel Mac OS X 10_14_6)AppleWebKit/537.36(KHTML,like Gecko)Chrome/92.0.4515.159 Safari/537.36'

运行爬虫

scrapy crawl spiderName --nolog  # 不显示日志
scrapy crawl spiderName -o Nmae.csv  # 保存为csv格式

python往excel写数据，三方库

pip install openpyxl

查看已经安装了那些库

pip list
pip freeze # 依赖清单

将依赖清单输出requirements.txt保存

# >输出重定向
pip freeze > requirements.txt

按依赖清单装依赖项

pip install -r requirements.txt