下载scrapy
pip install scrapy
创建项目
scrapy startproject spiderTest1
创建爬虫
scrapy genspider baidu www.baidu.com
将项目拖入pycharm 添加虚拟环境 再次安装scrapy 三方库,装入虚拟环境
设置请求头,伪装成浏览器
USER_AGENT = 'Mozilla/5.0(Macintosh;intel Mac OS X 10_14_6)AppleWebKit/537.36(KHTML,like Gecko)Chrome/92.0.4515.159 Safari/537.36'
运行爬虫
scrapy crawl spiderName --nolog # 不显示日志
scrapy crawl spiderName -o Nmae.csv # 保存为csv格式
python往excel写数据,三方库
pip install openpyxl
查看已经安装了那些库
pip list
pip freeze # 依赖清单
将依赖清单输出requirements.txt保存
# >输出重定向
pip freeze > requirements.txt
按依赖清单装依赖项
pip install -r requirements.txt