scrapy爬虫制作基本流程基本操作

moozik

2020 年 01 月 08 日

2850 次浏览

暂无评论

1016字数

技术

备忘录性质

基础知识

安装和建项目

pip install scrapy
#创建项目
scrapy startproject name
#创建新spider
scrapy genspider mydomain mydomain.com

shell模式

scrapy shell https://www.baidu.com

shelp() - 打印可用对象及快捷命令的帮助列表
fetch(request_or_url) - 根据给定的请求(request)或URL获取一个新的response，并更新相关的对象
view(response) - 在本机的浏览器打开给定的response。其会在response的body中添加一个 tag ，使得外部链接(例如图片及css)能正确显示。注意，该操作会在本地创建一个临时文件，且该文件不会被自动删除。

爬虫

分析目标网站

使用chrome的xpath插件，分析网站关键数据点，层级结构，翻页规则，数据来源
使用scrapy shell工具帮助分析
使用scrapy shell <url>打开交互式界面，response就是请求之后获取的返回对象，在这个对象上执行response.xpath(),response.css(),response.re()测试数据获取的结果，进行验证。

如果需要代理，可以在命令行执行下面的命令设置代理。

set http_proxy=http://127.0.0.1:1080
set https_proxy=http://127.0.0.1:1080

编写

写字段items.py
写存储pipelines.py 少量数据可以存储到json文件scrapy crawl dmoz -o items.json
写爬虫spider.py 使用scrapy.Request的callback参数不断套娃，从首页分类分页找到商品详情页，return item

运行

scrapy crawl name
scrapy runspider name

scrapy爬虫制作基本流程基本操作

moozik • 2020 年 01 月 08 日

scrapy爬虫制作基本流程基本操作

基础知识

安装和建项目

shell模式

爬虫

分析目标网站

编写

运行

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

从avmoo.com抓取av番号的爬虫

git revert的坑，怎么重新merge代码

获取我关注的bilibili更新

聊一聊共享单车【膜拜单车、小黄车】

本来想考心理咨询师，结果差点被骗了

CODING平台不登录会清除数据，离谱

正则记录本

解决php中exec()函数速度过慢的问题

ubuntu20.04下的常用工具安装以及部署go开发环境

python+selenium+PhantomJS环境搭建（数据抓取向）

scrapy爬虫制作基本流程基本操作

基础知识

安装和建项目

shell模式

爬虫

分析目标网站

编写

运行

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

scrapy爬虫制作基本流程基本操作

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款