爬虫项目修改为指定演员id抓取,重新上线开始爬。2021.11.13
由于GFW的原因,随时都可能被墙,所以当你看到这个文章的时候,我不保证你可以正常访问。下面正文开始。
从https://tellme.pw/avmoo 可获得最新地址
爬虫项目破产,官方修改了电影id的策略,没法爬了。
功能
爬虫:
指定演员id爬所有影片
本地web:
- avmoo仿站
- 支持多关键字搜索(正版不支持)
- 实现了收藏功能
收藏影片
,已发布
等关键字可用于搜索- 除了图片资源,不需要网络,速度更快
完整代码
https://github.com/moozik/avmopw-spider
建议你从半路开始爬,比如爬15年之后的,因为再早的资源很难找,我之前在网络条件很差的情况下(天津长城宽带,丧心病狂缓存页面)爬了好多天,才把从0000开始所有的数据爬完了,后来发现年代太久远,只剩下考古的意义了。
37 条评论
这个已经访问不了啦,不过直接挂日本的节点上DMM搜索吧。现在很多免费的网站可以看了,画质也不错!
爬下来干啥,写个皮套上,需要啥爬啥
最近好像都访问不了了, 有最新的地址吗
上面有写呀,有个链接能看到最新地址
我想问缓存位置在哪儿,数据是存到哪里去了呢?
缓存的sql结果在内存里,其实用处不是很大,只是最开始做了
之前在github上下了个avbook,那个占用就比较高,是下到本地磁盘的,现在也没人维护了。
那个搞了全套的php环境,还内置了mysql,就很大,但是他那个功能挺全的
天津老乡今天发现项目复活了。。。怒赞!
自增爬取是黄了。博主是准备直接搞加密后的id。
而且看来是准备把本地已有的姐姐们展示出来。
emmm,只是想用发现用不了改了下
等继续更新哈。。小建议 list表里 加个本地是否存在的字段
是标记是否下载对吗,安排上了
果然老司机。。YYDS
已经更新了,可以收藏本地文件
身为一个完全不懂前端的,很好奇怎么把别人的网站直接复制下来..能否给点提示..
chrome,ctrl + s,保存类型:网页全部,存个地方,网页就下来了。你可以搜一下整站下载器,就这个原理
非常感谢
老司机带带我
这个项目已经破产了,github有已存的全部数据
发现可以直连访问了,数据抓一下
666,来顶一下
谢老铁捧场了,抱拳了
请问如何设置代理服务器? 我爬了一会儿就403了, 刚刚学.
你在代码里搜索proxies就找到相关代码了,用-p参数设置代理服务器,好久没抓了,找不到好用的梯子
你好, 请问我这样用 speed.py -i -s 28d4 -e zzzz -p https://139.255.57.32:8080 , 这是使用上面这个代理服务器吗?
为什么我没开SSR用上面的代码 直接显示request.error , 用了SSR就可以爬.但是不久就会出现403.
上面的代码究竟是使用我的SSR来访问, 还是上面的免费代理服务器呢?
PS: 大一学生,什么都不懂......
没开ssr出现的错误是请求错误,当然是必须开开才行。403错误是经常会有的,出现403就等着重试就行了,有个重试表,没请求到的都在里面
这个网站现在怎么上不去了 翻墙也不行
这可能是因为该站点使用过期的或不安全的 TLS 安全设置。如果这种情况持续发生,请与网站的所有者联系。
但是打不开啊
说实话真的很感谢你们这样的大佬谢谢
不可能啊,翻墙肯定可以上的
现在真的不能上了,如果能上请告诉我方法OωO
那当然是自己搭梯子上了,ss就不错,vpn不是都被查了吗
怎么自己搭梯子啊
66666666