从avmoo.com抓取av番号的爬虫

博主： moozik
发布时间：2016 年 10 月 24 日
139838 次浏览
37 条评论
474字数
分类：技术

爬虫项目修改为指定演员id抓取，重新上线开始爬。
2021.11.13

由于GFW的原因，随时都可能被墙，所以当你看到这个文章的时候，我不保证你可以正常访问。下面正文开始。

从https://tellme.pw/avmoo 可获得最新地址

爬虫项目破产，官方修改了电影id的策略，没法爬了。

功能

爬虫：
指定演员id爬所有影片

本地web:

avmoo仿站
支持多关键字搜索(正版不支持)
实现了收藏功能
收藏影片,已发布等关键字可用于搜索
除了图片资源，不需要网络，速度更快

完整代码

https://github.com/moozik/avmopw-spider
建议你从半路开始爬，比如爬15年之后的，因为再早的资源很难找，我之前在网络条件很差的情况下（天津长城宽带，丧心病狂缓存页面）爬了好多天，才把从0000开始所有的数据爬完了，后来发现年代太久远，只剩下考古的意义了。

最后修改：2022 年 02 月 27 日

© 允许规范转载

如果觉得我的文章对你有用，请随意赞赏

37 条评论

李英杰
November 24th, 2023 at 05:26 pm

这个已经访问不了啦，不过直接挂日本的节点上DMM搜索吧。现在很多免费的网站可以看了，画质也不错！

回复
恩娇
April 10th, 2023 at 09:23 am

爬下来干啥，写个皮套上，需要啥爬啥

回复
浪哥
May 19th, 2022 at 03:35 pm

最近好像都访问不了了，有最新的地址吗

回复
1. moozik
  May 24th, 2022 at 04:16 pm
  
  @浪哥
  
  上面有写呀，有个链接能看到最新地址
  
  回复
乐无异
March 12th, 2022 at 05:26 pm

我想问缓存位置在哪儿，数据是存到哪里去了呢？

回复
1. moozik
  March 12th, 2022 at 05:49 pm
  
  @乐无异
  
  缓存的sql结果在内存里，其实用处不是很大，只是最开始做了
  
  回复
  1. 乐无异
    March 13th, 2022 at 01:31 pm
    
    @moozik
    
    之前在github上下了个avbook，那个占用就比较高，是下到本地磁盘的，现在也没人维护了。
    
    回复
    
    moozik
    March 13th, 2022 at 02:31 pm
    
    @乐无异
    
    那个搞了全套的php环境，还内置了mysql，就很大，但是他那个功能挺全的
    
    回复
icebluebear
November 13th, 2021 at 12:18 pm

天津老乡今天发现项目复活了。。。怒赞！
自增爬取是黄了。博主是准备直接搞加密后的id。
而且看来是准备把本地已有的姐姐们展示出来。

回复
1. moozik
  November 13th, 2021 at 03:20 pm
  
  @icebluebear
  
  emmm，只是想用发现用不了改了下
  
  回复
  1. icebluebear
    November 13th, 2021 at 04:26 pm
    
    @moozik
    
    等继续更新哈。。小建议 list表里加个本地是否存在的字段
    
    回复
    
    moozik
    November 13th, 2021 at 06:27 pm
    
    @icebluebear
    
    是标记是否下载对吗，安排上了
    
    回复
    
    icebluebear
    November 13th, 2021 at 06:36 pm
    
    @moozik
    
    果然老司机。。YYDS
    
    回复
    
    moozik
    November 14th, 2021 at 01:19 am
    
    @icebluebear
    
    已经更新了，可以收藏本地文件
    
    回复
    
    icebluebear
    November 14th, 2021 at 06:58 pm
    
    @moozik
    
    该评论仅登录用户及评论双方可见
    
    回复
游客
August 10th, 2020 at 12:24 am

身为一个完全不懂前端的，很好奇怎么把别人的网站直接复制下来..能否给点提示..

回复
1. moozik
  August 12th, 2020 at 11:38 am
  
  @游客
  
  chrome，ctrl + s，保存类型：网页全部，存个地方，网页就下来了。你可以搜一下整站下载器，就这个原理
  
  回复
  1. 游客
    August 15th, 2020 at 02:03 am
    
    @moozik
    
    非常感谢
    
    回复
Mai1me
November 19th, 2019 at 09:32 pm

老司机带带我

回复
1. moozik
  November 20th, 2019 at 12:09 pm
  
  @Mai1me
  
  这个项目已经破产了，github有已存的全部数据
  
  回复
moozik
March 8th, 2018 at 02:28 am

发现可以直连访问了，数据抓一下

回复
Geekerstar
February 24th, 2018 at 05:03 pm

666，来顶一下

回复
1. moozik
  February 24th, 2018 at 05:35 pm
  
  @Geekerstar
  
  谢老铁捧场了，抱拳了
  
  回复
ZX7
January 25th, 2018 at 04:51 pm

请问如何设置代理服务器? 我爬了一会儿就403了, 刚刚学.

回复
1. moozik
  January 25th, 2018 at 05:08 pm
  
  @ZX7
  
  你在代码里搜索proxies就找到相关代码了，用-p参数设置代理服务器，好久没抓了，找不到好用的梯子
  
  回复
  1. zx7
    January 25th, 2018 at 06:32 pm
    
    @moozik
    
    你好, 请问我这样用 speed.py -i -s 28d4 -e zzzz -p https://139.255.57.32:8080 , 这是使用上面这个代理服务器吗?
    为什么我没开SSR用上面的代码直接显示request.error , 用了SSR就可以爬.但是不久就会出现403.
    上面的代码究竟是使用我的SSR来访问, 还是上面的免费代理服务器呢?
    PS: 大一学生,什么都不懂......
    
    回复
    
    moozik
    January 25th, 2018 at 06:54 pm
    
    @zx7
    
    没开ssr出现的错误是请求错误，当然是必须开开才行。403错误是经常会有的，出现403就等着重试就行了，有个重试表，没请求到的都在里面
    
    回复
zz
September 9th, 2017 at 02:36 pm

这个网站现在怎么上不去了翻墙也不行

回复
1. 陈溪
  May 11th, 2024 at 10:40 pm
  
  @zz
  
  该评论仅登录用户及评论双方可见
  
  回复
2. 丁丁丁
  May 27th, 2023 at 02:48 pm
  
  @zz
  
  这可能是因为该站点使用过期的或不安全的 TLS 安全设置。如果这种情况持续发生，请与网站的所有者联系。
  
  回复
3. 小有名气的打工人
  June 20th, 2022 at 04:12 pm
  
  @zz
  
  但是打不开啊
  
  回复
4. 啊哈哈
  May 28th, 2019 at 03:35 pm
  
  @zz
  
  说实话真的很感谢你们这样的大佬谢谢
  
  回复
5. moozik
  September 24th, 2017 at 09:39 pm
  
  @zz
  
  不可能啊，翻墙肯定可以上的
  
  回复
  1. 寒风
    December 26th, 2017 at 11:26 pm
    
    @moozik
    
    现在真的不能上了，如果能上请告诉我方法OωO
    
    回复
    
    moozik
    December 28th, 2017 at 06:40 pm
    
    @寒风
    
    那当然是自己搭梯子上了，ss就不错，vpn不是都被查了吗
    
    回复
    
    刘小白
    March 12th, 2020 at 10:32 pm
    
    @moozik
    
    怎么自己搭梯子啊
    
    回复
游客
August 17th, 2017 at 11:03 pm

66666666

回复

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱

地址

运维学习笔记博客
欢迎来到Typecho世界，哈哈！
陈溪
该评论仅登录用户及评论双方可见
Xxx
🙂🙂🙂🙂🙂
李英杰
这个已经访问不了啦，不过直接挂日本的节点上DMM搜索吧。现在很...
泽泽
泽泽社的友情链接可以删除了，网站已卖，现在转到xlog上了，加...