- Tor节点切换
- 自动注册(中文式账户)
- 自动登录
- 防封禁
- ORM交互
- 事件详情/样本信息录入
- 事件提醒(
telegram
)[图文] - 分类爬取
- 裸体图片过滤(保存但不发送)
- 残留EXIF-GPS信息提取
加入我们:https://t.me/fordarknetspiderbot
-
下载并安装
python 3.8
pip install -r ./requirements.txt pip install -U 'requests[socks]'
-
当前需更新tor至[0.4.0.0版本],旧版将有几率无法取得数据 如果无法通过如下命令安装最新版,推荐至官网编译安装最新源码包
brew install tor cd /usr/local/etc/tor cp torrc.sample ./torrc vi torrc
将如下配置添加到
torrc
后,运行restart_tor.sh
开启torSOCKSPort 9150 # socks5代理地址 Socks5Proxy 127.0.0.1:1086 # 科学上网代理地址(如已翻墙可不填) RunAsDaemon 1 # 开启后台运行 ControlPort 9151 # 开启控制端口
-
识别率略低,可在parser.py的get_captcha处替换
brew install tesseract
-
安装
Docker
后下载Redis Mysql
即可
yum install epel-release -y
yum install redis mariadb mariadb-server git tesseract tesseract-langpack-deu tor -y
wget -P /usr/share/tesseract/tessdata/ https://pyocean.com/data/tesseract/snum.traineddata
systemctl start mariadb #启动mariadb
systemctl enable mariadb #设置开机自启动
mysql_secure_installation
-
配置
config_dev.py
中的连接设定与TelegramRobotToken
mv config_dev.py conf.py bash restart_tor.sh bash restart_task.sh python run.py
-
python3 run.py --help Usage: run.py [OPTIONS] Options: --debug Print debug log --domain TEXT Target domain. --save_error Whether to save the error log --update Whether it has only been updated to crawl --help Show this message and exit.