crawler.md
2.99 KB
publish
账号信息
【iconfont】 http://iconfont.cn yue.liu@yoho.cn/yohoicon
UFO 爬虫
仓库地址
http://git.yoho.cn/fe/spider-ufo
环境发布
注:需要堡垒机权限,没有就找运维申请
登录堡垒机,选择爬虫机器
项目目录/Data/node/spider-ufo/
/db 文件数据库目录
git pull代码
pm2 list | ls查看运行项目
pm2 stop appName|id 停止项目
pm2 restart spider-ufo 重启
pm2 logs 查看运行状态
关键文件目录
1.数据存储目录 /Data/node/spider-ufo/db
2.爬取日志目录 /Data/logs/node/
3.每天爬取的毒全量数据日志目录 /Data/logs/node/prices/
常见问题定位
1.ufo比价与毒的价格不一致
查询ufo与毒的货号进行对比
查询ufo与毒的关系文件,是否有对应关系,如果存在对应关系,则查找爬取日志找到对应商品尺码的各种日志,如果不存在对应关系,则查找毒全量商品数据是否存在该商品并对比货号(注意空格或特殊字符)
上传数据查询
yoho运维平台->其他->sql通用查询
当前数据源: ufo DB列表: ufo_product
select * from channel_sku_compare where product_id = 10044469
后续优化
1.毒全量商品数据存储精简,只需要存储ID,货号等必要信息
2.进行增量更新或部分增量更新,对已爬取的毒商品数据不进行抓取或每周抓取,以及根据对应关系抓取后的数据不一致时进行更新
3.更换存储介质
代码
毒销售数据爬虫
仓库地址
http://git.yoho.cn/fe/spider-du (目前已停用)
闲鱼UFO销售数据报表
仓库地址