crawler.md 2.99 KB

publish

账号信息

【iconfont】 http://iconfont.cn yue.liu@yoho.cn/yohoicon

UFO 爬虫

仓库地址

http://git.yoho.cn/fe/spider-ufo

环境发布

注:需要堡垒机权限,没有就找运维申请

登录堡垒机,选择爬虫机器

项目目录/Data/node/spider-ufo/

/db 文件数据库目录

git pull代码

pm2 list | ls查看运行项目

pm2 stop appName|id 停止项目

pm2 restart spider-ufo 重启

pm2 logs 查看运行状态

关键文件目录

1.数据存储目录 /Data/node/spider-ufo/db

毒全量商品数据(可精简)

ufo商品与毒商品的对应关系(神箭手已停)

2.爬取日志目录 /Data/logs/node/

3.每天爬取的毒全量数据日志目录 /Data/logs/node/prices/

常见问题定位

1.ufo比价与毒的价格不一致

    查询ufo与毒的货号进行对比
    查询ufo与毒的关系文件,是否有对应关系,如果存在对应关系,则查找爬取日志找到对应商品尺码的各种日志,如果不存在对应关系,则查找毒全量商品数据是否存在该商品并对比货号(注意空格或特殊字符)

上传数据查询

yoho运维平台->其他->sql通用查询

当前数据源: ufo DB列表: ufo_product

select * from channel_sku_compare where product_id = 10044469

后续优化

    1.毒全量商品数据存储精简,只需要存储ID,货号等必要信息
    2.进行增量更新或部分增量更新,对已爬取的毒商品数据不进行抓取或每周抓取,以及根据对应关系抓取后的数据不一致时进行更新
    3.更换存储介质

代码

毒销售数据爬虫

仓库地址

http://git.yoho.cn/fe/spider-du (目前已停用)

闲鱼UFO销售数据报表

仓库地址

http://git.yoho.cn/fe/yoho-dashboard-ufo