Authored by maelk-liu

modify

/*
* Copyright (C), 2016-2016, yoho
* FileName: CrawlerDestinationUrls.java
* Author: Maelk_liu
* Date: 2016年11月28日 下午1:49:54
* Description: //模块目的、功能描述
* History: //修改记录
* <author> <time> <version> <description>
* 修改人姓名 修改时间 版本号 描述
*/
package com.yoho.global.common.crawler.constants;
/**
* 〈一句话功能简述〉<br>
* 〈功能详细描述〉
*
* @author Maelk_liu
* @see [相关类/方法](可选)
* @since [产品/模块版本] (可选)
*/
public interface CrawlerDestinationUrls {
/*'http://zozo.jp' => '\Zozojp',
'http://www.stylife.co.jp' => '\Stylife',
'http://www.a-land.co.kr'=> '\Aland',
'http://www.mrporter.com|https://www.mrporter.com' => '\Mrporter', yaoxiaofeng
'http://www.stylife.co.jp' => '\Stylife',
'http://www.sneakersnstuff.com'=>'\Sneakersnstuff',wuxiao
'http://www.zappos.com'=>'\Zappos', yaoxiaofeng
'http://us.asos.com'=>'\Asos', yaoxiaofeng
'https://www.shopbop.com'=>'\Shopbop',
'http://www.endclothing.com|http://www.endclothing.co.uk' => '\Endclothing',
'http://www.supremenewyork.com' => '\Supreme',
'http://shop.visvim.tv|https://shop.visvim.tv' => '\Visvim',
'http://www.asos.com'=>'\Asosuk', wuxiao
'http://cn.alandglobal.com'=>'\Aland', wuxiao*/
public static final String ZOZO_URL="http://zozo.jp";
}
... ...
... ... @@ -30,6 +30,7 @@ public class MyCousonloPipeline implements Pipeline<SpiderBean> {
if(bean.getClass().isAssignableFrom(MyGithub.class)){
MyGithub mygit =(MyGithub)bean;
System.out.println(mygit.getUser());
System.out.println(mygit.getReadme());
}
//System.out.println(JSON.toJSONString(bean));
}
... ...
... ... @@ -3,6 +3,7 @@ package com.yoho.global.crawler;
import com.geccocrawler.gecco.GeccoEngine;
import com.geccocrawler.gecco.annotation.Gecco;
import com.geccocrawler.gecco.annotation.Href;
import com.geccocrawler.gecco.annotation.Html;
import com.geccocrawler.gecco.annotation.HtmlField;
import com.geccocrawler.gecco.annotation.Request;
import com.geccocrawler.gecco.annotation.RequestParameter;
... ... @@ -43,6 +44,23 @@ public class MyGithub implements HtmlBean {
@HtmlField(cssPath=".entry-content")
private String readme;
@Html
private String htmlcontent;
/**
* @return the htmlcontent
*/
public String getHtmlcontent() {
return htmlcontent;
}
/**
* @param htmlcontent the htmlcontent to set
*/
public void setHtmlcontent(String htmlcontent) {
this.htmlcontent = htmlcontent;
}
public HttpRequest getRequest() {
return request;
}
... ... @@ -109,7 +127,7 @@ public class MyGithub implements HtmlBean {
public static void main(String[] args) {
GeccoEngine.create()
.classpath("com.geccocrawler.gecco.demo")
.classpath("com.yoho.global.crawler")
//开始抓取的页面地址
.start("https://github.com/xtuhcy/gecco")
.start("https://github.com/xtuhcy/gecco-spring")
... ... @@ -118,7 +136,7 @@ public class MyGithub implements HtmlBean {
//单个爬虫每次抓取完一个请求后的间隔时间
.interval(2000)
//循环抓取
.loop(true)
.loop(false)
//采用pc端userAgent
.mobile(false)
//是否开启debug模式,跟踪页面元素抽取
... ...
/*
* Copyright (C), 2016-2016, yoho
* FileName: CrawlerContentService.java
* Author: Maelk_liu
* Date: 2016年11月28日 下午1:55:34
* Description: //模块目的、功能描述
* History: //修改记录
* <author> <time> <version> <description>
* 修改人姓名 修改时间 版本号 描述
*/
package com.yoho.global.crawler.service;
import java.util.List;
/**
* 内容抓取接口
*
* @author Maelk_liu
* @see [相关类/方法](可选)
* @since [产品/模块版本] (可选)
*/
public interface CrawlerContentService {
/**
* 返回抓取到的html源代码
* @return type
*/
public String getHtmlSource();
/**
* 获取标题
* @return string
*/
public String getTitle();
/**
* 获取关键字
* @return string
*/
public String getKeywords();
/**
* 获取描述
* @return string
*/
public String getDescription();
/**
* 获取品牌名
*/
public String getBrand();
/**
* 获取商品名
*/
public String getName();
/**
* 获取价格
* @param string color 目标网站的颜色
* @param string size 目标网站的尺码
* @param string goodsn 目标网站的商品号
*/
public String getPrice(String color, String size, String goodsn);
/**
* 获取是否支持海外配送
*/
public String getOverseas();
/**
* 获取商品型号信息
*/
public String getModel();
/**
* 获取库存
* @param string color 目标网站的颜色
* @param string size 目标网站的尺码
* @param string goodsn 目标网站的商品号
*/
public String getStock(String color, String size, String goodsn);
/**
* 获取图片
*/
public List<String> getPics();
/**
* 获取商品详情
*/
public String getContent();
}
... ...