...
|
...
|
@@ -51,11 +51,12 @@ |
|
|
- 另外对内容分词的时候还会去掉一些没有意义的Term,比如数字、非法字符和自定义的黑名单Term,提升提取效果;
|
|
|
|
|
|
# 后续计划
|
|
|
1. 目前是直接返回有货关键词,但是这些关键词是否关联到商品没有保证,后续需要考虑在索引构造器前进行计算和处理(增加这一步骤还需要考虑不同来源的数量处理);
|
|
|
2. 目前关键词提取过一次之后就不再进行处理了,如果有货关键词减少了一部分,那原来的关键词映射就需要更新,这个后续需要改进;
|
|
|
3. 目前suggest和conversion是两个索引,在获取推荐词的时候可能需要调用两次ES查询,后续考虑合并以及基于suggest获取数量;
|
|
|
4. 目前的爬虫调用了大量的Elasticsearch分词,后续考虑在进程内实现分词,减少网络开销;
|
|
|
5. 目前有货关键词的范围大约是3000多个,一些搜索常用的词可能不在里面,后续考虑扩展;
|
|
|
6. 目前爬虫的是百度百科的内容,可能部分内容不一定有,可以考虑通过下载维基百科语料或者调用百度搜索来获取更多内容来进行关键词提取。
|
|
|
1. 对于搜索输入条件太多的情况,考虑基于suggest对关键词进行分类,比如标注为品牌、品类、风格等,然后根据不同的分类组合成关键词,这样可能与用户的目标更接近一点;
|
|
|
2. 目前是直接返回有货关键词,但是这些关键词是否关联到商品没有保证,后续需要考虑在索引构造器前进行计算和处理(增加这一步骤还需要考虑不同来源的数量处理);
|
|
|
3. 目前关键词提取过一次之后就不再进行处理了,如果有货关键词减少了一部分,那原来的关键词映射就需要更新,这个后续需要改进;
|
|
|
4. 目前suggest和conversion是两个索引,在获取推荐词的时候可能需要调用两次ES查询,后续考虑合并以及基于suggest获取数量;
|
|
|
5. 目前的爬虫调用了大量的Elasticsearch分词,后续考虑在进程内实现分词,减少网络开销;
|
|
|
6. 目前有货关键词的范围大约是3000多个,一些搜索常用的词可能不在里面,后续考虑扩展;
|
|
|
7. 目前爬虫的是百度百科的内容,可能部分内容不一定有,可以考虑通过下载维基百科语料或者调用百度搜索来获取更多内容来进行关键词提取。
|
|
|
|
|
|
|
...
|
...
|
|