色彩时光 | 记录程序员世界的点点滴滴

分词相关记录

结巴分词:http://www.oss.io/p/fxsjy/jieba 中文分词词性对照表:继续阅读 →

某宝防爬记录,第一次防爬链接 2018-03-21

今天从某宝爬数据。浏览器调试模式手动模式拉数据正常,但是到代码爬数据是总是出现“非法请求的提示”。最后在代码里进入调试模式发现,他设计了一种防爬机制,在返回数据接口链接上加入了防爬链接,一般设计到第一次访问时。只要访问到该链接,该页面数据接口链接将同时失效。
继续阅读 →

2017-12-27分享推广小结

2017-12-27 18:54:43 wx_share 526352302868 曼达尼砂锅 35399645973 水密码化妆品 561727585976 睡衣女秋季纯棉 83次有效访问 526352302868有效访问0次 35399645973有效访问2次 117.136.8
继续阅读 →

淘宝一级目录收集

121266001|众筹 120886001|公益 98|包装 120950002|天猫点券 120894001|淘女郎 50023722|隐形眼镜/护理液 50026555|购物提货券 50026523|休闲娱乐 50008075|餐饮美食卡券 50019095|消费卡 50014927|教育培训
继续阅读 →

selenium小实验

selenium 能模拟浏览器行为,常用于与自动测试和网页内容抓取。在网页内容抓取方面,能比较合理的解决动态内容,以及验证环节等问题。下面写了个简单例子抓取淘宝排行榜的热门品牌排行榜。
继续阅读 →

淘宝api doc相关知识记录

SPM是淘宝社区电商业务(xTao)为外部合作伙伴(外站)提供的一套跟踪引导成交效果数据的解决方案。 地址:继续阅读 →

分类

热门标签

友情链接