随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:
(1)不同领域、不同背景的用户往往具有不同的检索目的和需求,通过搜索引擎所返回的结果包含大量用户不关心的网页。
(2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。
(3)万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。
爬虫作用:
-
市场分析:电商分析、商圈分析、一二级市场分析等
-
市场监控:电商、新闻、房源监控等
-
商机发现:招投标情报发现、客户资料发掘、企业客户发现等
ECommerceCrawlers —开源的项目爬虫工具
简述:
实战多种网站、电商数据爬虫的爬虫工具集。包含:淘宝商品、微信公众号、大众点评、招聘网站、闲鱼、阿里任务、scrapy博客园、微博、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家、国家统计局、百度关键词收录数、蜘蛛泛目录、今日头条、豆瓣影评️️️等。
项目技术:
- 数据分析:chrome Devtools、Fiddler、anyproxy、mitmproxy
- 数据采集:urllib、requests、scrapy、selenium
- 数据保存:txt文本、csv、Excel、mysql、redis、mongodb
- 反爬验证:mitmproxy 绕过淘宝检测、js 数据解密、js 数据生成对应指纹库、文字混淆
about ECommerceCrawlers:
- Gitee码云仓库链接:AJay13/ECommerceCrawlers
- Github 仓库链接:DropsDevopsOrg/ECommerceCrawlers
- 项目展示平台链接:http://wechat.doonsec.com
- 项目目标:
- 爬取过程:
获取数据
模拟获取数据 - 解析数据:
re
beautifulsoup
xpath
pyquery
css - 存储数据:
小规模数据存储(文本):
txt 文本
csv
excel
大规模数据存储(数据库):
mysql
redis
mongodb - 反爬措施:
反爬
反反爬 - 效率爬虫:
多线程
多进程
异步协程
scrapy 框架 - 可视化处理:
flask Web
django Web
tkinter
echarts
electron
- 项目准备:
1、代码下载
网址:https://gitee.com/AJay13/ECommerceCrawlers
2、环境搭建
-
python开发环境
-
python开发工具(PyCharm Community Edition)
-
开发环境中配置Python库。将需要的库使用pip下载
3、爬虫相关知识学习
beautifulsoup
scrapy等
分析有关爬取微博、闲鱼和招聘网信息的代码
下设四个目录文件
学习反爬虫机制
分析四项网站爬虫代码
了解静态、动态爬虫
灵活运用爬虫进行实战
部分内容引用来源:https://www.jianshu.com/p/8520562ccc2e、https://gitee.com/AJay13/ECommerceCrawlers