python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库
项目描述
使用selenium、webdriver爬取淘宝的图片、商品、价格等信息。在命令行界面输入爬取的参数,把参数信息记录到txt文件中,运行爬虫程序后,先使用手机扫码登陆,然后pc端网页会自动翻淘宝的网页,知道翻到淘宝的最后一页,就会停止对商品的爬取
web端功能:
1.下拉框选择商品搜索
2.点击图片放大
3.点击详情,查看商品详情
4.用饼图查看交易量占比
运行:
1.新建命令行记录文件。命令行记录文件是记录爬虫时,你输入的商品名字和数据库名字(具体位置是E:\a\cmd.txt) 2.pip安装selenium,然后查看你的chrome版本,根据你的版本安装webdriver.exe。具体教程: 3.启动爬虫(商品名字是要在淘宝搜索的商品,数据库名字是爬取的商品要存在哪个数据库里面,数据库名字最好是拼音或者英文) python crawl_taobao.py -k 商品名字 -d 数据库名字 4.启动web: python runserver.py
运行环境
python+pycharm
项目技术(必填)
python+selenium+mongodb+layui
数据库文件(可选)
mongodb
依赖包文件(可选)
>pip install pyquery
>pip install pymongo
运行视频(可选)
链接:https://pan.baidu.com/s/1ijbE7ih3-AH0t5nuAgtjOQ
提取码:9ym9
是否原创(转载必填原文地址)
基于网上的项目修改的
项目截图(必填)
抓取端
web端
运行截图(必填)
http://127.0.0.1:5000/
商品详情
按商品类别搜索商品
统计图
按商品类别统计
执行抓取命令python crawl_taobao.py -k 电脑 -d diannao
搜最代码
会自动写入cmd.txt
cmd下查询mongodb数据库
>use zuidaima
>db.zuidaimatable.find()
注意事项(可选)
1.mongodb的db可以先建立也可以不用
2.cmd.txt文件需要在执行爬虫脚本之前建立
CmdSave.py
SwitchGoods.py
3.抓取时,分页有时候会卡,手动点击下一页就会恢复正常
4.运行runserver.py时需要设置配置python sdk才可以
猜你喜欢
- python+vue实现网站爬虫&数据分析案例
- nodejs抓取大众点评网站数据,mysql+webstorm复制粘贴就能用
- java抓取特定网站图片并下载
- python爬虫抓取并显示新型肺炎数据+分析系统
- 使用jsoup抓取指定网站地址的class的html内容
- java通过jsoup框架抓取网易云音乐歌手信息数据
- httpClient与jsoup的结合使用实现网页抓取数据的简单测试
- java爬虫实现之httpClient4.5.2 抓取时时彩历史数据然后实现自动出号功能
- java抓取html网页数据内容demo
- jsoup多线程爬取第一ppt网站所有ppt详情以及下载地址
- apache HttpClient 4.3.4自动登录并抓取中国联通网页用户基本信息和账单数据
- python爬取豆瓣电影top250电影数据
- /
- /taobao_crawled-master
- /taobao_crawled-master/.gitattributes
- /taobao_crawled-master/.idea
- /taobao_crawled-master/.idea/encodings.xml
- /taobao_crawled-master/.idea/misc.xml
- /taobao_crawled-master/.idea/modules.xml
- /taobao_crawled-master/.idea/taobao_crawled-master.iml
- /taobao_crawled-master/.idea/workspace.xml
- /taobao_crawled-master/crawl_taobao.py
- /taobao_crawled-master/ghostdriver.log
- /taobao_crawled-master