这两天尝试在爬取百度图片时,遇到了不少坑,有几处问题还不太明白,先记录下来,待日后解决。
问题如下:
1. 百度图片的网页有两种:
http://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&oe=utf-8&word=people&fp=result&
http://image.baidu.com/search/flip?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&oe=utf-8&word=people&fp=result&
两者只有加下划线的部分不同,但是关键字为index的url图片是动态加载的,使用xpath无法解析到图片的链接地址
关键字为flip的是固定页面,每页显示固定张数的图片,但是从浏览器端看到只有30张,但是通过requests.get获取到的图片url却有60个,不是很理解这一点。
我写的爬虫使用的是解析关键字为flip的url
2. 在获取到html.text后,通过正则表达式来筛选出图片的源地址
re.findall('"objURL":"(.*?)",', html, re.S)
这一句是借鉴了其他人的写法&#x
相关知识
python爬虫,爬取百度图片
博客名:使用Python爬虫实现宠物社区的宠物品种和养护知识获取
Python爬虫实战:获取宠物领养信息和照片
[开题报告]flask框架的宠物交流平台系统50k32(程序+论文+python)
[附开题]flask框架宠物领养系统xu2hg(源码+论文+python)
python爬虫实例——中国电影票房
[附开题]flask框架宠物托管系统设计与实现is203(源码+论文+python)
2017中国宠物文化节(西安站)爬宠展区特别报道!【二、西北爬虫】
树脂 爬虫厂家
Python程序源码老哥
网址: python爬虫,爬取百度图片 https://m.mcbbbk.com/newsview161104.html
上一篇: uboot顶层makefile部 |
下一篇: 会考=高考!2018黑龙江省会考 |