有不少人回的只是一个库,并非框架。这里给你推荐一个虽然不常见,但是及其简单好用的Python爬虫框架:simplified-scrapy,支持并发下载,并封装了pyppeteer可以进行渲染页面的方式采集。另外,他的抽取功能非常简单好用。下面给你一个例子:
from simplified_scrapy.spider import Spider
class ScrapydSpider(Spider):
name = 'scrapyd-spider'
start_urls = ['http://www.scrapyd.cn/']
# models = ['auto_main','auto_obj'] # 可以用配置模型的方式抽取数据。如果这里配了,下面的extract方法就可以不用重写
def urlFilter(self,url):
return url.find('/jiaocheng/')>0# 只采集教程数据
def extract(self, url, html, models, modelNames):
try:
html = self.removeScripts(html)# 去掉脚本数据,也可以不去
lstA = self.listA(html,url["url"])#抽取页面中的链接
data = []
ele = self.getElementByTag("h1",html)#取标题
if(ele):
title = ele.text
ele = self.getElementByClass("cont",html,"")#取正文
if(ele):
content = ele.innerHtml
ele = self.getElementsByTag("span",html,'class="title-2"','class="cont"')#取作者和时间
author = None
time = None
if(ele and len(ele)>1):
time = ele[0].text
author = ele[1].text
data.append({"Url": url["url"], "Title": title, "Content": content, "Author":author, "Time":time})
return [{"Urls": lstA, "Data": data}]#将数据返回给框架,由框架处理
except Exception as e:
print (e)
from simplified_scrapy.simplified_main import SimplifiedMain
SimplifiedMain.startThread(ScrapydSpider())
补充一下,虽然这个库名字是simplified-scrapy,但是和scrapy没有关系。
这个框架也提供单独下载和抽取的功能,在贴一个例子:
from simplified_scrapy.request import req
from simplified_scrapy.simplified_doc import SimplifiedDoc
def test(html):
lst=[]
if(html):
doc = SimplifiedDoc()
#获取列表数据块
content = doc.getElementByClass('board-wrapper',html)
#获取列表中每一行数据
rows = doc.getElementsByTag('dd')
for i in rows:
obj = {}
#抽取电影信息
items = doc.getElementsByTag('p',i.innerHtml)
for item in items:
obj[item['class']]=item.text
lst.append(obj)
return lst
html = req.get('https://maoyan.com/board/4?offset=0')
print (test(html))
相关知识
python 用什么爬虫宠物好
用python写个桌面挂件
Python爬虫实战:获取宠物领养信息和照片
【Python程序】用200行Python代码制作有趣的桌面宠物(源码可分享),大打工人解压放松程序,如何用Python制作一个桌面宠物!
Python实现宠物市场自动化交易系统,利用网络爬虫与API接口实现数据交互
【附源码】用Python代码,制作出一只专属桌面宠物,确定不来一只?保姆级教程,小白也能学会!!
博客名:使用Python爬虫实现宠物社区的宠物品种和养护知识获取
【Python教程】教你用Python代码制作一个桌面宠物,专属桌宠,体验感升级1000%(附源码)
用 Python 制作一个桌面宠物,好玩!
【创新课题】猫狗养殖户养殖决策系统:基于python爬虫猫狗电商销售数据可视化分析
网址: python 用什么爬虫宠物好 https://m.mcbbbk.com/newsview1075838.html
上一篇: REPTIZOO加热垫爬虫宠物蜥 |
下一篇: 揭秘Python:另类爬宠的魅力 |