首页 > 分享 > selenium 爬取淘宝宠物信息

selenium 爬取淘宝宠物信息

萌宠菠菠乐园
2025-01-15 18:27

首先获得淘宝页面，并且输入查找信息，得到淘宝宠物的宝贝信息

首先要对浏览器对象进行初始化，

browser = webdriver.Chrome("D:/Program Files (x86)/Google/Chrome/Application/chromedriver")

因为我这里安装在D:/Program Files (x86)/Google/Chrome/Application/chromedriver，所以写入安装位置，如果不写有时候会报错，不调用chrome浏览器

def index_page():

"""

抓取索引页

:param page:

:return:

"""

try:

browser.get(url)

input=WebDriverWait(browser, 10).until(

EC.presence_of_element_located((By.CSS_SELECTOR, '#q'))

)

input.send_keys(KeyWord)

input.send_keys(Keys.ENTER)

total=WebDriverWait(browser, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR,'.total')))

return total.text

except TimeoutException:

return index_page()

接下来获得有多少个页面以后，就要实现如何获取下一页，具体代码实现如下，要对淘宝网页进行解析

def next_page(page):

try:

input = WebDriverWait(browser, 10).until(

EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input'))

)

submit = WebDriverWait(browser, 10).until(

EC.element_to_be_clickable((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit'))

)

get_product()

input.clear()

input.send_keys(page)

submit.click()

WebDriverWait(browser, 10).until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > ul > li.item.active > span'),str(page)))

except TimeoutException:

return next_page(page)

能够循环获得页面以后就要对商品的信息进行提取，代码实现如下

def get_product():

WebDriverWait(browser, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-itemlist > div .items .item')))

html=browser.page_source

doc=pq(html)

items=doc('#mainsrp-itemlist .items .item').items()

for item in items:

product={

'image':item.find('.pic .img').attr('src'),

'price':item.find('strong').text(),

'deal-cnt':item.find('.deal-cnt').text()[:-2],

'location':item.find('.location').text(),

'J_ClickStat':item.find('.J_ClickStat').text(),

'shop':item.find('.shop span').siblings('span').text()

}

print(product)

save_mondb(product)

最后把信息保存到mongodb里，

def save_mondb(result):

try:

if db[MONGO_COLLECTION].insert(result):

print('suc')

except Exception:

print('f')

全部代码如下

from selenium import webdriver

import re

from selenium.common.exceptions import TimeoutException

from selenium.webdriver.support.wait import WebDriverWait

from selenium.webdriver.common.keys import Keys

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from pyquery import PyQuery as pq

import pymongo

MONGO_URL="localhost"

MONGO_DB='taobao1'

MONGO_COLLECTION='product'

client=pymongo.MongoClient(MONGO_URL)

db=client[MONGO_DB]

browser = webdriver.Chrome("D:/Program Files (x86)/Google/Chrome/Application/chromedriver")

KeyWord='考研书籍全套2019'

url="https://www.taobao.com/"

def index_page():

"""

抓取索引页

:param page:

:return:

"""

try:

browser.get(url)

input=WebDriverWait(browser, 10).until(

EC.presence_of_element_located((By.CSS_SELECTOR, '#q'))

)

input.send_keys(KeyWord)

input.send_keys(Keys.ENTER)

total=WebDriverWait(browser, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR,'.total')))

return total.text

except TimeoutException:

return index_page()

def next_page(page):

try:

input = WebDriverWait(browser, 10).until(

EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input'))

)

submit = WebDriverWait(browser, 10).until(

EC.element_to_be_clickable((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit'))

)

get_product()

input.clear()

input.send_keys(page)

submit.click()

WebDriverWait(browser, 10).until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > ul > li.item.active > span'),str(page)))

except TimeoutException:

return next_page(page)

def get_product():

WebDriverWait(browser, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-itemlist > div .items .item')))

html=browser.page_source

doc=pq(html)

items=doc('#mainsrp-itemlist .items .item').items()

for item in items:

product={

'image':item.find('.pic .img').attr('src'),

'price':item.find('strong').text(),

'deal-cnt':item.find('.deal-cnt').text()[:-2],

'location':item.find('.location').text(),

'J_ClickStat':item.find('.J_ClickStat').text(),

'shop':item.find('.shop span').siblings('span').text()

}

print(product)

save_mondb(product)

def save_mondb(result):

try:

if db[MONGO_COLLECTION].insert(result):

print('suc')

except Exception:

print('f')

def main():

page=index_page()

page=int(re.compile('(d+)').search(page).group(1))

print(page)

for i in range(2,page+1):

next_page(i)

if __name__ == '__main__':

main()

想减肥?带上宠物一起来

狗狗diy食谱（狗狗的食谱）

热点分享

布偶猫吃什么对毛发好原来这些食物就可以

对于布偶猫这种长毛猫来说，一般情况下，布偶猫这样的长毛猫咪毛...

这九种宠物既新奇又独特，看完你爱上没有？

这九种宠物既新奇又独特，看完你爱上没有？小猫，小狗，仓鼠...

推荐分享

缅因猫能长多大一种体型较大的猫

缅因猫能长多大?缅因猫是很多人都喜欢的一个品种，尤其是广大的女...

警惕狗贩的骗人损招星期狗的症状特征

警惕狗贩的骗人损招染色：这一招最多的是用在斑点狗、蝴蝶犬...

热门点击排行

养玉米蛇的危害

狗交配为什么会锁住？从狗狗生理结构来分析

分享分类导航

萌宠日常

宠物饲养指南

宠物营养食谱

selenium 爬取淘宝宠物信息

想减肥?带上宠物一起来

狗狗diy食谱（狗狗的食谱）

布偶猫吃什么对毛发好 原来这些食物就可以

这九种宠物既新奇又独特，看完你爱上没有？

缅因猫能长多大 一种体型较大的猫

警惕狗贩的骗人损招 星期狗的症状特征

布偶猫吃什么对毛发好原来这些食物就可以

缅因猫能长多大一种体型较大的猫

警惕狗贩的骗人损招星期狗的症状特征