蝙蝠岛资源网 Design By www.hbtsch.com
对于动态数据的爬取,可以选择selenium
和PhantomJS
两种方式,本文选择的是PhantomJS。
网址:
https://s.taobao.com/search"htmlcode">from selenium import webdriver from scrapy.http.response.html import HtmlResponse from scrapy.http.response import Response class SeleniumSpiderMiddleware(object): def __init__(self): self.driver = webdriver.PhantomJS() def process_request(self ,request ,spider): # 当引擎从调度器中取出request进行请求发送下载器之前 # 会先执行当前的爬虫中间件 ,在中间件里面使用selenium # 请求这个request ,拿到动态网站的数据 然后将请求 # 返回给spider爬虫对象 if spider.name == 'taobao': # 使用爬虫文件的url地址 spider.driver.get(request.url) for x in range(1 ,12 ,2): i = float(x) / 11 # scrollTop 从上往下的滑动距离 js = 'document.body.scrollTop=document.body.scrollHeight * %f' % i spider.driver.execute_script(js) response = HtmlResponse(url=request.url, body=spider.driver.page_source, encoding='utf-8', request=request) # 这个地方只能返回response对象,当返回了response对象,那么可以直接跳过下载中间件,将response的值传递给引擎,引擎又传递给 spider进行解析 return response在设置中,要将
middlewares
设置打开。进入
settings.py
文件中,将DOWNLOADER_MIDDLEWARES = { 'taobaoSpider.middlewares.SeleniumSpiderMiddleware': 543, }打开。
2.第二步,爬取数据
回到spider爬虫文件中。
引入:
from selenium import webdriver自定义属性:
def __init__(self): self.driver = webdriver.PhantomJS()查找数据和分析数据:
def parse(self, response): div_info = response.xpath('//div[@class="info-cont"]') print(div_info) for div in div_info: title = div.xpath('.//div[@class="title-row "]/a/text()').extract_first('') # title = self.driver.find_element_by_class_name("title-row").text print('名称:', title) price = div.xpath('.//div[@class="sale-row row"]/div/span[2]/strong/text()').extract_first('')3.第三步,传送数据到item中:
在
item.py
文件中:name = scrapy.Field() price = scrapy.Field()回到
spider.py
爬虫文件中:引入:
from ..items import TaobaospiderItem传送数据:
#创建实例化对象。
item = TaobaospiderItem() item['name'] = title item['price'] = price yield item在设置中,打开:
ITEM_PIPELINES = { 'taobaoSpider.pipelines.TaobaospiderPipeline': 300, }4.第四步,写入数据库:
进入管道文件中。
引入
import sqlite3 写入数据库的代码如下: class TaobaospiderPipeline(object): def __init__(self): self.connect = sqlite3.connect('taobaoDB') self.cursor = self.connect.cursor() self.cursor.execute('create table if not exists taobaoTable (name text,price text)') def process_item(self, item, spider): self.cursor.execute('insert into taobaoTable (name,price)VALUES ("{}","{}")'.format(item['name'],item['price'])) self.connect.commit() return item def close_spider(self): self.cursor.close() self.connect.close()在设置中打开:
ITEM_PIPELINES = { 'taobaoSpider.pipelines.TaobaospiderPipeline': 300, }因为在上一步,我们已经将管道传送设置打开,所以这一步可以不用重复操作。
然后运行程序,打开数据库查看数据。
至此,程序结束。
下附spider爬虫文件所有代码:
# -*- coding: utf-8 -*- import scrapy from selenium import webdriver from ..items import TaobaospiderItem class TaobaoSpider(scrapy.Spider): name = 'taobao' allowed_domains = ['taobao.com'] start_urls = ['https://s.taobao.com/search"info-cont"]') print(div_info) for div in div_info: title = div.xpath('.//div[@class="title-row "]/a/text()').extract_first('') print('名称:', title) price = div.xpath('.//div[@class="sale-row row"]/div/span[2]/strong/text()').extract_first('') item = TaobaospiderItem() item['name'] = title item['price'] = price yield item def close(self,reason): print('结束了',reason) self.driver.quit()关于scrapy的中文文档:http://scrapy-chs.readthedocs.io/zh_CN/latest/faq.html
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对的支持。如果你想了解更多相关内容请查看下面相关链接
蝙蝠岛资源网 Design By www.hbtsch.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
蝙蝠岛资源网 Design By www.hbtsch.com
暂无使用Scrapy爬取动态数据的评论...
更新日志
2025年04月30日
2025年04月30日
- 小骆驼-《草原狼2(蓝光CD)》[原抓WAV+CUE]
- 群星《欢迎来到我身边 电影原声专辑》[320K/MP3][105.02MB]
- 群星《欢迎来到我身边 电影原声专辑》[FLAC/分轨][480.9MB]
- 雷婷《梦里蓝天HQⅡ》 2023头版限量编号低速原抓[WAV+CUE][463M]
- 群星《2024好听新歌42》AI调整音效【WAV分轨】
- 王思雨-《思念陪着鸿雁飞》WAV
- 王思雨《喜马拉雅HQ》头版限量编号[WAV+CUE]
- 李健《无时无刻》[WAV+CUE][590M]
- 陈奕迅《酝酿》[WAV分轨][502M]
- 卓依婷《化蝶》2CD[WAV+CUE][1.1G]
- 群星《吉他王(黑胶CD)》[WAV+CUE]
- 齐秦《穿乐(穿越)》[WAV+CUE]
- 发烧珍品《数位CD音响测试-动向效果(九)》【WAV+CUE】
- 邝美云《邝美云精装歌集》[DSF][1.6G]
- 吕方《爱一回伤一回》[WAV+CUE][454M]