博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy简单学习3—简单爬取中文网站(仿写向)
阅读量:5881 次
发布时间:2019-06-19

本文共 953 字,大约阅读时间需要 3 分钟。

仿写原创——单页面爬取

爬取网站:左侧的标题,连接,内容
1.item.py定义爬取内容

import scrapyclass MaiziItem(scrapy.Item):    title = scrapy.Field()    link=scrapy.Field()    desc =scrapy.Field()

2.spider文件编写

# -*- coding: utf-8 -*-#encoding=utf-8import scrapyfrom LianHeZaoBao.items import LianhezaobaoItemreload(__import__('sys')).setdefaultencoding('utf-8') class MaimaiSpider(scrapy.Spider):    name = "lianhe"    allowed_domains = ["http://www.zaobao.com/news/china//"]    start_urls = (        'http://www.zaobao.com/news/china//',    )    def parse(self, response):                for li in response.xpath('//*[@id="l_title"]/ul/li'):            item = LianhezaobaoItem()            item['title'] = li.xpath('a[1]/p/text()').extract()            item['link']=li.xpath('a[1]/@href').extract()            item['desc'] = li.xpath('a[2]/p/text()').extract()                        yield item

3.保存文件:命令scrapy crawl lianhe -o lianhe.csv

备注:excel打开出现乱码,用记事本转换成ANSI编码,excel打开中文可正常。
4.完成样式:
图片描述

转载地址:http://mfvix.baihongyu.com/

你可能感兴趣的文章
cacti 从头到脚之添加监控主机(win7/linux)
查看>>
细谈JavaScript dom编程----我的笔记
查看>>
监控各项服务
查看>>
Oracle数据库之SQL起航
查看>>
Oracle数据库之SQL单行函数---日期函数集锦
查看>>
使用OpenCV与Face++实现人脸解锁
查看>>
GC知识
查看>>
NPOI在.net中的操作Excel
查看>>
如何策划网站专题及注意事项
查看>>
java.lang.NoSuchMethodError: org.apache.hadoop.hbase.client.Scan.setCacheBlocks(Z)V
查看>>
PX Deq: Execution Msg等待事件
查看>>
JQuery1.11.3版本POST方法在laravel5.2模板中的使用
查看>>
高性能 Oracle JDBC 编程
查看>>
java 中ResultSet可以获取的数据类型及返回值类型列表
查看>>
ubuntu 13 安装SH程序
查看>>
我的友情链接
查看>>
如何用几个简单的命令改善你的Linux安全
查看>>
查看MySQL记录执行过的SQL
查看>>
用vsftp搭建ftp服务器
查看>>
SpringMVC 之 国际化
查看>>