爬取新浪股票网站的股票新闻资讯

sw

一、创建爬虫项目

1、进入E:\IT\PYthon,在地址栏输入cmd,进入cmd命令提示符,依次输入以下代码:

scrapystartprojectstock

cdstock

/stock

看到Createdspider'sina'usingtemplate'basic'inmodule:

时,代表爬虫项目创建成功。

2、打开pycharm,open目录E:\IT\PYthon\stock\stock,开始编写代码

二、编写代码:

1、进入E:\IT\PYthon\stock\stock\,开始进行设置,设置的项如下:

①FEED_EXPORT_ENCODING="utf-8"告诉搜索引擎爬虫,拒绝遵守Robot协议

③DEFAULT_REQUEST_HEADERS={'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language':'en','User-Agent':'Mozilla/5.0(;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/69.0.3497.100Safari/537.36'}definethefieldsforyouritemherelike:设置url为爬虫字段title=()导入scrapy库导入正则库classSinaSpider():name='sina'设置运行爬取的网址为新浪股票网站,在创建爬虫时自动设置的start_urls=['']将的类StockItem实例化给itemhtml=匹配li标签下面的a标签的href属性值和文本内容,并赋值给pattern1result1=(pattern1,html)遍历result1里的内容,将遍历的内容设置为infoitem["url"]=info[0]将info第2个元素值赋值给item的(item)导入scrapy库的cmdline类("".split())#上句代码执行cmdline的execute方法,此方法用来运行爬虫代码,代码的命令是,-0是代表打开文件并保存,代表保存的文件名

3、在E:\IT\PYthon\stock\stock\spiders\的空白处右键选择RUN'run'命令,即可运行代码,最后可以发现在当前的E:\IT\PYthon\stock\stock\spiders\目录下新建了一个文件,文件名为,打开json可以查看所有的爬取到的数据,如下所示:

四、完整的项目图片示例

如下图所示:

文章版权声明:除非注明,否则均为快票查询原创文章,转载或复制请以超链接形式并注明出处。

上一个 火车票抢票软件靠谱吗?谁抢票能力强?实测八款APP得出结论!

下一个 「我与改革开放的故事」之七还记得粮票布票肉票的模样吗?