爬取新浪股票网站的股票新闻资讯

一、创建爬虫项目

1、进入E:\IT\PYthon,在地址栏输入cmd,进入cmd命令提示符，依次输入以下代码：

scrapystartprojectstock

cdstock

/stock

看到Createdspider'sina'usingtemplate'basic'inmodule:

时，代表爬虫项目创建成功。

2、打开pycharm，open目录E:\IT\PYthon\stock\stock，开始编写代码

二、编写代码：

1、进入E:\IT\PYthon\stock\stock\,开始进行设置，设置的项如下：

①FEED_EXPORT_ENCODING="utf-8"告诉搜索引擎爬虫，拒绝遵守Robot协议

③DEFAULT_REQUEST_HEADERS={'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language':'en','User-Agent':'Mozilla/5.0(;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/69.0.3497.100Safari/537.36'}definethefieldsforyouritemherelike:设置url为爬虫字段title=()导入scrapy库导入正则库classSinaSpider():name='sina'设置运行爬取的网址为新浪股票网站,在创建爬虫时自动设置的start_urls=['']将的类StockItem实例化给itemhtml=匹配li标签下面的a标签的href属性值和文本内容，并赋值给pattern1result1=(pattern1,html)遍历result1里的内容，将遍历的内容设置为infoitem["url"]=info[0]将info第2个元素值赋值给item的(item)导入scrapy库的cmdline类("".split())#上句代码执行cmdline的execute方法，此方法用来运行爬虫代码，代码的命令是，-0是代表打开文件并保存，代表保存的文件名

3、在E:\IT\PYthon\stock\stock\spiders\的空白处右键选择RUN'run'命令，即可运行代码，最后可以发现在当前的E:\IT\PYthon\stock\stock\spiders\目录下新建了一个文件，文件名为,打开json可以查看所有的爬取到的数据，如下所示：

四、完整的项目图片示例

如下图所示：

上一个 火车票抢票软件靠谱吗？谁抢票能力强？实测八款APP得出结论！

下一个 「我与改革开放的故事」之七还记得粮票布票肉票的模样吗？

爬取新浪股票网站的股票新闻资讯

相关阅读

友情链接