一、创建爬虫项目
1、进入E:\IT\PYthon,在地址栏输入cmd,进入cmd命令提示符,依次输入以下代码:
scrapystartprojectstock
cdstock
/stock
看到Createdspider'sina'usingtemplate'basic'inmodule:
时,代表爬虫项目创建成功。
2、打开pycharm,open目录E:\IT\PYthon\stock\stock,开始编写代码
二、编写代码:
1、进入E:\IT\PYthon\stock\stock\,开始进行设置,设置的项如下:
①FEED_EXPORT_ENCODING="utf-8"告诉搜索引擎爬虫,拒绝遵守Robot协议
③DEFAULT_REQUEST_HEADERS={'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language':'en','User-Agent':'Mozilla/5.0(;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/69.0.3497.100Safari/537.36'}definethefieldsforyouritemherelike:设置url为爬虫字段title=()导入scrapy库导入正则库classSinaSpider():name='sina'设置运行爬取的网址为新浪股票网站,在创建爬虫时自动设置的start_urls=['']将的类StockItem实例化给itemhtml=匹配li标签下面的a标签的href属性值和文本内容,并赋值给pattern1result1=(pattern1,html)遍历result1里的内容,将遍历的内容设置为infoitem["url"]=info[0]将info第2个元素值赋值给item的(item)导入scrapy库的cmdline类("".split())#上句代码执行cmdline的execute方法,此方法用来运行爬虫代码,代码的命令是,-0是代表打开文件并保存,代表保存的文件名
3、在E:\IT\PYthon\stock\stock\spiders\的空白处右键选择RUN'run'命令,即可运行代码,最后可以发现在当前的E:\IT\PYthon\stock\stock\spiders\目录下新建了一个文件,文件名为,打开json可以查看所有的爬取到的数据,如下所示:
四、完整的项目图片示例
如下图所示: