参考资料
scrapy项目的一般步骤
scrapy爬虫常见问题
-
为了排查爬虫运行时出现的异常问题,需要调试手段。常用的将log输出保存到文件中,便于查找问题
爬虫scrapy框架–log日志输出配置及使用scrapy 日志 -
当数据中有gbk无法写入的字符时,文件在保存的时候记得设置encoding为utf-8,如果时windows上,需要设置为utf-8-sig(utf-8 with bom)
open('bilibili-top100-{}.csv'.format(self.today), 'w', encoding='utf-8')
-
当出现需要代理才能连接上的网站时,需要设置代理。有两种方式设置代理,一种是直接在构造request请求时添加meta参数。第二种是自定义download middleware。
Scrapy 设置代理终极宝典 - 知乎 (zhihu.com)若出现如下错误,就代表需要通过代理才能访问该网站
[<twisted.python.failure.Failure OpenSSL.SSL.Error: [('SSL routines', '', 'unexpected eof while reading')]>]