Contents

scrapy

参考资料

scrapy项目的一般步骤

scrapy爬虫常见问题

  1. 为了排查爬虫运行时出现的异常问题,需要调试手段。常用的将log输出保存到文件中,便于查找问题
    爬虫scrapy框架–log日志输出配置及使用scrapy 日志

  2. 当数据中有gbk无法写入的字符时,文件在保存的时候记得设置encoding为utf-8,如果时windows上,需要设置为utf-8-sig(utf-8 with bom)

open('bilibili-top100-{}.csv'.format(self.today), 'w', encoding='utf-8')
  1. 当出现需要代理才能连接上的网站时,需要设置代理。有两种方式设置代理,一种是直接在构造request请求时添加meta参数。第二种是自定义download middleware。
    Scrapy 设置代理终极宝典 - 知乎 (zhihu.com)

    若出现如下错误,就代表需要通过代理才能访问该网站

[<twisted.python.failure.Failure OpenSSL.SSL.Error: [('SSL routines', '', 'unexpected eof while reading')]>]