用 scrapy 获取网站信息的时候,出现以下错误:
'gbk' codec can't encode character u'\xb6' in position 24051: illegal multibyte sequence
网上查找得知,中文编码默认为 GBK 编码,但是字符的编码超出了GBK的编码范围导致错误,使用GBK的超集:GB18030(国家最新标准)解码即可。
str.encode('GB18030')
GB18030转换成UTF-8编码:
str.decode('GB18030').encode('utf-8')
GB18030是国家标准,在技术上是GBK的超集,并与其兼容,目前已经在MS Windows 9x/Me/NT/2000、IBM OS/2的系统中广泛应用。