python 3中读文本时乱码的解决方法
版权声明:
本文为博主原创文章,转载请声明原文链接...谢谢。o_0。
更新时间:
2017-05-25 13:35:58
温馨提示:
学无止境,技术类文章有它的时效性,请留意文章更新时间,如发现内容有误请留言指出,防止别人"踩坑",我会及时更新文章
因为需要把一个1G大小的文件信息给读出来处理下.在读取文件信息的时候老是报错,也就是在python下处理中文字符时常遇到的错误
UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\u200e’ in position 43: illegal multibyte sequence
把文本的编码转换下也不行还是会报错.
最后想到一个方法 python中有一个库 chardet 可以检测文本的编码方法,先检测是什么编码再解码,下面是我一行一行读出来后.检测出来的编码如下:
使用方法里面使用的是字节类型的数据
chardet.detect(b'asdfaf这是是是曙')
虽然已经转码过啦但里面的编码还是不统一.具体原因就不细说啦,直接根据对应的编码进行处理