python 3中读文本时乱码的解决方法

来源:赵克立博客分类: Python 标签：Python发布时间:2017-05-25 13:32:44最后更新:2017-05-25 13:35:58浏览:1351

本文为博主原创文章，转载请声明原文链接...谢谢。o_0。

原文链接:

更新时间：

2017-05-25 13:35:58

温馨提示：

学无止境,技术类文章有它的时效性,请留意文章更新时间,如发现内容有误请留言指出,防止别人"踩坑",我会及时更新文章

因为需要把一个1G大小的文件信息给读出来处理下.在读取文件信息的时候老是报错,也就是在python下处理中文字符时常遇到的错误

UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\u200e’ in position 43: illegal multibyte sequence

把文本的编码转换下也不行还是会报错.

最后想到一个方法 python中有一个库 chardet 可以检测文本的编码方法,先检测是什么编码再解码,下面是我一行一行读出来后.检测出来的编码如下：

使用方法里面使用的是字节类型的数据

chardet.detect(b'asdfaf这是是是曙')

虽然已经转码过啦但里面的编码还是不统一.具体原因就不细说啦,直接根据对应的编码进行处理