python 3中读文本时乱码的解决方法

来源:赵克立博客 分类: Python 标签:Python发布时间:2017-05-25 13:32:44最后更新:2017-05-25 13:35:58浏览:1351
版权声明:
本文为博主原创文章,转载请声明原文链接...谢谢。o_0。
更新时间:
2017-05-25 13:35:58
温馨提示:
学无止境,技术类文章有它的时效性,请留意文章更新时间,如发现内容有误请留言指出,防止别人"踩坑",我会及时更新文章

因为需要把一个1G大小的文件信息给读出来处理下.在读取文件信息的时候老是报错,也就是在python下处理中文字符时常遇到的错误

UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\u200e’ in position 43: illegal multibyte sequence

把文本的编码转换下也不行还是会报错.

最后想到一个方法 python中有一个库 chardet 可以检测文本的编码方法,先检测是什么编码再解码,下面是我一行一行读出来后.检测出来的编码如下:

使用方法里面使用的是字节类型的数据

chardet.detect(b'asdfaf这是是是曙')

image.png


虽然已经转码过啦但里面的编码还是不统一.具体原因就不细说啦,直接根据对应的编码进行处理




微信号:kelicom QQ群:215861553 紧急求助须知
Win32/PHP/JS/Android/Python