python 3中读文本时乱码的解决方法

来源:赵克立 分类: Python 标签:Python发布时间:2017-05-25 13:32:44浏览:351
版权声明:
本文为博主原创文章,转载请声明原文链接...谢谢。o_0。
温馨提示:
技术类文章有它的时效性,请留意文章更新时间以及软件的版本
更新时间:
2017-05-25 13:35:58

因为需要把一个1G大小的文件信息给读出来处理下.在读取文件信息的时候老是报错,也就是在python下处理中文字符时常遇到的错误

UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\u200e’ in position 43: illegal multibyte sequence

把文本的编码转换下也不行还是会报错.

最后想到一个方法 python中有一个库 chardet 可以检测文本的编码方法,先检测是什么编码再解码,下面是我一行一行读出来后.检测出来的编码如下:

使用方法里面使用的是字节类型的数据

chardet.detect(b'asdfaf这是是是曙')

image.png


虽然已经转码过啦但里面的编码还是不统一.具体原因就不细说啦,直接根据对应的编码进行处理




微信号:mokuyu QQ群:215861553 紧急求助须知
留下一点心意, :)
点击更换验证码
留言