Primeros pasos con la codificación
¿Cómo detectar la codificación de un archivo de texto con Python?
Hay un paquete útil en Python: chardet, que ayuda a detectar la codificación utilizada en su archivo. En realidad, no hay ningún programa que pueda decir con un 100 % de confianza qué codificación se usó; es por eso que chardet proporciona la codificación con la mayor probabilidad con la que se codificó el archivo. Chardet puede detectar las siguientes codificaciones:
- ASCII, UTF-8, UTF-16 (2 variantes), UTF-32 (4 variantes)
- Big5, GB2312, EUC-TW, HZ-GB-2312, ISO-2022-CN (chino tradicional y simplificado)
- EUC-JP, SHIFT_JIS, CP932, ISO-2022-JP (japonés)
- EUC-KR, ISO-2022-KR (coreano)
- KOI8-R, MacCyrillic, IBM855, IBM866, ISO-8859-5, windows-1251 (cirílico)
- ISO-8859-2, windows-1250 (húngaro)
- ISO-8859-5, windows-1251 (búlgaro)
- windows-1252 (inglés)
- ISO-8859-7, windows-1253 (griego)
- ISO-8859-8, windows-1255 (hebreo visual y lógico)
- TIS-620 (tailandés)
Puede instalar chardet con un comando [pip][1]:
pip install chardet
Luego puede usar chardet en la línea de comando:
% chardetect somefile someotherfile
somefile: windows-1252 with confidence 0.5
someotherfile: ascii with confidence 1.0
o en pitón:
import chardet
rawdata = open(file, "r").read()
result = chardet.detect(rawdata)
charenc = result['encoding']
[1]: https://www.wikiod.com/es/python/primeros-pasos-con-el-lenguaje-python#Instalación de módulos externos usando pip
Instalación o Configuración
Instrucciones detalladas sobre cómo configurar o instalar la codificación.