Primeros pasos con la codificación

¿Cómo detectar la codificación de un archivo de texto con Python?

Hay un paquete útil en Python: chardet, que ayuda a detectar la codificación utilizada en su archivo. En realidad, no hay ningún programa que pueda decir con un 100 % de confianza qué codificación se usó; es por eso que chardet proporciona la codificación con la mayor probabilidad con la que se codificó el archivo. Chardet puede detectar las siguientes codificaciones:

  • ASCII, UTF-8, UTF-16 (2 variantes), UTF-32 (4 variantes)
  • Big5, GB2312, EUC-TW, HZ-GB-2312, ISO-2022-CN (chino tradicional y simplificado)
  • EUC-JP, SHIFT_JIS, CP932, ISO-2022-JP (japonés)
  • EUC-KR, ISO-2022-KR (coreano)
  • KOI8-R, MacCyrillic, IBM855, IBM866, ISO-8859-5, windows-1251 (cirílico)
  • ISO-8859-2, windows-1250 (húngaro)
  • ISO-8859-5, windows-1251 (búlgaro)
  • windows-1252 (inglés)
  • ISO-8859-7, windows-1253 (griego)
  • ISO-8859-8, windows-1255 (hebreo visual y lógico)
  • TIS-620 (tailandés)

Puede instalar chardet con un comando [pip][1]:

pip install chardet

Luego puede usar chardet en la línea de comando:

% chardetect somefile someotherfile
somefile: windows-1252 with confidence 0.5
someotherfile: ascii with confidence 1.0

o en pitón:

import chardet    
rawdata = open(file, "r").read()
result = chardet.detect(rawdata)
charenc = result['encoding']

[1]: https://www.wikiod.com/es/python/primeros-pasos-con-el-lenguaje-python#Instalación de módulos externos usando pip

Instalación o Configuración

Instrucciones detalladas sobre cómo configurar o instalar la codificación.