Иногда встречается проблема, что при открытии текста мы видим какой-то мусор из символов, которые прочитать совсем не удается. На ЕГЭ также встречаются с задания с текстовыми файлами и чтобы не биться об стол на экзамене, рассмотрим как можно восстановить текст для чтения 👇🏻
Краткая сводка:
Например, кодовая страница размерностью 256, где 71-й позиции соответствует буква «G». Обычно код символа имеет размер 8 бит, так что кодовая страница может содержать максимум 256 символов, из чего вытекает резкая недостаточность всякой 8-битной кодовой страницы для представления многоязычных текстов.
В ОС Microsoft Windows используют 2 способа представления:
— в виде UTF-16(в виде последовательности 16-битных слов, под любой символ уходит ровно 2 байта);
— в форме 8-битных кодовых страниц.
(таблицу соответствия кодов и символов смотри ниже)
Для кодирования текстов на русском языке наиболее широко применяются кодовые страницы:
▪️Windows-1251
▪️KOI-8
▪️Альтернативная кодировка(IBM code page 866)
▪️MacCyrillic
В Python изменить кодировку можно при открытии файла: для этого достаточно указать в параметре «encoding” нужную кодировку.
Например, в большинстве случаев вам нужна будет кодировка ‘utf-8’ (8 битUnicode ), ‘utf-16’ (16 бит Unicode), or ‘utf-32’ (32 бит Unicode), но если потребуется что-то специфичное, то можно найти здесь (https://vk.com/away.php?to=https%3A%2F%2Fdocs.python.org%2F3%2Flibrary%2Fcodecs.html%23standard-encodings&cc_key=).
В любом текстовом редакторе (например, «Блокнот») также можно изменить кодировку при сохранении файла.
Авторизуйтесь, чтобы оставить комментарий.