Как изменить кодировку csv файла на utf 8

Обновлено: 07.07.2024

Кодировка текста – это схема нумерации символов, в которой каждому символу, цифре или знаку присвоено соответствующее число. Кодировку используют для сохранения и обработки текста на компьютере. Каждый раз при сохранении текста в файл он сохраняется с использованием определенной схемы кодирования, и при открытии этого файла необходимо использовать такую же схему, иначе восстановить исходный текст не получится. Самыми популярными кодировками для кириллицы сейчас являются UTF-8, Windows-1251 (CP1251, ANSI).

Для того чтобы программа смогла правильно открыть текстовый файл, иногда приходится вручную менять кодировку, перекодируя текст из одной схемы в другую. Например, не редко возникают проблемы с открытием файлов CSV, XML, SQL, TXT, PHP.

В этой небольшой статье мы расскажем о том, как изменить кодировку текстового файла на UTF-8, Windows-1251 или любую другую.

Блокнот Windows

Если вы используете операционную систему Windows 10 или Windows 11, то вы можете изменить кодировку текста с помощью стандартной программы Блокнот. Для этого нужно открыть текстовый файл с помощью Блокнота и воспользоваться меню « Файл – Сохранить как ».

меню Файл – Сохранить как

В открывшемся окне нужно указать новое название для файла, выбрать подходящую кодировку и нажать на кнопку « Сохранить ».

изменить кодировку в Блокноте

К сожалению, для подобных задач программа Блокнот часто не подходит. С ее помощью нельзя открывать документы большого размера, и она не поддерживает многие кодировки. Например, с помощью Блокнота нельзя открыть текстовые файлы в DOS 866.

Notepad++

Notepad++ (скачать) является одним из наиболее продвинутых текстовых редакторов. Он обладает подсветкой синтаксиса языков программирования, позволяет выполнять поиск и замену по регулярным выражениям, отслеживать изменения в файлах, записывать и воспроизводить макросы, считать хеш-сумы и многое другое. Одной из основных функций Notepad++ является поддержка большого количества кодировок текста и возможность изменения кодировки текстового файла в UTF-8 или Windows 1251.

Для того чтобы изменить кодировку текста с помощью Notepad++ файл нужно открыть в данной программе. Если программа не смогла правильно определить схему кодирования текста, то это можно сделать вручную. Для этого нужно открыть меню « Кодировки – Кириллица » и выбрать нужный вариант.

выбрать кодировку в Notepad++

После открытия текста можно изменить его кодировку. Для этого нужно открыть меню « Кодировки » и выбрать один из вариантов преобразования. Notepad++ позволяет изменить текущую кодировку текста на ANSI (Windows-1251), UTF-8, UTF-8 BOM, UTF-8 BE BOM, UTF-8 LE BOM.

изменить кодировку в Notepad++

После преобразования файл нужно сохранить с помощью меню « Файл – Сохранить » или комбинации клавиш Ctrl-S.

Akelpad

Akelpad (скачать) – достаточно старая программа для работы с текстовыми файлами, которая все еще актуальна и может быть полезной. Фактически Akelpad является более продвинутой версией стандартной программы Блокнот из Windows. С его помощью можно открывать текстовые файлы большого размера, которые не открываются в Блокноте, выполнять поиск и замену с использованием регулярных выражений и менять кодировку текста.

Для того чтобы изменить кодировку текста с помощью Akelpad файл нужно открыть в данной программе. Если после открытия файла текст не читается, то нужно воспользоваться меню « Файл – Открыть ».

открыть файл в Akelpad

В открывшемся окне нужно выделить текстовый файл, снять отметку « Автовыбор » и выбрать подходящую кодировку из списка. При этом в нижней части окна можно видеть, как будет отображаться текст.

выбрать кодировку в Akelpad

Для того чтобы изменить текущую кодировку текста нужно воспользоваться меню « Файл – Сохранить как » и сохранить документ с указанием новой схемы кодирования.

изменить кодировку в Akelpad

В отличие от Notepad++, текстовый редактор Akelpad позволяет сохранить файл в практически любой кодировке. В частности, доступны Windows 1251, DOS 886, UTF-8 и многие другие.

Подготовка файла .csv для импорта в CRM при помощи программы Excel

В описанном случае использовался Microsoft Excel 2017. Разумеется, все нижеприведенные действия можно выполнить при помощи другой версии программы, в этом случае процесс может незначительно отличаться.

Сохраните файл на диске

Сохраните на жестком диске файл, который вы получили путем экспорта из другой программы, и прежде чем вы перейдете к дальнейшим действиям, сделайте на всякий случай копию этого файла.

Создайте новый файл Excel

Откройте программу Excel и на пустом листе выделите первую ячейку (A1).


Для этого перейдите в закладку Данные и выберите опцию Из текста. Так вы сможете задать кодировку знаков перед началом импорта файла. Выберите для импорта сохраненный файл в формате .csv.


Подберите соответствующие параметры данных

Выбор файла запустит Мастер текстов. В окне предварительного просмотра вы сможете увидеть, правильно ли читаются кириллические знаки в импортируемом документе. Если нет, воспользуйтесь полем Формат файла и выберите другой формат кодировки (рекомендуется UTF-8).


После смены кодировки на формат UTF-8:


Если кириллические знаки отражены корректно, нажмите Далее.



Нажмите Далее и перейдите к третьему шагу. Для Livespace формат данных не имеет значения (он будет важен только в том случае, если вы хотите обрабатывать данные в Excel), так что можно оставить подсказываемый по умолчанию общий формат и нажать Готово.


В появившемся окне подтвердите, что данные должны быть помещены на существующий лист, в выбранную вами ранее ячейку А1.


Проверьте данные и сохраните файл

Ваши данные перенесены в Microsoft Excel. Теперь перед началом импорта в Livespace вы с легкостью можете проверить, все ли в порядке, и при необходимости внести изменения. Если кириллические знаки по-прежнему отражаются некорректно, повторите все действия, выбирая другую кодировку.


Если все правильно, сохраните подготовленный таким образом документ как файл программы Excel. Livespace обработает его так же, как и файл .csv, поэтому это будет самое быстрое решение.

После завершения вышеперечисленных действий вы можете перенести в Livespace необходимые данные, используя стандартную процедуру импорта файлов. Более подробно об этом вы можете прочитать в разделе Импорт файлов.


Пошаговое иллюстрированное руководство

Если открыть файл в формате CSV в программе Excel 2016, обычно вместо таблицы с данными получаешь какие-то непонятные строки текста:


Здесь сразу две проблемы: вместо кириллических символов Эксель подсунул что-то нечитаемое, а данные в каждой строке поместил в одну ячейку, разделив их запятыми.

Стоит ли беспокоиться и почему это со мной происходит?

Не переживайте, с вашими данными всё в порядке и ничего необратимого не случилось.

Превращение в кашу осмысленного теста, набранного кириллицей, происходит из-за неверной кодировки. По умолчанию Эксель использует кодировку 1251: Кириллица для Windows , но есть и другие форматы. Так, в нашем случае текст закодирован по стандарту UTF-8 . Это распространённая кодировка, поэтому и проблема чтения кириллицы встречается часто.

Данные слиплись по строкам тоже не случайно. CSV — Comma-Separated Values — текстовый формат, данные в котором разделены запятыми. Что, в общем-то, можно увидеть и на скриншоте.

Что сделать, чтобы получить таблицу

Для этого в Экселе предусмотрена команда Данные → Получить данные → Из файла → Из текстового/CSV-файла:


После выбора нужного файла и подтверждения (кнопка «Открыть») появляется диалоговое окно с предварительным просмотром и некоторыми настройками.

Кириллица всё ещё страдает, но данные уже оформлены в таблицу:


Поменять кодировку можно выбрав подходящую (в нашем случае это Юникод UTF-8) в выпадающем списке «Источник файла».

Обратите внимание, что есть возможность выбрать и «Разделитель». Это полезно для других текстовых форматов хранения данных. По умолчанию в качестве разделителя выбрана Запятая, что нам подходит.


Теперь всё в полном порядке: кириллические символы читаемы, а данные — в таблице. Можно жать на кнопку «Загрузить».


После этого диалоговое окно закрывается, а в Книге Эксель появляется отдельный Лист с данными из CSV-файла в привычном табличном виде:


И весь процесс в одной гифке:

Если у вас более ранняя версия Майкрософт Офиса, посмотрите пошаговое руководство открытия CSV-файла в Экселе 2013. Там, кстати, есть и альтернативный вариант — воспользоваться открытым пакетом LibreOffice.

Если при импорте контактов вы видите нечитаемые символы, как на скриншоте, это значит, что кодировка файла не подходит для импорта в Unisender. Файл нужно перекодировать в UTF-8. Далее мы расскажем, как это сделать в Excel.

нечитаемые числа.

Переходим на вкладку «Данные», выбираем «Получение внешних данных», а далее — «Из текста».

получение данных из текста.

Открывается мастер импорта текста.
С текущей кодировкой содержимое файла нечитабельное.

текущая кодировка.

В поле «Формат файла» перебираем кодировки, пока не найдём ту, в которой текст отображается правильно. Вариантов много, поэтому можно начать с форматов, которые начинаются со слова «Кириллица». Находим нужный формат, нажимаем «Далее».

Выбираем символы-разделители. В нашем случае это запятая.

Нажимаем «Далее» → «Готово» → «OK».

выбираем символы-разделители.

Так выглядит импортированный текст в Excel.

как выглядит документ в ексель.

Теперь нажимаем «Файл» → «Сохранить как».

Вводим название файла, тип файла выбираем CSV, ниже нажимаем «Сервис» → «Параметры веб-документа».

сохраняем файл.

Переходим на вкладку «Кодировка», выбираем «Юникод UTF-8» и нажимаем «OK».

Читайте также: