Как установить pandas для python windows

Обновлено: 03.07.2024

Pandas – это библиотека с открытым исходным кодом на Python. Она предоставляет готовые к использованию высокопроизводительные структуры данных и инструменты анализа данных.

Модуль Pandas работает поверх NumPy и широко используется для обработки и анализа данных.
NumPy – это низкоуровневая структура данных, которая поддерживает многомерные массивы и широкий спектр математических операций с массивами. Pandas имеет интерфейс более высокого уровня. Он также обеспечивает оптимизированное согласование табличных данных и мощную функциональность временных рядов.
DataFrame – это ключевая структура данных в Pandas. Это позволяет нам хранить и обрабатывать табличные данные, как двумерную структуру данных.
Pandas предоставляет богатый набор функций для DataFrame. Например, выравнивание данных, статистика данных, нарезка, группировка, объединение, объединение данных и т.д.

Установка и начало работы с Pandas

Для установки модуля Pandas вам потребуется Python 2.7 и выше.

Если вы используете conda, вы можете установить его, используя команду ниже.

Если вы используете PIP, выполните команду ниже, чтобы установить модуль pandas.

Чтобы импортировать Pandas и NumPy в свой скрипт Python, добавьте следующий фрагмент кода:

Поскольку Pandas зависит от библиотеки NumPy, нам нужно импортировать эту зависимость.

Структуры данных

Модуль Pandas предоставляет 3 структуры данных, а именно:

Series: это одномерный массив неизменного размера, подобный структуре, имеющей однородные данные.
DataFrames: это двумерная табличная структура с изменяемым размером и неоднородно типизированными столбцами.
Panel: это трехмерный массив с изменяемым размером.

DataFrame

DataFrame – самая важная и широко используемая структура данных, а также стандартный способ хранения данных. Она содержит данные, выровненные по строкам и столбцам, как в таблице SQL или в базе данных электронной таблицы.

Мы можем либо жестко закодировать данные в DataFrame, либо импортировать файл CSV, файл tsv, файл Excel, таблицу SQL и т.д.

Мы можем использовать приведенный ниже конструктор для создания объекта DataFrame.

Ниже приводится краткое описание параметров:

data – создать объект DataFrame из входных данных. Это может быть список, dict, series, Numpy ndarrays или даже любой другой DataFrame;
index – имеет метки строк;
columns – используются для создания подписей столбцов;
dtype – используется для указания типа данных каждого столбца, необязательный параметр;
copy – используется для копирования данных, если есть.

Есть много способов создать DataFrame. Мы можем создать объект из словарей или списка словарей. Мы также можем создать его из списка кортежей, CSV, файла Excel и т.д.

Давайте запустим простой код для создания DataFrame из списка словарей.

Первый шаг – создать словарь. Второй шаг – передать словарь в качестве аргумента в метод DataFrame(). Последний шаг – распечатать DataFrame.

Как видите, DataFrame можно сравнить с таблицей, имеющей неоднородное значение. Кроме того, можно изменить размер.

Мы предоставили данные в виде карты, и ключи карты рассматриваются Pandas, как метки строк.

Индекс отображается в крайнем левом столбце и имеет метки строк. Заголовок столбца и данные отображаются в виде таблицы.

Также возможно создавать индексированные DataFrames. Это можно сделать, настроив параметр индекса.

Импорт данных из CSV

Мы также можем создать DataFrame, импортировав файл CSV. Файл CSV – это текстовый файл с одной записью данных в каждой строке. Значения в записи разделяются символом «запятая».

Pandas предоставляет полезный метод с именем read_csv() для чтения содержимого файла CSV.

Например, мы можем создать файл с именем «cities.csv», содержащий подробную информацию о городах Индии. Файл CSV хранится в том же каталоге, что и сценарии Python. Этот файл можно импортировать с помощью:

Наша цель – загрузить данные и проанализировать их, чтобы сделать выводы. Итак, мы можем использовать любой удобный способ загрузки данных.

Проверка данных

Точно так же print (df.dtypes) печатает типы данных.

print (df.index) печатает index.

print (df.columns) печатает столбцы DataFrame.

print (df.values) отображает значения таблицы.

1. Получение статистической сводки записей

Функция df.describe() отображает статистическую сводку вместе с типом данных.

2. Сортировка записей

3. Нарезка записей

Интересной особенностью библиотеки Pandas является выбор данных на основе меток строк и столбцов с помощью функции iloc [0].

Например, чтобы выбрать вторую строку, мы можем использовать df.iloc [1 ,:].

Допустим, нам нужно выбрать второй элемент второго столбца. Это можно сделать с помощью функции df.iloc [1,1]. В этом примере функция df.iloc [1,1] отображает в качестве вывода «Мумбаи».

4. Фильтрация данных

Для фильтрации по условию можно использовать любой оператор сравнения.

5. Переименование столбца

Аргумент inplace = True вносит изменения в DataFrame.

6. Сбор данных

Наука о данных включает в себя обработку данных, чтобы данные могли хорошо работать с алгоритмами данных. Data Wrangling – это процесс обработки данных, такой как слияние, группировка и конкатенация.

Библиотека Pandas предоставляет полезные функции, такие как merge(), groupby() и concat() для поддержки задач Data Wrangling.

а. merge()

Мы видим, что функция merge() возвращает строки из обоих DataFrames, имеющих то же значение столбца, которое использовалось при слиянии.

b. Группировка

Поле «Employee_name» со значением «Meera» сгруппировано по столбцу «Employee_name». Пример вывода приведен ниже:

c. Конкатенация

Создание DataFrame, переход Dict в Series

Мы создали серию. Вы можете видеть, что отображаются 2 столбца. Первый столбец содержит значения индекса, начиная с 0. Второй столбец содержит элементы, переданные как серии.

Можно создать DataFrame, передав словарь Series. Давайте создадим DataFrame, который формируется путем объединения и передачи индексов ряда.

Выбор столбца, добавление и удаление

Приведенный выше код печатает только столбец «Matches played» в DataFrame.

Заключение

В этом руководстве у нас было краткое введение в библиотеку Pandas в Python. Мы также сделали практические примеры, чтобы раскрыть возможности библиотеки, используемой в области науки о данных. Мы также рассмотрели различные структуры данных в библиотеке Python.

Статьи

Подробный обзор библиотеки Pandas. Гибкая и мощная библиотека для анализа и обработки данных, разработанная на языке программирования Python.

Введение

Для того чтобы эффективно работать с этой библиотекой, нужно понять основные структуры данных. Пусть вас это не пугает, их всего две и разобраться с ними проще простого.

Установка

Pandas как и все библиотеки в Python устанавливаются стандартным методом через пакетный менеджер pip.

Использование

Чтобы показать библиотеку в работе, нам нужны какие нибудь статистические данные, для примера давайте возьмем данные ВВП 5 разных стран по версии всемирного банка и попробуем сформировать из них таблицу. Передавать данных в DataFrame мы будем используя знакомый синтаксис словаря Python.

Объект DataFrame имеет два индекса по столбцам и строкам. Если индекс по строкам не указан вручную, то pandas задает его автоматически.

Индексы

Назначать индексы объекту DataFrame можно при его создании или в процессе работы с ним.

Вызывая метод DataFrame мы передали ему аргумент index со списком именованных индексов.

Фильтрация данных

Pandas позволяет производить фильтрацию вывода по индексам и столбцам. Так же можно комбинировать индексы и колонки, использовать слайсы и логические выражения.

По столбцу

Обращение к столбцам в pandas реализовано стандартным образом, так как будто вы обращаетесь к ключу словаря, или же к методу объекта. В моем случае обращение как к методу объекта невозможно, я выбрал кириллическое название столбца, а работает только с латиницей 🙂

По строковому индексу

Для обращения к строковым индекса существуют два метода

Обращение к именованному индексу RU

Обращение к числовому индексу

По срезами

Объект DataFrame поддерживает использование срезов.

Отобразим все строки начиная с 3.

С использованием условий

Мы так же можем использовать логику в фильтрации данных. Давайте отобразить странны, в которых ВВП на душу населения в 2018 году был больше 100$

Работа с столбцами

Вы можете создавать, удалять и переименовывать ваши столбцы в любой момент времени.

Давайте рассмотрим каждый момент по внимательнее.

Переименование

Для переименования столбца существует метод rename

Давайте переименуем наши столбцы с указанием года.

Важно: результат выполнение метода rename возвращает новый измененный объект DataFrame, поэтому переназначь основной экземпляр DataFrame.

Создание

В этой ситуации объект изменяется и переназначать экземпляр нам не нужно.

Удаление

Для удаления столбца существует метод drop, так же необходимо передать в аргумент axis значение index или columns.

Важно: результат выполнение метода drop возвращает новый измененный объект DataFrame, поэтому не забудьте переназначить DataFrame.

Загрузка данных

API загрузки данных имеет поддержку множество структурированных форматов. Для примера возьмем информацию из реестра специалистов в области ветеринарии, занимающихся предпринимательской деятельностью на территории Санкт-Петербурга. На сайте есть ссылочка для скачивания таблиц в формате CSV и MS Excel эти два формата мы и рассмотрим.

Из таблицы CSV

Осуществить загрузку данных в таблицу можно используя метод read_csv

Из таблицы MS Excel

За загрузку данных из excel таблицы отвечает метод read_excel

Установка библиотеки xlrd

Для загрузки данных из таблицы MS Excel необходимо установить дополнительную библиотеку xlrd

Загрузка данных

После установки необходимых зависимостей мы можем приступать к загрузке данных.

Список всех поддерживаемых форматов

Pandas поддерживает огромное количество форматов импорта данных, приведу полный список из официальной документации

Тип данных	Формат данных	Используемый метод
Текстовый	CSV	read_csv
Текстовый	Fixed-Width Text File	read_fwf
Текстовый	JSON	read_json
Текстовый	HTML	read_html
Текстовый	Буфер обмена	read_clipboard
Бинарный	MS Excel	read_excel
Бинарный	OpenDocument	read_excel
Бинарный	HDF5 Format	read_hdf
Бинарный	Feather Format	read_feather
Бинарный	Parquet Format	read_parquet
Бинарный	ORC Format	read_orc
Бинарный	Msgpack	read_msgpack
Бинарный	Stata	read_stata
Бинарный	SAS	read_sas
Бинарный	SPSS	read_spss
Бинарный	Python Pickle Format	read_pickle
SQL	SQL	read_sql
SQL	Google BigQuery	read_gbq

Сохранение данных

Так же как и в импорте API поддерживает множество форматов для экспорта данных. Воспользуемся данными о ВВП для демонстрации работы.

В таблицу CSV

За запись данных в таблицу CSV отвечает метод to_csv

так выглядят наши экспортированные данные

В таблицу MS Excel

За запись данных в таблицу MS Excel отвечает метод to_excel

Установка библиотеки openpyxl

Для записи в таблицу нам понадобиться установить библиотеку openpyxl

Сохранение данных

Запускаем наш скрипт

На выходе получаем такую таблицу

Список всех поддерживаемых форматов

К сожалению, pandas не в полном объеме поддерживает запись во все форматы, которые он умеет читать, но с большинством из них нет никаких проблем.

Тип данных	Формат данных	Используемый метод
Текстовый	CSV	to_csv
Текстовый	JSON	to_json
Текстовый	HTML	to_html
Текстовый	Буфер обмена	to_clipboard
Бинарный	MS Excel	to_excel
Бинарный	HDF5 Format	to_hdf
Бинарный	Feather Format	to_feather
Бинарный	Parquet Format	to_parquet
Бинарный	Msgpack	to_msgpack
Бинарный	Stata	to_stata
Бинарный	Python Pickle Format	to_pickle
SQL	SQL	to_sql
SQL	Google BigQuery	to_gbq

Визуализация данных

Визуализация это большая часть работы в анализе и обработке данных. Не будем сильно углубляться и рассмотрим простой пример визуализации наших данных.

Установка библиотеки matplotlib

Для рисования графиков нам понадобится эта библиотека

Создание графиков

Самый просто способ сгенерировать график, это передать обработчику данные для одной из координат, для второй он возьмет информацию из индекса.

После выполнения программы мы увидим вот такой график

Можно повторить тоже самое но только для 2018 года

Объединение данных на одном графике

У нас есть отдельный график для 2017 и 2018 года, но как их объединить в одной диаграмме? Очень просто, нужно использовать метод pivot из библиотеки pandas.

Заключение

На это обзор библиотеки pandas подошел к концу, если у вас возникли вопросы, не стесняйтесь задавать их в комментариях.

Модуль Python Pandas представляет собой модуль с открытым исходным кодом. Он имеет широкую сферу применения в области вычислений, анализа данных, статистики и т. д.

Начало работы

Прежде чем разобраться в функциях модуля Pandas, нам необходимо установить модуль (проверка совместимости версии Python с версией модуля, который вы хотите установить, с помощью официальной документации модуля Pandas).

Введите следующую команду в командной строке:
pip install pandas
Чтобы добавить модуль Pandas и NumPy в ваш код, нам необходимо импортировать эти модули в наш код.

Pandas работает со следующими структурами данных:

Эти структуры данных быстрее по сравнению с массивами NumPy.

1 Серия

Примечание. Размер структуры данных серии в Pandas является неизменным, т.е. однажды установленный, он не может быть изменен динамически. При этом значения и элементы в серии можно изменять.

Синтаксис:
pandas.Series(input_data, index, data_type, copy)

input_data: принимает ввод в виде списка, константы, массива NumPy, Dict и т. д.
index: значения индекса, переданные в данные.
data_type: распознает тип данных.
copy: Копирует данные. Значение по умолчанию неверно.

В приведенном выше фрагменте кода мы предоставили ввод с использованием массивов NumPy и установили значения индекса для входных данных.

Выход:
10 John
11 Bran
12 Sam
13 Peter
dtype: object

2 DataFrame

Модуль Python Pandas предоставляет DataFrame, который представляет собой двумерную структуру, напоминающую двумерные массивы. Здесь входные данные оформляются в виде строк и столбцов.

Примечание. Размер структуры данных DataFrame в Pandas можно изменять.

Синтаксис:
pandas.DataFrame(input_data, index_value, columns, data_type, copy)

input_data: принимает ввод как списки, ряды, массивы NumPy, Dict, другой DataFrame и т. д.
значения индекса: значения индекса, передаваемые в данные.
data_type: распознает тип данных каждого столбца.
copy: скопировать данные. Значение по умолчанию неверно.
столбцы: метки данные столбцов.

В приведенном выше коде мы предоставили ввод с помощью списков, добавили метки: «Имя» и «Город» к столбцам и установили для них значения индекса.

Выход:
Name City
1 John Pune
2 Bran Mumbai
3 Peter Delhi

3 Panel

Модуль Python Pandas предлагает панель, которая представляет собой трехмерную структуру данных и содержит 3 оси для выполнения следующих функций:

items: (ось 0). Каждый его элемент соответствует DataFrame в нем.
major_axis: (ось 1) Соответствует строкам каждого DataFrame.
minor_axis: (ось 2) соответствует столбцам каждого DataFrame.

Синтаксис:
pandas.Panel(input_data, items, major_axis, minor_axis, data_type, copy)

Импорт данных из файла CSV в DataFrame

Метод read_csv (file_name) используется для чтения данных из файла CSV в DataFrame.

Синтаксис:
pandas.read_csv()
Пример:

Выход:
Name Age
0 John 21
1 Bran 22

Статистический анализ в Pandas

Модуль Python Pandas предлагает большое количество встроенных методов, помогающих пользователям проводить статистический анализ данных.

Ниже приводится список некоторых наиболее часто используемых функций для статистического анализа:

Метод	Description
count()	Подсчитывает количество всех непустых наблюдений
sum()	Возвращает сумму элементов данных.
mean()	Возвращает среднее значение всех элементов данных.
median()	Возвращает медианное значение всех элементов данных.
mode()	Возвращает режим всех элементов данных
std()	Возвращает стандартное отклонение всех элементов данных.
min()	Возвращает минимальный элемент данных среди всех входных элементов.
max()	Возвращает максимальный элемент данных среди всех входных элементов.
abs()	Возвращает абсолютное значение.
prod()	Возвращает произведение значений данных.
cumsum()	Возвращает кумулятивную сумму значений данных.
cumprod()	Возвращает совокупное произведение значений данных.
describe()	Он отображает статистическую сводку всех записей за один снимок, т.е. (сумма, количество, мин, среднее и т. Д.)

Для начала давайте создадим DataFrame, который мы будем использовать в этом разделе для понимания различных функций, предоставляемых для статистического анализа.

Функция sum()

Как видно выше, функция sum() добавляет данные каждого столбца отдельно и добавляет строковые значения везде, где они есть.

функция mean()

Выход:
Marks 59.8
Roll_num 3.0
dtype: float64
Функция mean не будет воздействовать на строки, найденные в данных, в отличие от функции sum().

Прежде чем что-то устанавливать, давайте разберёмся, что такое пакет, чем он отличается от модуля, и как с ним работать. У слова «пакет» применительно к Python два значения.

C одной стороны, пакеты Python — это Py-приложения, дополнения или утилиты, которые можно установить из внешнего репозитория: Github, Bitbucket, Google Code или официального Python Package Index . На сервере пакеты хранятся в .zip и .tar архивах, либо в дополнительной упаковке — «яйцах» (.egg, старый формат) или «колесах» (.whl). В составе пакета, как правило, есть сценарий установки setup.py, который хранит сведения о зависимостях — других пакетах и модулях, без которых пакет работать не будет.

С другой стороны, если речь об архитектуре Python-приложения, пакет — это каталог, внутри которого файл __init__.py и, опционально, другие каталоги и файлы .py . Так большую Python-программу разбивают на пакеты и модули. Модуль — файл с исходным кодом, который можно использовать в других приложениях: как «заготовку» для будущих проектов или как часть библиотеки/фреймворка. Но к теме статьи это прямого отношения не имеет, поэтому дальше мы будем говорить только о пакетах из репозиториев.

Чтобы за секунды устанавливать пакеты со всеми зависимостями, используют менеджер пакетов pip или модуль easy_install . В большинстве случаев рекомендуется использовать pip. И только если у вас есть инфраструктура на пакетах .egg, которые pip не открывает, нужен easy_install.

Установка PIP для Python 3 и 2

Если вы используете виртуальные окружения на базе venv или virtualenv, pip уже установлен. Начиная с Python 3.4 (для Python 2 — с версии 2.7.9) pip поставляется вместе с интерпретатором. Для более ранних версий устанавливать менеджер пакетов нужно вручную. Вариантов два:

C помощью скрипта get_pip.py — быстро.

Через setuptools — кроме pip сможем использовать easy_install.

Вариант 1. Скачиваем скрипт get_pip.py и запускаем в консоли. Для этого открываем терминал через Win+R>"cmd">OK и пишем:

Остальное установщик сделает сам: если нужно, попутно установит wheel (для распаковки .whl-колес) и setuptools. Чтобы запретить инсталляцию дополнительных инструментов, можно добавить в строку ключи --no-setuptools и/или --no-wheels.

Если возникает ошибка, путь к Python не прописан в переменной среды $PATH. Нужно либо найти эту переменную в системном реестре и задать её значение, либо каждый раз указывать полный путь до python.exe, а за ним уже имя исполняемого Py-файла:

Полный путь полезен и в том случае, если у вас на компьютере несколько версий Python и вы ставите пакет для одной из них.

Вариант 2. Скачиваем архив с setuptools из PYPI и распаковываем в отдельный каталог. В терминале переходим в директорию setuptools c файлом setup.py и пишем:

python setup.py install

Обновить pip для Python в Windows можно так:
python pip install -U pip

Если это не работает, нужно добавить путь к папке с pip в $PATH.

Установка пакета в pip

Пора запустить pip в Python и начать устанавливать пакеты короткой командой из консоли:

pip install имя_пакета

При установке в Windows, перед pip нужно добавить "python -m".

Обновить пакет не сложнее:

pip install имя_пакета -U

Если у вас последняя версия пакета, но вы хотите принудительно переустановить его:

pip install --force-reinstall

Посмотреть список установленных пакетов Python можно с помощью команды:

Найти конкретный пакет по имени можно командой "pip search". О других командах можно прочесть в справке, которая выдается по команде "pip help".

Удаление пакета Python

Когда пакет больше не нужен, пишем:

pip uninstall имя_пакета

Как установить пакеты в Python без pip

Формат .egg сейчас используют не часто, поэтому pip его не поддерживает. Модуль easy_install умеет устанавливать как .egg, так и обычные пакеты, но есть у него важные минусы:

он не удаляет пакеты,

он может пытаться установить недозагруженный пакет.

Использовать easy_install можно сразу после установки setuptools. Хранится модуль в папке Scripts вашего интерпретатора. Если у вас в $PATH верно прописан путь, ставить пакеты из PYPI можно короткой командой:

Для обновления после install и перед именем пакета нужно ставить ключ -U. Откатиться до нужной версии можно так:

Если нужно скачать пакет из альтернативного источника, вы можете задать URL или локальный адрес на компьютере:

Чтобы узнать об опциях easy_install, запустим его с ключом -h:

Список пакетов, установленных через easy_install, хранится в файле easy-install.pth в директории /libs/site-packages/ вашего Python.

К счастью, удалять установленные через easy_install пакеты можно с помощью pip. Если же его нет, потребуется удалить пакет вручную и стереть сведения о нем из easy-install.pth.

Теперь вы умеете ставить и удалять пакеты для вашей версии Python.

Кстати, для тех, кто изучает Python, мы подготовили список полезных и практичных советов.

Читайте также: