Выбраны не определенные колонки r studio

Обновлено: 03.07.2024

Библиотека dplyr - библиотека для удобной работы с базами данных. С ее помощью можно более быстро получать описание базы данных, сохранять полученные результаты и группировать данные по определенному признаку. Научиться работать с это библиотекой несложно, нужно только понять общую логику, познакомиться с особыми операторами и функциями, а также немного попрактиковаться.

Для начала установим библиотеку и обратимся к ней:

Теперь мы готовы к работе. Загрузим базу с результатами плебисцита в Чили, с которой мы работали на прошлом семинаре.

Основные функции dplyr и оператор %>%

Некоторые функции, встроенные в библиотеку, похожи на обычные функций, которые мы использовали на прошлом занятии. Например, функция select() , которая позволяет выбрать интересующие нас столбцы в базе данных:

Также с помощью select() можем исключить некоторые столбцы, которые нас не интересуют, поставив перед вектором столбцов минус (так же, как и раньше!):

Столбцы можно выбирать по названиям, если столбцы идут подряд:

Если хотим отобрать интересующие нас наблюдения, нам потребуется другая функция - filter() . Отберем, например, респондентов не моложе 45 лет:

А теперь отберем респондентов мужского пола, не моложе 45 лет:

Казалось бы, зачем использовать библиотеку dplyr , если результаты пока несильно отличаются от того, что мы делали на прошлом занятии без всяких библиотек? На самом деле, смысл использовать ее есть. И сейчас мы переходим к самому интересному.

В библиотеке dplyr есть особый оператор %>% , который позволяет выполнять операции пошагово. Смысл этого оператора такой: возьми, то, что слева от %>% и передай это на вход функции, стоящей справа от %>% . Посмотрим на простом примере:

Взять базу chile и подать ее на вход функции View . Как можно заметить, во View уже нет ни скобок, ни названия базы, потому что они и не нужны – R и так знает, с чем ему работать.

Рассмотрим другой пример. Возьмем базу chile , сначала выберем столбцы sex, age, income и vote, а потом запросим несколько первых строк базы:

В библиотеке dplyr есть несколько других интересных и полезных функций. Например, arrange() – функция, которая сортирует базу данных в соответствии со значениями переменной (или переменных), расположенных по возрастанию (если переменная текстовая, то по алфавиту). Отсортируем базу по показателю statusquo и посмотрим на первые несколько строк:

А теперь на последние:

Другая полезная функция – mutate() – используется для создания и добавлению в базу данных новой переменной. Создадим переменную log_income – натуральный логарифм дохода респондентов.

Если теперь мы посмотрим на базу chile привычным образом, нас будет ждать сюрприз:

Переменной log_income в базе нет! Почему? Дело в том, что когда мы проделываем что-то с базой с помощью dplyr и не сохраняем результат, изменения в самой базе не происходят. Как сохранить изменения? Очень просто: как всегда, сохранить результат в переменную, в которой хранится база:

Добавлять можно и более одной переменной за раз:

Теперь у нас в базе данных есть две переменные, которые начинаются с log . В dplyr есть функция, которая позволяет выбрать столбцы, названия которых начинаются одинаково.

Чтобы закрепить то, что мы уже успели разобрать, рассмотрим две задачи.

Задача 1. Выбрать строки в базе, для которых значения statusquo не пустые (не NA) в переменной statusquo , выбрать респондентов с доходом свыше 35000, отсортировать строки в базе по возрасту респондентов и посмотреть на базу данных.

Сначала мы выберем те строки в базе, для которых значения statusquo не пустые ( is.na и помним про отриание - восклицательный знак), а заодно выберем респондентов с доходом более 35000. Затем с помощью arrange() отсортируем строки по значениям age . И, наконец, посмотрим на базу данных через View .

Задача 2. Выбрать строки в базе, для которых значения statusquo не пустые (не NA), выбрать тех респондентов, которые голосовали за или против Пиночета (значения ‘Y’ или ‘N’ в vote ), выбрать столбцы region , statusquo и vote , а затем вывести на экран первые 10 строк.

Функции summarize(), group_by() и tally

Сейчас речь пойдет, пожалуй, о самых полезных функциях dplyr :)

При работе с данными мы часто сталкиваемся с тем, что нам нужно получить какую-то сводную информацию по переменным. Для этого существует функция summarise() . Попробуем пока получить общее число строк в базе данных:

Функция n() универсальна, она используется для подсчета элементов. К ней мы еще вернемся.

Теперь сделаем что-нибудь более интересное. Определим минимальное, максимальное и среднее значение возраста респондентов в этой базе.

Теперь все в порядке.

Часто необходимо получить сводную информацию не по всем наблюдениям в базе, а по определенной группе. Для этого сначала нужно сгруппировать данные, основываясь на значениях какой-нибудь переменной. Воспользуемся функцией group_by() и посмотрим, сколько в базе респондентов из разных регионов:

А теперь посмотрим на средний возраст респондентов из разных регионов:

Число наблюдений можно посчитать и по-другому – с помощью функции tally :

НИКОГДА НЕ СОХРАНЯЙТЕ ВОССТАНАВЛИВАЕМЫЕ ФАЙЛЫ/ПАПКИ НА ОРИГИНАЛЬНЫЙ ДИСК.

Это может стать причиной полной утраты данных.

Основные операции по восстановлению данных применимы к удаленным файлам, которые были расположены на существующих логических дисках доступных локальной ОС. Для других случаев смотри раздел Восстановление Данных. Дополнительные Операции .

Для восстановления удаленных файлов с логического диска (найденного раздела):

1 Дважды щелкните левой кнопкой мыши по логическому диску на панели Диски R-Studio, чтобы перечитать файлы диска

Другие способы перечитать файлы

• Щелкните правой кнопкой мыши по диску и выберите пункт контекстного меню Показать содержимое диска

• Выберите диск и нажмите клавишу F5

• Выберите пункт Показать содержимое диска меню Диск

> Панели R-Studio изменятся и будет показана структура папок/файлов диска

R-Studio анализирует данные объекта и отображает все файлы, информация о которых была найдена . Если же файлы не найдены, то это означает, что информация о них была удалена . Для более подробной информации о восстановлении таких файлов смотри раздел Восстановление Данных. Дополнительные Операции .

Обратите внимание, что R-Studio показывает только те файлы/папки, которые соответствуют заданной маске файлов .

Главное окно R-Studio

Нажмите на область окна для получения более подробной информации.


Варианты показа панелей

Вы можете задать, какие панели (вкладки) будут показываться в главном окне. Для этого выполните следующие действия

Установите/снимите флажок Панель инструментов меню Просмотр

Установите/снимите флажок Строка состояния меню Просмотр

Установите/снимите флажок Окно структуры меню Просмотр

Установите/снимите флажок Окно содержимого меню Просмотр

Установите/снимите флажок Журнал меню Просмотр

Установите/снимите флажок Результаты поиска меню Просмотр

Вы можете сортировать данные желаемым образом. В меню Просмотр выберите пункт Упорядочить и далее желаемую сортировку данных.

Вы также можете задать, какие колонки будут показаны на панели Содержимое . Для этого выберите соответствующие колонки в пункте Колонка содержимого меню Просмотр .

Файлы могут быть показаны списком (Детали) или как иконки/плитки различных размеров.

Файлы показаны как иконки/плитки

R‑Studio показывает свои оценки шансов на успешное восстановление файлов в колонке Recovery chances .

Информация о Файле

Вы можете просмотреть некоторую информацию о файле. Для этого щелкните правой кнопкой мыши по файлу и выберите пункт контекстного меню Информация о файле .

Click to enlarge

Информация о Файле

В R‑Studio Technician можно просмотреть дополнительную информацию о файле. Более подробно см. в разделе Информация о Файле .

На панели Журнал будет показано, сколько файлов и папок имеются в данном объекте и их размер. В фильтре журнала вы можете задать, какие типы событий будут отображаться в панели журнала.

Обратите внимание: Метафайлы это внутренние системные файлы (данные файловой системы), невидимые пользователем, которые R-Studio показывает как файлы. Такие файлы не содержат данные пользователя и используются только при восстановлении файловой системы диска.

Вы также можете копировать информацию о папках и файлах.

Команда Копировать "Папка" :

Копируется имя папки

Команда Копировать Полный Путь :

Копируется полный путь к папке

Команда Копировать "Имя колонки" :

Копируется Имя, Размер, Дата Создания и т.д. в зависимости от выбранной колонки

Команда Копировать Полный Путь :

Копируется полный путь к файлу.

Команда Копировать Выделенный Текст :

Копируется содержимое всех колонок для выбранного файла.

Вы можете выбрать несколько файлов/папок в одной родительской папке удерживая при выборе объектов клавишу Shift .

Пометить файлы/папки в различных родительских папках:

Пометьте файл/папку, установив слева флажок или выбрав пункт Отметить контекстного меню. Вы можете пометить насколько файлов/папок в различных родительских папках. Вы можете пометить все объекты в папке, выбрав пункт Отметить все меню Инструменты или контекстного меню. Для снятия пометки снимите флажок слева от объекта или выберите пункт Снять пометки контекстного меню. Вы можете снять пометку со всех объектов в папке, выбрав пункт Снять все пометки меню Инструменты или контекстного меню.

На панели Журнал будет показано, сколько помечено файлов и папок и их общий размер.

R-Studio позволяет найти определенный файл. Более подробно смотри в разделе Поиск Файла . Если вам необходимо за раз найти и пометить большое число файлов, то смотрите раздел Найти и Пометить Множественные Файлы .

Содержание файла может быть просмотрено для оценки шансов восстановления . Более подробно смотри в разделе Просмотр Файлов .

Если файлы, которые вы хотите восстановить, не найдены:

Иногда R-Studio находит файлы, но не может найти полный путь к ним. Такие файлы будут находиться в папке Дополнительно Найденные Файлы - попробуйте произвести поиск необходимых файлов в этой папке. Если же это не поможет, то попробуйте произвести поиск файлов на всем диске. Более подробно смотри в разделе Поиск Файла .

Если вы не нашли файлы, которые хотите восстановить, но знаете, что они находились на логическом диске, то смотрите раздел Восстановление Данных. Дополнительные Операции .

Другие способы восстановить выбранные файлы

• Щелкните правой кнопкой мыши по выбранному файлу/папке и выберите пункт контекстного меню Восстановить или Восстановить помеченные

• Выберите пункт Восстановить или Восстановить помеченные меню Файл

• Нажмите клавишу F2 .

4 Задайте параметры восстановления и папку для сохранения восстановленных файлов в диалоговом окне Восстановить и нажмите кнопку Да

Click to enlarge

Диалоговое окно Восстановить

Click to enlarge

Диалоговое окно Восстановить (вкладка Дополнительно)

Если еще один компьютер подключен к R‑Studio по сети, то диалоговое окно Восстановить будет иметь немного другой вид. Более подробно см. в разделе Восстановление Данных по Сети .

Параметры восстановления

Восстановить все помеченные файлы

Все файлы вне зависимости от установленной маски будут восстановлены.

Восстанавливать только отмеченные файлы, соответствующие маске

Только файлы соответствующие маске будут восстановлены.

Не выводить подробную информацию о успешно восстановленных файлах

Если установить данный флажок, то R-Studio будет записывать в Журнал только ошибки и предупреждения.

Восстановить структуру папкок

Если установить данный флажок, то R-Studio восстановит полный путь к выбранному объекту.

Восстанавливать путь от корневой директории

Если установить данный флажок, то R-Studio восстановит полный путь к выбранному объекту от корневой папки диска.

Если установить данный флажок, то R-Studio восстановит метафайлы диска. Метафайлы это внутренние скрытые системные файлы, которые R-Studio показывает как файлы. Такие файлы не содержат данные пользователя и используются только при восстановлении файловой системы диска .

Восстанавливать альтернативные потоки данных

Если установить данный флажок, то R-Studio восстановит альтернативные потоки данных для поддерживающих их файловых систем. Данный флажок не влияет на восстановление файлов FAT. Смотри раздел Восстановление Дополнительной Информации для файловой системы NTFS и Восстановление Данных на Файловых Системах HFS/HFS+ для компьютеров Mac.

Восстанавливать атрибуты безопасности

Если установить данный флажок, то R-Studio восстановит атрибуты безопасности для файлов NTFS . Данный флажок не влияет на восстановление файлов FAT. Для более подробной информации смотри раздел Восстановление Дополнительной Информации .

Восстанавливать расширенные атрибуты

Если установить данный флажок, то R-Studio восстановит дополнительные (HPFS) атрибуты файлов.

Восстанавливать реальную структуру папок

Данный флажок применим только тогда, когда файлы сортированы по расширениям или дате. Для более подробной информации смотри раздел Найти и Пометить Множественные Файлы . Если установить данный флажок, то R-Studio восстановит подлинную структуру папок/файлов на диске для сортированных таким образом файлов.

Пропускать файлы с неисправными секторами

Если установить данный флажок, то R-Studio пропустит при восстановление файлы с неисправными секторами и отобразит их список в диалоговом окне Файлы с неисправными секторами после завершения процесса восстановления. Далее вы сами можете решить, как поступать с данными файлами. Для более подробной информации смотри раздел Неисправные сектора .

Если данный флажок не установлен, то R-Studio пытается прочесть данные сектора несколько раз (число раз задается в диалоговом окне Настройки/Неисправные сектора ) и если прочесть данные сектора не удается, то заполняет их образцом, который задается в том же окне. Информация о таких файлах будет отображена в Журнале .

Не восстанавливайте дубликаты файлов из Дополнительно Найденных Файлов

Если установить данный флажок, то R‑Studio автоматически исключит из восстановления файлы из категории Дополнительно Найденные Файлы (raw files, найденные по сигнатурам файлы), если они являются дубликатами файлов, найденных в реальной файловой системе.

Игнорировать файловую маску

Если установить данный флажок, то R-Studio восстановит все содержимое выбранной папки, игнорируя заданную Маску Файла .

Открыть локальную папку (папки) по завершению

Если установить данный флажок, то после завершения восстановления будет открыта папка с восстановленными файлами.

Если вы хотите восстановить большое число файлов за один раз, то для более подробной информации смотрите раздел Восстановление Множественных Файлов

R-Studio Technician

Click to enlarge

Диалоговое окно Восстановить (вкладка Дополнительные каталоги)

Параметры Дополнительные каталоги

В данном поле задаются альтернативные пути (дополнительные папки) для сохранения восстановленных файлов если на исходном выбранном диске закончится место.

НИКОГДА НЕ СОХРАНЯЙТЕ ВОССТАНАВЛИВАЕМЫЕ ФАЙЛЫ/ПАПКИ НА ОРИГИНАЛЬНЫЙ ДИСК.

Это может стать причиной полной утраты данных.

Click to enlarge

Диалоговое окно Восстановить (вкладка Действия по завершению)

Параметры Действия по завершению

Завершить работу компьютера по окончанию выполнения задачи

Если установить данный флажок, то компьютер будет выключен автоматически после завершения восстановления. Если для какого-либо параметра на вкладке Дополнительно выбрано Предложить действие, то будет выдано соответствующее предупреждение.

Если установить данный флажок, то R‑Studio автоматически уведомит о результатах операции по электронной почте.

Click to enlarge

Диалоговое окно Поврежденное имя файла

Параметры диалогового окна Поврежденное имя файла

Показывает текущее поврежденное имя файла.

Поле для нового имени файла.

Изменять только неверные символы

Если установить данный флажок, то редактировать можно будет только неверные символы

Изменить все неверные символы на

Если установить данный флажок, то все неверные символы будут изменены на символы, заданные в соответствующем поле

Нажмите эту кнопку, чтобы возобновить восстановление файлов

Нажмите эту кнопку, чтобы возобновить восстановление файлов. Все другие файлы будут переименованы в соответствие с установленным правилом.

Нажмите эту кнопку, чтобы пропустить данный файл

Нажмите эту кнопку, чтобы пропустить все файлы и остановить процесс восстановления

Если на диске будет недостаточно места для сохранения восстановленных файлов, то появится диалоговое окно Недостаточно места на диске . Вы можете выбрать другое место для сохранения файлов, пропустить данный файл или прервать процесс восстановления.

Click to enlarge

Диалоговое окно Недостаточно места на диске

> R-Studio восстанавливает выбранные/помеченные файлы/папки в заданную папку и показывает результаты в панели Журнал

Ход выполнения восстановления (прогресс) и его результаты (Лог) будут показаны в отдельном окне Прогресс восстановления .

Обратите внимание: R-Studio восстанавливает файлы с разделов Ext2/3/4FS , но сохраняет их на локальные диски FAT или NTFS . Также вы можете сохранить такие файлы на сетевые диски. R-Studio успешно восстанавливает файлы с разделов Ext2/3/4FS за исключением их атрибутов безопасности. R-Studio восстанавливает символьные ссылки как файлы, содержащие путь к файлам, на которые имеются ссылки в символьных ссылках .

Смотри раздел Восстановление Данных на Файловых Систем HFS/HFS+ с подробным описанием восстановления данных на дисках с файловыми системами HFS/HFS+.

R — очень мощный инструмент для работы со статистикой: от предварительной обработки до построения моделей любой сложности и соответствующей графики.

Простой гугл-запрос выдаст большое количество литературы по тому, как «легко и быстро» использовать R. Здесь будут и огромные книги, и многочисленные заметки на Stack Overflow, которые, на первый взгляд, кажутся бесконечной кладезью примеров, из которой каждый в два счета соберет необходимый код для решения конкретной задачи. Однако, на деле это совсем не так. Материалов, которые бы рассказали, например, как построить простой график «с нуля» с готовыми рецептами для решения затруднений, которые возникнут по ходу решения этой задачи, очень мало.

Для решения практических задач нужны конкретные пошаговые инструкции, а не подробное описание всей мощи того или иного пакета. Кроме того, готовые учебные примеры (те же ирисы) зачастую малополезны, поскольку сразу пропускают один из самых важных этапов работы со статистикой — предварительный сбор и обработку самих данных. А ведь именно на эту работу зачастую уходит чуть ли не бóльшая часть всего времени! Отдельной проблемой оказывается создание графиков, которые соответствуют формальным, а чаще — неформальным, — стандартам определенной профессиональной среды.

Мне и моим коллегам регулярно требуется делать всё большее количество визуализаций статистики и основанных на них моделей для публикации научных результатов. Поскольку исследования касаются экономики, многие такие работы похожи и на профессиональную публицистику.

В какой-то момент стало понятно, что для эффективной коллективной работы нужен своего рода полноценный конвейер обработки статистики. Эта статья родилась как вводное руководство для коллег и шпаргалка для самого себя, чтобы запустить этот конвейер. Думается, что этот материал может быть полезен и более широкой аудитории.

Базовая настройка R

Для работы нужна стандартная связка: R + RStudio. Они доступны бесплатно для всех распространенных платформ. Сначала устанавливается R, затем RStudio. Здесь проблем обычно не возникает.

Перед работой лучше сразу сохранить новый скрипт где-нибудь в своей файловой системе и сразу установить рабочую директорию R в папку, где хранится скрипт (меню Session — Set Working Directory — To Source File Location). Последнее замечание важно, потому что иначе запуск любого внешнего или собственного скрипта после перезагрузки RStudio не случится. По какой-то причине RStudio по умолчанию не делает этого, что было бы логично.

Даже в базовом пакете R есть стандартные средства визуализации (функция plot), которые позволяют строить многие виды графиков, но всё же для полноценных, гибко настраиваемых иллюстраций этих возможностей явно недостаточно.

Наиболее широкой используемой библиотекой для графики в R является пакет ggplot2, который будем использовать и мы.

Также стоит сразу установить пакеты readxl (для чтения файлов .xls, .xlsx) и dplyr (для работы с массивами), scales (для работы с различными шкалами данных), Cairo (для вывода графики из ggplot в файлы). Всё это можно сделать одной командой:

Сбор и подготовка данных

Самое удивительное в том, что этому этапу в любой литературе, будь то серьезная теоретическая книга по прикладной теоретической статистике или руководства конкретных статистических пакетов, посвящено катастрофически мало места и времени. Тем не менее, по опыту самостоятельных исследований и руководства студентами и младшими коллегами известно, что именно на этот этап может приходиться львиная доля времени и сил, поэтому очень важно экономить их хотя бы при решении чисто технических задач.

Вопросов здесь два:

  1. Как выбрать правильный формат файла?
  2. Как лучше всего структурировать данные?

С форматом дилемма проста: CSV против Microsoft Excel (не так уж важно, «новый» .xlsx старый» .xls). Многие считают, что CSV выигрывает за счет простоты (по сути, это обычный текстовый файл, в котором значения столбцов отделяются запятой или точкой с запятой) и скорости. Но я выбираю Excel в силу двух причин: во-первых, в таком файле можно хранить несколько таблиц одновременно на разных вкладках, во-вторых, что более важно, не приходится задумываться о выборе правильного разделителя колонок и десятичного знака. Для CSV это часто приходится прописывать вручную в коде R и следить за тем, чтобы файл с данными сохранялся с такими же настройками.

Структурирование данных — вопрос более сложный, требующий базового понимания того, как должны быть устроены базы данных. Если не вдаваться в теорию реляционных баз данных про разные нормальные формы, то таблица данных должна быть избыточной, то есть содержать лишние столбцы. Это нужно для того, чтобы потом уже в скрипте в R иметь возможность гибко отбирать те или иные фрагменты информации для дальнейшей обработки. Например, если мы хотим изобразить примитивный временной ряд, то мы должны сделать колонки, соответствующие всем возможным группировочным признакам. Например, если это ряд ежегодных наблюдений над численностью населения условного города Северовосточинска, то нам понадобятся следующие столбцы: year (год), var (название показателя), value (значение показателя).

year var value
1990 Численность населения 102
1991 Численность населения 103
1992 Численность населения 104

К этому стилю представления информации мы будем приводить любые исходные данные.

Пример

Задача: построить сопоставление динамики объемов лесозаготовки в России, Сибирском федеральном округе и Красноярском крае в 2009—2018 гг.

Данные для этой задачи получить довольно просто: достаточно найти соответствующий показатель в Единой межведомственной информационно-статистической системе. Дальше возникает тонкость. Можно сразу скачать данные в формате .xlsx и затем вручную структурировать их так, как показано выше. К счастью, некоторые источники информации (например, ЕМИСС) позволяют делать это возможностями самого сервиса, что сильно упрощает работу и сокращает время, требуемое для ее выполнения.

Итак, для ЕМИСС достаточно перейти в режим «Настройки» (соответствующая кнопка в правом верхнем углу страницы данных) и переместить все признаки, кроме «Период» из графы «Столбцы» в графу «Строки». Получается таблица, практически готовая для нашей дальнейшей работы. Далее уже в Excel (или любом другом подходящем редакторе) есть смысл привести структуру таблицы к виду, похожему на представленный выше и убедиться в том, что первая строка содержит только названия переменных, причем данных латиницей (в принципе, R может работать и с русскоязычными заголовками, но это неудобно при написании кода). Получилась такая таблица (приводится фрагмент в несколько строк).

title location year value
Объем заготовленной древесины Россия в целом 2009 158868,3
Объем заготовленной древесины Россия в целом 2010 173633.7
Объем заготовленной древесины Сибирский ФО 2009 47161.58
Объем заготовленной древесины Красноярский край 2009 12111.48
Объем заготовленной древесины Красноярский край 2010 12078.6

Теперь можно назвать этот лист logging , сохранить всю книгу в файл graphs.xlsx и переходить в RStudio.

Подключаем нужные библиотеки.

Если график готовится для русскоязычного издания, нужно обязательно настроить соответствующую локаль. Самый современный вариант, который будет работать в большинстве случаев — это, разумеется, кодировка UTF-8:

Если система старая (какой-нибудь древний Windows или Linux), то понадобится сначала понять, какая кодировка используется по умолчанию — это всё уже не такая простая задача, которая далека от цели данной статьи.

Теперь нужно загрузить данные в R.

Опция sheet здесь задает имя листа внутри книги Excel, из которого будут загружаться данные.

Построим самый простой вариант требуемого графика.



В принципе, практически «из коробки» получился весьма достойный график, который вполне пригоден для начального анализа изучаемого процесса, но с точки зрения возможной публикации требует еще значительной доработки.

Сначала приведем сам по себе графический стиль к более академическому. В пакете ggplot2 есть несколько готовых базовых тем оформления. Наиболее подходящей для нашего случая можно признать тему theme_classic . В рамках ее настройки можно сразу задать базовый кегль шрифта и его гарнитуру. Мои личные предпочтения принадлежат современной шрифтовой системе PT Sans, PT Serif, PT Mono. Но, разумеется, можно задать более классический Times или Helvetica. Также, у издания, в котором планируется публикация, на этот счет могут быть особые указания. Базовый кегль опытным путем определен как 12 пт.



Далее передвинем легенду из правого поля графика вниз (с помощью инструкции theme ) и одновременно зададим осмысленные названия осям (инструкция labs ). Вдоль оси Y напишем название показателя с единицами измерения («Объемы лесозаготовки, млн куб. м»), а подписи по оси X удалим вовсе, поскольку ясно, что там отмечены годы.



Чтобы сделать единицы измерения показателя более удобными для восприятия, перейдем от тыс. куб. м к миллионам. Для этого нужно просто разделить значения на 1000, то есть откорректировать первую строку нашего кода следующим образом:

Одновременно нужно изменить единицы измерения в надписи:

И сразу немного улучшим стиль изображения, добавив точки для обозначения каждого наблюдаемого значения, для чего допишем инструкцию:

Также можно явно задать стиль самих линий. Логично показатель для России сделать сплошной линией, а для СФО и Красноярского края — разными версиями прерывистых:

Теперь общий код и график выглядят так:



Остается решить более содержательную задачу — повысить информативность нашего графика. Сейчас по нему видно, что в целом показатель для всех объектов наблюдения рос, причем примерно с 2014 года сильнее, чем прежде. Но было бы куда нагляднее, если бы мы изобразили прямо на графике еще и значения в первый и последние годы и, скажем, в пиковом 2011-м. В этом поможет новая инструкция geom_text :

На первый взгляд, выглядит довольно сложно, и надо сказать, что действительно собрать ее было не так просто. Постараюсь объяснить, что здесь происходит. Сама по себе geom_text добавляет на график текстовые надписи. Для этого инструкции необходим набор данных data . Если бы мы указали в нем непосредственно df_logging , то получили бы надписи над каждой точкой. Так делают довольно часто, но для достаточно простых динамических рядов, как наши, такой подход только создаст ненужный визуальный шум, не снабдив нас новой информацией о поведении наблюдаемого показателя. Поэтому мы возьмем только те годы, которые существенны для понимания динамики показателя: 2009 (начало наблюдений), 2011 (локальный пик), 2018 (конец наблюдений). В этом поможет стандартный subset .

Для корректного отображения чисел в соответствии с русскоязычной традицией нам нужна запятая как разделитель целой и десятичной частей ( decimal.mark ), а для отсечения количества знаков после запятой — инструкция digits. Различные эксперименты с ней, в том числе с применением функции round привели к тому, что если нам нужен один знак после запятой, в digits надо передать значение 3 .

Опция check_overlap здесь напрямую не нужна, но может пригодиться в других случаях: это автоматический контроль наложения надписей друг на друга. Опция vjust управляет размещением надписей по вертикали. Значение подобрано, исходя из вкусовых соображений.




Теперь график действительно интересно рассматривать!

Но обнаружилась неожиданная проблема — верхнее правое значение «срезается» размером изображения по вертикали. Решить эту проблему можно разными способами. Я выкрутился с помощью небольшого растяжения шкалы вертикальной оси с указанием явной верхней границы в 250 млн куб. м:



Готово! Итак, итоговый код выглядит так:

Полученное в итоге изображение входит в монографию: Структурная модернизация как фактор повышения конкурентоспособности региона (на примере Красноярского края) / под ред. Шишацкого Н. Г. — Новосибирск: ИЭОПП СО РАН, 2020 (в печати).

Экспорт

Встроенный в RStudio плагин просмотра графиков позволяет экспортировать изображения в несколько форматов без дополнительных команд, буквально в несколько кликов. Проблема в том, что для практических задач этот сервис оказывается практически бесполезным. При сохранении в растровые форматы (.jpg, .jpg), по умолчанию выставляется очень низкое разрешение, поэтому при импорте изображения, например, в Word, оно будет размытым. С векторными .eps или .pdf ситуация откровенно хуже: сохранение происходит либо с ошибками, не позволяющими затем открыть файл, либо сохраняется без возможности использования русскоязычных надписей.

Решением является использование функции ggsave из пакет ggplot .

Если на выходе требуется обычный растровый файл, например, формата .jpg, всё достаточно просто:

Геометрию (опции width и height ) и единицы измерения ( units ) можно и не указывать, но тогда по умолчанию изображение будет экспортировать квадратным, что вряд ли удобно. Поэтому лучше придумать свою пропорцию и необходимый размер и задать эти параметры вручную, как это сделано в вышеприведенной строке кода.

Для последующего использования изображения в бумажных изданиях разумно экспортировать изображение в векторные форматы, чтобы потом при верстке была возможность свободного изменения геометрии изображения. Многие журналы предпочитают формат .eps — его же удобно использовать для экспорта в Word. Нам понадобится уже установленный и подключенный драйвер Cairo:

Файлы будут сохраняться в текущую директорию, в которой расположен скрипт R.

Литературы по графике в R довольно много. Вот несколько примеров, первым из которых является работа автора пакета ggplot:

Наверное, лучшей и наиболее подробной книгой по графике в R на русском языке назовем книгу Тимофея Самсонова. Визуализация и анализ географических данных на языке R. Это отличный подробный путеводитель по очень многим общим и специфическим задачам, которые можно решить с помощью R.

R-Studio как пользоваться правильно, чтобы не усложнить наверно и без того сложную ситуацию в которую вы попали. Пожалуйста прослушайте небольшой курс молодого бойца по работе с подобными программами, без этого вы можете наделать много ошибок и вместо того, что бы вернуть свои удалённые данные, вы ещё хуже затрёте их.

Программа для восстановления файлов R-Studio: как пользоваться

Первая ошибка это волнение, которое сопровождается вытекающими отсюда последствиями, например необдуманными действиями, успокойтесь, дочитайте статью до конца, спокойно всё обдумайте, а затем действуйте. Кстати, если вы случайно удалили с вашего жёсткого диска фотографии, то у нас есть очень простая статья, которая я уверен вам поможет Как восстановить удалённые фотографии. Ещё вам могут пригодиться статьи: Как восстановить удалённые файлы бесплатными программами DMDE , R.saver и Recuva и платными - Ontrack EasyRecovery Professional, GetDataBack for NTFS .

Когда мы с вами, Дорогие мои, случайно удаляем файл, без которого наше дальнейшее существование на планете Земля, будет нам не в радость, знайте, что физически с жёсткого диска он не удалился, но навсегда потерять его можно, записав любую информацию поверх него. Поэтому, даже если вы читали как пользоваться R-Studio, но опыта как такового у вас нет, сразу выключаем компьютер и лучше в аварийном порядке. Больше никаких действий с вашим жёстким диском не производим, тогда наши шансы на благополучный успех увеличиваются.

  • Примечание: много раз ко мне обращались люди с подобными проблемами и не могли вспомнить, какие действия они предпринимали до того, как обратиться в технический сервис. Они даже толком не могли назвать точное название программы, которой пытались спасти свои данные, а самое главное, после удаления своих файлов, например мимо корзины, они активно пользовались компьютером (иногда несколько дней), что категорически делать нельзя, только потом всё-таки шли в сервис и требовали чуда.

После того как мы выключили компьютер, берём системный блок и идём к профессионалам, ваши данные 90% будут спасены, естественно с вас возьмут немного денежки, сколько, лучше узнать сразу, но если денежки попросят очень много, читаем дальше.


Сейчас я пишу эту статью, а передо мной стоит системный блок, в нём находится жёсткий диск, его случайно форматировали, то есть удалили всё что на нём находилось, давайте попробуем восстановить потерянные файлы с помощью R-Studio , а заодно научимся пользоваться этой хорошей программой.
В первую очередь нам с вами нужно эвакуировать пострадавшего, другими словами снять форматированный винчестер и подсоединить к моему компьютеру, я делаю так всегда, потому что нельзя сохранять восстанавливаемую информацию на тот же носитель, с которого были удалены файлы.


Если для вас это трудно, тогда хотя бы не восстанавливайте файлы на тот раздел жёсткого диска с которого они были удалены.

Примечание: Друзья, самое главное правило при восстановлении информации звучит так: число обращений к жёсткому диску с удалёнными данными должно быть сведено к минимуму. А значит, перед работой с R-Studio желательно сделать образ жёсткого диска с потерянными данными и восстанавливать информацию уже с образа. Как сделать посекторный образ жёсткого диска и восстановить с него информацию написано в этой нашей статье.

Итак начнём, на нашем пострадавшем от форматирования винчестере пропало очень много папок с семейными фотографиями и видео, нам нужно их вернуть.

Запускаем R-Studio , у программы интуитивно понятный англоязычный интерфейс, но нам не привыкать, я уверен, что, попользовавшись ей один раз, вы запомните её навсегда.
Главное окно программы Device View "Просмотр дисков" в левой его части показаны практически все накопители находящиеся в системе: жёсткие диски, разбитые на логические разделы, USB-накопители, DVD-диски, флеш-карты, правое окно предоставляет полнейшую информацию о выбранном нам накопителе, начиная с названия и заканчивая размером кластеров.


Выбираем наш диск (N:) и жмём Open Drive Files (Открыть файлы диска),


сейчас мы с вами используем самый простой способ восстановления удалённых файлов, перед нами открывается несколько папок имеющих древовидную структуру, раскрываем все начиная с первой, предупреждаю, не ждите обычных названий ваших файлов, в нашем случае Фото сынишки и т.д. Можно сказать нам повезло, в окне присутствуют папки перечёркнутые

красным крестиком, это значит они были удалены, смотрим названия: Глава 01, 02 и т.д, это нужные нам папки с лекциями Университетского профессора, дело в том что перед подобными операциями восстановления, я внимательно расспрашиваю людей о названиях удалённых файлов и их расширениях, это нужно в особых запущенных случаях для поиска по маске и т.д. Вы можете не забивать себе голову на первый раз, в конце статьи мы воспользуемся методом расширенного сканирования ( Scan ) и восстановим всё что было на винчестере, это конечно займёт времени по сравнению с простым способом в десять раз больше. А сейчас ставим везде галочки и далее Recover ,


выбираем куда восстанавливать, по умолчанию в личную папку R-Studio в Моих документах и предложение изменить настройки восстановления по умолчанию, оставляем всё как есть нажимаем ОК .

Читайте также: