Как найти аномалии в экселе

Обновлено: 03.07.2024

Чтобы поисковые функции Excel: ВПР, ГПР и ПОИСКПОЗ выполняли точный поиск с точным совпадением искомого и проверяемого значения ячеек или возвращали ошибку, в последнем третьем их аргументе должно быть указано – ЛОЖЬ или 0. При этом независимо отсортирован ли просматриваемый список значений или нет.

Формула приблизительного поиска неточных совпадений в Excel

Поисковые функции Excel предназначенные для выборки значений из таблиц позволяют находить данные также если необходимо найти приблизительное значение. Но только в сортированных списках значений таблицы по возрастанию.

Ниже на рисунке проиллюстрировано метод расчета суммы налога. Таблица процентных ставок налога не содержит всевозможные варианты, а только некоторые определенные их границы пределов. Сначала необходимо определить, в котором диапазоне границ налоговой ставки будет находится зарплата того или иного сотрудника. А далее следует использовать полученную информацию из найденного наиболее близкого значения для налоговых расчетов:

Формула использует три функции ВПР для считывания 3-х значений с таблицы. В последнем аргументе каждой функции находится логическое значение ИСТИНА. Это значит, что необходимо найти приблизительное значение, а необязательно точное совпадение.

Чтобы любая поисковая функция выборки в Excel: ВПР, ГПР либо ПОИСКПОЗ со значением ИСТИНА в третьем аргументе возвращала правильный результат вычисления, данные в просматриваемом столбце (в данном примере это диапазон ячеек B2:B9) должны быть отсортированы по возрастанию. Функция ВПР поочередно проверяет все значения и закончит поиск, если следующее значение будет больше чем искомое. После чего поиск прекращается. Вот почему нужно сортировать исходный диапазон по возрастанию. Таким способом найдено наибольшее значение, которое одновременно с тем меньше чем искомое.

Внимание! Поиск приблизительного соответствия значений с помощью поисковых функций Excel не предоставляют возможность находить максимально приближенное значение. Возвращается лишь только наибольшее число, которое является меньшим от искомого. Даже если очередное проверяемое значение является максимально приблизительным к искомому значению.

Внимание! Если данные в просматриваемом функцией столбце не отсортированы по возрастанию, поисковая функция при выборке вернет не ошибку, а только лишь ошибочный результат (что еще хуже ошибки)! Функции, предназначенные для приблизительного поиска соответствий, используют в своих алгоритмах бинарный метод. Согласно этому алгоритму поиск начинается от середины столбца, а в процессе происходит проверка находится ли искомое значение в верхней или нижней части. Когда определена более подходящая часть столбца, она снова делится на половину и снова проверяется от своей середины. Данный процесс повторяется пока не будет найден результат.

Поэтому бинарный поиск по неотсортированным диапазонам значений с большой вероятностью может привести к тому, что поисковая функция выберет неправильную половину просматриваемого столбца и возвратит ошибочное значение (при этом без кода ошибки).

В выше приведенном примере функция ВПР закончит поиск на второй строке просматриваемого столбца так как число 1023 является наибольшим числом, которое меньше от искомого числа 2003,89. Условно формулу можно разделить на 3, которые последовательно выполняют следующие операции:

Первая функция ВПР возвращает базовую налоговую ставку с третьего столбца таблицы, то есть число 69,80.
Следующая функция ВПР ищет тоже самое приблизительное значение для числа 2003,89, но уже по первому столбцу «Зарплата от». После чего найденное приближенное значение вычитаемое от искомого.
Третья функция ВПР возвращает процентную ставку с четвертого столбца таблицы. Полученная ставка умножается на чистую зарплату netto – после всех вычетов, а результат прибавляется к базовой ставке.

Когда все функции ВПР возвратят свои результаты, выполняются следующие арифметические вычисления с числами:

Поиск данных с приблизительным совпадением выполняется существенно быстрее чем при точном поиске. При точном совпадении поисковая функция должна проверять по очереди содержимое каждой ячейки в просматриваемом столбце. Если вы уверенны что исходные данные просматриваемого столбца отсортированы по возрастанию, можно ускорить точный поиск указав в третьем аргументе поисковой функции значение ИСТИНА. В случаи приблизительного совпадения значений, всегда будет найдено точное значение с точным совпадением с искомым. Главное, чтобы оно действительно фактически присутствовало в списке значений, а сам список было отсортирован по возрастанию.

Пример формулы для приблизительного поиска ИНДЕКС и ПОИСКПОЗ в Excel

Любые поисковые функции для выборки можно заменить формулой из комбинации функций ИНДЕКС и ПОИСКПОЗ. Последний аргумент функции ПОИСКПОЗ позволяет переключатся между приблизительными и точным поиском, подобно как в функциях ВПР и ГПР. Но отличительным преимуществом функции ПОИСКПОЗ является возможность выполнять поиск с приблизительным совпадением при отсортированных значениях по убыванию.

Ниже на рисунке приведена та же таблица с налоговыми ставками, но отсортирована по убыванию. Новая формула в ячейке … использует формулу функций ИНДЕКС и ПОИСКПОЗ возвращает правильный результат:

В тоже время новая формула в ячейке D17 возвращает правильный итоговый результат вычислений.

В отличии от других поисковых функций последним аргументом функции ПОИСКПОЗ может быть и отрицательное число, а точнее одно из трех вариантов: -1, 0, 1:

Отрицательное значение -1 используется в случаях работы с данными отсортированными по убыванию. Функция возвращает из просматриваемого столбца наименьшее значение, которое является большим по отношению к искомому. Нельзя использовать отрицательную единицу с минусом (-1) в третьем аргументе для поисковых функций выборки данных ВПР и ГПР. Там нет соответственного режима работы функции.
Значение 0 используется для обработки неотсортированных списков данных, с целью поиска точного совпадения значений с искомым. Поведение функции ПОИСКПОЗ с нулевым значением в третьем аргументе (0) – соответствует поведению функций ВПР и ГПР с тратим аргументом равному ЛОЖЬ или 0.
Значение 1 применяется к спискам данных отсортированных по возрастанию. В таком случае функция возвращает из просматриваемого столбца наибольшее значение, которое меньше от искомого. Положительное число 1 в третьем аргументе функции ПОИСКПОЗ работает аналогично как ИСТИНА или 1 для функций ВПР и ГПР в этом же аргументе.

Так как функция ПОИСКПОЗ с последним аргументом равным отрицательному число -1 ищет значение больше чем искомое к возвращаемому результату следует добавить число +1, чтобы получить правильный номер строки для функции ИНДЕКС.

В этом учебнике показано, как найти аномалии в наборе данных временных рядов в пакетном режиме. В Power BI Desktop в файле Excel подготовьте данные для API Детектора аномалий и визуализируйте статистические аномалии в нем.

Из этого руководства вы узнаете, как выполнять следующие задачи:

Импорт и преобразование набора данных временных рядов в Power BI Desktop.
Интеграция Power BI Desktop с API Детектора аномалий для пакетного обнаружения аномалий.
Визуализация аномалий, которые находятся в данных, включая ожидаемые и видимые значения, а также границы обнаружения аномалий.

Предварительные требования

Для подключения приложения к API "Детектор аномалий" потребуется ключ и конечная точка из созданного ресурса. Вы сделаете это позже в этом кратком руководстве.

Для лучших результатов при использовании API "Детектор аномалий", данные временных рядов в формате JSON должны включать:

точки данных, разделенные одним и тем же интервалом, при этом не более 10 % ожидаемого числа отсутствующих точек;
по крайней мере 12 точек данных, если данные не имеют четкого шаблона;
по крайней мере 4 экземпляра шаблона, если данные имеют четкий шаблон.

Загрузка и форматирование данных временных рядов

Чтобы начать работу, откройте Power BI Desktop и загрузите данные временных рядов, которые вы скачали при выполнении предварительных требований. Этот файл Excel содержит ряд пар меток времени в формате UTC и значений.

Power BI использует данные из разнообразных источников, например из CSV-файлов, баз данных SQL, хранилища BLOB-объектов Azure и других.

В главном окне Power BI Desktop щелкните ленту Главная. В группе Внешние данные на ленте откройте раскрывающееся меню Получить данные и выберите Excel.

В появившемся диалоговом окне перейдите в папку, в которую вы скачали пример файла XLSX, и выберите его. В открывшемся диалоговом окне Навигатор щелкните Лист1, а затем Изменить.

Power BI преобразует отметки времени в первом столбце в тип данных Date/Time . Эти метки времени должны быть преобразованы в текст для отправки в API Детектора аномалий. Если редактор Power Query не открывается автоматически, щелкните Изменить запросы на вкладке "Главная".

Выберите ленту Преобразование в редакторе Power Query. В группе Любой столбец откройте раскрывающееся меню Тип данных: и выберите Текстовый.

При получении уведомления об изменении типа столбца щелкните Заменить текущее. После этого щелкните Закрыть и применить или Применить на ленте Главная.

Создание функции для отправки данных и форматирования ответа

Убедитесь, что новый запрос выбран, а затем щелкните Расширенный редактор.

В Расширенном редакторе используйте следующий фрагмент кода Power Query M для извлечения столбцов из таблицы и отправки их в API. Запрос создаст таблицу на основе ответа JSON и вернет ее. Замените переменную apiKey на допустимый ключ API Детектора аномалий, а endpoint на вашу конечную точку. После ввода запроса в Расширенном редакторе щелкните Готово.

Вызовите запрос на листе данных, выбрав в разделе Введите параметр значение Sheet1 и нажав кнопку Вызвать.

Конфиденциальность источника данных и аутентификация

Ознакомьтесь с политиками своей организации в отношении конфиденциальности данных и доступа к ним. Дополнительные сведения см. в статье об уровнях конфиденциальности Power BI Desktop.

Чтобы устранить эту проблему, последовательно выберите пункты Файл, Параметры и настройки. Затем щелкните Параметры. Под пунктом Текущий файл выберите Конфиденциальность и Игнорировать уровни конфиденциальности для возможного улучшения производительности.

После этого щелкните Закрыть и применить на ленте Главная, чтобы применить изменения.

Визуализация ответа API Детектора аномалий

На главном экране Power BI начните использовать созданные ранее запросы для визуализации данных. Сначала выберите в разделе Визуализации тип График. Затем добавьте на ось графика метку времени из вызванной функции. Щелкните значение правой кнопкой мыши и выберите Метка времени.

Добавьте следующие поля из раздела Вызванная функция в поле Значения графика. Создайте график, используя параметры в приведенном ниже снимке экрана.

Значение
UpperMargins
LowerMargins
ExpectedValues

После добавления полей щелкните график и измените его размер так, чтобы отображались все точки данных. График будет выглядеть примерно так, как на снимке экрана ниже:

Отображение точек данных с аномалиями

В правой части окна Power BI под областью ПОЛЯ в разделе запроса вызванной функции щелкните пункт Значение правой кнопкой мыши и выберите Новая быстрая мера.

На появившемся экране выберите Отфильтрованное значение в качестве вычисления. В поле Базовое значение выберите значение Sum of Value . Затем перетащите значение IsAnomaly из полей Вызванная функция в поле Фильтр. В раскрывающемся меню Фильтр выберите значение True .

После нажатия кнопки ОК в нижней части списка полей появится поле Value for True . Щелкните его правой кнопкой мыши и переименуйте на Аномалии. Добавьте его в значения графика. Затем выберите средство Формат и задайте для оси X тип Категориальный.

Примените цвета к графику, щелкнув средство Формат и Цвета данных. График должен выглядеть примерно следующим образом:

Первичные данные выборочной совокупности могут содержать аномальные значения изучаемых признаков (см. в методических указаниях [1] п. 2 раздела II – «Теоретические основы лабораторной работы»). Задание 1 заключается в их выявлении и исключении из дальнейшего рассмотрения с целью обеспечения устойчивости данных статистического исследования.

Выполнение Задания 1 заключается в решении двух задач:

1. Построение диаграммы рассеяния изучаемых признаков.

2. .Визуальный анализ диаграммы рассеяния, выявление и фиксация аномальных значений признаков, их удаление из первичных данных.

Алгоритмы выполнения Задания 1

Задача 1. Построение диаграммы рассеяния изучаемых признаков.

Алгоритм 1.1. Построение диаграммы рассеяния изучаемых признаков

1. Выделить мышью исходные данные (B4:C35);

2. Вставка=>Диаграмма=>Точечная=>Готово.

В результате выполнения указанных действий появляется диаграмма рассеяния исследуемых признаков.

Рис. 1. Аномальные значения признаков
на диаграмме рассеяния.

Задача 2. Визуальный анализ диаграммы рассеяния, выявление и фиксация аномальных значений признаков, их удаление из первичных данных.

Алгоритм 2. Визуальный анализ диаграммы рассеяния, выявление и фиксация аномальных значений признаков, их удаление из первичных данных

1. Найти на графике точку, соответствующую аномальному наблюдению. Если таких точек нет, то перейти к действию 7, если есть – к действиям 2–6.

2. Подвести курсор к точке на диаграмме рассеяния, соответствующей аномальному наблюдению. После непродолжительного времени возле точки автоматически появится надпись, содержащая значения признаков (x_i,y_i) этого наблюдения.

Для демонстрационного примера такая надпись выглядит следующим образом:

3. В исходных данных визуально найти в табл.1 строку, соответствующую выявленной аномальной единице наблюдения (предприятию) и скопировать её в табл.2.

4. Выделить мышью всю адресную строку (вместе с ее номером) с данными, подлежащими удалению.

Для демонстрационного примера это адресная строка с номером 34, содержащая значения 31, 330 и 53:

А	В	С	D	E
33

3. Правка=>Удалить.

4. Выполнять действия 1–5 до полного удаления всех аномальных значений признаков.

5. Выделить диаграмму рассеяния и переместить ее, используя прием "захват мышью", в область ячеек, начиная с ячейки F4.

Для демонстрационного примера табл.2, содержащая две единицы наблюдения с аномальными значениями признаков, имеет следующий вид.

Таблица 2-ДП
Аномальные единицы наблюдения
Номер предприятия	Среднегодовая стоимость основных производственных фондов, млн руб.	Выпуск продукции, млн руб.
50,00	150,00
330,00	53,00

Задание 2

Оценка описательных статистических параметров

Совокупности

Обобщающие статистические показатели совокупности исчисляются на основе анализа вариационных рядов распределения (см. в методических указаниях [1] п.3 раздела II – «Теоретические основы лабораторной работы»). Однако пакет Excel позволяет рассчитать многие из этих показателей непосредственно по первичным данным наблюдения, используя инструмент Описательная статистиканадстройки Пакет анализа,а также статистические функции инструмента Мастер функций.

Выполнение Задания 2 заключается в автоматизированном решении двух статистических задач:

1. Расчет описательных показателей выборочной и генеральной совокупностей по несгруппированным выборочным данным с использованием инструментов Описательная статистикаи Мастер функций.

2. Оценка средней и предельной ошибок выборки для средней величины признака, а также границ, в которых эта средняя будет находиться в генеральной совокупности при заданных уровнях надежности.

Алгоритмы выполнения Задания 2

Выполнение задания включает три этапа:

1. Расчет описательных параметров выборочной и генеральной совокупностей с использованием инструмента Описательная статистика.

2. Оценка предельных ошибок выборки для различных уровней надежности в режиме Описательная статистика.

3. Расчет описательных параметров выборочной совокупности с использованием инструмента Мастер функций.

Этап 1. Расчет описательных параметров выборочной и генеральной совокупностей с использованием инструмента Описательная статистика

Базовый инструмент для работы с огромным количеством неструктурированных данных, из которых можно быстро сделать выводы и не возиться с фильтрацией и сортировкой вручную. Сводные таблицы можно создать с помощью нескольких действий и быстро настроить в зависимости от того, как именно вы хотите отобразить результаты.

Полезное дополнение. Вы также можете создавать сводные диаграммы на основе сводных таблиц, которые будут автоматически обновляться при их изменении. Это полезно, если вам, например, нужно регулярно создавать отчёты по одним и тем же параметрам.

Как работать

Исходные данные могут быть любыми: данные по продажам, отгрузкам, доставкам и так далее.

Откройте файл с таблицей, данные которой надо проанализировать.
Выделите диапазон данных для анализа.
Перейдите на вкладку «Вставка» → «Таблица» → «Сводная таблица» (для macOS на вкладке «Данные» в группе «Анализ»).
Должно появиться диалоговое окно «Создание сводной таблицы».
Настройте отображение данных, которые есть у вас в таблице.

Перед нами таблица с неструктурированными данными. Мы можем их систематизировать и настроить отображение тех данных, которые есть у нас в таблице. «Сумму заказов» отправляем в «Значения», а «Продавцов», «Дату продажи» — в «Строки». По данным разных продавцов за разные годы тут же посчитались суммы. При необходимости можно развернуть каждый год, квартал или месяц — получим более детальную информацию за конкретный период.

Набор опций будет зависеть от количества столбцов. Например, у нас пять столбцов. Их нужно просто правильно расположить и выбрать, что мы хотим показать. Скажем, сумму.

Можно её детализировать, например, по странам. Переносим «Страны».

Можно посмотреть результаты по продавцам. Меняем «Страну» на «Продавцов». По продавцам результаты будут такие.

2. 3D-карты

Этот способ визуализации данных с географической привязкой позволяет анализировать данные, находить закономерности, имеющие региональное происхождение.

Полезное дополнение. Координаты нигде прописывать не нужно — достаточно лишь корректно указать географическое название в таблице.

Как работать

Откройте файл с таблицей, данные которой нужно визуализировать. Например, с информацией по разным городам и странам.
Подготовьте данные для отображения на карте: «Главная» → «Форматировать как таблицу».
Выделите диапазон данных для анализа.
На вкладке «Вставка» есть кнопка 3D-карта.

Точки на карте — это наши города. Но просто города нам не очень интересны — интересно увидеть информацию, привязанную к этим городам. Например, суммы, которые можно отобразить через высоту столбика. При наведении курсора на столбик показывается сумма.

Также достаточно информативной является круговая диаграмма по годам. Размер круга задаётся суммой.

3. Лист прогнозов

Зачастую в бизнес-процессах наблюдаются сезонные закономерности, которые необходимо учитывать при планировании. Лист прогноза — наиболее точный инструмент для прогнозирования в Excel, чем все функции, которые были до этого и есть сейчас. Его можно использовать для планирования деятельности коммерческих, финансовых, маркетинговых и других служб.

Полезное дополнение. Для расчёта прогноза потребуются данные за более ранние периоды. Точность прогнозирования зависит от количества данных по периодам — лучше не меньше, чем за год. Вам требуются одинаковые интервалы между точками данных (например, месяц или равное количество дней).

Как работать

Откройте таблицу с данными за период и соответствующими ему показателями, например, от года.
Выделите два ряда данных.
На вкладке «Данные» в группе нажмите кнопку «Лист прогноза».
В окне «Создание листа прогноза» выберите график или гистограмму для визуального представления прогноза.
Выберите дату окончания прогноза.

В примере ниже у нас есть данные за 2011, 2012 и 2013 годы. Важно указывать не числа, а именно временные периоды (то есть не 5 марта 2013 года, а март 2013-го).

Для прогноза на 2014 год вам потребуются два ряда данных: даты и соответствующие им значения показателей. Выделяем оба ряда данных.

На вкладке «Данные» в группе «Прогноз» нажимаем на «Лист прогноза». В появившемся окне «Создание листа прогноза» выбираем формат представления прогноза — график или гистограмму. В поле «Завершение прогноза» выбираем дату окончания, а затем нажимаем кнопку «Создать». Оранжевая линия — это и есть прогноз.

4. Быстрый анализ

Эта функциональность, пожалуй, первый шаг к тому, что можно назвать бизнес-анализом. Приятно, что эта функциональность реализована наиболее дружественным по отношению к пользователю способом: желаемый результат достигается буквально в несколько кликов. Ничего не нужно считать, не надо записывать никаких формул. Достаточно выделить нужный диапазон и выбрать, какой результат вы хотите получить.

Полезное дополнение. Мгновенно можно создавать различные типы диаграмм или спарклайны (микрографики прямо в ячейке).

Как работать

Откройте таблицу с данными для анализа.
Выделите нужный для анализа диапазон.
При выделении диапазона внизу всегда появляется кнопка «Быстрый анализ». Она сразу предлагает совершить с данными несколько возможных действий. Например, найти итоги. Мы можем узнать суммы, они проставляются внизу.

В быстром анализе также есть несколько вариантов форматирования. Посмотреть, какие значения больше, а какие меньше, можно в самих ячейках гистограммы.

Также можно проставить в ячейках разноцветные значки: зелёные — наибольшие значения, красные — наименьшие.

Надеемся, что эти приёмы помогут ускорить работу с анализом данных в Microsoft Excel и быстрее покорить вершины этого сложного, но такого полезного с точки зрения работы с цифрами приложения.

Одним из самых распространенных методов, применяемых в статистике для изучения данных, является корреляционный анализ, с помощью которого можно определить влияние одной величины на другую. Давайте разберемся, каким образом данный анализ можно выполнить в Экселе.

Назначение корреляционного анализа

Корреляционный анализ позволяет найти зависимость одного показателя от другого, и в случае ее обнаружения – вычислить коэффициент корреляции (степень взаимосвязи), который может принимать значения от -1 до +1:

Сила зависимости определяется по модулю коэффициента корреляции. Чем больше значение, тем сильнее изменение одной величины влияет на другую. Исходя из этого, при нулевом коэффициенте можно утверждать, что взаимосвязь отсутствует.

Выполняем корреляционный анализ

Для изучения и лучшего понимания корреляционного анализа, давайте попробуем его выполнить для таблицы ниже.

Здесь указаны данные по среднесуточной температуре и средней влажности по месяцам года. Наша задача – выяснить, существует ли связь между этими параметрами и, если да, то насколько сильная.

Метод 1: применяем функцию КОРРЕЛ

В Excel предусмотрена специальная функция, позволяющая сделать корреляционный анализ – КОРРЕЛ. Ее синтаксис выглядит следующим образом:

Порядок действий при работе с данным инструментом следующий:

Метод 2: используем “Пакет анализа”

Альтернативным способом выполнения корреляционного анализа является использование “Пакета анализа”, который предварительно нужно включить. Для этого:

Все готово, “Пакет анализа” активирован. Теперь можно перейти к выполнению нашей основной задачи:

Заключение

Таким образом, выполнение корреляционного анализа в Excel – достаточно автоматизированная и простая в освоении процедура. Все что нужно знать – где найти и как настроить необходимый инструмент, а в случае с “Пакетом решения”, как его активировать, если до этого он уже не был включен в параметрах программы.

Читайте также: