Как рассчитать z критерий в эксель

Обновлено: 05.07.2024

п.12 . Решение прикладных задач средствами EXCEL .

Процедуры описательной статистики . Параметрический критерий Стьюдента

В Excel для построения выборочных функций распределения используются специальная функция ЧАСТОТА и процедура пакета анализа ГИСТОГРАММА.

1. Функция ЧАСТОТА вычисляет частоты появления случайной величины в интервалах значений и выводит их как массив цифр. Функция задается в качестве формулы массива.

2. Процедура ГИСТОГРАММА используется для вычисления выборочных и интегральных частот попадания данных в указанные интервалы значений. Процедура выводит результаты в виде таблицы и гистограммы.

В мастере функций Excel имеется также ряд специальных функций, предназначенных для вычисления выборочных характеристик. Прежде всего, это функции, характеризующие «центр» распределения.

•Функция СРЗНАЧ вычисляет среднее арифметическое из нескольких массивов (аргументов) чисел. Аргументы число 1, число 2,… — это от 1 до 30 массивов, для которых вычисляется среднее. Например, если ячейки А1-А7 содержат числа 10, 14, 5, 6, 10, 12 и 13, то средним арифметическим СРЗНАЧ ( А1-А7 ) является 10.

• Например, СРГАРМ(10;14;5;6;10;12;13) равняется 8,317.

•Функция МЕДИАНА позволяет получать медиану заданной выборки. Медиана — это элемент выборки, число элементов выборки со значениями больше которого и меньше которого равно. Например, МЕДИАНА (10;14;5;6;10;12;13) равняется 10.

•Функция МОДА вычисляет наиболее часто встречающееся значение в выборке. Например, МОДА (10;14;5;6;10;12,13) равняется 10.

К специальным функциям, вычисляющим выборочные характеристики, характеризующие рассеяние вариант, относятся ДИСП, СТАНДОТКЛОН, ПЕРСЕНТИЛЬ.

•Функция ДИСП позволяет оценить дисперсию по выборочным данным. Например, ДИСП(10;14;5;6;10;12;13) равняется 11,667.

•Функция СТАНДОТКЛОН вычисляет стандартное отклонение. Например, СТАНДОТКЛОН(10;14;5;6;10;12;13) равняется 3,416.

•Функция ПЕРСЕНТИЛЬ позволяет получить квантили заданной выборки. Например, если ячейки А1-А7 содержат числа 10, 14, 5, 6, 10, 12 и 13, то квантиль со значением 0,1 является ПЕРСЕНТИЛЬ (А 1-А7;0,1), равная 5,6.

Форму эмпирического распределения позволяют оценить специальные функции:

•Функция ЭКСЦЕСС вычисляет оценку эксцесса по выборочным данным. Например, ЭКСЦЕСС(10;14;5;6;10;12;13) равняется -1,169.

•Функция СКОС позволяет оценить асимметрию выборочного распределения. Например, СКОС(10;14;5;6;10;12;13) равняется -0,527.

В пакете Excel помимо мастера функций имеется набор более мощных инструментов для работы с несколькими выборками и углубленного анализа данных, называемый Пакет анализа, который может быть использован для решения задач статистической обработки выборочных данных.

Для установки раздела «Анализ данных» в пакете Excel сделайте следующее:

•в меню Сервис выберите команду Надстройки;

•в появившемся списке установите флажок Пакет анализа.

В MS Excel для оценки достоверности отличий по критерию Стьюдента используются специальная функция ТТЕСТ и процедуры пакета анализа.

Функция ТТЕСТ (коэффициент Стьюдента) использует следующие параметры: ТТЕСТ (массив 1; массив 2; хвосты; тип). Здесь:

•массив 1 — это первое множество данных;

•массив2 — это второе множество данных;

•хвосты — число хвостов распределения. Обычно число хвостов равно 2;

•тип — это вид используемого t -теста.

Рассмотрим на примере применение ф ункции ТТЕСТ для оценки статистической значимости различий по исследуемому признаку между двумя выборками.

Изучалось различие в показателях интеллекта студентов первого и пятого курсов технического вуза. Для этого случайным образом были отобраны 12 студентов первого курса и 13 студентов 5 курса, у которых интеллект определялся по одной и той же методике. Были получены следующие результаты:

1 группа - первый курс: 111, 104, 107, 90, 101, 107, 106, 107, 95, 106, 105, 115.

2 группа – пятый курс: 113, 107, 123, 122, 117, 112, 105, 108, 111, 114, 102, 104, 108.

Оценить с помощью критерия Стьюдента достоверность различий между группами.

H – различия между группами не достоверны.

H – различия между группами достоверны.

1. Введите данные: откройте новую рабочую таблицу. Введите в ячейку А1 слово 1 группа - первый курс, затем в ячейки А2-А13 введите показатели интеллекта у студентов первой группы. В ячейку В1 введите слово 2 группа- пятый курс, а в В2-В14 введите показатели интеллекта у студентов второй группы.

3. Поскольку величина вероятности случайного появления анализируемых выборок (0,018563) меньше уровня значимости (р = 0,05), то нулевая гипотеза отклоняется. Следовательно, различия между выборками неслучайные, и средние выборок считаются достоверно отличающимися друг от друга. Поэтому на основании применения критерия Стьюдента можно сделать вывод о том, что различия между группами статистически достоверны .

Проверить с помощью критерия Стьюдента гипотезу о том, что в результате тренинга самооценка конформизма участников возросла.

H – различия между показателями до и после тренинга не достоверны.

H – различия между показателями до и после тренинга достоверны.

1. Введите данные: откройте новую рабочую таблицу. Введите в ячейку С1 слово До тренинга, затем в ячейки С2-С9 — соответствующие значения. В ячейку Д1 введите слова После тренинга, а в Д2-Д9 — значения.

3. Поскольку величина вероятности случайного появления анализируемых выборок (0,047945) меньше пятипроцентного уровня значимости (р = 0,05), нулевая гипотеза отклоняется. Следовательно, различия между выборками неслучайные, и средние выборок считаются достоверно отличающимися друг от друга. Поэтому на основании применения критерия Стьюдента можно сделать вывод о том, что различия между показателями до и после тренинга достоверны (р 0,05).

Итак, при использовании t -критерия выделяют два основных случая. В первом случае его применяют для проверки гипотезы о равенстве средних двух независимых, несвязанных выборок (так называемый двухвыборочный t -критерий). При заполнении диалогового окна ТТЕСТ при этом указывается Тип 3. Во втором случае, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних, используется так называемый парный t -критерий (при заполнении диалогового окна ТТЕСТ указывается Тип 1).

Проверялась гипотеза о том, что мужчины агрессивнее женщин. По тесту Басса-Дарки опросили 17 мужчин и 20 женщин. Индексы общей агрессивности для каждого из опрошенных приведены в таблице.

26 , 16 , 19 , 14, 24, 15, 25, 11, 22, 20, 17, 10, 5, 9, 5, 8, 6

20, 17, 13, 19, 22, 8, 10, 7, 10, 15, 10, 5, 8, 5, 6, 5, 5, 8, 10, 10

Члены команды спасателей участвовали в тренинге по повышению стрессоустойчивости. В таблице приведены результаты измерения стрессоустойчивости до тренинга (выборка А) и после тренинга (выборка В).

Можно ли утверждать, что после тренинга стрессоустойчивость испытуемых возросла?

В этой статье описаны синтаксис формулы и использование Z.ТЕСТ в Microsoft Excel.

Возвращает одностороннее P-значение z-теста.

Для заданного гипотетического среднего генеральной совокупности функция Z.ТЕСТ возвращает вероятность того, что среднее по выборке будет больше среднего значения набора рассмотренных данных (массива), то есть среднего значения наблюдаемой выборки.

Сведения об использовании функции Z.ТЕСТ в формуле для вычисления двустороннего значения вероятности см. ниже в разделе "Замечания".

Синтаксис

Аргументы функции Z.ТЕСТ описаны ниже.

Массив Обязательный. Массив или диапазон данных, с которыми сравнивается x.

X Обязательный. Проверяемое значение.

Сигма Необязательный. Известное стандартное отклонение генеральной совокупности. Если этот аргумент опущен, используется стандартное отклонение выборки.

Замечания

Функция Z.ТЕСТ вычисляется следующим образом, если аргумент "сигма" не опущен:

Z.ТЕСТ( массив,x,сигма ) = 1- НОРМ.СТ.РАСП ((СРЗНАЧ(массив)- x) / (сигма/√n),ИСТИНА)

Если аргумент "сигма" опущен:

Z.ТЕСТ(массив,x) = 1- НОРМ.СТ.РАСП((СРЗНАЧ(массив)- x) / (СТАНДОТКЛОН(массив)/√n),ИСТИНА)

где x — среднее по выборке СРЗНАЧ(массив); n — число наблюдений в выборке СЧЁТ(массив).

Функция Z.ТЕСТ представляет вероятность того, что среднее по выборке будет больше среднего значения множества рассмотренных данных СРЗНАЧ(массив) при значении математического ожидания генеральной совокупности, равном μ0. Исходя из симметрии нормального распределения, если СРЗНАЧ(массив) < x, функция Z.ТЕСТ вернет значение больше 0,5.

Приведенную ниже формулу Excel можно использовать для вычисления двустороннего значения вероятности того, что среднее по выборке будет отличаться от x (в любом направлении) больше, чем на СРЗНАЧ(массив), при математическом ожидании генеральной совокупности, равном x.

=2 * МИН(Z.ТЕСТ(массив;x;сигма), 1 - Z.ТЕСТ(массив;x;сигма)).

Пример

Скопируйте образец данных из следующей таблицы и вставьте их в ячейку A1 нового листа Excel. Чтобы отобразить результаты формул, выделите их и нажмите клавишу F2, а затем — клавишу ВВОД. При необходимости измените ширину столбцов, чтобы видеть все данные.

Что такое Z-Score и что делают функции AVERAGE, STDEV.S и STDEV.P?

Вот пример, чтобы помочь уточнить. Скажем, вы хотели сравнить результаты тестов двух студентов по алгебре, которых учили разные учителя. Вы знаете, что первый ученик набрал 95% на итоговом экзамене в одном классе, а ученик в другом классе набрал 87%.

На первый взгляд, 95% -ая оценка более впечатляющая, но что, если учитель второго класса сдает более сложный экзамен? Вы можете рассчитать Z-балл для каждого учащегося на основе средних баллов в каждом классе и стандартного отклонения баллов в каждом классе. Сравнение Z-баллов двух учеников может выявить, что ученик с результатом 87% показал лучшие результаты по сравнению с остальными в своем классе, чем ученик с результатом 98% по сравнению с остальными в своем классе.

В предыдущих версиях Excel была только функция «STDEV», которая вычисляет стандартное отклонение, рассматривая данные как «выборку» совокупности. Excel 2010 разбил это на две функции, которые вычисляют стандартное отклонение:

STDEV.S: Эта функция идентична предыдущей функции «STDEV». Он рассчитывает стандартное отклонение, рассматривая данные как «выборку» населения. Образец популяции может быть чем-то вроде конкретных комаров, собранных для исследовательского проекта, или автомобилей, которые были отложены и использовались для испытаний на безопасность при столкновении.
STDEV.P: . Эта функция вычисляет стандартное отклонение, рассматривая данные как всю совокупность. Вся популяция будет похожа на всех комаров на Земле или на каждую машину в серийном производстве определенной модели.

То, что вы выбираете, зависит от вашего набора данных. Разница обычно будет небольшой, но результат функции «STDEV.P» всегда будет меньше, чем результат функции «STDEV.S» для того же набора данных. Это более консервативный подход, позволяющий предположить, что данные более изменчивы.

Давайте посмотрим на пример

В нашем примере у нас есть два столбца («Значения» и «Z-Score») и три «вспомогательных» ячейки для хранения результатов функций «AVERAGE», «STDEV.S» и «STDEV.P». Столбец «Значения» содержит десять случайных чисел с центром в районе 500, а в столбце «Z-счет» мы рассчитаем Z-счет, используя результаты, сохраненные в ячейках «помощника».

Сначала мы вычислим среднее значение, используя функцию «СРЕДНИЙ». Выберите ячейку, в которой вы будете хранить результат функции «СРЕДНИЙ».

Введите следующую формулу и нажмите enter или используйте меню «Формулы».

Чтобы получить доступ к функции через меню «Формулы», выберите раскрывающийся список «Дополнительные функции», выберите «Статистические» и нажмите «СРЕДНИЙ».

В окне «Аргументы функции» выберите все ячейки в столбце «Значения» в качестве входных данных для поля «Номер1». Вам не нужно беспокоиться о поле «Number2».

Теперь нажмите «ОК».

Затем нам нужно рассчитать стандартное отклонение значений с помощью функции «STDEV.S» или «STDEV.P». В этом примере мы покажем вам, как рассчитать оба значения, начиная с «STDEV.S». Выберите ячейку, в которой будет сохранен результат.

Чтобы рассчитать стандартное отклонение с помощью функции «STDEV.S», введите эту формулу и нажмите Enter (или откройте ее через меню «Формулы»).

Чтобы получить доступ к функции через меню «Формулы», выберите раскрывающийся список «Дополнительные функции», выберите параметр «Статистические», прокрутите немного вниз и нажмите команду «STDEV.S».

В окне «Аргументы функции» выберите все ячейки в столбце «Значения» в качестве входных данных для поля «Номер1». Вам также не нужно беспокоиться о поле «Number2» здесь.

Теперь нажмите «ОК».

Далее мы рассчитаем стандартное отклонение с помощью функции «STDEV.P». Выберите ячейку, в которой будет сохранен результат.

Чтобы рассчитать стандартное отклонение с помощью функции «STDEV.P», введите эту формулу и нажмите Enter (или откройте ее через меню «Формулы»).

Чтобы получить доступ к функции через меню «Формулы», выберите раскрывающийся список «Дополнительные функции», выберите параметр «Статистические», немного прокрутите вниз и нажмите формулу «STDEV.P».

В окне «Аргументы функции» выберите все ячейки в столбце «Значения» в качестве входных данных для поля «Номер1». Опять же, вам не нужно беспокоиться о поле «Number2».

Теперь нажмите «ОК».

Теперь, когда мы вычислили среднее и стандартное отклонение наших данных, у нас есть все, что нам нужно для расчета Z-показателя. Мы можем использовать простую формулу, которая ссылается на ячейки, содержащие результаты функций «AVERAGE» и «STDEV.S» или «STDEV.P».

Выберите первую ячейку в столбце «Z-Score». Мы будем использовать результат функции «STDEV.S» для этого примера, но вы также можете использовать результат из «STDEV.P».

Введите следующую формулу и нажмите Enter:

В качестве альтернативы, вы можете использовать следующие шаги для ввода формулы вместо ввода:

Нажмите на ячейку F3 и введите = (
Выберите ячейку E3. (Вы можете нажать клавишу со стрелкой влево один раз или использовать мышь)
Введите знак минуса -
Выберите ячейку G3, затем нажмите F4 , чтобы добавить символы «$», чтобы сделать «абсолютную» ссылку на ячейку (она будет циклически повторяться через «G3»> « $ G $ 3 ″> «G $ 3 ″>« $ G3 ″> «G3», если вы продолжаете нажимать F4 )
Введите )/
Выберите ячейку H3 (или I3, если вы используете «STDEV.P») и нажмите F4 , чтобы добавить два символа «$».
нажмите Ввод

Z-счет был рассчитан для первого значения. Это 0,15945 стандартных отклонений ниже среднего. Чтобы проверить результаты, вы можете умножить стандартное отклонение на этот результат (6.271629 * -0.15945) и убедиться, что результат равен разнице между значением и средним (499-500). Оба результата равны, поэтому значение имеет смысл.

Давайте посчитаем Z-баллы остальных значений. Выделите весь столбец «Z-Score», начиная с ячейки, содержащей формулу.

Нажмите Ctrl + D, который копирует формулу в верхней ячейке вниз через все остальные выделенные ячейки.

Теперь формула «заполнена» для всех ячеек, и каждая из них всегда будет ссылаться на правильные ячейки «AVERAGE» и «STDEV.S» или «STDEV.P» из-за символов «$». Если вы получили ошибки, вернитесь и убедитесь, что символы «$» включены в формулу, которую вы ввели.

Вычисление Z-счета без использования ячеек «Помощник»

Вспомогательные ячейки хранят результат, например, те, которые хранят результаты функций «AVERAGE», «STDEV.S» и «STDEV.P». Они могут быть полезны, но не всегда необходимы. Вы можете вообще пропустить их при расчете Z-счета, используя вместо этого следующие обобщенные формулы.

Вот один из них, использующий функцию «STDEV.S»:

И тот, который использует функцию «STEV.P»:

При вводе диапазонов ячеек для «Значений» в функциях обязательно добавьте абсолютные ссылки («$» с использованием F4), чтобы при заполнении не вычислять среднее или стандартное отклонение другого диапазона клеток в каждой формуле.

Если у вас большой набор данных, может быть более эффективно использовать вспомогательные ячейки, поскольку он не рассчитывает результат функций «AVERAGE» и «STDEV.S» или «STDEV.P» каждый раз, экономя ресурсы процессора и ускорение времени, необходимого для расчета результатов.

Кроме того, «$ G $ 3» требует меньше байтов для хранения и меньше оперативной памяти для загрузки, чем «AVERAGE ($ E $ 3: $ E $ 12)». Это важно, потому что стандартная 32-разрядная версия Excel ограничена 2 ГБ ОЗУ (64-разрядная версия не имеет никаких ограничений на объем используемой ОЗУ).

Чем больше вы анализируете данные, тем лучше вы становитесь инженером данных.

Что такое нормальное отклонение Z-теста и как оно работает?

При проектировании данных вы всегда найдете экземпляр, в котором вам необходимо установить, является ли выборка данных, полученная из данных о населении, достаточно надежной, чтобы построить вокруг нее модель. Может быть случай, когда вы можете получить данные из старого архива, которые могут не отражать истинное поведение процесса, смоделированного вокруг него в производственной среде, с изменениями поведения времени и, таким образом, процесса, на котором была построена модель.

Поэтому, если мы пойдем дальше и построим нашу новую модель на основе таких старых выборочных данных, у нас может получиться ошибочный процесс, и модель не будет эффективной или полезной. Поэтому мы выполняем определенный логический статистический тест для обеспечения надежности данных. ,

Одним из таких испытаний является,Тест Нормального Отклонения Z,где мы тестируем наши выборочные данные, чтобы вывести, получены ли они из данных о совокупности, которые являются истинным представлением о поведении процесса в производственной среде, прежде чем мы начнем строить модель вокруг них.

Инференциальная статистика: понимание проверки гипотез с использованием критерия хи-квадрат

Что такое тест хи-квадрат и как он работает?

Я бы пригласил вас всех прочитать то же самое. Как и было обещано, сегодня мы рассмотрим больше методов статистического тестирования, которые используются при проверке гипотез логической статистики для установления достоверности выборочных данных. Итак, давайте начнем с понимания одного такого теста, называемого Z-тестом с нормальным отклонением, который мы подробно расскажем, продвигаясь в нашем путешествии.

Когда мы пытаемся установить надежность данных большого набора данных выборки (размер выборки> 30 является нормой) с помощью теста Z с нормальным отклонением, мы пытаемся сравнить два средства распределения данных, таких как данные выборки, в нашем научном проекте данных и производственных данных. ,

Z-тест сравнивает выборку и совокупность средств, чтобы определить, есть ли существенная разница. Предполагается, что статистика Z-теста имеет нормальное распределение, и параметры помех, такие как стандартное отклонение, должны быть известны, чтобы выполнить точный z-тест.

Как работает Normal Deviate Z test?

Мы поймем, как Z-тест функционирует в следующих шагах

Шаг 1: установление гипотезы:

Это первая вещь, которую инженеры данных должны заявить, прежде чем мы приступим к выполнению какого-либо статистического теста в выводной статистике.

H0 - Разница в средних значениях между выборочной переменной и средним значением популяции является статистическим отклонением.

Шаг 2: Расчет статистики Z-теста

Прежде чем рассчитать, вот необходимые

Предпосылки:Для того чтобы выполнить Z-тест для нормального распределения данных, необходимо выполнить следующие предварительные условия:

Количество образцов> = 30,
Среднее и стандартное отклонение населения должно быть известно

Z-критерий статистики Формула для расчета:

Мера Z рассчитывается как:

Где M - средняя выборка, подлежащая стандартизации, μ (mu) - средняя численность населения, а SE - стандартная ошибка среднего.

SE рассчитывается по приведенной ниже формуле:

Где s - стандартное отклонение населения, а n - размер выборки.

Standard_error - стандартное отклонение выборочного распределения средних (Central Limit Distribution)

Приведенная выше формула может выглядеть очень похоже на вычисление Z-оценки, так как как вычисление Z-оценки, так и Z Norm_dev являются примеромтест статистической значимости

Шаг 3: Анализ значения Z для интерпретации значения P

Как только мы получим значение Z, мы начнем вычислять значение p, на основании которого мы сможем принять или отклонить нулевую гипотезу.

Пример использования Python & Jupyter Notebook:

Итак, давайте попробуем понять приведенные выше шаги на практическом примере.

Установите дистрибутив Anaconda:

Перейдя по данной ссылкеанакондаЗагрузите последнюю версию для Python, основанную на вашей ОС. Это придет с предустановленным ноутбуком Jupyter и необходимыми пакетами Pythonпанд,SciPyи т.п.

Как только вы закончите установку, запустите вашу записную книжку Jupyter и напишите следующий код (скопируйте приведенный ниже код), чтобы начать.

Импортируйте необходимый пакет:

Давайте рассмотрим некоторые соответствующие пакеты Python, как показано ниже, и создадим фрейм данных, прочитав «Пим-индусы-diabetes.csvИсточникKaggle

Давайте посмотрим на фрейм данных, вызвав метод df.head (20) для просмотра ряда данных в данном примере набора данных.

Нулевая гипотеза:

Альтернативная гипотеза:

Как мы уже говорили о формуле Z статистики,

Z = (M - μ) / SE

Где Мозначатьстандартизированный образец, μ (mu) - среднее значение по населению, а SE - стандартная ошибка среднего.

Итак, давайте сделаем этот расчет в ноутбуке Jupyter:

Если вы введете вышеуказанный код в свой блокнот, вы сможете увидеть приведенный ниже вывод

Теперь, когда мы знаем значение Z-теста, давайте найдем наше значение p

Если вы запустите приведенный выше фрагмент кода в Jupyter, вы получите следующий результат:

Шаг 3: Анализ значения Z для интерпретации значения P

Как вы можете видеть выше,р-значениевыходит:1.150581011903455e-141. Поскольку значение р меньше принятого отраслевого стандарта 0,05,мы можем сделать вывод, что данная выборка не пришла из того же распределения населения, на котором был построен процесс. Существует значительная разница вСредствамежду образцом столбца АД и средним значением популяции, поэтому мы должны отвергнуть нулевую гипотезу H0 и принять альтернативную гипотезу: H1.

Поскольку мы отвергаем здесь нулевую гипотезу, используя нормальный тест Z отклонения, будет рекомендовано избегать построения любой модели ML на этих выборочных данных.

У начинающих / работающих инженеров данных должно быть четкое понимание значения p. Поскольку это будет основой для выполнения большей части статистической проверки достоверности данных. Итак, позвольте мне вкратце рассказать об основных вещах о том же самом здесь, и мы рассмотрим это более подробно в специальной статье, которую я расскажу только оЗначение Pдля вас всех.

Что такое значение P?

Значение p, или значение вероятности, говорит нам о вероятности получения значения, столь же маленького или такого же большого, как значение, наблюдаемое в выборке, учитывая, что наша нулевая гипотеза верна.

Сформируйте свою гипотезу
Предположим, что нулевая гипотеза верна
Рассчитать значение z или t для получения значения в альтернативной гипотезе
Из таблицы z / t найдите вероятность, связанную со значением z или t, полученным выше. Вы также можете найти значение p с помощью встроенных методов Scipy, которые вам просто необходимы для передачи статистики z, t, рассчитанной на шаге 3.
Это значение p, которое вам нужно найти

Мы рассмотрим вычисления значения P, как интерпретировать его и его случаи использования отдельно позже. Кроме того, вы также испытаете это, пока мы рассмотрим все типы проверки гипотез в нашем путешествиипонимание логической статистики,

В нашей следующей статье:«Логическая статистика: проверка гипотез с использованием T-теста».Мы подробно рассмотрим Т-тест,

Я хотел бы оставить вас всех, освещая некоторые основы T-теста.

Что такое Т-тест?

T-критерий - это вид логической статистики, используемой для определения существенной разницы между средствами двух заданных групп, которые могут быть связаны по определенным признакам.

T-критерий проверяет t-статистику, значения t-распределения и степени свободы для определения вероятности различия между двумя наборами данных.

Типы испытаний T:

Есть три типаT-тест:

T-тест для одного образца:

Используется для сравнения выборочного среднего значения с известным средним значением популяции или каким-либо другим значимым фиксированным значением

Независимые образцы t-теста:

Используется для сравнения двух средств из независимых групп

T-тест парных образцов:

Используется для сравнения двух средств, которые являются повторными измерениями для одних и тех же участников - оценки могут повторяться по разным показателям или по времени.
Используется также для сравнения парных выборок, как в рандомизированном блочном дизайне с двумя обработками.

Мы расскажем, как мы выполняем приведенный выше T-тест, используя примеры и практические лабораторные упражнения.

См. Ниже приведенные графики, которые охватывают дерево принятия решений, чтобы помочь вам выбрать правильный тип проверки гипотез на основе данной постановки задачи.

Как решить, какой тест использовать и когда?

Никогда не полагайтесь на простые наблюдения или предположения, пока вы пытаетесь построить модель на основе данного образца. Убедитесь, что вы измеряете тип распределения, тестируете выборку данных, используя статистическую проверку гипотез, чтобы убедиться, что данные выборки надежны. Описательные статистические и логические статистические методы предназначены для того, чтобы помочь вам принимать лучшие решения при выборке данных до моделирования в машинном обучении.

Поскольку очистка данных, EDA, заполнит большую часть вашей трудовой деятельности в качестве ученого, крайне важно, чтобы вы взяли на себя ответственность за обработку данных с предельной ясностью и тщательность, чтобы проверить их надежность. Вы будете влиять на динамику рынка в более широком смысле, поскольку ваша модель будет принимать действительно важные бизнес-решения.

Я чувствую :

Неправильная интерпретация данных при построении моделей ML может стоить дорого. Так что не просто создавать модели ради построения, убедитесь, что они снабжены правильным видом пищи с точки зрения данных. Ваша правильная привычка подачи данных будет творить чудеса, когда ваша машина будет делать интеллектуальные и точные прогнозы и рекомендации на основе ML для вашего бизнеса. Все в экосистеме получат выгоду от правильного процесса построения модели, если он будет сделан правильно.

Читайте также: