Top menu

Урок 15. Проверка данных в Mathcad

Есть данные о двух процедурах лечения пациентов:

mathcad15_01

Нужно использовать эти данные, чтобы определить какая из этих процедур играет большую роль. Можно ли сказать, что процедура A лучше, чем процедура B? У процедуры A выше средний показатель и лучше воспроизводимость, чем в методике B? Сложность заключается в том, что в данных присутствуют статистические флуктуации, и нельзя быть уверенным в найденных значениях. Проверки статистических данных помогут решить этот вопрос. Сначала обратим внимание на поведение выборок.

Поведение выборок

График ниже показывает распределение генеральной совокупности со средним X_ и среднеквадратическим отклонением S. Обычно мы не знаем этих значений, мы можем лишь оценить их по значениям среднего x_ и СКО s выборке. Если выборка достаточно большая и репрезентативная, можно ожидать, что:

mathcad15_02

Вопрос состоит в том, насколько большую разницу между X_ и x_ можно ожидать. Чтобы определить ее, нужно посмотреть на распределение средних значений большого числа выборок. Это нормальное распределение с математическим ожиданием и дисперсией:

mathcad15_03

Последнее равенство приблизительное. Дисперсия S называется ошибкой выборки. Чем больше размер выборки n, тем меньше ошибка.

Распределение выборки будет сходно с распределением генеральной совокупности, но не точно таким же. Средние значения выборок будут иметь более узкие распределения, их среднее X’_ должно быть таким же, как у генеральной совокупности.

mathcad15_04_2

Стандартное отклонение часто определяется экспериментально с помощью измерительного оборудования, и нужно иметь возможность включать данные из других выборок для получения более точной оценки.

Ожидается, что среднее значение генеральной совокупности должно быть расположено в интервале около среднего значения выборки:

mathcad15_05

Если z=2, среднее значение генеральной совокупности будет лежать внутри интервала в 95% случаев. Ширина этого доверительного интервала зависит от ?доверительной вероятности.

mathcad15_06

Мы можем уменьшить этот интервал, уменьшая доверительную вероятность. Мы можем также уменьшить интервал, уменьшая ошибку выборки. Это можно сделать, увеличивая размер выборки или улучшая методику измерения для уменьшения s. Можно ожидать хороших доверительных оценок, если только данные удовлетворяют двум требованиям:

  1. Данные должны быть репрезентативной.
  2. Выборка должна быть большой.

Первое требование достаточно трудно достижимо на практике, поэтому неопределенность в результате часто высока.

Выбор размера выборки

Чтобы определить, насколько большой должна быть выборка, мы предполагаем, что мы знаем среднее значение X_ и СКО генеральной совокупности. Мы хотим ограничить ошибку выборки значением:

mathcad15_07

Если СКО генеральной совокупности уже меньше, чем желаемое значение ошибки выборки, то нужно лишь одно наблюдение:

mathcad15_08

В других случаях мы можем уменьшить ошибку выборки, проводя больше наблюдений:

mathcad15_09

Для примера возьмем:

mathcad15_10

Проведя 25 наблюдений, мы уменьшим ошибку выборки на 5. (Часто минимальное количество в выборке задается n=30.)

Заявка на патент

Каков доверительный интервал в выборках заявки на патент? Ошибки выборки равны:

mathcad15_11

Мы построили графики интервалов 95%. Они сильно перекрываются – разница не достаточно велика, чтобы одобрить патент…

mathcad15_12

Эта кривая погрешности использует в качестве легенды по осям x и y две матрицы:

mathcad15_13

Первая содержит две строковых переменных, вторая – границы интервалов.

Оценка при работе с категориями

Хотя уравнения для категорий схожи с уравнениями для чисел, два из них отличаются существенно.

Побочный эффект лекарства

Чтобы проиллюстрировать статистические расчеты при работе с категориями, мы посмотрим на побочный эффект лекарства. При испытаниях 26 из 374 пациентов (7%) чувствовали себя плохо, вместе с 4 из 410 (1%), которым давали плацебо:

mathcad15_14

Вопрос: это случайность, или необходимо заключить, что пациенты чувствуют себя плохо из-за лекарства?

Свойства выборок категорий

С данными категорий мы также обычно не знаем среднее значение вероятности и СКО генеральной совокупности, но мы можем оценить их по выборке. Параметры выборки:

mathcad15_15

СКО малой вероятности больше, чем сама вероятность. Это отличие от свойств чисел, где СКО обычно меньше в сравнении со средним. Ошибка выборки определяется также, как и для чисел:

mathcad15_16

Для уменьшения ошибки необходимо увеличивать число n. Относительная ошибка уменьшается в fраз:

mathcad15_17

Мы можем вывести уравнение для поиска необходимого числа наблюдений в выборке:

mathcad15_18

Например, если мы хотим уменьшить ошибку в 5 раз, мы находим для вероятности 0,1:

mathcad15_19

Если p близка к 0 или к 1, нужна большая выборка – часто это число достигает 1000. Мы ожидаем, что среднее значение вероятности генеральной совокупности лежит в интервале:

mathcad15_20

Для лекарства мы находим:

mathcad15_21

График погрешности показывает, что 95%-ные доверительные интервалы двух наборов данных не перекрываются – эти наборы данных совершенно различны. Значит, нужно заключить, что лекарство заставляет чувствовать себя плохо 10% больных.

mathcad15_22

Формальные проверки

Проверки можно провести более формально. Идея состоит в том, чтобы выявить, есть ли основания полагать, что есть разница между двумя наборами данных. В таблице ниже приведены уравнения для четырех тестов. Чтобы использовать уравнения для проверки, нужно заранее выбрать значение z.

mathcad15_23

Пример: заявка на патент

В примере с заявкой на патент мы приняли во внимание разницу между средними значениями двух выборок. Данные:

mathcad15_24

При z=2:

mathcad15_25

Это выражение истинно, поэтому мы не можем различить эти две выборки.

Пример: лекарство

В примере с лекарством данные:

mathcad15_26

При z=2:

mathcad15_27

Выражение ложно, поэтому:

mathcad15_28

Выбор z

При формальном испытании решающее значение имеет выбор величины z. Она определяет, в какой точке утверждение меняется от ложного до истинного.

Мы уже видели: малое z -> малая доверительная вероятность; большое z -> широкий доверительный интервал.

Доверительная вероятность 95% является хорошим компромиссом и часто используется в статистике. Однако, Вы не ограничены этим значением.

В зависимости от Вашей проблемы, Вы можете хотеть избежать различных участков распределения. Это зависит от того, какое значение z Вы выберите. Мы проиллюстрируем это на примере трех компонентов фармацевтического препарата. Красным выделены нежелаемые области.

mathcad15_29_2

Мы покажем расчет границ на рисунках выше, используя нормальное распределение и так называемое распределение Стьюдента. Распределение Стьюдента похоже на нормальное, но оно лучше для малых выборок. Используемые параметры:

mathcad15_30

mathcad15_31

Резюме

  1. Мы разделили три вида средних и СКО:
  • генеральной совокупности X_, S;
  • выборки x_, s;
  • среднего многих выборок X’_=x_, S=s/?n.

Последняя величина называется ошибкой выборки.

  1. Мы обычно оцениваем среднее и СКО генеральной совокупности по выборке. Ошибка выборки есть неопределенность в оценке среднего генеральной совокупности.
  2. Величина z=(xX_)/S.

При z=2 можно ожидать, что 95% всех возможных средних значений выборок попадут в 95%-ный доверительный интервал:

mathcad15_32

  1. Выборки по данным категорий дают вероятность pи СКО s=?(p*(1-p)).
  2. Для более точной оценки параметров данных категории необходимы большие выборки, особенно если одна из вероятностей категорий мала.
  3. Простым путем проверки, есть ли разница между двумя наборами данных, является построение графика и сравнение их доверительных интервалов. Если они сильно перекрываются, разница не велика.
  4. Формальные методы проверки позволяют определить, случайна или нет разница между выборками:

mathcad15_33

Используемая ошибка выборки является комбинацией двух ошибок. Этот метод требует определения, какие значения z нужно включить, а какие исключить.