В этом и последующих уроках мы будем работать со статистическими данными. Эти данные будем рассматривать как два вектора одинаковой длины, один из которых включает в себя независимые переменные, а второй — зависимые.
Выше находятся три вектора, каждый из которых включает в себя 1000 элементов. Отображены только первые несколько элементов. Чтобы просмотреть другие элементы, следует щелкнуть по трем точкам внизу столбца чисел, чтобы появился ползунок — квадрат на серой линии:
Первый вектор включает в себя независимую переменную. Вектор X содержит действительные числа, Y — нули и единицы — категории, которые служат для обозначения да/нет, орел/решка и т.п. Эти данные сгенерированы в Mathcad. Как это сделано, мы рассмотрим в конце урока.
Категории и действительные числа в статистике рассматриваются по-разному. Однако, в некоторых случаях такое разделение не совсем ясно — данные можно отнести к любой из двух групп.
Данные выше составляют генеральную совокупность из 1000 точек. В какой-то момент мы рассматривает выборку из этой генеральной совокупности. Часто мы хотим получить представление о свойствах генеральной совокупности, изучая выборку.
Описание данных
Рассмотрим сначала действительные числа. В первую очередь, для описания набора данных используются параметры:
(а) среднее арифметическое X_;
(б) среднеквадратическое (стандартное) отклонение S.
Среднее арифметическое показывает, где находится центр распределения, а среднеквадратическое отклонение (сокращенно СКО) — ширину распределения. Иногда используются и другие параметры, такие как медиана и эксцесс. Эти параметры можно найти в меню Функции -> Статистические:
Среднее арифметическое зависимой переменной X:
СКО переменной X:
Функция в Mathcad:
(В статистике среднее арифметическое обычно обозначается буквой с черточкой над ней. В Mathcadтакая черточка используется с другой целью, поэтому для обозначения среднего арифметического мы используем нижнее подчеркивание.)
Теперь рассмотрим выборку — только первые десять элементов. Условимся обозначать генеральную совокупность заглавной буквой, а выборку — маленькой:
Среднее арифметическое и СКО выборки можно использовать оценки этих же величин для генеральной совокупности:
Здесь у нас в выборке участвуют 10 элементов — такое число часто принимается за минимум выборки. Немного лучшую оценку СКО дает величина:
Здесь мы делили на (n-1) вместо n. Встроенная функция Mathcad:
Ниже находятся два графика, которые показывают некоторые характеристики распределения. Первый — это график в декартовых координатах, известный как диаграмма рассеяния. Он показывает точки данных и границы 2?:
Правило двух сигма в статистике гласит, что для нормального распределения 5% данных будут лежать вне границ 2? от среднего арифметического.
Второй график — гистограмма. Она показывает число точек данных, попавших в различные интервалы. Как его построить, мы обсудим в дальнейшем:
Различные наборы данных можно получить, нажав [Ctrl+F5]. Это займет время, поскольку пересчитывается весь документ.
Теперь рассмотрим данные категорий. Предположим, что мы рассматриваем результат подбрасывания монеты: «1» — орел, «0» — решка. Из нашего набора данных мы можем получить вероятность выпадения орла. Следует внимательно применять арифметические операции к данным категорий, но в нашем выборе между «0» и «1» мы можем легко получить долю единиц, найдя среднее арифметическое вектора Y:
Это вероятность выпадения орла. Заметьте, что считать нужно от 0 до (N-1), чтобы учесть N точек.
Для небольшой выборки ее среднее арифметическое может существенно отличаться от среднего совокупности:
Вы можете получать различные наборы данных в выборке каждый раз, нажимая [Ctrl+F5]. Попробуйте сделать это несколько раз. Для «0» и «1» нужна выборка, по крайней мере, из 30 точек, чтобы получить примерное представление о вероятности. Для надежных результатов при рассмотрении категорий нужны большие выборки — часто это тысячи точек.
Случайные числа
Данные выше были получены с использованием генераторов случайных чисел Mathcad. Они находятся в меню Функции -> Все функции -> Случайные числа. Наиболее важные из них — это равномерное и нормальное распределение.
Равномерное распределение
Случайное число между 0 и x можно получить с помощью функции:
Здесь нажатие [Ctrl+F5] также даст новое значение. Чтобы получить набор случайных чисел, нужно задать диапазон:
На диаграмме рассеяния видно, что распределение действительно равномерное:
Проверим это еще раз с помощью гистограммы:
Выходными значениями функции гистограммы являются два вектора-столбца. Столбец «0» содержит центры интервалов, а столбец «1» — число элементов в каждом интервале:
При построении графика используйте тип «Столбцы»:
Получается равномерное распределение, как и ожидалось.
Нормальное распределение
Случайные числа с нормальным распределением генерирует функция rnorm(). Она содержит три параметра: число точек, среднее арифметическое и СКО. Создадим набор большого числа точек:
Построим гистограмму с 30 интервалами:
Такой колоколообразный график соответствует нормальному распределению.
Резюме
- Данные включают в себя набор векторов одинаковой длины. Первый вектор — независимая переменная, второй (третий, четвертый,…) — может быть переменной категорий, или включать в себя действительные числа. Полный набор данных формирует генеральную совокупность. Любая ее часть называется выборкой.
- Поведение данных можно описать с помощью среднего арифметического и среднеквадратического отклонения. (Для категорий можно определить лишь вероятность.) В Mathcad есть функции mean() и stdev() для их вычисления. Чтобы оценить стандартное отклонение генеральной совокупности по выборке, используйте Stdev().
- Обычно одна из двадцати точек выходит за пределы границ, отстоящих по обе стороны от среднего арифметического на 2?. Это можно проверить по диаграмме рассеяния или по гистограмме. Гистограмма формируется с помощью функции histogram(intervals,x), выходом которой является матрица с двумя столбцами: столбец «0» содержит данные для оси Xграфика, столбец «1» — для оси Y. Извлечь эти столбцы по отдельности можно с помощью команды Матрицы и таблицы -> Операции с векторами/матрицами.
- Мы рассмотрели два генератора случайных чисел Mathcad. Функция rnd(3) дает случайное значение с равномерным распределением в промежутке 0<x<3. Функция rnorm(x,X_,S) дает случайное значение с нормальным распределением со средним X_ и СКО S. Генератор случайных чисел дает новые значения каждый раз при пересчете [Ctrl+F5].
No comments yet.