banner banner banner
Статистический анализ взаимосвязи. Учебное пособие
Статистический анализ взаимосвязи. Учебное пособие
Оценить:
Рейтинг: 0

Полная версия:

Статистический анализ взаимосвязи. Учебное пособие

скачать книгу бесплатно


= – 7

a

= 0,002

s = 200

Коэффициент при случайной составляющей E обозначим буквой S, поскольку он определяет значение «сигмы».

Чтобы сделать зарисовку параболы, нужно определить два основных момента.

Вначале определим знак старшего коэффициента при второй степени фактора a

. Если коэффициент a

положителен, то ветви параболы напрaвлены вверх. И наоборот.

В нулевом варианте старший коэффициент равен

a

= 0,002.

Коэффициент положительный, следовательно ветви параболы смотрят вверх.

Затем определим положение вершины параболы.

Вершина параболы

Докажите справедливость формул для нахождения координат вершины параболы, приравняв первую производную функции к нулю. Затем подставьте полученное значение х

в уравнение параболы и упростите выражение.

Подставляем наши коэффициенты и находим координаты вершины – см. формулы.

Координаты вершины

Далее определим значения функции на границах диапазона значений – см. формулы.

Крайние значения

И наконец добавляем границы случайного разброса по «правилу трёх сигм». Сигма в нулевом варианте равна 200, соответственно, три сигмы равно 600. Добавляем и отнимаем 600 в каждой из трёх точек – см. формулы.

Делаем зарисовку и вставляем в отчёт, как описано в предыдущем выпуске. Цель этого упражнения – представить общую форму графика, а не демонстрировать художественный талант или способности к черчению.

Зарисовка

Исходные данные

Сгенерируем исходные данные – значения двух переменных x и y – в соответствии c вариантом задания. В качестве примера разбираем нулевой вариант. Используем функцию

Random Number Generation

Генерация случайных чисел

надстройки

Data Analysis

Анализ данных.

Подробности использования генератора мы уже описали в предыдущей работе. Числа округляем до целых.

Создаём столбец случайных чисел X.

Распределение – Равномерное

Левая и правая границы – 1000 и 2000.

Начальное состояние – 1234. Можно взять любые другие числа, но их нужно зафиксировать в отчёте, чтобы не использовать второй раз.

Настройки генератора

Полученные значения X округляем до целых и записываем в другой столбец. Для округления используем функцию

ROUND (number, num_digits)

ОКРУГЛ (число; число разрядов).

Обратим внимание, что в английской версии аргументы функции разделяют ЗАПЯТОЙ, а в русской – ТОЧКОЙ С ЗАПЯТОЙ. Причина в том, что в английской версии десятичный разделитель целой и дробной частей – точка, а в русской – запятая.

Пример результата генерации данных и округления можно видеть на рисунке ниже. В дальнейшей работе используются именно округлённые значения X и Y.

Сгенерированные данные

Вспомогательная случайная составляющая E поможет нам сформировать случайный разброс вокруг линии. Она имеет нормальное распределение с нулевым математическим ожиданием и единичным стандартным отклонением. Значения E следует сгенерировать в отдельном столбце с ДРУГИМ начальным состоянием генератора.

Программный генератор случайных чисел на самом деле создаёт ПСЕВДОСЛУЧАЙНЫЕ числа. Другими словами, они только кажутся случайными. Если задавать одно и то же начальное состояние генератора, мы получим одну и ту же последовательность «случайных» чисел.

Проведём опыт и убедимся, к чему приводят одинаковые настройки генератора. Сгенерируем столбцы Х и Е с одинаковым начальным состоянием генератора: 1234. Результат – на рисунке слева. Теперь сгенерируем Х и Е с настройками 1234 и 5678. Результат показан справа.

Влияние начального состояния

На левом графике можно видеть явную связь (точную функциональную зависимость) между случайными числами Х и Е – при одинаковой настройке генератора: 1234 и 1234. На этом графике просматривается кривая нормального распределения. Она используется для создания случайного числа с заданным распределением. Разные настройки 1234 и 5678 дают действительно независимые случайные числа. Учтём на будущее.

Выделим два столбца с готовыми данными – с заголовками. Вставим данные на новый лист. Выберем режим вставки значений из буфера обмена.

Вставка значений

При выборе режима вставки из буфера можно сразу увидеть результат на экране. Нажимаем кнопку

Values

Значения.

После вставки получаем числа вместо формул в ячейках таблицы. Теперь никакие наши действия не приведут к обновлению и изменению данных.

Диаграмма разброса

Пришло время посмотреть на график наших исходных данных. На диаграмме разброса каждая пара чисел Х и Y изображается отдельной точкой. Точки на графике НЕ СОЕДИНЯЮТ линиями. В примере «Рост – Вес» нет никакой связи между параметрами соседей по парте. Поэтому каждый человек – это отдельная точка на графике.

Выделяем два столбца с округлёнными значениями X и Y. Выбираем в меню:

Insert – Charts – Insert Scatter (X, Y) or Bubble Chart – Scatter – Scatter

Вставка – Диаграммы – Вставить точечную (X, Y) или пузырьковую диаграмму – Точечная – Точечная.

Вставка диаграммы разброса

По умолчанию диаграмма разброса выглядит не слишком привлекательно – см. график. Настроим оформление графика.

Диаграмма разброса по умолчанию

Настроим масштаб по осям, чтобы диаграмма заполняла всё поле графика. Дважды щёлкнем по горизонтальной оси. В диалоговом окне

Format Axis

Формат оси

выбираем раздел

Axis Options

Параметры оси.

Устанавливаем пределы по горизонтальной оси от 1000 до 2000.

Масштаб по оси

Щёлкнем по вертикальной оси и выберем такие значения, чтобы диаграмма разброса занимала всё место на графике.

Теперь настроим заголовки. Щёлкнем по графику и нажмём на кнопку

Chart Elements

Элементы диаграммы.

Это квадратная кнопка с символом ПЛЮС справа вверху.

Элементы графика

Отмечаем пункт

Axis Titles

Названия осей.

Заголовки осей

Отредактируем заголовки и укажем, где находятся наши «иксы» и «игреки». Для дальнейшего украшения развернём заголовок вертикальной оси на 45 градусов. Щёлкнем по заголовку вертикальной оси и выберем в меню:

Format Axis Title – Text Options – TextBox – Text Box – Text direction – Horizontal

Формат названия оси – Параметры текста – Надпись – Надпись – Направление текста – Горизонтально.

Далее установим чёрный цвет для точек-маркеров. Щёлкнем по маркерам и установим в меню чёрный цвет:

Format Data Series – Series Options – Fill & Line – Marker – Marker Options – Fill – Solid fill – Color – Black

Формат ряда данных – Параметры ряда – Заливка и границы – Маркер – Параметры маркера – Заливка – Сплошная заливка – Цвет – Чёрный.

Здесь же отключим обрамление маркеров:

Format Data Series – Series Options – Fill & Line – Marker – Marker Options – Border – No line

Формат ряда данных – Параметры ряда – Заливка и границы – Маркер – Параметры маркера – Граница – Нет линий.

После настроек диаграмма разброса должна выглядеть следующим образом – см. рисунок.

Оформленная диаграмма

Корреляционный анализ

Корреляционный анализ позволяет исследовать тесноту связи, то есть степень разброса точек вокруг линии. Чем ближе точки к линии регрессии, тем лучше ТЕСНОТА СВЯЗИ. Имеется в виду линия, которую МОЖНО построить в среднем по этом точкам. На самом деле при анализе взаимосвязи перед нами находятся только точки, а линии пока ещё НЕТ.

Теснота линейной связи оценивается с помощью КОЭФФИЦИЕНТА ЛИНЕЙНОЙ КОРРЕЛЯЦИИ r. Здесь говорится именно о ЛИНЕЙНОЙ связи и анализируется разброс вокруг будущей, возможной ПРЯМОЙ линии. Другими словами, мы выясняем, есть ли смысл в построении прямой линии в среднем по нашим точкам.

Коэффициент корреляции принимает значения от —1 до +1 включительно.

Знак коэффициента указывает на НАПРАВЛЕНИЕ связи – прямую или обратную связь. Положительная корреляция означает, что с увеличением фактора в среднем возрастает результативный признак. Это прямая связь. Отрицательная корреляция – это обратное направление связи, то есть снижение, убывание, падение графика. С увеличением фактора убывает результат.

Величина (модуль, абсолютное значение) коэффициента характеризует ТЕСНОТУ линейной связи. Чем ближе значение к единице, тем меньше разброс, тем ближе точки к прямой линии. Чем ближе коэффициент к нулю, тем сильнее разброс вокруг прямой. Традиционное толкование величины коэффициента корреляции приводится в таблице.

Возможна и другая ситуация – НЕЛИНЕЙНАЯ зависимость, которая тоже представляет собой отсутствие линейной связи. Нелинейной зависимостью является всё, что не является линейным, например, кривая или ломаная линия. В этом случае коэффициент линейной корреляции будет близок к нулю. Но при этом точки могут быть очень тесно расположены вокруг кривой или ломаной линии. Для анализа степени нелинейной связи используют другие коэффициенты корреляции. В данной работе мы ограничимся только анализом тесноты линейной зависимости.

Как и во многих других случаях, для вычисления коэффициента корреляции в Excel имеются несколько способов:

– надстройка;