скачать книгу бесплатно
Статистический анализ взаимосвязи. Учебное пособие
Валентин Юльевич Арьков
Рассматриваются такие инструменты статистического анализа взаимосвязи, как корреляционный и регрессионный анализ. Техника работы в электронных таблицах изучается на примере смоделированных данных. Затем полученные навыки применяются к анализу реальных данных по ценам в интернет-магазине и биржевым котировкам.
Статистический анализ взаимосвязи
Учебное пособие
Валентин Юльевич Арьков
© Валентин Юльевич Арьков, 2020
ISBN 978-5-0050-4525-6
Создано в интеллектуальной издательской системе Ridero
Предисловие
Предлагаемое учебное пособие позволяет освоить базовые методы исследования взаимосвязей в пакете Microsoft Excel. Все действия описаны подробно, шаг за шагом, с примерами и комментариями. Попутно можно улучшить навыки работы в Excel, что само по себе уже полезно как элемент современной компьютерной грамотности.
Данное учебное пособие представляет собой второй выпуск серии «Бизнес-аналитика и статистика в Excel». При выполнении работы советуем использовать знания и навыки, полученные при изучении первого выпуска под названием «Анализ распределения в Excel». Рекомендуем изучать материал последовательно – и в рамках данной работы, и в рамках данной серии.
Мы будем использовать простые условные обозначения и названия:
– жирный шрифт – названия функций и пунктов меню;
– ЗАГЛАВНЫЕ БУКВЫ – выделение основных терминов и ключевых данных;
– КНОПКИ – кнопки на экране компьютера;
– КЛАВИШИ – клавиши на клавиатуре компьютера.
В тексте описана работа в текущей англоязычной версии Microsoft Excel из пакета Microsoft Office 365. Далее будем называть этот программный продукт просто Excel. При указании функций и пунктов меню мы будем давать оба варианта – на английском и на русском языке. На рисунках будем давать примеры англоязычного интерфейса.
Введение
Взаимосвязи между явлениями бывают самые разные. В данном выпуске мы будем рассматривать самый популярный вид взаимосвязи между случайными величинами, когда текущее значение одной случайной величины Y В СРЕДНЕМ определяется значением другой случайной величины X. Вокруг этого предсказуемого среднего имеется случайный непредсказуемый разброс. Лучше всего, если этот разброс постоянного размаха, то есть «сигма» разброса не меняется. Это так называемая КОРРЕЛЯЦИОННАЯ ЗАВИСИМОСТЬ.
Эта две случайные величины называют по-разному:
X – факторный признак, фактор, независимая переменная, independent variable;
Y – результативный признак, результат, зависимая переменная, dependent variable.
На графике «иксы» откладывают по горизонтальной оси, а «игреки» – по вертикальной. В математике принято откладывать аргумент функции по оси X, а значение функции – по оси Y. В данном случае мы поступаем точно так же. Это намекает, что Y зависит от Х. Например, люди высокого роста в среднем весят больше. Поэтому рост можно будет обозначить через X, а вес – через Y.
Корреляционная зависимость изучается с помощью методов КОРРЕЛЯЦИОННОГО И РЕГРЕССИОННОГО АНАЛИЗА. Кроме того, здесь мы снова проведём СВОДКУ И ГРУППИРОВКУ ДАННЫХ, но не для изучения распределения, а для анализа взаимосвязи.
Отчёт о работе оформляется по общим правилам, которые мы уже описали в первом выпуске серии и которые (как мы надеемся) уже удалось освоить в процессе выполнения заданий. Поэтому повторять рекомендации не будем, а сразу займёмся делом.
Общие сведения
В данной работе мы будем исследовать взаимосвязь между случайными величинами статистическими методами.
Мы познакомимся с одним из самых известных видов взаимосвязи под названием КОРРЕЛЯЦИОННАЯ ЗАВИСИМОСТЬ, или просто КОРРЕЛЯЦИЯ. Можно сказать, что это «зависимость в среднем». Пример показан на рисунке ниже.
Корреляционная зависимость
На нашем рисунке видно, что с увеличением «икса» В СРЕДНЕМ увеличивается «игрек». Можно сказать, что здесь просматривается линия и разброс точек вокруг этой воображаемой линии. В этом случае говорят, что между «иксом» и «игреком» есть КОРРЕЛЯЦИЯ, или корреляционная зависимость, или корреляционная взаимосвязь.
Изображение того, как разбросаны точки по графику, называют по-разному:
– корреляционное поле;
– поле корреляции;
– диаграмма разброса;
– диаграмма рассеяния;
– «точечная диаграммма»;
– scatter plot.
Далее мы будем использовать название ДИАГРАММА РАЗБРОСА.
Корреляционная зависимость встречается в жизни. Вот некоторые примеры такой зависимости «в среднем»:
– рост и вес человека;
– площадь квартиры и её цена;
– уровень доходов и продолжительность жизни;
– доходы и расходы домашнего хозяйства;
– длина поездки и расход бензина;
– посещаемость занятий и оценка на экзамене.
Если рассматривать картину в целом, то здесь будет какая-то общая тенденция (прямая или кривая линия), а в каждом конкретном случае к ней добавляется случайный разброс, непредсказуемость, погрешность. По реальным данным можно оценить наличие (силу, степень, тесноту) взаимосвязи и даже построить уравнение такой зависимости. Такое уравнение даст нам только ориентир, среднюю картину и позволит делать приблизительные прогнозы.
Мы будем строить модель в виде одного уравнения, в котором есть один факторный признак и один результативный. Такая модель называется ПАРНАЯ РЕГРЕССИЯ. Это означает, что у нас рассматривается ПАРА случайных величин, то есть в уравнении участвуют ДВЕ переменные.
Как и в предыдущей работе, вначале мы смоделируем исходные данные и познакомимся со статистическими методами. Затем мы возьмём реальные данные и применим к ним эти изученные технологии. Моделирование даёт идеальные, «красивые» данные, по которым можно начать обучение. Реальные данные всегда «угловатые», «шершавые», «некрасивые», неидеальные. Но это жизнь, и именно с реальными данными приходится иметь дело исследователям, инженерам, программистам, экономистам.
Модели описывают реальную жизнь очень приблизительно, но даже такое приближённое описание может быть полезно при решении реальных задач на производстве и в бизнесе. Слово ПРИБЛИЖЁННОЕ указывает, что есть некоторая погрешность и что наша модель, наше уравнение ПРИБЛИЖАЕТСЯ к реальной жизни. То есть близко, но не точно. И это уже лучше, чем полная неизвестность и неопределённость. А полной, абсолютной точности никогда не бывает. Даже на рынке можно поторговаться, и цена изменится, причём у разных покупателей получится по-разному. Так что, выходя из дома за покупками, человек только очень приблизительно может оценить предстоящие расходы.
Варианты задания
Варианты заданий представлены в таблице ниже. Здесь мы используем следующие условные обозначения.
X – факторный признак, или фактор, или независимая переменная. Мы моделируем Х как случайную величину с РАВНОМЕРНЫМ РАСПРЕДЕЛЕНИЕМ в указанном диапазоне.
E – случайная составляющая. Будем моделировать Е как случайную величину со СТАНДАРТНЫМ НОРМАЛЬНЫМ РАСПРЕДЕЛЕНИЕМ, то есть с нулевым средним и единичной дисперсией.
Y – результативный признак, или результат, или зависимая переменная. При моделировании мы вычисляем Y по формуле, в которой участвуют фактор X и случайность E. Коэффициент при случайной составляющей определяет её СИГМУ (стандартное отклонение) и, соответственно, разброс вокруг среднего.
n – объём выборки. Это количество изучаемых объектов (статистических единиц), например, людей, квартир или жёстких дисков. У каждого объекта будут свои значения X и Y. Например, у каждого человека будет своя пара значений: роста и вес. Можно сказать, что в нашем случае объём выборки – это число строк в таблице с данными, или число записей в базе данных, или КОЛИЧЕСТВО ПАР случайных чисел {X, Y}. Для каждого объекта будет своя пара чисел Х и Y. В нашей работе объём выборки равен 200 для всех вариантов.
Оформление отчёта подробно описано в предыдущем выпуске серии. Создадим новую рабочую книгу. Сохраним отчёт в файле с коротким информативным названием. Сделаем титульный лист отчёта и заготовку оглавления.
В данной работе мы будем вначале рассматривать линейную функцию, а затем нелинейную. Соответственно, у нас имеется две таблицы с вариантами заданий.
Выберем свой вариант задания и опишем его на новом листе отчёта.
Зарисовка линейной функции
Вначале надо представить себе, что представляют собой наши данные, как будет выглядеть график. Для этого сделаем зарисовку на бумаге – как в предыдущей работе.
Нам предстоит изобразить расположение нашей линии и форму диаграммы разброса – в самых общих чертах.
Зарисовка диаграммы разброса
Изобразим оси координат и займём нужное место на листе бумаги.
Масштаб на графике необязательно должен начинаться от нуля. Главное, чтобы диаграмма разброса занимала всё поле графика. Метки на осях – «красивые», круглые числа.
В нулевом варианте задания X изменяется в пределах от 1000 до 2000. По оси «икс» указываем крайние значения 1000 и 2000 в начале и конце оси.
Теперь оценим диапазон значений Y. Берём формулу для Y, пока без учёта случайности Е:
Y = 1400 +0,065 · X
Подставляем крайние значения X:
Y (1000) = 1400 +0,065 · 1000 = 2050
Y (2000) = 1400 +0,065 · 2000 = 2700
Выбираем масштаб по оси «игрек» от 2000 до 3000.
Получаем 2 точки, через них проводим прямую линию.
Добавим разброс вокруг линии. Для этого используем ПРАВИЛО ТРЁХ СИГМ: почти все значения случайной величины находятся в диапазоне «среднее плюс-минус три сигмы». Когда мы строим разброс вокруг линии, в роли среднего значения будет точка на линии.
В нулевом варианте случайный разброс равен 50 · Е. Случайная составляющая Е имеет единичную дисперсию. Сигма Е тоже будет равна единице, потому что сигма – это квадратный корень из дисперсии. Если умножить случайную величину Е на 50, то её сигма тоже увечивается в 50 раз. Стало быть, сигма равна 50, а три сигмы равно
3 · 50 = 150.
Вокруг первой и последней точек на графике строим разброс «плюс-минус три сигмы».
2050 – 150 = 1900
2050 +150 = 2200
2700 – 150 = 2550
2700 +150 = 2850
Проводим пунктиром две параллельные линии. Это будут границы случайного разброса.
Заполняем эту «полосу» точками – случайным образом.
Вот что мы ожидаем увидеть, когда смоделируем исходные данные – см. рисунок.
Зарисовка
Зачем в этой работе мы делаем зарисовку? При любых вычислениях нужно уметь ЗАРАНЕЕ ОЦЕНИВАТЬ и МЫСЛЕННО ПРЕДСТАВЛЯТЬ себе будущие результаты. Тогда сразу будут видны ГРУБЫЕ ОШИБКИ. И эти ошибки можно будет сразу же выявить и исправить. Ну а ошибки будут всегда.
Если не оценивать будущий результат, то можно легко сказать: «Это компьютер так посчитал». Проблема в том, что исходные данные вводит человек и результаты будет использовать тоже человек. Программу тоже написал человек, и не один. Поэтому ОТВЕТСТВЕННОСТЬ за результаты расчётов несёт не компьютер, а человек.
Зарисовка нелинейной функции
Вторая часть задания – это нелинейная функция второго порядка. Варианты заданий приводятся в таблице. Другие названия: квадратичная функция, парабола – см. формулу.
Уравнение параболы можно записать разными способами, поэтому нужно следить за тем, в каком порядке расположены члены уравнения.
Уравнение параболы
В первом примере степени аргумента расположены по убыванию. Во втором – по возрастанию. Как записать уравнение – не так важно. Главное – правильно прочитать те результаты, которые нам выдаст программа.
На новом листе отчёта опишем свой вариант задания. Напомним, что мы в качестве примера рассматриваем нулевой вариант.
Пределы изменения факторного признака: от 1000 до 3000.
Уравнение функции:
y = 7000 – 7 · x +0,002 · x
+200 · e
Коэффициенты уравнения:
a
= 7000
a