скачать книгу бесплатно
– 68% значений находятся в пределах плюс-минус 1 стандартного отклонения от среднего значения;
– 95% значений находятся в пределах плюс-минус 2 стандартных отклонения от среднего значения;
– 99,7% значений находятся в пределах плюс-минус 3 стандартных отклонения от среднего значения.
Гистограммы различных видов асимметрии
Это правило позволяет не только находить интервал, куда наверняка попадут практически все значения интересующей нас переменной, но и искать значения вне этого интервала. Эти значения называют выбросами. Появление выбросов не является «запрещенным» с точки зрения нормального распределения, но их наличие маловероятно, а потому подозрительно. Это правило было бы хорошим инструментом для поиска ураганных содержаний, если бы не одно «но»: для его применения требуется, чтобы распределение было, во-первых, однородным, а, во-вторых, не противоречило нормальному закону распределения. Что, к сожалению, чаще всего не так (причем зачастую не выполняется ни первое, ни второе требование).
Логнормальное распределение
Кроме нормального распределения, также достаточно распространенным является так называемое логарифмически нормальное, или короче – логнормальное распределение: такое, при котором нормальному распределению не противоречат логарифмы значений изучаемой величины. Логнормальное распределение имеет правостороннюю асимметрию – то есть его среднее смещено по оси абсцисс вправо от медианы, а коэффициент асимметрии положителен.
Гистограмма логнормального распределения
При работе с распределением со значительной правой асимметрией (например, логарифмически нормальным распределением) гистограммы, построенные обычным образом – т. е. в «натуральных» единицах, весьма «ненаглядны». Не в том смысле, что прямо вот «глаз не отвести», а в том, что смотрю – и ничего не вижу. Что неудивительно: большинство наблюдений сгруппировано «слева» и попадает всего в несколько классов значений. Соответственно, гистограмма распределения с большой правой асимметрией выглядит, например, как-то так.
Гистограмма с правой асимметрией
В общем, не очень читаемая гистограмма. В этом случае необходимо выполнить симметризацию распределения. Так исторически сложилось, что наиболее часто встречаемым способом симметризации является логарифмирование значений. В принципе, симметризацию можно выполнить, например, с помощью корня – квадратного, кубического и т. д. Но логарифмирование обычно дает наиболее качественную симметризацию.
Итак, логарифм. Логарифм – это показатель степени, в которую надо возвести основание, чтобы получить число, которое подвергается логарифмированию. С первого раза непонятно (со второго – тоже не очень). Зато понятно, что логарифм – это штука, у которой есть основание. Уже хорошо. То есть у вас есть некоторое число, которое вы решили подвергнуть логарифмированию. Для этого надо выбрать основание логарифмирования. Основание – тоже число. То есть для логарифмирования надо два числа: одно – которое подвергается логарифмированию, а второе – основание логарифма. А на выходе имеем показатель степени, в которое надо возвести основание, чтобы получить число, которое под знаком логарифма. Давайте это запишем:
log
(8)
Здесь написано: «логарифм 8 по основанию 2». Возвращаемся к определению. Результатом логарифмирования будет показатель степени, в которое надо возвести основание, чтобы получить число, подвергаемое логарифмированию. В приведенном примере мы логарифмируем 8 по основанию 2. В какую степень надо возвести 2 (основание), чтобы получить 8? Очевидно, в 3-ю. То есть:
log
(8) = 3
Также, исходя из сказанного, совершенно очевидно, что:
log
(9) = 2
log
(125) = 3
log
(10000) = 4
Ну и напоминаем, что
log
(1) = 0
log
(1) = 0
log
(1) = 0
Или в общем случае
log
(1) = 0, a ? 0, a ? 1
Опять же, чисто исторически сложилось, что в качестве основания логарифма чаще всего принимается два числа – число «e» и 10. Логарифм по основанию «e» называют натуральным, а по основанию 10 – десятичным. Обычно натуральный логарифм обозначают
ln (a),
а десятичный
lg (a)
Давайте кратко рассмотрим два наиболее часто встречающихся основания логарифма. С десяткой «все ясно» – это основание нашей системы счисления и совершенно логично равно количеству пальцев на руках (если бы наша цивилизация была цивилизацией токарей-математиков, основанием системы счисления могло бы быть и 8, и 6 – в зависимости от удачливости токарей). А что такое «e»? Это такое очень интересное число, которое является одной из фундаментальных математических констант (наряду, например, с числом ?) и всплывает в большом количестве реальных проблем. Если есть несколько минут времени, можно посмотреть вот этот[9 - https://www.youtube.com/watch?v=vB73Ynza-0o] ролик про число «e». Что еще можно сказать про «e»? Ну, например, то, что оно иррациональное – то есть не может быть вычислено как частное двух целых чисел. В десятичной записи оно имеет бесконечное число знаков после запятой. Также число «e» является трансцендентным – то есть не является корнем ни одного многочлена с целыми коэффициентами. Впрочем, этот факт уже совсем не относится к делу.
Возвращаясь к логарифмированию. Различия в основаниях в подавляющем большинстве случаев никак не сказывается на результате, поскольку для логарифмов действует довольно простое правило замены основания:
log
(b) = log
(b) / log
(a),
то есть для перехода от десятичного логарифма к натуральному результат надо разделить на константу – на натуральный логарифм 10:
lg (a) = ln (a) / ln (10)
Ну или в обратную сторону – от натурального к десятичному:
ln (a) = lg (a) / lg (e)
Поэтому когда речь идет о логарифмировании какой-то выборки, то основание особой роли не играет: любые результаты логарифмирования отличаются друг от друга на постоянный множитель, что не оказывает никакого влияния на характер распределения.
У логарифма есть одно чрезвычайно полезное свойство (правда, в плане обработки выборок, кажется, не применимое):
log (a * b) = log (a) + log (b)
То есть с помощью логарифмирования умножение сводится к значительно более простой операции сложения. И эта особенность логарифмов, например, дала возможность создать аналоговую вычислительную машину, хорошо знакомую «бумерам» – логарифмическую линейку[10 - https://en.wikipedia.org/wiki/Slide_rule].
Ну и одно неприятное свойство логарифма: логарифм нуля не существует (а в выборках нули, увы, присутствуют).
Возвращаясь к нашим правоасимметричным выборкам. Представим, что в нашем распоряжении есть выборка[11 - https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Log_histo.xlsb] с большой правой асимметрией (это не реальные данные, а сгенерированные для иллюстрации процедуры построения). Давайте построим по этой выборке сначала обычную гистограмму, потом – гистограмму в логарифмическом масштабе.
Для построения обычной гистограммы последовательно выполняем шаги:
– Определяем минимум, максимум и размах (Лист «Данные»).
– Задаем количество классов группировки и рассчитываем ширину класса (Лист «Данные»).
– Присваиваем каждому значению номер класса (Лист «Шаг 1 – обычный масштаб»).
– Для каждого класса рассчитываем количество данных, границы класса и его центр (Лист «Шаг 2 – обычный масштаб»).
– Строим гистограмму в «натуральном» масштабе (Лист «Шаг 3 – обычный масштаб»).
В итоге получается что-то вот такое:
Гистограмма с правой асимметрией в натуральном масштабе
Как и предупреждали, наглядность полученного графика оставляет желать лучшего.
А теперь давайте построим гистограмму в логарифмическом масштабе. Последовательность действий точно такая же, кроме первого шага – данные необходимо логарифмировать:
– Логарифмируем данные. Пусть это будет натуральный логарифм – как сказано выше, основание логарифма не влияет на характер распределения (Лист «Лог. данные»).
– Определяем минимум, максимум и размах логарифмов (Лист «Лог. данные»).
– Задаем количество классов группировки и рассчитываем ширину класса по логарифмам (Лист «Лог. данные»).
– Присваиваем каждому значению номер класса (Лист «Шаг 1 – лог масштаб»).
– Для каждого класса рассчитываем количество данных, границы класса и его центр (Лист «Шаг 2 – лог масштаб»).
– Строим гистограмму в логарифмическом масштабе (Лист «Шаг 3 – лог масштаб»).
Гистограмма с правой асимметрией в логарифмическом масштабе
Красивее же, правда? Необходимо отметить, что в реальной работе вам не придется выполнять все эти нудные операции – практически любое ПО, которым вы будете пользоваться, обладает способностью к построению гистограмм – как в натуральном, так и в логарифмическом масштабе. И переход между натуральным и логарифмическим масштабом обычно выполняется с помощью одной «галочки» в настройках графика. Но понимать, что именно произошло и как строить такую гистограмму, необходимо.
Суммируя: при построении логарифмической гистограммы вы работаете не с исходными данными, а с их логарифмами.
Вероятностный график
Следующий довольно полезный график – это нормальный вероятностный график, он же вероятностная кривая, он же Probability Plot. Слово «нормальный» в названии довольно часто опускается. Кроме того, для распределений с положительной асимметрией имеет смысл предварительно выполнить симметризацию распределения с помощью логарифмирования – в этом случае слово «нормальный» в названии графика вовсе неуместно.
Вероятностная кривая и соответствующая ей гистограмма распределения
Вероятностный график позволяет визуально оценить однородность выборки, наличие выбросов (ураганных значений), близость исследуемого распределения нормальному (или в случае работы с логарифмами – логнормальному). По сути, вероятностный график – это квантиль-квантильная кривая, построенная по данным двух распределений: исследуемого и нормального. График обычно имеет вид некоторой ломаной кривой, либо серии точек.
По степени «прямоты» вероятностной кривой можно судить о близости рассматриваемого распределения нормальному закону, по наличии резких перегибов и относительно прямолинейных участков на графике – об однородности или неоднородности, а по наличию «срывов» и горизонтальных «ступенек» – о наличии выбросов.
В «докомпьютерную» эпоху для построения вероятностной кривой использовались специальные «вероятностные бланки». С появлением Excel потребность в подобных бланках отпала. Давайте рассмотрим алгоритм построения вероятностного графика на примере данного[12 - https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Probability_plot.xlsx] файла.
На листе «Выборки» с помощью генератора случайных чисел и формулы «НОРМ. ОБР» создаются две распределенные по нормальному закону выборки численностью по 10 000 значений каждая. На листе «Вероятностный график» выполняется объединение двух выборок и строится гистограмма. Для членов объединенной выборки рассчитывается их положение в упорядоченном ряду, для чего используется функция «РАНГ» (столбец «Ранг»).
По сути, результатом функции РАНГ является порядковый номер конкретного члена выборки в упорядоченном ряду. Будь наша выборка упорядочена, достаточно было бы пронумеровать члены итоговой выборки по порядку: «1-2-3…20000». Но выборка не упорядочена и нужна функция «РАНГ». Затем рассчитывается положение каждого члена исследуемой выборки как доля его порядкового номера от общей численности выборки (столбец «Положение члена выборки в долях численности распределения»).
Вероятностная кривая и соответствующая ей гистограмма: а – однородного симметричного распределения, близкого к нормальному, б – неоднородной выборки, представляющей собой объединение двух симметричных выборок, каждая из которых близка к нормальному распределению, в – однородной выборки с большой правой асимметрией, г – неоднородной выборки (интересно то, что обе сгенерированные выборки характеризуются правой асимметрией, которая при их смешении почти не видна)
Вы ознакомились с фрагментом книги.
Для бесплатного чтения открыта только часть текста.
Приобретайте полный текст книги у нашего партнера: