распределение какого параметра показано на диаграмме

Диаграмма распределения осадков в Excel

Построим диаграмму распределения в Excel. А также рассмотрим подробнее функции круговых диаграмм, их создание.

Как построить диаграмму распределения в Excel

График нормального распределения имеет форму колокола и симметричен относительно среднего значения. Получить такое графическое изображение можно только при огромном количестве измерений. В Excel для конечного числа измерений принято строить гистограмму.

Внешне столбчатая диаграмма похожа на график нормального распределения. Построим столбчатую диаграмму распределения осадков в Excel и рассмотрим 2 способа ее построения.

Имеются следующие данные о количестве выпавших осадков:

распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

Первый способ. Открываем меню инструмента «Анализ данных» на вкладке «Данные» (если у Вас не подключен данный аналитический инструмент, тогда читайте как его подключить в настройках Excel):

распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

Задаем входной интервал (столбец с числовыми значениями). Поле «Интервалы карманов» оставляем пустым: Excel сгенерирует автоматически. Ставим птичку около записи «Вывод графика»:

распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

После нажатия ОК получаем такой график с таблицей:

распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

В интервалах не очень много значений, поэтому столбики гистограммы получились низкими.

Теперь необходимо сделать так, чтобы по вертикальной оси отображались относительные частоты.

Найдем сумму всех абсолютных частот (с помощью функции СУММ). Сделаем дополнительный столбец «Относительная частота». В первую ячейку введем формулу:

распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

Способ второй. Вернемся к таблице с исходными данными. Вычислим интервалы карманов. Сначала найдем максимальное значение в диапазоне температур и минимальное.

распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

Чтобы найти интервал карманов, нужно разность максимального и минимального значений массива разделить на количество интервалов. Получим «ширину кармана».

распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

Представим интервалы карманов в виде столбца значений. Сначала ширину кармана прибавляем к минимальному значению массива данных. В следующей ячейке – к полученной сумме. И так далее, пока не дойдем до максимального значения.

распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

Для определения частоты делаем столбец рядом с интервалами карманов. Вводим функцию массива:

распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

Вычислим относительные частоты (как в предыдущем способе).

распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

Построим столбчатую диаграмму распределения осадков в Excel с помощью стандартного инструмента «Диаграммы».

распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

Частота распределения заданных значений:

распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

Круговые диаграммы для иллюстрации распределения

С помощью круговой диаграммы можно иллюстрировать данные, которые находятся в одном столбце или одной строке. Сегмент круга – это доля каждого элемента массива в сумме всех элементов.

С помощью любой круговой диаграммы можно показать распределение в том случае, если

На основании имеющихся данных о количестве осадков построим круговую диаграмму.

распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

Доля «каждого месяца» в общем количестве осадков за год:

распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

Круговая диаграмма распределения осадков по сезонам года лучше смотрится, если данных меньше. Найдем среднее количество осадков в каждом сезоне, используя функцию СРЗНАЧ. На основании полученных данных построим диаграмму:

распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

Получили количество выпавших осадков в процентном выражении по сезонам.

Источник

Гистограмма распределения в EXCEL

history 15 ноября 2016 г.

Гистограмма поможет визуально оценить распределение набора данных, если:

Примечание : Для удобства написания формул для диапазона А8:А57 создан Именованный диапазон Исходные_данные.

Построение гистограммы с помощью надстройки Пакет анализа

Как видно из рисунка, первый интервал включает только одно минимальное значение 113 (точнее, включены все значения меньшие или равные минимальному). Если бы в массиве было 2 или более значения 113, то в первый интервал попало бы соответствующее количество чисел (2 или более).

Почему 7? Дело в том, что количество интервалов гистограммы (карманов) зависит от количества данных и для его определения часто используется формула √n, где n – это количество данных в выборке. В нашем случае √n=√50=7,07 (всего 7 полноценных карманов, т.к. первый карман включает только значения равные минимальному).

Примечание : Похоже, что инструмент Гистограмма для подсчета общего количества интервалов (с учетом первого) использует формулу =ЦЕЛОЕ(КОРЕНЬ(СЧЕТ( Исходные_данные )))+1

Если выбор количества интервалов или их диапазонов не устраивает, то можно в диалоговом окне указать нужный массив интервалов (если интервал карманов включает текстовый заголовок, то нужно установить галочку напротив поля Метка ). распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

Для нашего набора данных установим размер кармана равным 100 и первый карман возьмем равным 150. распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

Построение гистограммы распределения без использования надстройки Пакет анализа

Порядок действий при построении гистограммы в этом случае следующий:

В итоге можно добиться вот такого результата. распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

Одной из разновидностей гистограмм является график накопленной частоты (cumulative frequency plot). распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

На этом графике каждый столбец представляет собой число значений исходного массива, меньших или равных правой границе соответствующего интервала. Это очень удобно, т.к., например, из графика сразу видно, что 90% значений (45 из 50) меньше чем 495.

Примечание : Когда количество значений в выборке недостаточно для построения полноценной гистограммы может быть полезна Блочная диаграмма (иногда она называется Диаграмма размаха или Ящик с усами ).

Источник

Распределение какого параметра показано на диаграмме

Сплавляются два вещества, состоящие из серы, железа, водорода и меди. Массовые доли серы (S), железа (Fe), водорода (Н) и меди (Си) в каждом веществе приведены на диаграммах.

Определите, какая из диаграмм правильно отражает соотношение элементов в сплаве.

Отталкиваемся от железа: в каждом веществе железа было больше половины, следовательно, и в смеси его будет половина или более, такой вариант изображён на диаграмме 3.

Правильный ответ: 3.

На диаграмме представлен уровень зарплат трех членов семьи за два месяца.

Какая из диаграмм правильно отражает суммарный за два месяца доход каждого члена семьи?

Визуально видно, что за два месяца папа набирает наибольшую из всех сумму,

Сразу отсеиваем диаграмму 2 и 3, а вот для 4ой скажем, что заработок отца во много больше дочери, следовательно, остается диаграмма 1.

Правильный ответ: 1.

Диаграмма отражает количество (в килограммах) собранного за четыре месяца урожая двух сортов огурцов в парниковом хозяйстве.

Какая из диаграмм правильно отражает объемы суммарного за четыре месяца собранного урожая по каждому из сортов?

1 сорт: 10+20+30+30=90 кг.

2 сорт: 20+40+30+30=120 кг.

Правильный ответ: 4.

На диаграмме показано количество участников тестирования по предметам в разных регионах России.

Какая из диаграмм правильно отражает соотношение общего количества участников (из всех трех регионов) по каждому из предметов тестирования?

При помощи столбчатых диаграмм можно найти общее количество учеников:

Круговые диаграммы дают нам представление о долях отдельных составляющих в общей сумме. Соответственно подсчитаем, какую долю тестируемых составляют учащиеся, тестируемые по различным предметам:

Биология: распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

История: распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

Химия: распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

Этим данным соответствует первая диаграмма.

Источник

Типичные распределения вероятности: шпаргалка data scientist-а

У data scientist-ов сотни распределений вероятности на любой вкус. С чего начать?

Data science, чем бы она там не была – та ещё штука. От какого-нибудь гуру на ваших сходках или хакатонах можно услышать:«Data scientist разбирается в статистике лучше, чем любой программист». Прикладные математики так мстят за то, что статистика уже не так на слуху, как в золотые 20е. У них даже по этому поводу есть своя несмешная диаграмма Венна. И вот, значит, внезапно вы, программист, оказываетесь совершенно не у дел в беседе о доверительных интервалах, вместо того, чтобы привычно ворчать на аналитиков, которые никогда не слышали о проекте Apache Bikeshed, чтобы распределённо форматировать комментарии. Для такой ситуации, чтобы быть в струе и снова стать душой компании – вам нужен экспресс-курс по статистике. Может, не достаточно глубокий, чтобы вы всё понимали, но вполне достаточный, чтобы так могло показаться на первый взгляд.

Вероятностные распределения – это основа статистики, так же как структуры данных – основа computer science. Если хотите говорить языком data scientist-а – надо начинать с их изучения. В принципе можно, если повезёт, делать простые анализы, используя R или scikit-learn вообще без понимания распределений, так же как можно написать программу на Java без понимания хэшфункций. Но рано или поздно это закончится слезами, ошибками, ложными результатами или — гораздо хуже – охами и выпученными глазами от старших статистиков.

Существуют сотни различных распределений, некоторые из которых на слух звучат как чудовища средневековых легенд, типа Muth или Lomax. Тем не менее, на практике более-менее часто используются около 15. Каковы они, и какие умные фразы о них требуется запомнить?

Итак, что такое распределение вероятности?

Всё время что-то происходит: кидаются кубики, идёт дождь, подъезжают автобусы. После того, как это что-то произошло, можно быть уверенным в некотором исходе: кубики выпали на 3 и 4, выпало 2.5 см дождя, автобус подъехал через 3 минуты. Но до этого момента мы можем говорить только о том, насколько каждый исход возможен. Распределения вероятности описывают то, как мы видим вероятность каждого исхода, что, зачастую, гораздо интереснее, чем знать только один, наиболее возможный, исход. Распределения бывают разных форм, но строго одного размера: сумма всех вероятностей в распределении — всегда 1.

Например, подбрасывание правильной монетки имеет два исхода: она упадёт либо орлом, либо решкой (предполагая, что она не приземлится на ребро и её не стащит в воздухе чайка). Перед броском мы верим, что с шансом 1 к 2 или с вероятностью 0.5 она упадёт орлом. Точно так же, как и решкой. Это распределение вероятности двух исходов броска, и, если вы внимательно прочитали это предложение, то вы уже поняли распределение Бернулли.

Несмотря на экзотические названия, распространённые распределения связаны друг с другом достаточно интуитивными и интересными способами, позволяющими легко их вспоминать и уверенно о них рассуждать. Некоторые естественно следуют, например, из распределения Бернулли. Время показать карту этих связей.

распределение какого параметра показано на диаграмме. Смотреть фото распределение какого параметра показано на диаграмме. Смотреть картинку распределение какого параметра показано на диаграмме. Картинка про распределение какого параметра показано на диаграмме. Фото распределение какого параметра показано на диаграмме

Распечатайте, отрежьте по пунктирной линии и носите с собой в кошельке. Это — ваш путеводитель в стране распределений и их родственников.

Бернулли и равномерное

Вы уже встретились с распределением Бернулли выше, с двумя исходами – орлом или решкой. Представьте его теперь как распределение над 0 и 1, 0 – орёл, 1 – решка. Как уже понятно, оба исхода равновероятны, и это отражено на диаграмме. ФПР Бернулли содержит две линии одинаковой высоты, представляющие 2 равновероятных исхода: 0 и 1 соответственно.

Распределение Бернулли может представлять и неравновероятные исходы, типа броска неправильной монетки. Тогда вероятность орла будет не 0.5, а какая-то другая величина p, а вероятность решки – 1-p. Как и многие другие распределения, это на самом деле целое семейство распределений, задаваемых определёнными параметрами, как p выше. Когда будете думать «Бернулли» – думайте про «бросок (возможно, неправильной) монетки».

Отсюда весьма небольшой шаг до того, чтобы представить распределение поверх нескольких равновероятных исходов: равномерное распределение, характеризуемое плоской ФПР. Представьте правильный игральный кубик. Его исходы 1-6 равновероятны. Его можно задать для любого количества исходов n, и даже в виде непрерывного распределения.

Думайте о равномерном распределении как о «правильном игральном кубике».

Биномиальное и гипергеометрическое

Биномиальное распределение можно представить как сумму исходов тех вещей, которые следуют распределению Бернулли.

Киньте честную монету два раза – сколько раз будет орёл? Это число, подчиняющееся биномиальному распределению. Его параметры – n, число испытаний, и p – вероятность «успеха» (в нашем случае – орла или 1). Каждый бросок – распределённый по Бернулли исход, или испытание. Используйте биномиальное распределение, когда считаете количество успехов в вещах типа броска монеты, где каждый бросок не зависит от других и имеет одинаковую вероятность успеха.

Или представьте урну с одинаковым количество белых и чёрных шаров. Закройте глаза, вытащите шар, запишите его цвет и верните назад. Повторите. Сколько раз вытащился чёрный шар? Это число также подчиняется биномиальному распределению.

Эту странную ситуацию мы представили, чтобы было легче понять смысл гипергеометрического распределения. Это распределение того же числа, но в ситуации если бы мы не возвращали шары обратно. Оно, безусловно, двоюродный брат биномиального распределения, но не такое же, так как вероятность успеха изменяется с каждым вытащенным шаром. Если количество шаров достаточно велико по сравнению с количеством вытаскиваний – то эти распределения практически одинаковы, так как шанс успеха изменяется с каждым вытаскиванием крайне незначительно.

Когда где-то говорят о вытаскивании шаров из урн без возврата, практически всегда безопасно ввернуть «да, гипергеометрическое распределение», потому что в жизни я ещё не встречал никого, кто реально наполнял бы урны шарами и потом вытаскивал их и возвращал, или наоборот. У меня даже знакомых нет с урнами. Ещё чаще это распределение должно всплывать при выборе значимого подмножества некоторой генеральной совокупности в качестве выборки.

Тут может быть не очень понятно, а раз туториал и экспресс-курс для новичков — надо бы разъяснить. Генеральная совокупность — есть нечто, что мы хотим статистически оценить. Для оценки мы выбираем некоторую часть (подмножество) и производим требуемую оценку на ней (тогда это подмножество называется выборкой), предполагая, что для всей совокупности оценка будет похожей. Но чтобы это было верно, часто требуются дополнительные ограничения на определение подмножества выборки (или наоборот, по известной выборке нам надо оценить, описывает ли она достаточно точно совокупность).

Практический пример — нам нужно выбрать от компании в 100 человек представителей для поездки на E3. Известно, что в ней 10 человек уже ездили в прошлом году (но никто не признаётся). Сколько минимум нужно взять, чтобы в группе с большой вероятностью оказался хотя бы один опытный товарищ? В данном случае генеральная совокупность — 100, выборка — 10, требования к выборке — хотя бы один, уже ездивший на E3.

В википедии есть менее забавный, но более практичный пример про бракованные детали в партии.

Пуассон

Что насчёт количества заказчиков, звонящих по горячей линии в техподдержку каждую минуту? Это исход, чьё распределение на первый взгляд биномиальное, если считать каждую секунду как испытание Бернулли, в течение которой заказчик либо не позвонит (0), либо позвонит (1). Но электроснабжающие организации прекрасно знают: когда выключают электричество – за секунду могут позвонить двое или даже больше сотни людей. Представить это как 60000 миллисекундных испытаний тоже не поможет – испытаний больше, вероятность звонка в миллисекунду меньше, даже если не учитывать двух и более одновременно, но, технически – это всё ещё не испытание Бернулли. Тем не менее, срабатывает логическое рассуждение с переходом к бесконечности. Пусть n стремится к бесконечности, а p – к 0, и так, чтобы np было постоянным. Это как делить на всё более малые доли времени со всё менее малой вероятностью звонка. В пределе мы получим распределение Пуассона.

Так же, как и биномиальное, распределение Пуассона – это распределение количества: количества раз того, как что-то произойдёт. Оно параметризуется не вероятностью p и количеством испытаний n, но средней интенсивностью λ, что, в аналогии с биномиальным, просто постоянное значение np. Распределение Пуассона – то, о чём надо вспоминать, когда идёт речь о подсчёте событий за определённое время при постоянной заданной интенсивности.

Когда есть что-то, типа прихода пакетов на роутер или появления покупателей в магазине или что-то, ожидающее в очереди – думайте «Пуассон».

Геометрическое и отрицательное биномиальное

Из простых испытаний Бернулли появляется другое распределение. Сколько раз монетка выпадет решкой, прежде, чем выпасть орлом? Число решек подчиняется геометрическому распределению. Как и распределение Бернулли, оно параметризуется вероятностью успешного исхода, p. Оно не параметризуется числом n, количеством бросков-испытаний, потому что число неудачных испытаний как раз и есть исход.

Если биномиальное распределение это «сколько успехов», то геометрическое это «Сколько неудач до успеха?».

Отрицательное биномиальное распределение – простое обобщение предыдущего. Это количество неудач до того, как будет r, а не 1, успехов. Поэтому оно дополнительно параметризуется этим r. Иногда его описывают как число успехов до r неудач. Но, как говорит мой лайф-коуч: «Ты сам решаешь, что есть успех, а что — неудача», так что это тоже самое, если при этом не забыть, что вероятность p тоже должна правильной вероятностью успеха или неудачи соответственно.

Если нужна будет шутка для снятия напряжения, можно упомянуть, что биномиальное и гипергеометрическое распределение – это очевидная пара, но и геометрическое и отрицательное биномиальное так же весьма похожи, после чего заявить «Ну и кто же так их все называет, а?»

Экспоненциальное и Вейбула

Снова о звонках в техподдержку: сколько пройдёт до следующего звонка? Распределение этого времени ожидания как будто бы геометрическое, потому что каждая секунда, пока никто не звонит – это как неуспех, до секунды, пока, наконец, звонок не произойдёт. Количество неудач –это как количество секунд, пока никто не звонил, и это практически время до следующего звонка, но «практически» нам недостаточно. Суть в том, что это время будет суммой целых секунд, и, таким образом, не получится посчитать ожидание внутри этой секунды до непосредственно звонка.

Ну и, как и раньше, переходим в геометрическом распределении к пределу, относительно временных долей – и вуаля. Получаем экспоненциальное распределение, которое точно описывает время до звонка. Это непрерывное распределение, первое такое у нас, потому что исход не обязательно в целых секундах. Как и распределение Пуассона, оно параметризуется интенсивностью λ.

Повторяя связь биномиального с геометрическим, Пуассоновское «сколько событий за время?» связано с экспоненциальным «сколько до события?». Если есть события, количество которых на единицу времени подчиняется распределению Пуассона, то время между ними подчиняется экспоненциальному распределению с тем же параметром λ. Это соответствие между двумя распределениями необходимо отмечать, когда обсуждается любое из них.

Экспоненциальное распределение должно приходить на ум при размышлении о «времени до события», возможно, «времени до отказа». По факту, это такая важная ситуация, что существуют более обобщённые распределения чтобы описать наработку-на-отказ, типа распределения Вейбула. В то время, как экспоненциальное распределение подходит, когда интенсивность — износа, или отказов, например – постоянна, распределение Вейбула может моделировать увеличивающуюся (или уменьшающуюся) со временем интенсивность отказов. Экспоненциальное, в общем-то, частный случай.

Думайте «Вейбул» когда разговор заходит о наработке-на-отказ.

Нормальное, логнормальное, Стьюдента и хи-квадрат

Нормальное, или гауссово, распределение, наверное, одно из важнейших. Его колоколообразная форма узнаётся сразу. Как и e, это особенно любопытная сущность, которая проявляется везде, даже из внешне самых простых источников. Возьмите набор значений, подчиняющихся одному распределению – любому! – и сложите их. Распределение их суммы подчиняется (приблизительно) нормальному распределению. Чем больше вещей суммируется – тем ближе их сумма соответствует нормальному распределению (подвох: распределение слагаемых должно быть предсказуемым, быть независимым, оно стремится только к нормальному). То, что это так, несмотря на исходное распределение – это потрясающе.

Меня удивило, что автор не пишет про необходимость сопоставимого масштаба суммируемых распределений: если одно существенно доминирует надо остальными — сходиться будет крайне плохо. И, в общем-то, абсолютная взаимная независимость необязательна, достаточна слабая зависимость.

Ну сойдёт, наверное, для вечеринок, как он написал.

Это называется «центральная предельная теорема», и надо знать, что это, почему так названо и что означает, иначе моментально засмеют.

В её разрезе, нормальное связано со всеми распределениями. Хотя, в основном, его связывают с распределениями всяких сумм. Сумма испытаний Бернулли следует биномиальному распределению и, с увеличением количества испытаний, это биномиальное распределение становится всё ближе в нормальному распределению. Аналогично и его двоюродный брат – гипергеометрическое распределение. Распределение Пуассона – предельная форма биномиального – так же приближается к нормальному с увеличением параметра интенсивности.

Исходы, которые подчиняются логнормальному распределению, дают значения, логарифм которых нормально распределён. Или по-другому: экспонента нормально распределённого значения логнормально распределена. Если суммы – нормально распределены, то запомните так же, что произведения распределены логнормально.

t-Распределение Стьюдента – это основа t-теста, который многие нестатистики изучают в других областях. Оно используется для предположений о среднем нормального распределения и так же стремится к нормальному распределению с увеличением своего параметра. Отличительная особенность t-распределения – его хвосты, которые толще, чем у нормального распределения.

Если толстохвостый анекдот недостаточно раскачал вашего соседа – переходите в довольно забавной байке про пиво. Больше 100 лет назад Гиннесс использовал статистику, чтобы улучшить свой стаут. Тогда Вильям Сили Госсет и изобрёл полностью новую статистическую теорию для улучшенного выращивания ячменя. Госсет убедил босса, что другие пивовары не поймут, как использовать его идеи, и получил разрешение на публикацию, но под псевдонимом «Стьюдент». Самое известное достижение Госсета – как раз это самое t-распределение, которое, можно сказать, названо в честь него.

Наконец, распределение хи-квадрат – распределение сумм квадратов нормально-распределенных величин. На этом распределении построен тест хи-квадрат, который сам основан на сумме квадратов разниц, которые должны быть нормально распределены.

Гамма и бета

В этом месте, если вы уже заговорили о чём-то хи-квадратном, разговор начинается всерьёз. Вы уже, возможно, говорите с настоящими статистиками, и, наверное, стоит уже откланиваться, поскольку могут всплыть вещи типа гамма-распределения. Это обобщение и экспоненциального, и хи-квадрат распределения. Как и экспоненциальное распределение, оно используется для сложных моделей времен ожидания. Например, гамма-распределение появляется, когда моделируется время до следующих n событий. Оно появляется в машинном обучении как «сопряжённое априорное распределение» к парочке других распределений.

Не вступайте в разговор об этих сопряжённых распределениях, но если всё-таки придётся, не забудьте сказать о бета-распределении, потому что оно сопряжённое априорное к большинству упомянутых здесь распределений. Data-scientist-ы уверены, что оно именно для этого и сделано. Упомяните об этом ненароком и идите к двери.

Начало мудрости

Распределения вероятности — это то, о чём нельзя знать слишком много. По настоящему заинтересованные могут обратиться к этой супердетализированной карте всех распределений вероятности. Надеюсь, этот шуточный путеводитель даст вам уверенность казаться «в теме» в современной технокультуре. Или, по крайней мере, способ с высокой вероятностью определить, когда надо идти на менее ботанскую вечеринку.

Шон Овен – директор Data Science в Cloudera, Лондон. До Клаудеры он основал Myrrix Ltd. (сейчас проект Oryx) для коммерционализации широкомасштабных рекомендательных систем в реальном времени на Hadoop. Он так же контрибьютор Apache Spark и соавтор O’Reilly Media’s Advanced Analytics with Spark

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *