(←) предыдущая запись ; следующая запись (→)

образование
Какие я вижу must have вещи в модуле статистики (см. вводный пост ):

— написать генератор чисел под какое-то дискретное распределение. Позднее можно и под дискретное,

— погенерировать случайных чисел из разных распределений, встроенных в numpy и порисовать гистограммок (= график плотности вероятности)

— поучиться генерировать фейковые данные по принципу модель + шум

— посчитать базовые выборочные статистики: среднее, дисперсию и стандартное отклонение, размах, медиану, какие-нибудь квантили

— посмотреть на диаграммы рассеяния (scatterplot-ы) скоррелированных и нескоррелированных величин. Посчитать коэффициент корреляции руками. R

— посмотреть на статистики по выборке как на случайную величину. Брать по несколько выборок и смотреть, чему для каждой из выборок равны среднее и стандартное отклонение. Рисовать распределения выборочных статистик. Смотреть, как они меняются в зависимости от размера единичных выборок. Построить доверительные интервалы.

Мне нравится говорить на примере мешков, в которых разные сорта мандаринов. И мы измеряем средний размер мандарина в мешке.

— показать, что усреднение большого числа одинаковых распределений приводит нас к нормальному распределению — демонстрация ЦПТ в действии

— смоделировать одновыборочную t-статистику, взяв большое число выборок из одного распределения и показав, как t-статистика распределена. Показать, как имея (эмпирически полученное) распределение t-статистики, можно сказать, насколько выборка удовлетворяет нулевой гипотезе. Ввести понятия нулевой гипотезы, статистического теста, P-value. Берём теперь распределение с другим центром (не удовлетворяющее нулевой гипотезе) и смотрим, какие величины t-статистики и P-value получаются теперь. Изучаем зависимость распределения t-статистики от размера выборки и делаем выводы о том, насколько сложно отклонять

— показать проблему множественного тестирования: возьмём выборку много раз и добьёмся получения близкого к нулю P-value, несмотря на то, что нулевая гипотеза верна

— показать, как распределены разности средних по выборке для одного и того же нормального распределения (для простоты мы можем зафиксировать размеры выборок и величину дисперсии). Посмотреть, что происходит, когда мы вычисляем средние по выборке для двух разных распределений — и эмпирически посчитать P-value гипотезы о том, что две выборки взяты из единого нормального распределения.

— показать, что имея распределение Стьюдента мы можем вычислять P-value как 1 - cdf(threshold). Тут-то нам и понадобится scipy.

— разобрать, что такое pdf, что такое cdf. Поговорить про концепцию определённого интеграла и вероятность как площадь под графиком площади вероятности.

— критерий согласия Пирсона aka критерий согласия χ². Учимся понимать, соответствует ли серия бросков «кубику» d12 или двум кубикам d6.

— возможно, стоит попрактиковаться в критериях согласия ещё раз — на проверке нормальности распределения

— промоделировать точный тест Фишера. Убедиться, что мы можем эмпирически получить такие же P-value, как дают библиотечные функции

— понятие условной вероятности. Формула Байеса. Учимся вычислять апостериорную вероятность по серии экспериментов — и отличать фальшивую монету от настоящей при помощи максимизации правдоподобия.

…cписок не претендует на полноту, конечно. Это скорее наброски упражнений, чем готовый материал.