(←) предыдущая запись ; следующая запись (→)
образование
Какие я вижу must have вещи в модуле статистики (см. вводный пост ↑):
— написать генератор чисел под какое-то дискретное распределение. Позднее можно и под дискретное,
— погенерировать случайных чисел из разных распределений, встроенных в numpy и порисовать гистограммок (= график плотности вероятности)
— поучиться генерировать фейковые данные по принципу модель + шум
— посчитать базовые выборочные статистики: среднее, дисперсию и стандартное отклонение, размах, медиану, какие-нибудь квантили
— посмотреть на диаграммы рассеяния (scatterplot-ы) скоррелированных и нескоррелированных величин. Посчитать коэффициент корреляции руками. R
— посмотреть на статистики по выборке как на случайную величину. Брать по несколько выборок и смотреть, чему для каждой из выборок равны среднее и стандартное отклонение. Рисовать распределения выборочных статистик. Смотреть, как они меняются в зависимости от размера единичных выборок. Построить доверительные интервалы.
Мне нравится говорить на примере мешков, в которых разные сорта мандаринов. И мы измеряем средний размер мандарина в мешке.
— показать, что усреднение большого числа одинаковых распределений приводит нас к нормальному распределению — демонстрация ЦПТ в действии
— смоделировать одновыборочную t-статистику, взяв большое число выборок из одного распределения и показав, как t-статистика распределена. Показать, как имея (эмпирически полученное) распределение t-статистики, можно сказать, насколько выборка удовлетворяет нулевой гипотезе. Ввести понятия нулевой гипотезы, статистического теста, P-value. Берём теперь распределение с другим центром (не удовлетворяющее нулевой гипотезе) и смотрим, какие величины t-статистики и P-value получаются теперь. Изучаем зависимость распределения t-статистики от размера выборки и делаем выводы о том, насколько сложно отклонять
— показать проблему множественного тестирования: возьмём выборку много раз и добьёмся получения близкого к нулю P-value, несмотря на то, что нулевая гипотеза верна
— показать, как распределены разности средних по выборке для одного и того же нормального распределения (для простоты мы можем зафиксировать размеры выборок и величину дисперсии). Посмотреть, что происходит, когда мы вычисляем средние по выборке для двух разных распределений — и эмпирически посчитать P-value гипотезы о том, что две выборки взяты из единого нормального распределения.
— показать, что имея распределение Стьюдента мы можем вычислять P-value как 1 - cdf(threshold). Тут-то нам и понадобится scipy.
— разобрать, что такое pdf, что такое cdf. Поговорить про концепцию определённого интеграла и вероятность как площадь под графиком площади вероятности.
— критерий согласия Пирсона aka критерий согласия χ². Учимся понимать, соответствует ли серия бросков «кубику» d12 или двум кубикам d6.
— возможно, стоит попрактиковаться в критериях согласия ещё раз — на проверке нормальности распределения
— промоделировать точный тест Фишера. Убедиться, что мы можем эмпирически получить такие же P-value, как дают библиотечные функции
— понятие условной вероятности. Формула Байеса. Учимся вычислять апостериорную вероятность по серии экспериментов — и отличать фальшивую монету от настоящей при помощи максимизации правдоподобия.
…cписок не претендует на полноту, конечно. Это скорее наброски упражнений, чем готовый материал.