(←) предыдущая запись ; следующая запись (→)

образовательное

К вопросу про «скрытые» данные, которые лежат у всех на виду.
Лет 5 назад я делал небольшую лекцию для школьников о прокси-данных и «теневых данных». Она была прочитана в двух чуть отличающихся вариантах на Слоне (→) и на ЛШРР (→).

Там я рассказывал про то, как косвенные данные позволяют оценить интересующие нас величины. У меня было несколько примеров:
— если человек скрывает возраст в своём профиле в соцсети, а его хочется узнать, обычно достаточно посчитать средний возраст его контактов.
— чтобы узнать уровень образованности людей в городе, можно посчитать количество орфографических ошибок в смсках.
— по трекам Strava в пустыне, можно определить расположение засекреченных военных баз.
— самые популярные места в Москве можно определить по числу геотэгнутых фоточек в инстаграме.
— по распространённости пикапов и седанов на фотках из google street view, можно оценить, к чему жители городка больше склоняются к республиканцам или демократам.
— google N-gram viewer показывает, как в СССР под каток репрессий попала генетика и как в 1980-е вернулась «мода» на кокаин.
— по анализу частотности слов можно определить, какой писатель скрывается за псевдонимом.
— по 50 Гц шуму на аудиозаписи можно определить, когда она была сделана.