06. Шаг 2. Выделить частицу данных

Источник	https://bureau.ru/soviet/20240724/
Автор	Таня Мисютина

Следующий шаг алгоритма Δλ: выделить частицу данных. Вспомним примеры, которые мы рассмотрели ранее, на них большая картина как бы складывалась из отдельных деталей.

Тектонические разломы проявлялись за скоплениями отдельных точек‑землетрясений:

Землетрясения с 1898 года. Джон Нельсон, IDV Solutions. Фликр

Толпа марафонцев на карте и диаграмме финишей буквально состояла из отдельных пикселей‑бегунов:

Визуализация результатов Московского марафона — 2017. Лаборатория данных

История иммиграции за два столетия складывалась из разноцветных чёрточек — иммигрантов из разных частей света:

200 Years of U.S. Immigration Looks Like the Rings of a Tree. National Geographic

Частица данных — это ключевая сущность нашего датасета, единица смысла задачи и строительный кирпичик будущей визуализации. Когда мы выделяем частицу данных, мы раскладываем целостную картину на набор элементов и делаем её управляемой. Используя частицу данных, мы можем выстроить реальность данных в целом, или любой её срез, который будет понятной частью целого.

Например, если мы захотим посмотреть как иммигранты расселились по штатам, мы легко это сделаем, разбив исходную диаграмму на части:

Tree rings for four states, showing immigration only. Pedro M. Cruz

Наглядно и предсказуемо: на срезе Калифорнии больше иммигрантов из Азии, в Техасе — из Латинской Америки, в Нью‑Йорке — из Европы, а в Массачусетсе — из Канады и Европы. При этом в Калифонии и Нью‑Йорке приезжих больше, чем в Техасе и Массачусетсе.

Можно пойти дальше и сформировать аналогичные срезы для всех штатов:

Сartogram of tree rings for the 50 states, showing immigration and natural‑borns. Pedro M. Cruz

Здесь к цветному слою иммиграции добавлены ещё коренные жители штатов (natural‑borns). Мы видим соотношение приехавших и местных жителей, преобладание иммигрантов из разных частей света у разных «ворот» въезда, пути распространения иммигрантов внутрь страны. Всё это возможно, потому что в основе общей картины и её уточнённых версий лежит частица данных — иммигрант.

Напоследок рассмотрим пример, где наличие частицы данных не так очевидно, но она в нём тоже есть. Обратимся к визуализации ошибок на тренажере ПДД:

Частота ошибок в ответах на экзамене по ПДД. Лаборатория данных

Отдельная ячейка на диаграмме — это вопрос конкретного билета. Все ячейки‑вопросы покрашены разными цветами в зависимости от соотношения верных и неверных ответов на этот вопрос. Как думаете, что в этом примере будет частицей данных? И как именно отдельные частицы формируют общую картину?

Ilya Vorontsov / Илья Воронцов

Проводник

06. Шаг 2. Выделить частицу данных

Вид графа