Следующий шаг алгоритма Δλ: выделить частицу данных. Вспомним примеры, которые мы рассмотрели ранее, на них большая картина как бы складывалась из отдельных деталей.
Тектонические разломы проявлялись за скоплениями отдельных точек‑землетрясений:
Землетрясения с 1898 года. Джон Нельсон, IDV Solutions. Фликр
Толпа марафонцев на карте и диаграмме финишей буквально состояла из отдельных пикселей‑бегунов:
Визуализация результатов Московского марафона — 2017. Лаборатория данных
История иммиграции за два столетия складывалась из разноцветных чёрточек — иммигрантов из разных частей света:
200 Years of U.S. Immigration Looks Like the Rings of a Tree. National Geographic
Частица данных — это ключевая сущность нашего датасета, единица смысла задачи и строительный кирпичик будущей визуализации. Когда мы выделяем частицу данных, мы раскладываем целостную картину на набор элементов и делаем её управляемой. Используя частицу данных, мы можем выстроить реальность данных в целом, или любой её срез, который будет понятной частью целого.
Например, если мы захотим посмотреть как иммигранты расселились по штатам, мы легко это сделаем, разбив исходную диаграмму на части:
Tree rings for four states, showing immigration only. Pedro M. Cruz
Наглядно и предсказуемо: на срезе Калифорнии больше иммигрантов из Азии, в Техасе — из Латинской Америки, в Нью‑Йорке — из Европы, а в Массачусетсе — из Канады и Европы. При этом в Калифонии и Нью‑Йорке приезжих больше, чем в Техасе и Массачусетсе.
Можно пойти дальше и сформировать аналогичные срезы для всех штатов:
Сartogram of tree rings for the 50 states, showing immigration and natural‑borns. Pedro M. Cruz
Здесь к цветному слою иммиграции добавлены ещё коренные жители штатов (natural‑borns). Мы видим соотношение приехавших и местных жителей, преобладание иммигрантов из разных частей света у разных «ворот» въезда, пути распространения иммигрантов внутрь страны. Всё это возможно, потому что в основе общей картины и её уточнённых версий лежит частица данных — иммигрант.
Напоследок рассмотрим пример, где наличие частицы данных не так очевидно, но она в нём тоже есть. Обратимся к визуализации ошибок на тренажере ПДД:
Частота ошибок в ответах на экзамене по ПДД. Лаборатория данных
Отдельная ячейка на диаграмме — это вопрос конкретного билета. Все ячейки‑вопросы покрашены разными цветами в зависимости от соотношения верных и неверных ответов на этот вопрос. Как думаете, что в этом примере будет частицей данных? И как именно отдельные частицы формируют общую картину?