(←) предыдущая запись ; следующая запись (→)

размышления, машинное_обучение, наука

В кои-то веки сел почитать насыщенный математикой текст (а то совсем отстал от прогресса). Вот казалось бы, за столько лет неиспользования, у меня должно было окончательно атрофироваться понимание математики, но нет. Глаза боятся и извилины скрипят, но читать всё же могу.

Нередко читать формулы оказывается даже проще, чем сопроводительный текст: многие формулы явно подчёркивают намерения автора. Казалось бы удивительно, но на самом деле нет… Меня эти размышления опять привели к вопросу о влиянии языковых систем на мышление.
*// Да, я яростный сторонник гипотезы Сепира-Уорфа.

*Несколько лет назад были популярны разговоры про один из видов технологической сингулярности. Мол, накопление знаний идёт так быстро, что мы не будем успевать осмысливать информацию.
И я всякий раз отвечал, что не убеждён в таком безрадостном исходе, потому что развитие науки идёт по пути развития языка. И каждый новый термин даёт нам возможность компактно представить ту информацию, которую мы ранее описывали бы очень многословно.

Развитие математики — отличный пример того, как работает эволюция нотации. Каждый новый термин базируется на тысяче старых. И если бы математики всякий раз, используя термин, раскрывали бы его до оснований, работать они бы не могли. Вместо этого они просто говорят что-нибудь типа «группа автоморфизмов», и всем сразу понятно и о чём речь, и каковы следствия такого обозначения. Вот правильно говорят, что математика — это язык. А сейчас математики местами и вовсе вместо теорем рисуют картинки со стрелочками и называют это теорией категорий. скрипуче кряхтит …вот в наше время математика была настоящая, без этих комиксов.

В других науках, конечно, всё то же самое. Название болезни является «шорткатом» для того, чтобы вспомнить про набор симптомов, причин болезни, методов лечения итд. Юридический термин раскрывается в систему взаимосвязанных определений и контекстов. Химическое вещество уже в своём названии содержит немало информации о том, на какие компоненты мы привыкли раскладывать молекулы.

Я верю, что человечество сумеет и дальше развивать символьные системы, позволяющие описывать многообразие мира в концепциях обозримой сложности.

Это правда, что знаний генерируется запредельно много (и искусственный интеллект в какой-то момент научится производить их ещё больше). Но есть надежда, что и майнинг терминов можно будет переложить на плечи машины. Там, где мы не знаем, что можно было бы ввести некое понятие, машина могла бы нам подсказать, что есть ряд объектов, живущих по общей неназванной закономерности. «Хозяин, дайте ей название».

Уверен, что это придётся делать, ведь современные модели ИИ уже обучаются, условно, на всём интернете. И уж конечно, на всём пабмеде, arxiv-е и прочих следах человеческой пытливости и гипер-продуктивности научного мира. И попытка резюмировать данные таких масштабов в какие-то обзорные статьи, как мне кажется, не может быть успешно проведена в старых терминах.

На самом деле и сейчас существенная часть машинного обучения посвящена попыткам выявления скрытых сущностей. На это нацелены всяческие техники кластеризации, методы визуализации многомерных данных типа t-SNE / UMAP и в целом manifold learning. Неподалёку притаились автоэнкодеры, позволяющие закодировать произвольные объекты маломерными векторами в пространстве «смыслов». В общем, целый ворох техник, которые уже сейчас используются. Но я не знаю, подходил ли кто-нибудь систематически к задаче notion mining.