(←) предыдущая запись ; следующая запись (→)

В какой-то момент оказалось, что вместо решения реальных задач, бывает очень полезно учиться решать бесполезные искусственные задачи. Всё как в школе.

Например, можно разделить картинку на кусочки, перемешать их и заставить машину собирать получившийся пазл. Или обесцветить картинку и заставить её раскрашивать. Или на изображении отрезать Маресьеву человеку ноги и голову, а потом научиться понимать, что исходно кусочки с головой и ногами пришли с одной и той же картинки. А страусиные ноги с человечьей головой выглядят, конечно, стильно, но несколько искусственно.

Оказывается, что решение таких задачек помогает понять общую логику того, как выглядит страус, того как выглядит человек, и одно не путать с другим. После такого предварительного обучения отличить котиков от собачек станет уже лёгкой задачкой, сотни тысяч примеров не понадобятся.

Это называется самообучение. Мы переформулировали задачу из классификации в собирание паззла, и теперь нам не требуется размеченных данных, ведь мы создаём разметку сами. У нас была неразмеченная картинка. Но при разрезании картинки на части пазла, мы дали кусочкам номера, и вот теперь у нас уже размеченная картинка.

А что делать, если мы хотим понимать «смысл» слов? Оказывается, что можно в предложении скрыть несколько слов и заставить угадывать пропущенные слова по контексту. Сложно поверить, но для решения задачи сформулированной таким образом, хватает однослойной нейросети. И она ловит смыслы слов!

Вам не потребуется ни толковый словарь, ни словарь синонимов, ни сотни лингвистов. Достаточно иметь большой набор (неразмеченных) текстов. Бывают и более дурацкие задачи, например, понять, идут ли два предложения в тексте подряд или нет. Таких задач из реальных текстов можно сгенерировать бесконечное количество, и на каждую из них мы знаем ответ.

А знаете, как работает одна из популярных архитектур генерации изображений, GAN? В ней есть две нейросетки, одна из которых учится рисовать что-нибудь, а вторая говорит, похоже ли итоговое изображение на реалистичную картинку.
Первая сетка учится обманывать вторую, выдавая свои картинки за реальные фото, а вторая учится распознавать фейки, которые только что и были сгенерированы. Безотходное производство!

И это не единственный способ, которым одна нейросеть обучает другую.

Да, это всё ещё инженерия да математика, но слово «обучение» к нейросетям подходит гораздо лучше, чем к какой-нибудь логистической регрессии.

(2/2)