(←) предыдущая запись ; следующая запись (→)
Запоздалый статус-апдейт. Почти полгода уже работаю (на полставки и, как всегда, аутстафф) в Яндекс.Образовании в команде, разрабатывающей «джипититор» — репетитор по математике на базе LLM.
Более-менее научился жить в корпоративной среде, хотя мне это трудновато даётся. И я всё ещё не понимаю, подходит ли мне такое в принципе.
К самой корпорации тёплых чувств я не испытываю уже очень давно, но уровень прохладности этих отношений у меня константный. Так что тут работа для меня — это просто работа; в этом есть даже плюсы: меньше переживаний о том, как мои действия повлияют на судьбы мира. Но это всё же «брак по расчёту», а не по любви, так что не думаю, что он будет крепким.
Когда я пришёл, продукт как раз запустился. Первые несколько месяцев у меня кровь из глаз текла от качества диалогов. Тьютор не то что методически полезный разговор с учеником не мог поддержать, он даже задачи часто неправильно решал.
А потом обновилась сетка, на которой модель вертится, и стало работать не идеально, но вполне пристойно.
Очень забавно, что часть моей работы — тюнинг промптов. Некоторые вещи, связанные с анализом и генерацией текстовых данных без LLM сделать вообще неясно как.
Подбирать промпт, действительно, важно и непросто. Потому что когда запрос в чат-боте отработал однократно, его качество легко увидеть глазами и докрутить, а когда он запускается на тысяче примеров, то косяки глазом уже не видны.
Но, конечно, промпт-инженеринг никакая не профессия, а так, одна из обязанностей в общем наборе.
Удивительно, насколько большая часть работы команды связана не с кодом, а с добыванием и чисткой данных: отсканировать десятки задачников, написать к какой-то части задач хорошие схемы решения, отсмотреть качество автосгенерированных схемы, найти и отредактировать слишком фамильярные реплики тьютора итд.
Продукт-то довольно простой, но под ним толстенная подложка из тщательно отобранных данных. И, вероятно, без неё на современных сетках запустить аналог можно за считанные дни, но качество его работы будет не огонь.
К чему я всё никак не могу привыкнуть, что если тебе для работы что-то требуется, то ты просто заводишь тикет и тратишь десятки чужих рабочих часов (или иногда сотни долларов на запросы к LLM-кам).
Я-то в науке привык к тому, что сначала ты максимум всего автоматизируешь, чтобы уменьшить ручной труд и стоимость, а потом размечаешь то что осталось, нередко самостоятельно. Но в корпоративном мире главный фокус на скорости тестирования гипотез, а не на минимизации усилий. И не на качестве.