(←) предыдущая запись ; следующая запись (→)
HOCOMOCO v12, 2023/24 года покрывает уже 949 человечьих и 716 мышиных белков (на 40% больше!). С момента прошлой публикации минуло 5 лет, поэтому количество данных запредельно выросло. Тут бешенные тысячи и чипсеков, и селексов (которые мы, наконец, научились хорошо обрабатывать). Заодно добавились метилированные селексы — чтобы поисследовать метил-зависимые мотивы (немногочисленные, впрочем).
У нас получилось больше полумиллиона (!!) мотивов для нашей тысячи факторов транскрипции. И эти 516,000 мотивов были в полуручном (!!!) режиме откурированы и разобраны на подтипы. Дальше мы пробенчмаркали наши мотивы уже не одним способом, а шестью: три бенчмарка, специфичных для in vivo данных, один для in vitro и ещё два бенчмарка, показывающих качество предсказания регуляторных вариантов. По результатам бенчмарка (это пол терабайта данных, чтоб вы понимали) мы выбрали по одному мотиву на подтип. Наконец мы собрали одну универсальную коллекцию, прилично работающую в любом сеттинге, и ещё три специализированные для этих трёх типов задач (предсказание сайтов in vivo, in vitro, предсказание регуляторных снипов).
Исходно, в 2019-м мы планировали делать базу на разные виды. Потом концепция поменялась, потом поменялась ещё раз.
В этой версии мы наконец отказались от динуклеотидных моделей: они дают профит при построении мотива, а прирост качества от них в режиме поиска оказался крошечным. Заодно мы отказались от явного разделения моделей мышиных и человечьих белков, так как мотивы их сайтов связывания ужасно консервативны (в отличие от самих сайтов), что мы доказали в прошлой версии базы: часто мышиный мотив работает в человеке лучше, чем «родной» и наоборот.
Благодаря почищенному TFClass, вероятно, к нынешней версии базы удастся в скором времени добавить non-redundant коллекцию мотивов: средненько работающие, зато сразу на целых семействах белков. Ну и для 13-й версии базы у нас уже практически всё готово: есть ещё одна гигантская партия данных, белков на 100 — считая только новые, которая пока непублична, но уже обработана.
(3/3)