(←) предыдущая запись ; следующая запись (→)

Александра Элбакян выложила базу sci-hub в открытый доступ (и в отличие от торрентов либгена, эти архивы действительно скачиваются). Когда-нибудь на базе этого, хочется верить, появится децентрализованный и непотопляемый сайхаб, ну а сейчас владельцы хранилища на 60 ТБ могут сделать себе полный дамп сайхаба. /* Надеюсь, мне тоже удастся обзавестить резервной копией */
Дополнительный и ОЧЕНЬ приятный бонус: параллельно со статьями выложены распознанные тексты статей. По моим прикидкам там всего 0.5 - 1 ТБ, сегодня такой объем может себе позволить даже нищий студент.
Надеюсь, что в ближайшие годы на базе этого датасета будет сделано много интереснейших работ по текст-майнингу, изучению ландшафта науки и созданию инструментов для исследователей. Если вы ищете себе или своему студенту тему для курсовой по анализу данных и NLP, считайте, что вы её нашли ;)
https://vk.com/wall-36928352_32766