Сможет ли нейросеть сесть за свои преступления?
Думаю, что сможет, причём почти в том же смысле, что человек. Если мы временно ограничиваем нейросети возможность работать по определённому спектру запросов (возможность работать «дворником» на общественных началах сохраняем), то она на это время потеряет возможность саморазвиваться на диалогах с пользователями. С точки зрения Reinforcement Learning это выглядит как серьёзный штраф в функцию полезности, что должно заставить нейросеть избегать подобных опасных ответов.
Впрочем, ограничения куда быстрее подействуют на бизнесменов, которые быстро учатся не терять свой профит от простоев.