Там, где когда-то были черные ящики, освещает новый LANTERN

Исследователи из Национального института стандартов и технологий (NIST) разработали новый статистический инструмент, который они использовали для прогнозирования функции белка. Он не только может помочь в сложной работе по изменению белков практически полезными способами, но также работает с помощью полностью интерпретируемых методов — преимущество перед обычным искусственным интеллектом (ИИ), который в прошлом помогал в инженерии белков.


Новый инструмент под названием LANTERN может оказаться полезным в работе, начиная от производства биотоплива и заканчивая улучшением урожая и разработкой новых методов лечения болезней. Белки, как строительные блоки биологии, являются ключевым элементом во всех этих задачах. Но хотя сравнительно легко внести изменения в нить ДНК, которая служит чертежом для данного белка, по-прежнему сложно определить, какие конкретные пары оснований — ступени лестницы ДНК — являются ключами к получению желаемого эффекта. . Поиск этих ключей был задачей ИИ, построенного на основе глубоких нейронных сетей (ГНС), которые, хотя и эффективны, печально известны своей непрозрачностью для человеческого понимания.

Описано в новой статье, опубликованной в Труды Национальной академии наук, LANTERN демонстрирует способность предсказывать генетические изменения, необходимые для создания полезных различий в трех разных белках. Один из них — шиповидный белок с поверхности вируса SARS-CoV-2, вызывающий COVID-19; понимание того, как изменения в ДНК могут изменить этот спайковый белок, может помочь эпидемиологам предсказать будущее пандемии. Два других — хорошо известные лабораторные рабочие лошадки: белок LacI из бактерии E. coli и зеленый флуоресцентный белок (GFP), используемый в качестве маркера в биологических экспериментах. Выбор этих трех предметов позволил команде NIST показать не только то, что их инструмент работает, но и то, что его результаты поддаются интерпретации — важная характеристика для отрасли, которая нуждается в методах прогнозирования, помогающих понять лежащую в основе систему.

«У нас есть подход, который полностью интерпретируется и который также не имеет потери в предсказательной способности», — сказал Питер Тоннер, статистик и вычислительный биолог из NIST и главный разработчик LANTERN. «Существует широко распространенное мнение, что если вы хотите одну из этих вещей, у вас не может быть другой. Мы показали, что иногда вы можете иметь и то, и другое».

Проблему, которую решает команда NIST, можно представить как взаимодействие со сложной машиной, имеющей огромную панель управления, заполненную тысячами немаркированных переключателей: устройство — это ген, цепочка ДНК, кодирующая белок; переключатели представляют собой пары оснований на цепи. Все переключатели так или иначе влияют на выход устройства. Если ваша работа состоит в том, чтобы заставить машину работать по-другому, то какие переключатели вы должны щелкнуть?

Поскольку ответ может потребовать изменения нескольких пар оснований, ученым приходится переворачивать некоторые их комбинации, измерять результат, затем выбирать новую комбинацию и измерять снова. Количество перестановок пугает.

«Количество возможных комбинаций может быть больше, чем количество атомов во Вселенной», — сказал Тоннер. «Вы никогда не сможете измерить все возможности. Это смехотворно большое число».

Из-за огромного количества задействованных данных перед ГНС была поставлена ​​задача отсортировать выборку данных и предсказать, какие пары оснований необходимо перевернуть. В этом они оказались успешными — если вы не попросите объяснить, как они получают свои ответы. Их часто называют «черными ящиками», поскольку их внутреннее устройство непостижимо.

«Очень сложно понять, как DNN делают свои прогнозы», — сказал физик NIST Дэвид Росс, один из соавторов статьи. «И это большая проблема, если вы хотите использовать эти прогнозы для разработки чего-то нового».