Отслеживание происхождения синтетического генетического кода никогда не было простым, но это можно сделать с помощью биоинформатических или, что все чаще, вычислительных подходов с глубоким обучением.
Хотя последнее привлекает львиную долю внимания, новое исследование компьютерного ученого Тодда Треангена из инженерной школы Брауна Университета Райса сосредоточено на том, могут ли методы выравнивания последовательностей и пангеномные методы превзойти недавние подходы к глубокому обучению в этой области.
«Это в некотором смысле противоречит здравому смыслу, учитывая, что подходы глубокого обучения в последнее время превзошли традиционные подходы, такие как BLAST», — сказал он. «Моя цель в этом исследовании — начать разговор о том, как объединить опыт обеих областей для достижения дальнейших улучшений в решении этой важной вычислительной задачи».
Треанген, который специализируется на разработке вычислительных решений для приложений биобезопасности и микробной криминалистики, и его команда в Rice представили PlasmidHawk, биоинформатический подход, который анализирует последовательности ДНК, чтобы помочь идентифицировать источник представляющих интерес плазмид.
«Мы показываем, что подход, основанный на выравнивании последовательностей, может превзойти метод глубокого обучения сверточной нейронной сети (CNN) для конкретной задачи прогнозирования исходной лаборатории», — сказал он.
Исследователи во главе с Треангеном и ведущим автором Ци Ван, аспирантом Райс, сообщили о своих результатах в документе с открытым доступом в Nature Communications.
Программа может быть полезна не только для отслеживания потенциально вредных инженерных последовательностей, но и для защиты интеллектуальной собственности.
«Цель состоит в том, чтобы либо помочь защитить права интеллектуальной собственности авторов последовательностей, либо помочь отследить происхождение синтетической последовательности, если что-то не так, — сказал Треанген.
Треанген отметил недавнюю резонансную статью, в которой описывается методика глубокого обучения рекуррентной нейронной сети (RNN) для отслеживания исходной лаборатории последовательности. Этот метод достиг 70% точности в прогнозировании единственной лаборатории происхождения. «Несмотря на этот важный шаг вперед по сравнению с предыдущим подходом к глубокому обучению, PlasmidHawk предлагает улучшенную производительность по сравнению с обоими методами», — сказал он.