Совместное исследование исследователей из Медицинского колледжа Бэйлора и компании Illumina продемонстрировало исключительные возможности платформы DRAGEN (динамический анализ чтения для GENomics) в комплексном анализе генома.
Они демонстрируют платформу анализа генома, которая превосходит все существующие методы по скорости и точности для всех типов вариантов, при этом обрабатывая данные полногеномного секвенирования с 35-кратным охватом примерно за 30 минут.
За последнее десятилетие геномное секвенирование стало краеугольным камнем в исследованиях, биотехнологиях и медицинских приложениях. Секвенирование нового поколения дало ученым беспрецедентный инструмент для открытий в области болезней, разнообразия популяций, эволюции и персонализированной медицины.
Проект генома человека, начавшийся в 1990 году, стоил около 2,7 миллиарда долларов, и на завершение грубого картирования одного генома ушло несколько лет. Семь лет назад такой проект занял бы несколько дней и менее 10 000 долларов, и вы могли бы добавить несколько сотен других геномов для секвенирования, пока вы над этим работали.
Улучшения в секвенировании нового поколения привели к резкому сокращению затрат и повышению качества и масштабируемости данных. Это позволило устранить некогда самый большой барьер для проведения геномных исследований — стоимость сбора данных.
По мере развития технологии секвенирования получение огромных объемов данных стало рутинной задачей, что сделало эффективный и точный анализ этих данных новой задачей.
Хотя методы обнаружения однонуклеотидных вариаций (SNV) и небольших инсерций или делеций (инделей) усовершенствовались, другие типы вариантов, такие как структурные вариации (SV), вариации числа копий (CNV) и короткие тандемные повторы (STR), по-прежнему сложно обнаружить. комплексно, без интенсивных усилий по биоинформатике после секвенирования.
DRAGEN использует мультигеномное картирование со ссылками на пангеномы, аппаратное ускорение и обнаружение вариантов на основе машинного обучения для обработки необработанных считываний секвенирования и обнаружения вариантов примерно за 30 минут, что значительно быстрее, чем существующие методы. DRAGEN также включает 14 подкомпонентов, охватывающих SNV, SV, STR, CNV, девять целевых вызывающих абонентов и генотип gVCF.
В статье о DRAGEN «Комплексный анализ генома и обнаружение вариантов в масштабе с использованием DRAGEN», опубликованной в Природная биотехнологияИсследователи провели новую платформу геномного анализа через широкий спектр тестов производительности и проверок точности.
Исследователи продемонстрировали эффективность DRAGEN на 3202 наборах данных полногеномного секвенирования в рамках проекта «1000 геномов». Платформа генерировала полностью генотипированные файлы формата вызова с несколькими выборками, демонстрируя ее масштабируемость и точность.
Тестирование скорости Аппаратное ускорение DRAGEN позволило выполнить полногеномный анализ с 35-кратным охватом примерно за 30 минут.
В масштабном тесте DRAGEN взял на себя обработку 3202 человеческих геномов (также в 35 раз) одновременно и предоставил результаты примерно за два часа (на сервере Illumina Phase4, настроенном на обработку 200 одновременных заданий).
F-показатель (иногда называемый F1-показатель) — это статистический показатель, который сочетает в себе точность и полноту для оценки точности теста. F-мера, близкая к 100%, указывает на высокую точность обнаружения истинных положительных результатов при минимизации ложных положительных и отрицательных результатов.
DRAGEN неизменно превосходил другие инструменты в тестировании F-меры на нескольких выборках небольших вариантов, с более высокими F-мерами и меньшим количеством ложноположительных и отрицательных результатов.
В однонуклеотидных вариантах (SNV) DRAGEN достиг F-меры 99,86%. В частности, DRAGEN выявил около 3,96 миллиона SNV с 2553 ложноположительными и 8610 ложноотрицательными результатами. DeepVariant в сочетании с картографом BWA достиг более низкого F-мера — 99,64%, с 3695 ложноположительными и 24090 ложноотрицательными результатами.
Когда DeepVariant использовался с картографом Giraffe, показатель F немного улучшился до 99,74%, но DRAGEN все равно превзошел его. GATK, еще один широко используемый вариант вызывающего абонента в паре с BWA, показал еще более низкий F-показатель — 99,13%, со значительно большим количеством ложноположительных (38 622) и ложноотрицательных (29 163).
Для вставок и делеций (инделей) размером менее 50 пар оснований (п.н.) DRAGEN сохранял превосходные характеристики с F-мерой 99,80%. Платформа обнаружила около 960 908 инделей, достигнув соотношения вставок к удалениям 1,00 и соотношения HET/HOM 1,865. Инструменты конкурентов показали меньшую точность, с большим количеством ложноположительных и отрицательных результатов.
DeepVariant с BWA показал 4272 ложноположительных и 21957 ложноотрицательных результатов, тогда как GATK с BWA показал значительно больше ошибок при обнаружении indel.
Когда дело дошло до структурных вариаций (SV), равных или превышающих 50 п.н., DRAGEN достиг F-показателя 76,90% для SV инсерционного типа, значительно превосходя Manta с F-показателем 34,90% и Delly с F-показателем. -мера 4,70%.
Что касается SV делеционного типа, DRAGEN снова лидировал с F-показателем 82,60% по сравнению с 70,80% Manta, 68,30% Delly и 66,80% Lumpy (Lumpy не обнаружил SV инсерционного типа).
Для вариаций числа копий (CNV) в диапазоне от 1 тысячи пар оснований (кбп) до более 50 кбп DRAGEN продемонстрировал превосходную производительность, особенно для делеций между 1–5 кбп. В этом диапазоне размеров DRAGEN достиг впечатляющего показателя F — 92,60%, тогда как CNVnator имел гораздо более низкий показатель F — 39,20%.
Для более крупных CNV, например, между 10–20 кбит/с, DRAGEN поддерживал высокие F-показатели выше 94%, демонстрируя свою согласованность для разных размеров CNV.
В исследовании также оценивалась способность DRAGEN обнаруживать варианты в областях генов, значимых с медицинской точки зрения, особенно в каталоге сложных с медицинской точки зрения генов (CMRG).
В этих регионах DRAGEN достиг показателя F 98,64% для SNV и инделей, опередив GATK, показатель F которого составил 95,84%, и DeepVariant с BWA, который достиг 97,32%. DeepVariant с Giraffe показал F-показатель 98,10%, что все еще немного ниже показателей DRAGEN.
Последствия для текущих, будущих и прошлых исследований
Учитывая, что большинство генетически обусловленных заболеваний (или реакций на заболевания) могут быть связаны с одним вариантом гена, точность и разрешение DRAGEN необходимы для обнаружения новых мишеней заболеваний и клинически значимых генетических маркеров.
Благодаря включению специализированных методов анализа медицинских генов с возможностью сравнения и объединения вариантов нескольких классов при выполнении популяционного анализа (3202 человеческих генома одновременно), платформа может значительно продвинуться вперед во всех областях геномных исследований. В контексте медицинских исследований это должно ускорить обнаружение заболеваний, связанных с вариантами, включая менделевские и редкие заболевания.
После столь щедрых похвал результатам исследования продаваемой технологии, всегда скептически настроенный автор этой статьи чувствует необходимость указать, что она не спонсировалась и я никоим образом не связан с Illumina, хотя авторы исследования являются спонсорами.
Я работал со старыми версиями секвенаторов Illumina без аналитической платформы и наблюдал, как биоинформатики немигающим взглядом смотрели на экраны своих компьютеров неделями подряд, изучая плотные данные секвенирования в поисках странного варианта, пока их глаза не налились кровью, а на лицах не появились полосы. со слезами.
Как научный писатель, я ожидаю, что любая новая и улучшенная аналитическая платформа приведет к новым открытиям и свежим идеям о методах лечения, улучшающих результаты лечения пациентов. Как заключили Джеймс Уотсон и Фрэнсис Крик в своей статье 1953 года, в которой объявили об (хотя и не совсем ими) открытии ДНК: «Мы обсудим эти идеи подробно в другом месте».
Дополнительная информация:
Сайрам Бехера и др., Комплексный анализ генома и обнаружение вариантов в масштабе с использованием DRAGEN, Природная биотехнология (2024). DOI: 10.1038/s41587-024-02382-1
© 2024 Сеть Science X
Цитирование: Проверочное тестирование платформы анализа генома нового поколения выявило потенциально революционную технологию (4 ноября 2024 г.), получено 4 ноября 2024 г. с https://phys.org/news/2024-11-validation-gen-genome-anaлиз-platform.html.
Этот документ защищен авторским правом. За исключением любых добросовестных сделок в целях частного изучения или исследования, никакая часть не может быть воспроизведена без письменного разрешения. Содержимое предоставлено исключительно в информационных целях.