Хотите, чтобы был более быстрый способ поймать мошеннические документы? Или выяснить, какие типы исследований чаще всего публикуются авторами-женщинами? Удачи вам в попытках определить тенденции в научной литературе — болоте из миллионов статей, размер которых увеличивается с неумолимой скоростью.
Теперь есть надежда благодаря искусственному интеллекту (ИИ). Новый общедоступный атлас биомедицинских статей, опубликованный на сервере препринтов bioRxiv, отображает отношения между почти 21 миллионом статей, предоставляя «вид с высоты птичьего полета» литературы. Если его поддерживать в актуальном состоянии, он может помочь научным сыщикам выявлять закономерности и тенденции, которые другим людям трудно отследить.
Атлас «дает убедительную картину всей структуры биомедицины», — говорит Кевин Бояк, ученый-информатик, работающий над аналогичными методами визуализации в исследовательской консалтинговой компании SciTech Strategies. «Это должно оказаться весьма полезным при рассмотрении тенденций высокого уровня».
Предыдущие инструменты для визуализации биомедицинской литературы, как правило, отображали публикации в соответствии с общими цитатами. Или они собрали вместе статьи, содержащие схожие научные термины. Эти инструменты полезны для изучения тенденций в узких областях исследований или поиска соответствующих статей в литературе. Но «одна из наших целей состояла в том, чтобы изучить более широкие, интересные для общества вопросы», — говорит Дмитрий Кобак, специалист по данным из Тюбингенского университета и соавтор новой статьи.
Для создания атласа команда Кобака загрузила аннотации почти 21 миллиона англоязычных статей из поисковой системы PubMed. Затем команда использовала большую языковую модель ИИ, известную как PubMedBERT, для сортировки тезисов по сходству. Модель искала научные термины в каждом реферате и интерпретировала их значение в соответствии с окружающим текстом. (Например, PubMedBERT сделает вывод, относится ли слово «реплицировать» к скопированной ДНК или к повторному эксперименту.) На основе этого анализа похожие публикации были сгруппированы вместе в так называемые «окрестности».
Изучив эту информацию, команда создала удобный для навигации, 2D-атлас всех 21 миллиона статей. Публикации разбросаны по круглой карте, а статьи из одной и той же области имеют тенденцию группироваться в большие пачки с цветовой кодировкой, похожие на колонии бактерий в чашке Петри. Увеличьте масштаб, и станут видны меньшие районы связанных статей по более узким темам.
Затем с помощью нескольких дополнительных инструментов исследователи использовали атлас для визуального изучения общих тенденций в литературе. В одном анализе они использовали алгоритм для предсказания пола имен авторов. Во всей изученной биомедицинской литературе они обнаружили, что 42,4% первых авторов, но только 29,1% последних авторов были женщинами, что согласуется с другой работой, в которой было обнаружено, что меньшее количество женщин продвигается на руководящие должности в науке. Но этот гендерный разрыв значительно варьировался в разных областях атласа: например, в области здравоохранения команда обнаружила пачку статей по хирургии, написанных в основном авторами-мужчинами, тогда как в другой пачке по уходу за пациентами преобладали женщины. авторы. Это говорит о том, что атлас может помочь определить конкретные области исследований, в которых женщины в науке наиболее недопредставлены.

Атлас также может быть полезен для выявления мошеннических исследований. В другом анализе команда Кобака выделила почти 12 000 статей, которые были отмечены как отозванные в базе данных PubMed. Эти бумаги были разбросаны по всему атласу, но многие из них сгруппированы в плотные «острова». На одном из таких островков было несколько отозванных статей, посвященных функциям малоизученных микроРНК в борьбе с раком — популярной теме мошеннических статей, выпускаемых бумажными фабриками, которые штампуют поддельную научную литературу.
Кобак утверждает, что внимательное изучение этих регионов может помочь выявить другие подозрительные документы. Действительно, когда исследователи изучили 25 других неотобранных бумаг, которые были частью этого острова, они обнаружили явные признаки того, что они, возможно, также были произведены на бумажных фабриках: например, названия многих из этих бумаг следовали точно такому же шаблону. , и все, кроме одного, содержали авторов, связанных с китайскими больницами, которые являются известными целями для бумажных фабрик.
Эти области атласа вполне могут потребовать дальнейшего изучения, соглашается Дженнифер Бирн, исследователь добросовестности публикации из Сиднейского университета. Но, предупреждает она, «кластеры похожих документов потребуют дополнительной проверки, чтобы избежать ошибочной пометки подлинных документов».
Пока что атлас охватывает только биомедицинскую литературу до 2021 года, а также очень небольшое количество статей за 2022 год. Чтобы идти в ногу с текущими тенденциями, Кобак и его команда планируют обновить инструмент статьями за последние 2 года, и они надеются создавать аналогичные визуализации и для других литературных баз данных.