Более простой путь к лучшему компьютерному зрению

Прежде чем модель машинного обучения сможет выполнить задачу, такую ​​как выявление рака на медицинских изображениях, модель должна быть обучена. Обучение моделей классификации изображений обычно включает демонстрацию модели миллионов примеров изображений, собранных в массивный набор данных.


Однако использование данных реальных изображений может вызвать практические и этические проблемы: изображения могут противоречить законам об авторском праве, нарушать частную жизнь людей или быть предвзятыми в отношении определенной расовой или этнической группы. Чтобы избежать этих ловушек, исследователи могут использовать программы генерации изображений для создания синтетических данных для обучения моделей. Но эти методы ограничены, потому что для ручной разработки программы генерации изображений, которая может создавать эффективные обучающие данные, часто требуются экспертные знания.

Исследователи из Массачусетского технологического института, Лаборатории искусственного интеллекта Watson AI Lab при Массачусетском технологическом институте IBM и других стран выбрали другой подход. Вместо того, чтобы разрабатывать индивидуальные программы генерации изображений для конкретной учебной задачи, они собрали набор данных из 21 000 общедоступных программ из Интернета. Затем они использовали эту большую коллекцию базовых программ генерации изображений для обучения модели ного зрения.

Эти программы создают разнообразные изображения, отображающие простые цвета и текстуры. Исследователи не курировали и не изменяли программы, каждая из которых состояла всего из нескольких строк кода.

Модели, которые они обучили с помощью этого большого набора данных программ, классифицировали изображения более точно, чем другие синтетически обученные модели. И хотя их модели уступали моделям, обученным на реальных данных, исследователи показали, что увеличение количества программ обработки изображений в наборе данных также увеличивает производительность модели, открывая путь к достижению более высокой точности.

«Оказалось, что использование большого количества некурируемых программ на самом деле лучше, чем использование небольшого набора программ, которыми люди должны манипулировать. Данные важны, но мы показали, что без реальных данных можно продвинуться довольно далеко», — говорит Манель Барадад. , аспирант по электротехнике и информатике (EECS), работающий в Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) и ведущий автор статьи, описывающей этот метод.

Среди соавторов Тунчжоу Ван, аспирант EECS в CSAIL; Роджерио Ферис, главный научный сотрудник и менеджер лаборатории искусственного интеллекта Watson MIT-IBM; Антонио Торральба, профессор электротехники и компьютерных наук Delta Electronics и член CSAIL; и старший автор Филипп Изола, адъюнкт-профессор EECS и CSAIL; вместе с другими в JPMorgan Chase Bank и Xyla, Inc. Исследование будет представлено на конференции по системам обработки нейронной информации.

Переосмысление предварительной подготовки

Модели машинного обучения, как правило, предварительно обучены, что означает, что они сначала обучаются на одном наборе данных, чтобы помочь им создать параметры, которые можно использовать для решения другой задачи. Модель для классификации рентгеновских лучей может быть предварительно обучена с использованием огромного набора данных синтетически сгенерированных изображений, прежде чем она будет обучена выполнению своей реальной задачи с использованием гораздо меньшего набора данных реальных рентгеновских лучей.