AWS запускает SageMaker Data Wrangler, новую службу подготовки данных для машинного обучения

Сегодня AWS запустила новый сервис, Amazon SageMaker Data Wrangler, который упрощает специалистам по обработке данных подготовку данных для обучения машинному обучению. Кроме того, компания также запускает SageMaker Feature Store, доступный в SageMaker Studio, новой службе, которая упрощает присвоение имен, упорядочивание, поиск и совместное использование функций машинного обучения.

AWS также запускает Sagemaker Pipelines, новый сервис, интегрированный с остальной частью платформы и предоставляющий сервис CI / CD для машинного обучения для создания и автоматизации рабочих процессов, а также контрольный журнал для компонентов модели, таких как данные обучения и конфигурации.

Как отметил гендиректор AWS Энди Ясси в своем выступлении на конференции компании re: Invent, подготовка данных остается серьезной проблемой в сфере машинного обучения. Пользователи должны написать свои запросы и код, чтобы сначала получить данные из своих хранилищ данных, а затем написать запросы для преобразования этого кода и объединения функций по мере необходимости. Вся эта работа фактически сосредоточена не на построении моделей, а на инфраструктуре построения моделей.

Data Wrangler имеет более 300 встроенных предварительно сконфигурированных преобразований данных, которые помогают пользователям преобразовывать типы столбцов или вменять отсутствующие данные средними или медианными значениями. Существуют также некоторые встроенные инструменты визуализации, помогающие выявить потенциальные ошибки, а также инструменты для проверки наличия несоответствий в данных и их диагностики перед развертыванием моделей.



Затем все эти рабочие процессы можно сохранить в записной книжке или в виде сценария, чтобы группы могли их воспроизвести, а также использовать в SageMaker Pipelines для автоматизации остальной части рабочего процесса.

Стоит отметить, что довольно много стартапов работают над одной и той же проблемой. В конце концов, обработка данных машинного обучения – одна из самых распространенных проблем в космосе. Однако по большей части большинство компаний все еще создают свои собственные инструменты, и, как обычно, это делает эту область пригодной для управляемого сервиса.