Компания Superconductive, создатель Great Expectations, привлекает 40 миллионов долларов для запуска коммерческой версии своего инструмента контроля качества данных с открытым исходным кодом – TechCrunch

Качество данных — практика тестирования и обеспечения того, чтобы данные и наборы данных, которые вы используете, соответствовали вашим ожиданиям, — стало ключевым компонентом в мире науки о данных. Данные могут быть «новой нефтью»; но если он слишком грубый, вы не сможете его использовать.

Сегодня стартап, создающий инструменты, облегчающие измерение и обеспечивающие качество используемых вами данных, объявляет о некотором финансировании, что является признаком того, как внимание смещается в эту область.


Superconductive — стартап, наиболее известный созданием и поддержкой инструмента качества данных с открытым исходным кодом «Большие надежды» — привлек 40 миллионов долларов в раунде финансирования серии B. Он будет использовать капитал как для продолжения разработки своего продукта с открытым исходным кодом и сообщества, так и для подготовки своего первого коммерческого продукта — менее технической и более доступной версии «Больших надежд», которую можно использовать не только для инженеров и специалистов по данным — планируется запустить в конце этого года.

Как только коммерческое предложение будет выпущено, оно будет называться Great Expectations Cloud.

Как описывает это Эйб Гонг, генеральный директор и соучредитель Superconductive, качество данных уже давно является приоритетом для инженеров и групп специалистов по обработке и анализу данных. Но по мере того, как использование данных и доступ к ним становятся все более демократичными во все более оцифрованных организациях — отчасти благодаря программному обеспечению с низким кодом и без кода — качество данных становится предметом рассмотрения (не «проблемой» или «проблемой», — быстро указывает Гонг). вне) для большего количества людей. Мысль заключается в том, что наличие инструментов качества данных, которые могут использовать и понимать больше людей, даст им возможность понять ограничения или пробелы и исправить их.

«Более широкий вопрос заключается в том, как все в организации достигают точки, когда они доверяют тому, что данные делают и что они пытаются сделать», — сказал он. «Команда инженеров может доверять ему, но он может не согласовываться с другими командами. Неважно, правильно ли это, он все еще сомневается в том, что данные подходят для той цели, для которой я хочу их использовать».

Даже без коммерческого продукта компания Superconductive из Солт-Лейк-Сити привлекает к себе большое внимание. Tiger Global лидирует в раунде, в нем также участвуют предыдущие спонсоры Index, CRV и Root Ventures. Компания не раскрывает свою оценку, но мы понимаем, что разводнение составляет менее 15%, что составляет более 267 миллионов долларов.

Финансирование поступит менее чем через год после того, как в мае 2021 года Superconductive привлекла 21 миллион долларов в рамках серии A. Одна из причин, по которой инвесторы пришли так скоро после последнего раунда, заключается в сильной привлекательности ее инструментов с открытым исходным кодом.

В настоящее время Great Expectations загружают более 2,5 миллионов ежемесячных загрузок (ближе к 3 миллионам, как сказал мне Гонг), в то время как члены его сообщества, которое он поддерживает на Slackуже перешагнул отметку в 6000 (количество загрузок основано на компьютерах, на которых запущена программа «Большие надежды», в то время как Slack пользователи — это инженеры, активно работающие с инструментами). Компании, внедряющие его, включают Vimeo, Heineken, Calm и Komodo Health; и он также находит применение через партнеров по экосистеме Databricks, Astronomer, Prefect и других.

«Большие надежды» начались, когда Гонг и его соучредитель Бен Кастлтон Джеймс Кэмпбелл — оба специалиста по информатике с многолетним опытом работы — изначально создавали инструменты для решения проблемы качества данных для организаций, работающих в сфере здравоохранения. В конечном итоге они переориентировали бизнес на более широкие возможности: проблемы, с которыми столкнулись организации здравоохранения, были такими же, как и у компаний других вертикалей.

Суть дела в том, что когда инженеры создают аналитику или другие инструменты для работы с данными, они могут не учитывать, находятся ли данные, принимаемые этими инструментами, в правильном состоянии для правильного использования (например, даты, введенные в одинаковых согласованных форматах, или, если нет, как лучше их реорганизовать). Или они, возможно, не учитывали различные способы, которыми пользователи аналитики могут в конечном итоге их использовать. Например, что происходит, когда в середине месяца внезапно просматривают панель аналитики на конец месяца? будут ли выводы по-прежнему последовательны или они полностью сбивают людей с толку из-за того, как были настроены формула и процессы?).

«К концу месяца цифры будут правильными, вы можете увидеть падение продаж в середине месяца», — сказал Гонг. «Команда инженеров может сказать, что это правильно, потому что система все еще выполняет расчеты, но с точки зрения бизнеса многое может запутаться, даже если система работает правильно».

Great Expectations стремится «исправить» эти ситуации с помощью инструментов, которые помогают задавать параметры данных, чтобы обеспечить их согласованность и тот же уровень качества. Так называемый репозиторий «ожиданий» — некоторые из них созданы компанией Superconductive, а многие — сообществом — представляют собой декларативные утверждения, настроенные так, чтобы они имели смысл как для людей, так и для компьютеров, чтобы они могли выполнять работу, стоящую за командами.

Superconductive приводит данные Gartner, которые подтверждают идею о том, что качество данных становится все более серьезной проблемой для организаций. По оценкам аналитиков, в настоящее время организации ежегодно несут расходы в размере 12,9 млн долларов из-за низкого качества данных — как из-за того, что данные не работают должным образом, так и из-за решений, к которым привели некачественные данные. Gartner прогнозирует, что в этом году 70% организаций обратятся к отслеживанию уровней качества данных, чтобы решить эту проблему.

Это также означает, что у сверхпроводников есть конкуренты. Такие компании, как Microsoft, SAS, Talend и другие компании создали инструменты качества данных в качестве дополнения к другим предоставляемым ими службам обработки данных. Гонг также сказал, что многие компании создают «доморощенные» решения, хотя они могут столкнуться с ограничениями, как это часто бывает с внутренними инструментами. Сверхпроводимость считает, что у нее есть много возможностей в космосе по нескольким причинам.

Во-первых, это тот факт, что у него уже есть большое сообщество, использующее его инструменты с открытым исходным кодом, которые становятся воронкой для пользователей коммерческого продукта. Во-вторых, он посвящен задаче качества данных.

«Другие, как правило, нарезают его по-другому», — сказал он. «Иногда вы слышите о качестве данных в контексте наблюдаемости данных, поэтому речь идет об инженерах, а не о более широкой роли. Мы видим себя другими, открытым решением снизу вверх, рассматривающим более широкий охват этого как нашу миссию, а не просто инженерную проблему».

Инвесторы, особенно те, кто сталкивался с трудностями отладки программного обеспечения и знал, что такие же проблемы существуют с данными, похоже, согласны с этим.

«Идея была простой, но амбициозной: создать единое место для наблюдения, мониторинга и совместной работы над качеством ваших данных, на любом уровне детализации, в любой системе», — писал Брайан Оффут из Index Ventures во время их первая инвестиция в компанию в 2020 г.1. «Предоставив группам данных сквозной способ мониторинга качества от конвейера до производства, Абэ хотел привнести в мир данных ту же способность выявлять и решать проблемы, которые существуют в традиционном программном обеспечении. . Наконец, группы обработки данных могут выявлять проблемы до того, как они дойдут до конечных пользователей. Как будто Эйб прочитал книгу о каждой проблеме, с которой я столкнулся как инженер, работающий с конвейерами данных. Казалось, что в мире данных есть свой DataDog».

Обновлено с правильным именем соучредителя. Джеймс Кэмпбелл — технический директор, который помог построить «Большие надежды».