Datafold разрешает хаос инженерии данных

Это казалось таким простым. Небольшая проблема схемы в базе данных приводила к нарушению функции приложения, увеличению задержки и ухудшению взаимодействия с пользователем. Инженер по обработке данных внес исправление, чтобы изменить схему, и проблема, казалось, исчезла. Но они не знали, что это небольшое исправление полностью уничтожило все информационные панели, используемые руководством компании. Финансы в плохом состоянии, операторы в ярости, а гендиректор – ну, он даже не знает, работает ли компания в сети.

Для инженеров по обработке данных это не просто повторяющийся кошмар – это повседневная реальность. Десять с лишним лет на всю эту чепуху «данные – новая нефть», а мы по-прежнему управляем данными по частям и без надлежащих систем и средств контроля. Озера данных превратились в океаны данных, а хранилища данных превратились в … ну, как бы ни называлась массивная версия хранилища (я полагаю, хранилище). Инженеры по обработке данных устраняют разрыв между беспорядочным миром реальной жизни и точной природой кода, и им нужны гораздо лучшие инструменты для выполнения своей работы.

Как неофициальный разработчик данных TechCrunch, я лично боролся со многими из этих проблем. Вот что привлекло меня в Datafold.

Datafold – это совершенно новая платформа для управления контролем качества данных. Подобно тому, как программная платформа имеет инструменты контроля качества и непрерывной интеграции, гарантирующие, что код функционирует должным образом, Datafold интегрируется между источниками данных, чтобы гарантировать, что изменения в схеме одной таблицы не нарушат функциональность где-то еще.

Основатель Глеб Межанский не понаслышке знает об этих проблемах. Он осведомлен о своей работе в Lyft, где он был специалистом по обработке данных и инженером по данным, а позже превратился в менеджера по продукту, «сосредоточенного на продуктивности профессионалов в области данных». Идея заключалась в том, что по мере расширения Lyft ему потребовались более совершенные конвейеры и инструменты для работы с данными, чтобы оставаться конкурентоспособными с Uber и другими в своей сфере.

Его уроки, полученные в Lyft, отражают текущую направленность Datafold. Межанский пояснил, что платформа находится в связях между всеми источниками данных и их выходами. Здесь нужно решить две проблемы. Во-первых, «данные меняются, каждый день вы получаете новые данные, и их форма может сильно отличаться по бизнес-причинам или из-за того, что ваши источники данных могут быть повреждены». И во-вторых, «старый код, который используется компаниями для преобразования этих данных, также меняется очень быстро, поскольку компании создают новые продукты, они реорганизуют свои функции… может произойти множество ошибок».



В форме уравнения: беспорядочная реальность + хаос в инженерии данных = недовольные конечные пользователи данных.

С помощью Datafold изменения, внесенные инженерами данных в их извлечения и преобразования, можно сравнить на предмет непреднамеренных изменений. Например, функция, которая раньше возвращала целое число, теперь возвращает текстовую строку – случайная ошибка, внесенная инженером. Вместо того, чтобы ждать, пока инструменты бизнес-аналитики не сработают и от менеджеров не поступит пачка предупреждений, Datafold укажет на наличие какой-то проблемы и определит, что произошло.

Ключевая эффективность здесь заключается в том, что Datafold объединяет изменения в наборах данных – даже в наборах данных с миллиардами записей – в сводки, чтобы инженеры по обработке данных могли понять даже незначительные недостатки. Цель состоит в том, что даже если ошибка возникает в 0,1% случаев, Datafold сможет идентифицировать эту проблему, а также предоставить ее сводку инженеру данных для ответа.

Datafold выходит на рынок, который, откровенно говоря, столь же хаотичен, как и обрабатываемые данные. Он находится на ключевом среднем уровне стека данных – это не озеро данных или хранилище данных для хранения данных, и это не инструменты бизнес-аналитики конечного пользователя, такие как Looker, Tableau или многие другие. Вместо этого он является частью ряда инструментов, доступных инженерам по обработке данных для управления потоками данных и их мониторинга для обеспечения согласованности и качества.

Стартап нацелен на компании, у которых в команде данных не менее 20 человек – это золотая середина, где у группы данных достаточно масштабов и ресурсов, чтобы они могли заботиться о качестве данных.

Сегодня в Datafold работают три человека, и они официально дебютируют на YC Demo Day в конце этого месяца. Его главная мечта – мир, в котором инженерам данных никогда больше не придется получать страницу за ночь, чтобы исправить проблему с качеством данных. Если вы были там, то точно знаете, почему такой продукт ценен.