Databricks упрощает перенос данных в «озеро»

Databricks сегодня объявила о запуске своей новой сети партнеров по сбору данных и запуск ее Databricks Ингест сервис Идея заключается в том, чтобы упростить для предприятий объединение лучших хранилищ данных и озер данных в единую платформу – концепцию, которую Databricks любит называть «домом для озера».

В центре озера компании находится Дельта ЛейкПроект Linux с открытым исходным кодом, управляемый Databricks, который предоставляет новый уровень хранения в озерах данных, который помогает пользователям управлять жизненным циклом своих данных и обеспечивает качество данных посредством применения схем, записей журналов и многого другого. Пользователи Databricks теперь могут работать с первыми пятью партнерами в Ingestion Network – Fivetran, Qlik, Infoworks, StreamSets, Syncsort – для автоматической загрузки своих данных в Delta Lake. Чтобы получать данные от этих партнеров, клиентам Databricks не нужно устанавливать какие-либо триггеры или расписания – вместо этого данные автоматически поступают в Delta Lake.

«До сих пор компании были вынуждены разделять свои данные на традиционные структурированные данные и большие данные и использовать их отдельно для вариантов использования BI и ML. Это приводит к потере данных в озерах и хранилищах данных, медленной обработке и частичным результатам, которые слишком задержаны или слишком неполны, чтобы их можно было эффективно использовать », – говорит Али Годси, соучредитель и генеральный директор Databricks. «Это один из многих факторов, вызвавших переход к парадигме Lakehouse, которая стремится объединить надежность хранилищ данных с масштабом озер данных для поддержки любого варианта использования. Для того, чтобы эта архитектура работала хорошо, должно быть легко извлекать данные любого типа. Входные блоки данных – это важный шаг к тому, чтобы это стало возможным ».

Вице-президент по Databricks или по маркетингу продуктов Бхарат Говда также говорит мне, что это облегчит предприятиям аналитику их самых последних данных и, следовательно, будет более отзывчивым при поступлении новой информации. Он также отметил, что пользователи смогут лучше использовать свои структурированные данные. и неструктурированные данные для построения более совершенных моделей машинного обучения, а также для выполнения более традиционной аналитики для всех своих данных вместо всего лишь небольшого среза, доступного в их хранилище данных.