Когда дело доходит до больших языковых моделей, вы должны создавать или покупать?

От

25.01.2023

Когда дело доходит до больших языковых моделей, вы должны создавать или покупать?

Танмай Чопра
налогоплательщик

Танмай Чопра работает в области машинного обучения в поисковом стартапе Neeva, где обсуждает большие и малые языковые модели. Ранее он курировал разработку глобальных систем ML для противодействия насилию и экстремизму в TikTok.

Прошлым летом он смог это можно описать только как «лето ИИ», особенно с отличными языковыми моделями, которые делают взрывной вход. Мы видели огромные нейронные сети, обученные на огромном массиве данных, которые могут выполнять чрезвычайно впечатляющие задачи, не более известные, чем OpenAI GPT-3 и его новейший и наиболее разрекламированный потомок ChatGPT.

Компании всех форм и размеров во всех отраслях изо всех сил пытаются понять, как внедрить и извлечь выгоду из этой новой технологии. Но бизнес-модель OpenAI претерпела не меньше изменений, чем ее вклад в обработку естественного языка. В отличие от почти всех предыдущих выпусков флагманской модели, этот не поставляется с предварительно обученными весами с открытым исходным кодом, а это означает, что команды машинного обучения не могут просто загрузить модели и настроить их для своих собственных вариантов использования.

Вместо этого они должны платить, чтобы использовать их как есть, или платить за подгонку моделей, а затем платить за их использование в четыре раза больше, чем плата за их использование. Конечно, компании по-прежнему могут выбирать другие подобные модели с открытым исходным кодом.

Это породило старый корпоративный вопрос, но совершенно новый для машинного обучения: лучше купить или развивать эту технологию?

Важно отметить, что на этот вопрос нет однозначного ответа; Я не пытаюсь дать общий ответ. Я имею в виду подчеркивание плюсов и минусов обоих путей и предложение структуры, которая могла бы помочь компаниям оценить, что им подходит, а также предоставление некоторых промежуточных путей, которые пытаются включать компоненты из обоих миров.

Покупка: быстро, но с понятными ловушками

В то время как сборка выглядит привлекательно в долгосрочной перспективе, она требует лидерства с сильным аппетитом к риску, а также глубоких сундуков, чтобы поддержать этот аппетит.

Начнем с покупки. Существует большое количество поставщиков моделей как услуг, которые предлагают пользовательские модели в качестве API, взимая плату за каждый запрос. Этот подход является быстрым, надежным и практически не требует предварительных капитальных затрат. По сути, этот подход снижает риски проектов машинного обучения, особенно для компаний, вступающих в эту область, и требует ограниченного внутреннего опыта, помимо инженеров-программистов.

Проекты можно запускать без необходимости в опытном персонале по машинному обучению, а выходные данные модели могут быть достаточно предсказуемыми, поскольку компонент машинного обучения приобретается с набором гарантий в отношении вывода.

К сожалению, у этого подхода есть очень явные ловушки, не последней из которых является ограниченная защита продукта. Если вы покупаете модель, которую каждый может купить и интегрировать в свои системы, не будет слишком надуманным предположить, что ваши конкуренты смогут достичь паритета продуктов так же быстро и надежно. Это будет правдой, если вы не сможете создать восходящий ров с помощью невоспроизводимых методов сбора данных или нижний ров с помощью интеграций.

Кроме того, для высокопроизводительных решений масштабирование такого подхода может быть чрезвычайно дорогостоящим. Для сравнения: DaVinci от OpenAI стоит 0,02 доллара за тысячу токенов. По консервативным оценкам, предполагая 250 токенов на запрос и ответы аналогичного размера, вы платите 0,01 доллара США за запрос. За продукт со 100 000 запросов в день вы будете платить более 300 000 долларов в год. Очевидно, что текстовые приложения (пытающиеся создать статью или участвовать в чате) повлекут за собой еще более высокие затраты.

Вы также должны знать об ограниченной гибкости, связанной с этим подходом: либо используйте модели как есть, либо платите намного больше за их настройку. Стоит помнить, что последний подход будет включать в себя период молчаливой «блокировки» с провайдером, поскольку настроенные модели будут храниться в их цифровом хранилище, а не в вашем.

Строительство: гибкое и надежное, но дорогое и рискованное

С другой стороны, создание собственной технологии позволяет обойти некоторые из этих проблем.