Hugging Face и ServiceNow запускают BigCode, проект систем искусственного интеллекта с открытым исходным кодом • TechCrunch

Hugging Face и ServiceNow запускают BigCode, проект систем искусственного интеллекта с открытым исходным кодом • TechCrunch

Системы генерации кода, такие как AlphaCode от DeepMind, AmazonCodeWhisperer от OpenAI и Codex от OpenAI, на котором работает сервис GitHub Copilot, дают дразнящий взгляд на то, что сегодня возможно с искусственным ом в сфере компьютерного программирования. Но до сих пор лишь несколько таких систем искусственного интеллекта были предоставлены в свободный доступ для общественности и с открытым исходным кодом, что отражает коммерческие стимулы компаний, их создающих.

Стремясь изменить это, ИИ-стартап и Research, научно-исследовательское подразделение ServiceNow, сегодня запустили BigCode, новый проект, целью которого является разработка «современных» ИИ-систем для кода в «открытой и ответственной» среде. путь. Цель состоит в том, чтобы в конечном итоге выпустить набор данных, достаточно большой для обучения системы генерации кода, которая затем будет использоваться для создания прототипа — модели с 15 миллиардами параметров, больше по размеру, чем Кодекс (12 миллиардов параметров), но меньше, чем AlphaCode (~ 41,4 миллиарда параметров) — с использованием собственного кластера графических карт ServiceNow. В машинном обучении параметры — это части системы ИИ, полученные из исторических данных обучения, и по существу определяют навыки системы в решении проблемы, такой как генерация кода.


Организаторы говорят, что BigCode, вдохновленный усилиями Hugging Face BigScience по созданию сложных систем генерации текста с открытым исходным кодом, будет открыт для всех, кто имеет профессиональный опыт исследований в области искусственного интеллекта и может посвятить время проекту. Форма заявки была запущена сегодня днем.

«В целом, мы ожидаем, что соискатели будут связаны с исследовательской организацией (будь то академической или отраслевой) и будут работать над техническими/этическими/юридическими аспектами [large language models] для кодирования приложений», — написал ServiceNow в своем блоге. “Однажды [code-generating system] обучается, мы оценим его возможности… Мы постараемся сделать оценку проще и шире, чтобы мы могли больше узнать о [system’s] возможности».

Совместно разрабатывая систему генерации кода, исходный код которой будет открыт в соответствии с лицензией, позволяющей разработчикам повторно использовать ее при соблюдении определенных условий, BigCode стремится разрешить некоторые противоречия, возникшие вокруг практики ИИ. мощная генерация кода — особенно в отношении добросовестного использования. Некоммерческая организация Software Freedom Conservancy, среди прочего, раскритиковала GitHub и OpenAI за использование общедоступного исходного кода, не весь из которого находится под разрешительной лицензией, для обучения и монетизации Codex. Codex доступен через платный API OpenAI, а GitHub недавно начал взимать плату за доступ к Copilot. Со своей стороны, GitHub и OpenAI продолжают утверждать, что Codex и Copilot не нарушают никаких условий лицензии.

Организаторы BigCode заявляют, что приложат все усилия, чтобы в вышеупомянутый набор обучающих данных попадали только файлы из репозиториев с разрешительными лицензиями. По их словам, они будут работать над созданием «ответственных» методов ИИ для обучения и обмена кодогенерирующими системами всех типов, запрашивая отзывы у соответствующих заинтересованных сторон, прежде чем делать политические заявления.

ServiceNow и Hugging Face не указали сроков завершения проекта. Но они ожидают, что в течение следующих нескольких месяцев он изучит несколько форм генерации кода, включая системы, которые автоматически дополняют и синтезируют код из фрагментов кода и описаний на естественном языке и работают в широком диапазоне областей, задач и языков программирования.

Если предположить, что этические, технические и юридические вопросы когда-нибудь будут устранены, инструменты кодирования на основе ИИ могут существенно сократить затраты на разработку, позволяя программистам сосредоточиться на более творческих задачах. Согласно исследованию Кембриджского университета, по крайней мере половина усилий разработчиков тратится на отладку, а не на активное программирование, что обходится индустрии программного обеспечения примерно в 312 млрд. долл. в год.