Самый мощный суперкомпьютер в мире использовал чуть более 8% установленных на нем графических процессоров для обучения большой языковой модели (LLM), содержащей один триллион параметров, что сопоставимо с GPT-4 OpenAI.
Компания Frontier, базирующаяся в Национальной лаборатории Ок-Ридж, использовала 3072 своих графических процессора AMD Radeon Instinct для обучения системы искусственного интеллекта в масштабе триллиона параметров, а также 1024 из этих графических процессоров (примерно 2,5%) для обучения модели со 175 миллиардами параметров. , по сути того же размера, что и ChatGPT.
По словам исследователей, для достижения этих результатов исследователям потребовалось минимум 14 ТБ оперативной памяти. их статья, но каждый графический процессор MI250X имел только 64 ГБ видеопамяти, а это означает, что исследователям пришлось сгруппировать несколько графических процессоров вместе. Однако это создало еще одну проблему в виде параллелизма, а это означало, что компоненты должны были взаимодействовать намного лучше и эффективнее, поскольку общий размер ресурсов, используемых для обучения LLM, увеличивался.
Заставляем самый мощный в мире суперкомпьютер работать
LLM обычно не обучаются на суперкомпьютерах, скорее, они обучаются на специализированных серверах и требуют гораздо большего количества графических процессоров. По данным компании ChatGPT, например, обучение было проведено на более чем 20 000 графических процессорах. Трендфорс. Но исследователи хотели показать, смогут ли они обучить суперкомпьютер гораздо быстрее и эффективнее, используя различные методы, ставшие возможными благодаря архитектуре суперкомпьютера.
Ученые использовали комбинацию тензорного параллелизма (группы графических процессоров, использующих части одного и того же тензора), а также конвейерного параллелизма (группы графических процессоров, на которых размещаются соседние компоненты). Они также использовали параллелизм данных для одновременного использования большого количества токенов и большего количества вычислительных ресурсов. Общий эффект заключался в том, чтобы добиться гораздо более быстрого времени.
Для модели с 22 миллиардами параметров они достигли пиковой пропускной способности 38,38% (73,5 терафлопс), 36,14% (69,2 терафлопс) для модели с 175 миллиардами параметров и пиковой пропускной способности 31,96% (61,2 терафлопс) для модели с 1 триллионом параметров. .
Они также достигли 100% слабой эффективности масштабирования%, а также высокой производительности масштабирования на 89,93% для модели со 175 миллиардами и высокой производительности масштабирования на 87,05% для модели с 1 триллионом параметров.
Хотя исследователи открыто говорили об используемых вычислительных ресурсах и используемых методах, они не упомянули о сроках, необходимых для обучения LLM таким образом.
TechRadar Pro запросил у исследователей время, но на момент написания они не ответили.