В 2023 году компания Meta представила свой собственный ускоритель вывода на основе искусственного интеллекта первого поколения, предназначенный для поддержки моделей ранжирования и рекомендаций, которые являются ключевыми компонентами Facebook и Instagram.
Чип Meta Training and Inference Accelerator (MTIA), который может выполнять вывод, но не обучение, был обновлен в апреле и удвоил вычислительную мощность и пропускную способность памяти первого решения.
На недавнем симпозиуме Hot Chips в прошлом месяце Meta выступила с презентацией своего MTIA следующего поколения и признала, что использование графических процессоров для рекомендательных движков не лишено проблем. Гигант социальных сетей отметил, что пиковая производительность не всегда означает эффективную производительность, крупные развертывания могут быть ресурсоемкими, а ограничения по емкости усугубляются растущим спросом на генеративный ИИ.
Таинственное расширение памяти
Принимая это во внимание, цели разработки Meta для следующего поколения MTIA включают повышение производительности на совокупную стоимость владения и на ватт по сравнению с предыдущим поколением, эффективную обработку моделей в нескольких сервисах Meta и повышение эффективности работы разработчиков для быстрого достижения масштабных развертываний.
Последняя версия MTIA от Meta значительно повышает производительность благодаря GEN-O-GEN, которая увеличивает GEMM TOP в 3,5 раза до 177 TFLOPS на BF16, аппаратному тензорному квантованию для точности, сравнимой с FP32, и оптимизированной поддержке PyTorch Eager Mode, что позволяет запускать задания менее чем за 1 микросекунду и заменять задания менее чем за 0,5 микросекунды. Кроме того, оптимизация TBE улучшает время загрузки и предварительной выборки индексов встраивания, достигая в 2-3 раза более быстрого времени выполнения по сравнению с предыдущим поколением.
Чип MTIA, созданный по 5-нм техпроцессу TSMC, работает на частоте 1,35 ГГц с количеством вентилей 2,35 миллиарда и обеспечивает производительность GEMM 354 TOPS (INT8) и 177 TOPS (FP16), используя 128 ГБ памяти LPDDR5 с пропускной способностью 204,8 ГБ/с, и все это в пределах 90 Вт TDP.
Элементы обработки построены на ядрах RISC-V, имеющих как скалярные, так и векторные расширения, а модуль ускорителя Meta включает два ЦП. На Hot Chips 2024, ServeTheHome заметил расширение памяти, связанное с коммутатором PCIe и процессорами. Когда его спросили, CXL ли это, Мета довольно скромно ответил: «это возможность добавить память в шасси, но в настоящее время она не развертывается».