Google утверждает, что его TPU v4 превосходит Nvidia A100

Джейми Хэмптон

6 апреля 2023 г.

В новой научной статье Google подробно описывается производительность суперкомпьютерной платформы Cloud TPU v4, утверждая, что она обеспечивает экзафлопсную производительность для машинного обучения с повышенной эффективностью.

Авторы исследования утверждают, что TPU v4 в 1,2–1,7 раза быстрее и потребляет в 1,3–1,9 раза меньше энергии, чем Nvidia A100 в системах аналогичного размера. В документе отмечается, что Google не сравнивал TPU v4 с новыми графическими процессорами Nvidia H100 из-за их ограниченной доступности и 4-нм архитектуры (по сравнению с 7-нм архитектурой TPU v4).

По мере того как модели машинного обучения становятся больше и сложнее, растут и их потребности в вычислительных ресурсах. Тензорные процессоры Google (TPU) — это специализированные аппаратные ускорители, используемые для построения моделей машинного обучения, в частности глубоких нейронных сетей. Они оптимизированы для тензорных операций и могут значительно повысить эффективность обучения и вывода крупномасштабных моделей машинного обучения. Google заявляет, что производительность, масштабируемость и доступность делают суперкомпьютеры TPU «рабочими лошадками» ее больших языковых моделей, таких как LaMDA, MUM и PaLM.

Суперкомпьютер TPU v4 содержит 4096 чипов, соединенных между собой с помощью запатентованных оптических переключателей (OCS), которые, по утверждению Google, быстрее, дешевле и потребляют меньше энергии, чем InfiniBand, еще одна популярная технология межсоединений. Google утверждает, что ее технология OCS составляет менее 5% стоимости и мощности системы TPU v4, заявляя, что она динамически реконфигурирует топологию межсоединений суперкомпьютера для улучшения масштабируемости, доступности, использования, модульности, развертывания, безопасности, мощности и производительности.

Инженеры Google и авторы статей Норм Джуппи и Дэвид Паттерсон объяснили в своем блоге, что благодаря ключевым инновациям в технологиях межсоединений и предметно-ориентированным ускорителям (DSA) Google Cloud TPU v4 позволил почти в 10 раз повысить производительность системы машинного обучения по сравнению с TPU v3. Это также повысило энергоэффективность примерно в 2–3 раза по сравнению с современными ML DSA и снизило выбросы CO2 примерно в 20 раз по сравнению с DSA в том, что компания называет типичными локальными центрами обработки данных.

Система TPU v4 работает в Google с 2020 года. Чип TPU v4 был представлен на конференции разработчиков систем ввода-вывода 2021 года. В Google говорят, что суперкомпьютеры активно используются ведущими командами ИИ для исследований и производства машинного обучения в языковых моделях, рекомендательных системах и других генеративных ИИ.

Что касается рекомендательных систем, Google заявляет, что ее суперкомпьютеры TPU также являются первыми с аппаратной поддержкой встраивания, ключевого компонента моделей рекомендаций глубокого обучения (DLRM), используемых в рекламе, поисковом рейтинге, YouTube и Google Play. Это связано с тем, что каждый TPU v4 оснащен SparseCores — процессорами потоков данных, которые ускоряют модели, использующие встраивания, в 5–7 раз, но используют только 5% площади кристалла и мощности.

Midjourney, стартап по преобразованию текста в изображение в области искусственного интеллекта, недавно выбрал TPU v4 для обучения четвертой версии своей модели генерации изображений: «Мы гордимся тем, что работаем с Google Cloud, чтобы обеспечить беспрепятственный опыт для нашего творческого сообщества, основанный на глобальной платформе Google. масштабируемая инфраструктура», — сказал Дэвид Хольц, основатель и генеральный директор Midjourney, в своем блоге Google. «От обучения четвертой версии нашего алгоритма на новейших TPU v4 с JAX до выполнения вывода на графических процессорах мы были впечатлены скоростью, с которой TPU v4 позволяет нашим пользователям воплощать в жизнь свои яркие идеи».

Суперкомпьютеры TPU v4 доступны исследователям и разработчикам искусственного интеллекта в кластере ML Google Cloud в Оклахоме, который открылся в прошлом году. Google полагает, что при пиковой совокупной производительности девять эксафлопс этот кластер является крупнейшим общедоступным центром машинного обучения, который работает на 90% безуглеродной энергии. Ознакомьтесь с исследовательской работой TPU v4 здесь.