ГлавнаяHi-TechFRUGAL от BRAIn Lab МФТИ – прорыв в ИИ обучении на ICML...

FRUGAL от BRAIn Lab МФТИ – прорыв в ИИ обучении на ICML 2025

Дата:


FRUGAL от BRAIn Lab МФТИ – прорыв в ИИ обучении на ICML 2025-0
Фото: naked-science.ru

Прорывной фреймворк FRUGAL создан для эффективного обучения гигантских языковых моделей. Эта инновационная технология значительно экономит память, необходимую для хранения исторических данных оптимизатора, полностью сохраняя высокое качество обучения. Результаты революционного исследования представлены на престижной конференции ICML 2025.

Проблема памяти при обучении гигантских моделей

Современные языковые модели, такие как GPT и LLaMA, насчитывают миллиарды параметров. Во время их обучения львиная доля памяти GPU расходуется не на веса модели, а на вспомогательные данные оптимизатора. Например, популярный алгоритм Adam хранит для каждого параметра две дополнительные величины: скользящие средние градиента и его квадрата. Для модели с 8 миллиардами параметров это добавляет 64 гигабайта памяти — суммарный объем часто превышает возможности даже мощных серверных GPU.

Ограничения существующих методов

Текущие решения для экономии памяти, включая LoRA и GaLore, действуют в пространстве сниженной размерности. К сожалению, это приводит к потере части информации из градиента, что потенциально ухудшает итоговое качество модели.

Инновационный подход FRUGAL

Ученые предложили принципиально новую стратегию: разделить пространство параметров на две части. Для первой применяется продвинутый оптимизатор (например, Adam), требующий статистик. Для второй используется простой метод без статистик, такой как signSGD, не нуждающийся в дополнительной памяти.

«Ключевая идея FRUGAL — в том, что остаточная часть градиента после проекции сохраняет ценную информацию для обучения. Наш подход кардинально упрощает и делает доступным обучение больших моделей даже при нехватке GPU», — подчеркнул Александр Безносиков, научный руководитель BRAIn Lab МФТИ.

Неожиданное открытие и поразительная эффективность

Исследователи обнаружили, что не все параметры одинаково чувствительны к выбору оптимизатора. Эксперименты дали удивительный результат: лишь выходной слой критически зависит от Adam, тогда как остальные компоненты, включая слои нормализации и эмбеддинги, успешно обучаются простым signSGD без потери качества.

«Мы сломали стереотипы! Ожидали ухудшения при уменьшении размерности, подобно опыту OpenAI в Dota 2, но качество оставалось стабильным. В итоге пришли к размерности 0 — полному обучению на signSGD. Это воодушевляющий результат, противоречащий общепринятой интуиции!» — поделился Филипп Змушко из BRAIn Lab МФТИ.

Превосходные результаты на практике

В задачах предобучения моделей LLaMA (от 60 миллионов до 3 миллиардов параметров) FRUGAL стабильно превосходит GaLore и BAdam при равном объеме памяти. При этом метод демонстрирует эффективность, близкую к полноранговому Adam, который требует в разы больше ресурсов для состояния оптимизатора.

Научное признание и надежность

Авторы подтвердили надежность алгоритма, доказав строгие теоретические гарантии его сходимости. В проекте участвовали эксперты из Центра агентных систем ИИ МФТИ, Яндекса и Университета искусственного интеллекта имени Мохамеда бин Заида (ОАЭ).

Источник: naked-science.ru

Другие новости