Команда из Стэнфорда разработала Sophia — новый способ оптимизации предварительной подготовки больших языковых моделей, который в два раза быстрее существующих подходов.
ChatGPT и другие приложения, основанные на больших языковых моделях (LLM), получают широкое распространение и привлекают большое внимание средств массовой информации. Но горстка крупных технологических компаний доминирует в сфере LLM, потому что предварительная подготовка этих моделей обходится чрезвычайно дорого: сметные расходы начинаются от 10 миллионов долларов и потенциально могут превышать их в десятки или сотни раз.
«Большие языковые модели не очень доступны для небольших организаций или академических групп», — говорит Хонг Лю, аспирант кафедры компьютерных наук Стэнфордского университета.
Чтобы изменить это, Лю и его коллеги решили усовершенствовать существующие методы оптимизации LLM. Результат: подход под названием Sophia, который сокращает время предварительной подготовки вдвое. Подробности этого подхода опубликованы на сервере препринтов arXiv.
Оптимизация Оптимизация
Чтобы лучше оптимизировать предварительную подготовку к поступлению в магистратуру, Лю и его коллеги, в том числе аспирант Стэнфорда Чжиюань Ли, инженер-исследователь Стэнфорда Дэвид Холл, доцент кафедры компьютерных наук Тенгю Ма и доцент Перси Лян, использовали два приема. Первый, известный как оценка кривизны, не нов, но команда Стэнфорда нашла способ сделать его более эффективным.
Чтобы понять их подход, рассмотрим заводскую сборочную линию. Чтобы функционировать эффективно, руководителю завода необходимо оптимизировать количество этапов, необходимых для превращения сырья в конечный продукт, а также понимать и соответствующим образом распределять рабочую нагрузку на каждом этапе производственной линии.
То же самое верно и для предварительной подготовки магистра права. Эти модели имеют миллионы или даже миллиарды параметров, которые Лю сравнивает с рабочими фабрики, стремящимися к тем же целям. Одним из свойств этих параметров является их кривизна, которую Лю рассматривает как максимально достижимую скорость, которой они достигают по мере продвижения к конечной цели предварительно обученного LLM. В метафоре фабрики кривизна сродни рабочей нагрузке заводского рабочего.
Если программа оптимизации сможет оценить эту кривизну (рабочую нагрузку), это может сделать предварительную подготовку LLM более эффективной. Проблема заключается в следующем: оценка кривизны с помощью существующих методов чрезвычайно сложна и дорога. «На самом деле, это дороже, чем выполнять саму работу без прогнозирования кривизны», — говорит Лю. Отчасти именно поэтому современные подходы к оптимизации предварительной подготовки LLM (Adam и его варианты) отказываются от этапа оценки кривизны.
Тем не менее, Лю и его коллеги заметили возможную неэффективность предыдущих методов, которые использовали параметрическую оценку кривизны: предыдущие исследователи обновляли свои оценки кривизны на каждом этапе оптимизации. Команда из Стэнфорда задалась вопросом, могут ли они сделать этот процесс более эффективным, сократив количество обновлений.
Чтобы проверить эту идею, команда Стэнфорда разработала Sophia для оценки кривизны параметров примерно каждые 10 шагов. «Это оказалось огромной победой», — говорит Лю.
Второй оптимизационный прием команды, называемый отсечением, решает смежную проблему: проблему неточной оценки кривизны. «Если оценка неверна, это все равно что дать людям с тяжелой работой еще больше работы. Это делает ситуацию еще хуже, чем если бы оценки вообще не было».
Отсечение предотвращает это, устанавливая пороговое значение или оценку максимальной кривизны. «В нашей фабричной метафоре это похоже на установление ограничения рабочей нагрузки для всех сотрудников», — говорит Лю. Другая метафора, часто применяемая к оптимизации, — это ландшафт холмов и долин, где цель состоит в том, чтобы в конечном итоге оказаться в самой низкой долине. По словам Лю, без подрезки можно приземлиться в седловине между двумя горами. «При оптимизации это не то, чего вы хотите достичь», — говорит он.
Тестирование Sophia и расширение масштабов
Лю и его коллеги использовали Sophia для предварительного обучения относительно небольшого LLM, используя тот же размер модели и конфигурацию, которые использовались для создания GPT-2 OpenAI.
Комбинация оценки кривизны и отсечения, предложенная Софией, позволила оптимизации предварительной подготовки LLM плавно перейти к самой низкой впадине за вдвое меньшее количество шагов и вдвое меньшее время, чем требовалось Адаму.
«Адаптивность Софии отличает ее от Адама», — говорит Лю. «Adam сложнее обрабатывать параметры с неоднородной кривизной, потому что он не может предсказать их заранее».
По словам Лю, это также первый случай за девять лет, когда кто-либо продемонстрировал какое-либо существенное улучшение по сравнению с Адамом в предварительном обучении языковой модели. «Это может означать значительное снижение затрат на обучение реальных крупных моделей». И по мере того, как модели масштабируются, преимущества Софии должны только увеличиваться, говорит он.
Далее Лю и его коллеги надеются разработать более крупный LLM с использованием Sophia. Он также надеется увидеть применение Sophia в других областях машинного обучения, таких как модели компьютерного зрения или мультимодальные модели. «Потребовалось бы некоторое время и ресурсы, чтобы перенести Sophia в новый домен, но поскольку это приложение с открытым исходным кодом, сообщество, безусловно, могло бы это сделать».