Сравнение SGLang, vLLM и TensorRT-LLM на GPT-OSS-120B
20 авг. 2025 г.
|
4
мин на чтение
Рост моделей искусственного интеллекта идет параллельно с развитием инфраструктурных решений. Чем больше становятся LLM, тем выше требования к фреймворкам для инференса. От правильного выбора зависят задержка отклика, пропускная способность и стоимость эксплуатации.
В этой статье мы рассмотрим три ключевых решения - SGLang, vLLM и TensorRT-LLM и сравним их на примере запуска модели GPT-OSS-120B на двух GPU NVIDIA H100.
Обзор фреймворков
SGLang
Фокус: структурированная генерация.
Уникальные технологии: RadixAttention и специализированное управление состояниями.
Сильные стороны: низкая задержка в интерактивных сценариях, точный контроль формата вывода.
Подходит для: агентных систем, генерации структурированных данных, приложений с требовательным UX.
vLLM
Фокус: максимизация пропускной способности.
Технологии: Continuous Batching и PagedAttention для эффективного использования памяти.
Сильные стороны: высокая скорость токенов в секунду, поддержка INT8/INT4/FP8-квантизации.
Подходит для: масштабных систем с тысячами одновременных запросов.
TensorRT-LLM
Фокус: оптимизация под архитектуру NVIDIA (Hopper, Blackwell).
Сильные стороны: максимальная эффективность GPU, минимальная задержка при низкой конкуренции.
Особенности: требует больше настроек, но обеспечивает продакшн-уровень оптимизации.
Подходит для: production-нагрузок, когда важна полная отдача от железа.
Бенчмарк: GPT-OSS-120B на 2x H100
Тесты включали три метрики:
Latency - время до первого токена и задержка между токенами.
Throughput - количество токенов в секунду при разных уровнях конкуренции.
Масштабируемость - устойчивость при росте числа запросов.
Результаты по задержке (TTFT и per-token)
vLLM - лучшее время до первого токена на всех уровнях нагрузки.
SGLang - самая стабильная задержка на токен (4–21 мс).
TensorRT-LLM - самое медленное TTFT, но хорошие результаты на низкой конкуренции.
Результаты по throughput
vLLM - рекордные 4741 токен/сек при 100 запросах.
SGLang - лидер на среднем уровне нагрузки (50 запросов, 3108 токен/сек).
TensorRT-LLM - максимум при единичных запросах (243 токен/сек), но слабое масштабирование.
Анализ и рекомендации
SGLang
стабильная генерация
– просадка при высокой конкуренции
✔ лучше для средних нагрузок и проектов с акцентом на предсказуемость задержки
vLLM
рекордный throughput, минимальное TTFT
– чуть выше задержка на токен при большом числе запросов
✔ идеален для высоконагруженных систем, интерактивных приложений и SaaS
TensorRT-LLM
максимальная отдача на GPU, низкая задержка при единичных запросах
– слабое масштабирование
✔ подходит для low-concurrency сценариев и кастомных оптимизаций под железо
Заключение
Единого «лучшего» фреймворка нет. Каждый оптимизирован под свои цели:
vLLM - для масштабных систем с тысячами пользователей.
SGLang - для стабильной генерации при средних нагрузках.
TensorRT-LLM - для приложений с низкой конкуренцией и глубокой оптимизацией под NVIDIA H100/B200.
Правильный выбор зависит не только от кода, но и от железа: на новых GPU (например, NVIDIA B200) TensorRT-LLM показывает лучшие результаты по всем метрикам.