Искусственный интеллект

Сравнение SGLang, vLLM и TensorRT-LLM на GPT-OSS-120B

20 авг. 2025 г.

мин на чтение

Рост моделей искусственного интеллекта идет параллельно с развитием инфраструктурных решений. Чем больше становятся LLM, тем выше требования к фреймворкам для инференса. От правильного выбора зависят задержка отклика, пропускная способность и стоимость эксплуатации.

В этой статье мы рассмотрим три ключевых решения - SGLang, vLLM и TensorRT-LLM и сравним их на примере запуска модели GPT-OSS-120B на двух GPU NVIDIA H100.

Обзор фреймворков

SGLang

Фокус: структурированная генерация.
Уникальные технологии: RadixAttention и специализированное управление состояниями.
Сильные стороны: низкая задержка в интерактивных сценариях, точный контроль формата вывода.
Подходит для: агентных систем, генерации структурированных данных, приложений с требовательным UX.

vLLM

Фокус: максимизация пропускной способности.
Технологии: Continuous Batching и PagedAttention для эффективного использования памяти.
Сильные стороны: высокая скорость токенов в секунду, поддержка INT8/INT4/FP8-квантизации.
Подходит для: масштабных систем с тысячами одновременных запросов.

TensorRT-LLM

Фокус: оптимизация под архитектуру NVIDIA (Hopper, Blackwell).
Сильные стороны: максимальная эффективность GPU, минимальная задержка при низкой конкуренции.
Особенности: требует больше настроек, но обеспечивает продакшн-уровень оптимизации.
Подходит для: production-нагрузок, когда важна полная отдача от железа.

Бенчмарк: GPT-OSS-120B на 2x H100

Тесты включали три метрики:

Latency - время до первого токена и задержка между токенами.
Throughput - количество токенов в секунду при разных уровнях конкуренции.
Масштабируемость - устойчивость при росте числа запросов.

Результаты по задержке (TTFT и per-token)

vLLM - лучшее время до первого токена на всех уровнях нагрузки.
SGLang - самая стабильная задержка на токен (4–21 мс).
TensorRT-LLM - самое медленное TTFT, но хорошие результаты на низкой конкуренции.

Результаты по throughput

vLLM - рекордные 4741 токен/сек при 100 запросах.
SGLang - лидер на среднем уровне нагрузки (50 запросов, 3108 токен/сек).
TensorRT-LLM - максимум при единичных запросах (243 токен/сек), но слабое масштабирование.

Анализ и рекомендации

SGLang
- стабильная генерация
- – просадка при высокой конкуренции
- ✔ лучше для средних нагрузок и проектов с акцентом на предсказуемость задержки
vLLM
- рекордный throughput, минимальное TTFT
- – чуть выше задержка на токен при большом числе запросов
- ✔ идеален для высоконагруженных систем, интерактивных приложений и SaaS
TensorRT-LLM
- максимальная отдача на GPU, низкая задержка при единичных запросах
- – слабое масштабирование
- ✔ подходит для low-concurrency сценариев и кастомных оптимизаций под железо

Заключение

Единого «лучшего» фреймворка нет. Каждый оптимизирован под свои цели:

vLLM - для масштабных систем с тысячами пользователей.
SGLang - для стабильной генерации при средних нагрузках.
TensorRT-LLM - для приложений с низкой конкуренцией и глубокой оптимизацией под NVIDIA H100/B200.

Правильный выбор зависит не только от кода, но и от железа: на новых GPU (например, NVIDIA B200) TensorRT-LLM показывает лучшие результаты по всем метрикам.

Подписаться на новости

Subscribe To Out Newsletter

Get the latest tech insights delivered directly to your inbox!

Подписаться на новости

Новые публикации

Искусственный интеллект

LinkedIn: Плейбук по контенту для CEO и основателей

29 сентября 2025 г.

min read

Искусственный интеллект

Новый скачок в мониторинге производительности промышленных проектов

28 сентября 2025 г.

min read

Искусственный интеллект

Как создать персональную CRM-систему с помощью ИИ

23 сентября 2025 г.

min read

Искусственный интеллект

LinkedIn: Плейбук по контенту для CEO и основателей

29 сентября 2025 г.

min read

Искусственный интеллект

Новый скачок в мониторинге производительности промышленных проектов

28 сентября 2025 г.

min read

Искусственный интеллект

LinkedIn: Плейбук по контенту для CEO и основателей

29 сентября 2025 г.

min read

Искусственный интеллект

Новый скачок в мониторинге производительности промышленных проектов

28 сентября 2025 г.

min read

Сравнение SGLang, vLLM и TensorRT-LLM на GPT-OSS-120B

Обзор фреймворков

SGLang

vLLM

TensorRT-LLM

Бенчмарк: GPT-OSS-120B на 2x H100

Результаты по задержке (TTFT и per-token)

Результаты по throughput

Анализ и рекомендации

Заключение

Подписаться на новости

Subscribe To Out Newsletter

Подписаться на новости

Поделиться:

Новые публикации

Новые публикации

Новые публикации

LinkedIn: Плейбук по контенту для CEO и основателей

Новый скачок в мониторинге производительности промышленных проектов

Как создать персональную CRM-систему с помощью ИИ

LinkedIn: Плейбук по контенту для CEO и основателей

Новый скачок в мониторинге производительности промышленных проектов

LinkedIn: Плейбук по контенту для CEO и основателей

Новый скачок в мониторинге производительности промышленных проектов