Искусственный интеллект

Искусственный интеллект

Сравнение SGLang, vLLM и TensorRT-LLM на GPT-OSS-120B

20 авг. 2025 г.

|

4

мин на чтение

Рост моделей искусственного интеллекта идет параллельно с развитием инфраструктурных решений. Чем больше становятся LLM, тем выше требования к фреймворкам для инференса. От правильного выбора зависят задержка отклика, пропускная способность и стоимость эксплуатации.

В этой статье мы рассмотрим три ключевых решения - SGLang, vLLM и TensorRT-LLM и сравним их на примере запуска модели GPT-OSS-120B на двух GPU NVIDIA H100.

Обзор фреймворков

SGLang

  • Фокус: структурированная генерация.

  • Уникальные технологии: RadixAttention и специализированное управление состояниями.

  • Сильные стороны: низкая задержка в интерактивных сценариях, точный контроль формата вывода.

  • Подходит для: агентных систем, генерации структурированных данных, приложений с требовательным UX.

vLLM

  • Фокус: максимизация пропускной способности.

  • Технологии: Continuous Batching и PagedAttention для эффективного использования памяти.

  • Сильные стороны: высокая скорость токенов в секунду, поддержка INT8/INT4/FP8-квантизации.

  • Подходит для: масштабных систем с тысячами одновременных запросов.

TensorRT-LLM

  • Фокус: оптимизация под архитектуру NVIDIA (Hopper, Blackwell).

  • Сильные стороны: максимальная эффективность GPU, минимальная задержка при низкой конкуренции.

  • Особенности: требует больше настроек, но обеспечивает продакшн-уровень оптимизации.

  • Подходит для: production-нагрузок, когда важна полная отдача от железа.

Бенчмарк: GPT-OSS-120B на 2x H100

Тесты включали три метрики:

  1. Latency - время до первого токена и задержка между токенами.

  2. Throughput - количество токенов в секунду при разных уровнях конкуренции.

  3. Масштабируемость - устойчивость при росте числа запросов.

Результаты по задержке (TTFT и per-token)

  • vLLM - лучшее время до первого токена на всех уровнях нагрузки.

  • SGLang - самая стабильная задержка на токен (4–21 мс).

  • TensorRT-LLM - самое медленное TTFT, но хорошие результаты на низкой конкуренции.

Результаты по throughput

  • vLLM - рекордные 4741 токен/сек при 100 запросах.

  • SGLang - лидер на среднем уровне нагрузки (50 запросов, 3108 токен/сек).

  • TensorRT-LLM - максимум при единичных запросах (243 токен/сек), но слабое масштабирование.

Анализ и рекомендации

  • SGLang

    • стабильная генерация

    • – просадка при высокой конкуренции

    • ✔ лучше для средних нагрузок и проектов с акцентом на предсказуемость задержки

  • vLLM

    • рекордный throughput, минимальное TTFT

    • – чуть выше задержка на токен при большом числе запросов

    • ✔ идеален для высоконагруженных систем, интерактивных приложений и SaaS

  • TensorRT-LLM

    • максимальная отдача на GPU, низкая задержка при единичных запросах

    • – слабое масштабирование

    • ✔ подходит для low-concurrency сценариев и кастомных оптимизаций под железо

Заключение

Единого «лучшего» фреймворка нет. Каждый оптимизирован под свои цели:

  • vLLM - для масштабных систем с тысячами пользователей.

  • SGLang - для стабильной генерации при средних нагрузках.

  • TensorRT-LLM - для приложений с низкой конкуренцией и глубокой оптимизацией под NVIDIA H100/B200.

Правильный выбор зависит не только от кода, но и от железа: на новых GPU (например, NVIDIA B200) TensorRT-LLM показывает лучшие результаты по всем метрикам.

Подписаться на новости

Subscribe To Out Newsletter

Get the latest tech insights delivered directly to your inbox!

Подписаться на новости

Поделиться: