Warning: mkdir(): No space left on device in /var/www/hottg/post.php on line 59

Warning: file_put_contents(aCache/aDaily/2025-07-16/post/data_analysis_ml/--): Failed to open stream: No such file or directory in /var/www/hottg/post.php on line 72
✔️ Nano‑vLLM — реализация vLLM @Анализ данных (Data analysis)
TG Telegram Group & Channel
Анализ данных (Data analysis) | United States America (US)
Create: Update:

✔️ Nano‑vLLM — реализация vLLM, написанная с нуля1

Это минималистичный, но быстрый движок для офлайн-инференса LLM. Отлично подойдёт для локальных экспериментов и кастомных решений.

📌 Ключевые фичи:
🚀 Быстрый офлайн-инференс — почти как у vLLM
📖 Простой и читаемый код — всего ~1200 строк на Python
Оптимизации: prefix caching, Torch compilation, CUDA Graph и др.

📦 Установка:

pip install git+https://github.com/GeeeekExplorer/nano-vllm.git


📌 Быстрый старт:
Примеры использования — в example.py.
API максимально похож на vLLM, за исключением метода LLM.generate.

📊 Бенчмарк (на RTX 4070 + модель Qwen3-0.6B):
• Запросов: 256
• Вход: от 100 до 1024 токенов
• Выход: от 100 до 1024 токенов

Результаты:
| Движок | Время (с) | Скорость (токенов/с) |
|--------------|-----------|----------------------|
| vLLM | 98.95 | 1353.86 |
| **Nano-vLLM**| 101.90 | **1314.65** |

💡 Nano‑vLLM показывает почти ту же производительность, что и оригинал, но с компактным и понятным кодом. Идеален для изучения и локальных LLM-проектов.

📌 Github

✔️ Nano‑vLLM — реализация vLLM, написанная с нуля1

Это минималистичный, но быстрый движок для офлайн-инференса LLM. Отлично подойдёт для локальных экспериментов и кастомных решений.

📌 Ключевые фичи:
🚀 Быстрый офлайн-инференс — почти как у vLLM
📖 Простой и читаемый код — всего ~1200 строк на Python
Оптимизации: prefix caching, Torch compilation, CUDA Graph и др.

📦 Установка:

pip install git+https://github.com/GeeeekExplorer/nano-vllm.git


📌 Быстрый старт:
Примеры использования — в example.py.
API максимально похож на vLLM, за исключением метода LLM.generate.

📊 Бенчмарк (на RTX 4070 + модель Qwen3-0.6B):
• Запросов: 256
• Вход: от 100 до 1024 токенов
• Выход: от 100 до 1024 токенов

Результаты:
| Движок | Время (с) | Скорость (токенов/с) |
|--------------|-----------|----------------------|
| vLLM | 98.95 | 1353.86 |
| **Nano-vLLM**| 101.90 | **1314.65** |

💡 Nano‑vLLM показывает почти ту же производительность, что и оригинал, но с компактным и понятным кодом. Идеален для изучения и локальных LLM-проектов.

📌 Github
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥6👍4🥰1


>>Click here to continue<<

Анализ данных (Data analysis)






Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)


Warning: Undefined array key 3 in /var/www/hottg/function.php on line 115

Fatal error: Uncaught mysqli_sql_exception: Can't create/write to file '/tmp/#sql-temptable-a06e-458446-be9.MAI' (Errcode: 28 "No space left on device") in /var/www/hottg/function.php:216 Stack trace: #0 /var/www/hottg/function.php(216): mysqli_query() #1 /var/www/hottg/function.php(115): select() #2 /var/www/hottg/post.php(351): daCache() #3 /var/www/hottg/route.php(63): include_once('...') #4 {main} thrown in /var/www/hottg/function.php on line 216