Термин глоссария

Стриминг (ответ по мере готовности)

Стриминг — это когда ответ модели появляется постепенно, слово за словом, а не возникает целиком в конце. Именно поэтому в чатах текст «печатается» на глазах: его показывают по мере того, как модель его порождает во время инференса.

Стриминг удобнее для человека: не нужно ждать весь ответ молча, видно, что работа идёт, и можно начать читать раньше. На суть ответа это не влияет — меняется только то, как он до вас доезжает: потоком или целиком.

Связанные термины

Инференс (работа модели)Инференс — это сам момент, когда обученная модель работает: получает ваш запрос и выдаёт ответ. Грубо говоря, это «модель думает прямо сейчас». За инференс по API и берут плату — по числу токенов.
LLM (большая языковая модель)LLM (large language model, большая языковая модель) — это нейросеть, обученная на огромных объёмах текста и умеющая понимать запрос и продолжать его осмысленным ответом. На LLM работают и чат-боты, и ИИ-помощники вроде Claude Code.