Термин глоссария

Инференс (работа модели)

Инференс — это сам момент, когда обученная модель работает: получает ваш запрос и выдаёт ответ. Грубо говоря, это «модель думает прямо сейчас». За инференс по API и берут плату — по числу токенов.

Инференс стоит отличать от обучения. Обучение — это долгий разовый процесс, в котором модель «учат» на текстах. Инференс — это каждое её последующее использование. Когда вы переписываетесь с помощником, каждый ответ — это инференс.

Связанные термины

LLM (большая языковая модель)LLM (large language model, большая языковая модель) — это нейросеть, обученная на огромных объёмах текста и умеющая понимать запрос и продолжать его осмысленным ответом. На LLM работают и чат-боты, и ИИ-помощники вроде Claude Code.
Токен (token)Токен — это кусочек текста, которым ИИ измеряет объём: примерно слово или часть слова. В токенах считают, сколько помещается в контекст и сколько стоит запрос. Грубо: чем больше текста — тем больше токенов.
Стриминг (ответ по мере готовности)Стриминг — это когда ответ модели появляется постепенно, слово за словом, а не возникает целиком в конце. Именно поэтому в чатах текст «печатается» на глазах: его показывают по мере того, как модель его порождает во время инференса.