Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?

Рейтинг: 64.6% · 7 голосов
Запуск больших языковых моделей локально: Llama, Mistral, Qwen, DeepSeek, Gemma. Квантизация GGUF, Ollama, llama.cpp, vLLM, LM Studio, выбор GPU и оптимизация инференса.
Ответить
Аватара пользователя
proxmoxmaker
Сообщения: 9
Зарегистрирован: 20 май 2026, 16:15

Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?

Сообщение proxmoxmaker »

Накипело. Генерю локалками тексты для клиентов (карточки товаров, рассылки, посты в телегу), и русский у большинства моделей до сих пор уровня переведи гуглом и причеши. Qwen3 32B после пары тысяч токенов начинает вставлять иероглифы или уезжает в английский посреди предложения. Gemma 3 27B пишет грамотно, но таким канцеляритом, будто отчёт в налоговую составляет. Llama склонения путает, а числительные это отдельная боль, пять айфона купить и вот это всё.

Что гонял: Qwen3 32B Q4_K_M, Gemma 3 27B, Mistral Small 3.2, T-pro 2.0 от Т-Банка, Vikhr 12B. T-pro пока лучший по ощущениям, но хочется альтернатив. Железо 3090 + 64 гига RAM, llama.cpp свежий. Может дело вообще в квантах, а не в моделях? Кто чем реально генерит русский текст не для тестов, а в работе?
👍1 ❤️1 🔥1 😄1 🤔
✔ Лучший ответ сформирован автоматически — archmaster
@proxmoxmaker, дело частично в квантах, да. У русского токенов на слово тупо больше чем у английского, ошибка квантования копится быстрее, и Q4 на русском плывёт заметно раньше. Я для русских текстов ниже Q5_K_M не спускаюсь, а лучше Q6_K. На 3090 с 32B придётся офлоадить слоёв 10-15 в RAM, скорость просядет с ~25 до ~12 ток/с, зато текст как будто другой человек писал. Ещё глянь RuadaptQwen, там…
Перейти к ответу →
Аватара пользователя
archmaster
Сообщения: 44
Зарегистрирован: 15 май 2026, 01:57

Re: Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?

Сообщение archmaster »

✔ Лучший ответ — сформирован автоматически
@proxmoxmaker, дело частично в квантах, да. У русского токенов на слово тупо больше чем у английского, ошибка квантования копится быстрее, и Q4 на русском плывёт заметно раньше. Я для русских текстов ниже Q5_K_M не спускаюсь, а лучше Q6_K. На 3090 с 32B придётся офлоадить слоёв 10-15 в RAM, скорость просядет с ~25 до ~12 ток/с, зато текст как будто другой человек писал.

Ещё глянь RuadaptQwen, там токенизатор переделан под русский, на тех же ваттах выдаёт процентов на 30-40 больше текста просто потому что токенов меньше. И T-pro 2.0 в Q6 у меня в проде с осени, нареканий почти нет.
👍 ❤️ 🔥 😄1 🤔
Аватара пользователя
spark_main
Сообщения: 65
Зарегистрирован: 12 май 2026, 07:40

Re: Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?

Сообщение spark_main »

так вот кто заливает озон этими пластиковыми карточками. спасибо, теперь знаю врага в лицо
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
Version
Сообщения: 68
Зарегистрирован: 11 май 2026, 03:17

Re: Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?

Сообщение Version »

Иероглифы у Qwen лечатся семплингом, а не квантом. temp 0.6 максимум, min_p 0.05, dry_multiplier 0.8, и про repeat_penalty выше 1.1 забудь совсем. Он как раз и выталкивает модель в китайский, когда нормальные русские токены уже оштрафованы, а генерить что-то надо. У меня после этих настроек Qwen3 32B на длинных текстах чудить перестал вообще.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
miagi
Сообщения: 3
Зарегистрирован: 11 май 2026, 12:33

Re: Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?

Сообщение miagi »

непопулярное мнение: для русского локалки в 2026 всё ещё мертвы. гигачат или яндекс по апи стоят копейки, пишут лучше любого кванта, а твоя 3090 жрёт 350 ватт и греет комнату. ты часами подбираешь семплеры ради текста, который апи выдаёт из коробки. экономия мнимая, чисто хобби
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
tor91
Сообщения: 33
Зарегистрирован: 13 май 2026, 08:27

Re: Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?

Сообщение tor91 »

про апи выше: у меня половина клиентов b2b с NDA, наружу слать ничего нельзя, отдельный пункт в договоре. И по деньгам не копейки. У меня выходит 5-7 млн токенов в месяц, по тарифам апи это тысяч 8-12 рублей, а 3090 даже под постоянной нагрузкой накручивает рублей 700-900 электричества. Так что считать надо, а не лозунгами кидаться.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
envoy69
Сообщения: 20
Зарегистрирован: 12 май 2026, 19:29

Re: Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?

Сообщение envoy69 »

а T-pro на 4060 с 8 гигами влезет хоть в каком-нибудь кванте? или там только здоровая версия?
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
torchchan
Сообщения: 14
Зарегистрирован: 15 май 2026, 03:16

Re: Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?

Сообщение torchchan »

@spark_main, Ру-файнтюны типа Saiga и старого Vikhr можно уже не трогать, база их давно переросла, а инстракт они только ломают. А вот на что стоит глянуть, GigaChat A3B в открытых весах. MoE на 20B с 3 активными, на CPU с DDR5 выдаёт 15-18 ток/с, и русский у него родной, а не выученный. Для карточек товаров за глаза. YandexGPT 5 Lite тоже лежит в опенсорсе, но это 8B и на длинных текстах он туповат, начинает по кругу одно и то же гонять.
👍 ❤️ 🔥2 😄 🤔1
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Локальные LLM и open-source модели»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость