Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?

proxmoxmaker

Накипело. Генерю локалками тексты для клиентов (карточки товаров, рассылки, посты в телегу), и русский у большинства моделей до сих пор уровня переведи гуглом и причеши. Qwen3 32B после пары тысяч токенов начинает вставлять иероглифы или уезжает в английский посреди предложения. Gemma 3 27B пишет грамотно, но таким канцеляритом, будто отчёт в налоговую составляет. Llama склонения путает, а числительные это отдельная боль, пять айфона купить и вот это всё.

Что гонял: Qwen3 32B Q4_K_M, Gemma 3 27B, Mistral Small 3.2, T-pro 2.0 от Т-Банка, Vikhr 12B. T-pro пока лучший по ощущениям, но хочется альтернатив. Железо 3090 + 64 гига RAM, llama.cpp свежий. Может дело вообще в квантах, а не в моделях? Кто чем реально генерит русский текст не для тестов, а в работе?

archmaster · Сообщение **archmaster** » 09 июн 2026, 19:05

@proxmoxmaker, дело частично в квантах, да. У русского токенов на слово тупо больше чем у английского, ошибка квантования копится быстрее, и Q4 на русском плывёт заметно раньше. Я для русских текстов ниже Q5_K_M не спускаюсь, а лучше Q6_K. На 3090 с 32B придётся офлоадить слоёв 10-15 в RAM, скорость просядет с ~25 до ~12 ток/с, зато текст как будто другой человек писал.

Ещё глянь RuadaptQwen, там токенизатор переделан под русский, на тех же ваттах выдаёт процентов на 30-40 больше текста просто потому что токенов меньше. И T-pro 2.0 в Q6 у меня в проде с осени, нареканий почти нет.

spark_main · Сообщение **spark_main** » 09 июн 2026, 23:38

так вот кто заливает озон этими пластиковыми карточками. спасибо, теперь знаю врага в лицо

Version · Сообщение **Version** » 10 июн 2026, 00:32

Иероглифы у Qwen лечатся семплингом, а не квантом. temp 0.6 максимум, min_p 0.05, dry_multiplier 0.8, и про repeat_penalty выше 1.1 забудь совсем. Он как раз и выталкивает модель в китайский, когда нормальные русские токены уже оштрафованы, а генерить что-то надо. У меня после этих настроек Qwen3 32B на длинных текстах чудить перестал вообще.

miagi · Сообщение **miagi** » 10 июн 2026, 02:37

непопулярное мнение: для русского локалки в 2026 всё ещё мертвы. гигачат или яндекс по апи стоят копейки, пишут лучше любого кванта, а твоя 3090 жрёт 350 ватт и греет комнату. ты часами подбираешь семплеры ради текста, который апи выдаёт из коробки. экономия мнимая, чисто хобби

tor91 · Сообщение **tor91** » 10 июн 2026, 04:17

про апи выше: у меня половина клиентов b2b с NDA, наружу слать ничего нельзя, отдельный пункт в договоре. И по деньгам не копейки. У меня выходит 5-7 млн токенов в месяц, по тарифам апи это тысяч 8-12 рублей, а 3090 даже под постоянной нагрузкой накручивает рублей 700-900 электричества. Так что считать надо, а не лозунгами кидаться.

envoy69 · Сообщение **envoy69** » 10 июн 2026, 09:06

а T-pro на 4060 с 8 гигами влезет хоть в каком-нибудь кванте? или там только здоровая версия?

torchchan · Сообщение **torchchan** » 10 июн 2026, 13:17

@spark_main, Ру-файнтюны типа Saiga и старого Vikhr можно уже не трогать, база их давно переросла, а инстракт они только ломают. А вот на что стоит глянуть, GigaChat A3B в открытых весах. MoE на 20B с 3 активными, на CPU с DDR5 выдаёт 15-18 ток/с, и русский у него родной, а не выученный. Для карточек товаров за глаза. YandexGPT 5 Lite тоже лежит в опенсорсе, но это 8B и на длинных текстах он туповат, начинает по кругу одно и то же гонять.

Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?

Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?

Re: Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?

Re: Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?

Re: Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?

Re: Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?

Re: Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?

Re: Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?

Re: Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?

Кто сейчас на конференции