Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?
Рейтинг: 64.6% · 7 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
- proxmoxmaker
- Сообщения: 9
- Зарегистрирован: 20 май 2026, 16:15
Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?
Накипело. Генерю локалками тексты для клиентов (карточки товаров, рассылки, посты в телегу), и русский у большинства моделей до сих пор уровня переведи гуглом и причеши. Qwen3 32B после пары тысяч токенов начинает вставлять иероглифы или уезжает в английский посреди предложения. Gemma 3 27B пишет грамотно, но таким канцеляритом, будто отчёт в налоговую составляет. Llama склонения путает, а числительные это отдельная боль, пять айфона купить и вот это всё.
Что гонял: Qwen3 32B Q4_K_M, Gemma 3 27B, Mistral Small 3.2, T-pro 2.0 от Т-Банка, Vikhr 12B. T-pro пока лучший по ощущениям, но хочется альтернатив. Железо 3090 + 64 гига RAM, llama.cpp свежий. Может дело вообще в квантах, а не в моделях? Кто чем реально генерит русский текст не для тестов, а в работе?
Что гонял: Qwen3 32B Q4_K_M, Gemma 3 27B, Mistral Small 3.2, T-pro 2.0 от Т-Банка, Vikhr 12B. T-pro пока лучший по ощущениям, но хочется альтернатив. Железо 3090 + 64 гига RAM, llama.cpp свежий. Может дело вообще в квантах, а не в моделях? Кто чем реально генерит русский текст не для тестов, а в работе?
✔ Лучший ответ сформирован автоматически — archmaster
@proxmoxmaker, дело частично в квантах, да. У русского токенов на слово тупо больше чем у английского, ошибка квантования копится быстрее, и Q4 на русском плывёт заметно раньше. Я для русских текстов ниже Q5_K_M не спускаюсь, а лучше Q6_K. На 3090 с 32B придётся офлоадить слоёв 10-15 в RAM, скорость просядет с ~25 до ~12 ток/с, зато текст как будто другой человек писал. Ещё глянь RuadaptQwen, там…
- archmaster
- Сообщения: 44
- Зарегистрирован: 15 май 2026, 01:57
Re: Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?
✔ Лучший ответ — сформирован автоматически
@proxmoxmaker, дело частично в квантах, да. У русского токенов на слово тупо больше чем у английского, ошибка квантования копится быстрее, и Q4 на русском плывёт заметно раньше. Я для русских текстов ниже Q5_K_M не спускаюсь, а лучше Q6_K. На 3090 с 32B придётся офлоадить слоёв 10-15 в RAM, скорость просядет с ~25 до ~12 ток/с, зато текст как будто другой человек писал.
Ещё глянь RuadaptQwen, там токенизатор переделан под русский, на тех же ваттах выдаёт процентов на 30-40 больше текста просто потому что токенов меньше. И T-pro 2.0 в Q6 у меня в проде с осени, нареканий почти нет.
Ещё глянь RuadaptQwen, там токенизатор переделан под русский, на тех же ваттах выдаёт процентов на 30-40 больше текста просто потому что токенов меньше. И T-pro 2.0 в Q6 у меня в проде с осени, нареканий почти нет.
- spark_main
- Сообщения: 65
- Зарегистрирован: 12 май 2026, 07:40
Re: Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?
Иероглифы у Qwen лечатся семплингом, а не квантом. temp 0.6 максимум, min_p 0.05, dry_multiplier 0.8, и про repeat_penalty выше 1.1 забудь совсем. Он как раз и выталкивает модель в китайский, когда нормальные русские токены уже оштрафованы, а генерить что-то надо. У меня после этих настроек Qwen3 32B на длинных текстах чудить перестал вообще.
Re: Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?
непопулярное мнение: для русского локалки в 2026 всё ещё мертвы. гигачат или яндекс по апи стоят копейки, пишут лучше любого кванта, а твоя 3090 жрёт 350 ватт и греет комнату. ты часами подбираешь семплеры ради текста, который апи выдаёт из коробки. экономия мнимая, чисто хобби
Re: Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?
про апи выше: у меня половина клиентов b2b с NDA, наружу слать ничего нельзя, отдельный пункт в договоре. И по деньгам не копейки. У меня выходит 5-7 млн токенов в месяц, по тарифам апи это тысяч 8-12 рублей, а 3090 даже под постоянной нагрузкой накручивает рублей 700-900 электричества. Так что считать надо, а не лозунгами кидаться.
Re: Какая локалка в 2026 реально умеет в русский, а не в кальку с английского?
@spark_main, Ру-файнтюны типа Saiga и старого Vikhr можно уже не трогать, база их давно переросла, а инстракт они только ломают. А вот на что стоит глянуть, GigaChat A3B в открытых весах. MoE на 20B с 3 активными, на CPU с DDR5 выдаёт 15-18 ток/с, и русский у него родной, а не выученный. Для карточек товаров за глаза. YandexGPT 5 Lite тоже лежит в опенсорсе, но это 8B и на длинных текстах он туповат, начинает по кругу одно и то же гонять.
Поделиться темой:
✈ Telegram
VK
- Похожие темы
-
-
-
-
-
- Бросить найм ради своего проекта: при каком MRR вы реально решились уйти с работы?
10 ответов · 2040 просмотров
-
- С чего реально начать в пентесте в 2026? TryHackMe, HTB или сразу сертификаты?
12 ответов · 1917 просмотров
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость