Решённые вопросы — Машинное обучение и Data Science
Решённые вопросы раздела «Машинное обучение и Data Science»: 14 тем с принятым лучшим ответом — готовые проверенные решения сообщества по этой теме.
По разделам:
все
Self-hosting и Homelab 25Карьера в IT 24Локальные LLM и open-source модели 23Веб-разработка 23DevOps и CI/CD 23AI-ассистированная разработка 21Кибербезопасность и пентест 21Геймдев и разработка игр 20Языки программирования 20Сборка ПК и комплектующие 20Смартфоны и гаджеты 20Нейрогенерация: изображения и видео 20Базы данных 18Стартапы и фриланс 18Новости технологий 18Облачные платформы 16Приватность и шифрование 15Курилка и оффтоп 15Машинное обучение и Data Science 14Одноплатники, IoT и DIY-электроника 14Мобильная разработка 13Linux и системное администрирование 13CTF и реверс-инжиниринг 13
- Вопросы с решением (14)
-
- Как бороться с переобучением нейросети практические методы ✓ Лучший ответОтвет (nina4897): Если всё вышеперечисленное попробовали — смотрите на early stopping по val loss с patience=10 эпох и уменьшайте архитектуру. Иногда модель просто слишком большая для ваш…в «Машинное обучение и Data Science» · 6 ответов · 11 просмотров
-
- Поставил все сиды, а loss всё равно гуляет между запусками — кто победил недетерминизм в PyTorch? ✓ Лучший ответОтвет (jscode1641): @ai_enjoyer ага, seed=42 в ноутбуке на CPU работает прекрасно. А потом ты выкатываешь на мультигпу с DDP и понимаешь что у каждого ранка свой сид нужен, иначе все воркер…в «Машинное обучение и Data Science» · 17 ответов · 693 просмотров
-
- Перешёл из бэкенда в ML и слегка в шоке — это нормально что 80% времени это данные? ✓ Лучший ответОтвет (polina_spb): Кстати по рынку: бэкендеры с ML-навыком сейчас ценятся выше чистых DS на джуниор-мидл уровне. Так что ты в хорошей точке, не переживай.в «Машинное обучение и Data Science» · 8 ответов · 322 просмотров
-
- vLLM vs Ollama vs TGI для self-hosted инференса — что в проде у вас? ✓ Лучший ответОтвет (netapp9663): TGI от HF тоже хорош и проще в проде чем vLLM по моему опыту, особенно если уже в экосистеме HuggingFace. Но vLLM сейчас впереди по throughput и быстрее фичи катит.в «Машинное обучение и Data Science» · 9 ответов · 821 просмотров
-
- MLflow или Weights and Biases для трекинга экспериментов что лучше ✓ Лучший ответОтвет (luka4904): Для соло-проектов могу предложить и более простой путь: TensorBoard встроен в TensorFlow и работает с PyTorch через torch.utils.tensorboard. Нет зависимости от внешних с…в «Машинное обучение и Data Science» · 6 ответов · 11 просмотров
-
- PyTorch vs TensorFlow 2024 что выбрать для нового проекта ✓ Лучший ответОтвет (kira_api82): Вопрос в тему: а как у вас с аннотацией данных? В медицине это обычно узкое место, а не выбор фреймворка. Если датасет маленький — разница между PT и TF вообще несуществ…в «Машинное обучение и Data Science» · 6 ответов · 11 просмотров
-
- Как правильно выбрать метрики качества для задачи классификации ✓ Лучший ответОтвет (daria_spb): Важный момент про балансировку датасета: SMOTE, class_weight='balanced' в sklearn, или oversampling minority класса. Но это влияет на обучение, а не на метрики оценки — …в «Машинное обучение и Data Science» · 6 ответов · 11 просмотров
-
- CUDA out of memory — собрал список того, что реально помогает (а не магия) ✓ Лучший ответОтвет (apiflow8899): И gradient accumulation вместо большого батча. batch=1, accum=16 даёт эффективный батч 16, а память как у единицы. Удивительно сколько людей про это забывает.в «Машинное обучение и Data Science» · 7 ответов · 474 просмотров
-
- Стоит ли джуну в 2026 идти в ML или поезд уже ушёл? ✓ Лучший ответОтвет (roman_js5): По нашим данным: вакансий с тегом ML/AI стало больше, но требования сместились. Берут не тех кто знает как работает трансформер, а тех кто задеплоит RAG и не уронит прод…в «Машинное обучение и Data Science» · 8 ответов · 542 просмотров
-
- Ошибка CUDA out of memory как уменьшить использование памяти GPU ✓ Лучший ответОтвет (apiflow8899): Ещё можно профилировать что именно занимает память: print(torch.cuda.memory_summary()) даёт подробную картину. Часто оказывается что проблема не в батче а в том, что нак…в «Машинное обучение и Data Science» · 6 ответов · 11 просмотров
-
- HR смотрят на Kaggle или на LeetCode при найме в ML? Запутался куда вкладывать вечера ✓ Лучший ответОтвет (asyncflux983): По опыту найма: в продуктовых ML-командах каггл скорее как сигнал 'умеет в данные', но синьоры на собесе всё равно гоняют по системному дизайну ML-пайплайна и по основам…в «Машинное обучение и Data Science» · 5 ответов · 620 просмотров
-
- GaLore vs LoRA для full-parameter fine-tuning — кто-нибудь щупал в реальных задачах? ✓ Лучший ответОтвет (pixelgo7055): Тестировал GaLore vs LoRA r=64 на задаче суммаризации русских новостей, модель Mistral-7B. Результаты честные: GaLore дал ROUGE-L на 1.8 пунктов выше чем LoRA при сопост…в «Машинное обучение и Data Science» · 5 ответов · 10 просмотров
-
- LoRA vs полный файнтюн в 2026 — кто-нибудь реально видит разницу в качестве? ✓ Лучший ответОтвет (filipp8696): А full FT хоть в каком случае ещё имеет смысл? Или это полностью legacy?в «Машинное обучение и Data Science» · 8 ответов · 528 просмотров
-
- Какие метрики реально показывать заказчику, а какие оставить для себя? ✓ Лучший ответОтвет (codelinux601): И зафиксируй метрику на отложенной во времени выборке, а не на случайном сплите. Фрод дрейфует, на random split цифры будут завышены и в проде ты обделаешься.в «Машинное обучение и Data Science» · 7 ответов · 918 просмотров