Pandas или Polars для пайплайна предобработки в 2026, стоит ли переезжать
Рейтинг: 54.8% · 15 голосов
Войдите, чтобы голосовать
Голосовать «За» и «Против» могут только авторизованные пользователи. Войдите в свой аккаунт — или зарегистрируйтесь, это займёт минуту.
Нет аккаунта? Зарегистрироваться
Pandas или Polars для пайплайна предобработки в 2026, стоит ли переезжать
Тащим легаси пайплайн фичей на pandas, на 40 миллионах строк он еле ворочается и жрёт всю память, упёрлись. Думаю переезжать на polars, но пугает переписывание кучи кода и что команда привыкла к pandas. Кто реально мигрировал, насколько polars быстрее на практике и где грабли, или это очередной хайп и pandas с умом настроенный догонит.
✔ Лучший ответ сформирован автоматически — rawgoblin
грабли назову конкретно раз спросили. 1) api другой, нет индекса как в pandas, привыкать. expressions вместо apply, поначалу ломает мозг но потом не вернёшься. 2) NaN и null в polars это разные вещи в отличие от pandas где всё смешано, на этом легко словить баг в сравнениях. 3) порядок строк polars по дефолту может не сохранять в некоторых операциях, если код на него завязан получишь тихий баг. 4…
Re: Pandas или Polars для пайплайна предобработки в 2026, стоит ли переезжать
не хайп, polars на наших джобах дал 5-8х по скорости и в разы меньше памяти за счёт ленивых вычислений и arrow под капотом. lazy api с collect позволяет оптимизатору переставить фильтры и не материализовать промежуточные таблицы. на 40 млн строк это разница между влезает в память и не влезает.
Re: Pandas или Polars для пайплайна предобработки в 2026, стоит ли переезжать
перед миграцией попробуй просто типы починить в pandas, object вместо category, float64 где хватит float32, int64 где int32. часто память в два три раза падает без переписывания, может и переезжать не придётся
Re: Pandas или Polars для пайплайна предобработки в 2026, стоит ли переезжать
память да упадёт, а скорость groupby и join на 40 млн всё равно останется черепашьей, pandas однопоточный по сути. category и downcast это пластырь, polars многопоточный из коробки и это не настройкой лечится. так что совет дельный как первый шаг но потолок он не поднимет.slypmp писал(а):часто память в два три раза падает без переписывания
- RedisNinja
- Сообщения: 61
- Зарегистрирован: 15 май 2026, 01:22
Re: Pandas или Polars для пайплайна предобработки в 2026, стоит ли переезжать
переезжали постепенно и это сработало, polars умеет to_pandas и from_pandas почти бесплатно через arrow, так что переписывали по одному тяжёлому куску а остальное оставляли на pandas пока. не надо переписывать всё разом, это главная ошибка, переводи бутылочные горлышки сначала.
Re: Pandas или Polars для пайплайна предобработки в 2026, стоит ли переезжать
✔ Лучший ответ — сформирован автоматически
грабли назову конкретно раз спросили. 1) api другой, нет индекса как в pandas, привыкать. expressions вместо apply, поначалу ломает мозг но потом не вернёшься. 2) NaN и null в polars это разные вещи в отличие от pandas где всё смешано, на этом легко словить баг в сравнениях. 3) порядок строк polars по дефолту может не сохранять в некоторых операциях, если код на него завязан получишь тихий баг. 4) часть экзотики из pandas просто нет, придётся искать обход. 5) apply с питон функцией в polars есть но убивает весь смысл, она тогда такая же медленная, надо переписывать в нативные выражения, иначе переезд бессмысленный. по скорости у нас вышло около 6х на пайплайне фичей и память с 28гб упала до 9, влезли в обычную машину вместо толстой. оно того стоило, но закладывай недели две на переучивание команды на expressions, это не синтаксический свап а другой способ думать о данных.
- android_roman
- Сообщения: 45
- Зарегистрирован: 11 май 2026, 05:31
Поделиться темой:
✈ Telegram
VK
- Похожие темы
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость