Pandas или Polars для пайплайна предобработки в 2026, стоит ли переезжать

Рейтинг: 54.8% · 15 голосов
Machine learning и deep learning: обучение и дообучение моделей, датасеты, PyTorch, TensorFlow, эксперименты, метрики, MLOps и аналитика данных.
Ответить
Аватара пользователя
hunter22
Сообщения: 50
Зарегистрирован: 11 май 2026, 00:25

Pandas или Polars для пайплайна предобработки в 2026, стоит ли переезжать

Сообщение hunter22 »

Тащим легаси пайплайн фичей на pandas, на 40 миллионах строк он еле ворочается и жрёт всю память, упёрлись. Думаю переезжать на polars, но пугает переписывание кучи кода и что команда привыкла к pandas. Кто реально мигрировал, насколько polars быстрее на практике и где грабли, или это очередной хайп и pandas с умом настроенный догонит.
👍 ❤️1 🔥1 😄 🤔1
✔ Лучший ответ сформирован автоматически — rawgoblin
грабли назову конкретно раз спросили. 1) api другой, нет индекса как в pandas, привыкать. expressions вместо apply, поначалу ломает мозг но потом не вернёшься. 2) NaN и null в polars это разные вещи в отличие от pandas где всё смешано, на этом легко словить баг в сравнениях. 3) порядок строк polars по дефолту может не сохранять в некоторых операциях, если код на него завязан получишь тихий баг. 4…
Перейти к ответу →
Аватара пользователя
Omoto
Сообщения: 120
Зарегистрирован: 12 май 2026, 03:05

Re: Pandas или Polars для пайплайна предобработки в 2026, стоит ли переезжать

Сообщение Omoto »

не хайп, polars на наших джобах дал 5-8х по скорости и в разы меньше памяти за счёт ленивых вычислений и arrow под капотом. lazy api с collect позволяет оптимизатору переставить фильтры и не материализовать промежуточные таблицы. на 40 млн строк это разница между влезает в память и не влезает.
👍 ❤️1 🔥1 😄 🤔1
Аватара пользователя
slypmp
Сообщения: 18
Зарегистрирован: 15 май 2026, 06:28

Re: Pandas или Polars для пайплайна предобработки в 2026, стоит ли переезжать

Сообщение slypmp »

перед миграцией попробуй просто типы починить в pandas, object вместо category, float64 где хватит float32, int64 где int32. часто память в два три раза падает без переписывания, может и переезжать не придётся
👍1 ❤️1 🔥1 😄 🤔
Аватара пользователя
puto
Сообщения: 40
Зарегистрирован: 11 май 2026, 06:02

Re: Pandas или Polars для пайплайна предобработки в 2026, стоит ли переезжать

Сообщение puto »

slypmp писал(а):часто память в два три раза падает без переписывания
память да упадёт, а скорость groupby и join на 40 млн всё равно останется черепашьей, pandas однопоточный по сути. category и downcast это пластырь, polars многопоточный из коробки и это не настройкой лечится. так что совет дельный как первый шаг но потолок он не поднимет.
👍 ❤️2 🔥 😄 🤔
Аватара пользователя
RedisNinja
Сообщения: 61
Зарегистрирован: 15 май 2026, 01:22

Re: Pandas или Polars для пайплайна предобработки в 2026, стоит ли переезжать

Сообщение RedisNinja »

duckdb ещё гляньте, sql прямо по паркету, для тяжёлых агрегаций иногда удобнее чем и pandas и polars, и память сам менеджит
👍 ❤️ 🔥 😄 🤔1
Аватара пользователя
rabbit8
Сообщения: 41
Зарегистрирован: 13 май 2026, 08:48

Re: Pandas или Polars для пайплайна предобработки в 2026, стоит ли переезжать

Сообщение rabbit8 »

переезжали постепенно и это сработало, polars умеет to_pandas и from_pandas почти бесплатно через arrow, так что переписывали по одному тяжёлому куску а остальное оставляли на pandas пока. не надо переписывать всё разом, это главная ошибка, переводи бутылочные горлышки сначала.
👍 ❤️2 🔥1 😄1 🤔
Аватара пользователя
rawgoblin
Сообщения: 39
Зарегистрирован: 13 май 2026, 07:42

Re: Pandas или Polars для пайплайна предобработки в 2026, стоит ли переезжать

Сообщение rawgoblin »

✔ Лучший ответ — сформирован автоматически
грабли назову конкретно раз спросили. 1) api другой, нет индекса как в pandas, привыкать. expressions вместо apply, поначалу ломает мозг но потом не вернёшься. 2) NaN и null в polars это разные вещи в отличие от pandas где всё смешано, на этом легко словить баг в сравнениях. 3) порядок строк polars по дефолту может не сохранять в некоторых операциях, если код на него завязан получишь тихий баг. 4) часть экзотики из pandas просто нет, придётся искать обход. 5) apply с питон функцией в polars есть но убивает весь смысл, она тогда такая же медленная, надо переписывать в нативные выражения, иначе переезд бессмысленный. по скорости у нас вышло около 6х на пайплайне фичей и память с 28гб упала до 9, влезли в обычную машину вместо толстой. оно того стоило, но закладывай недели две на переучивание команды на expressions, это не синтаксический свап а другой способ думать о данных.
👍 ❤️ 🔥 😄 🤔
Аватара пользователя
android_roman
Сообщения: 45
Зарегистрирован: 11 май 2026, 05:31

Re: Pandas или Polars для пайплайна предобработки в 2026, стоит ли переезжать

Сообщение android_roman »

два месяца на polars, назад не хочу. единственное где возвращаюсь к pandas это быстро глянуть мелкий csv в ноутбуке, по привычке. для прода только polars или duckdb
👍 ❤️ 🔥 😄 🤔
Ответить
Поделиться темой: ✈ Telegram VK

Вернуться в «Машинное обучение и Data Science»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость