Один из кейсов по питону

Дмитрий Кузьмин. Инженерия данных

Не так давно в своей работе я столкнулся с проблемой написания огромной портянки кода для подсчета агрегатов и создания множества полей таблицы на их основе.

Исходник

Таблица в паркете на hdfs, по структуре это id, дата и около 120 различных метрик по этим id.

То есть таблица с 122 столбцами.

Задача

Необходимо для каждого id посчитать агрегаты, и сделать новые поля с этими агрегатами по каждому id.

Список агрегатных функций, на основе которых будут рассчитаны новые поля: