Один из кейсов по питону
Дмитрий Кузьмин. Инженерия данных
Не так давно в своей работе я столкнулся с проблемой написания огромной портянки кода для подсчета агрегатов и создания множества полей таблицы на их основе.
Таблица в паркете на hdfs, по структуре это id, дата и около 120 различных метрик по этим id.
То есть таблица с 122 столбцами.
Необходимо для каждого id посчитать агрегаты, и сделать новые поля с этими агрегатами по каждому id.
Список агрегатных функций, на основе которых будут рассчитаны новые поля: