Метод группировки pandas .groupby() используется для анализа и преобразования наборов данных в Python, разбивая DataFrame на группы на основе значений столбцов, применяемых функций к каждой группе и объединяя результаты в новый DataFrame. Этот метод является существенным для задач, таких как агрегация, фильтрация и преобразование группированных данных. Метод .groupby() может быть использован для группировки по одному столбцу или нескольким столбцам, передавая список имен столбцов. Общие методы агрегации в pandas включают .sum(), .mean() и .count(). Пользовательские функции также могут быть использованы с pandas .groupby() для выполнения конкретных операций над группами. Это руководство предполагает предварительный опыт работы с pandas и предоставляет наборы данных для практики, включая набор данных Конгресса США, набор данных качества воздуха и набор данных агрегатора новостей. Чтобы следовать за руководством, убедитесь, что у вас установлен последняя версия pandas в новой виртуальной среде, и скачайте наборы данных. Наборы данных можно скачать в виде файла .zip и распаковать в папку groupby-data/ в текущем каталоге. Руководство будет использовать эти наборы данных для демонстрации возможностей .groupby(). Первый пример использует набор данных Конгресса США, который содержит общедоступную информацию о исторических членах Конгресса, и демонстрирует, как прочитать файл CSV в pandas DataFrame с помощью read_csv().
realpython.com
Real Python: pandas GroupBy: Your Guide to Grouping Data in Python
