Die pandas .groupby()-Methode wird verwendet, um Datensätze in Python zu analysieren und zu transformieren, indem ein DataFrame basierend auf Spaltenwerten in Gruppen aufgeteilt, Funktionen auf jede Gruppe angewendet und die Ergebnisse in ein neues DataFrame kombiniert werden. Diese Technik ist für Aufgaben wie Aggregation, Filterung und Transformation von gruppierten Daten unerlässlich. Die .groupby()-Methode kann verwendet werden, um nach einer einzelnen Spalte oder mehreren Spalten zu gruppieren, indem eine Liste von Spaltennamen übergeben wird. Gängige Aggregationsmethoden in pandas sind .sum(), .mean() und .count(). Benutzerdefinierte Funktionen können auch mit pandas .groupby() verwendet werden, um spezifische Operationen auf Gruppen durchzuführen. Dieses Tutorial setzt voraus, dass Sie bereits Erfahrung mit pandas haben, und bietet Datensätze für die Übung, einschließlich des U.S.-Kongress-Datensatzes, des Luftqualitäts-Datensatzes und des Nachrichten-Aggregator-Datensatzes. Um diesem Tutorial zu folgen, stellen Sie sicher, dass Sie die neueste Version von pandas in einer neuen virtuellen Umgebung installiert haben und die Datensätze herunterladen. Die Datensätze können als .zip-Datei heruntergeladen und in einem Ordner namens groupby-data/ im aktuellen Verzeichnis entpackt werden. Das Tutorial wird diese Datensätze verwenden, um die Fähigkeiten von .groupby() zu demonstrieren. Das erste Beispiel verwendet den U.S.-Kongress-Datensatz, der öffentliche Informationen über historische Mitglieder des Kongresses enthält, und zeigt, wie Sie die CSV-Datei in ein pandas-DataFrame mithilfe von read_csv() lesen können.
realpython.com
Real Python: pandas GroupBy: Your Guide to Grouping Data in Python
