Pandas数据的分组统计

Pandas数据的分组统计

image.png

2、多个列groupby,查询所有数据列的统计
b = df.groupby(["A","B"]).mean()
print(b)

Pandas数据的分组统计

此时A和B是索引

a = df.groupby(["A","B"],as_index = False).sum()
print(a)

Pandas数据的分组统计

此时A和B不是索引

3、同时查看多种数据统计
c = df.groupby("A").agg([np.sum,np.mean,np.std])
print(c)

Pandas数据的分组统计

列变成了多级索引

4、查看单列的结果数据统计
#性能好
d = df.groupby("A")["C"].agg([np.sum, np.mean, np.std])
print(d)

Pandas数据的分组统计

image.png

5、不同列使用不同的聚合函数
d = df.groupby("A").agg({"C":np.sum,"D":np.mean})
print(d)

Pandas数据的分组统计

image.png

二、遍历groupby的结果理解执行流程
1、便利分组数据,查看运行逻辑
g = df.groupby("A")
for name,group in g:
    print(name)
    print(group)

Pandas数据的分组统计

image.png

2、获取单个分组的数据
#参数为对应的分组名
h = g.get_group("bar")
print(h)

Pandas数据的分组统计

image.png

3、遍历多个列组合的分组
g = df.groupby(["A","B"])
for name,group in g:
    print(name)
    print(group)

Pandas数据的分组统计

name是一个2个元素组成的tuple,代表不同的列

4、获取多个列组合分组的某一组
h = g.get_group(('bar', 'one'))
print(h)

Pandas数据的分组统计

image.png

5、直接查询gropu后的某列,生成Series或者子Dataframe
e = g["C"]
print(e)
for name,group in g["C"]:
    print(name)
    print(group)

Pandas数据的分组统计

image.png

三、实例分组探索天气数据
1、数据准备
import pandas as pd

df = pd.read_csv("/Users/hathaway/PycharmProjects/untitled/MzTest/beijing_tianqi_2018.csv")

# df.set_index("ymd",inplace=True)
df.loc[:,"bWendu"] =df["bWendu"].str.replace("℃","").astype("int32")
df.loc[:,"yWendu"] =df["yWendu"].str.replace("℃","").astype("int32")
# print(df.head())
df["month"] = df["ymd"].str[:7]
print(df.head())

Pandas数据的分组统计

image.png

2、查看每个月的最高温度
data = df.groupby('month')['bWendu'].max()
print(data)

Pandas数据的分组统计

image.png

3、画图展示
import pandas as pd
import matplotlib.pyplot as plt  #画图需要的包
import numpy as np


df = pd.read_csv("/Users/hathaway/PycharmProjects/untitled/MzTest/beijing_tianqi_2018.csv")

# df.set_index("ymd",inplace=True)
df.loc[:,"bWendu"] =df["bWendu"].str.replace("℃","").astype("int32")
df.loc[:,"yWendu"] =df["yWendu"].str.replace("℃","").astype("int32")
# print(df.head())
df["month"] = df["ymd"].str[:7]
# print(df.head())
data = df.groupby('month')['bWendu'].max()
data.plot()  #画图的方法
plt.show()  #pycharm需要添加这个方法就可以展示

Pandas数据的分组统计

image.png

4、查看每个月最高温度,最低温度,平均空气质量指数
group_data = df.groupby("month").agg({"bWendu":np.max,"yWendu":np.min,"aqi":np.mean})
print(group_data)
group_data.plot()
plt.show()

Pandas数据的分组统计

image.png

Pandas数据的分组统计

画图

文章均来自互联网如有不妥请联系作者删除QQ:314111741 地址:http://www.mqs.net/post/15093.html

相关阅读

  • 如何保证缓存和数据的双写一致性

    如何保证缓存和数据的双写一致性

    image 但是在更新缓存方面,对于更新完数据库,是更新缓存呢,还是删除缓存。又或者是先删除缓存,再更新数据库,其实大家存在很大的争议。目前没有一篇全面的博客,对这几种方案进行解析。于是博主战战兢兢,顶着被大家喷的风险,写了这篇...

    2025.12.09 09:28:14作者:iseeyu
  • 【百度搜索引擎优化】如何快速了解百度搜索引擎优化的知识?(搜索引擎优化基本)

    【百度搜索引擎优化】如何快速了解百度搜索引擎优化的知识?(搜索引擎优化基本)

    在百度输入SEO优化,下拉框就有很多关键词,SEO优化工具,SEO查询,SEO技巧,SEO优化方案,SEO报价,SEO优化教程,SEO优化软件,SEO优化怎么做,等等,相关搜索也有很多长尾关键词。还可以加入一些群,找些大牛问下,向这些大牛学...

    2025.12.09 07:37:38作者:iseeyu
  • R语言dplyr包处理数据2021.3.6

    R语言dplyr包处理数据2021.3.6

    图1 筛选结果 2.2 去除重复行–distinct函数 dplyr::distinct(rbind(iris[1:10,],iris[1:20,]))#取出前10行和前20行合并后去除重复行 图2 去除结果...

    2025.12.09 05:35:02作者:iseeyu

添加新评论