环球观点：Pandas50个高级操作，秀起来！-华东晨报网

当前位置：首页 > 滚动

环球观点：Pandas50个高级操作，秀起来！

来源：数据不吹牛发布时间：2023-05-28 02:56:38

大家好，我是小z，也可以叫我阿粥今天给大家分享一篇Pandas高级操作汇总，文末还有送书活动~ 在数据分析和数据建模的过程中需要对数据进行清洗和整理等工作，有时需要对数据增删字段。下面为大家介绍Pandas对数据的复杂查询、数据类型转换、数据排序、数据的修改、数据迭代以及函数的使用。

01、复杂查询

实际业务需求往往需要按照一定的条件甚至复杂的组合条件来查询数据,接下来为大家介绍如何发挥Pandas数据筛选的无限可能，随心所欲地取用数据。

1、逻辑运算

# Q1成绩大于36df.Q1> 36# Q1成绩不小于60分，并且是C组成员~(df.Q1< 60) & (df["team"] == "C")

2、逻辑筛选数据

切片（[ ]）、.loc[ ]和.iloc[ ]均支持上文所介绍的逻辑表达式。以下是切片（[ ]）的逻辑筛选示例：

df[df["Q1"]== 8] # Q1等于8df[~(df["Q1"]== 8)] # 不等于8df[df.name== "Ben"] # 姓名为Bendf[df.Q1> df.Q2]

以下是.loc[ ]和.lic[ ]示例：

# 表达式与切片一致df.loc[df["Q1"]> 90, "Q1":] # Q1大于90，只显示Q1df.loc[(df.Q1> 80) & (df.Q2 < 15)] # and关系df.loc[(df.Q1> 90) | (df.Q2 < 90)] # or关系df.loc[df["Q1"]== 8] # 等于8df.loc[df.Q1== 8] # 等于8df.loc[df["Q1"]> 90, "Q1":] # Q1大于90，显示Q1及其后所有列

3、函数筛选

# 查询最大索引的值df.Q1[lambdas: max(s.index)] # 值为21# 计算最大值max(df.Q1.index)# 99df.Q1[df.index==99]

4、比较函数

# 以下相当于 df[df.Q1 == 60]df[df.Q1.eq(60)]df.ne() # 不等于 !=df.le() # 小于等于 <=df.lt() # 小于 <df.ge() # 大于等于 >=df.gt() # 大于 >

5、查询df.query()

df.query("Q1 > Q2 > 90") # 直接写类型SQL where语句

还支持使用@符引入变量

# 支持传入变量，如大于平均分40分的a = df.Q1.mean()df.query("Q1>@a+40")df.query("Q1 > `Q2`+@a")

df.eval()与df.query()类似，也可以用于表达式筛选。

# df.eval()用法与df.query类似df[df.eval(\"Q1 > 90 > Q3 >10\")]df[df.eval(\"Q1 > `Q2`+@a\")]

6、筛选df.filter()

df.filter(items=["Q1", "Q2"]) # 选择两列df.filter(regex="Q", axis=1) # 列名包含Q的列df.filter(regex="e$", axis=1) # 以e结尾的列df.filter(regex="1$", axis=0) # 正则，索引名以1结尾df.filter(like="2", axis=0) # 索引中有2的# 索引中以2开头、列名有Q的df.filter(regex="^2",axis=0).filter(like="Q", axis=1)

7、按数据类型查询

(资料图片)

df.select_dtypes(include=["float64"]) # 选择float64型数据df.select_dtypes(include="bool")df.select_dtypes(include=["number"]) # 只取数字型df.select_dtypes(exclude=["int"])#排除int类型df.select_dtypes(exclude=["datetime64"])

02、数据类型转换

在开始数据分析前，我们需要为数据分配好合适的类型，这样才能够高效地处理数据。不同的数据类型适用于不同的处理方法。

# 对所有字段指定统一类型df = pd.DataFrame(data, dtype="float32")# 对每个字段分别指定df = pd.read_excel(data, dtype={"team":"string", "Q1": "int32"})

1、推断类型

# 自动转换合适的数据类型df.infer_objects()#推断后的DataFramedf.infer_objects().dtypes

2、指定类型

# 按大体类型推定m = ["1", 2, 3]s = pd.to_numeric(s) # 转成数字pd.to_datetime(m) # 转成时间pd.to_timedelta(m) # 转成时间差pd.to_datetime(m, errors="coerce") # 错误处理pd.to_numeric(m, errors="ignore")pd.to_numeric(m errors="coerce").fillna(0) # 兜底填充pd.to_datetime(df[["year", "month", "day"]])# 组合成日期

3、类型转换astype()

df.Q1.astype("int32").dtypes# dtype("int32")df.astype({"Q1": "int32","Q2":"int32"}).dtypes

4、转为时间类型

t = pd.Series(["20200801", "20200802"])

03、数据排序

数据排序是指按一定的顺序将数据重新排列，帮助使用者发现数据的变化趋势，同时提供一定的业务线索，还具有对数据纠错、分类等作用。

1、索引排序df.sort_index()

s.sort_index() # 升序排列df.sort_index() # df也是按索引进行排序df.team.sort_index()s.sort_index(ascending=False)# 降序排列s.sort_index(inplace=True) # 排序后生效，改变原数据# 索引重新0-(n-1)排，很有用，可以得到它的排序号s.sort_index(ignore_index=True)s.sort_index(na_position="first") # 空值在前，另"last"表示空值在后s.sort_index(level=1) # 如果多层，排一级s.sort_index(level=1, sort_remaining=False) #这层不排# 行索引排序，表头排序df.sort_index(axis=1) # 会把列按列名顺序排列

2、数值排序sort_values()

df.Q1.sort_values()df.sort_values("Q4")df.sort_values(by=["team", "name"],ascending=[True, False])

其他方法：

s.sort_values(ascending=False) # 降序s.sort_values(inplace=True) # 修改生效s.sort_values(na_position="first") # 空值在前# df按指定字段排列df.sort_values(by=["team"])df.sort_values("Q1")# 按多个字段，先排team，在同team内再看Q1df.sort_values(by=["team", "Q1"])# 全降序df.sort_values(by=["team", "Q1"], ascending=False)# 对应指定team升Q1降df.sort_values(by=["team", "Q1"],ascending=[True, False])# 索引重新0-(n-1)排df.sort_values("team", ignore_index=True)

3、混合排序

df.set_index("name", inplace=True) # 设置name为索引df.index.names = ["s_name"] # 给索引起名df.sort_values(by=["s_name", "team"]) # 排序

4、按值大小排序nsmallest()和nlargest()

s.nsmallest(3) # 最小的3个s.nlargest(3) # 最大的3个# 指定列df.nlargest(3, "Q1")df.nlargest(5,["Q1","Q2"])df.nsmallest(5, ["Q1", "Q2"])

04、添加修改

数据的修改、增加和删除在数据整理过程中时常发生。修改的情况一般是修改错误、格式转换，数据的类型修改等。

1、修改数值

df.iloc[0,0] # 查询值# "Liver"df.iloc[0,0] = "Lily" # 修改值df.iloc[0,0] # 查看结果# "Lily"# 将小于60分的成绩修改为60df[df.Q1 < 60] = 60# 查看df.Q1# 生成一个长度为100的列表v = [1, 3, 5, 7, 9] * 20

2、替换数据

s.replace(0, 5) # 将列数据中的0换为5df.replace(0, 5) # 将数据中的所有0换为5df.replace([0, 1, 2, 3], 4) # 将0～3全换成4df.replace([0, 1, 2, 3], [4, 3, 2, 1]) # 对应修改s.replace([1, 2], method="bfill") # 向下填充df.replace({0: 10, 1: 100}) # 字典对应修改df.replace({"Q1": 0, "Q2": 5}, 100) # 将指定字段的指定值修改为100df.replace({"Q1": {0: 100, 4: 400}}) # 将指定列里的指定值替换为另一个指定的值

3、填充空值

df.fillna(0) # 将空值全修改为0# {"backfill", "bfill", "pad", "ffill",None}, 默认为Nonedf.fillna(method="ffill") # 将空值都修改为其前一个值values = {"A": 0, "B": 1, "C": 2, "D": 3}df.fillna(value=values)#为各列填充不同的值df.fillna(value=values, limit=1) # 只替换第一个

4、修改索引名

df.rename(columns={"team":"class"})

常用方法如下：

df.rename(columns={\"Q1\":\"a\", \"Q2\": \"b\"}) # 对表头进行修改df.rename(index={0: \"x\", 1:\"y\", 2: \"z\"}) # 对索引进行修改df.rename(index=str) # 对类型进行修改df.rename(str.lower, axis="columns") # 传索引类型df.rename({1: 2, 2: 4}, axis="index")# 对索引名进行修改s.rename_axis(\"animal\")df.rename_axis(\"animal\") # 默认是列索引df.rename_axis(\"limbs\",axis=\"columns\") # 指定行索引# 索引为多层索引时可以将type修改为classdf.rename_axis(index={"type": "class"})# 可以用set_axis进行设置修改s.set_axis(["a", "b", "c"], axis=0)df.set_axis(["I", "II"], axis="columns")df.set_axis(["i", "ii"], axis="columns",inplace=True)

5、增加列

df["foo"] = 100 # 增加一列foo，所有值都是100df["foo"] = df.Q1 + df.Q2 # 新列为两列相加df["foo"] = df["Q1"] + df["Q2"] # 同上# 把所有为数字的值加起来df["total"] =df.select_dtypes(include=["int"]).sum(1)df["total"] =df.loc[:,"Q1":"Q4"].apply(lambda x: sum(x), axis="columns")df.loc[:, "Q10"] = "我是新来的" # 也可以# 增加一列并赋值，不满足条件的为NaNdf.loc[df.num >= 60, "成绩"] = "合格"df.loc[df.num < 60, "成绩"] = "不合格"

6、插入列df.insert()

# 在第三列的位置上插入新列total列，值为每行的总成绩df.insert(2, "total", df.sum(1))

7、指定列df.assign()

# 增加total列df.assign(total=df.sum(1))# 增加两列df.assign(total=df.sum(1), Q=100)df.assign(total=df.sum(1)).assign(Q=100)其他使用示例：df.assign(Q5=[100]*100) # 新增加一列Q5df = df.assign(Q5=[100]*100) # 赋值生效df.assign(Q6=df.Q2/df.Q1) # 计算并增加Q6df.assign(Q7=lambda d: d.Q1 * 9 / 5 + 32) # 使用lambda# 添加一列，值为表达式结果：True或Falsedf.assign(tag=df.Q1>df.Q2)# 比较计算，True为1，False为0df.assign(tag=(df.Q1>df.Q2).astype(int))# 映射文案df.assign(tag=(df.Q1>60).map({True:"及格",False:"不及格"}))# 增加多个df.assign(Q8=lambda d: d.Q1*5,Q9=lambda d: d.Q8+1) # Q8没有生效，不能直接用df.Q8

8、执行表达式df.eval()

# 传入求总分表达式df.eval("total=Q1+Q3+Q3+Q4")

其他方法：

df["C1"] = df.eval("Q2 + Q3")df.eval("C2 = Q2 + Q3") # 计算a = df.Q1.mean()df.eval(\"C3 =`Q3`+@a\") # 使用变量df.eval(\"C3 = Q2 > (`Q3`+@a)\") #加一个布尔值df.eval("C4 = name + team", inplace=True) # 立即生效

9、增加行

# 新增索引为100的数据df.loc[100]=["tom","A",88,88,88,88]

其他方法：

df.loc[101]={"Q1":88,"Q2":99} # 指定列，无数据列值为NaNdf.loc[df.shape[0]+1] = {"Q1":88,"Q2":99} # 自动增加索引df.loc[len(df)+1] = {"Q1":88,"Q2":99}# 批量操作，可以使用迭代rows = [[1,2],[3,4],[5,6]]for row in rows:df.loc[len(df)] = row

10、追加合并

df = pd.DataFrame([[1, 2], [3, 4]],columns=list("AB"))df2 = pd.DataFrame([[5, 6], [7, 8]],columns=list("AB"))df.append(df2)

11、删除

#删除索引为3的数据s.pop(3)# 93ss

12、删除空值

df.dropna() # 一行中有一个缺失值就删除df.dropna(axis="columns") # 只保留全有值的列df.dropna(how="all") # 行或列全没值才删除df.dropna(thresh=2)#至少有两个空值时才删除df.dropna(inplace=True) # 删除并使替换生效

05、高级过滤

介绍几个非常好用的复杂数据处理的数据过滤输出方法。

1、df.where()

#数值大于70df.where(df > 70)

2、np.where()

#小于60分为不及格np.where(df>=60, "合格", "不合格")

3、df.mask()

#符合条件的为NaNdf.mask(s > 80)

4、df.lookup()

# 行列相同数量，返回一个arraydf.lookup([1,3,4],["Q1","Q2","Q3"])#array([36,96,61])df.lookup([1], ["Q1"]) # array([36])

06、数据迭代

1、迭代Series

# 迭代指定的列for i in df.name:print(i)# 迭代索引和指定的两列fori,n,qinzip(df.index,df.name,df.Q1):print(i, n, q)

2、df.iterrows()

# 迭代，使用name、Q1数据forindex,rowindf.iterrows():print(index, row["name"], row.Q1)

3、df.itertuples()

forrowindf.itertuples():print(row)

4、df.items()

# Series取前三个for label, ser in df.items():print(label)print(ser[:3], end="

")

5、按列迭代

# 直接对DataFrame迭代for column in df:print(column)

07、函数应用

1、pipe()

应用在整个DataFrame或Series上。

# 对df多重应用多个函数f(g(h(df), arg1=a), arg2=b, arg3=c)# 用pipe可以把它们连接起来(df.pipe(h).pipe(g, arg1=a).pipe(f, arg2=b, arg3=c))

2、apply()

应用在DataFrame的行或列中，默认为列。

#将name全部变为小写df.name.apply(lambda x: x.lower())

3、applymap()

应用在DataFrame的每个元素中。

# 计算数据的长度def mylen(x):return len(str(x))df.applymap(lambdax:mylen(x))#应用函数df.applymap(mylen) # 效果同上

4、map()

应用在Series或DataFrame的一列的每个元素中。

df.team.map({"A":"一班","B":"二班","C":"三班","D":"四班",})#枚举替换df["name"].map(f)

5、agg()

# 每列的最大值df.agg("max")# 将所有列聚合产生sum和min两行df.agg(["sum", "min"])# 序列多个聚合df.agg({"Q1" : ["sum", "min"], "Q2" : ["min","max"]})# 分组后聚合df.groupby("team").agg("max")df.Q1.agg(["sum", "mean"])

6、transform()

df.transform(lambdax:x*2)#应用匿名函数df.transform([np.sqrt, np.exp]) # 调用多个函数

7、copy()

s = pd.Series([1, 2], index=[\"a\",\"b\"])s_1 = ss_copy = s.copy()s_1 is s # Trues_copy is s # False

最后的最后，抽2本清华大学出版社的《Python数据科学项目实战》，本书从实际出发，内容涵盖了数据爬取、用聚类算法组织数据、可视化复杂的多变量数据集和训练机器学习算法，用5个项目帮助大家强化对于Python数据科学领域的应用，内容深入浅出，值得一读！

这次抽奖丰富点，本文三连（点赞、在看或者转发任意都可）后：1、留言点赞第1送一本2、加我微信好友，回复“抽奖”，抽奖送一本

扫码加我好友

5月30日22:00开奖（一个人最多只能获得一本），祝大家好运~

标签：

外交部回应俄乌谈判中释放积极信号

美联储或加速加息对抗通胀引担忧

要闻

更多+

热点

更多+

环球观点：Pandas50个高级操作，秀起来！

01、复杂查询

1、逻辑运算

2、逻辑筛选数据

3、函数筛选

4、比较函数

5、查询df.query()

6、筛选df.filter()

02、数据类型转换

1、推断类型

2、指定类型

3、类型转换astype()

4、转为时间类型

03、数据排序

1、索引排序df.sort_index()

2、数值排序sort_values()

3、混合排序

4、按值大小排序nsmallest()和nlargest()

04、添加修改

1、修改数值

2、替换数据

3、填充空值

4、修改索引名

5、增加列

6、插入列df.insert()

7、指定列df.assign()

8、执行表达式df.eval()

9、增加行

10、追加合并

11、删除

12、删除空值

05、高级过滤

1、df.where()

2、np.where()

3、df.mask()

4、df.lookup()

06、数据迭代

1、迭代Series

2、df.iterrows()

3、df.itertuples()

4、df.items()

5、按列迭代

07、函数应用

1、pipe()

2、apply()

3、applymap()

4、map()

5、agg()

6、transform()

7、copy()

环球观点：Pandas50个高级操作，秀起来！

工程建设与设计期刊级别 建筑工程技术与设计是什么级别的刊物

约吗？在16万平方米的宫殿里玩沉浸式古装本。期待选周深是"刺客" 环球聚看点

种植牙价格下调，如何监督执行到位？四川将建价格异常警示制度

【焦点热闻】学习计划的重要性名言_计划的重要性名言

“声”入人心，“舞”比精彩||兴义市昌文学校文化艺术节圆满落幕_全球速看料

基础油的正确使用方法（基础油） 天天信息

疯情书库目录_疯情书库_环球视点

【环球快播报】高校毕业生规模创新高 广西多措促就业

“帮帮我，我走投无路了。”厦门警方：开展抓捕！

全球报道:碰撞：东方伊甸园

全球生成式AI产业图谱及报告在第七届世界智能大会发布

焦点消息！我的人际关系图（人际关系图）

（遇见中国）吉尔吉斯斯坦商人纳伦：人生每一个小目标都离不开中国的发展

直饮机十大品牌有哪些_直饮机十大品牌_焦点要闻

吴新明会见台湾三三企业交流会与工商协进会联合经贸参访团

兰张三四线铁路（兰武段）开始铺轨 全球快讯

针对阿拉善天然碱项目新增产能，公司已完成前期市场调研 天天快资讯

全球热点！亚运集训人员历史荣誉统计：仅上单位与中单位没有S赛冠军

多血质外貌图片_多血质

宝泰隆：感谢您关注我公司。公司与中石化合作的氢气站目前已竞拍完土地，尚未开始建设，目前未运营 每日热讯

当前关注：一季度中国宏观杠杆率上升8.6个百分点，居民部门重拾升势

快讯2023-05-26 22:49:27

宝宝5个月发育标准_五个月的宝宝发育标准 今日热议

每日热点：中招面对面丨郑州市第四十一高级中学执行校长李海因：文理兼长 报志愿要看得到、摸得着、冲一冲

五月天演唱会，北京警方已处理“黄牛”29人！

七月火把节歌词_关于七月火把节歌词 世界即时

当前滚动:直面解答新规要点！郑东新区龙子湖智慧岛基金备案合规讲座顺利举行

全球速讯：推出10条长江主题国家级旅游线路

信息：如何帮学生系好心理健康“安全带”？这里有答案

工程建设与设计期刊级别建筑工程技术与设计是什么级别的刊物

基础油的正确使用方法（基础油）天天信息

【环球快播报】高校毕业生规模创新高广西多措促就业

兰张三四线铁路（兰武段）开始铺轨全球快讯

针对阿拉善天然碱项目新增产能，公司已完成前期市场调研天天快资讯

宝泰隆：感谢您关注我公司。公司与中石化合作的氢气站目前已竞拍完土地，尚未开始建设，目前未运营每日热讯

宝宝5个月发育标准_五个月的宝宝发育标准今日热议

每日热点：中招面对面丨郑州市第四十一高级中学执行校长李海因：文理兼长报志愿要看得到、摸得着、冲一冲

七月火把节歌词_关于七月火把节歌词世界即时

培育创新土壤滋养创新精神（在一线）