【Python】数据分析+数据挖掘——变量列的相关操作,三星s7220（python变量列表）_编程语言

文件名：【Python】数据分析+数据挖掘——变量列的相关操作,三星s7220 【Python】数据分析+数据挖掘——变量列的相关操作前言

在Python和Pandas中，变量列操作指的是对DataFrame中的列进行操作，包括但不限于选择列、重命名列、添加新列、删除列、修改列数据等操作。这些操作可以帮助我们处理数据、分析数据和进行特征工程等。

变量列的相关操作概述

下面将会列出一些基本的操作指令

# 查看df的前number条数据，不填数字默认为5df.head(number)# 查看df的后number条数据，不填数字默认为5df.tail(number)# 数据框的基本信息df.info()# 列出所有的变量名df.columns# 修改变量列名df.rename()# 筛选单个相关的变量名df.column_name # 还有一个表达 df['column_name']# 筛选多个相关的变量名df[['column_name1','column_name2'...]]# 删除变量列df.drop()

案例数据表university_rank.csv

In[0]:

import pandas as pd # 引入pandas库df = pd.read_csv("university_rank.csv") # 读取文件df.head() # 显示文件头的记录（默认前五条）

out[0]:

大学名称地区学科领域排名依据排名1哈佛大学北美工程学术声誉2牛津大学欧洲医学科研产出3北京大学亚洲商学国际影响力4悉尼大学大洋洲计算机科学教学质量5圣保罗大学南美艺术学生满意度

In[1]:

df.tail() # 查看文件末的记录（默认后五条）

out[1]:

大学名称地区学科领域排名依据排名96圣保罗国立大学南美计算机科学研究生录取率97约翰内斯堡大学非洲环境科学学术声誉98麦吉尔大学北美艺术学生满意度99伦敦政治经济学院欧洲法律国际影响力100东京大学亚洲教育毕业生就业率

可以看的出来无论是df.head()还是df.tail()，如果里面不填写相关的参数，那么默认只查询5条记录。

那么接下来我们尝试一下给它们传入一些参数

In[2]:

number = 10 # 设置一个参数df.head(number) # 传入参数

out[2]:

大学名称地区学科领域排名依据排名1哈佛大学北美工程学术声誉2牛津大学欧洲医学科研产出3北京大学亚洲商学国际影响力4悉尼大学大洋洲计算机科学教学质量5圣保罗大学南美艺术学生满意度6约翰内斯堡大学非洲法律毕业生就业率7麦吉尔大学北美教育校友网络8伦敦政治经济学院欧洲经济学国际化程度9东京大学亚洲社会科学研究生录取率10澳大利亚国立大学大洋洲环境科学科研经费

注意：在jupyter notebook中默认情况下，如果DataFrame的行数超过一定阈值，默认情况下，Jupyter Notebook 会自动省略 DataFrame 中的行，显示前面几行和最后几行，并用省略号 ... 表示省略的行。这个阈值默认是 60 行，也就是说，当 DataFrame 的行数超过 60 行时，Jupyter Notebook 会自动省略中间的部分，只显示前几行和最后几行数据，您可以使用pd.set_option来调整Jupyter Notebook中DataFrame的显示行数和列数的限制。

# 设置显示的最大行数和列数为None，表示不限制pd.set_option('display.max_rows', None)pd.set_option('display.max_columns', None)

In[3]:

df.info() # 快速了解 DataFrame数据是否有缺失值、了解数据类型是否正确，以及预估内存占用情况。

out[3]:

<class 'pandas.core.frame.DataFrame'>Int64Index: 100 entries, 1 to 100Data columns (total 4 columns):# Column Non-Null Count Dtype --- ------ -------------- ----- 0 大学名称 100 non-null object1 地区 100 non-null object2 学科领域 100 non-null object3 排名依据 100 non-null objectdtypes: object(4)memory usage: 3.9+ KB

变量列的重命名

案例数据表university_rank.csv

我们先看一下DataFrame的列分别有什么，使用df.columns函数来查看

In[4]:

df = pd.read_csv("university.csv") # 读取文件df.columns # 展示该DataFrame的列名

out[4]:

Index(['大学名称', '地区', '学科领域', '排名依据'], dtype='object')

在Pandas中有很多函数的作用都是重复的，故不需要掌握全部有关变量列重命名的函数，在这个案例中可以使用df.columns来修改列的名称，只需要给其赋值一个（列表）list就行

In[5]:

df.columns = ['university_name', 'site', 'area', 'rank_info'] # 更改列名df # 展示新DataFrame

out[5]:

university_namesitearearank_info排名1哈佛大学北美工程学术声誉2牛津大学欧洲医学科研产出3北京大学亚洲商学国际影响力4悉尼大学大洋洲计算机科学教学质量5圣保罗大学南美艺术学生满意度...............96圣保罗国立大学南美计算机科学研究生录取率97约翰内斯堡大学非洲环境科学学术声誉98麦吉尔大学北美艺术学生满意度99伦敦政治经济学院欧洲法律国际影响力100东京大学亚洲教育毕业生就业率

100 rows × 4 columns

这里如果要使用df.columns = []来修改列名，则必须的要给出的list的大小与原DataFrame的变量列的数量一致，所以这里如果变量列很多，但是需要修改的列名却只有若干个的话，建议使用df.rename()来操作

df.rename(# 修改列标签的字典columns = {'old_attribute1':'new_attribute1','old_attribute2':'new_attribute2',...},# 修改行标签的字典index# 是否在原DataFrame上修改inplace = False)

In[6]:

new_df = df.rename(columns={'university_name': '学校名称','site': '地点'}) # 不在原df进行列的重命名print(new_df) # 打印新的dfprint(df) # 打印旧的df

out[6]:

学校名称地点 area rank_info排名 1 哈佛大学北美工程学术声誉2 牛津大学欧洲医学科研产出3 北京大学亚洲商学国际影响力4 悉尼大学大洋洲计算机科学教学质量5 圣保罗大学南美艺术学生满意度.. ... ... ... ...96 圣保罗国立大学南美计算机科学研究生录取率97 约翰内斯堡大学非洲环境科学学术声誉98 麦吉尔大学北美艺术学生满意度99 伦敦政治经济学院欧洲法律国际影响力100 东京大学亚洲教育毕业生就业率[100 rows x 4 columns]university_name site area rank_info排名 1 哈佛大学北美工程学术声誉2 牛津大学欧洲医学科研产出3 北京大学亚洲商学国际影响力4 悉尼大学大洋洲计算机科学教学质量5 圣保罗大学南美艺术学生满意度.. ... ... ... ...96 圣保罗国立大学南美计算机科学研究生录取率97 约翰内斯堡大学非洲环境科学学术声誉98 麦吉尔大学北美艺术学生满意度99 伦敦政治经济学院欧洲法律国际影响力100 东京大学亚洲教育毕业生就业率[100 rows x 4 columns]

若设置inplace = True则在原df上进行修改，因此就不需要进行赋值操作了。

In[7]:

df.rename(columns={'university_name': '学校名称','site': '地点','area': '学科领域','rank_info': '排名依据'},inplace=True) # 在原df进行修改print(df) # 打印新df

out[7]:

大学名称地区学科领域排名依据排名 1 哈佛大学北美工程学术声誉2 牛津大学欧洲医学科研产出3 北京大学亚洲商学国际影响力4 悉尼大学大洋洲计算机科学教学质量5 圣保罗大学南美艺术学生满意度.. ... ... ... ...96 圣保罗国立大学南美计算机科学研究生录取率97 约翰内斯堡大学非洲环境科学学术声誉98 麦吉尔大学北美艺术学生满意度99 伦敦政治经济学院欧洲法律国际影响力100 东京大学亚洲教育毕业生就业率[100 rows x 4 columns]

补充：

有时候df.columns函数会搭配tolist函数

column_list = df.columns.tolist() print(column_list)

变量列的筛选

在Pandas中对变量列筛选的函数冗余度很高，在这里只详细介绍一下最简单的方法

# 筛选单个列df.column_name # column_name是您想要筛选的列标签# 筛选多个列df[['column_name1','columns_name2']]

案例数据表university_rank.csv

In[8]:

df = pd.read_csv("university_csv") # 读取案例文件df.学校名称 # 使用df.column_name来筛选单列

out[7]:

排名1 哈佛大学2 牛津大学3 北京大学4 悉尼大学5 圣保罗大学... 96 圣保罗国立大学97 约翰内斯堡大学98 麦吉尔大学99 伦敦政治经济学院100 东京大学Name: 学校名称, Length: 100, dtype: object

注意这里的df.column_name返回的数据类型结果是numpy中的Series

In[9]:

type(df.学校名称)

out[9]:

pandas.core.series.Series

其实不用 . 运算符也可以进行单列的筛选，使用df['column_name']拥有一样的效果，不过一般在对新增变量列的时候才会使用，也就是说当使用.来进行单列筛选的时候必须保证该DataFrame有该列，而使用df.["column_name"]则不需要。

In[10]:

df['学校名称']

out[10]:

进行多列的筛选的时候需要使用列表嵌套

In[11]:

df[['学校名称', '排名依据']]

out[11]:

学校名称排名依据排名1哈佛大学学术声誉2牛津大学科研产出3北京大学国际影响力4悉尼大学教学质量5圣保罗大学学生满意度.........96圣保罗国立大学研究生录取率97约翰内斯堡大学学术声誉98麦吉尔大学学生满意度99伦敦政治经济学院国际影响力100东京大学毕业生就业率

100 rows × 2 columns

补充：

除了使用方括号 [] 运算符来筛选列，还可以使用 loc 属性、使用 iloc 属性

# loc:# 假设 df 是一个 DataFrame，'column_name' 是您想要筛选的列标签selected_column = df.loc[:, 'column_name'] # 筛选column_name列以及其前面的所有列# iloc# 假设 df 是一个 DataFrame，column_index 是您想要筛选的列的索引（从 0 开始）selected_column = df.iloc[:, column_index]

删除变量列

要删除 DataFrame 中的变量列，可以使用 drop() 方法或 del 关键字。下面主要介绍这两种方法~

df.drop(# 要删除的行索引或列标签。可以是单个值或一个包含多个值的列表labels = [],# 需要删除的列名的列表columns = [],# 用于指定要删除的行索引。可以是单个值或一个包含多个值的列表。与 axis=0 一起使用index = [],# 指定要删除的是行还是列。默认为 0，即删除行。如果要删除列，则应设置为 1axis = 0# 是否在在df上进行修改inplace = False)

案例数据表university_rank.csv

In[12]:

df = dbdf.drop(columns=['地区', '学科领域'])

out[12]:

大学名称排名依据排名1哈佛大学学术声誉2牛津大学科研产出3北京大学国际影响力4悉尼大学教学质量5圣保罗大学学生满意度.........96圣保罗国立大学研究生录取率97约翰内斯堡大学学术声誉98麦吉尔大学学生满意度99伦敦政治经济学院国际影响力100东京大学毕业生就业率

100 rows × 2 columns

使用 del 关键字则是直接在原始 DataFrame 上进行删除，也就是在df.drop()中inplace参数默认为True

添加变量列

如果是对已有的变量列进行赋值则可以直接使用df.column_name = ?来对已有的column_name进行赋值如果是想创建一个变量类则需要使用df[new_column_name] = '?' 来创建’new_column_name’，并且全部赋值成'?'

案例数据表university_rank.csv

In[13]:

df = pd.read_csv("university_rank.csv") # 读取案例数据df # 展示案例数据

out[13]:

大学名称排名地区学科领域排名依据0哈佛大学1北美工程学术声誉1牛津大学2欧洲医学科研产出2北京大学3亚洲商学国际影响力3悉尼大学4大洋洲计算机科学教学质量4圣保罗大学5南美艺术学生满意度..................95圣保罗国立大学96南美计算机科学研究生录取率96约翰内斯堡大学97非洲环境科学学术声誉97麦吉尔大学98北美艺术学生满意度98伦敦政治经济学院99欧洲法律国际影响力99东京大学100亚洲教育毕业生就业率

100 rows × 5 columns

In[14]:

df.地区 = "未知" # 使用`.`运算符进行对已有的变量列进行赋值df # 展示修改后的表

out[14]:

大学名称排名地区学科领域排名依据0哈佛大学1未知工程学术声誉1牛津大学2未知医学科研产出2北京大学3未知商学国际影响力3悉尼大学4未知计算机科学教学质量4圣保罗大学5未知艺术学生满意度..................95圣保罗国立大学96未知计算机科学研究生录取率96约翰内斯堡大学97未知环境科学学术声誉97麦吉尔大学98未知艺术学生满意度98伦敦政治经济学院99未知法律国际影响力99东京大学100未知教育毕业生就业率

100 rows × 5 columns

使用df['column_name']来对原有的列进行赋值或者创建一个新的列

In[15]:

df = pd.read_csv("university_rank.csv") # 重新读一下数据表df["入学人数"] = "未知" # 创建一个新的列，并且赋值为"未知"df # 展示一下新的df

out[15]:

大学名称排名地区学科领域排名依据入学人数0哈佛大学1北美工程学术声誉未知1牛津大学2欧洲医学科研产出未知2北京大学3亚洲商学国际影响力未知3悉尼大学4大洋洲计算机科学教学质量未知4圣保罗大学5南美艺术学生满意度未知.....................95圣保罗国立大学96南美计算机科学研究生录取率未知96约翰内斯堡大学97非洲环境科学学术声誉未知97麦吉尔大学98北美艺术学生满意度未知98伦敦政治经济学院99欧洲法律国际影响力未知99东京大学100亚洲教育毕业生就业率未知

100 rows × 6 columns

使用df['column_name']的方法虽然简单，但是只能在列的末尾添加新的列，下面将介绍一个新的添加变量列的方法。

DataFrame支持插入的变量列自定义位置、列名、值、是否重名等，具体使用方法为df.insert

df.insert(# 插入变量列的索引，第一个变量列为0，依次类推loc# 插入变量列的名称，是一个字符串column# 变量值，可以是单个标量值（如整数、浮点数、字符串等），也可以是一个与 DataFrame 行数相同长度的列表或 Seriesvalue# 是否允许重名allow_duplicate = False)

In[16]:

df = pd.read_csv("university_rank.csv") # 重新读入一下案例数据表df.insert(loc=2, column="创办时间", value="未知") # 使用df.insert来插入新列表df

out[16]:

大学名称排名创办时间地区学科领域排名依据0哈佛大学1未知北美工程学术声誉1牛津大学2未知欧洲医学科研产出2北京大学3未知亚洲商学国际影响力3悉尼大学4未知大洋洲计算机科学教学质量4圣保罗大学5未知南美艺术学生满意度.....................95圣保罗国立大学96未知南美计算机科学研究生录取率96约翰内斯堡大学97未知非洲环境科学学术声誉97麦吉尔大学98未知北美艺术学生满意度98伦敦政治经济学院99未知欧洲法律国际影响力99东京大学100未知亚洲教育毕业生就业率

100 rows × 6 columns

变量列的四则运算

对DataFrame类型数据进行运算时需要考虑到库支持类型是否满足运行需求，常用的库有math\numpy

numpy库中的运算可以支持Series类型数据而math库中并不支持，需要使用别的函数来进行类型转换

注：在添加变量列的时候也可以进行四则运算

案例数据表university_rank.csv

In[17]:

import numpy as np # 为了进行运算，先导入numpy库df = pd.read_csv("university_rank.csv") # 读取案例数据表df["入学人数"] = 1000 # 在列末尾新增一个变量列并赋值1000df.入学人数 = np.sqrt(df.入学人数) # 对新增的变量列进行运算df # 展示运算后的数据表

out[17]:

大学名称排名地区学科领域排名依据入学人数0哈佛大学1北美工程学术声誉31.6227771牛津大学2欧洲医学科研产出31.6227772北京大学3亚洲商学国际影响力31.6227773悉尼大学4大洋洲计算机科学教学质量31.6227774圣保罗大学5南美艺术学生满意度31.622777.....................95圣保罗国立大学96南美计算机科学研究生录取率31.62277796约翰内斯堡大学97非洲环境科学学术声誉31.62277797麦吉尔大学98北美艺术学生满意度31.62277798伦敦政治经济学院99欧洲法律国际影响力31.62277799东京大学100亚洲教育毕业生就业率31.622777

100 rows × 6 columns

如果不想在原来的DataFrame上进行修改，则可以使用df.assign

In[18]:

df = pd.read_csv("university_rank.csv")df["入学人数"] = 10000df1 = df.assign(入学人数=np.sqrt(df.入学人数))print(df)print(df1)

out[18]:

大学名称排名地区学科领域排名依据入学人数0 哈佛大学 1 北美工程学术声誉 100001 牛津大学 2 欧洲医学科研产出 100002 北京大学 3 亚洲商学国际影响力 100003 悉尼大学 4 大洋洲计算机科学教学质量 100004 圣保罗大学 5 南美艺术学生满意度 10000.. ... ... ... ... ... ...95 圣保罗国立大学 96 南美计算机科学研究生录取率 1000096 约翰内斯堡大学 97 非洲环境科学学术声誉 1000097 麦吉尔大学 98 北美艺术学生满意度 1000098 伦敦政治经济学院 99 欧洲法律国际影响力 1000099 东京大学 100 亚洲教育毕业生就业率 10000[100 rows x 6 columns]大学名称排名地区学科领域排名依据入学人数0 哈佛大学 1 北美工程学术声誉 100.01 牛津大学 2 欧洲医学科研产出 100.02 北京大学 3 亚洲商学国际影响力 100.03 悉尼大学 4 大洋洲计算机科学教学质量 100.04 圣保罗大学 5 南美艺术学生满意度 100.0.. ... ... ... ... ... ...95 圣保罗国立大学 96 南美计算机科学研究生录取率 100.096 约翰内斯堡大学 97 非洲环境科学学术声誉 100.097 麦吉尔大学 98 北美艺术学生满意度 100.098 伦敦政治经济学院 99 欧洲法律国际影响力 100.099 东京大学 100 亚洲教育毕业生就业率 100.0[100 rows x 6 columns]

如果是用math库，那么就需要使用apply进行中间转化，将Series转换成math库支持的类型进行运算

In[19]:

import math # 使用math库中的运算函数df = pd.read_csv("university_rank.csv")df["入学人数"] = 10000df.入学人数 = df.入学人数.apply(math.sqrt) # 需要使用apply函数进行类型转换df # 展示新数据表

out[19]:

大学名称排名地区学科领域排名依据入学人数0哈佛大学1北美工程学术声誉100.01牛津大学2欧洲医学科研产出100.02北京大学3亚洲商学国际影响力100.03悉尼大学4大洋洲计算机科学教学质量100.04圣保罗大学5南美艺术学生满意度100.0.....................95圣保罗国立大学96南美计算机科学研究生录取率100.096约翰内斯堡大学97非洲环境科学学术声誉100.097麦吉尔大学98北美艺术学生满意度100.098伦敦政治经济学院99欧洲法律国际影响力100.099东京大学100亚洲教育毕业生就业率100.0

100 rows × 6 columns

假如是对所有的cell进行运算而不是单独的几列进行运算，那么就可以使用df.applymap方法

In[20]:

df[["排名", "入学人数"]].applymap(math.sqrt)

out[20]:

排名入学人数01.00000010.011.41421410.021.73205110.032.00000010.042.23606810.0.........959.79795910.0969.84885810.0979.89949510.0989.94987410.09910.00000010.0

100 rows × 2 columns

结束语

如果有疑问欢迎大家留言讨论，你如果觉得这篇文章对你有帮助可以给我一个免费的赞吗？我们之间的交流是我最大的动力！

【Python】数据分析+数据挖掘——变量列的相关操作,三星s7220（python变量列表）

【Python】插入sqlite数据库,微型音箱

【Python】数据分析+数据挖掘——掌握Python和Pandas中的单元格替换操作,索尼爱立信w150

【PyQt小知识 - 3】： QComboBox下拉框内容的设置和更新、默认值的设置、值和下标的获取,佳能eos 550d

【Python CheckiO 题解】The Warriors,8600gts

【Python 必会技巧】使用 split() 方法对字符串进行切片,摩托罗拉flipout

【Python3】【力扣题】349. 两个数组的交集,securitykiss

【Python】 pip 常用命令及相关作用和使用场景,t13fhd

【Python】Pandas 简介，数据结构 Series、DataFrame 介绍，CSV 文件处理，JSON 文件处理,华硕维修

【Python】Python 实现 Excel 到 CSV 的转换程序,索爱u10i

【Python】基于非侵入式负荷检测与分解的电力数据挖掘,sony lt26w

【Python】基础（学习笔记）,w30hd（python教程 w3school）

« 2026年2月 »
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28