freeCodeCamp/guide/chinese/data-science-tools/pandas/index.md

2.8 KiB
Raw Blame History

title localeTitle
pandas 大熊猫

Everybody loves pandas!

大熊猫

pandas是一个使用数据框进行数据分析的Python库。数据框是数据表可以在概念上将其与电子表格进行比较。熟悉R的数据科学家会感到宾至如归。大熊猫通常与numpypyplot和scikit-learn一起使用。

导入大熊猫

使用别名pd导入pandas库是一种广泛使用的约定

import pandas as pd 

数据框架

数据框由许多行和列组成。每列代表数据集的一个特征,因此具有名称和数据类型。每行表示通过关联特征值的数据点。 pandas库允许您以各种方式处理数据框中的数据。大熊猫有很多可能性所以以下仅仅是为了给图书馆带来感觉。

系列

Series是pandas中的基本数据类型.A系列非常类似于数组NumPy数组实际上它是建立在NumPy数组对象之上.A系列可以有轴标签因为它可以被索引没有数字索引的标签用于数据的位置。它可以包含任何有效的Python对象如ListDictionary等。

从csv文件加载数据

.csv文件是_逗号分隔的值_文件。一种非常常见的存储数据的方法。要将此类数据加载到pandas数据框中请使用read_csv方法:

df = pd.read_csv(file_path) 

这里, file_path可以是您计算机上csv文件的本地路径也可以是指向其中的URL。列名可以包含在csv文件中也可以作为参数传递。有关此内容的更多信息请查看文档

概述数据框架

要显示数据框的前几行, head方法很有用再一次这对R程序员来说应该是熟悉的

df.head() 

这将显示数据框的前5行。

要显示超过前5行只需将要打印的行数放在head方法中。

df.head(10) 

这将显示数据帧的前10行。

为了显示数据帧的最后几行, tail方法很有用再一次这对R程序员来说应该是熟悉的

df.tail() 

这将显示数据框的最后5行。

子集:按名称获取列

数据帧可以是许多方式的子集。最简单的一个是获得一个列。例如,如果数据框df包含名为age的列,我们可以按如下方式提取它:

ages=df["age"] 

更多信息:

  1. 大熊猫
  2. read_csv