入門#

安裝#

搭配 conda 使用?

pandas 是 Anaconda 套件的一部分,可以透過 Anaconda 或 Miniconda 安裝

偏好 pip?

pandas 可以透過 pip 從 PyPI 安裝。

深入說明?

安裝特定版本?從原始碼安裝?請查看進階安裝頁面。

pandas 簡介#

處理表格資料時,例如儲存在試算表或資料庫中的資料,pandas 是您的最佳工具。pandas 將協助您探索、清理和處理資料。在 pandas 中,資料表稱為 DataFrame

../_images/01_table_dataframe.svg

pandas 內建支援許多檔案格式或資料來源的整合(csv、excel、sql、json、parquet 等)。從這些資料來源匯入資料是由具有前綴 read_* 的函式提供。類似地,to_* 方法用於儲存資料。

../_images/02_io_readwrite.svg

選取或篩選特定列和/或欄?根據條件篩選資料?pandas 提供用於切片、選取和擷取所需資料的方法。

../_images/03_subset_columns_rows.svg

pandas 提供使用 Matplotlib 的功能,直接繪製資料圖表。您可以根據資料選取圖表類型(散佈圖、長條圖、盒狀圖等)。

../_images/04_plot_overview.svg

無需迴圈處理資料表的每一列來進行計算。欄的資料處理是逐元素運作的。根據其他欄中的現有資料,在 DataFrame 中新增一欄非常簡單。

../_images/05_newcolumn_2.svg

基本統計資料(平均值、中位數、最小值、最大值、計數…)很容易計算。這些或自訂的聚合可以套用在整個資料集、資料的滑動視窗,或依類別分組。後者也稱為分割-套用-合併方法。

../_images/06_groupby.svg

以多種方式變更資料表的結構。您可以使用 melt() 將資料表從寬式轉換為長式/整齊格式,或使用 pivot() 從長式轉換為寬式格式。透過內建的聚合,可以使用單一指令建立樞紐分析表。

../_images/07_melt.svg

多個表格可以縱向和橫向串接,因為資料庫提供的連接/合併操作可以組合多個資料表格。

../_images/08_concat_row.svg

pandas 對時間序列有很大的支援,並有一系列廣泛的工具可處理日期、時間和時間索引資料。

資料集不只包含數值資料。pandas 提供廣泛的函式來清理文字資料並從中萃取有用的資訊。

來自…#

您是否熟悉其他用於處理表格資料的軟體?了解與您已知的軟體相比,pandas 等效的操作

R 程式語言 提供 data.frame 資料結構和多個套件,例如 tidyverse 使用並擴充 data.frame 以提供類似 pandas 的方便資料處理功能。

已經熟悉 SELECTGROUP BYJOIN 等?這些 SQL 處理大部分都有 pandas 等效項。

包含在 STATA 統計軟體套件中的 data set 對應到 pandas 的 DataFrame。許多從 STATA 得知的運算在 pandas 中都有對應的運算。

Excel 或其他試算表程式的使用者會發現許多概念都可以轉移到 pandas。

SAS 統計軟體套件也提供對應到 pandas DataFramedata set。SAS 向量化運算、篩選、字串處理運算等在 pandas 中也有類似的函數。

教學課程#

如需 pandas 功能的快速概觀,請參閱 10 分鐘學會 pandas

您也可以參考 pandas 秘笈,取得使用 pandas 處理資料的簡潔指南。

社群製作了各種線上教學課程。部分教材列於社群貢獻的 社群教學課程 中。