小能豆

Pyspark:显示数据框列的直方图

python

在 pandas 数据框中,我使用以下代码来绘制列的直方图:

my_df.hist(column = 'field_1')

pyspark数据框架中是否有可以实现相同目标的东西? (我在 Jupyter Notebook 中)谢谢!


阅读 91

收藏
2024-05-15

共1个答案

小能豆

在 PySpark DataFrame 中,您可以使用 toPandas() 方法将数据转换为 Pandas DataFrame,然后使用 Pandas 的 hist() 方法来绘制直方图。这是一种简单而直接的方法,因为 Pandas 提供了丰富的绘图功能。

以下是实现的步骤:

# 假设 df 是您的 PySpark DataFrame

# 将 PySpark DataFrame 转换为 Pandas DataFrame
pandas_df = df.toPandas()

# 使用 Pandas 的 hist() 方法绘制直方图
pandas_df.hist(column='field_1')

# 显示图形
plt.show()

这段代码将 PySpark DataFrame 转换为 Pandas DataFrame,然后使用 Pandas 的 hist() 方法绘制指定列(’field_1’)的直方图。最后,使用 plt.show() 来显示图形。

确保在 Jupyter Notebook 中导入了 Matplotlib(如果您还没有导入的话),这样才能正确显示绘制的直方图。

2024-05-15