小能豆

如何在 Pyspark 中读取多行 CSV 文件

py

我正在使用 Pyspark 处理这个推文数据集,并根据推文的位置获取一些趋势。但是当我尝试创建数据框时遇到了问题。我正在使用创建spark.read.options(header="True").csv("hashtag_donaldtrump.csv")数据框,但如果我查看推文列,我得到的结果如下:

1.png

您知道如何清理 CSV 文件以便 Spark 可以处理它吗?提前谢谢您!


阅读 19

收藏
2024-12-10

共1个答案

小能豆

它看起来像一个多行 csv。尝试执行

df = spark.read.csv("hashtag_donaldtrump.csv", header=True, multiLine=True)
2024-12-10