如何在 Pyspark 中读取多行 CSV 文件

小能豆

如何在 Pyspark 中读取多行 CSV 文件

我正在使用 Pyspark 处理这个推文数据集，并根据推文的位置获取一些趋势。但是当我尝试创建数据框时遇到了问题。我正在使用创建spark.read.options(header="True").csv("hashtag_donaldtrump.csv")数据框，但如果我查看推文列，我得到的结果如下：

您知道如何清理 CSV 文件以便 Spark 可以处理它吗？提前谢谢您！

阅读 19

2024-12-10

共1个答案

小能豆

它看起来像一个多行 csv。尝试执行

df = spark.read.csv("hashtag_donaldtrump.csv", header=True, multiLine=True)

2024-12-10