我正在使用 Pyspark 处理这个推文数据集,并根据推文的位置获取一些趋势。但是当我尝试创建数据框时遇到了问题。我正在使用创建spark.read.options(header="True").csv("hashtag_donaldtrump.csv")数据框,但如果我查看推文列,我得到的结果如下:
spark.read.options(header="True").csv("hashtag_donaldtrump.csv")
您知道如何清理 CSV 文件以便 Spark 可以处理它吗?提前谢谢您!
它看起来像一个多行 csv。尝试执行
df = spark.read.csv("hashtag_donaldtrump.csv", header=True, multiLine=True)