一尘不染

AWS Glue Crawler将json文件分类为UNKNOWN

json

我正在进行ETL作业,该作业将JSON文件提取到RDS登台表中。我配置的搜寻器对JSON文件进行分类,只要它们的大小小于1MB。如果我缩小文件(而不是漂亮的打印件),并且结果小于1MB,它将对文件进行分类而不会出现问题。

我在想办法时遇到了麻烦。我尝试将JSON转换为BSON或GZIPing JSON文件,但仍被归类为UNKNOWN。

还有其他人遇到这个问题吗?有一个更好的方法吗?


阅读 293

收藏
2020-07-27

共1个答案

一尘不染

我有两个json文件,分别为42mb和16mb,在S3上作为路径分区:

  • s3://bucket/stg/year/month/_0.json

  • s3://bucket/stg/year/month/_1.json

我遇到了与您相同的问题,爬虫分类为UNKNOWN。

我能够解决它:

  • 您必须使用JSONPath作为“ $ [*]”创建自定义分类器,然后使用分类器创建新的搜寻器。
  • 使用S3上的数据运行新的搜寻器,将创建正确的架构。
  • 请勿使用分类器更新当前的搜寻器,因为它不会应用更改,我不知道为什么,也许是因为他们的文档中提到了分类器版本化AWS。创建新的搜寻器,使它们正常工作
2020-07-27