我的来源是SQL Server,我正在使用SSIS将数据导出到S3存储桶,但是现在我的要求是将文件发送为镶木地板文件格式。
你们能提供一些有关如何实现这一目标的线索吗?
谢谢,文
对于绊倒这个答案的人们来说,Apache Parquet是一个项目,它指定Hadoop和其他Apache项目采用的列式文件格式。
除非找到自定义组件或编写一些.NET代码来执行此操作,否则您将无法将数据从SQL Server导出到Parquet文件中。金斯威软件(KingswaySoft)的SSIS大数据组件可能提供一种这样的自定义组件,但是我并不熟悉。
如果要导出到Azure,则有两种选择:
使用灵活文件目标组件(Azure功能包的一部分),该组件可导出到Azure Blob或Data Lake Gen2存储中托管的Parquet文件。
利用PolyBase,一种SQL Server功能。它使您可以通过外部表功能将其导出到Parquet文件。但是,该文件必须托管在此处提到的位置。不幸的是,S3不是一个选择。
如果是我,我会将数据作为CSV文件移动到S3,然后使用Athena将CSV文件转换为Pqrquet。这里有一篇很漂亮的文章,讲述了雅典娜的那篇文章:
https://www.cloudforecast.io/blog/Athena-to-transform-CSV-to- Parquet/
网络,您将需要花一些钱,发挥创意,切换到Azure或在AWS中进行转换。