跳到主要内容

Spark 模式 - Parquet 数据源

元数据

Parquet 数据集的元数据是从 parquet 的架构中推断出来的

数据类型

Trevas 引擎负责在 Parquet 数据类型和 Trevas 支持的数据类型之间进行转换。

数据角色

VTL 的数据角色由 Trevas 引擎添加到 Parquet 数据集中,方法是向每个字段描述添加元数据“vtlRole”。 在默认情况下,所有 Parquet 数据集中没有角色的列将在 Trevas 中具有角色“MEASURE”。

VTL 允许数据角色在脚本中进行演变 (请看 这里)

读取

Dataset<Row> sparkDataset = spark.read().parquet("folder_path");
SparkDataset dataset = new SparkDataset(sparkDataset);

写入

// Trevas Spark Dataset
SparkDataset dataset = ...;

// Spark Dataset
Dataset<Row> sparkDataset = dataset.getSparkDataset();

sparkDataset.write()
.mode(SaveMode.Overwrite)
.parquet("folder_path");