Spark 模式 - Parquet 数据源

元数据

Parquet 数据集的元数据是从 parquet 的架构中推断出来的

数据类型

Trevas 引擎负责在 Parquet 数据类型和 Trevas 支持的数据类型之间进行转换。

数据角色

VTL 的数据角色由 Trevas 引擎添加到 Parquet 数据集中，方法是向每个字段描述添加元数据“vtlRole”。在默认情况下，所有 Parquet 数据集中没有角色的列将在 Trevas 中具有角色“MEASURE”。

VTL 允许数据角色在脚本中进行演变 (请看这里)

读取

Dataset<Row> sparkDataset = spark.read().parquet("folder_path");
SparkDataset dataset = new SparkDataset(sparkDataset);

写入

// Trevas Spark Dataset
SparkDataset dataset = ...;

// Spark Dataset
Dataset<Row> sparkDataset = dataset.getSparkDataset();

sparkDataset.write()
            .mode(SaveMode.Overwrite)
            .parquet("folder_path");

元数据​

数据类型​

数据角色​

读取​

写入​

元数据

数据类型

数据角色

读取

写入