MapReduce 中获取Parquet 格式文件的schema

- 日理万妓 2022-05-10 15:08 227阅读 0赞

在MapReduce中读取Parquet格式文件时，默认会自动获取文件的Schema，不需要进行额外的设置即可读取。如果想获取指定文件的Schema，应该怎么做呢？

**1、maven相关依赖**

<properties>
        ...
        <parquet.version>1.9.0</parquet.version>
        ...
    </properties>
    <dependency>
        <groupId>org.apache.parquet</groupId>
        <artifactId>parquet-column</artifactId>
        <version>${parquet.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.parquet</groupId>
        <artifactId>parquet-hadoop</artifactId>
        <version>${parquet.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.parquet</groupId>
        <artifactId>parquet-common</artifactId>
        <version>${parquet.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.parquet</groupId>
        <artifactId>parquet-encoding</artifactId>
        <version>${parquet.version}</version>
    </dependency>

**2、导入相关的类包**

import org.apache.parquet.hadoop.ParquetFileReader;
    import org.apache.parquet.hadoop.metadata.ParquetMetadata;
    import org.apache.parquet.schema.MessageType;
    import org.apache.parquet.schema.Type;
    
    import static org.apache.parquet.format.converter.ParquetMetadataConverter.NO_FILTER;

**3、在Job、Map或者Reduce中获取指定文件的Schema**

Configuration conf = getConf();
    
    // 文件路径
    String filePath = ".../part-r-00002.snappy.parquet";
    ParquetMetadata metadata = ParquetFileReader.readFooter(conf, new Path(filePath), NO_FILTER);
    
    // 获取 parquet 格式文件的全部 schema
    MessageType schema = metadata.getFileMetaData().getSchema();
    
    // 获取某个字段（如url)的 schema 类型
    Type type = schema.getType("url");

怎么样，是不是很简单呢！