// Licensed to the Apache Software Foundation (ASF) under one
// or more contributor license agreements.  See the NOTICE file
// distributed with this work for additional information
// regarding copyright ownership.  The ASF licenses this file
// to you under the Apache License, Version 2.0 (the
// "License"); you may not use this file except in compliance
// with the License.  You may obtain a copy of the License at
//
//   http://www.apache.org/licenses/LICENSE-2.0
//
// Unless required by applicable law or agreed to in writing,
// software distributed under the License is distributed on an
// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
// KIND, either express or implied.  See the License for the
// specific language governing permissions and limitations
// under the License.

//! Contains file reader API and provides methods to access file metadata, row group
//! readers to read individual column chunks, or access record iterator.

use std::convert::TryFrom;
use std::fs::File;
use std::io::{BufReader, Cursor, Read, Seek, SeekFrom};
use std::path::Path;
use std::rc::Rc;

use basic::{ColumnOrder, Compression, Encoding, Type};
use byteorder::{LittleEndian, ByteOrder};
use column::page::{Page, PageReader};
use column::reader::{ColumnReader, ColumnReaderImpl};
use compression::{create_codec, Codec};
use errors::{ParquetError, Result};
use file::{FOOTER_SIZE, PARQUET_MAGIC};
use file::metadata::*;
use file::statistics;
use parquet_format::{ColumnOrder as TColumnOrder, FileMetaData as TFileMetaData};
use parquet_format::{PageType, PageHeader};
use record::reader::RowIter;
use schema::types::{self, SchemaDescriptor, Type as SchemaType};
use thrift::protocol::TCompactInputProtocol;
use util::io::FileSource;
use util::memory::ByteBufferPtr;

// ----------------------------------------------------------------------
// APIs for file & row group readers

/// Parquet file reader API. With this, user can get metadata information about the
/// Parquet file, can get reader for each row group, and access record iterator.
pub trait FileReader {
  /// Get metadata information about this file.
  fn metadata(&self) -> ParquetMetaDataPtr;

  /// Get the total number of row groups for this file.
  fn num_row_groups(&self) -> usize;

  /// Get the `i`th row group reader. Note this doesn't do bound check.
  fn get_row_group(&self, i: usize) -> Result<Box<RowGroupReader>>;

  /// Get full iterator of `Row`s from a file (over all row groups).
  ///
  /// Iterator will automatically load the next row group to advance.
  ///
  /// Projected schema can be a subset of or equal to the file schema, when it is None,
  /// full file schema is assumed.
  fn get_row_iter(&self, projection: Option<SchemaType>) -> Result<RowIter>;
}

/// Parquet row group reader API. With this, user can get metadata information about the
/// row group, as well as readers for each individual column chunk.
pub trait RowGroupReader {
  /// Get metadata information about this row group.
  fn metadata(&self) -> RowGroupMetaDataPtr;

  /// Get the total number of column chunks in this row group.
  fn num_columns(&self) -> usize;

  /// Get page reader for the `i`th column chunk.
  fn get_column_page_reader(&self, i: usize) -> Result<Box<PageReader>>;

  /// Get value reader for the `i`th column chunk.
  fn get_column_reader(&self, i: usize) -> Result<ColumnReader>;

  /// Get iterator of `Row`s from this row group.
  ///
  /// Projected schema can be a subset of or equal to the file schema, when it is None,
  /// full file schema is assumed.
  fn get_row_iter(&self, projection: Option<SchemaType>) -> Result<RowIter>;
}

// ----------------------------------------------------------------------
// Serialized impl for file & row group readers

/// Length should return the amount of bytes that implementor contains.
/// It's mainly used to read the metadata, which is at the end of the source.
pub trait Length  {
  /// Returns the amount of bytes of the inner source.
  fn len(&self) -> u64;
}

/// TryClone tries to clone the type and should maintain the `Seek` position of the given
/// instance.
pub trait TryClone: Sized {
  /// Clones the type returning a new instance or an error if it's not possible
  /// to clone it.
  fn try_clone(&self) -> Result<Self>;
}

impl Length for File {
  fn len(&self) -> u64 {
    self.metadata()
        .map(|m| m.len())
        .unwrap_or(0u64)
  }
}

impl TryClone for File {
  fn try_clone(&self) -> Result<Self> {
    self.try_clone().map_err(|e| e.into())
  }
}

impl<'a> Length for Cursor<&'a [u8]> {
  fn len(&self) -> u64 {
    self.get_ref().len() as u64
  }
}

impl<'a> TryClone for Cursor<&'a [u8]> {
  fn try_clone(&self) -> Result<Self> {
    Ok(self.clone())
  }
}

/// ParquetReader is the interface which needs to be fulfilled to be able to parse a
/// parquet source.
pub trait ParquetReader: Read + Seek + Length + TryClone {}
impl<T: Read + Seek + Length + TryClone> ParquetReader for T {}

/// A serialized implementation for Parquet [`FileReader`].
pub struct SerializedFileReader<R: ParquetReader> {
  buf: BufReader<R>,
  metadata: ParquetMetaDataPtr
}

impl<R: ParquetReader> SerializedFileReader<R> {
  /// Creates file reader from a Parquet file.
  /// Returns error if Parquet file does not exist or is corrupt.
  pub fn new(reader: R) -> Result<Self> {
    let mut buf = BufReader::new(reader);
    let metadata = Self::parse_metadata(&mut buf)?;
    Ok(Self { buf: buf, metadata: Rc::new(metadata) })
  }

  // Layout of Parquet file
  // +---------------------------+---+-----+
  // |      Rest of file         | B |  A  |
  // +---------------------------+---+-----+
  // where A: parquet footer, B: parquet metadata.
  //
  fn parse_metadata(buf: &mut BufReader<R>) -> Result<ParquetMetaData> {
    let file_size = buf.get_ref().len();
    if file_size < (FOOTER_SIZE as u64) {
      return Err(general_err!("Invalid Parquet file. Size is smaller than footer"));
    }
    let mut footer_buffer: [u8; FOOTER_SIZE] = [0; FOOTER_SIZE];
    buf.seek(SeekFrom::End(-(FOOTER_SIZE as i64)))?;
    buf.read_exact(&mut footer_buffer)?;
    if footer_buffer[4..] != PARQUET_MAGIC {
      return Err(general_err!("Invalid Parquet file. Corrupt footer"));
    }
    let metadata_len = LittleEndian::read_i32(&footer_buffer[0..4]) as i64;
    if metadata_len < 0 {
      return Err(general_err!(
        "Invalid Parquet file. Metadata length is less than zero ({})",
        metadata_len
      ));
    }
    let metadata_start: i64 = file_size as i64 - FOOTER_SIZE as i64 - metadata_len;
    if metadata_start < 0 {
      return Err(general_err!(
        "Invalid Parquet file. Metadata start is less than zero ({})",
        metadata_start
      ));
    }
    buf.seek(SeekFrom::Start(metadata_start as u64))?;
    let metadata_buf = buf.take(metadata_len as u64).into_inner();

    // TODO: row group filtering
    let mut prot = TCompactInputProtocol::new(metadata_buf);
    let mut t_file_metadata: TFileMetaData =
      TFileMetaData::read_from_in_protocol(&mut prot)
        .map_err(|e| ParquetError::General(format!("Could not parse metadata: {}", e)))?;
    let schema = types::from_thrift(&mut t_file_metadata.schema)?;
    let schema_descr = Rc::new(SchemaDescriptor::new(schema.clone()));
    let mut row_groups = Vec::new();
    for rg in t_file_metadata.row_groups {
      row_groups.push(Rc::new(RowGroupMetaData::from_thrift(schema_descr.clone(), rg)?));
    }
    let column_orders =
      Self::parse_column_orders(t_file_metadata.column_orders, &schema_descr);

    let file_metadata = FileMetaData::new(
      t_file_metadata.version,
      t_file_metadata.num_rows,
      t_file_metadata.created_by,
      schema,
      schema_descr,
      column_orders
    );
    Ok(ParquetMetaData::new(file_metadata, row_groups))
  }

  /// Parses column orders from Thrift definition.
  /// If no column orders are defined, returns `None`.
  fn parse_column_orders(
    t_column_orders: Option<Vec<TColumnOrder>>,
    schema_descr: &SchemaDescriptor
  ) -> Option<Vec<ColumnOrder>> {
    match t_column_orders {
      Some(orders) => {
        // Should always be the case
        assert_eq!(orders.len(), schema_descr.num_columns(),
          "Column order length mismatch");
        let mut res = Vec::new();
        for (i, column) in schema_descr.columns().iter().enumerate() {
          match orders[i] {
            TColumnOrder::TYPEORDER(_) => {
              let sort_order = ColumnOrder::get_sort_order(
                column.logical_type(),
                column.physical_type()
              );
              res.push(ColumnOrder::TYPE_DEFINED_ORDER(sort_order));
            }
          }
        }
        Some(res)
      },
      None => None
    }
  }
}

impl<R: 'static + ParquetReader> FileReader for SerializedFileReader<R> {
  fn metadata(&self) -> ParquetMetaDataPtr {
    self.metadata.clone()
  }

  fn num_row_groups(&self) -> usize {
    self.metadata.num_row_groups()
  }

  fn get_row_group(&self, i: usize) -> Result<Box<RowGroupReader>> {
    let row_group_metadata = self.metadata.row_group(i);
    // Row groups should be processed sequentially.
    let f = self.buf.get_ref().try_clone()?;
    Ok(Box::new(SerializedRowGroupReader::new(f, row_group_metadata)))
  }

  fn get_row_iter(&self, projection: Option<SchemaType>) -> Result<RowIter> {
    RowIter::from_file(projection, self)
  }
}

impl TryFrom<File> for SerializedFileReader<File> {
  type Error = ParquetError;

  fn try_from(file: File) -> Result<Self> {
    Self::new(file)
  }
}

impl<'a> TryFrom<&'a Path> for SerializedFileReader<File> {
  type Error = ParquetError;

  fn try_from(path: &Path) -> Result<Self> {
    let file = File::open(path)?;
    Self::try_from(file)
  }
}

impl TryFrom<String> for SerializedFileReader<File> {
  type Error = ParquetError;

  fn try_from(path: String) -> Result<Self> {
    Self::try_from(Path::new(&path))
  }
}

impl<'a> TryFrom<&'a str> for SerializedFileReader<File> {
  type Error = ParquetError;

  fn try_from(path: &str) -> Result<Self> {
    Self::try_from(Path::new(&path))
  }
}

/// A serialized implementation for Parquet [`RowGroupReader`].
pub struct SerializedRowGroupReader<R: ParquetReader> {
  buf: BufReader<R>,
  metadata: RowGroupMetaDataPtr
}

impl<R: 'static + ParquetReader> SerializedRowGroupReader<R> {
  /// Creates new row group reader from a file and row group metadata.
  fn new(file: R, metadata: RowGroupMetaDataPtr) -> Self {
    let buf = BufReader::new(file);
    Self { buf, metadata }
  }
}

impl<R: 'static + ParquetReader> RowGroupReader for SerializedRowGroupReader<R> {
  fn metadata(&self) -> RowGroupMetaDataPtr {
    self.metadata.clone()
  }

  fn num_columns(&self) -> usize {
    self.metadata.num_columns()
  }

  // TODO: fix PARQUET-816
  fn get_column_page_reader(&self, i: usize) -> Result<Box<PageReader>> {
    let col = self.metadata.column(i);
    let mut col_start = col.data_page_offset();
    if col.has_dictionary_page() {
      col_start = col.dictionary_page_offset().unwrap();
    }
    let col_length = col.compressed_size();
    let file_chunk = FileSource::new(
      self.buf.get_ref(), col_start as u64, col_length as usize);
    let page_reader = SerializedPageReader::new(
      file_chunk,
      col.num_values(),
      col.compression(),
      col.column_descr().physical_type()
    )?;
    Ok(Box::new(page_reader))
  }

  fn get_column_reader(&self, i: usize) -> Result<ColumnReader> {
    let schema_descr = self.metadata.schema_descr();
    let col_descr = schema_descr.column(i);
    let col_page_reader = self.get_column_page_reader(i)?;
    let col_reader = match col_descr.physical_type() {
      Type::BOOLEAN => ColumnReader::BoolColumnReader(
        ColumnReaderImpl::new(col_descr, col_page_reader)),
      Type::INT32 => ColumnReader::Int32ColumnReader(
        ColumnReaderImpl::new(col_descr, col_page_reader)),
      Type::INT64 => ColumnReader::Int64ColumnReader(
        ColumnReaderImpl::new(col_descr, col_page_reader)),
      Type::INT96 => ColumnReader::Int96ColumnReader(
        ColumnReaderImpl::new(col_descr, col_page_reader)),
      Type::FLOAT => ColumnReader::FloatColumnReader(
        ColumnReaderImpl::new(col_descr, col_page_reader)),
      Type::DOUBLE => ColumnReader::DoubleColumnReader(
        ColumnReaderImpl::new(col_descr, col_page_reader)),
      Type::BYTE_ARRAY => ColumnReader::ByteArrayColumnReader(
        ColumnReaderImpl::new(col_descr, col_page_reader)),
      Type::FIXED_LEN_BYTE_ARRAY => ColumnReader::FixedLenByteArrayColumnReader(
        ColumnReaderImpl::new(col_descr, col_page_reader)),
    };
    Ok(col_reader)
  }

  fn get_row_iter(&self, projection: Option<SchemaType>) -> Result<RowIter> {
    RowIter::from_row_group(projection, self)
  }
}

/// A serialized implementation for Parquet [`PageReader`].
pub struct SerializedPageReader<T: Read> {
  // The file source buffer which references exactly the bytes for the column trunk
  // to be read by this page reader.
  buf: T,

  // The compression codec for this column chunk. Only set for non-PLAIN codec.
  decompressor: Option<Box<Codec>>,

  // The number of values we have seen so far.
  seen_num_values: i64,

  // The number of total values in this column chunk.
  total_num_values: i64,

  // Column chunk type.
  physical_type: Type
}

impl<T: Read> SerializedPageReader<T> {
  /// Creates a new serialized page reader from file source.
  pub fn new(
    buf: T,
    total_num_values: i64,
    compression: Compression,
    physical_type: Type
  ) -> Result<Self> {
    let decompressor = create_codec(compression)?;
    let result = Self {
      buf: buf,
      total_num_values: total_num_values,
      seen_num_values: 0,
      decompressor: decompressor,
      physical_type: physical_type
    };
    Ok(result)
  }

  /// Reads Page header from Thrift.
  fn read_page_header(&mut self) -> Result<PageHeader> {
    let mut prot = TCompactInputProtocol::new(&mut self.buf);
    let page_header = PageHeader::read_from_in_protocol(&mut prot)?;
    Ok(page_header)
  }
}

impl<T: Read> PageReader for SerializedPageReader<T> {
  fn get_next_page(&mut self) -> Result<Option<Page>> {
    while self.seen_num_values < self.total_num_values {
      let page_header = self.read_page_header()?;

      // When processing data page v2, depending on enabled compression for the page, we
      // should account for uncompressed data ('offset') of repetition and definition
      // levels.
      //
      // We always use 0 offset for other pages other than v2, `true` flag means that
      // compression will be applied if decompressor is defined
      let mut offset: usize = 0;
      let mut can_decompress = true;

      if let Some(ref header_v2) = page_header.data_page_header_v2 {
        offset = (header_v2.definition_levels_byte_length +
          header_v2.repetition_levels_byte_length) as usize;
        // When is_compressed flag is missing the page is considered compressed
        can_decompress = header_v2.is_compressed.unwrap_or(true);
      }

      let compressed_len = page_header.compressed_page_size as usize - offset;
      let uncompressed_len = page_header.uncompressed_page_size as usize - offset;
      // We still need to read all bytes from buffered stream
      let mut buffer = vec![0; offset + compressed_len];
      self.buf.read_exact(&mut buffer)?;

      // TODO: page header could be huge because of statistics. We should set a maximum
      // page header size and abort if that is exceeded.
      if let Some(decompressor) = self.decompressor.as_mut() {
        if can_decompress {
          let mut decompressed_buffer = Vec::with_capacity(uncompressed_len);
          let decompressed_size =
            decompressor.decompress(&buffer[offset..], &mut decompressed_buffer)?;
          if decompressed_size != uncompressed_len {
            return Err(general_err!(
              "Actual decompressed size doesn't \
               match the expected one ({} vs {})",
              decompressed_size,
              uncompressed_len
            ));
          }
          if offset == 0 {
            buffer = decompressed_buffer;
          } else {
            // Prepend saved offsets to the buffer
            buffer.truncate(offset);
            buffer.append(&mut decompressed_buffer);
          }
        }
      }

      let result = match page_header.type_ {
        PageType::DICTIONARY_PAGE => {
          assert!(page_header.dictionary_page_header.is_some());
          let dict_header = page_header.dictionary_page_header.as_ref().unwrap();
          let is_sorted = dict_header.is_sorted.unwrap_or(false);
          Page::DictionaryPage {
            buf: ByteBufferPtr::new(buffer),
            num_values: dict_header.num_values as u32,
            encoding: Encoding::from(dict_header.encoding),
            is_sorted: is_sorted
          }
        },
        PageType::DATA_PAGE => {
          assert!(page_header.data_page_header.is_some());
          let header = page_header.data_page_header.unwrap();
          self.seen_num_values += header.num_values as i64;
          Page::DataPage {
            buf: ByteBufferPtr::new(buffer),
            num_values: header.num_values as u32,
            encoding: Encoding::from(header.encoding),
            def_level_encoding: Encoding::from(header.definition_level_encoding),
            rep_level_encoding: Encoding::from(header.repetition_level_encoding),
            statistics: statistics::from_thrift(self.physical_type, header.statistics)
          }
        },
        PageType::DATA_PAGE_V2 => {
          assert!(page_header.data_page_header_v2.is_some());
          let header = page_header.data_page_header_v2.unwrap();
          let is_compressed = header.is_compressed.unwrap_or(true);
          self.seen_num_values += header.num_values as i64;
          Page::DataPageV2 {
            buf: ByteBufferPtr::new(buffer),
            num_values: header.num_values as u32,
            encoding: Encoding::from(header.encoding),
            num_nulls: header.num_nulls as u32,
            num_rows: header.num_rows as u32,
            def_levels_byte_len: header.definition_levels_byte_length as u32,
            rep_levels_byte_len: header.repetition_levels_byte_length as u32,
            is_compressed: is_compressed,
            statistics: statistics::from_thrift(self.physical_type, header.statistics)
          }
        },
        _ => {
          // For unknown page type (e.g., INDEX_PAGE), skip and read next.
          continue;
        }
      };
      return Ok(Some(result));
    }

    // We are at the end of this column chunk and no more page left. Return None.
    Ok(None)
  }
}


#[cfg(test)]
mod tests {
  use basic::SortOrder;
  use parquet_format::TypeDefinedOrder;
  use super::*;
  use util::test_common::{get_temp_file, get_test_file, get_test_path};

  #[test]
  fn test_file_reader_metadata_size_smaller_than_footer() {
    let test_file = get_temp_file("corrupt-1.parquet", &[]);
    let reader_result = SerializedFileReader::new(test_file);
    assert!(reader_result.is_err());
    assert_eq!(
      reader_result.err().unwrap(),
      general_err!("Invalid Parquet file. Size is smaller than footer")
    );
  }

  #[test]
  fn test_cursor_and_file_has_the_same_behaviour() {
    let buffer = include_bytes!("../../data/alltypes_plain.parquet");
    let cursor = Cursor::new(buffer.as_ref());

    let read_from_file = SerializedFileReader::new(
      File::open("data/alltypes_plain.parquet").unwrap()).unwrap();
    let read_from_cursor = SerializedFileReader::new(cursor).unwrap();

    let file_iter = read_from_file.get_row_iter(None).unwrap();
    let cursor_iter = read_from_cursor.get_row_iter(None).unwrap();

    assert!(file_iter.eq(cursor_iter));
  }

  #[test]
  fn test_file_reader_metadata_corrupt_footer() {
    let test_file = get_temp_file("corrupt-2.parquet", &[1, 2, 3, 4, 5, 6, 7, 8]);
    let reader_result = SerializedFileReader::new(test_file);
    assert!(reader_result.is_err());
    assert_eq!(
      reader_result.err().unwrap(),
      general_err!("Invalid Parquet file. Corrupt footer")
    );
  }

  #[test]
  fn test_file_reader_metadata_invalid_length() {
    let test_file =
      get_temp_file("corrupt-3.parquet", &[0, 0, 0, 255, b'P', b'A', b'R', b'1']);
    let reader_result = SerializedFileReader::new(test_file);
    assert!(reader_result.is_err());
    assert_eq!(
      reader_result.err().unwrap(),
      general_err!("Invalid Parquet file. Metadata length is less than zero (-16777216)")
    );
  }

  #[test]
  fn test_file_reader_metadata_invalid_start() {
    let test_file =
      get_temp_file("corrupt-4.parquet", &[255, 0, 0, 0, b'P', b'A', b'R', b'1']);
    let reader_result = SerializedFileReader::new(test_file);
    assert!(reader_result.is_err());
    assert_eq!(
      reader_result.err().unwrap(),
      general_err!("Invalid Parquet file. Metadata start is less than zero (-255)")
    );
  }

  #[test]
  fn test_file_reader_column_orders_parse() {
    // Define simple schema, we do not need to provide logical types.
    let mut fields = vec![
      Rc::new(SchemaType::primitive_type_builder("col1", Type::INT32).build().unwrap()),
      Rc::new(SchemaType::primitive_type_builder("col2", Type::FLOAT).build().unwrap())
    ];
    let schema = SchemaType::group_type_builder("schema")
      .with_fields(&mut fields)
      .build()
      .unwrap();
    let schema_descr = SchemaDescriptor::new(Rc::new(schema));

    let t_column_orders = Some(vec![
      TColumnOrder::TYPEORDER(TypeDefinedOrder::new()),
      TColumnOrder::TYPEORDER(TypeDefinedOrder::new())
    ]);

    assert_eq!(
      SerializedFileReader::<File>::parse_column_orders(t_column_orders, &schema_descr),
      Some(vec![
        ColumnOrder::TYPE_DEFINED_ORDER(SortOrder::SIGNED),
        ColumnOrder::TYPE_DEFINED_ORDER(SortOrder::SIGNED)
      ])
    );

    // Test when no column orders are defined.
    assert_eq!(
      SerializedFileReader::<File>::parse_column_orders(None, &schema_descr),
      None
    );
  }

  #[test]
  #[should_panic(expected = "Column order length mismatch")]
  fn test_file_reader_column_orders_len_mismatch() {
    let schema = SchemaType::group_type_builder("schema").build().unwrap();
    let schema_descr = SchemaDescriptor::new(Rc::new(schema));

    let t_column_orders = Some(vec![
      TColumnOrder::TYPEORDER(TypeDefinedOrder::new())
    ]);

    SerializedFileReader::<File>::parse_column_orders(t_column_orders, &schema_descr);
  }

  #[test]
  fn test_file_reader_try_from() {
    // Valid file path
    let test_file = get_test_file("alltypes_plain.parquet");
    let test_path_buf = get_test_path("alltypes_plain.parquet");
    let test_path = test_path_buf.as_path();
    let test_path_str = test_path.to_str().unwrap();

    let reader = SerializedFileReader::try_from(test_file);
    assert!(reader.is_ok());

    let reader = SerializedFileReader::try_from(test_path);
    assert!(reader.is_ok());

    let reader = SerializedFileReader::try_from(test_path_str);
    assert!(reader.is_ok());

    let reader = SerializedFileReader::try_from(test_path_str.to_string());
    assert!(reader.is_ok());

    // Invalid file path
    let test_path = Path::new("invalid.parquet");
    let test_path_str = test_path.to_str().unwrap();

    let reader = SerializedFileReader::try_from(test_path);
    assert!(reader.is_err());

    let reader = SerializedFileReader::try_from(test_path_str);
    assert!(reader.is_err());

    let reader = SerializedFileReader::try_from(test_path_str.to_string());
    assert!(reader.is_err());
  }

  #[test]
  fn test_reuse_file_chunk() {
    // This test covers the case of maintaining the correct start position in a file
    // stream for each column reader after initializing and moving to the next one
    // (without necessarily reading the entire column).
    let test_file = get_test_file("alltypes_plain.parquet");
    let reader = SerializedFileReader::new(test_file).unwrap();
    let row_group = reader.get_row_group(0).unwrap();

    let mut page_readers = Vec::new();
    for i in 0..row_group.num_columns() {
      page_readers.push(row_group.get_column_page_reader(i).unwrap());
    }

    // Now buffer each col reader, we do not expect any failures like:
    // General("underlying Thrift error: end of file")
    for mut page_reader in page_readers {
      assert!(page_reader.get_next_page().is_ok());
    }
  }

  #[test]
  fn test_file_reader() {
    let test_file = get_test_file("alltypes_plain.parquet");
    let reader_result = SerializedFileReader::new(test_file);
    assert!(reader_result.is_ok());
    let reader = reader_result.unwrap();

    // Test contents in Parquet metadata
    let metadata = reader.metadata();
    assert_eq!(metadata.num_row_groups(), 1);

    // Test contents in file metadata
    let file_metadata = metadata.file_metadata();
    assert!(file_metadata.created_by().is_some());
    assert_eq!(
      file_metadata.created_by().as_ref().unwrap(),
      "impala version 1.3.0-INTERNAL (build 8a48ddb1eff84592b3fc06bc6f51ec120e1fffc9)"
    );
    assert_eq!(file_metadata.num_rows(), 8);
    assert_eq!(file_metadata.version(), 1);
    assert_eq!(file_metadata.column_orders(), None);

    // Test contents in row group metadata
    let row_group_metadata = metadata.row_group(0);
    assert_eq!(row_group_metadata.num_columns(), 11);
    assert_eq!(row_group_metadata.num_rows(), 8);
    assert_eq!(row_group_metadata.total_byte_size(), 671);
    // Check each column order
    for i in 0..row_group_metadata.num_columns() {
      assert_eq!(file_metadata.column_order(i), ColumnOrder::UNDEFINED);
    }

    // Test row group reader
    let row_group_reader_result = reader.get_row_group(0);
    assert!(row_group_reader_result.is_ok());
    let row_group_reader: Box<RowGroupReader> = row_group_reader_result.unwrap();
    assert_eq!(row_group_reader.num_columns(), row_group_metadata.num_columns());
    assert_eq!(
      row_group_reader.metadata().total_byte_size(),
      row_group_metadata.total_byte_size()
    );

    // Test page readers
    // TODO: test for every column
    let page_reader_0_result = row_group_reader.get_column_page_reader(0);
    assert!(page_reader_0_result.is_ok());
    let mut page_reader_0: Box<PageReader> = page_reader_0_result.unwrap();
    let mut page_count = 0;
    while let Ok(Some(page)) = page_reader_0.get_next_page() {
      let is_expected_page = match page {
        Page::DictionaryPage {
          buf,
          num_values,
          encoding,
          is_sorted
        } => {
          assert_eq!(buf.len(), 32);
          assert_eq!(num_values, 8);
          assert_eq!(encoding, Encoding::PLAIN_DICTIONARY);
          assert_eq!(is_sorted, false);
          true
        },
        Page::DataPage {
          buf,
          num_values,
          encoding,
          def_level_encoding,
          rep_level_encoding,
          statistics
        } => {
          assert_eq!(buf.len(), 11);
          assert_eq!(num_values, 8);
          assert_eq!(encoding, Encoding::PLAIN_DICTIONARY);
          assert_eq!(def_level_encoding, Encoding::RLE);
          assert_eq!(rep_level_encoding, Encoding::BIT_PACKED);
          assert!(statistics.is_none());
          true
        },
        _ => false
      };
      assert!(is_expected_page);
      page_count += 1;
    }
    assert_eq!(page_count, 2);
  }

  #[test]
  fn test_file_reader_datapage_v2() {
    let test_file = get_test_file("test_datapage_v2.snappy.parquet");
    let reader_result = SerializedFileReader::new(test_file);
    assert!(reader_result.is_ok());
    let reader = reader_result.unwrap();

    // Test contents in Parquet metadata
    let metadata = reader.metadata();
    assert_eq!(metadata.num_row_groups(), 1);

    // Test contents in file metadata
    let file_metadata = metadata.file_metadata();
    assert!(file_metadata.created_by().is_some());
    assert_eq!(
      file_metadata.created_by().as_ref().unwrap(),
      "parquet-mr version 1.8.1 (build 4aba4dae7bb0d4edbcf7923ae1339f28fd3f7fcf)"
    );
    assert_eq!(file_metadata.num_rows(), 5);
    assert_eq!(file_metadata.version(), 1);
    assert_eq!(file_metadata.column_orders(), None);

    let row_group_metadata = metadata.row_group(0);

    // Check each column order
    for i in 0..row_group_metadata.num_columns() {
      assert_eq!(file_metadata.column_order(i), ColumnOrder::UNDEFINED);
    }

    // Test row group reader
    let row_group_reader_result = reader.get_row_group(0);
    assert!(row_group_reader_result.is_ok());
    let row_group_reader: Box<RowGroupReader> = row_group_reader_result.unwrap();
    assert_eq!(row_group_reader.num_columns(), row_group_metadata.num_columns());
    assert_eq!(
      row_group_reader.metadata().total_byte_size(),
      row_group_metadata.total_byte_size()
    );

    // Test page readers
    // TODO: test for every column
    let page_reader_0_result = row_group_reader.get_column_page_reader(0);
    assert!(page_reader_0_result.is_ok());
    let mut page_reader_0: Box<PageReader> = page_reader_0_result.unwrap();
    let mut page_count = 0;
    while let Ok(Some(page)) = page_reader_0.get_next_page() {
      let is_expected_page = match page {
        Page::DictionaryPage {
          buf,
          num_values,
          encoding,
          is_sorted
        } => {
          assert_eq!(buf.len(), 7);
          assert_eq!(num_values, 1);
          assert_eq!(encoding, Encoding::PLAIN);
          assert_eq!(is_sorted, false);
          true
        },
        Page::DataPageV2 {
          buf,
          num_values,
          encoding,
          num_nulls,
          num_rows,
          def_levels_byte_len,
          rep_levels_byte_len,
          is_compressed,
          statistics
        } => {
          assert_eq!(buf.len(), 4);
          assert_eq!(num_values, 5);
          assert_eq!(encoding, Encoding::RLE_DICTIONARY);
          assert_eq!(num_nulls, 1);
          assert_eq!(num_rows, 5);
          assert_eq!(def_levels_byte_len, 2);
          assert_eq!(rep_levels_byte_len, 0);
          assert_eq!(is_compressed, true);
          assert!(statistics.is_some());
          true
        },
        _ => false
      };
      assert!(is_expected_page);
      page_count += 1;
    }
    assert_eq!(page_count, 2);
  }
}