hyparquet/src/datapage.js

import { bitWidth, byteStreamSplit, readRleBitPackedHybrid } from './encoding.js'
import { readPlain } from './plain.js'
import { getMaxDefinitionLevel, getMaxRepetitionLevel } from './schema.js'
import { snappyUncompress } from './snappy.js'

/**
 * Read a data page from uncompressed reader.
 *
 * @typedef {import("./types.d.ts").DataPage} DataPage
 * @typedef {import("./types.d.ts").ColumnMetaData} ColumnMetaData
 * @typedef {import("./types.d.ts").DataPageHeader} DataPageHeader
 * @typedef {import("./types.d.ts").SchemaTree} SchemaTree
 * @typedef {import("./types.d.ts").DecodedArray} DecodedArray
 * @param {Uint8Array} bytes raw page data (should already be decompressed)
 * @param {DataPageHeader} daph data page header
 * @param {SchemaTree[]} schemaPath
 * @param {ColumnMetaData} columnMetadata
 * @returns {DataPage} definition levels, repetition levels, and array of values
 */
export function readDataPage(bytes, daph, schemaPath, { type }) {
  const view = new DataView(bytes.buffer, bytes.byteOffset, bytes.byteLength)
  const reader = { view, offset: 0 }
  /** @type {DecodedArray} */
  let dataPage

  // repetition and definition levels
  const repetitionLevels = readRepetitionLevels(reader, daph, schemaPath)
  // assert(!repetitionLevels.length || repetitionLevels.length === daph.num_values)
  const { definitionLevels, numNulls } = readDefinitionLevels(reader, daph, schemaPath)
  // assert(!definitionLevels.length || definitionLevels.length === daph.num_values)

  // read values based on encoding
  const nValues = daph.num_values - numNulls
  if (daph.encoding === 'PLAIN') {
    const { type_length } = schemaPath[schemaPath.length - 1].element
    dataPage = readPlain(reader, type, nValues, type_length)
  } else if (
    daph.encoding === 'PLAIN_DICTIONARY' ||
    daph.encoding === 'RLE_DICTIONARY' ||
    daph.encoding === 'RLE'
  ) {
    const bitWidth = type === 'BOOLEAN' ? 1 : view.getUint8(reader.offset++)
    if (bitWidth) {
      dataPage = new Array(nValues)
      readRleBitPackedHybrid(reader, bitWidth, view.byteLength - reader.offset, dataPage)
    } else {
      dataPage = new Uint8Array(nValues) // nValue zeroes
    }
  } else if (daph.encoding === 'BYTE_STREAM_SPLIT') {
    const { type_length } = schemaPath[schemaPath.length - 1].element
    dataPage = byteStreamSplit(reader, nValues, type, type_length)
  } else {
    throw new Error(`parquet unsupported encoding: ${daph.encoding}`)
  }

  return { definitionLevels, repetitionLevels, dataPage }
}

/**
 * @param {Uint8Array} bytes raw page data
 * @param {import("./types.d.ts").DictionaryPageHeader} diph dictionary page header
 * @param {ColumnMetaData} columnMetadata
 * @param {number | undefined} typeLength - type_length from schema
 * @returns {DecodedArray}
 */
export function readDictionaryPage(bytes, diph, columnMetadata, typeLength) {
  const view = new DataView(bytes.buffer, bytes.byteOffset, bytes.byteLength)
  const reader = { view, offset: 0 }
  return readPlain(reader, columnMetadata.type, diph.num_values, typeLength)
}

/**
 * @typedef {import("./types.d.ts").DataReader} DataReader
 * @param {DataReader} reader data view for the page
 * @param {DataPageHeader} daph data page header
 * @param {SchemaTree[]} schemaPath
 * @returns {any[]} repetition levels and number of bytes read
 */
function readRepetitionLevels(reader, daph, schemaPath) {
  if (schemaPath.length > 1) {
    const maxRepetitionLevel = getMaxRepetitionLevel(schemaPath)
    if (maxRepetitionLevel) {
      const values = new Array(daph.num_values)
      readRleBitPackedHybrid(reader, bitWidth(maxRepetitionLevel), 0, values)
      return values
    }
  }
  return []
}

/**
 * @param {DataReader} reader data view for the page
 * @param {DataPageHeader} daph data page header
 * @param {SchemaTree[]} schemaPath
 * @returns {{ definitionLevels: number[], numNulls: number }} definition levels
 */
function readDefinitionLevels(reader, daph, schemaPath) {
  const maxDefinitionLevel = getMaxDefinitionLevel(schemaPath)
  if (!maxDefinitionLevel) return { definitionLevels: [], numNulls: 0 }

  const definitionLevels = new Array(daph.num_values)
  readRleBitPackedHybrid(reader, bitWidth(maxDefinitionLevel), 0, definitionLevels)

  // count nulls
  let numNulls = daph.num_values
  for (const def of definitionLevels) {
    if (def === maxDefinitionLevel) numNulls--
  }
  if (numNulls === 0) definitionLevels.length = 0

  return { definitionLevels, numNulls }
}

/**
 * @param {Uint8Array} compressedBytes
 * @param {number} uncompressed_page_size
 * @param {import('./types.js').CompressionCodec} codec
 * @param {import('./types.js').Compressors | undefined} compressors
 * @returns {Uint8Array}
 */
export function decompressPage(compressedBytes, uncompressed_page_size, codec, compressors) {
  /** @type {Uint8Array} */
  let page
  const customDecompressor = compressors?.[codec]
  if (codec === 'UNCOMPRESSED') {
    page = compressedBytes
  } else if (customDecompressor) {
    page = customDecompressor(compressedBytes, uncompressed_page_size)
  } else if (codec === 'SNAPPY') {
    page = new Uint8Array(uncompressed_page_size)
    snappyUncompress(compressedBytes, page)
  } else {
    throw new Error(`parquet unsupported compression codec: ${codec}`)
  }
  if (page?.length !== uncompressed_page_size) {
    throw new Error(`parquet decompressed page length ${page?.length} does not match header ${uncompressed_page_size}`)
  }
  return page
}
Code cleanup :broom: 2024-05-22 09:34:42 +00:00			`import { bitWidth, byteStreamSplit, readRleBitPackedHybrid } from './encoding.js'`
Split out plain encoding 2024-05-01 03:28:50 +00:00			`import { readPlain } from './plain.js'`
Code cleanup :broom: 2024-05-22 09:34:42 +00:00			`import { getMaxDefinitionLevel, getMaxRepetitionLevel } from './schema.js'`
Move decompressPage to avoid circular dependency chain 2024-05-26 13:00:20 +00:00			`import { snappyUncompress } from './snappy.js'`
Parquet data page parser 2024-01-07 23:33:24 +00:00
			`/**`
Publish v0.9.6! 2024-05-24 07:19:02 +00:00			`* Read a data page from uncompressed reader.`
PageType enum to string 2024-04-18 07:02:29 +00:00			`*`
Prepare for data page v2 2024-02-26 18:32:53 +00:00			`* @typedef {import("./types.d.ts").DataPage} DataPage`
Parquet data page parser 2024-01-07 23:33:24 +00:00			`* @typedef {import("./types.d.ts").ColumnMetaData} ColumnMetaData`
			`* @typedef {import("./types.d.ts").DataPageHeader} DataPageHeader`
Refactor to use schemaPath 2024-04-30 00:38:26 +00:00			`* @typedef {import("./types.d.ts").SchemaTree} SchemaTree`
TypedArrays 2024-05-02 06:23:50 +00:00			`* @typedef {import("./types.d.ts").DecodedArray} DecodedArray`
Parquet data page parser 2024-01-07 23:33:24 +00:00			`* @param {Uint8Array} bytes raw page data (should already be decompressed)`
			`* @param {DataPageHeader} daph data page header`
Refactor isListLike and isMapLike to use schemaPath 2024-04-30 01:45:29 +00:00			`* @param {SchemaTree[]} schemaPath`
			`* @param {ColumnMetaData} columnMetadata`
Fix definition level parsing 2024-01-20 21:52:36 +00:00			`* @returns {DataPage} definition levels, repetition levels, and array of values`
Parquet data page parser 2024-01-07 23:33:24 +00:00			`*/`
Byte stream split encoding 2024-05-20 09:53:07 +00:00			`export function readDataPage(bytes, daph, schemaPath, { type }) {`
Use DataReader over Decoded. Fewer allocations, slightly faster. 2024-04-17 07:48:33 +00:00			`const view = new DataView(bytes.buffer, bytes.byteOffset, bytes.byteLength)`
			`const reader = { view, offset: 0 }`
TypedArrays 2024-05-02 06:23:50 +00:00			`/** @type {DecodedArray} */`
Byte stream split encoding 2024-05-20 09:53:07 +00:00			`let dataPage`
Parquet data page parser 2024-01-07 23:33:24 +00:00
Delta binary packed encoding 2024-05-11 01:50:12 +00:00			`// repetition and definition levels`
Refactor to use schemaPath 2024-04-30 00:38:26 +00:00			`const repetitionLevels = readRepetitionLevels(reader, daph, schemaPath)`
Fix handling of multiple pages 2024-06-08 02:30:30 +00:00			`// assert(!repetitionLevels.length \|\| repetitionLevels.length === daph.num_values)`
TypedArrays 2024-05-02 06:23:50 +00:00			`const { definitionLevels, numNulls } = readDefinitionLevels(reader, daph, schemaPath)`
Fix handling of multiple pages 2024-06-08 02:30:30 +00:00			`// assert(!definitionLevels.length \|\| definitionLevels.length === daph.num_values)`
Parquet data page parser 2024-01-07 23:33:24 +00:00
			`// read values based on encoding`
Prepare for data page v2 2024-02-26 18:32:53 +00:00			`const nValues = daph.num_values - numNulls`
Encoding as string 2024-02-27 18:33:17 +00:00			`if (daph.encoding === 'PLAIN') {`
Fix fixed length byte array type 2024-05-13 04:11:57 +00:00			`const { type_length } = schemaPath[schemaPath.length - 1].element`
Byte stream split encoding 2024-05-20 09:53:07 +00:00			`dataPage = readPlain(reader, type, nValues, type_length)`
Fix plain_dictionary encoding 2024-02-12 04:43:54 +00:00			`} else if (`
Encoding as string 2024-02-27 18:33:17 +00:00			`daph.encoding === 'PLAIN_DICTIONARY' \|\|`
			`daph.encoding === 'RLE_DICTIONARY' \|\|`
			`daph.encoding === 'RLE'`
Fix plain_dictionary encoding 2024-02-12 04:43:54 +00:00			`) {`
Byte stream split encoding 2024-05-20 09:53:07 +00:00			`const bitWidth = type === 'BOOLEAN' ? 1 : view.getUint8(reader.offset++)`
Parquet data page parser 2024-01-07 23:33:24 +00:00			`if (bitWidth) {`
TypedArrays 2024-05-02 06:23:50 +00:00			`dataPage = new Array(nValues)`
			`readRleBitPackedHybrid(reader, bitWidth, view.byteLength - reader.offset, dataPage)`
Parquet data page parser 2024-01-07 23:33:24 +00:00			`} else {`
Byte stream split encoding 2024-05-20 09:53:07 +00:00			`dataPage = new Uint8Array(nValues) // nValue zeroes`
Parquet data page parser 2024-01-07 23:33:24 +00:00			`}`
Byte stream split encoding 2024-05-20 09:53:07 +00:00			`} else if (daph.encoding === 'BYTE_STREAM_SPLIT') {`
byte_stream_split_extended.gzip.parquet 2024-05-21 07:15:27 +00:00			`const { type_length } = schemaPath[schemaPath.length - 1].element`
			`dataPage = byteStreamSplit(reader, nValues, type, type_length)`
Parquet data page parser 2024-01-07 23:33:24 +00:00			`} else {`
			throw new Error(`parquet unsupported encoding: ${daph.encoding}`)
			`}`

TypedArrays 2024-05-02 06:23:50 +00:00			`return { definitionLevels, repetitionLevels, dataPage }`
Parquet data page parser 2024-01-07 23:33:24 +00:00			`}`

			`/**`
			`* @param {Uint8Array} bytes raw page data`
Delta binary packed encoding 2024-05-11 01:50:12 +00:00			`* @param {import("./types.d.ts").DictionaryPageHeader} diph dictionary page header`
Refactor isListLike and isMapLike to use schemaPath 2024-04-30 01:45:29 +00:00			`* @param {ColumnMetaData} columnMetadata`
Fix fixed length byte array type 2024-05-13 04:11:57 +00:00			`* @param {number \| undefined} typeLength - type_length from schema`
Upgrade dataPage to match dictionary type 2024-05-23 06:45:02 +00:00			`* @returns {DecodedArray}`
Parquet data page parser 2024-01-07 23:33:24 +00:00			`*/`
Fix fixed length byte array type 2024-05-13 04:11:57 +00:00			`export function readDictionaryPage(bytes, diph, columnMetadata, typeLength) {`
Use DataReader over Decoded. Fewer allocations, slightly faster. 2024-04-17 07:48:33 +00:00			`const view = new DataView(bytes.buffer, bytes.byteOffset, bytes.byteLength)`
			`const reader = { view, offset: 0 }`
Fix fixed length byte array type 2024-05-13 04:11:57 +00:00			`return readPlain(reader, columnMetadata.type, diph.num_values, typeLength)`
Parquet data page parser 2024-01-07 23:33:24 +00:00			`}`

			`/**`
Use DataReader over Decoded. Fewer allocations, slightly faster. 2024-04-17 07:48:33 +00:00			`* @typedef {import("./types.d.ts").DataReader} DataReader`
			`* @param {DataReader} reader data view for the page`
Parquet data page parser 2024-01-07 23:33:24 +00:00			`* @param {DataPageHeader} daph data page header`
Refactor isListLike and isMapLike to use schemaPath 2024-04-30 01:45:29 +00:00			`* @param {SchemaTree[]} schemaPath`
Use DataReader over Decoded. Fewer allocations, slightly faster. 2024-04-17 07:48:33 +00:00			`* @returns {any[]} repetition levels and number of bytes read`
Parquet data page parser 2024-01-07 23:33:24 +00:00			`*/`
Refactor to use schemaPath 2024-04-30 00:38:26 +00:00			`function readRepetitionLevels(reader, daph, schemaPath) {`
			`if (schemaPath.length > 1) {`
			`const maxRepetitionLevel = getMaxRepetitionLevel(schemaPath)`
Data Page V2 2024-02-24 18:11:04 +00:00			`if (maxRepetitionLevel) {`
No copy readRleBitPackedHybrid 2024-04-30 21:40:18 +00:00			`const values = new Array(daph.num_values)`
Code cleanup :broom: 2024-05-22 09:34:42 +00:00			`readRleBitPackedHybrid(reader, bitWidth(maxRepetitionLevel), 0, values)`
No copy readRleBitPackedHybrid 2024-04-30 21:40:18 +00:00			`return values`
Parquet data page parser 2024-01-07 23:33:24 +00:00			`}`
			`}`
Use DataReader over Decoded. Fewer allocations, slightly faster. 2024-04-17 07:48:33 +00:00			`return []`
Parquet data page parser 2024-01-07 23:33:24 +00:00			`}`

			`/**`
Use DataReader over Decoded. Fewer allocations, slightly faster. 2024-04-17 07:48:33 +00:00			`* @param {DataReader} reader data view for the page`
Parquet data page parser 2024-01-07 23:33:24 +00:00			`* @param {DataPageHeader} daph data page header`
Refactor isListLike and isMapLike to use schemaPath 2024-04-30 01:45:29 +00:00			`* @param {SchemaTree[]} schemaPath`
TypedArrays 2024-05-02 06:23:50 +00:00			`* @returns {{ definitionLevels: number[], numNulls: number }} definition levels`
Parquet data page parser 2024-01-07 23:33:24 +00:00			`*/`
Refactor to use schemaPath 2024-04-30 00:38:26 +00:00			`function readDefinitionLevels(reader, daph, schemaPath) {`
Code cleanup :broom: 2024-05-22 09:34:42 +00:00			`const maxDefinitionLevel = getMaxDefinitionLevel(schemaPath)`
			`if (!maxDefinitionLevel) return { definitionLevels: [], numNulls: 0 }`
Fix definition level parsing 2024-01-20 21:52:36 +00:00
Code cleanup :broom: 2024-05-22 09:34:42 +00:00			`const definitionLevels = new Array(daph.num_values)`
			`readRleBitPackedHybrid(reader, bitWidth(maxDefinitionLevel), 0, definitionLevels)`
Fix definition level parsing 2024-01-20 21:52:36 +00:00
Code cleanup :broom: 2024-05-22 09:34:42 +00:00			`// count nulls`
			`let numNulls = daph.num_values`
			`for (const def of definitionLevels) {`
			`if (def === maxDefinitionLevel) numNulls--`
Parquet data page parser 2024-01-07 23:33:24 +00:00			`}`
Code cleanup :broom: 2024-05-22 09:34:42 +00:00			`if (numNulls === 0) definitionLevels.length = 0`

			`return { definitionLevels, numNulls }`
Parquet data page parser 2024-01-07 23:33:24 +00:00			`}`
Move decompressPage to avoid circular dependency chain 2024-05-26 13:00:20 +00:00
			`/**`
			`* @param {Uint8Array} compressedBytes`
			`* @param {number} uncompressed_page_size`
			`* @param {import('./types.js').CompressionCodec} codec`
			`* @param {import('./types.js').Compressors \| undefined} compressors`
			`* @returns {Uint8Array}`
			`*/`
			`export function decompressPage(compressedBytes, uncompressed_page_size, codec, compressors) {`
			`/** @type {Uint8Array} */`
			`let page`
			`const customDecompressor = compressors?.[codec]`
			`if (codec === 'UNCOMPRESSED') {`
			`page = compressedBytes`
			`} else if (customDecompressor) {`
			`page = customDecompressor(compressedBytes, uncompressed_page_size)`
			`} else if (codec === 'SNAPPY') {`
			`page = new Uint8Array(uncompressed_page_size)`
			`snappyUncompress(compressedBytes, page)`
			`} else {`
			throw new Error(`parquet unsupported compression codec: ${codec}`)
			`}`
			`if (page?.length !== uncompressed_page_size) {`
			throw new Error(`parquet decompressed page length ${page?.length} does not match header ${uncompressed_page_size}`)
			`}`
			`return page`
			`}`