hyparquet/src/column.js

import { assembleLists } from './assemble.js'
import { convert, dereferenceDictionary } from './convert.js'
import { readDataPage, readDictionaryPage } from './datapage.js'
import { readDataPageV2 } from './datapageV2.js'
import { parquetHeader } from './header.js'
import { getMaxDefinitionLevel, getMaxRepetitionLevel } from './schema.js'
import { snappyUncompress } from './snappy.js'
import { concat } from './utils.js'

/**
 * Parse column data from a buffer.
 *
 * @typedef {import('./types.js').ColumnMetaData} ColumnMetaData
 * @typedef {import('./types.js').DecodedArray} DecodedArray
 * @param {import('./types.js').DataReader} reader
 * @param {import('./types.js').RowGroup} rowGroup row group metadata
 * @param {ColumnMetaData} columnMetadata column metadata
 * @param {import('./types.js').SchemaTree[]} schemaPath schema path for the column
 * @param {import('./hyparquet.js').ParquetReadOptions} options read options
 * @returns {any[]} array of values
 */
export function readColumn(reader, rowGroup, columnMetadata, schemaPath, { compressors, utf8 }) {
  const { element } = schemaPath[schemaPath.length - 1]
  /** @type {DecodedArray | undefined} */
  let dictionary = undefined
  let seen = 0
  /** @type {any[]} */
  const rowData = []

  while (seen < rowGroup.num_rows) {
    // parse column header
    const header = parquetHeader(reader)
    // assert(header.compressed_page_size !== undefined)

    // read compressed_page_size bytes starting at offset
    const compressedBytes = new Uint8Array(
      reader.view.buffer, reader.view.byteOffset + reader.offset, header.compressed_page_size
    )

    // parse page data by type
    /** @type {DecodedArray} */
    let values
    if (header.type === 'DATA_PAGE') {
      const daph = header.data_page_header
      if (!daph) throw new Error('parquet data page header is undefined')

      const page = decompressPage(compressedBytes, Number(header.uncompressed_page_size), columnMetadata.codec, compressors)
      const { definitionLevels, repetitionLevels, dataPage } = readDataPage(page, daph, schemaPath, columnMetadata)
      seen += daph.num_values
      // assert(!daph.statistics || daph.statistics.null_count === BigInt(daph.num_values - dataPage.length))

      // construct output values: skip nulls and construct lists
      values = dereferenceDictionary(dictionary, dataPage)
      values = convert(values, element, utf8)
      if (repetitionLevels.length || definitionLevels?.length) {
        // Use repetition levels to construct lists
        const maxDefinitionLevel = getMaxDefinitionLevel(schemaPath)
        const maxRepetitionLevel = getMaxRepetitionLevel(schemaPath)
        const repetitionPath = schemaPath.map(({ element }) => element.repetition_type)
        values = assembleLists(
          definitionLevels, repetitionLevels, values, repetitionPath, maxDefinitionLevel, maxRepetitionLevel
        )
      } else {
        // wrap nested flat data by depth
        for (let i = 2; i < schemaPath.length; i++) {
          if (schemaPath[i].element.repetition_type !== 'REQUIRED') {
            values = [values]
          }
        }
      }
      // assert(BigInt(values.length) === rowGroup.num_rows)
      concat(rowData, values)
    } else if (header.type === 'DATA_PAGE_V2') {
      const daph2 = header.data_page_header_v2
      if (!daph2) throw new Error('parquet data page header v2 is undefined')

      const { definitionLevels, repetitionLevels, dataPage } = readDataPageV2(
        compressedBytes, header, schemaPath, columnMetadata, compressors
      )
      seen += daph2.num_values

      values = dereferenceDictionary(dictionary, dataPage)
      values = convert(values, element, utf8)
      if (repetitionLevels.length || definitionLevels?.length) {
        // Use repetition levels to construct lists
        const maxDefinitionLevel = getMaxDefinitionLevel(schemaPath)
        const maxRepetitionLevel = getMaxRepetitionLevel(schemaPath)
        const repetitionPath = schemaPath.map(({ element }) => element.repetition_type)
        values = assembleLists(
          definitionLevels, repetitionLevels, values, repetitionPath, maxDefinitionLevel, maxRepetitionLevel
        )
      }
      concat(rowData, values)
    } else if (header.type === 'DICTIONARY_PAGE') {
      const diph = header.dictionary_page_header
      if (!diph) throw new Error('parquet dictionary page header is undefined')

      const page = decompressPage(
        compressedBytes, Number(header.uncompressed_page_size), columnMetadata.codec, compressors
      )
      dictionary = readDictionaryPage(page, diph, columnMetadata, element.type_length)
    } else {
      throw new Error(`parquet unsupported page type: ${header.type}`)
    }
    reader.offset += header.compressed_page_size
  }
  if (rowData.length !== Number(rowGroup.num_rows)) {
    throw new Error(`parquet row data length ${rowData.length} does not match row group length ${rowGroup.num_rows}}`)
  }
  return rowData
}

/**
 * Find the start byte offset for a column chunk.
 *
 * @param {ColumnMetaData} columnMetadata
 * @returns {number} byte offset
 */
export function getColumnOffset({ dictionary_page_offset, data_page_offset }) {
  let columnOffset = dictionary_page_offset
  if (!dictionary_page_offset || data_page_offset < dictionary_page_offset) {
    columnOffset = data_page_offset
  }
  return Number(columnOffset)
}

/**
 * @param {Uint8Array} compressedBytes
 * @param {number} uncompressed_page_size
 * @param {import('./types.js').CompressionCodec} codec
 * @param {import('./types.js').Compressors | undefined} compressors
 * @returns {Uint8Array}
 */
export function decompressPage(compressedBytes, uncompressed_page_size, codec, compressors) {
  /** @type {Uint8Array} */
  let page
  const customDecompressor = compressors?.[codec]
  if (codec === 'UNCOMPRESSED') {
    page = compressedBytes
  } else if (customDecompressor) {
    page = customDecompressor(compressedBytes, uncompressed_page_size)
  } else if (codec === 'SNAPPY') {
    page = new Uint8Array(uncompressed_page_size)
    snappyUncompress(compressedBytes, page)
  } else {
    throw new Error(`parquet unsupported compression codec: ${codec}`)
  }
  if (page?.length !== uncompressed_page_size) {
    throw new Error(`parquet decompressed page length ${page?.length} does not match header ${uncompressed_page_size}`)
  }
  return page
}
Handle skipNulls in assembleLists 2024-05-18 02:41:40 +00:00			`import { assembleLists } from './assemble.js'`
Upgrade dataPage to match dictionary type 2024-05-23 06:45:02 +00:00			`import { convert, dereferenceDictionary } from './convert.js'`
Split out assemble objects 2024-03-18 23:36:16 +00:00			`import { readDataPage, readDictionaryPage } from './datapage.js'`
Data Page V2 2024-02-24 18:11:04 +00:00			`import { readDataPageV2 } from './datapageV2.js'`
Parquet column parser 2024-01-08 01:04:05 +00:00			`import { parquetHeader } from './header.js'`
Assembly of nested column types (#11) 2024-05-18 05:44:03 +00:00			`import { getMaxDefinitionLevel, getMaxRepetitionLevel } from './schema.js'`
Parquet column parser 2024-01-08 01:04:05 +00:00			`import { snappyUncompress } from './snappy.js'`
Fast array concat 2024-04-07 16:33:57 +00:00			`import { concat } from './utils.js'`
Parquet column parser 2024-01-08 01:04:05 +00:00
			`/**`
decompressPage for dictionary and data page v1 only 2024-02-24 19:55:04 +00:00			`* Parse column data from a buffer.`
Parquet column parser 2024-01-08 01:04:05 +00:00			`*`
Convert byte arrays to utf8 by default 2024-05-23 05:24:54 +00:00			`* @typedef {import('./types.js').ColumnMetaData} ColumnMetaData`
Upgrade dataPage to match dictionary type 2024-05-23 06:45:02 +00:00			`* @typedef {import('./types.js').DecodedArray} DecodedArray`
Convert byte arrays to utf8 by default 2024-05-23 05:24:54 +00:00			`* @param {import('./types.js').DataReader} reader`
			`* @param {import('./types.js').RowGroup} rowGroup row group metadata`
Parquet column parser 2024-01-08 01:04:05 +00:00			`* @param {ColumnMetaData} columnMetadata column metadata`
Convert byte arrays to utf8 by default 2024-05-23 05:24:54 +00:00			`* @param {import('./types.js').SchemaTree[]} schemaPath schema path for the column`
			`* @param {import('./hyparquet.js').ParquetReadOptions} options read options`
Faster row transpose 2024-05-14 09:19:37 +00:00			`* @returns {any[]} array of values`
Parquet column parser 2024-01-08 01:04:05 +00:00			`*/`
Convert byte arrays to utf8 by default 2024-05-23 05:24:54 +00:00			`export function readColumn(reader, rowGroup, columnMetadata, schemaPath, { compressors, utf8 }) {`
			`const { element } = schemaPath[schemaPath.length - 1]`
Upgrade dataPage to match dictionary type 2024-05-23 06:45:02 +00:00			`/** @type {DecodedArray \| undefined} */`
Parquet column parser 2024-01-08 01:04:05 +00:00			`let dictionary = undefined`
dict-page-offset-zero.parquet 2024-05-22 05:50:50 +00:00			`let seen = 0`
Fix max call stack error in browser: concat not spread... 2024-04-07 03:01:48 +00:00			`/** @type {any[]} */`
Fast array concat 2024-04-07 16:33:57 +00:00			`const rowData = []`
Refactor to use schemaPath 2024-04-30 00:38:26 +00:00
dict-page-offset-zero.parquet 2024-05-22 05:50:50 +00:00			`while (seen < rowGroup.num_rows) {`
Parquet column parser 2024-01-08 01:04:05 +00:00			`// parse column header`
Use DataReader for thrift 2024-05-01 07:55:16 +00:00			`const header = parquetHeader(reader)`
Convert byte arrays to utf8 by default 2024-05-23 05:24:54 +00:00			`// assert(header.compressed_page_size !== undefined)`
Parquet column parser 2024-01-08 01:04:05 +00:00
			`// read compressed_page_size bytes starting at offset`
Faster row transpose 2024-05-14 09:19:37 +00:00			`const compressedBytes = new Uint8Array(`
Convert byte arrays to utf8 by default 2024-05-23 05:24:54 +00:00			`reader.view.buffer, reader.view.byteOffset + reader.offset, header.compressed_page_size`
Never copy data 2024-02-09 21:44:35 +00:00			`)`
Parquet column parser 2024-01-08 01:04:05 +00:00
			`// parse page data by type`
Convert consistently 2024-05-06 00:51:31 +00:00			`/** @type {DecodedArray} */`
			`let values`
PageType enum to string 2024-04-18 07:02:29 +00:00			`if (header.type === 'DATA_PAGE') {`
Parquet column parser 2024-01-08 01:04:05 +00:00			`const daph = header.data_page_header`
Consistent parquet error messages 2024-01-13 00:28:37 +00:00			`if (!daph) throw new Error('parquet data page header is undefined')`
Parquet column parser 2024-01-08 01:04:05 +00:00
Convert byte arrays to utf8 by default 2024-05-23 05:24:54 +00:00			`const page = decompressPage(compressedBytes, Number(header.uncompressed_page_size), columnMetadata.codec, compressors)`
TypedArrays 2024-05-02 06:23:50 +00:00			`const { definitionLevels, repetitionLevels, dataPage } = readDataPage(page, daph, schemaPath, columnMetadata)`
dict-page-offset-zero.parquet 2024-05-22 05:50:50 +00:00			`seen += daph.num_values`
Faster decimal conversion 2024-05-14 07:35:39 +00:00			`// assert(!daph.statistics \|\| daph.statistics.null_count === BigInt(daph.num_values - dataPage.length))`
Parquet column parser 2024-01-08 01:04:05 +00:00
			`// construct output values: skip nulls and construct lists`
Upgrade dataPage to match dictionary type 2024-05-23 06:45:02 +00:00			`values = dereferenceDictionary(dictionary, dataPage)`
			`values = convert(values, element, utf8)`
Handle skipNulls in assembleLists 2024-05-18 02:41:40 +00:00			`if (repetitionLevels.length \|\| definitionLevels?.length) {`
Parquet column parser 2024-01-08 01:04:05 +00:00			`// Use repetition levels to construct lists`
Refactor to use schemaPath 2024-04-30 00:38:26 +00:00			`const maxDefinitionLevel = getMaxDefinitionLevel(schemaPath)`
			`const maxRepetitionLevel = getMaxRepetitionLevel(schemaPath)`
Assembly of nested column types (#11) 2024-05-18 05:44:03 +00:00			`const repetitionPath = schemaPath.map(({ element }) => element.repetition_type)`
Handle skipNulls in assembleLists 2024-05-18 02:41:40 +00:00			`values = assembleLists(`
Assembly of nested column types (#11) 2024-05-18 05:44:03 +00:00			`definitionLevels, repetitionLevels, values, repetitionPath, maxDefinitionLevel, maxRepetitionLevel`
Oops fix the other tests 2024-02-27 03:33:38 +00:00			`)`
Parquet column parser 2024-01-08 01:04:05 +00:00			`} else {`
Handle skipNulls in assembleLists 2024-05-18 02:41:40 +00:00			`// wrap nested flat data by depth`
			`for (let i = 2; i < schemaPath.length; i++) {`
			`if (schemaPath[i].element.repetition_type !== 'REQUIRED') {`
			`values = [values]`
			`}`
			`}`
Parquet column parser 2024-01-08 01:04:05 +00:00			`}`
Faster decimal conversion 2024-05-14 07:35:39 +00:00			`// assert(BigInt(values.length) === rowGroup.num_rows)`
Fast array concat 2024-04-07 16:33:57 +00:00			`concat(rowData, values)`
PageType enum to string 2024-04-18 07:02:29 +00:00			`} else if (header.type === 'DATA_PAGE_V2') {`
Data Page V2 2024-02-24 18:11:04 +00:00			`const daph2 = header.data_page_header_v2`
			`if (!daph2) throw new Error('parquet data page header v2 is undefined')`

TypedArrays 2024-05-02 06:23:50 +00:00			`const { definitionLevels, repetitionLevels, dataPage } = readDataPageV2(`
Refactor to use schemaPath 2024-04-30 00:38:26 +00:00			`compressedBytes, header, schemaPath, columnMetadata, compressors`
Data Page V2 2024-02-24 18:11:04 +00:00			`)`
dict-page-offset-zero.parquet 2024-05-22 05:50:50 +00:00			`seen += daph2.num_values`
Data Page V2 2024-02-24 18:11:04 +00:00
Upgrade dataPage to match dictionary type 2024-05-23 06:45:02 +00:00			`values = dereferenceDictionary(dictionary, dataPage)`
			`values = convert(values, element, utf8)`
Handle skipNulls in assembleLists 2024-05-18 02:41:40 +00:00			`if (repetitionLevels.length \|\| definitionLevels?.length) {`
Data Page V2 2024-02-24 18:11:04 +00:00			`// Use repetition levels to construct lists`
Handle skipNulls in assembleLists 2024-05-18 02:41:40 +00:00			`const maxDefinitionLevel = getMaxDefinitionLevel(schemaPath)`
			`const maxRepetitionLevel = getMaxRepetitionLevel(schemaPath)`
Assembly of nested column types (#11) 2024-05-18 05:44:03 +00:00			`const repetitionPath = schemaPath.map(({ element }) => element.repetition_type)`
Handle skipNulls in assembleLists 2024-05-18 02:41:40 +00:00			`values = assembleLists(`
Assembly of nested column types (#11) 2024-05-18 05:44:03 +00:00			`definitionLevels, repetitionLevels, values, repetitionPath, maxDefinitionLevel, maxRepetitionLevel`
Convert consistently 2024-05-06 00:51:31 +00:00			`)`
Data Page V2 2024-02-24 18:11:04 +00:00			`}`
Convert consistently 2024-05-06 00:51:31 +00:00			`concat(rowData, values)`
Handle skipNulls in assembleLists 2024-05-18 02:41:40 +00:00			`} else if (header.type === 'DICTIONARY_PAGE') {`
			`const diph = header.dictionary_page_header`
			`if (!diph) throw new Error('parquet dictionary page header is undefined')`

			`const page = decompressPage(`
			`compressedBytes, Number(header.uncompressed_page_size), columnMetadata.codec, compressors`
			`)`
			`dictionary = readDictionaryPage(page, diph, columnMetadata, element.type_length)`
Parquet column parser 2024-01-08 01:04:05 +00:00			`} else {`
			throw new Error(`parquet unsupported page type: ${header.type}`)
			`}`
Use DataReader for thrift 2024-05-01 07:55:16 +00:00			`reader.offset += header.compressed_page_size`
Parquet column parser 2024-01-08 01:04:05 +00:00			`}`
Factor out getColumnOffset 2024-01-14 19:14:04 +00:00			`if (rowData.length !== Number(rowGroup.num_rows)) {`
Data Page V2 2024-02-24 18:11:04 +00:00			throw new Error(`parquet row data length ${rowData.length} does not match row group length ${rowGroup.num_rows}}`)
Factor out getColumnOffset 2024-01-14 19:14:04 +00:00			`}`
			`return rowData`
			`}`

			`/**`
			`* Find the start byte offset for a column chunk.`
			`*`
Refactor isListLike and isMapLike to use schemaPath 2024-04-30 01:45:29 +00:00			`* @param {ColumnMetaData} columnMetadata`
Factor out getColumnOffset 2024-01-14 19:14:04 +00:00			`* @returns {number} byte offset`
			`*/`
Byte stream split encoding 2024-05-20 09:53:07 +00:00			`export function getColumnOffset({ dictionary_page_offset, data_page_offset }) {`
Factor out getColumnOffset 2024-01-14 19:14:04 +00:00			`let columnOffset = dictionary_page_offset`
dict-page-offset-zero.parquet 2024-05-22 05:50:50 +00:00			`if (!dictionary_page_offset \|\| data_page_offset < dictionary_page_offset) {`
Factor out getColumnOffset 2024-01-14 19:14:04 +00:00			`columnOffset = data_page_offset`
			`}`
			`return Number(columnOffset)`
Parquet column parser 2024-01-08 01:04:05 +00:00			`}`
Convert rich types 2024-01-21 02:28:56 +00:00
decompressPage for dictionary and data page v1 only 2024-02-24 19:55:04 +00:00			`/**`
			`* @param {Uint8Array} compressedBytes`
			`* @param {number} uncompressed_page_size`
Simplify imports 2024-04-28 22:58:25 +00:00			`* @param {import('./types.js').CompressionCodec} codec`
Convert byte arrays to utf8 by default 2024-05-23 05:24:54 +00:00			`* @param {import('./types.js').Compressors \| undefined} compressors`
decompressPage for dictionary and data page v1 only 2024-02-24 19:55:04 +00:00			`* @returns {Uint8Array}`
			`*/`
Custom decompressors 2024-02-23 18:25:06 +00:00			`export function decompressPage(compressedBytes, uncompressed_page_size, codec, compressors) {`
Byte stream split encoding 2024-05-20 09:53:07 +00:00			`/** @type {Uint8Array} */`
decompressPage for dictionary and data page v1 only 2024-02-24 19:55:04 +00:00			`let page`
Custom decompressors 2024-02-23 18:25:06 +00:00			`const customDecompressor = compressors?.[codec]`
decompressPage for dictionary and data page v1 only 2024-02-24 19:55:04 +00:00			`if (codec === 'UNCOMPRESSED') {`
			`page = compressedBytes`
Custom decompressors 2024-02-23 18:25:06 +00:00			`} else if (customDecompressor) {`
Change compressors to return Uint8Array 2024-02-28 03:45:52 +00:00			`page = customDecompressor(compressedBytes, uncompressed_page_size)`
decompressPage for dictionary and data page v1 only 2024-02-24 19:55:04 +00:00			`} else if (codec === 'SNAPPY') {`
			`page = new Uint8Array(uncompressed_page_size)`
			`snappyUncompress(compressedBytes, page)`
			`} else {`
			throw new Error(`parquet unsupported compression codec: ${codec}`)
			`}`
			`if (page?.length !== uncompressed_page_size) {`
			throw new Error(`parquet decompressed page length ${page?.length} does not match header ${uncompressed_page_size}`)
			`}`
			`return page`
			`}`