Apache ORC

Apache ORC

informație
Dezvoltat de Apache Software Foundation
Prima versiune 12 mai 2015
Ultima versiune 1.6.7 (22 ianuarie 2021)
Depozit gitbox.apache.org/repos/asf/orc.git
Scris in Java și C ++
Tip Format fișier ( ro )
Format serializare date ( d )
Proiectul Apache Foundation ( d )
Licență Licență Apache versiunea 2.0
Site-ul web orc.apache.org

Apache ORC (Optimized Row Columnar) este un format de stocare a datelor gratuit, open-source, orientat pe coloane , din ecosistemul Apache Hadoop . Este similar cu alte formate de fișiere de stocare în coloane disponibile în ecosistemul Hadoop , cum ar fi RCFile și Parquet . Este compatibil cu majoritatea infrastructurilor de procesare a datelor din mediul Hadoop .

În februarie 2013, Hortonworks a anunțat formatul de fișier Optimized Row Columnar (ORC) în colaborare cu Facebook . O lună mai târziu, a fost anunțat formatul Apache Parquet , dezvoltat de Cloudera și Twitter .

Comparaţie

Apache ORC este comparabil cu formatele de fișiere precum RCFile și Parquet - toate trei se încadrează în categoria stocării coloanei a datelor în ecosistemul Hadoop . Toate au o compresie și o codificare mai bune, cu performanțe de citire îmbunătățite cu prețul scrierilor mai lente.

Note și referințe

  1. „  https://projects.apache.org/json/projects/orc.json  ” (Accesat la 8 aprilie 2020 )
  2. (în) „  ORC 1.6.7 lansat  ” ,22 ianuarie 2021(accesat la 30 ianuarie 2021 )
  3. Justin Kestelyn, „  Introducing Parquet: Columnar Efficient Storage for Apache Hadoop  ” , blog Cloudera ,13 martie 2013(accesat la 4 mai 2017 )

Vezi și tu