Dezvoltat de | Apache Software Foundation |
---|---|
Prima versiune | 12 mai 2015 |
Ultima versiune | 1.6.7 (22 ianuarie 2021) |
Depozit | gitbox.apache.org/repos/asf/orc.git |
Scris in | Java și C ++ |
Tip |
Format fișier ( ro ) Format serializare date ( d ) Proiectul Apache Foundation ( d ) |
Licență | Licență Apache versiunea 2.0 |
Site-ul web | orc.apache.org |
Apache ORC (Optimized Row Columnar) este un format de stocare a datelor gratuit, open-source, orientat pe coloane , din ecosistemul Apache Hadoop . Este similar cu alte formate de fișiere de stocare în coloane disponibile în ecosistemul Hadoop , cum ar fi RCFile și Parquet . Este compatibil cu majoritatea infrastructurilor de procesare a datelor din mediul Hadoop .
În februarie 2013, Hortonworks a anunțat formatul de fișier Optimized Row Columnar (ORC) în colaborare cu Facebook . O lună mai târziu, a fost anunțat formatul Apache Parquet , dezvoltat de Cloudera și Twitter .
Apache ORC este comparabil cu formatele de fișiere precum RCFile și Parquet - toate trei se încadrează în categoria stocării coloanei a datelor în ecosistemul Hadoop . Toate au o compresie și o codificare mai bune, cu performanțe de citire îmbunătățite cu prețul scrierilor mai lente.