Apache Hive

Apache Hive

informație
Dezvoltat de Colaboratori
Prima versiune 9 noiembrie 2011
Ultima versiune 3.1.1 (1 st noiembrie 2018)
Depozit git: //git.apache.org/hive.git și svn.apache.org/repos/asf/hive
Starea proiectului Activ
Scris in Java
Sistem de operare Multiplatform
Mediu inconjurator Mașină virtuală Java
Tip Sistem de gestionare a bazelor de date relaționale ( în )
Licență Licență Apache versiunea 2.0
Site-ul web hive.apache.org

Apache Hive este o infrastructură de depozit de date integrată pe Hadoop care permite analiza, interogarea printr-un limbaj sintactic apropiat de SQL, precum și sinteza datelor. Deși inițial dezvoltat de Facebook , Apache Hive este acum utilizat și dezvoltat de alte companii precum Netflix . Amazon menține o furcă a Apache Hive care include Amazon Elastic MapReduce în Amazon Web Services .

Funcționalitate

Apache Hive acceptă scanarea seturilor de date mari stocate în Hadoop HDFS sau sisteme de fișiere compatibile precum Amazon S3 . Oferă un limbaj asemănător SQL numit HiveQL cu schemă la citire și convertește în mod transparent cererile în mapare / reducere , Apache Tez și Spark . Toate cele trei motoare de execuție pot rula pe Hadoop YARN. Pentru a accelera interogările, acesta oferă indici, inclusiv indici bitmap.

În mod implicit, Hive stochează metadatele într-o bază de date Apache Derby încorporată, iar alte baze de date client / server, cum ar fi MySQL, pot fi utilizate opțional.

În prezent, există patru formate de fișiere acceptate de Hive: TEXTFILE, SEQUENCEFILE, ORC și RCFile . Fișierele de parchet Apache pot fi citite prin plugin în versiuni mai târziu de 0,10 și nativ de la 0,13.

Alte caracteristici ale Hive:

Arhitectură

Hive este compus din următoarele elemente:

HiveQL

Deși bazat pe SQL, HiveQL nu respectă standardul SQL la îndemână. HiveQL oferă extensii non-SQL, de exemplu inserții multi-tabel și doar o ofertă de bază pentru indexare. De asemenea, HiveQL nu are suport pentru tranzacții și vizualizări materializate și nu are suport doar pentru subinterogare. Suportul pentru inserare, actualizare și ștergere cu funcționalitate ACID completă a fost pus la dispoziție odată cu lansarea versiunii 0.14.

Pe plan intern, compilatorul traduce instrucțiunile HiveQL într-un grafic aciclic al MapReduce sau Tez sau Spark job , care sunt apoi trimise la Hadoop pentru executare.

Note și referințe

(fr) Acest articol este preluat parțial sau în întregime din articolul Wikipedia din limba engleză intitulat „  Apache Hive  ” ( vezi lista autorilor ) .
  1. „  https://projects.apache.org/json/projects/hive.json  ” (Accesat la 8 aprilie 2020 )
  2. „  http://hive.apache.org/downloads.html  ”
  3. Venner, Jason (2009).
  4. Studiu de caz de utilizare a stupului / Hadoop .
  5. OSCON Data 2011, Adrian Cockcroft, „Flux de date la Netflix” pe YouTube .
  6. Ghid pentru dezvoltatori Amazon Elastic MapReduce .
  7. HiveQL Language Manual .
  8. Apache Tez .
  9. Lucrul cu studenții pentru îmbunătățirea indexării în Apache Hive .
  10. Lam, Chuck (2010).
  11. Optimizarea Hadoop și Big Data cu text și Hive Optimizarea Hadoop și Big Data cu text și Hive .
  12. LanguageManual ORC .
  13. Date mai rapide despre Hadoop cu Hive și RCFile .
  14. Petabyte Scale Data Warehouse de pe Facebook folosind Hive și Hadoop .
  15. Yongqiang He, Rubao Lee, Yin Huai, Zheng Shao, Namit Jain, Xiaodong Zhang și Zhiwei Xu. „RCFile: O structură rapidă și eficientă de plasare a datelor în sistemele de depozitare bazate pe MapReduce” (PDF).
  16. „Parchet” . 18 decembrie 2014.
  17. Massie, Matt (21 august 2013).
  18. White, Tom (2010).
  19. Hive Language Manual .
  20. ACID și tranzacții în stup .
  21. Hive O soluție de depozitare peste un cadru MapReduce .

Anexe

Vezi și tu

linkuri externe