Nutch

Nutch Descrierea imaginii Nutch.png. informație
Dezvoltat de Doug Cutting
Ultima versiune 2.4 (11 octombrie 2019)
Depozit github.com/apache/nutch
Scris in Java
Sistem de operare Multiplatform
Mediu inconjurator Windows , Mac OS X , GNU / Linux
Citiți formatele WARC ( în )
Formate scrise WARC ( în )
Tip motor de căutare open source
Licență Licență Apache
Site-ul web nutch.apache.org

Nutch este o inițiativă de a construi un motor de căutare open source . Folosește Lucene ca motor de căutare și bibliotecă de indexare. Pe de altă parte, robotul de colectare a fost creat special pentru acest proiect.

Arhitectura lui Nutch este extrem de modulară și permite dezvoltatorilor să creeze pluginuri pentru diferite faze ale procesului: recuperarea datelor, analiza documentelor, cercetare etc.

Doug Cutting este inițiatorul și coordonatorul acestui proiect.

Este dezvoltat în întregime în limbajul Java , dar datele pe care le manipulează sunt într-un format de date independent de orice limbaj de programare. ÎnIunie 2003 a fost prezentată o versiune operațională a unei demonstrații a lui Nutch pe o bază de date care aduna 100 de milioane de documente.

Istoric

CreativeCommons.org se bazează pe Nutch

Creative Commons a inaugurat în 2004 o versiune beta a motorului său de căutare care parcurge webul în căutarea de text, audio și video, indexând la această dată un milion de pagini; toate acestea pot fi refolosite liber în condițiile licențelor puse la dispoziție pe site-ul lor web.

Motorul lor de căutare se bazează pe Resource Description Framework (RDF) care utilizează meta-limbajul XML , standardizat de World Wide Web Consortium (W3C).

Această versiune coincide cu cea a browserului web Mozilla Firefox în versiunea 1.0, făcând astfel posibilă căutarea conținutului gratuit.

Nutch se alătură lui Apache

În ianuarie 2005, Nutch este un proiect vechi de doi ani, care a fost găzduit pentru prima dată de Sourceforge și susținut de propria organizație nonprofit. Această organizație a fost înființată pentru a proteja drepturile de autor asupra proiectului și pentru a putea păstra dreptul de a modifica licența. Echipa a decis că licența Apache era cea mai potrivită pentru Nutch și că nu mai avea nevoie de ajutorul unei organizații externe. Liderii și dezvoltatorii sunt acum susținuți de Apache Foundation .

După cinci luni de incubație, Nutch devine un sub-proiect al Lucene .

Evaluarea motorului

Publicat la 1 st  luna iunie 2004, studiul de Lyle Benedict compară rezultatele celebrului Google și omologul său liber Nutch în cadrul limitat site - ul Universității din statul Oregon , pe o bază de 100 de cereri. De exemplu, pentru scoruri cuprinse între 0 și 10, unde 10 este cel mai bun scor, ea a găsit 28 de cereri pentru care Nutch și Google au obținut scorul maxim .

Contribuții

Cele Contribuțiile se bazează pe merit și karma . Contribuitorii ar trebui să se aboneze la o listă de corespondență pentru a afla cine face ce și să trimită un e-mail scurt, informând ceilalți ce vor face. Când lucrarea este terminată, fragmentul de cod este trimis pe lista de discuții (sau atașat la un raport de erori), astfel încât fiecare colaborator să își poată examina calitatea și relevanța .

Criteriile de acceptare sunt:

Dacă totul este corect, fragmentul de cod este inserat de dezvoltatori în baza de date sursă și devine parte a Nutch.

Folosind Nutch

Guvernul din Quebec adoptă Nutch

În decembrie 2006, Guvernul Quebecului a optat pentru Nutch ca motor de căutare pentru localizarea tuturor site-urilor sale conform unei preselecții. Până în prezent, sunt indexate peste 400 de site-uri și 500.000 de documente .

Universitatea de Stat din Oregon se mută la Nutch

De Septembrie 2004 la ianuarie 2010, Universitatea de Stat din Oregon și-a înlocuit centrul de cercetare Google cu Nutch. Acest lucru i-a permis să realizeze reduceri semnificative de costuri și să promoveze transparența acestui motor de căutare. Această reducere a fost estimată la 100.000 de dolari pe an, conform Open Source Lab .

Vezi și tu

Bibliografie

Articole similare

linkuri externe

Note și referințe

  1. „  https://nutch.apache.org/index.html#11-october-2019-nutch-24-release  ” (accesat la 11 martie 2020 )
  2. https://creativecommons.org/press-releases/entry/5064
  3. [1] , Din ianuarie 2010 Universitatea de Stat din Oregon reutilizează Google Search Appliance.