Arhiva Internet | |
Serverele site-ului oglindă sunt păstrate la Bibliotheca Alexandrina | |
Creare | 1996 |
---|---|
Fondatori | Vezi Consiliul |
Forma legala | Organizație non profit |
Slogan | Acces universal la toate cunoștințele |
Sediul central | 300 Funston Avenue, Richmond District , San Francisco , California SUA |
Direcţie | Julien Masanes |
Activitate | Arhivare și conservare web |
Produse | Arhiva copertă ( d ) |
Parteneri | Biblioteca publică digitală a Americii |
Efectiv | 200 |
Site-ul web | archive.org |
Cifra de afaceri | 14.000.000 de dolari SUA (2015) |
Internet Archive (sau IA ) este o organizație nonprofit dedicată arhivării web care acționează și ca bibliotecă digitală . Aceste arhive electronice sunt alcătuite din instantanee (copii ale paginilor luate în momente diferite) de pagini web, software, filme, cărți și înregistrări audio.
Pentru a asigura stabilitatea și securitatea datelor arhivate, un site funcțional oglindă este menținut la Bibliotheca Alexandrina din Egipt . AI pune colecțiile sale la dispoziția cercetătorilor, istoricilor și academicienilor în mod gratuit. Situat în districtul Richmond , la sud de Presidio din San Francisco , este membru al American Library Association și este oficial recunoscut ca bibliotecă de către statul California .
Web crawler utilizat de IA este Heritrix , software - ul liber . Software-ul gratuit de scanare a cărților este Scribe.
Internet Archive a fost fondat în 1996 de Brewster Kahle . Datorită obiectivelor lor - păstrarea cunoștințelor umane și accesibilitatea colecțiilor pentru toți - fondatorii IA compară acest proiect cu cel mai vechi al Bibliotecii din Alexandria .
The Wayback Machine este partea instantaneu a Web-ului dezvoltată de Internet Archive . Wayback Machine a fost creat de Brewster Kahle pentru a stoca și indexa orice pe web. The Wayback Machine este actualizat cu conținut de la Alexa . Acest serviciu permite utilizatorilor să vadă în timp versiunile arhivate ale paginilor web: este „indexul tridimensional”.
Instantaneele sunt disponibile la șase până la douăsprezece luni după capturare. Frecvența instantaneelor variază, nu toate actualizările site-ului web sunt înregistrate și pot fi respectate intervale de câteva săptămâni.
În 2006, Wayback Machine conținea aproape doi petabytes de date. Volumul crește cu o rată de 20 terabytes pe lună, o creștere de două treimi față de cei doisprezece terabytes pe lună, care a fost rata de creștere în 2003. Această creștere este mai mare decât cantitatea de text conținută în cele mai importante biblioteci din lume, inclusiv Biblioteca Congresului . În 2009, Wayback Machine conținea aproape trei petabytes de date și creșterea sa a fost de 100 terabytes pe lună. Datele sunt arhivate în sistemele fabricate de Capricorne Technologies, rafturile Petabox.
Numele „ Wayback Machine ” se referă la episoadele The Rocky and Bullwinkle Show , unde domnul Peabody, un câine profesor și asistentul său Sherman (un animal de companie uman), folosesc o mașină a timpului numită „WABAC Machine” pentru a descrie evenimente istorice celebre.
În 2015, Rusia ar fi blocat în mod eronat întregul site Wayback Machine .
Utilizatorii care doresc să arhiveze permanent și imediat datele lor pot fi folosiți, pe un abonament, serviciul Archive-It (en) IA. Datele colectate sunt indexate periodic de Wayback Machine . Îndecembrie 2007, acest serviciu a creat peste 230 de milioane de adrese URL pentru 466 de colecții publice, inclusiv agenții guvernamentale, universități și instituții culturale.
Exemplu de organizații sau instituții care participă la Archive-It:
În plus față de arhivele web, serviciile Internet Archive păstrează colecții mari de suporturi digitale care sunt fie în domeniul public, fie licențiate pentru redistribuire, cum ar fi licențele Creative Commons . Mass-media sunt organizate în colecții după tip (imagini în mișcare, sunet, text etc.) și în colecții secundare în funcție de diferite criterii. Fiecare colecție principală include o sub-colecție comunitară , în care contribuțiile publicului larg pot fi arhivate.
Colecțiile sale includ (de la 14 noiembrie 2007):
În afară de lungmetraje, colecția video a Internet Archive include știri, benzi desenate clasice , propagandă pro și anti-război și mai multe materiale efemere din Arhivele Prelinger, cum ar fi reclame, filme educaționale și industriale și colecții de filme pentru amatori.
Exemple de colecție:
Exemplu de film francez:
SuneteColecția audio este alcătuită din muzică, cărți audio, emisiuni de știri, emisiuni radio vechi și o mare varietate de alte fișiere audio. Sub-colecția Live Music Archive include 40.000 de înregistrări de concerte de artiști independenți, precum și de artiști și ansambluri muzicale mai consacrate, cu reguli mai puțin stricte privind înregistrarea de concerte precum Grateful Dead .
TexteAceastă colecție reunește texte din Proiectul Gutenberg , texte din diverse biblioteci din întreaga lume, precum și o colecție de documente și note de la ARPANET . Cu peste 7 milioane de cărți, Internet Archive este a doua cea mai mare bibliotecă de cărți digitale cu acces deschis din lume după Google Books. Toate documentele digitalizate și puse online de către utilizatori sau instituții de internet sunt oerizate și convertite în fișiere EPUB pentru e-reader sau MOBI pentru Kindle și se bucură de arhivare permanentă pe multe servere din întreaga lume (California, Egipt, China, Olanda). Ciorapi etc. ).
Biblioteca Sainte-Geneviève este prima bibliotecă franceză care a participat la proiectmartie 2010. În Franța, École des Ponts ParisTech (dinAugust 2012), Institutul Național de Cercetări Agricole (din ianuarie 2015), Sciences Po Paris (din iunie 2015), Biblioteca interuniversitară de sănătate (din ianuarie 2018), Biblioteca Universitară de Limbi și Civilizații (din septembrie 2019) și Bibliotecile École normale supérieure (din decembrie 2020) participă, de asemenea.
Internet Archive este membru al Open Content Alliance (în) și operează Open Library, unde peste 200.000 de cărți digitalizate din domeniul public sunt disponibile online și pot fi tipărite. Sistemul de scanare a cărților Scribe servește acestui scop.
În timpul pandemiei coronavirusului, Internet Archive pune la dispoziția americanilor cărți protejate prin drepturi de autor, astfel încât să poată studia în timpul închiderii. Mai mulți editori nu sunt de acord, iar Arhiva Internet retrage accesul la cărțile în cauză16 iunie 2020. În ciuda tuturor, editorii dau în judecată site-ul, iar un proces este programat pentru 2021.
La sfârșitul anului 2002, Internet Archive a șters diverse site-uri critice pentru Scientologie identificate de Wayback Machine. Mesajul de eroare precizează că a fost ca urmare a unei „cereri din partea proprietarului site-ului”. Ulterior s-a clarificat că avocații Bisericii Scientologice ceruseră eliminarea, fără niciun motiv legal, și că proprietarii acestor site-uri nu doreau ca paginile lor să fie eliminate.
În octombrie 2004, într-un caz numit „ Telewizja Polska SA vs Echostar Satellite ”, un avocat încearcă să folosească arhivele Mașinii Wayback ca sursă de probe admisibile, probabil pentru prima dată.
Telewizja Polska este furnizorul TVP Polonia și EchoStar care operează rețeaua Dish . Înaintea procesului, EchoStar a spus că intenționează să utilizeze instantanee de la Wayback Machine ca dovadă a conținutului trecut de pe site-ul Telewizja Polska. Telewizja Polska a depus o moțiune în limine (în) pentru a elimina fotografiile justificative de auzite și surse neautentificate, dar judecătorul Arlander Keys a respins afirmațiile Telewizja Polska și a refuzat să excludă probele la proces. Cu toate acestea, la momentul procesului, judecătorul instanței de district Ronald Guzman a anulat în primă instanță constatările judecătorului Keys și a concluzionat că nici Arhiva Internet, nici paginile de bază (adică site-ul Telewizja Polska) nu erau admisibile ca probe. Judecătorul Guzman a decis că tipărirea unei pagini web nu era o dovadă a autentificării informațiilor.
Healthcare Advocates, Inc.În 2003, Healthcare Advocates, Inc. a fost acuzat într-un proces privind încălcarea mărcii comerciale. Procuratura a încercat să utilizeze materiale internet arhivate accesibile prin intermediul Internet Archive. După pierderea acestui proces, compania a încercat să dea în judecată Internet Archive pentru încălcarea DMCA și a Computer Fraud and Abuse Act . Aceștia au susținut că, din moment ce au instalat un fișier robots.txt pe site-ul lor, ar fi trebuit să fie evitat de robotul AI. Prima plângere a fost depusă la26 iunie 2003și au adăugat fișierul robots.txt, fișierul 8 iulie 2003, paginile care vor fi retrase retroactiv. Procesul a fost soluționat în afara instanței.
Robots.txt este utilizat ca parte a Robots Exclusion Standard , un standard voluntar pe care IA îl aplică, care interzice roboților să indexeze anumite pagini marcate de creator ca fiind în afara limitelor. Ca urmare, AI a eliminat o serie de site-uri web care acum sunt inaccesibile prin intermediul Wayback Machine. Acest lucru se datorează uneori unui nou proprietar care a plasat un fișier robots.txt care interzice indexarea site-ului. Administratorii spun că lucrează la un sistem care va permite accesul la arhivele anterioare, excluzând elementele create după adăugarea fișierului.
În 2006, IA a aplicat retroactiv regula Robots.txt. Dacă un site blochează IA, precum Healthcare Advocates, orice pagini arhivate anterior din acel domeniu sunt șterse. În cazul site-urilor blocate, numai fișierul robots.txt este arhivat. Această practică pare a fi în detrimentul accesului cercetătorilor la informațiile disponibile în trecut.
Cu toate acestea, IA mai afirmă că „uneori proprietarul unui site web ne contactează direct și ne cere să nu mai indexăm sau să arhivăm un site. Respectăm aceste cereri. Aceștia au explicat, de asemenea, că „Arhiva Internet nu este interesată să păstreze sau să ofere acces la site-uri web sau alte materiale de Internet deținute de oameni care nu ar dori ca materialele lor să fie arhivate” .
Legea brevetelorOficiul de Brevete Statele Unite și, sub rezerva unor cerințe suplimentare îndeplinite ( de exemplu , oferind o declarație oficială din arhivar), The Oficiul European de Brevete va accepta o datare din Arhiva pe Internet ca dovadă a publicării unei pagini web. Aceste date sunt utilizate pentru a determina dacă o pagină web este disponibilă înainte, de exemplu, de data depunerii unei cereri de brevet.
În noiembrie 2005, descărcarea gratuită a concertelor Grateful Dead a fost eliminată de pe site. John Perry Barlow i-a identificat pe Bob Weir , Mickey Hart și Bill Kreutzmann drept instigatorii acestei schimbări. 30 noiembrie, o postare pe forumul lui Brewster Kahle a rezumat ceea ce pare a fi compromisul la care s-a ajuns între membrii trupei. Concertele live pot fi descărcate sau ascultate, iar înregistrările vor fi disponibile doar pentru ascultare. De atunci au fost adăugate concerte.
Suzanne Shell12 decembrie 2005, activista Suzanne Shell (în) a pretins suma de 100.000 de dolari pentru arhivarea site-ului său „profane-justice.org” între 1999 și 2004.20 ianuarie 2006, Internet Archive a intentat o acțiune judecătorească declarativă în districtul California de Nord, cerând instanței să constate că IA nu a încălcat drepturile de autor ale Shell.
Shell a răspuns și a depus o altă plângere împotriva IA pentru arhivarea site-ului său, invocând încălcarea condițiilor sale de utilizare. 13 februarie 2007, un judecător din districtul Colorado a respins toate cererile, cu excepția încălcării contractului.
25 aprilie 2007, IA și Shell au anunțat împreună soluționarea litigiului lor. IA a spus: „Arhiva Internet nu are niciun interes să introducă informații în Wayback Machine a persoanelor care nu doresc să-și vadă conținutul web arhivat. Recunoaștem că M me Shell are drepturi de autor valabile și se aplică pe site-ul său și regretăm că înregistrarea site-ului său în Wayback Machine a dus la acest litigiu. Suntem bucuroși că avem acest caz în spatele nostru. " Shell a spus: " Respect obiectivul și valoarea istorică a Internet Archive. Nu am intenționat niciodată să interferez cu acest obiectiv sau să cauzez daune. "
Situația dreptului de autor în EuropaÎn Europa, Wayback Machine poate încălca uneori legile drepturilor de autor. Numai creatorul poate decide unde este publicat sau reprodus conținutul său, paginile ar trebui eliminate din arhive la cererea creatorului.
În Europa European Internet Archive este un competitor.