HTML semantic

HTML semantic este markup folosind HTML pentru a consolida semantica (sensul) informațiile conținute în paginile web , adică semnificația lor , mai degrabă decât pur și simplu să definească prezentările lor (sau aspectul). HTML semantic este gestionat de browsere obișnuite, dar și de mulți alți agenți de utilizator . Limbajul CSS este folosit pentru a sugera forma în care va fi prezentată utilizatorilor umani.

De exemplu, specificațiile recente HTML descurajează utilizarea etichetei <i>, care indică un stil de font italic, în favoarea unor etichete semantic mai precise, cum ar fi <em>, care indică accent. Foaia de stil CSS specifică apoi dacă acest accent este reprezentat de un stil italic, un stil îndrăzneț, un subliniat, o pronunție mai lentă sau mai tare etc. Utilizarea cursivelor nu se limitează la evidențiere. De asemenea, este utilizat pentru a cita surse și, pentru aceasta, HTML 4 oferă eticheta <cite>. Cursivele pot fi folosite și pentru cuvinte sau expresii în limbi străine, precum și pentru cuvinte împrumutate. Proiectanții de web pot utiliza atributele încorporate în XHTML sau pot specifica propriile lor marcaje semantice alegând nume adecvate pentru valoarea atributului classelementelor HTML (de exemplu, class="emprunt"). Marcarea accentului, a cotațiilor și a împrumuturilor permite diferit agenților web (sau agenților utilizator), precum motoarele de căutare și alte programe, să evalueze cu exactitate importanța textului.

Istorie

HTML a inclus etichete semantice de la începuturile sale. Într-un document HTML, autorul poate, printre altele, „să înceapă cu un titlu, să adauge paragrafe și semnături, să sublinieze textul, să adauge imagini și linkuri către alte pagini și să folosească diferite tipuri de liste”. La un moment dat, HTML a inclus etichete de prezentare text, cum ar fi <font>, <i>și <center>. Există, de asemenea, etichete neutre semantic: <div>și <span>. Începând cu anii 1990 și apariția CSS în majoritatea browserelor, designerii web au fost încurajați să evite utilizarea etichetelor HTML de prezentare, având în vedere separarea prezentării și a conținutului, precum și utilizarea etichetelor de prezentare.

În 2001, Tim Berners-Lee a participat la o discuție pe web-ul semantic , în care s-a propus ca „agenții” de inteligență artificială să poată căuta automat într-o zi pe web și să găsească, să filtreze și să coreleze fapte fără relații anterioare publicate în beneficiul utilizatorilor finali. Chiar și acum, acești agenți nu există, dar unele dintre ideile site-urilor Web 2.0 , Aplicații compozite și Comparare prețuri ar putea exista în scurt timp. Principala diferență, între acești hibrizi de aplicații web și agenții semantici Berners-Lee, este că agregarea informațiilor și hibridizarea actuală sunt de obicei proiectate de dezvoltatorii web care cunosc deja adrese web și adrese web. Semantica API specifică datelor pe care doresc să le scaneze, compara si combina.

Un tip proeminent de agent web care accesează cu crawlere și citește automat paginile web, fără a ști în prealabil ce ar putea găsi, este robotul index motor de căutare. Acești agenți software depind de claritatea semantică a site-urilor pe care le găsesc, deoarece utilizează diferite tehnici și algoritmi pentru a citi și indexa milioane de site-uri web pe zi și pentru a oferi instrumente de căutare utilizatorilor web.

Pentru ca motoarele de căutare să califice semnificația textelor găsite în documentele HTML, precum și pentru aplicațiile compozite și alți agenți, precum și pentru agenții care sunt și mai automatizați pe măsură ce se dezvoltă, structurile semantice trebuie aplicate într-un mod uniform pentru a dezvălui sensul a textelor publicate.

În timp ce Web-ul semantic propriu-zis poate depinde de ontologii complexe RDF și metadate , toate documentele HTML își aduc contribuția la înțelegerea site-ului web prin utilizarea corectă a titlurilor, listelor și a altor marcaje semantice, oriunde este. Această utilizare simplă a HTML se numește „HTML semantic vechi simplu” sau POSH. Utilizarea corectă a balizelor în Web 2.0 creează folksonomii care pot fi foarte semnificative în unele cazuri. HTML5 a creat noi etichete semantice, cum ar fi articol, subsol, progres și nav, care vor fi utilizate în mod obișnuit pe site-uri web în viitor.

Etichetele de prezentare nu sunt depreciate în HTML (4.01) și XHTML curente, dar sunt contraindicate. În HTML 5, unele dintre aceste elemente, cum ar fi <i>și <b>își păstrează semnificația, au fost definite „ca irelevante din punct de vedere stilistic pentru proza ​​obișnuită, fără intrări suplimentare”.

Contrapartă

În cazul în care un document necesită o semantică mai precisă decât cea inclusă numai în HTML, părțile documentului pot include elemente spansau div, completate de clase cu nume relevante. Aceste nume de clase sunt cel mai bine sugestive decât indicative, cu excepția cazului în care sunt partajate anterior de creatorul și consumatorul conținutului, cum ar fi <span class="author">și <div class="invoice">. Atunci când aceste nume de clasă constituie, de asemenea, o parte de identificare într-o schemă, ele se pot referi la un sens mai precis. De Microformats formaliza această abordare a semanticii în HTML.

O restricție importantă a acestei abordări este că o astfel de marcare bazată pe includerea elementelor trebuie să îndeplinească condițiile de corectitudine a HTML. Arhitectura principală a acestor documente (structura arborelui) implică faptul că numai părțile echilibrate care provin dintr-un subarbore pot fi etichetate în acest fel. O modalitate de a marca orice secțiune de HTML ar necesita un mecanism independent de structura de marcare în sine, cum ar fi XPointer .

Utilizarea corectă a HTML-ului semantic îmbunătățește, de asemenea, accesibilitatea documentelor pe Internet. De exemplu, atunci când un cititor de ecran sau un browser audio poate stabili în mod corespunzător structura unui document, aceștia nu vor pierde timpul vizualizării utilizatorilor care citesc informații irelevante sau repetitive dacă acestea au fost deja etichetate corect.

„Fragmente bogate” ale Google

În 2010, Google a raportat că sistemele sale vor utiliza în viitor trei forme de metadate structurate pentru a găsi conținut semantic structurat în paginile web. Aceste informații, atunci când se referă la articole, profiluri, liste profesionale sau evenimente, vor fi utilizate de Google pentru a îmbogăți extrasele care apar sub titlul paginilor date ca urmare. Google a anunțat că aceste date pot fi furnizate sub formă de microdate , cuvinte cheie cu microformate sau folosind sintaxa RDFa . Microdatele sunt specificate în atribute itemtypeși itempropadăugate la elementele HTML existente; cuvintele cheie microformat sunt adăugate atributelor, classașa cum s-a explicat anterior; și RDFa solicită atribute rel, typeofși propertyadăugate la elementele existente. Pentru a verifica validitatea marcajului, Google a implementat un instrument numit „Instrument pentru fragmente bogate”

Referințe

  1. (în) "  specificație HTML 4.01 - Fonturi  " , W3C 2000, revizuit în 2002 (accesat la 6 iulie 2012 )
  2. (în) "  specificație HTML 4.01 - Text  " , W3C ,1999(accesat la 6 iulie 2012 )
  3. (în) "  Specificație XHTML 1.0 - atribute lang și xml: lang  " , W3C 2000, revizuit în 2002 (accesat la 6 iulie 2012 )
  4. (în) Tim Berners-Lee și Mark Fischetti , Weaving the Web: The Original Design and Ultimate Destiny of the World Wide Web de către inventatorul său , San Francisco, Harper,2000( ISBN  978-0062515872 )
  5. (în) Dave Raggett , „  Noțiuni introductive despre HTML  ” , World Wide Web Consortium ,24 aprilie 2005
  6. (în) Dave Raggett , „  Adăugând o notă de stil  ” , World Wide Web Consortium,8 aprilie 2002(accesat la 8 decembrie 2010 ) Acest articol notează că marcarea HTML pentru prezentare poate fi utilă atunci când vizează browserele Netscape 4.0 și Internet Explorer 4.0, ambele fiind introduse în 1997.
  7. [PDF] (ro) Nigel Shadbolt , Tim Berners-Lee și Wendy Hall , „  The Semantic Web Revisited  ” , IEEE Intelligent Systems,Mai / iunie 2006
  8. (în) „  HTML5  ” , World Wide Web Consortium
  9. (în) „  HTML5  ” , World Wide Web Consortium
  10. (în) „  Documente XML bine formate  ” , Extensible Markup Language (XML) 1.1 , W3C
  11. (în) „  Fragmente bogate (microdate, microformate, RDFa și)  ” , Google,19 martie 2012
  12. (în) „  Fragmente bogate - Organizații  » Google,8 martie 2012
  13. (fr) „  http: // Rich% 20snippet% 20Tool% 20-% 20Outil% 20de% 20test% 20des% 20data% 20structuré  ” ( ArhivăWikiwixArchive.isGoogle • Ce să faci? ) (Accesat pe 14 aprilie) 2013 )

Articol asociat