Extensii | .txt,, .text- |
---|---|
Tip MIME | text/plain |
PUID | x-fmt / 111 |
În calcul , un fișier text sau fișier text simplu sau fișier text simplu este un fișier al cărui conținut reprezintă doar o serie de caractere ; folosește în mod necesar o anumită formă de codificare a caracterelor care poate fi o variantă sau o extensie a standardului local SUA, ASCII. Nu există o definiție oficială, iar diferitele interpretări despre ceea ce este un fișier text împărtășesc proprietăți esențiale. Caracterele luate în considerare sunt, în general , caractere , spații și linii noi de imprimat . Anumite codificări de caractere standardizate includ, de asemenea, anumite caractere de control, secvențe de evadare sau markeri care pot fi supuse unor aprecieri diferite. Prin urmare, conceptul de fișier text este subiectiv și depinde în special de sistemele de codare a caracterelor luate în considerare ( Windows-1252 și ISO-8859-1 nu oferă aceleași game de valori „tipăribile”).
Un fișier „non-text” se numește „ fișier binar ”, în sensul că biții conținuți în fișier nu reprezintă o serie simplă de caractere, spații și linii noi de imprimat.
Conceptul de fișier text a evoluat odată cu istoria computerului.
Cuvântul „ fișier ” a fost folosit public în contextul unei înregistrări pe computer încă din februarie 1950. O reclamă de la Radio Corporation of America din Popular Science Magazine care descrie o nouă memorie cu tuburi de vid pe care ea a dezvoltat-o, a explicat:
„... rezultatele a nenumărate calcule pot fi păstrate„ la dosar ”și scoase din nou. Un astfel de „fișier” există acum într-un tub „de memorie” dezvoltat la RCA Laboratories. În mod electronic, reține cifrele introduse în mașinile de calculat, le păstrează în timp ce memorează altele noi - accelerează soluțiile inteligente prin labirinturi de matematică. "În 1952 a fost folosit un fișier pentru a desemna informațiile înregistrate pe un card perforat .
Cu toate acestea, se pare că cărțile perforate au împărtășit anumite proprietăți:
În 1971, RFC 265 indică faptul că un fișier poate fi ASCII, executabil de bază sau altul. El menționează în special EBCDIC .
În iulie 1972, RFC 354, care discută despre schimbul de text prin protocolul de rețea NVT-ASCII FTP, indică faptul că fișierele text sunt salvate în moduri diferite, în funcție de sistem:
Prin urmare, indică faptul că, pentru transferul corect al textelor, este necesar ca cele două părți să efectueze partea lor de conversie într-o codificare comună; este în acest moment al ASCII 8 biți, spune NVT.
În același an, RFC a subliniat necesitatea unei unități comune pentru a transmite date binare între sisteme ale căror cuvinte nu au aceeași dimensiune și a sugerat utilizarea de octeți de 8 biți, adică, a ceea ce sunt acum numiți octeți, în timp ce sunt încă permițând utilizarea de octeți / cuvinte diferite dacă este negociat.
În 1980, RFC 765 specificând protocolul FTP indică cele trei motive care determină transferul unui fișier: tipărirea, arhivarea și procesarea. Observând că codificarea singură nu este suficientă meta-informație, specifică restul și în special diferitele mecanisme pentru schimbarea liniilor prin caractere de control sau linii de derulare. La pagina 12, RFC clarifică faptul că fișierele text sunt atât fișiere ASCII, cât și fișiere EBCDIC.
În 1985, în timpul dezvoltării protocolului de transfer de fișiere FTP, a fost recomandat să se ia în considerare ca fișier text (în engleză fișiere „text” ), două formate de fișiere:
De asemenea, tipurile ASCII și EBCDIC au fost acceptate ca fișiere text.
Text unic Unicode
În prezent, Unicode este din ce în ce mai recunoscut ca un format de text simplu. Standardul Unicode definește în proprii termeni ce este text simplu, sub termenul text simplu , în versiunea sa în limba engleză.
Prin urmare, conceptul de fișier text este similar cu proprietățile pe care standardul Unicode le atribuie formatului numit text simplu în limba engleză și înseamnă text simplu.
Generalități și controverse
Noțiunea de text simplu a fost, ca și noțiunea de text îmbogățit (text fantezist), a fost introdusă de Unicode.
Noțiunea de text simplu poate fi tradusă ca text simplu, text pur, text simplu sau text simplu.
Linux Information Project oferă o viziune restrictivă.
Format de codificare
Dacă codificarea este necunoscută, orice text simplu este inutilizabil.
Text simplu, aproximat în matematică
În timp ce matematica este un limbaj internațional, în totalitate sau parțial, reprezentarea sa de calcul poate fi neglijată la crearea diferitelor sisteme de codificare a caracterelor. Cu toate acestea, aceste simboluri au primit un sprijin puternic de la Unicode, oferind noi perspective.
Istorie
Noțiunea de text simplu este implicit destul de veche, deoarece probabil se întoarce cel puțin dacă nu chiar la noțiunea de mașină de scris, la primele limbaje de programare care folosesc această tehnologie.
În aspectul său de rețea, este documentat în multe RFC-uri.
Protocol și fișier
Utilizarea textului simplu poate varia între protocol și fișier. Acest lucru poate fi de obicei invizibil pentru utilizator atunci când copiază text de la un software la altul.
Într-un protocol, protocolul specifică de obicei codificarea utilizată într-un fel sau altul; lungimea textului poate să nu fie limitată, în funcție de protocol.
Deoarece un fișier are în general o dimensiune limitată, este general acceptat faptul că un sistem de fișiere nu oferă informații despre codificarea utilizată pentru a codifica un text simplu dat. Aceste informații esențiale sunt apoi determinate printr-un set de euristici.
Fișierul text este un element determinant prin faptul că oferă posibilitatea de a descrie coduri sursă și de a facilita programarea computerelor.
Cu toate acestea, suferă de facto de multe probleme de interoperabilitate.
Fișierul text, atunci când apare, aduce posibilitatea de a permite unui om să trimită un text procesării automate a unei mașini. De asemenea, oferă posibilitatea de a șterge și a adăuga o linie, și aceea de pe cărțile de pumn. Această funcționalitate a fost preluată de software cum ar fi ed sau edlin .
Un fișier text este limitat ca dimensiune, la fel ca toate fișierele, de sistemul de gestionare a fișierelor .
Mai mult, prin convenție, se limitează voluntar numărul de coloane. O convenție obișnuită este veche este de aproximativ 80 sau 132 de coloane. Acest lucru corespundea standardelor terminalelor fizice depășite astăzi. Editorii moderni știu deseori să gestioneze liniile mai lungi, deși acest lucru nu este recomandat din motive de prezentare.
Fișierul text poate pune multe probleme de interoperabilitate (datorită codificării diferite) între țări, în special între furnizorii de software.
Fișierele text sunt utilizate de multe programe software pentru a stoca datele de configurare . De asemenea, sunt folosite pentru a conține texte scrise în limbaje de programare . În plus, majoritatea limbajelor de programare oferă funcții predefinite pentru manipularea textului simplu, ceea ce face ca gestionarea fișierelor text să fie deosebit de accesibilă.
Software-ul folosit pentru editarea unui fișier text este un editor de text . În general, un procesor de text nu produce fișiere text. Într-adevăr, un procesor de text nu trebuie să trateze doar text simplu, ci și informații despre tipul de caractere utilizat, dispunerea caracterelor în pagini, stilurile tipografice etc. Cu toate acestea, procesatoarele de text pot deschide sau salva un fișier text, fără a fi păstrate informații de formatare, cu excepția cazului în care se întrerupe linia corespunzătoare.
Un fișier text poate fi structura subiacentă a unui fișier jurnal.
Structura unui fișier text este o succesiune de linii. Cu toate acestea, din punct de vedere istoric, fiecare caracter este aliniat vertical, este și astăzi, într-un editor de text online sau local.
Conceptul unei secvențe de linii rămâne o caracteristică puternică a unui fișier text.
Un fișier text poate conține pur și simplu text în orice limbă . În acest caz, astăzi, nu mai respectă nicio structură anume.
Il était une fois une marchande de foie qui vendait du foie dans la Ville de Foix. Elle se dit «ma foi c'est la première fois que je vends du foie dans la ville de Foix !» using (FileStream stm = new FileStream("logfile.txt", FileMode.Create)) { return ProcessStuff(stm); // }Un fișier text poate conține, de asemenea, date structurate care pot fi analizate de software și afișate într-o formă mai avansată, de exemplu o pagină web :
<!DOCTYPE html> <html > <head><title>Page web d'exemple</title></head> <body> <p>Ceci est une page web d'exemple.</p> </body> </html>De obicei, un fișier text este vizibil cu fonturi cu lățime fixă care aliniază textul vertical. Sosirea unui număr mare de caractere Unicode în fișierele text poate pune sub semnul întrebării acest concept.
În cele din urmă, și mai anecdotic, scopul unui fișier text poate fi deviat pentru a conține o imagine, aceasta se numește artă ASCII :
(\___/) (*) (*) \ / (=*.*=) (°_°) {^o^} (")___(") (+) (+) (| . |) (_) (_) (_) (_)Cu toate acestea, această artă necesită ca toate caracterele afișate să aibă aceeași lățime.
Această tehnologie a fost utilizată în special pentru a specifica protocoale de transfer de fișiere.
Utilizarea ASCII-art ca parte a specificației RFC 765 „FILE TRANSFER PROTOCOL” ; anul 1980:
------------- |/---------\| || User || -------- ||Interface|<--->| User | |\----:----/| -------- ---------- | V | |/------\| FTP Commands |/---------\| ||Server|<---------------->| User || || PI || FTP Replies || PI || |\--:---/| |\----:----/| | V | | V | -------- |/------\| Data |/---------\| -------- | File |<--->|Server|<---------------->| User |<--->| File | |System| || DTP || Connection || DTP || |System| -------- |\------/| |\---------/| -------- ---------- ------------- Server-FTP User-FTPFișierele text pot întâmpina probleme de interoperabilitate:
Variațiile în format sunt legate în special de interesele regionale: prezența caracterelor accentuate sau a anumitor alfabete. De asemenea, industriile doresc să ofere personaje noi, respectând toate standardele cu o rigoare inegală.
Ca orice fișier computerizat , un fișier text conține practic biți . Particularitatea unui fișier text este că întregul fișier respectă un standard de codificare a caracterelor . Există multe standarde de codare a caracterelor, care pot face problematica compatibilitatea fișierelor text.
Rolul ASCIIDenumirea „fișier ASCII” este adesea utilizată în mod confuz (și / sau utilizat în mod greșit) în legătură cu fișierele text care nu utilizează codificarea caracterelor ASCII , fie pentru a marca o opoziție față de EBCDIC, fie pentru a interzice utilizarea altor limbi. Engleză. Se datorează, de asemenea, unei istorii complicate legate de influența și interesele Statelor Unite, o țară vorbitoare de limbă engleză, și faptului că în prezent fișierele text sunt în general compatibile ASCII, dar nu se limitează la aceste caractere. Astfel, fișierele text UTF-8 beneficiază de o anumită interoperabilitate cu software-ul care necesită fișiere compatibile ASCII, spre deosebire de fișierele text UTF-16, care necesită software adaptat în mod specific UTF-16.
BOM este o invenție a standardului Unicode. Uneori este prezent la începutul fișierului pentru a indica vizual codificarea unui fișier (acest cod dintr-un fișier UTF8 va fi afișat „ï” ¿„în iso8859-1). Ca atare, este un număr magic la fel ca shebang-ul . Dar este și, mai ales, utilizat pentru a determina ordinea octeților ( endianness ) și acest lucru poate cauza probleme unor software.
Secvențele de evadare pot fi, de asemenea, tratate inegal, în timp ce utilizarea lor este imperativă în ISO-2022 , ducând la apariția mojibake în sensul cel mai adevărat al cuvântului.