Ce Este Entropia De Fișiere

Ce Este Entropia De Fișiere
Ce Este Entropia De Fișiere

Video: Ce Este Entropia De Fișiere

Video: Ce Este Entropia De Fișiere
Video: Operații cu foldere și fișiere 2024, Aprilie
Anonim

Orice fișier computerizat este format din octeți. Un octet poate lua valori de la 0 la 255. Entropia informațională este un parametru statistic care arată probabilitatea apariției anumitor octeți într-un fișier.

Ce este entropia de fișiere
Ce este entropia de fișiere

Puteți evalua vizual gradul de entropie utilizând o histogramă - distribuția probabilității de a repeta aceleași octeți într-un fișier. Din entropia fișierului, putem ghici ce tip de fișier se află în fața noastră, văzând doar histograma acestuia.

Pentru demonstrație, să luăm trei fișiere de diferite tipuri și să le comparăm histogramele. Primul să fie un fișier text (*. TXT). Histograma sa este prezentată în figură:

гистограмма=
гистограмма=

Fișierul text conține doar text. Fiecare caracter al textului este codificat cu anumite octeți în conformitate cu tabelul de codificare. Deși există un număr mare de tipuri de codificare, este evident că există un număr limitat de caractere alfanumerice, care este de obicei mai mic de 255. Prin urmare, doar unele zone sunt ocupate pe prima histogramă, iar unele octeți nu sunt deloc.

Următorul fișier va fi în format PDF:

гистограмма=
гистограмма=

Acest fișier conține toți octeții posibili, deoarece PDF-ul este codat diferit de fișierele text. Stochează o mulțime de informații despre servicii: formatare, fonturi, imagini etc. Dar histograma sa arată că unele dintre octeți apar cu o probabilitate aproximativ egală, în timp ce altele - mult mai des decât altele. Prin urmare, multiplele explozii ascuțite de pe histogramă și, în general, au un aspect destul de „zdrențuit”, deși ocupă întreaga lățime disponibilă.

Și ultimul fișier este comprimat în format 7Z:

гистограмма=
гистограмма=

Această histogramă are două caracteristici principale: în primul rând, toți octeții se găsesc în fișierul zip cu o probabilitate mai mult sau mai puțin egală (o margine superioară destul de plană) și, în al doilea rând, practic nu există spațiu liber deasupra histogramei, ceea ce indică o absență aproape completă de redundanță un astfel de fișier. Prin urmare, putem concluziona că algoritmul arhivarului într-un mod special „amestecă” octeții fișierului pentru a atinge distribuția lor uniformă maximă.

Astfel, entropia în informatică, ca și în fizică, este o măsură a tulburării din sistem, în acest caz, tulburarea distribuției octeților în fișier. Entropia vă permite să judecați gradul de comprimare a fișierului și - indirect - despre tipul acestuia.

Recomandat: