Măsura semantică a informațiilor. Măsura sintactică a informațiilor

21.08.2019 Photoshop 3D

După cum sa menționat deja, conceptul de informație poate fi luat în considerare în cadrul diferitelor restricții impuse proprietăților sale, de exemplu. la diferite niveluri de considerare. Există în principal trei niveluri – sintactic, semantic și pragmatic. În consecință, la fiecare dintre ele, sunt utilizate estimări diferite pentru a determina cantitatea de informații.

Pe nivel sintactic Pentru estimarea cantității de informații se folosesc metode probabilistice, care iau în considerare numai proprietățile probabilistice ale informațiilor și nu țin cont de altele (conținut semantic, utilitate, relevanță etc.). Dezvoltat la mijlocul secolului al XX-lea. metodele matematice și, în special, probabilistice au făcut posibilă formularea unei abordări de evaluare a cantității de informații ca măsură de reducere a incertitudinii cunoașterii.

Această abordare, numită și probabilistică, postulează principiul: dacă un mesaj duce la o scădere a incertitudinii cunoștințelor noastre, atunci putem spune că un astfel de mesaj conține informații. În acest caz, mesajele conțin informații despre orice evenimente care pot avea loc cu probabilități diferite.

O formulă pentru determinarea cantității de informații pentru evenimente cu probabilități diferite și primite dintr-o sursă discretă de informații a fost propusă de omul de știință american K. Shannon în 1948. Conform acestei formule, cantitatea de informații poate fi determinată după cum urmează:

Unde eu– cantitatea de informații; N– numărul de evenimente posibile (mesaje); p i– probabilitatea unor evenimente individuale (mesaje).

Cantitatea de informații determinată folosind formula (2.1) ia doar o valoare pozitivă. Deoarece probabilitatea evenimentelor individuale este mai mică de unu, atunci, în consecință, expresia log 2, - este o valoare negativă și pentru a obține o valoare pozitivă pentru cantitatea de informații din formula (2.1) există un semn „minus” înainte de semnul sumei.

Dacă probabilitatea de apariție a evenimentelor individuale este aceeași și se formează grup complet evenimente, adică:

atunci formula (2.1) se transformă în formula lui R. Hartley:

În formulele (2.1) și (2.2), relația dintre cantitatea de informații euși, în consecință, probabilitatea (sau numărul) evenimentelor individuale este exprimată folosind un logaritm.

Utilizarea logaritmilor în formulele (2.1) și (2.2) poate fi explicată după cum urmează. Pentru simplitatea raționamentului, folosim relația (2.2). Vom atribui secvenţial argumentului N valorile selectate, de exemplu, dintr-o serie de numere: 1, 2, 4, 8, 16, 32, 64 etc. Pentru a determina ce eveniment N au avut loc evenimente la fel de probabile, pentru fiecare număr din serie este necesară efectuarea secvenţială a operaţiilor de selecţie din două evenimente posibile.

Da, când N= 1 numarul de operatii va fi egal cu 0 (probabilitatea evenimentului este egala cu 1), cu N= 2, numărul de operații va fi egal cu 1, când N= 4 numarul de operatii va fi egal cu 2, cand N= 8, numărul de operații va fi 3 etc. Astfel, obținem următoarea serie de numere: 0, 1, 2, 3, 4, 5, 6 etc., care pot fi considerate corespunzătoare valorilor funcției euîn relaţie (2.2).

Secvența de valori numerice pe care o acceptă argumentul N, este o serie cunoscută în matematică ca o serie de numere care formează o progresie geometrică și succesiunea de valori numerice pe care o ia funcția eu, va fi o serie care formează o progresie aritmetică. Astfel, logaritmul din formulele (2.1) și (2.2) stabilește relația dintre seria reprezentând geometria și progresie aritmetică, care este destul de bine cunoscut în matematică.

A cuantifica (evalua) oricare mărime fizică este necesar să se determine unitatea de măsură, care în teoria măsurării se numește măsuri .


După cum sa menționat deja, informațiile trebuie codificate înainte de procesare, transmitere și stocare.

Codarea se face folosind alfabete speciale (sisteme de semne). În informatică, care studiază procesele de primire, procesare, transmitere și stocare a informațiilor cu ajutorul sistemelor de calcul (calculatoare), se utilizează în principal codificarea binară, care folosește un sistem de semne format din două simboluri 0 și 1. Din acest motiv, în formulele ( 2.1) și (2.2) numărul 2 este folosit ca bază a logaritmului.

Bazat pe abordare probabilistică Pentru a determina cantitatea de informații, aceste două simboluri ale sistemului de semne binare pot fi considerate ca două evenimente posibile diferite, prin urmare, o unitate a cantității de informații este considerată a fi cantitatea de informații care conține un mesaj care reduce incertitudinea cunoștințe la jumătate (înainte de primirea evenimentelor, probabilitatea acestora este de 0,5, după primire – 1, incertitudinea scade în mod corespunzător: 1/0,5 = 2, adică de 2 ori). Această unitate de măsură a informațiilor se numește bit (din cuvântul englezesc cifră binarăcifră binară). Astfel, ca măsură de evaluare a cantității de informații la nivel sintactic, furnizate codificare binară, un bit primit.

Următoarea unitate de măsură cea mai mare a cantității de informații este un octet, care este o secvență formată din opt biți, adică:

1 octet = 2 3 biți = 8 biți.

În informatică, unitățile de măsurare a cantității de informații care sunt multipli ai octetului sunt, de asemenea, utilizate pe scară largă, dar spre deosebire de sistemul metric de măsuri, unde coeficientul 10n este utilizat ca multiplicatori de unități multiple, unde n = 3, 6 , 9 etc., în mai multe unități de măsurare a cantității de informații se folosește coeficientul 2n. Această alegere se explică prin faptul că computerul funcționează în principal cu numere nu în zecimală, ci în sistem binar Socoteala.

Unitățile de măsurare a cantității de informații care sunt multipli ai unui octet sunt introduse după cum urmează:

1 kilobyte (KB) = 210 bytes = 1024 bytes;

1 megaoctet (MB) = 210 KB = 1024 KB;

1 gigaoctet (GB) = 210 MB = 1024 MB;

1 terabyte (TB) = 210 GB = 1024 GB;

1 petabyte (PB) = 210 TB = 1024 TB;

1 exabyte (Ebyte) = 210 PB = 1024 PB.

Unitățile de măsură ale cantității de informații, ale căror nume conțin prefixele „kilo”, „mega”, etc., nu sunt corecte din punctul de vedere al teoriei măsurării, deoarece aceste prefixe sunt utilizate în sistemul metric de măsuri. , în care un coeficient este utilizat ca multiplicatori ai mai multor unități 10 n, unde n = 3, 6, 9 etc. Pentru a elimina această incorectitudine, organizația internațională Comisia Electrotehnică Internațională dedicat creării de standarde pentru industrie tehnologii electronice, a aprobat o serie de noi prefixe pentru unitățile de măsurare a cantității de informații: kibi (kibi), mebi (mebi), gibi (gibi), tebi (tebi), peti (peti), exbi (exbi). Cu toate acestea, vechile denumiri pentru unitățile de măsurare a cantității de informații sunt încă folosite și va dura timp până când noile denumiri să fie utilizate pe scară largă.

Abordarea probabilistică este utilizată și în determinarea cantității de informații prezentate folosind sisteme de semne. Dacă considerăm caracterele alfabetului ca un set de mesaje posibile N, atunci cantitatea de informații transportată de un caracter al alfabetului poate fi determinată prin formula (2.1). Dacă fiecare caracter al alfabetului apare la fel de probabil în textul mesajului, formula (2.2) poate fi folosită pentru a determina cantitatea de informații.

Cantitatea de informații pe care o poartă un caracter al alfabetului, cu atât este mai mare numărul de caractere incluse în acest alfabet. Numărul de caractere incluse în alfabet se numește puterea alfabetului. Cantitatea de informații (volumul de informații) conținută într-un mesaj codificat folosind un sistem de semne și care conține un anumit număr de caractere (simboluri) se determină cu ajutorul formulei:

Unde V– volumul informativ al mesajului; eu= log2N, volumul de informații al unui simbol (semn); LA– numărul de simboluri (semne) din mesaj; N– puterea alfabetului (numărul de caractere din alfabet).

Pentru măsurarea informaţiei se introduc doi parametri: cantitatea de informaţie I şi cantitatea de date V d.

Acești parametri au expresii și interpretări diferite în funcție de forma de adecvare luată în considerare.

Adecvarea sintactică. Afișează caracteristicile formale și structurale ale informațiilor și nu afectează conținutul semantic al acesteia. La nivel sintactic se ține cont de tipul de mediu și metoda de prezentare a informațiilor, viteza de transmitere și procesare, dimensiunea codurilor pentru prezentarea informațiilor, fiabilitatea și acuratețea conversiei acestor coduri etc.

Informația considerată doar dintr-o poziție sintactică se numește de obicei date, deoarece latura semantică nu contează.

Adecvarea semantică (noțională). Această formă determină gradul de corespondență dintre imaginea obiectului și obiectul însuși. Aspectul semantic presupune luarea în considerare a conținutului semantic al informației. La acest nivel se analizează informația pe care o reflectă informația și se iau în considerare conexiunile semantice. În informatică se stabilesc conexiuni semantice între codurile de reprezentare a informaţiei. Această formă servește la formarea conceptelor și ideilor, la identificarea sensului, conținutului informațiilor și generalizării acesteia.

Adecvarea pragmatică (consumator). Ea reflectă relația dintre informație și consumatorul acesteia, corespondența informațiilor cu scopul de management, care este implementat pe baza acesteia. apărea proprietăți pragmatice informații numai dacă există unitate de informație (obiect), utilizator și obiectiv de management.

Aspect pragmatic considerația este asociată cu valoarea, utilitatea utilizării informațiilor atunci când consumatorul dezvoltă o soluție pentru a-și atinge scopul. Din acest punct de vedere, sunt analizate proprietățile de consum ale informațiilor. Această formă de adecvare este direct legată de utilizare practică informații, cu respectarea acesteia cu funcția țintă a sistemului.

Fiecare formă de adecvare corespunde propriei sale măsurători a cantității de informații și a volumului de date (Fig. 2.1).

Orez. 2.1.

Măsuri de informare

2.2.1. Măsura sintactică a informațiilor Măsura sintactică

cantitatea de informații operează cu informații impersonale care nu exprimă o relație semantică cu obiectul. Volumul de date V d dintr-un mesaj este măsurat prin numărul de caractere (biți) din acest mesaj. ÎN diverse sisteme

  • În notație, o cifră are o greutate diferită și unitatea de măsură a datelor se modifică în consecință:în sistemul de numere binar unitatea de măsură este bit ( pic
  • - cifra binara - cifra binara); V sistem zecimal

unitatea de măsură de notație este dit (locul zecimal).

Exemplu. Un mesaj din sistemul binar sub forma unui cod binar de opt biți 10111011 are un volum de date V d = 8 biți.

Un mesaj în sistemul zecimal sub forma unui număr de șase cifre 275903 are un volum de date de V d = 6 dit.

Cantitatea de informații este determinată de formula:

unde H (α) este entropia, i.e. cantitatea de informaţie este măsurată printr-o modificare (reducere) a incertitudinii stării sistemului. Entropia sistemului H (α), având N stări posibile

, conform formulei lui Shannon, este egal cu:

unde p i este probabilitatea ca sistemul să fie în starea i-a.

Pentru cazul în care toate stările sistemului sunt la fel de probabile, entropia acestuia este determinată de relație

unde N este numărul tuturor stărilor posibile afișate;

m - baza sistemului numeric (varietatea de simboluri utilizate în alfabet);

n este numărul de biți (caractere) din mesaj.

2.2.2. Măsura semantică a informațiilor Pentru a măsura conținutul semantic al informațiilor, i.e. cantitatea sa la nivel semantic, cea mai recunoscută este măsura tezaurului, care leagă proprietățile semantice ale informațiilor cu capacitatea utilizatorului de a accepta mesajul primit. În acest scop este folosit conceptul.

tezaurul utilizatorului

Un tezaur este o colecție de informații disponibile unui utilizator sau unui sistem. În funcție de relația dintre conținutul semantic al informațiilor S și tezaurul utilizatorului S p, numărul de I cu , perceput de utilizator și inclus ulterior de acesta în tezaurul său. Natura acestei dependențe este prezentată în Fig. 2.2:

  • când S p =0 utilizatorul nu percepe sau înțelege informațiile primite;
  • când S p → ∞ utilizatorul știe totul, nu are nevoie de informațiile primite.

Orez. 2.2.

Dependența cantității de informații semantice percepute de consumator de tezaurul său I с = f (S p)

Atunci când se evaluează aspectul semantic (conținut) al informațiilor, este necesar să se depună eforturi pentru a armoniza valorile lui S și S p.

O măsură relativă a cantității de informații semantice poate fi coeficientul de conținut C, care este definit ca raportul dintre cantitatea de informații semantice și volumul acesteia:

2.2.3. Măsura pragmatică a informațiilor

Această măsură determină utilitatea informațiilor (valorii) pentru ca utilizatorul să își atingă scopul. Această măsură este, de asemenea, o valoare relativă, determinată de particularitățile utilizării informațiilor într-un anumit sistem. Este recomandabil să se măsoare valoarea informației în aceleași unități (sau aproape de acestea) în care se măsoară funcția obiectiv.

Pentru comparație, prezentăm măsurile de informații introduse în tabel. 2.1. Tabelul 2.1.

Unități de informare și exemple Măsurarea informațiilor Unități de măsură
Exemple (pentru domeniul computerului)

Sintactic:

se apropie de Shannon

abordare computerizată Gradul de reducere a incertitudinii
Probabilitatea evenimentului Unități de prezentare a informațiilor
Biți, octeți, KB etc. Semantic Tezaur Pungă de plastic, programe de aplicație, computer personal retele de calculatoare
etc. Indicatori economici
Rentabilitatea, productivitatea, rata de amortizare etc. Pragmatic Valoare de utilizare
Valoarea monetară Capacitatea memoriei, performanța computerului, viteza de transfer de date etc.

Găsi

Măsura sintactică a informațiilor

Orez. 1.1. Măsuri de informare

Măsura sintactică operează asupra volumului de date și cantității de informații exprimate prin entropie (conceptul de incertitudine a stării sistemului).

Măsura semantică operează pe cantitatea de informație exprimată prin volumul și gradul său de conținut.

O măsură pragmatică este determinată de utilitatea ei, exprimată prin efectele economice corespunzătoare.

Măsura sintactică a informațiilor

Această măsură a cantității de informații operează cu informații impersonale care nu exprimă o relație semantică cu obiectul. Astăzi cel mai faimos următoarele metode informații: volumetrice, entropie, algoritmice.

Volumetric este cel mai simplu și mai grosier mod de a măsura informații. Evaluarea cantitativă corespunzătoare a informațiilor poate fi numită în mod firesc volumul de informații.

Cantitatea de informații este numărul de caractere din mesaj. Deoarece același număr poate fi scris de mulți în moduri diferite, adică folosind diferite alfabete, de exemplu douăzeci și unu - 21 - XXI - 11001, atunci această metodă este sensibilă la forma de prezentare (înregistrare) a mesajului. ÎN tehnologie informatică toate informațiile prelucrate și stocate, indiferent de natura lor (număr, text, afișare) sunt prezentate în formă binară (folosind un alfabet format din doar două caractere „0” și „1”).

În sistemul numeric binar, unitatea de măsură este un bit (bit – cifră binară – cifră binară).

În teoria informației, un bit este cantitatea de informație necesară pentru a distinge două mesaje la fel de probabile; iar în calcul, un bit este cea mai mică „porțiune” de memorie necesară pentru a stoca unul dintre cele două caractere „0” și „1” utilizate pentru reprezentarea internă a datelor și comenzilor pe mașină. Aceasta este o unitate de măsură prea mică, în practică, se folosește mai des o unitate mai mare - un octet - egală cu cei 8 biți necesari pentru a codifica oricare dintre cele 256 de caractere ale alfabetului tastaturii computerului (256 = 2 8).

Unități de informații derivate chiar și mai mari sunt, de asemenea, utilizate pe scară largă:

1 kilobyte (kbyte) = 1024 bytes = 2 10 bytes;

1 Megaoctet (MB) = 1024 KB = 2 20 octeți;

1 gigaoctet (GB) = 1024 MB = 2 30 octeți.

ÎN în ultima vremeÎn legătură cu creșterea volumului de informații prelucrate, intră în uz următoarele unități derivate:

1 Terabyte (TB) = 1024 GB = 2 40 octeți;

1 petabyte (PB) = 1024 TB = 2 50 octeți.

În sistemul numeric zecimal, unitatea de măsură este dit (locul zecimal).

Un mesaj din sistemul binar sub forma unui cod binar de opt biți 1011 1011 are un volum de date V D = 8 biți.

Un mesaj în sistemul zecimal sub forma unui număr de șase cifre 275 903 are un volum de date V D = 6 biți.

În teoria informației și a codificării, este adoptată o abordare a entropiei pentru măsurarea informațiilor. Obținerea de informații despre un sistem este întotdeauna asociată cu o schimbare a gradului de ignoranță a destinatarului cu privire la starea acestui sistem. Această metodă de măsurare provine din următorul model.

Lăsați consumatorul să aibă câteva informații preliminare (a priori) despre sistem α înainte de a primi informații. După primirea mesajului b, destinatarul a dobândit unele Informații suplimentare I(b), care i-a redus ignoranța. Aceste informații sunt în caz general nesigur și se exprimă prin probabilitățile cu care se așteaptă cutare sau cutare eveniment. Măsura generală a incertitudinii (entropia) este caracterizată de o anumită dependență matematică de totalitatea acestor probabilități. Cantitatea de informații dintr-un mesaj este determinată de cât de mult scade această măsură după primirea mesajului.

Astfel, inginerul american R. Hartley (1928) consideră procesul de obținere a informațiilor ca fiind selecția unui mesaj dintr-un set finit predeterminat de N mesaje la fel de probabile, iar cantitatea de informație i conținută în mesajul selectat este definită ca binar. logaritmul lui N (formula lui Hartley):

Să presupunem că trebuie să ghiciți un număr dintr-un set de numere de la unu la o sută. Folosind formula lui Hartley, puteți calcula câte informații sunt necesare pentru aceasta: , adică un mesaj despre un număr ghicit corect conține o cantitate de informații aproximativ egală cu 6.644 unități de informații.

Alte exemple de mesaje la fel de probabile:

1) la aruncarea unei monede, „a venit cu capul”, „a venit cu capul”;

2) pe pagina cărții „numărul de litere este par”, „numărul de litere este impar”.

Este imposibil să răspundem fără echivoc la întrebarea dacă mesajele „femeia va fi prima care va părăsi ușa clădirii” și „bărbatul va fi primul care va părăsi ușa clădirii” sunt la fel de probabile. Totul depinde de ce clădire despre care vorbim. Dacă aceasta este, de exemplu, o stație de metrou, atunci probabilitatea de a părăsi prima ușă este aceeași pentru un bărbat și o femeie, iar dacă aceasta este o cazarmă militară, atunci pentru un bărbat această probabilitate este mult mai mare decât pentru o femeie. .

Pentru probleme de acest gen, omul de știință american Claude Shannon a propus în 1948 o altă formulă de determinare a cantității de informații, ținând cont de posibila probabilitate inegală a mesajelor într-un set (formula lui Shannon):

unde este probabilitatea ca exact al-lea mesaj evidenţiate într-un set de N mesaje.

Este ușor de observat că dacă probabilitățile ... sunt egale, atunci fiecare dintre ele este egală și formula lui Shannon se transformă în formula lui Hartley.

Pe lângă cele două abordări luate în considerare pentru determinarea cantității de informații, există și altele. Este important să ne amintim că orice rezultate teoretice sunt aplicabile doar pentru o anumită gamă de cazuri, subliniate de ipotezele inițiale.

Teoria algoritmică a informației (o secțiune a teoriei algoritmilor) propune o metodă algoritmică de evaluare a informațiilor dintr-un mesaj. Orice mesaj i se poate atribui o caracteristică cantitativă care reflectă complexitatea (dimensiunea) programului care permite producerea acestuia.

Coeficientul (gradul) conținutului informațional (concizia) unui mesaj este determinat de raportul dintre cantitatea de informații și volumul total de date primite:

, și 0< Y < 1.

Pe măsură ce Y crește, cantitatea de muncă pentru a transforma informațiile (date) în sistem scade. Prin urmare, este necesar să ne străduim să creștem conținutul informațional, pentru care se dezvoltă metode speciale de codificare optimă a informațiilor.

1.4.2.2 Măsura semantică a informaţiei

Semantica este știința sensului, conținutul informației.

Pentru a măsura conținutul semantic al informațiilor, adică cantitatea acesteia la nivel semantic, măsura tezaurului, care leagă proprietățile semantice ale informațiilor cu capacitatea utilizatorului de a accepta mesajul primit, a primit cea mai mare recunoaștere. Același lucru mesaj informativ(articol de ziar, reclamă, scrisoare, telegramă, certificat, poveste, desen, emisiune radio etc.) poate conține cantități diferite informații pentru diferite persoane în funcție de cunoștințele lor anterioare, nivelul de înțelegere a mesajului și interesul față de acesta.

Pentru a măsura cantitatea de informații semantice, se folosește conceptul de „tezaur al utilizatorului”, adică totalitatea informațiilor disponibile utilizatorului sau sistemului.

În funcție de relația dintre conținutul semantic al informației S și tezaurul utilizatorului S p , cantitatea de informație semantică I c percepută de utilizator și inclusă ulterior de acesta în tezaurul său se modifică. Natura acestei dependențe este prezentată în Figura 1. 2.

Orez. 1. 2. Dependența cantității de informații semantice percepute de consumator de tezaurul său I C = f(S p)

Să luăm în considerare două cazuri limită când cantitatea de informație semantică I C este egală cu 0:

La utilizatorul nu percepe sau înțelege informațiile primite;

La utilizatorul știe totul și nu are nevoie de informațiile primite.

Consumatorul dobândește cantitatea maximă de informații semantice atunci când își coordonează conținutul semantic S cu tezaurul său ( ), atunci când informațiile primite sunt de înțeles utilizatorului și îi oferă acestuia informații necunoscute anterior (nu în tezaurul său).

Prin urmare, cantitatea de informații semantice și cunoștințe noi dintr-un mesaj primit de utilizator este o valoare relativă.

O măsură relativă a cantității de informații semantice poate fi coeficientul de conținut C, definit ca raportul dintre cantitatea de informații semantice și volumul acesteia.

O măsură pragmatică este determinată de utilitatea ei, exprimată prin efectele economice corespunzătoare.

Ca măsură sintactică, cantitatea de informații reprezintă volumul de date.

DESPRE volumul de date V d într-un mesaj „în” este măsurat prin numărul de caractere (cifre) din acest mesaj. După cum am menționat, în sistemul numeric binar unitatea de măsură este bitul. În practică, împreună cu această „cea mai mică” unitate de măsură a datelor, este adesea folosită o unitate mai mare - octet egal cu 8 biți. Pentru comoditate, sunt folosiți ca contoare kilo (10 3), mega (10 6), giga (10 9) și tera (10 12) octeți etc. Volumul mesajelor scurte este măsurat în octeți familiari. mesaje scrise, cărți groase, opere muzicale, imagini și produse software. Este clar că această măsură nu poate caracteriza în niciun fel ce și de ce poartă aceste unități de informație. Măsoară în kilobyți romanul de L.N. „Războiul și pacea” lui Tolstoi este util, de exemplu, pentru a înțelege dacă se potrivește spatiu liber hard disk. Acest lucru este la fel de util ca măsurarea dimensiunii unei cărți - înălțimea, grosimea și lățimea acesteia - pentru a decide dacă se va potrivi pe un raft sau cântărirea ei pentru a vedea dacă o servietă poate suporta greutatea combinată.

Aşa. o măsură sintactică a informațiilor nu este în mod clar suficientă pentru a caracteriza un mesaj: în exemplul nostru meteorologic, în ultimul caz, mesajul prietenului conținea o cantitate diferită de zero, dar nu conținea informațiile de care aveam nevoie. Concluzia despre utilitatea informațiilor rezultă din luarea în considerare a conținutului mesajului. Pentru a măsura conținutul semantic al informațiilor, i.e. cantitatea sa la nivel semantic, introducem conceptul de „tezaur al destinatarului informației”.

Un tezaur este o colecție de informații și conexiuni între ele pe care le are destinatarul informațiilor. Putem spune că un tezaur este cunoștințele acumulate ale destinatarului.

Foarte caz simplu când destinatarul este dispozitiv tehnic- un computer personal, un tezaur este format din „armamentul” computerului - programele și dispozitivele încorporate în acesta care îi permit să primească, să proceseze și să prezinte mesaje text pe limbi diferite, folosind diferite alfabete, fonturi, precum și informații audio și video din local sau rețea mondială. Dacă computerul dumneavoastră nu este echipat placa de retea, nu vă puteți aștepta să primiți mesaje pe acesta de la alți utilizatori ai rețelei sub nicio formă. Lipsa driverelor cu fonturi rusești nu vă va permite să lucrați cu mesaje în rusă etc.

Dacă destinatarul este o persoană, tezaurul său este și un fel de armament intelectual al unei persoane, un arsenal al cunoștințelor sale. De asemenea, formează un fel de filtru pentru mesajele primite. Mesajul primit este procesat folosind cunoștințele existente pentru a obține informații. Dacă tezaurul este foarte bogat, atunci arsenalul de cunoștințe este profund și divers, vă va permite să extrageți informații din aproape orice mesaj. Un mic tezaur care conține puține cunoștințe poate fi o barieră în înțelegerea mesajelor care necesită o pregătire mai bună.


Să remarcăm, însă, că înțelegerea mesajului în sine nu este suficientă pentru a influența luarea deciziilor - trebuie să conțină informațiile necesare pentru aceasta, care nu se află în tezaurul nostru și pe care dorim să le includem în acesta. În cazul vremii, tezaurul nostru nu avea cele mai recente, „actuale” informații despre vreme pentru zona universitară. Dacă un mesaj pe care îl primim ne modifică tezaurul, alegerea noastră de soluție se poate schimba, de asemenea. Această schimbare a tezaurului servește măsură semantică cantitatea de informaţie este un fel de măsură a utilităţii mesajului primit.

Formal, cantitatea de informații semantice este, inclus ulterior în tezaur este determinat de raportul dintre tezaurul destinatarului S i, și conținutul informațiilor transmise în mesajul „către” S. O vedere grafică a acestei dependențe este prezentată în Fig. 1.

Să luăm în considerare cazurile în care cantitatea de informații semantice eu s egal sau aproape de zero:

La S i= 0 destinatarul nu percepe informațiile primite;

La 0< Si< S 0 получатель воспринимает, но не понимает поступившую в сообщении информацию;

La S i-» ∞destinatarul are cunoștințe exhaustive și informațiile primite nu își pot completa tezaurul.

Orez. Dependența cantității de informații semantice de tezaurul destinatarului

Cu tezaur S i> S 0 cantitatea de informații semantice eu s, primit dintr-un mesaj atașat β informaţii Screște rapid la început cu creșterea propriului tezaur al destinatarului și apoi - pornind de la o anumită valoare S i - scade . Scăderea cantității de informații utile destinatarului are loc deoarece baza de cunoștințe a destinatarului a devenit destul de solidă și devine din ce în ce mai dificil să-l surprinzi cu ceva nou.

Acest lucru poate fi ilustrat prin exemplul studenților care studiază informatica economică și materiale de citire de pe site-uri web despre IP corporativă . Inițial, la formarea primelor cunoștințe despre sisteme informatice lectura nu dă mare lucru - există o mulțime de termeni neclari, abrevieri, chiar și titlurile nu sunt toate clare. Persistența în citirea cărților, participarea la prelegeri și seminarii și comunicarea cu profesioniști ajută la completarea tezaurului. În timp, citirea materialelor site-ului devine plăcută și utilă și până la sfârșit cariera profesionala- după ce a scris multe articole și cărți - a primit altele noi informatii utile de la un site popular se va întâmpla mult mai rar.

Putem vorbi despre ceea ce este optim pentru informațiile date. S tezaurul destinatarului, în care acesta va primi informatii maxime Este, precum și informațiile optime din mesajul „în” pentru un anumit tezaur Sj.În exemplul nostru, atunci când destinatarul este un computer, tezaurul optim înseamnă că hardware-ul său este instalat software percepe și interpretează corect pentru utilizator toate simbolurile conținute în mesajul „în”, transmitând sensul informațiilor S. Dacă mesajul conține caractere care nu corespund conținutului tezaurului, o parte din informații se vor pierde și valoarea eu s va scadea.

Pe de altă parte, dacă știm că destinatarul nu are capacitatea de a primi texte în rusă (calculatorul său nu are driverele necesare), A limbi straine, în care mesajul nostru poate fi trimis, nici el, nici noi nu am studiat pentru a transmite informațiile necesare, putem recurge la transliterare - scrierea textelor rusești folosind litere ale unui alfabet străin, bine percepute de computerul destinatarului; În acest fel, vom potrivi informațiile noastre cu tezaurul computerizat disponibil destinatarului. Mesajul va arăta urât, dar întregul informatiile necesare destinatarul o va putea citi.

Astfel, cantitate maxima informația semantică este din mesaj β destinatarul dobândește prin acordul asupra conținutului său semantic S c tezaur Si,(la Si = Sj opt). Informațiile din același mesaj pot avea conținut semnificativ pentru un utilizator competent, dar pot fi lipsite de sens pentru un utilizator incompetent. Cantitatea de informații semantice dintr-un mesaj primit de utilizator este o cantitate individuală, personalizată - spre deosebire de informații sintactice. Cu toate acestea, informația semantică este măsurată în același mod ca și informația sintactică - în biți și octeți.

O măsură relativă a cantității de informații semantice este coeficientul de conținut C, care este definit ca raportul dintre cantitatea de informații semantice și volumul de date. Vd, cuprinse în mesaj β:

C = Is / Vd

Cursul 2 la disciplina „Informatică și TIC”

care apar în medie pe stare se numește entropia unei surse discrete de informații

mation.

H p i log p i

eu 1 N

Dacă ne concentrăm din nou pe măsurarea incertitudinii în unități binare, atunci baza logaritmului ar trebui luată egală cu doi.

H p ilog 2 p i

eu 1 N

La alegeri equiprobabile, toate

plog

iar formula (5) este transformată în formula (2) a lui R. Hartley:

1 log2

Nlog2

Măsura propusă a fost numită entropie nu întâmplător. Faptul este că structura formală a expresiei (4) coincide cu entropia sistem fizic, definit anterior de Boltzmann. Conform celei de-a doua legi a termodinamicii, entropia unui spațiu închis este determinată de

P i 1

creste atunci

poate fi scris ca

piln

eu 1 N

Această formulă coincide complet cu (4)

În ambele cazuri, valoarea caracterizează gradul de diversitate a sistemului.

Folosind formulele (3) și (5), putem determina redundanța alfabetului sursei mesajului.

Care arată cât de rațional sunt folosite simbolurile a acestui alfabet:

) este entropia maximă posibilă, determinată de formula (3);

() - entropie

sursă, determinată prin formula (5).

Esența acestei măsuri este că, cu o alegere la fel de probabilă, aceeași încărcare informațională pe un semn poate fi asigurată prin utilizarea unui alfabet mai mic decât în ​​cazul unei alegeri inegale.

Măsuri informaționale la nivel semantic

Pentru a măsura conținutul semantic al informațiilor, i.e. cantitatea sa la nivel semantic, cea mai răspândită este măsura tezaurului, care leagă proprietățile semantice ale informațiilor cu capacitatea utilizatorului de a accepta mesajul primit. Într-adevăr, pentru a înțelege și utiliza informațiile primite, destinatarul trebuie să aibă o anumită cantitate de cunoștințe. Necunoașterea completă a subiectului nu ne permite să extragem informații utile din mesajul primit despre acest subiect. Pe măsură ce cunoștințele despre un subiect cresc, la fel crește și numărul informatii utile, extras din mesaj.

Dacă numim cunoștințele destinatarului despre un anumit subiect „tezaur” (adică un anumit set de cuvinte, concepte, nume de obiecte legate prin conexiuni semantice), atunci cantitatea de informații conținute într-un anumit mesaj poate fi evaluată în funcție de grad. de schimbare în tezaurul individual sub influenţa acestui mesaj .

Tezaurul este o colecție de informații disponibile unui utilizator sau unui sistem.

Cu alte cuvinte, cantitatea de informații semantice extrase de destinatar din mesajele primite depinde de gradul de pregătire al tezaurului său pentru a percepe astfel de informații.

În funcție de relația dintre conținutul semantic al informațiilor și tezaurul utilizatorului, cantitatea de informații semantice percepută de utilizator și inclusă ulterior de acesta în tezaurul său se modifică. Natura acestei dependențe este prezentată în Figura 3. Să luăm în considerare două cazuri limită când cantitatea de informații semantice este egală cu

Figura 3 - Dependența cantității de informații semantice percepute de consumator de tezaurul său ()

Consumatorul dobândește cantitatea maximă de informații semantice prin acord

combinând conținutul său semantic cu tezaurul său (), atunci când informațiile primite sunt înțelese de utilizator și îi aduc acestuia informații necunoscute anterior (nu în tezaurul său).

În consecință, cantitatea de informații semantice dintr-un mesaj, cantitatea de cunoștințe noi primite de utilizator, este o valoare relativă. Același mesaj poate avea conținut semnificativ pentru un utilizator competent și poate fi lipsit de sens pentru un utilizator incompetent.

Atunci când se evaluează aspectul semantic (conținut) al informațiilor, este necesar să se depună eforturi pentru a armoniza valorile și.

O măsură relativă a cantității de informații semantice poate fi coeficientul de conținut, care este definit ca raportul dintre cantitatea de informații semantice și volumul acesteia:

O altă abordare a evaluărilor semantice ale informațiilor, dezvoltată în cadrul unor studii științifice, este aceea că numărul de legături către aceasta în alte documente este luat ca principal indicator al valorii semantice a informațiilor conținute în documentul analizat (mesaj, publicație) . Indicatorii specifici se formează pe baza prelucrare statistică numărul de link-uri în mostre diferite.

Măsuri de informare la nivel pragmatic

Această măsură determină utilitatea informațiilor (valorii) pentru ca utilizatorul să își atingă scopul. Este, de asemenea, o valoare relativă, determinată de particularitățile utilizării acestor informații într-un anumit sistem.

Unul dintre primii oameni de știință autohtoni care a abordat această problemă a fost A. A. Kharkevich, care a propus luarea ca măsură a valorii informațiilor cantității de informații necesare atingerii scopului, adică. calculați creșterea probabilității de atingere a scopului. Deci, dacă

Astfel, valoarea informației se măsoară în unități de informație, în în acest caz,în biți.

Expresia (7) poate fi considerată ca rezultat al normalizării numărului de rezultate. Pentru explicație, Figura 4 prezintă trei diagrame în care sunt luate aceleași valori pentru numărul de rezultate: 2 și 6 pentru punctele 0 și, respectiv, 1. Poziția de pornire- punctul 0. Pe baza informațiilor primite se face o trecere la punctul 1. Golul este marcat cu o cruce. Rezultatele favorabile sunt descrise prin linii care conduc la obiectiv. Să determinăm valoarea informațiilor primite în toate cele trei cazuri:

a) numărul de rezultate favorabile este de trei:

şi prin urmare

b) există un rezultat favorabil:

c) numărul de rezultate favorabile este de patru:

În exemplul b) s-a obţinut o valoare negativă a informaţiei (informaţie negativă). O astfel de informație, care crește incertitudinea inițială și reduce probabilitatea de a atinge un obiectiv, se numește dezinformare. Astfel, în exemplul b) am primit informații greșite de 1,58 unități binare.