Informationsvægt på et tegn. Datalogi og IKT lektion "Måle information"

Moderne computerteknologier, datalogi, alfabetets magt, talsystemer og mange andre begreber har de mest direkte forbindelser med hinanden. Meget få brugere i dag er velbevandrede i disse spørgsmål. Lad os prøve at afklare, hvad kraften i alfabetet er, hvordan man beregner det og anvender det i praksis. I fremtiden kan dette uden tvivl være nyttigt i praksis.

Hvordan information måles

Før vi begynder at studere spørgsmålet om, hvad alfabetets magt er, og hvad det er generelt, bør vi så at sige begynde med det grundlæggende.

Alle ved sikkert, at der i dag er specielle systemer til måling af enhver mængde baseret på referenceværdier. For eksempel er det for afstande og lignende mængder meter, for masse og vægt – kilogram, for tidsintervaller – sekunder osv.

Men hvordan måler man information i form af tekstvolumen? Det er netop derfor, begrebet alfabetkraft blev introduceret.

Hvad er kraften i alfabetet: et indledende koncept

Så hvis vi følger den generelt accepterede regel om, at den endelige værdi af enhver mængde er en parameter, der bestemmer, hvor mange gange referenceenheden er indeholdt i den målte mængde, kan vi konkludere: alfabetets potens er det samlede antal brugte symboler for et bestemt sprog.

For at gøre det klarere, lad os lade spørgsmålet om, hvordan man finder alfabetets kraft, ligge til side for nu, og være opmærksomme på selve symbolerne, naturligvis fra informationsteknologiens synspunkt. Groft sagt indeholder den fulde liste over brugte tegn bogstaver, tal, alle slags parenteser, specialtegn, tegnsætningstegn mv. Men hvis vi nærmer os spørgsmålet om, hvad alfabetets magt er på en computer måde, bør vi også inkludere et mellemrum (et enkelt mellemrum mellem ord eller andre tegn).

Lad os tage det russiske sprog, eller rettere sagt, tastaturlayoutet, som et eksempel. Baseret på ovenstående indeholder den komplette liste 33 bogstaver, 10 tal og 11 specialtegn. Således er den samlede magt af alfabetet 54.

Informationsvægt af tegn

Imidlertid definerer det generelle begreb om alfabetets magt ikke essensen af ​​at beregne informationsmængder af tekst, der indeholder bogstaver, tal og symboler. Dette kræver en særlig tilgang.

Grundlæggende, tænk over det, hvad kunne være minimumssættet fra et computersystems synspunkt, hvor mange tegn kan det indeholde? Svar: to. Og det er derfor. Faktum er, at hvert symbol, hvad enten det er et bogstav eller et tal, har sin egen informationsvægt, hvorved maskinen genkender, hvad der præcist er foran den. Men computeren forstår kun repræsentation i form af etere og nuller, hvilket i virkeligheden er det, al datalogi bygger på.

Ethvert tegn kan således repræsenteres som sekvenser, der indeholder tallene 1 og 0, det vil sige, at minimumssekvensen, der angiver et bogstav, tal eller symbol, består af to komponenter.

Selve informationsvægten, taget som en standard informationsmåleenhed, kaldes en bit (1 bit). Derfor udgør 8 bit 1 byte.

Repræsentation af tegn i binær kode

Så hvad alfabetets magt er, tror jeg, er allerede lidt klart. Lad os nu se på et andet aspekt, specifikt den praktiske repræsentation af magt ved hjælp af binær kode. Som et eksempel, lad os for nemheds skyld tage et alfabet, der kun indeholder 4 tegn.

I en tocifret binær kode kan sekvensen og deres informationsrepræsentation beskrives som følger:

Serienummer

Binær kode

Derfor den enkleste konklusion: med alfabetets potens N=4 er vægten af ​​et enkelt tegn 2 bit.

Hvis vi bruger en trecifret binær kode til et alfabet med for eksempel 8 tegn, vil antallet af kombinationer være som følger:

Serienummer

Binær kode

Med andre ord, med alfabetets potens N=8, vil vægten af ​​et symbol for en trecifret binær kode være lig med 3 bit.

Sådan finder du kraften i et alfabet og bruger det i et computerudtryk

Lad os nu prøve at se på forholdet udtrykt ved antallet af tegn i koden og kraften i alfabetet. Formlen, hvor N er den alfabetiske potens af alfabetet, og b er antallet af tegn i den binære kode, vil se sådan ud:

Det vil sige 2 1 =2, 2 2 =4, 2 3 =8, 2 4 =16 osv. Groft sagt er det nødvendige antal tegn i selve den binære kode vægten af ​​symbolet. Informationsmæssigt ser det sådan ud:

Måling af informationsvolumen

Dette var dog blot de simpleste eksempler, så at sige, for en indledende forståelse af, hvad alfabetets magt er. Lad os gå videre til praksis.

På dette stadium af udviklingen af ​​computerteknologi til at skrive tekst, under hensyntagen til store, store og små bogstaver, kyrilliske og latinske bogstaver, tegnsætningstegn, parenteser, aritmetiske symboler osv. Der bruges 256 tegn. Baseret på det faktum, at 256 er 2 8, er det ikke svært at gætte, at vægten af ​​hvert tegn i et sådant alfabet er 8, det vil sige 8 bit eller 1 byte.

Baseret på alle kendte parametre kan vi nemt opnå den ønskede informationsmængde af enhver tekst. For eksempel har vi en computertekst på 30 sider. En side indeholder 50 linjer af 60 tegn eller symboler, inklusive mellemrum.

En side vil således indeholde 50 x 60 = 3.000 bytes information, og hele teksten vil indeholde 3.000 x 50 = 150.000 bytes. Som du kan se, er det ubelejligt at måle selv små tekster i bytes. Hvad med hele biblioteker?

I dette tilfælde er det bedre at konvertere volumen til mere kraftfulde enheder - kilobyte, megabyte, gigabyte osv. Ud fra det faktum, at fx 1 kilobyte er lig med 1024 byte (2 10), og en megabyte er 2 10 kilobyte (1024 kilobyte), er det let at beregne, at tekstvolumen i information og matematiske udtryk for vores eksempel vil være 150000/1024 = 146, 484375 kilobyte eller cirka 0,14305 megabyte.

I stedet for et efterord

Generelt er dette kort sagt alt, hvad der vedrører overvejelsen af ​​spørgsmålet om, hvad alfabetets magt er. Det er tilbage at tilføje, at der i denne beskrivelse blev anvendt en rent matematisk tilgang. Det siger sig selv, at der ikke tages højde for tekstens semantiske belastning i dette tilfælde.

Men hvis vi nærmer os overvejelsesspørgsmål netop fra en position, der giver en person noget at forstå, vil et sæt meningsløse kombinationer eller sekvenser af symboler i denne henseende have nul informationsbelastning, selvom det ud fra et informationsbegrebs synspunkt volumen, kan resultatet stadig beregnes.

Generelt er viden om alfabetets magt og beslægtede begreber ikke så svær at forstå og kan simpelthen anvendes i betydningen praktiske handlinger. Desuden støder enhver bruger på dette næsten hver dag. Det er nok at give eksemplet med den populære Word-editor eller enhver anden editor på samme niveau, der bruger et sådant system. Men forveksle det ikke med almindelig Notesblok. Her er alfabetets magt lavere, da skrivning ikke bruger f.eks. store bogstaver.

Informationsvolumen af ​​tekst og måleenheder for information


En moderne computer kan behandle numerisk, tekst, grafik, lyd og video information. Alle disse typer information i en computer præsenteres i binær kode, det vil sige, at der kun bruges to tegn 0 og 1. Dette skyldes, at det er praktisk at repræsentere information i form af en sekvens af elektriske impulser: der er ingen impuls (0), der er en impuls (1).

Sådan kodning kaldes sædvanligvis binær, og de logiske sekvenser af nuller og enere kaldes selv for maskinsprog.

Hvor lang skal den binære kode være, så den kan bruges til at kode tegnene på dit computertastatur?

Dermed, informationsvægten af ​​et tegn i et tilstrækkeligt alfabet er 1 byte.

For at måle store informationsmængder bruges større informationsenheder:

Enheder til måling af mængden af ​​information:

1 byte = 8 bit

1 kilobyte = 1 KB = 1024 bytes

1 megabyte = 1 MB = 1024 KB

1 gigabyte = 1 GB = 1024 GB

Informationsmængde af tekst

1. Antal karakterer i bogen:

60 * 40 * 150 = 360.000 tegn.

2. Fordi 1 tegn vejer 1 byte, bogens informationsvolumen er lig med

360.000 bytes.

3. Lad os konvertere bytes til større enheder:

360.000 / 1024 = 351,56 KB

351,56 / 1024 = 0,34 MB

Svar: Tekstens informationsvolumen er 0,34 MB.

Opgave:

Informationsvolumen for teksten, der er udarbejdet ved hjælp af en computer, er 3,5 KB. Hvor mange tegn indeholder denne tekst?

1. Lad os konvertere volumen fra MB til bytes:

3,5 MB * 1024 = 3584 KB

3584 KB * 1024 = 3.670.016 bytes

2. Fordi 1 tegn vejer 1 byte, antallet af tegn i teksten er

Moderne computerteknologier, datalogi, alfabetets magt, talsystemer og mange andre begreber har de mest direkte forbindelser med hinanden. Meget få brugere i dag er velbevandrede i disse spørgsmål. Lad os prøve at afklare, hvad kraften i alfabetet er, hvordan man beregner det og anvender det i praksis. I fremtiden kan dette uden tvivl være nyttigt i praksis.

Hvordan information måles

Før vi begynder at studere spørgsmålet om, hvad alfabetets magt er, og hvad det er generelt, bør vi så at sige begynde med det grundlæggende.

Alle ved sikkert, at der i dag er specielle systemer til måling af enhver mængde baseret på referenceværdier. For eksempel er det for afstande og lignende mængder meter, for masse og vægt - kilogram, for tidsintervaller - sekunder osv.

Hvad er kraften i alfabetet: et indledende koncept

Så hvis vi følger den generelt accepterede regel om, at den endelige værdi af enhver mængde er en parameter, der bestemmer, hvor mange gange referenceenheden er indeholdt i den målte mængde, kan vi konkludere: alfabetets potens er det samlede antal brugte symboler for et bestemt sprog.

For at gøre det klarere, lad os lade spørgsmålet om, hvordan man finder alfabetets kraft, ligge til side for nu, og være opmærksomme på selve symbolerne, naturligvis fra informationsteknologiens synspunkt. Groft sagt indeholder den fulde liste over brugte tegn bogstaver, tal, alle slags parenteser, specialtegn, tegnsætningstegn mv. Men hvis vi nærmer os spørgsmålet om, hvad alfabetets magt er på en computer måde, bør vi også inkludere et mellemrum (et enkelt mellemrum mellem ord eller andre tegn).

Lad os tage det russiske sprog, eller rettere sagt, tastaturlayoutet, som et eksempel. Baseret på ovenstående indeholder den komplette liste 33 bogstaver, 10 tal og 11 specialtegn. Således er den samlede magt af alfabetet 54.

Informationsvægt af tegn

Imidlertid definerer det generelle begreb om alfabetets magt ikke essensen af ​​at beregne informationsmængder af tekst, der indeholder bogstaver, tal og symboler. Dette kræver en særlig tilgang.

Grundlæggende, tænk over det, hvad kunne være minimumssættet fra et computersystems synspunkt, hvor mange tegn kan det indeholde? Svar: to. Og det er derfor. Faktum er, at hvert symbol, hvad enten det er et bogstav eller et tal, har sin egen informationsvægt, hvorved maskinen genkender, hvad der præcist er foran den. Men computeren forstår kun repræsentation i form af etere og nuller, hvilket i virkeligheden er det, al datalogi bygger på.

Ethvert tegn kan således repræsenteres som sekvenser, der indeholder tallene 1 og 0, det vil sige, at minimumssekvensen, der angiver et bogstav, tal eller symbol, består af to komponenter.

Selve informationsvægten, taget som en standard informationsmåleenhed, kaldes en bit (1 bit). Derfor udgør 8 bit 1 byte.

Repræsentation af tegn i binær kode

Så hvad alfabetets magt er, tror jeg, er allerede lidt klart. Lad os nu se på et andet aspekt, specifikt den praktiske repræsentation af magt ved hjælp af binær kode. Som et eksempel, lad os for nemheds skyld tage et alfabet, der kun indeholder 4 tegn.

I en tocifret binær kode kan sekvensen og deres informationsrepræsentation beskrives som følger:

Serienummer

Binær kode

Derfor den enkleste konklusion: med alfabetets potens N=4 er vægten af ​​et enkelt tegn 2 bit.

Hvis vi bruger en trecifret binær kode til et alfabet med for eksempel 8 tegn, vil antallet af kombinationer være som følger:

Serienummer

Binær kode

Med andre ord, med alfabetets potens N=8, vil vægten af ​​et symbol for en trecifret binær kode være lig med 3 bit.

Sådan finder du kraften i et alfabet og bruger det i et computerudtryk

Lad os nu prøve at se på forholdet udtrykt ved antallet af tegn i koden og kraften i alfabetet. Formlen, hvor N er den alfabetiske potens af alfabetet, og b er antallet af tegn i den binære kode, vil se sådan ud:

Det vil sige 2 1 =2, 2 2 =4, 2 3 =8, 2 4 =16 osv. Groft sagt er det nødvendige antal tegn i selve den binære kode vægten af ​​symbolet. Informationsmæssigt ser det sådan ud:

Måling af informationsvolumen

Dette var dog blot de simpleste eksempler, så at sige, for en indledende forståelse af, hvad alfabetets magt er. Lad os gå videre til praksis.

På dette stadium af udviklingen af ​​computerteknologi til at skrive tekst, under hensyntagen til store, store og små bogstaver, kyrilliske og latinske bogstaver, tegnsætningstegn, parenteser, aritmetiske symboler osv. Der bruges 256 tegn. Baseret på det faktum, at 256 er 2 8, er det ikke svært at gætte, at vægten af ​​hvert tegn i et sådant alfabet er 8, det vil sige 8 bit eller 1 byte.

Baseret på alle kendte parametre kan vi nemt opnå den ønskede informationsmængde af enhver tekst. For eksempel har vi en computertekst på 30 sider. En side indeholder 50 linjer af 60 tegn eller symboler, inklusive mellemrum.

En side vil således indeholde 50 x 60 = 3.000 bytes information, og hele teksten vil indeholde 3.000 x 50 = 150.000 bytes. Som du kan se, er det ubelejligt at måle selv små tekster i bytes. Hvad med hele biblioteker?

I dette tilfælde er det bedre at konvertere volumen til mere kraftfulde enheder - kilobyte, megabyte, gigabyte osv. Ud fra det faktum, at fx 1 kilobyte er lig med 1024 byte (2 10), og en megabyte er 2 10 kilobyte (1024 kilobyte), er det let at beregne, at tekstvolumen i information og matematiske udtryk for vores eksempel vil være 150000/1024 = 146, 484375 kilobyte eller cirka 0,14305 megabyte.

I stedet for et efterord

Generelt er dette kort sagt alt, hvad der vedrører overvejelsen af ​​spørgsmålet om, hvad alfabetets magt er. Det er tilbage at tilføje, at der i denne beskrivelse blev anvendt en rent matematisk tilgang. Det siger sig selv, at der ikke tages højde for tekstens semantiske belastning i dette tilfælde.

Men hvis vi nærmer os overvejelsesspørgsmål netop fra en position, der giver en person noget at forstå, vil et sæt meningsløse kombinationer eller sekvenser af symboler i denne henseende have nul informationsbelastning, selvom det ud fra et informationsbegrebs synspunkt volumen, kan resultatet stadig beregnes.

Generelt er viden om alfabetets magt og beslægtede begreber ikke så svær at forstå og kan simpelthen anvendes i betydningen praktiske handlinger. Desuden støder enhver bruger på dette næsten hver dag. Det er nok at give eksemplet med den populære Word-editor eller enhver anden editor på samme niveau, der bruger et sådant system. Men forveksle det ikke med almindelig Notesblok. Her er alfabetets magt lavere, da skrivning ikke bruger f.eks. store bogstaver.

Måle information.

Alfabetisk tilgang til informationsmåling.

Det samme budskab kan bære en masse information for én person og slet ikke bære det for en anden person. Med denne tilgang er det svært at bestemme mængden af ​​information entydigt.

Den alfabetiske tilgang giver os mulighed for at måle informationsvolumen af ​​en besked præsenteret på et eller andet sprog (naturligt eller formelt), uanset indholdet.

For at udtrykke enhver mængde kvantitativt er det først og fremmest nødvendigt med en måleenhed. Måling udføres ved at sammenligne den målte værdi med en måleenhed. Antallet af gange en måleenhed "passer" ind i den målte værdi er resultatet af målingen.

I den alfabetiske tilgang antages det, at hver karakter i en bestemt meddelelse har en specifik informationsvægt- bærer en fast mængden af ​​information. Alle tegn i det samme alfabet har samme vægt, afhængigt af alfabetets magt. Informationsvægten af ​​et symbol i det binære alfabet tages som den mindste informationsenhed og kaldes 1 bit.

Bemærk venligst, at navnet på informationsenheden "bit" kommer fra den engelske sætning binært ciffer - "binært ciffer".

1 bit tages som den mindste informationsenhed. Det antages, at dette er informationsvægten af ​​et symbol på det binære alfabet.

1.6.2. Informationsvægt af et tegn i et vilkårligt alfabet

Tidligere fandt vi ud af, at alfabetet i ethvert naturligt eller formelt sprog kan erstattes af et binært alfabet. I dette tilfælde er styrken af ​​det oprindelige alfabet N relateret til bitkapaciteten af ​​den binære kode i, der kræves for at kode alle tegnene i det originale alfabet, relationen: N = 2 i.

Informationsvægten af ​​alfabetsymbolet i og magten af ​​alfabetet N er relateret til hinanden ved relationen: N = 2 i.

Opgave 1. Pulti-alfabetet indeholder 8 tegn. Hvad er informationsvægten af ​​et symbol i dette alfabet?

Løsning. Lad os lave en kort redegørelse for betingelserne for problemet.

Forholdet mellem størrelserne i og N er kendt: N = 2 i.

Under hensyntagen til de oprindelige data: 8 = 2 i. Derfor: i = 3.

Den komplette løsning i en notesbog kan se sådan ud:

Svar: 3 bits.

1.6.3. Informationsvolumen for beskeden

Informationsmængde meddelelse (mængden af ​​information i en meddelelse), repræsenteret ved symboler på et naturligt eller formelt sprog, består af informationsvægtene af dets konstituerende symboler.

Informationsvolumen for meddelelse I er lig med produktet af antallet af tegn i meddelelsen K og informationsvægten af ​​alfabettegnet i: I = K * i.

Opgave 2. Meddelelsen, skrevet i alfabetet på 32 tegn, indeholder 140 tegn. Hvor meget information indeholder den?

Opgave 3. En informationsmeddelelse med en volumen på 720 bit består af 180 tegn. Hvad er kraften i det alfabet, hvori denne besked er skrevet?

1.6.4. Enheder af information

I dag udføres tekstforberedelse hovedsageligt ved hjælp af computere. Vi kan tale om et "computeralfabet", der omfatter følgende tegn: små og store russiske og latinske bogstaver, tal, tegnsætningstegn, aritmetiske operationstegn, parenteser osv. Dette alfabet indeholder 256 tegn. Da 256 = 28, er informationsvægten af ​​hvert tegn i dette alfabet 8 bit. En værdi lig med otte bit kaldes en byte. 1 byte er informationsvægten af ​​et alfabetsymbol med en kapacitet på 256.

1 byte = 8 bit

Bit og byte er "små" måleenheder. I praksis bruges større enheder til at måle informationsmængder:

1 kilobyte = 1 KB = 1024 bytes = 210 bytes

1 megabyte = 1 MB = 1024 KB = 210 KB = 220 bytes

1 gigabyte = 1 GB = 1024 MB = 210 MB = 220 KB = 230 bytes

1 terabyte = 1 TB = 1024 GB = 210 GB = 220 MB = 230 KB = 240 bytes

Opgave 4. En 4 KB informationsmeddelelse består af 4096 tegn. Hvad er informationsvægten af ​​symbolet for det anvendte alfabet? Hvor mange tegn indeholder alfabetet, som denne besked er skrevet med?

Opgave 5. 128 atleter deltager i cyclocross. En speciel enhed registrerer hver deltagers beståelse af den mellemliggende finish, og registrerer dens nummer i en kæde af nuller og ener med mindstelængde, det samme for hver atlet. Hvad vil informationsvolumen være for beskeden, der registreres af enheden, efter at 80 cyklister har gennemført den mellemliggende målgang?

Løsning. De 128 deltageres numre er kodet ved hjælp af det binære alfabet. Den krævede bitdybde af den binære kode (kædelængde) er 7, da 128 = 27. Med andre ord, meddelelsen registreret af enheden om, at en cyklist har passeret den mellemliggende mål, bærer 7 bits information. Når 80 atleter fuldfører den mellemliggende finish, vil enheden registrere 80 7 = 560 bits eller 70 bytes information.