Hva er ascii-kodetabellen. Koding av tekstinformasjon

For å bruke ASCII riktig, er det nødvendig å utvide kunnskapen din på dette området og om kodefunksjoner.

Hva det er?

ASCII er en kodingstabell med utskrevne tegn (se skjermbilde nr. 1) skrevet på et datatastatur for å overføre informasjon og noen koder. Med andre ord er alfabetet og desimalsifrene kodet inn i tilsvarende symboler som representerer og bærer nødvendig informasjon.

ASCII ble utviklet i Amerika, så standardtegnsettet inkluderer vanligvis det engelske alfabetet med tall, for totalt rundt 128 tegn. Men så oppstår et rettferdig spørsmål: hva skal jeg gjøre hvis koding av det nasjonale alfabetet er nødvendig?

Andre versjoner av ASCII-tabellen er utviklet for å løse lignende problemer. For eksempel, for språk med en fremmed struktur, ble bokstavene i det engelske alfabetet enten fjernet, eller tilleggstegn ble lagt til dem i form av et nasjonalt alfabet. Dermed kan ASCII-kodingen inneholde russiske bokstaver for nasjonal bruk (se skjermbilde nr. 2).

Hvor brukes ASCII-kodesystemet?

Dette kodesystemet er ikke bare nødvendig for å skrive tekstinformasjon på tastaturet. Det brukes også i grafikk. For eksempel, i ASCII Art Maker-programmet, består grafiske bilder av ulike utvidelser av en rekke ASCII-tegn (se skjermbilde nr. 3).

Som regel kan slike programmer deles inn i de som utfører funksjonen til grafiske redaktører, inverterer et bilde til tekst, og de som konverterer et bilde til ASCII-grafikk. Det velkjente uttrykksikonet (eller som det også kalles «smilende menneskeansikt») er også et eksempel på et kodesymbol.

Denne kodingsmetoden kan også brukes når du skriver eller oppretter et HTML-dokument. For eksempel skriver du inn et spesifikt og nødvendig sett med tegn, og når du ser på selve siden, vil symbolet som tilsvarer denne koden vises på skjermen.

Blant annet er denne typen koding nødvendig når man skal lage en flerspråklig nettside, fordi tegn som ikke er inkludert i en eller annen nasjonal tabell må erstattes med ASCII-koder. Hvis leseren er direkte forbundet med informasjons- og kommunikasjonsteknologi (IKT), vil det være nyttig for ham å gjøre seg kjent med slike systemer som:

Bærbart tegnsett;

Kontrollkarakterer;

EBCDIC;

VISCII;

YUSCII;

Unicode;

ASCII kunst;

KOI-8.

ASCII-tabellegenskaper

Som ethvert systematisk program har ASCII sine egne karakteristiske egenskaper. Så, for eksempel, konverteres desimaltallsystemet (siffer fra 0 til 9) til binærtallsystemet (dvs. hvert desimalsiffer konverteres til henholdsvis binært 288 = 1001000).

Bokstavene i de øvre og nedre kolonnene skiller seg bare litt fra hverandre, noe som reduserer kompleksitetsnivået ved å sjekke og redigere saken betydelig.

Med alle disse egenskapene fungerer ASCII-koding som åtte-bit, selv om det opprinnelig var ment å være syv-bit.

Bruk av ASCII i Microsoft Office-programmer:

Om nødvendig kan dette alternativet for koding av informasjon brukes i Microsoft Notisblokk og Microsoft Office Word. Innenfor disse applikasjonene kan dokumentet lagres i ASCII-format, men i dette tilfellet vil du ikke kunne bruke enkelte funksjoner når du skriver tekst.

Spesielt vil fet og fet skrift ikke være tilgjengelig fordi koding bare bevarer betydningen av den maskinskrevne informasjonen, og ikke det generelle utseendet og formen. Du kan legge til slike koder i et dokument ved å bruke følgende programmer:

Microsoft Excel;
Microsoft FrontPage;
Microsoft InfoPath;
Microsoft OneNote;
Microsoft Outlook;
Microsoft PowerPoint;
Microsoft Project.

Det er verdt å tenke på at når du skriver inn ASCII-kode i disse applikasjonene, må du holde nede ALT-tasten.

Selvfølgelig krever alle nødvendige koder en lengre og mer detaljert studie, men dette er utenfor rammen av vår artikkel i dag. Jeg håper at du fant det virkelig nyttig.

Ser deg igjen!

Bra dårlig

Forresten, på nettstedet vårt kan du konvertere hvilken som helst tekst til desimal, heksadesimal, binær kode ved å bruke Online Code Calculator.

ASCII-tabell

ASCII (American Standard Code for Information Interchange)

Sammendragstabell over ASCII-koder

ASCII Windows-tegnkodetabell (Win-1251)

		Symbol









		spesialist. Tabellering
		spesialist. LF (vognretur)


		spesialist. CR (ny linje)


















		kløtsj SP (rom)

		Symbol

Utvidet ASCII-kodetabell

Formatering av symboler.

	Tilbake (retur ett tegn). Indikerer at utskriftsmekanismen eller visningsmarkøren beveger seg én posisjon tilbake.
	Horisontal tabulering. Indikerer bevegelsen til utskriftsmotoren eller visningsmarkøren til neste foreskrevne "tabulatorstopp".
	Linjeskift. Indikerer bevegelsen av utskriftsmekanismen eller visningsmarkøren til begynnelsen av neste linje (en linje ned).
	Vertikal tabulering. Indikerer bevegelsen til utskriftsmotoren eller visningsmarkøren til neste gruppe med linjer.
	Skjemafeed. Indikerer bevegelsen av utskriftsmotoren eller visningsmarkøren til startposisjonen til neste side, skjema eller skjerm.
	Vognretur. Indikerer bevegelsen av utskriftsmekanismen eller visningsmarkøren til hjemmeposisjonen (lengst til venstre) for gjeldende linje.

Data overføring.

	Start av overskrift. Brukes til å definere starten på en overskrift, som kan inneholde ruteinformasjon eller en adresse.
	Start av tekst. Viser begynnelsen av teksten og samtidig slutten av tittelen.
	Slutt på tekst. Gjelder når du avslutter tekst som begynte med STX-tegnet.
	Forespørsel. Forespørsel om identifikasjonsdata (som "Hvem er du?") fra en ekstern stasjon.
	Anerkjenne. Den mottakende enheten sender dette tegnet til avsenderen som bekreftelse på vellykket mottak av dataene.
	Negativ anerkjennelse. Mottakerenheten sender dette tegnet til avsenderen i tilfelle avvisning (feil) av datamottak.
	Synkron/tomgang. Brukes i synkroniserte overføringssystemer. Når det ikke er dataoverføring, sender systemet kontinuerlig SYN-symboler for å sikre synkronisering.
	Slutt på overføringsblokk. Indikerer slutten på en datablokk for kommunikasjonsformål. Brukes til å dele store mengder data i separate blokker.

Delingsmerker ved overføring av informasjon. Andre symboler.

	Null. (Ingen tegn - ingen data). Brukes for overføring når det ikke er data.
	Bell (Ring). Brukes til å kontrollere alarmenheter.
	Skift ut. Indikerer at alle påfølgende kodeord må tolkes i henhold til det eksterne tegnsettet før ankomsten av SI-tegnet.
	Skift inn. Angir at påfølgende kodekombinasjoner må tolkes i henhold til standard tegnsett.
	Data Link Escape. Endre betydningen av følgende tegn. Brukes for ekstra kontroll eller for å overføre en vilkårlig kombinasjon av biter.
DC1, DC2, DC3, DC4	Enhetskontroller. Symboler for betjening av hjelpeenheter (spesielle funksjoner).
	Avbryt. Indikerer at data som går foran dette tegnet i en melding eller blokk skal ignoreres (vanligvis hvis en feil oppdages).
	Slutt på medium. Indikerer den fysiske enden av et bånd eller annet lagringsmedium
	Erstatning. Brukes til å erstatte et feilaktig eller ugyldig tegn.
	Escape (Utvidelse). Brukes til å utvide kode ved å indikere at et påfølgende tegn har en alternativ betydning.
	Rom. Et tegn som ikke skrives ut som brukes til å skille ord eller flytte utskriftsmotoren eller visningsmarkøren én posisjon fremover.
	Slett. Brukes til å fjerne (slette) forrige tegn i en melding

Excel for Office 365 Word for Office 365 Outlook for Office 365 PowerPoint for Office 365 Publisher for Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 1019 Visio Standard 1019 Excel 2019 Excel 2019 Excel 6 No 2019 Excel 6 t e 2013 Forlag 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 07 Excel 2010 07 Excel 07 2 007 PowerPoint 2007 Publisher 2007 Access 2007 Visio 2007 OneNote 2007 Office 2010 Visio Standard 2007 Visio Standard 2010 Mindre

I denne artikkelen: Sett inn et ASCII- eller Unicode-tegn i et dokument

Hvis du bare trenger å skrive inn noen få spesialtegn eller symboler, kan du bruke hurtigtaster. For en liste over ASCII-tegn, se følgende tabeller eller artikkelen Sette inn nasjonale alfabeter ved hjelp av tastatursnarveier.

Merknader:

Sette inn ASCII-tegn

For å sette inn et ASCII-tegn, trykk og hold nede ALT-tasten mens du taster inn tegnkoden. For å sette inn et gradsymbol (º), trykk og hold nede ALT-tasten, og skriv deretter inn 0176 på det numeriske tastaturet.

For å legge inn tall, bruk det numeriske tastaturet i stedet for tallene på hovedtastaturet. Hvis du trenger å taste inn tall på det numeriske tastaturet, sørg for at NUM LOCK-indikatoren er på.

Sette inn Unicode-tegn

For å sette inn et Unicode-tegn, skriv inn tegnkoden og trykk deretter ALT og X. For å sette inn et dollarsymbol ($), skriv inn 0024 og trykk ALT og X. For alle Unicode-tegnkoder, se .

Viktig: Noen Microsoft Office-programmer, for eksempel PowerPoint og InfoPath, støtter ikke konvertering av Unicode-koder til tegn. Hvis du trenger å sette inn et Unicode-tegn i et av disse programmene, bruk .

Merknader:

Hvis feil Unicode-tegn vises etter at du har trykket ALT+X, velger du riktig kode og trykker ALT+X igjen.

I tillegg må du skrive inn "U+" før koden. For eksempel, hvis du skriver inn "1U+B5" og trykker ALT+X, vil teksten "1µ" vises, og hvis du skriver inn "1B5" og trykker ALT+X, vil symbolet "Ƶ" vises.

Ved hjelp av symboltabellen

En tegntabell er et program innebygd i Microsoft Windows som lar deg se tegnene som er tilgjengelige for en valgt skrift.

Ved å bruke en symboltabell kan du kopiere individuelle symboler eller en gruppe symboler til utklippstavlen og lime dem inn i et hvilket som helst program som støtter visning av disse symbolene. Åpning av symboltabellen

I Windows 10 skriver du inn ordet "symbol" i søkeboksen på oppgavelinjen og velger symboltabellen fra søkeresultatene.

I Windows 8 skriver du "symbol" på startskjermen og velger symboltabellen fra søkeresultatene.

I Windows 7 klikker du på Start-knappen, velger Alle programmer, Tilbehør, Systemverktøy og klikker deretter Tegnkart.

Tegn er gruppert etter font. Klikk på fontlisten for å velge riktig tegnsett. For å velge et symbol, klikk på det og klikk deretter på Velg-knappen. For å sette inn et symbol, høyreklikk på ønsket plassering i dokumentet og velg Lim inn.

Ofte brukte tegnkoder

For en fullstendig liste over tegn, se Datamaskin, ASCII-tegnkodetabell eller Unicode-tegntabeller organisert etter sett.

Glyph

Valuta

Juridiske symboler

Matematiske symboler

Brøker

Tegnsetting og dialektsymboler

Form symboler

Vanlig brukte diakritiske koder

For en fullstendig liste over glyffer og tilsvarende koder, se.

Glyph

ASCII-kontrolltegn som ikke skrives ut

Tegnene som brukes til å kontrollere enkelte eksterne enheter, for eksempel skrivere, er nummerert 0–31 i ASCII-tabellen. For eksempel er sidefeed/ny sidetegnet nummer 12. Dette tegnet forteller skriveren om å gå til begynnelsen av neste side.

Tabell over ASCII-kontrolltegn som ikke skrives ut

Desimaltall	Skilt	Desimaltall	Skilt
		Frigjøring av datakanalen
Start av tittel		Første enhetskontrollkode
Begynnelsen av tekst		Andre enhetskontrollkode
Slutt på tekst		Tredje enhetskontrollkode
Slutt på overføring		Fjerde enhetskontrollkode
	femspiss	Negativ bekreftelse
Bekreftelse		Synkron overføringsmodus
Lydsignal		Slutt på overført datablokk

Horisontal tabulering		Slutt på media
Linjemating/ny linje		Erstatningssymbol
Vertikal fane			overskride
Sideoversettelse/ny side	Tolv	Filseparator
Vognretur		Gruppeskiller
Skift uten å lagre biter		Rekordskiller
Bitsbevarende skift	femten	Dataseparator

La oss huske noen fakta vi vet:

Settet med symboler som teksten er skrevet med kalles alfabet.

Antall tegn i et alfabet er dets kardinalitet.

Formel for å bestemme mengden informasjon: N = 2 b,

hvor N er kraften til alfabetet (antall tegn),

b - antall biter (informasjonsvekt av symbolet).

Alfabetet, med en kapasitet på 256 tegn, kan romme nesten alle de nødvendige tegnene. Et slikt alfabet kalles tilstrekkelig.

Fordi 256 = 2 8, så er vekten av 1 tegn 8 biter.

Måleenheten 8 bits fikk navnet 1 byte:

1 byte = 8 biter.

Binærkoden til hvert tegn i datamaskintekst tar opp 1 byte med minne.

Hvordan er tekstinformasjon representert i datamaskinens minne?

Koding består i å tilordne hvert tegn en unik desimalkode fra 0 til 255 eller en tilsvarende binær kode fra 00000000 til 11111111. Dermed skiller en person tegn ved omriss, og en datamaskin ved sin kode.

Bekvemmeligheten med byte-for-byte-tegnkoding er åpenbar fordi en byte er den minste adresserbare delen av minnet, og derfor kan prosessoren få tilgang til hvert tegn separat ved behandling av tekst. På den annen side er 256 tegn ganske tilstrekkelig antall til å representere en lang rekke symbolsk informasjon.

Nå oppstår spørsmålet hvilken åtte-bits binær kode som skal tildeles hvert tegn.

Det er klart at dette er en betinget sak; du kan komme opp med mange kodingsmetoder.

ASCII-tabellen (les aski) (American Standard Code for Information Interchange) har blitt den internasjonale standarden for PC-er.

Kun første halvdel av tabellen er internasjonal standard, d.v.s. tegn med tall fra 0 (00000000) til 127 (01111111).

Serienummer		Symbol
	00000000 - 00011111	Deres funksjon er å kontrollere prosessen med å vise tekst på skjermen eller skrive ut, avgi et lydsignal, merke tekst osv.
32 - 127	00100000 - 01111111
128 - 255	10000000 - 11111111	Den andre halvdelen av ASCII-kodetabellen, kalt kodesiden (128 koder, som starter med 10000000 og slutter med 11111111), kan ha forskjellige varianter, hver variant har sitt eget nummer.

Vær oppmerksom på at i kodingstabellen er bokstaver (store og små bokstaver) ordnet i alfabetisk rekkefølge, og tallene er i stigende rekkefølge. Denne overholdelse av leksikografisk rekkefølge i arrangementet av symboler kalles prinsippet om sekvensiell koding av alfabetet.

Den vanligste kodingen som brukes er Microsoft Windows, forkortet CP1251.

Siden slutten av 90-tallet har problemet med standardisering av tegnkoding blitt løst ved introduksjonen av en ny internasjonal standard kalt Unicode. Dette er en 16-bits koding, dvs. den tildeler 2 byte minne for hvert tegn. Selvfølgelig øker dette mengden minne som er okkupert med 2 ganger. Men en slik kodetabell tillater inkludering av opptil 65536 tegn. Den komplette spesifikasjonen av Unicode-standarden inkluderer alle eksisterende, utdødde og kunstig skapte alfabeter i verden, samt mange matematiske, musikalske, kjemiske og andre symboler.

La oss prøve å bruke en ASCII-tabell for å forestille oss hvordan ord vil se ut i datamaskinens minne.

Ord

Hukommelse

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Når du legger inn tekstinformasjon i en datamaskin, kodes tegn (bokstaver, tall, tegn) ved hjelp av forskjellige kodesystemer, som består av et sett med kodetabeller som ligger på de tilsvarende sidene med standarder for koding av tekstinformasjon. I slike tabeller er hvert tegn tildelt en spesifikk numerisk kode i et heksadesimalt eller desimalt tallsystem, dvs. kodetabeller reflekterer samsvaret mellom symbolbilder og numeriske koder og er beregnet for koding og dekoding av tekstinformasjon. Når du skriver inn tekstinformasjon ved hjelp av et datamaskintastatur, blir hvert inntastede tegn kodet, dvs. konvertert til en numerisk kode; når tekstinformasjon sendes ut til en datamaskinutdataenhet (skjerm, skriver eller plotter), konstrueres bildet ved hjelp av den numeriske koden til karakteren. Tildelingen av en spesifikk numerisk kode til et symbol er et resultat av en avtale mellom relevante organisasjoner i forskjellige land. Foreløpig er det ingen enkelt universell kodetabell som samsvarer med bokstavene i de nasjonale alfabetene i forskjellige land.

Moderne kodetabeller inkluderer internasjonale og nasjonale deler, det vil si at de inneholder bokstaver i det latinske og nasjonale alfabetet, tall, aritmetiske operasjoner og skilletegn, matematiske symboler og kontrollsymboler og pseudografiske symboler. Internasjonal del av kodetabellen basert på standarden ASCII (American Standard Code for Information Interchange), koder den første halvdelen av tegnene i kodetabellen med numeriske koder fra 0 til 7 F 16, eller i desimaltallsystemet fra 0 til 127. I dette tilfellet tildeles koder fra 0 til 20 16 (0 ? 32 10) funksjonstastene (F1, F2, F3, osv.) på PC-tastaturet. I fig. 3.1 viser den internasjonale delen av kodetabellene basert på standarden ASCII. Tabellceller er nummerert i henholdsvis desimal- og heksadesimale tallsystemer.

Figur 3.1. Internasjonal del av kodetabellen (standard ASCII) med celletall presentert i desimal (a) og heksadesimal (b) tallsystemer

Den nasjonale delen av kodetabeller inneholder koder for nasjonale alfabeter, som også kalles en tabell med tegnsett (tegnsett).

For øyeblikket, for å støtte bokstaver i det russiske alfabetet (kyrillisk), er det flere kodetabeller (kodinger) som brukes av forskjellige operativsystemer, noe som er en betydelig ulempe og i noen tilfeller fører til problemer forbundet med dekodingsoperasjoner av numeriske tegnverdier. I tabellen 3.1 viser navnene på kodesidene (standardene) som de kyrilliske kodetabellene (kodingene) er plassert på.

Tabell 3.1

En av de første standardene for koding av det kyrilliske alfabetet på datamaskiner var KOI8-R-standarden. Den nasjonale delen av kodetabellen til denne standarden er vist i fig. 3.2.

Ris. 3.2. Nasjonal del av kodetabellen til KOI8-R standarden

For øyeblikket brukes også kodetabellen på side CP866 i standarden for tekstinformasjonskoding, som brukes i operativsystemet. MS DOS eller økt MS DOS for koding av det kyrilliske alfabetet (fig. 3.3, EN).

Ris. 3.3. Den nasjonale delen av kodetabellen, plassert på side CP866 (a) og på side CP1251 (b) i standarden for tekstinformasjon

For øyeblikket er den mest brukte kodetabellen for koding av det kyrilliske alfabetet plassert på side CP1251 i den tilsvarende standarden, som brukes i operativsystemer i familien Windows selskaper Microsoft(Fig. 3.2, b). I alle presenterte kodetabeller, bortsett fra standardtabellen Unicode For å kode ett tegn tildeles 8 binære sifre (8 bits).

På slutten av forrige århundre dukket det opp en ny internasjonal standard Unicode der ett tegn er representert som en to-byte binær kode. Anvendelsen av denne standarden er en fortsettelse av utviklingen av en universell internasjonal standard for å løse problemet med kompatibilitet av nasjonale tegnkodinger. Ved å bruke denne standarden kan 2 16 = 65536 forskjellige tegn kodes. I fig. 3.4 viser kodetabellen 0400 (russisk alfabet) i standarden Unicode.

Ris. 3.4. Unicode-kodetabell 0400

La oss forklare hva som er blitt sagt om koding av tekstinformasjon ved å bruke et eksempel.

Eksempel 3.1

Kod ordet "Computer" som en sekvens av desimale og heksadesimale tall ved å bruke CP1251-koding. Hvilke tegn vil vises i CP866- og KOI8-R-kodetabellene når du bruker den mottatte koden.

Sekvenser av heksadesimal og binær kode for ordet "Computer" basert på CP1251-kodingstabellen (se Fig. 3.3, b) vil se slik ut:

Denne kodesekvensen i SR866- og KOI8-R-koding vil resultere i visning av følgende tegn:

For å konvertere russiskspråklige tekstdokumenter fra en standard for tekstinformasjonskoding til en annen, brukes spesielle programmer - omformere. Konvertere er vanligvis innebygd i andre programmer. Et eksempel kan være et nettleserprogram - Internet Explorer (IE), som har innebygget omformer. Et nettleserprogram er et spesielt program for visning av innhold. nettsider på det globale datanettverket Internett. La oss bruke dette programmet til å bekrefte symbolkartleggingsresultatet oppnådd i eksempel 3.1. For å gjøre dette, vil vi utføre følgende trinn.

1. Start Notepad-programmet (notisblokk). Notisblokk-program i operativsystemet Windows XP startes ved å bruke kommandoen: [Start-knapp – Programmer – Tilbehør – Notisblokk]. I Notisblokk-programvinduet som åpnes, skriv inn ordet "Datamaskin" ved å bruke syntaksen til hypertekstdokumentets markup-språk - HTML (Hyper Text Markup Language). Dette språket brukes til å lage dokumenter på Internett. Teksten skal se slik ut:

Computerother, hvor tagger (spesielle konstruksjoner) av språket HTML for topptekstmarkering. I fig. Figur 3.5 viser resultatet av disse handlingene.

Ris. 3.5. Viser tekst i Notisblokk-vinduet

La oss lagre denne teksten ved å utføre kommandoen: [Fil - Lagre som...] i den aktuelle mappen på datamaskinen; når vi lagrer teksten, vil vi gi filen et navn - Merk, med en filtype. html.

2. La oss starte programmet Internet Explorer, ved å kjøre kommandoen: [Start-knapp – Programmer – Internet Explorer]. Når du starter programmet, vil vinduet vist i fig. 3.6

Ris. 3.6. Frakoblet tilgangsvindu

Hvis vi velger og aktiverer Frakoblet-knappen, vil ikke datamaskinen koble seg til det globale Internett. Hovedprogramvinduet vises Microsoft Internet Explorer, vist i fig. 3.7.

Ris. 3.7. Microsoft Internet Explorer hovedvindu

La oss utføre følgende kommando: [Fil – Åpne], et vindu vil vises (fig. 3.8), der du må spesifisere filnavnet og klikke OK eller klikke på Bla gjennom-knappen... og finne filen Note.html.

Ris. 3.8. Åpent vindu

Hovedvinduet til Internet Explorer-programmet vil ha formen vist i fig. 3.9. Ordet "Datamaskin" vil vises i vinduet. Deretter bruker du toppmenyen til programmet Internet Explorer, kjør følgende kommando: [View – Encoding – Kyrillic (DOS)]. Etter å ha utført denne kommandoen i programvinduet Internet Explorer Symbolene vist i fig. vil vises. 3.10. Når du utfører kommandoen: [View – Encoding – Kyrillic (KOI8-R) ] i programvinduet Internet Explorer Symbolene vist i fig. vil vises. 3.11.

Ris. 3.9. Tegn vist med CP1251-koding

Ris. 3.10. Tegn som vises når CP866-koding er aktivert for en kodesekvens representert i CP1251-koding

Ris. 3.11. Tegn som vises når KOI8-R-koding er aktivert for en kodesekvens representert i CP1251-koding

Dermed oppnådd ved hjelp av programmet Internet Explorer tegnsekvensene faller sammen med tegnsekvensene oppnådd ved bruk av CP866 og KOI8-R kodetabellene i eksempel 3.1.

3.2. Koding av grafisk informasjon

Grafisk informasjon presentert i form av bilder, fotografier, lysbilder, bevegelige bilder (animasjon, video), diagrammer, tegninger kan lages og redigeres ved hjelp av en datamaskin, og den kodes deretter. For tiden er det et ganske stort antall applikasjonsprogrammer for behandling av grafisk informasjon, men de implementerer alle tre typer datagrafikk: raster, vektor og fraktal.

Hvis du ser nærmere på det grafiske bildet på dataskjermen, kan du se et stort antall flerfargede prikker (piksler - fra engelsk. piksel utdannet fra bildeelement – element i bildet), som, når de samles sammen, danner et gitt grafisk bilde. Fra dette kan vi konkludere: et grafisk bilde på en datamaskin er kodet på en bestemt måte og må presenteres i form av en grafisk fil. En fil er den grunnleggende strukturelle enheten for organisering og lagring av data på en datamaskin, og må i dette tilfellet inneholde informasjon om hvordan du presenterer dette settet med punkter på skjermen.

Filer laget på grunnlag av vektorgrafikk inneholder informasjon i form av matematiske relasjoner (matematiske funksjoner som beskriver lineære relasjoner) og tilsvarende data om hvordan man konstruerer et bilde av et objekt ved hjelp av linjesegmenter (vektorer) når de vises på en dataskjerm.

Filer opprettet basert på rastergrafikk krever lagring av data om hvert enkelt punkt i bildet. For å vise rastergrafikk er det ikke nødvendig med komplekse matematiske beregninger; det er nok å bare skaffe data om hvert punkt i bildet (dets koordinater og farge) og vise dem på dataskjermen.

Under kodingsprosessen blir et bilde romlig diskretisert, det vil si at bildet deles inn i individuelle punkter og hvert punkt får en fargekode (gul, rød, blå, etc.). For å kode hvert punkt i et fargegrafisk bilde, brukes prinsippet om dekomponering av en vilkårlig farge til dens hovedkomponenter, som tre primærfarger brukes for: rød (engelsk ord Rød, angitt med en bokstav TIL), grønn (Grønn, angitt med en bokstav G), blå (Blå, betegnet med bøk I). Enhver farge på en prikk som oppfattes av det menneskelige øyet kan oppnås ved additiv (proporsjonal) tilsetning (blanding) av tre primærfarger - rød, grønn og blå. Dette kodesystemet kalles et fargesystem RGB. Grafikkfiler som bruker et fargesystem RGB representere hvert punkt i bildet som en fargetriplett - tre numeriske verdier R, G Og I, tilsvarende intensiteter av røde, grønne og blå farger. Prosessen med å kode et grafisk bilde utføres ved hjelp av forskjellige tekniske midler (skanner, digitalkamera, digitalt videokamera, etc.); resultatet er et rasterbilde. Når du gjengir fargegrafiske bilder på en fargedataskjerm, oppnås fargen til hvert punkt (piksel) i et slikt bilde ved å blande tre primærfarger R,G Og B.

Kvaliteten på et rasterbilde bestemmes av to hovedparametere - oppløsning (antall piksler horisontalt og vertikalt) og fargepaletten som brukes (antall spesifiserte farger for hver piksel i bildet). Oppløsning angis ved å angi antall piksler horisontalt og vertikalt, for eksempel 800 x 600 piksler.

Det er en sammenheng mellom antall farger som er tildelt et punkt i et rasterbilde og mengden informasjon som må tildeles for å lagre fargen på punktet, bestemt av forholdet (R. Hartleys formel):

Hvor Jeg– mengden informasjon; N – antall farger som er tildelt punktet.

Mengden informasjon som kreves for å lagre fargen til et punkt kalles også fargedybde, eller fargegjengivelseskvalitet.

Så hvis antallet farger spesifisert for et bildepunkt er N= 256, vil mengden informasjon som kreves for lagringen (fargedybde) i samsvar med formel (3.1) være lik Jeg= 8 biter.

Datamaskiner bruker ulike grafiske moduser på skjermen for å vise grafisk informasjon. Det skal bemerkes her at i tillegg til den grafiske modusen til skjermen, er det også en tekstmodus, der LCD-skjermen konvensjonelt er delt inn i 25 linjer med 80 tegn per linje. Disse grafikkmodusene er preget av skjermens skjermoppløsning og fargekvalitet (fargedybde). For å stille inn grafisk modus for monitorskjermen i operativsystemet MS Windows XP du må utføre kommandoen: [Start-knapp – Innstillinger – Kontrollpanel – Skjerm]. I dialogboksen "Egenskaper: Skjerm" som vises (fig. 3.12), må du velge fanen "Parameters" og bruke "Skjermoppløsning"-glidebryteren for å velge riktig skjermoppløsning (800 x 600 piksler, 1024 x 768 piksler, etc.). Ved å bruke rullegardinlisten "Fargekvalitet" kan du velge fargedybden - "Høyeste (32 biter)", "Middels (16 biter)", osv., og antall farger som er tildelt hvert punkt i bildet vil være henholdsvis 2 32 (4294967296), 2 16 (65536) osv.

Ris. 3.12. Dialogboksen Skjermegenskaper

For å implementere hver av de grafiske modusene på skjermen, kreves en viss mengde dataminne. Nødvendig informasjonsvolum i videominnet (V) bestemmes ut fra forholdet

Hvor TIL - antall bildepunkter på LCD-skjermen (K = A · B); A - antall horisontale prikker på skjermen; IN - antall vertikale prikker på skjermen; Jeg– informasjonsmengde (fargedybde).

Så hvis LCD-skjermen har en oppløsning på 1024 x 768 piksler og en palett bestående av 65.536 farger, vil fargedybden i henhold til formel (3.1) være I = log 2 65,538 = 16 biter, vil antall bildepiksler være være lik: K = 1024 x 768 = 786432, og det nødvendige informasjonsvolumet til videominnet i samsvar med (3.2) vil være lik

V= 786432 · 16 biter = 12582912 biter = 1572864 byte = 1536 KB = 1,5 MB.

Avslutningsvis bør det bemerkes at i tillegg til de oppførte egenskapene, er de viktigste egenskapene til en skjerm de geometriske dimensjonene til skjermen og bildepunktene. De geometriske dimensjonene til skjermen bestemmes av skjermens diagonale størrelse. Den diagonale størrelsen på skjermer er spesifisert i tommer (1 tomme = 1" = 25,4 mm) og kan ha verdier lik: 14", 15", 17", 21", osv. Moderne skjermproduksjonsteknologier kan gi et bilde punktstørrelse lik 0,22 mm.

For hver skjerm er det således en fysisk maksimal mulig skjermoppløsning, bestemt av størrelsen på dens diagonal og størrelsen på bildepunktet.

Øvelser å gjøre på egen hånd

1. Bruke programmet MS Excel konverter ASCII, SR866, SR1251, KOI8-R kodetabeller til tabeller av formen: i cellene i den første kolonnen av tabellene skriver du i alfabetisk rekkefølge de store og deretter små bokstavene i det latinske og kyrilliske alfabetet, i cellene i andre kolonne - kodene som tilsvarer bokstavene i desimaltallsystemet, i cellene er den tredje kolonnen kodene som tilsvarer bokstavene i det heksadesimale tallsystemet. Kodeverdier må velges fra de tilsvarende kodetabellene.

2. Kod inn og skriv ned følgende ord som en tallsekvens i desimale og heksadesimale tallsystemene:

en) Internet Explorer, b) Microsoft Office; V) CorelDRAW.

Koding utføres ved å bruke den moderniserte ASCII-kodingstabellen fra forrige øvelse.

3. Ved hjelp av den moderniserte KOI8-R-kodingstabellen, dekode sekvenser av tall skrevet i det heksadesimale tallsystemet:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Hvordan vil ordet "kybernetikk" skrevet i SR1251-koding se ut når du bruker SR866- og KOI8-R-kodinger? Sjekk resultatene ved hjelp av programmet Internet Explorer.

5. Ved å bruke kodetabellen vist i fig. 3.1 EN, dekode følgende kodesekvenser skrevet i binært tallsystem:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Bestem informasjonsvolumet til ordet "Økonomi", kodet ved hjelp av kodetabellene SR866, SR1251, Unicode og KOI8-R.

7. Bestem informasjonsvolumet til filen oppnådd som et resultat av skanning av et fargebilde som måler 12x12 cm.Oppløsningen til skanneren som brukes til å skanne dette bildet er 600 dpi. Skanneren setter fargedybden til bildepunktet til 16 biter.

Skanneroppløsning 600 dpi (dotper tomme - punkter per tomme) bestemmer muligheten til en skanner med denne oppløsningen til å skille 600 punkter på et 1-tommers segment.

8. Bestem informasjonsvolumet til filen oppnådd som et resultat av skanning av et fargebilde i A4-størrelse. Oppløsningen til skanneren som brukes til å skanne dette bildet er 1200 dpi. Skanneren setter fargedybden til bildepunktet til 24 biter.

9. Bestem antall farger i paletten ved fargedybder på 8, 16, 24 og 32 biter.

10. Bestem den nødvendige mengden videominne for grafiske modi på monitorskjermen 640 x 480, 800 x 600, 1024 x 768 og 1280 x 1024 piksler med en bildepikselfargedybde på 8, 16, 24 og 32 biter. Oppsummer resultatene i en tabell. Utvikle seg i MS Excel program for automatisering av beregninger.

11. Bestem maksimalt antall farger som kan brukes til å lagre et bilde som måler 32 x 32 piksler, hvis datamaskinen har 2 KB minne tildelt for bildet.

12. Bestem maksimalt mulig oppløsning for en skjerm med en diagonal lengde på 15" og en bildepunktstørrelse på 0,28 mm.

13. Hvilke grafiske moduser på skjermen kan gis av 64 MB videominne?

Innhold

I. Historie om informasjonskoding………………………………..3

II. Koding av informasjon………………………………………………………………4

III. Koding av tekstinformasjon……………………………….4

IV. Typer kodingstabeller………………………………………………………………… 6

V. Beregning av mengden tekstinformasjon………………………14

Liste over referanser…………………………………..16

JEG. Historie om informasjonskoding

Menneskeheten har brukt tekstkryptering (koding) helt siden det øyeblikket da den første hemmelige informasjonen dukket opp. Her er flere tekstkodingsteknikker som ble oppfunnet på forskjellige stadier av utviklingen av menneskelig tanke:

Kryptografi er hemmelig skrift, et system for å endre skrift for å gjøre teksten uforståelig for den uinnvidde;

Morsekode eller ujevn telegrafkode, der hver bokstav eller tegn er representert av sin egen kombinasjon av korte elementære utbrudd av elektrisk strøm (prikker) og elementære utbrudd av trippel varighet (strek);

tegnspråk er et tegnspråk som brukes av personer med hørselshemninger.

En av de tidligste kjente krypteringsmetodene er oppkalt etter den romerske keiseren Julius Caesar (1. århundre f.Kr.). Denne metoden er basert på å erstatte hver bokstav i den krypterte teksten med en annen, ved å skifte alfabetet fra den opprinnelige bokstaven med et fast antall tegn, og alfabetet leses i en sirkel, det vil si at etter bokstaven i, regnes a . Så ordet "byte", når det flyttes to tegn til høyre, er kodet som ordet "gwlf". Den omvendte prosessen med å dechiffrere et gitt ord er nødvendig for å erstatte hver krypterte bokstav med den andre til venstre for den.

II. Kodingsinformasjon

En kode er et sett med konvensjoner (eller signaler) for å registrere (eller kommunisere) noen forhåndsdefinerte konsepter.

Informasjonskoding er prosessen med å danne en spesifikk representasjon av informasjon. I en snevrere forstand blir begrepet "koding" ofte forstått som en overgang fra en form for informasjonsrepresentasjon til en annen, mer praktisk for lagring, overføring eller behandling.

Vanligvis er hvert bilde ved koding (noen ganger kalt kryptering) representert med et eget tegn.

Et tegn er et element i et begrenset sett med elementer som er forskjellige fra hverandre.

I en snevrere forstand blir begrepet "koding" ofte forstått som en overgang fra en form for informasjonsrepresentasjon til en annen, mer praktisk for lagring, overføring eller behandling.

Du kan behandle tekstinformasjon på en datamaskin. Når den legges inn i en datamaskin, er hver bokstav kodet med et bestemt tall, og når de sendes ut til eksterne enheter (skjerm eller utskrift), blir bilder av bokstaver konstruert fra disse tallene for menneskelig oppfatning. Korrespondansen mellom et sett med bokstaver og tall kalles en tegnkoding.

Som regel er alle tall i en datamaskin representert ved hjelp av nuller og enere (ikke ti sifre, slik det er vanlig for personer). Med andre ord, datamaskiner opererer vanligvis i det binære tallsystemet, siden dette gjør enhetene for å behandle dem mye enklere. Å legge inn tall i en datamaskin og skrive dem ut for menneskelig lesing kan gjøres i vanlig desimalform, og alle nødvendige konverteringer utføres av programmer som kjører på datamaskinen.

III. Koding av tekstinformasjon

Den samme informasjonen kan presenteres (kodes) i flere former. Med fremkomsten av datamaskiner oppsto behovet for å kode alle typer informasjon som både et individ og menneskeheten som helhet forholder seg til. Men menneskeheten begynte å løse problemet med koding av informasjon lenge før datamaskinen kom. Menneskehetens storslåtte prestasjoner - skriving og regning - er ikke noe mer enn et system for koding av tale og numerisk informasjon. Informasjon vises aldri i sin rene form, den presenteres alltid på en eller annen måte, kodet på en eller annen måte.

Binær koding er en av de vanlige måtene å representere informasjon på. I datamaskiner, roboter og numerisk styrte maskiner er som regel all informasjon som enheten omhandler kodet i form av ord i det binære alfabetet.

Siden slutten av 60-tallet har datamaskiner i økende grad blitt brukt til å behandle tekstinformasjon, og for tiden er størstedelen av personlige datamaskiner i verden (og mesteparten av tiden) opptatt med å behandle tekstinformasjon. Alle disse typer informasjon i en datamaskin presenteres i binær kode, det vil si at et alfabet med potens to brukes (bare to tegn 0 og 1). Dette skyldes det faktum at det er praktisk å representere informasjon i form av en sekvens av elektriske impulser: det er ingen impuls (0), det er en impuls (1).

Slik koding kalles vanligvis binær, og selve de logiske sekvensene av nuller og enere kalles maskinspråk.

Fra et datasynspunkt består tekst av individuelle tegn. Symbolene inkluderer ikke bare bokstaver (store eller små bokstaver, latin eller russisk), men også tall, skilletegn, spesialtegn som "=", "(", "&", etc., og til og med (vær spesielt oppmerksom!) mellomrom mellom ordene.

Tekster legges inn i datamaskinens minne ved hjelp av tastaturet. Bokstavene, tallene, skilletegn og andre symboler vi er kjent med er skrevet på tastene. De legger inn RAM i binær kode. Dette betyr at hvert tegn er representert med 8-bits binær kode.

Tradisjonelt, for å kode ett tegn, brukes en informasjonsmengde lik 1 byte, dvs. I = 1 byte = 8 biter. Ved å bruke en formel som forbinder antall mulige hendelser K og mengden informasjon I, kan du beregne hvor mange forskjellige symboler som kan kodes (forutsatt at symboler er mulige hendelser): K = 2 I = 2 8 = 256, dvs. for To representere tekstinformasjon, kan du bruke et alfabet med en kapasitet på 256 tegn.

Dette antallet tegn er ganske tilstrekkelig til å representere tekstinformasjon, inkludert store og små bokstaver i det russiske og latinske alfabetet, tall, tegn, grafiske symboler, etc.

I prosessen med å vise et symbol på en dataskjerm, utføres den omvendte prosessen - dekoding, det vil si å konvertere symbolkoden til bildet. Det er viktig at tildeling av en bestemt kode til et symbol er en avtalesak, som er registrert i kodetabellen.

Nå oppstår spørsmålet hvilken åtte-bits binær kode som skal tildeles hvert tegn. Det er klart at dette er en betinget sak; du kan komme opp med mange kodingsmetoder.

Alle tegn i datamaskinalfabetet er nummerert fra 0 til 255. Hvert tall tilsvarer en åtte-bits binær kode fra 00000000 til 11111111. Denne koden er ganske enkelt serienummeret til tegnet i det binære tallsystemet.

IV. Typer kodingstabeller

En tabell der alle tegn i datamaskinalfabetet er tildelt serienumre kalles en kodingstabell.

Ulike typer datamaskiner bruker forskjellige kodingstabeller.

ASCII-kodetabellen (American Standard Code for Information Interchange) har blitt tatt i bruk som en internasjonal standard, som koder første halvdel av tegn med numeriske koder fra 0 til 127 (koder fra 0 til 32 er ikke tildelt tegn, men funksjonstaster) .

ASCII-kodetabellen er delt inn i to deler.

Kun første halvdel av tabellen er internasjonal standard, d.v.s. tegn med tall fra 0 (00000000) til 127 (01111111).

ASCII-kodingstabellstruktur

Serienummer	Kode	Symbol
0 - 31	00000000 - 00011111	Symboler med tall fra 0 til 31 kalles vanligvis kontrollsymboler. Deres funksjon er å kontrollere prosessen med å vise tekst på skjermen eller skrive ut, avgi et lydsignal, merke tekst osv.
32 - 127	0100000 - 01111111	Standard del av tabellen (engelsk). Dette inkluderer små og store bokstaver i det latinske alfabetet, desimaltall, skilletegn, alle slags parenteser, kommersielle og andre symboler. Tegn 32 er et mellomrom, dvs. tom posisjon i teksten. Alle andre reflekteres av visse tegn.
128 - 255	10000000 - 11111111	Alternativ del av tabellen (russisk). Den andre halvdelen av ASCII-kodetabellen, kalt kodesiden (128 koder, starter fra 10000000 og slutter med 11111111), kan ha forskjellige alternativer, hvert alternativ har sitt eget nummer. Kodesettet brukes først og fremst for å ta imot andre nasjonale alfabeter enn latin. I russisk nasjonale kodinger er tegn fra det russiske alfabetet plassert i denne delen av tabellen.

Første halvdel av ASCII-kodetabellen

For bokstaver i det russiske alfabetet overholdes også prinsippet om sekvensiell koding.

Andre halvdel av ASCII-kodetabellen

Dessverre er det for tiden fem forskjellige kyrilliske kodinger (KOI8-R, Windows. MS-DOS, Macintosh og ISO). På grunn av dette oppstår det ofte problemer med å overføre russisk tekst fra en datamaskin til en annen, fra ett programvaresystem til et annet.

Kronologisk sett var en av de første standardene for koding av russiske bokstaver på datamaskiner KOI8 ("Information Exchange Code, 8-bit"). Denne kodingen ble brukt tilbake på 70-tallet på datamaskiner i ES-dataserien, og fra midten av 80-tallet begynte den å bli brukt i de første russifiserte versjonene av UNIX-operativsystemet.

Fra begynnelsen av 90-tallet, tiden for dominansen til MS DOS-operativsystemet, forblir CP866-kodingen ("CP" betyr "kodeside", "kodeside").

Apple-datamaskiner som kjører Mac OS-operativsystemet bruker sin egen Mac-koding.

I tillegg har International Standards Organization (ISO) godkjent en annen koding kalt ISO 8859-5 som en standard for det russiske språket.

Den vanligste kodingen som brukes er Microsoft Windows, forkortet CP1251. Introdusert av Microsoft; Med tanke på den brede distribusjonen av operativsystemer (OS) og andre programvareprodukter til dette selskapet i Russland, har det funnet bred distribusjon.

Siden slutten av 90-tallet har problemet med standardisering av tegnkoding blitt løst ved introduksjonen av en ny internasjonal standard kalt Unicode.

Dette er en 16-bits koding, dvs. den tildeler 2 byte minne for hvert tegn. Selvfølgelig øker dette mengden minne som er okkupert med 2 ganger. Men en slik kodetabell tillater inkludering av opptil 65536 tegn. Den komplette spesifikasjonen av Unicode-standarden inkluderer alle eksisterende, utdødde og kunstig skapte alfabeter i verden, samt mange matematiske, musikalske, kjemiske og andre symboler.

Intern representasjon av ord i datamaskinens minne

ved å bruke en ASCII-tabell

Noen ganger skjer det at en tekst bestående av bokstaver i det russiske alfabetet mottatt fra en annen datamaskin ikke kan leses - en slags "abracadabra" er synlig på skjermen. Dette skjer fordi datamaskiner bruker forskjellige tegnkodinger for det russiske språket.

Dermed spesifiseres hver koding av sin egen kodetabell. Som det fremgår av tabellen, er forskjellige tegn tilordnet den samme binære koden i forskjellige kodinger.

For eksempel danner sekvensen av numeriske koder 221, 194, 204 i CP1251-kodingen ordet "datamaskin", mens det i andre kodinger vil være et meningsløst sett med tegn.

Heldigvis trenger ikke brukeren i de fleste tilfeller å bekymre seg for omkoding av tekstdokumenter, siden dette gjøres av spesielle konverteringsprogrammer innebygd i applikasjoner.

V. Beregning av mengden tekstinformasjon

Oppgave 1: Kod inn ordet "Roma" ved å bruke KOI8-R og CP1251 kodingstabeller.

Løsning:

Oppgave 2: Forutsatt at hvert tegn er kodet i én byte, estimer informasjonsvolumet til følgende setning:

"Onkelen min har de ærligste reglene,

Da jeg ble alvorlig syk,

Han tvang seg selv til å respektere

Og jeg kunne ikke tenke meg noe bedre."

Løsning: Denne frasen har 108 tegn, inkludert tegnsetting, anførselstegn og mellomrom. Vi multipliserer dette tallet med 8 biter. Vi får 108*8=864 biter.

Oppgave 3: De to tekstene inneholder like mange tegn. Den første teksten er skrevet på russisk, og den andre på språket til Naguri-stammen, hvis alfabet består av 16 tegn. Hvem sin tekst inneholder mer informasjon?

Løsning:

1) I = K * a (informasjonsvolumet til teksten er lik produktet av antall tegn og informasjonsvekten til ett tegn).

2) Fordi Begge tekstene har samme antall tegn (K), da avhenger forskjellen av informasjonsinnholdet til ett tegn i alfabetet (a).

3) 2a1 = 32, dvs. a 1 = 5 biter, 2 a2 = 16, dvs. og 2 = 4 biter.

4) I 1 = K * 5 biter, I 2 = K * 4 biter.

5) Dette betyr at teksten skrevet på russisk har 5/4 ganger mer informasjon.

Oppgave 4: Størrelsen på en melding med 2048 tegn var 1/512 MB. Bestem kraften til alfabetet.

Løsning:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 biter - konverterte informasjonsvolumet til meldingen til biter.

2) a = I / K = 16384 /1024 = 16 biter - står for ett tegn i alfabetet.

3) 2*16*2048 = 65536 tegn – kraften i alfabetet som brukes.

Oppgave 5: Canon LBP-laserskriveren skriver ut med en gjennomsnittshastighet på 6,3 Kbps. Hvor lang tid vil det ta å skrive ut et 8-siders dokument hvis du vet at én side har et gjennomsnitt på 45 linjer og 70 tegn per linje (1 tegn - 1 byte)?

Løsning:

1) Finn mengden informasjon som finnes på 1 side: 45 * 70 * 8 biter = 25200 biter

2) Finn mengden informasjon på 8 sider: 25200 * 8 = 201600 biter

3) Vi reduserer til vanlige måleenheter. For å gjøre dette konverterer vi Mbits til bits: 6,3*1024=6451,2 bits/sek.

4) Finn utskriftstiden: 201600: 6451,2 =31 sekunder.

Bibliografi

1. Ageev V.M. Informasjons- og kodingsteori: prøvetaking og koding av måleinformasjon. - M.: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Grunnleggende informasjonsteori og koding. - Kiev, Vishcha skole, 1986.

3. De enkleste metodene for tekstkryptering / D.M. Zlatopolsky. – M.: Chistye Prudy, 2007 – 32 s.

4. Ugrinovich N.D. Informatikk og informasjonsteknologi. Lærebok for klasse 10-11 / N.D. Ugrinovich. – M.: BINOM. Laboratory of Knowledge, 2003. – 512 s.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Materiale til selvstudium om temaet forelesning 2

KodingASCII

ASCII-kodingstabell (ASCII - American Standard Code for Information Interchange - American Standard Code for Information Interchange).

Totalt kan 256 forskjellige tegn kodes ved hjelp av ASCII-kodingstabellen (Figur 1). Denne tabellen er delt inn i to deler: den viktigste (med koder fra OOh til 7Fh) og den ekstra (fra 80h til FFh, der bokstaven h indikerer at koden tilhører det heksadesimale tallsystemet).

Bilde 1

For å kode ett tegn fra tabellen, tildeles 8 bits (1 byte). Ved behandling av tekstinformasjon kan en byte inneholde koden til et bestemt tegn - en bokstav, tall, skilletegn, handlingstegn, etc. Hvert tegn har sin egen kode i form av et heltall. I dette tilfellet er alle koder samlet i spesielle tabeller kalt kodetabeller. Med deres hjelp konverteres symbolkoden til dens synlige representasjon på LCD-skjermen. Som et resultat blir all tekst i datamaskinens minne representert som en sekvens av byte med tegnkoder.

For eksempel ordet hei! vil bli kodet som følger (tabell 1).

Tabell 1


Binær kode
Kode desimal

Figur 1 viser tegnene inkludert i standard (engelsk) og utvidet (russisk) ASCII-koding.

Den første halvdelen av ASCII-tabellen er standardisert. Den inneholder kontrollkoder (fra 00h til 20h og 77h). Disse kodene er fjernet fra tabellen fordi de ikke gjelder for tekstelementer. Tegnsettingstegn og matematiske symboler er også plassert her: 2lh - !, 26h - &, 28h - (, 2Bh -+,..., store og små latinske bokstaver: 41h - A, 61h - a.

Den andre halvdelen av tabellen inneholder nasjonale fonter, pseudografiske symboler som tabeller kan konstrueres av, og spesielle matematiske symboler. Den nedre delen av kodingstabellen kan erstattes ved hjelp av passende drivere - kontroller hjelpeprogrammer. Denne teknikken lar deg bruke flere fonter og deres skrifttyper.

Displayet for hver symbolkode skal vise et bilde av symbolet - ikke bare en digital kode, men et tilsvarende bilde, siden hvert symbol har sin egen form. En beskrivelse av formen til hvert tegn er lagret i et spesielt skjermminne - en tegngenerator. Uthevingen av et tegn på skjermen til en IBM PC-skjerm, for eksempel, utføres ved hjelp av prikker som danner en tegnmatrise. Hver piksel i en slik matrise er et bildeelement og kan være lyst eller mørkt. En mørk prikk er kodet som 0, en lys (lys) prikk som 1. Hvis du representerer mørke piksler i matrisefeltet til et tegn som en prikk, og lyse piksler som en stjerne, kan du grafisk avbilde symbolets form.

Folk i forskjellige land bruker symboler for å skrive ord på sitt morsmål. I disse dager er de fleste applikasjoner, inkludert e-postsystemer og nettlesere, rene 8-biters, noe som betyr at de bare kan vise og korrekt akseptere 8-biters tegn, i henhold til ISO-8859-1-standarden.

Det er mer enn 256 tegn i verden (hvis du tar hensyn til kyrillisk, arabisk, kinesisk, japansk, koreansk og thailandsk), og flere og flere nye karakterer dukker opp. Og dette skaper følgende hull for mange brukere:

Det er ikke mulig å bruke tegn fra forskjellige kodingssett i samme dokument. Siden hvert tekstdokument bruker sitt eget sett med kodinger, er det store problemer med automatisk tekstgjenkjenning.

Nye symboler dukker opp (for eksempel: Euro), som et resultat av at ISO utvikler en ny standard, ISO-8859-15, som er veldig lik ISO-8859-1-standarden. Forskjellen er at den gamle ISO-8859-1-kodingstabellen har fjernet symboler for gamle valutaer som ikke er i bruk for øyeblikket for å gi plass til nylig introduserte symboler (som Euro). Som et resultat kan brukere ha de samme dokumentene på diskene, men med forskjellige kodinger. Løsningen på disse problemene er å ta i bruk et enkelt internasjonalt sett med kodinger kalt Universal Coding eller Unicode.

KodingUnicode

Standarden ble foreslått i 1991 av den ideelle organisasjonen Unicode Consortium (Unicode Inc.). Bruken av denne standarden lar deg kode et veldig stort antall tegn fra forskjellige skript: Unicode-dokumenter kan inneholde kinesiske tegn, matematiske symboler, bokstaver i det greske alfabetet, latinske og kyrilliske alfabeter, og det blir unødvendig å bytte kodeark.

Standarden består av to hovedseksjoner: det universelle tegnsettet (UCS) og kodingsfamilien (UTF, Unicode-transformasjonsformat). Det universelle tegnsettet spesifiserer en en-til-en-korrespondanse mellom tegn og koder - elementer i koderommet som representerer ikke-negative heltall. En kodingsfamilie definerer maskinrepresentasjonen av en sekvens av UCS-koder.

Unicode-standarden ble utviklet for å lage en enkelt tegnkoding for alle moderne og mange eldgamle skriftspråk. Hvert tegn i denne standarden er kodet med 16 biter, noe som gjør at det kan dekke et uforlignelig større antall tegn enn tidligere aksepterte 8-bits kodinger. En annen viktig forskjell mellom Unicode og andre kodingssystemer er at den ikke bare tildeler en unik kode til hvert tegn, men definerer også ulike egenskaper ved det tegnet, for eksempel:

tegntype (stor bokstav, liten bokstav, tall, skilletegn, etc.);

tegnattributter (visning fra venstre til høyre eller høyre til venstre, mellomrom, linjeskift, etc.);

den tilsvarende store eller små bokstaven (for henholdsvis små og store bokstaver);

den tilsvarende numeriske verdien (for numeriske tegn).

Hele utvalget av koder fra 0 til FFFF er delt inn i flere standard delsett, som hver tilsvarer enten alfabetet til et språk eller til en gruppe spesialtegn som er like i funksjonene sine. Diagrammet nedenfor inneholder en generell liste over Unicode 3.0-undersett (figur 2).

Figur 2

Unicode-standarden er grunnlaget for lagring av tekst i mange moderne datasystemer. Den er imidlertid ikke kompatibel med de fleste Internett-protokoller fordi kodene kan inneholde alle byteverdier, og protokoller bruker vanligvis byte 00 - 1F og FE - FF som tjenestebyte. For å oppnå kompatibilitet er det utviklet flere Unicode-transformasjonsformater (UTFs, Unicode Transformation Formats), hvorav UTF-8 er det vanligste i dag. Dette formatet definerer følgende regler for å konvertere hver Unicode-kode til et sett med byte (én til tre) egnet for transport med Internett-protokoller.

Her angir x,y,z bitene av kildekoden som skal trekkes ut, starter med den minst signifikante, og legges inn i resultatbytene fra høyre til venstre til alle spesifiserte posisjoner er fylt.

Videreutvikling av Unicode-standarden er forbundet med tillegg av nye språkplan, d.v.s. tegn i områdene 10000 - 1FFFF, 20000 - 2FFFF, etc., der det er ment å inkludere koding for skript av døde språk som ikke er inkludert i tabellen ovenfor. Et nytt format, UTF-16, ble utviklet for å kode disse tilleggstegnene.

Så det er fire hovedmåter å kode Unicode-byte på:

UTF-8: 128 tegn kodet i en byte (ASCII-format), 1920 tegn kodet i 2 byte ((romersk, gresk, kyrillisk, koptisk, armensk, hebraisk, arabisk tegn), 63488 tegn kodet i 3 byte (kinesisk, japansk osv. .) De resterende 2 147 418 112 tegnene (ikke brukt ennå) kan kodes med 4, 5 eller 6 byte.

UCS-2: Hvert tegn er representert med 2 byte. Denne kodingen inkluderer bare de første 65 535 tegnene fra Unicode-formatet.

UTF-16: En utvidelse av UCS-2, den inneholder 1 114 112 Unicode-formattegn. De første 65 535 tegnene er representert med 2 byte, resten med 4 byte.

USC-4: Hvert tegn er kodet i 4 byte.

En datamaskin forstår prosessen med å konvertere den til en form som muliggjør mer praktisk overføring, lagring eller automatisk behandling av disse dataene. Ulike tabeller brukes til dette formålet. ASCII var det første systemet utviklet i USA for å jobbe med engelsk tekst, som senere ble utbredt over hele verden. Artikkelen nedenfor er viet dens beskrivelse, funksjoner, egenskaper og videre bruk.

Visning og lagring av informasjon i en datamaskin

Symboler på en dataskjerm eller en eller annen mobil digital gadget er dannet basert på sett med vektorformer med forskjellige tegn og en kode som lar deg finne blant dem symbolet som må settes inn på rett sted. Den representerer en sekvens av biter. Dermed må hvert tegn unikt tilsvare et sett med nuller og enere, som vises i en bestemt, unik rekkefølge.

Hvordan det hele begynte

Historisk sett var de første datamaskinene engelskspråklige. For å kode symbolsk informasjon i dem var det nok å bruke bare 7 bits minne, mens 1 byte bestående av 8 biter ble tildelt til dette formålet. Antall tegn som datamaskinen forsto i dette tilfellet var 128. Disse tegnene inkluderte det engelske alfabetet med dets skilletegn, tall og noen spesialtegn. Den engelskspråklige syv-biters kodingen med den tilsvarende tabellen (kodetall), utviklet i 1963, ble kalt American Standard Code for Information Interchange. Vanligvis ble og brukes forkortelsen "ASCII-koding" for å betegne den.

Overgang til flerspråklighet

Over tid ble datamaskiner mye brukt i ikke-engelsktalende land. I denne forbindelse var det behov for kodinger som tillater bruk av nasjonale språk. Det ble besluttet å ikke finne opp hjulet på nytt og ta ASCII som grunnlag. Kodingstabellen i den nye utgaven har utvidet seg betydelig. Bruken av 8. bit gjorde det mulig å oversette 256 tegn til et dataspråk.

Beskrivelse

ASCII-kodingen har en tabell som er delt inn i 2 deler. Bare dens første halvdel anses å være en generelt akseptert internasjonal standard. Det inkluderer:

Tegn med serienummer fra 0 til 31, kodet i sekvenser fra 00000000 til 00011111. De er reservert for kontrolltegn som styrer prosessen med å vise tekst på skjermen eller skriveren, avgi et lydsignal osv.
Tegn med NN i tabellen fra 32 til 127, kodet av sekvenser fra 00100000 til 01111111 utgjør standarddelen av tabellen. Disse inkluderer mellomrom (N 32), bokstaver i det latinske alfabetet (små og store bokstaver), ti-sifrede tall fra 0 til 9, skilletegn, parentes med forskjellige stiler og andre symboler.
Tegn med serienummer fra 128 til 255, kodet av sekvenser fra 10000000 til 11111111. Disse inkluderer bokstaver i andre nasjonale alfabeter enn latin. Det er denne alternative delen av ASCII-tabellen som brukes til å konvertere russiske tegn til datamaskinform.

Noen eiendommer

Funksjonene til ASCII-kodingen inkluderer forskjellen mellom bokstavene "A" - "Z" i små og store bokstaver med bare en bit. Denne omstendigheten forenkler i stor grad registerkonvertering, i tillegg til å kontrollere om den tilhører et gitt verdiområde. I tillegg er alle bokstaver i ASCII-kodingssystemet representert av sine egne sekvensnummer i alfabetet, som er skrevet med 5 sifre i det binære tallsystemet, foran 011 2 for små bokstaver og 010 2 for store bokstaver.

En av funksjonene til ASCII-kodingen er representasjonen av 10 sifre - "0" - "9". I det andre tallsystemet starter de med 00112 og slutter med 2 tallverdier. Dermed tilsvarer 0101 2 desimaltallet fem, så tegnet "5" skrives som 0011 01012. Basert på ovenstående kan du enkelt konvertere BCD-tall til en ASCII-streng ved å legge til bitsekvensen 00112 til hver nibble på venstre.

"Unicode"

Som du vet, kreves tusenvis av tegn for å vise tekster på språkene til den sørøstasiatiske gruppen. Et slikt antall av dem kan ikke beskrives på noen måte i én byte med informasjon, så selv utvidede versjoner av ASCII kunne ikke lenger tilfredsstille de økte behovene til brukere fra forskjellige land.

Dermed oppsto behovet for å lage en universell tekstkoding, og utviklingen av denne, i samarbeid med mange ledere av den globale IT-industrien, ble utført av Unicode-konsortiet. Spesialistene laget UTF 32-systemet. I det ble 32 biter tildelt for å kode 1 tegn, som utgjør 4 byte med informasjon. Den største ulempen var en kraftig økning i mengden nødvendig minne med så mye som 4 ganger, noe som medførte mange problemer.

Samtidig, for de fleste land med offisielle språk som tilhører den indoeuropeiske gruppen, er antall tegn lik 2 32 mer enn overdreven.

Som et resultat av videre arbeid fra spesialister fra Unicode-konsortiet, dukket UTF-16-kodingen opp. Det ble alternativet for å konvertere symbolsk informasjon som passet alle både når det gjelder mengden minne som kreves og antall kodede tegn. Det er derfor UTF-16 ble tatt i bruk som standard og krever at 2 byte er reservert for ett tegn.

Selv denne ganske avanserte og vellykkede versjonen av Unicode hadde noen ulemper, og etter overgangen fra den utvidede versjonen av ASCII til UTF-16 doblet vekten av dokumentet.

I denne forbindelse ble det besluttet å bruke UTF-8 variabel lengdekoding. I dette tilfellet er hvert tegn i kildeteksten kodet som en sekvens med lengde fra 1 til 6 byte.

Kontakt amerikansk standardkode for informasjonsutveksling

Alle latinske tegn i UTF-8 variabel lengde er kodet til 1 byte, som i ASCII-kodingssystemet.

En spesiell egenskap ved YTF-8 er at når det gjelder tekst på latin uten å bruke andre tegn, vil selv programmer som ikke forstår Unicode fortsatt kunne lese den. Med andre ord blir basis-ASCII-tekstkodingen ganske enkelt en del av den nye UTF-en med variabel lengde. Kyrilliske tegn i YTF-8 opptar 2 byte, og for eksempel georgiske tegn - 3 byte. Ved å lage UTF-16 og 8 ble hovedproblemet med å lage et enkelt koderom i fonter løst. Siden den gang kan skriftprodusenter bare fylle tabellen med vektorformer av teksttegn basert på deres behov.

Ulike operativsystemer foretrekker forskjellige kodinger. For å kunne lese og redigere tekster skrevet med en annen koding, brukes russiske tekstkonverteringsprogrammer. Noen tekstredigerere inneholder innebygde transkodere og lar deg lese tekst uavhengig av koding.

Nå vet du hvor mange tegn som er i ASCII-kodingen og hvordan og hvorfor den ble utviklet. Selvfølgelig er Unicode-standarden i dag mest utbredt i verden. Vi må imidlertid ikke glemme at det er basert på ASCII, så bidraget fra utviklerne til IT-feltet bør settes pris på.