Les ascii-utdataformatet til skaladataene. ASCII-koding (amerikansk standardkode for informasjonsutveksling) - grunnleggende tekstkoding for det latinske alfabetet

For å bruke ASCII riktig, er det nødvendig å utvide kunnskapen din på dette området og om kodefunksjoner.

Hva det er?

ASCII er en kodingstabell med utskrevne tegn (se skjermbilde nr. 1) skrevet på et datatastatur for å overføre informasjon og noen koder. Med andre ord er alfabetet og desimalsifrene kodet inn i tilsvarende symboler som representerer og bærer nødvendig informasjon.

ASCII ble utviklet i Amerika, så standardtegnsettet inkluderer vanligvis det engelske alfabetet med tall, for totalt rundt 128 tegn. Men så oppstår et rettferdig spørsmål: hva skal jeg gjøre hvis koding av det nasjonale alfabetet er nødvendig?

Andre versjoner av ASCII-tabellen er utviklet for å løse lignende problemer. For eksempel, for språk med en fremmed struktur, ble bokstavene i det engelske alfabetet enten fjernet, eller tilleggstegn ble lagt til dem i form av et nasjonalt alfabet. Dermed kan ASCII-kodingen inneholde russiske bokstaver for nasjonal bruk (se skjermbilde nr. 2).

Hvor brukes ASCII-kodesystemet?

Dette kodesystemet er ikke bare nødvendig for å skrive tekstinformasjon på tastaturet. Det brukes også i grafikk. For eksempel, i ASCII Art Maker-programmet, består grafiske bilder av ulike utvidelser av en rekke ASCII-tegn (se skjermbilde nr. 3).


Som regel kan slike programmer deles inn i de som utfører funksjonen til grafiske redaktører, inverterer et bilde til tekst, og de som konverterer et bilde til ASCII-grafikk. Det velkjente uttrykksikonet (eller som det også kalles " smilende menneskeansikt") er også et eksempel på et kodetegn.

Denne kodingsmetoden kan også brukes når du skriver eller oppretter et HTML-dokument. For eksempel skriver du inn et spesifikt og nødvendig sett med tegn, og når du ser på selve siden, vil symbolet som tilsvarer denne koden vises på skjermen.

Blant annet er denne typen koding nødvendig når man skal lage en flerspråklig nettside, fordi tegn som ikke er inkludert i en eller annen nasjonal tabell må erstattes med ASCII-koder. Hvis leseren er direkte forbundet med informasjons- og kommunikasjonsteknologi (IKT), vil det være nyttig for ham å gjøre seg kjent med slike systemer som:

  1. Bærbart tegnsett;
  2. Kontrollkarakterer;
  3. EBCDIC;
  4. VISCII;
  5. YUSCII;
  6. Unicode;
  7. ASCII kunst;
  8. KOI-8.

ASCII-tabellegenskaper

Som ethvert systematisk program har ASCII sine egne karakteristiske egenskaper. Så, for eksempel, konverteres desimaltallsystemet (siffer fra 0 til 9) til binærtallsystemet (dvs. hvert desimalsiffer konverteres til henholdsvis binært 288 = 1001000).

Bokstavene i de øvre og nedre kolonnene skiller seg bare litt fra hverandre, noe som reduserer kompleksitetsnivået ved å sjekke og redigere saken betydelig.

Med alle disse egenskapene fungerer ASCII-koding som åtte-bit, selv om det opprinnelig var ment å være syv-bit.

Bruk av ASCII i Microsoft Office-programmer:

Om nødvendig kan dette alternativet for koding av informasjon brukes i Microsoft Notisblokk og Microsoft Office Word. Innenfor disse applikasjonene kan dokumentet lagres i ASCII-format, men i dette tilfellet vil du ikke kunne bruke enkelte funksjoner når du skriver tekst.

Spesielt vil fet og fet skrift ikke være tilgjengelig fordi koding bare bevarer betydningen av den maskinskrevne informasjonen, og ikke det generelle utseendet og formen. Du kan legge til slike koder i et dokument ved å bruke følgende programmer:

  • Microsoft Excel;
  • Microsoft FrontPage;
  • Microsoft InfoPath;
  • Microsoft OneNote;
  • Microsoft Outlook;
  • Microsoft PowerPoint;
  • Microsoft Project.

Det er verdt å tenke på at når du skriver inn ASCII-kode i disse applikasjonene, må du holde nede ALT-tasten.

Selvfølgelig krever alle nødvendige koder en lengre og mer detaljert studie, men dette er utenfor rammen av vår artikkel i dag. Jeg håper at du fant det virkelig nyttig.

Ser deg igjen!

Bra dårlig

I følge International Telecommunication Union brukte tre og en halv milliard mennesker i 2016 Internett med en viss regelmessighet. De fleste av dem tenker ikke engang over det faktum at alle meldinger de sender via PC eller mobile gadgets, samt tekster som vises på alle slags skjermer, faktisk er kombinasjoner av 0 og 1. Denne representasjonen av informasjon kalles koding . Det sikrer og forenkler lagring, prosessering og overføring. I 1963 ble den amerikanske ASCII-kodingen utviklet, som er emnet for denne artikkelen.

Presentere informasjon på en datamaskin

Fra enhver elektronisk datamaskins synspunkt er tekst et sett med individuelle tegn. Disse inkluderer ikke bare bokstaver, inkludert store, men også skilletegn og tall. I tillegg brukes spesialtegn "=", "&", "(" og mellomrom.

Settet med tegn som utgjør teksten kalles alfabetet, og tallet deres kalles kardinalitet (betegnet som N). For å bestemme det, brukes uttrykket N = 2^b, hvor b er antall biter eller informasjonsvekten til et bestemt symbol.

Det er bevist at et alfabet med en kapasitet på 256 tegn kan representere alle nødvendige tegn.

Siden 256 representerer den åttende potensen av to, er vekten av hvert tegn 8 bits.

En måleenhet på 8 biter kalles 1 byte, så det er vanlig å si at ethvert tegn i tekst som er lagret på en datamaskin tar opp en byte med minne.

Hvordan gjøres koding?

Eventuelle tekster legges inn i minnet på en personlig datamaskin ved hjelp av tastaturtaster hvor tall, bokstaver, skilletegn og andre symboler er skrevet. De overføres til RAM i binær kode, det vil si at hvert tegn er assosiert med en desimalkode som er kjent for mennesker, fra 0 til 255, som tilsvarer en binær kode - fra 00000000 til 11111111.

Byte-byte tegnkoding lar prosessoren som utfører tekstbehandling få tilgang til hvert tegn individuelt. Samtidig er 256 tegn ganske nok til å representere enhver symbolsk informasjon.

ASCII-tegnkoding

Denne forkortelsen på engelsk står for kode for informasjonsutveksling.

Selv i begynnelsen av databehandling ble det åpenbart at det var mulig å komme opp med en lang rekke måter å kode informasjon på. Men for å overføre informasjon fra en datamaskin til en annen, var det nødvendig å utvikle en enhetlig standard. Så i 1963 dukket ASCII-kodingstabellen opp i USA. I den er ethvert symbol i datamaskinalfabetet assosiert med serienummeret i binær representasjon. ASCII ble opprinnelig bare brukt i USA og ble senere en internasjonal standard for PC-er.

ASCII-koder er delt inn i 2 deler. Bare den første halvdelen av denne tabellen regnes som den internasjonale standarden. Den inneholder tegn med serienumre fra 0 (kodet som 00000000) til 127 (kodet 01111111).

Serienummer

ASCII-tekstkoding

Symbol

0000 0000 - 0001 1111

Tegn med N fra 0 til 31 kalles kontrolltegn. Deres funksjon er å "administrere" prosessen med å vise tekst på en skjerm eller utskriftsenhet, gi et lydsignal osv.

0010 0000 - 0111 1111

Tegn fra N fra 32 til 127 (standard del av tabellen) - store og små bokstaver i det latinske alfabetet, 10. siffer, skilletegn, samt ulike parenteser, kommersielle og andre symboler. Tegnet 32 ​​representerer et mellomrom.

1000 0000 - 1111 1111

Tegn med N fra 128 til 255 (alternativ del av tabellen eller kodesiden) kan ha forskjellige varianter, som hver har sitt eget nummer. Kodetabellen brukes til å spesifisere nasjonale alfabeter som er forskjellige fra latin. Spesielt er det med dens hjelp at ASCII-koding for russiske tegn utføres.

I tabellen er kodingene skrevet med store bokstaver og følger hverandre i alfabetisk rekkefølge, og tallene er i stigende rekkefølge. Dette prinsippet forblir det samme for det russiske alfabetet.

Kontrollkarakterer

ASCII-kodingstabellen ble opprinnelig laget for å motta og overføre informasjon via en enhet som ikke har vært brukt på lenge, for eksempel en teletype. I denne forbindelse ble ikke-utskrivbare tegn inkludert i tegnsettet, brukt som kommandoer for å kontrollere denne enheten. Lignende kommandoer ble brukt i slike meldingsmetoder før datamaskinen som morsekode, etc.

Det vanligste teletype-tegnet er NUL (00). Det brukes fortsatt i dag i de fleste programmeringsspråk for å indikere slutten av en linje.

Hvor brukes ASCII-koding?

Den amerikanske standardkoden er ikke bare nødvendig for å legge inn tekstinformasjon på tastaturet. Det brukes også i grafikk. Spesielt i ASCII Art Maker representerer bildene av de forskjellige utvidelsene et spekter av ASCII-tegn.

Det er to typer slike produkter: de som utfører funksjonen til grafiske redaktører ved å konvertere bilder til tekst og de som konverterer "tegninger" til ASCII-grafikk. For eksempel er det berømte uttrykksikonet et godt eksempel på et kodingssymbol.

ASCII kan også brukes når du oppretter et HTML-dokument. I dette tilfellet kan du skrive inn et bestemt sett med tegn, og når du ser på siden, vil et symbol som tilsvarer denne koden vises på skjermen.

ASCII er også nødvendig for å lage flerspråklige nettsteder, siden tegn som ikke er inkludert i en spesifikk nasjonal tabell erstattes med ASCII-koder.

Noen funksjoner

ASCII ble opprinnelig brukt til å kode tekstinformasjon med 7 bits (en ble stående tom), men i dag fungerer den som 8 bits.

Bokstavene i kolonnene over og under skiller seg fra hverandre i bare en enkelt bit. Dette reduserer tilsynets kompleksitet betydelig.

Bruker ASCII i Microsoft Office

Om nødvendig kan denne typen tekstinformasjonskoding brukes i Microsofts tekstredigerere som Notisblokk og Office Word. Det kan imidlertid hende du ikke kan bruke enkelte funksjoner når du skriver i dette tilfellet. For eksempel vil du ikke kunne bruke fet tekst fordi ASCII-koding bare bevarer betydningen av informasjonen, og ignorerer dens generelle utseende og form.

Standardisering

ISO-organisasjonen har tatt i bruk standardene ISO 8859. Denne gruppen definerer åtte-bits kodinger for forskjellige språkgrupper. Nærmere bestemt er ISO 8859-1 en utvidet ASCII-tabell for USA og vesteuropeiske land. Og ISO 8859-5 er en tabell som brukes for det kyrilliske alfabetet, inkludert det russiske språket.

Av en rekke historiske årsaker ble ISO 8859-5-standarden brukt i svært kort tid.

For det russiske språket brukes faktisk følgende kodinger for øyeblikket:

  • CP866 (kode side 866) eller DOS, som ofte kalles alternativ GOST-koding. Den ble aktivt brukt til midten av 90-tallet av forrige århundre. For øyeblikket brukes den praktisk talt ikke.
  • KOI-8. Kodingen ble utviklet på 1970- og 80-tallet, og er for tiden den generelt aksepterte standarden for e-postmeldinger på RuNet. Det er mye brukt i Unix-operativsystemer, inkludert Linux. Den "russiske" versjonen av KOI-8 kalles KOI-8R. I tillegg finnes det versjoner for andre kyrilliske språk, for eksempel ukrainsk.
  • Kode Side 1251 (CP 1251, Windows - 1251). Utviklet av Microsoft for å gi støtte for det russiske språket i Windows-miljøet.

Hovedfordelen med den første CP866-standarden var bevaringen av pseudografiske tegn i samme posisjoner som i Extended ASCII. Dette gjorde det mulig å kjøre utenlandskproduserte tekstprogrammer, som den berømte Norton Commander, uten modifikasjoner. For tiden brukes CP866 for programmer utviklet for Windows som kjører i fullskjermstekstmodus eller i tekstvinduer, inkludert FAR Manager.

Datamaskintekster skrevet med CP866-koding er ganske sjeldne i disse dager, men det er den som brukes til russiske filnavn i Windows.

"Unicode"

For øyeblikket er denne kodingen den mest brukte. Unicode-koder er delt inn i områder. Den første (U+0000 til U+007F) inkluderer ASCII-tegn med koder. Deretter følger tegnområdene til ulike nasjonale skrifter, samt skilletegn og tekniske symboler. I tillegg er enkelte Unicode-koder reservert i tilfelle det er behov for å inkludere nye tegn i fremtiden.

Nå vet du at i ASCII er hvert tegn representert som en kombinasjon av 8 nuller og enere. For ikke-spesialister kan denne informasjonen virke unødvendig og uinteressant, men vil du ikke vite hva som skjer "i hjernen" på PC-en din?!

Hver datamaskin har sitt eget sett med tegn som den implementerer. Dette settet inneholder 26 store og små bokstaver, tall og spesialtegn (prikk, mellomrom osv.). Når de konverteres til heltall, kalles symboler koder. Standarder ble utviklet slik at datamaskiner skulle ha samme sett med koder.

ASCII-standard

ASCII (American Standard Code for Information Interchange) er en amerikansk standardkode for informasjonsutveksling. Hvert ASCII-tegn har 7 biter, så maksimalt antall tegn er 128 (tabell 1). Kodene 0 til 1F er kontrolltegn som ikke skrives ut. Mange ikke-utskrivbare ASCII-tegn er nødvendig for å overføre data. For eksempel kan en melding bestå av start-på-overskrift-tegnet SOH, selve overskriften og start-på-tekst-tegnet STX, selve teksten og slutt-på-tekst-tegnet ETX, og slutten av overføringen tegn EOT. Data over nettverket overføres imidlertid i pakker, som selv er ansvarlige for begynnelsen og slutten av overføringen. Så ikke-utskrivbare tegn brukes nesten aldri.

Tabell 1 - ASCII-kodetabell

Antall Team Betydning Antall Team Betydning
0 NUL Null-peker 10 DLE Utgang fra overføringssystemet
1 SOH starten på tittelen 11 DC1 Enhetsadministrasjon
2 STX Begynnelsen av tekst 12 DC2 Enhetsadministrasjon
3 ETX Slutt på tekst 13 DC3 Enhetsadministrasjon
4 EOT Slutt på overføring 14 DC4 Enhetsadministrasjon
5 ACK Be om 15 N.A.K. Ikke-bekreftelse på mottak
6 BEL Akseptbekreftelse 16 SYN Enkel
7 B.S. Klokkesymbol 17 ETB Slutt på overføringsblokk
8 HT Gå tilbake 18 KAN merke
9 LF Horisontal tabulering 19 E.M. Slutt på media
EN VT Linjeoversettelse 1A UNDER Subscript
B FF Vertikal fane 1B ESC Exit
C CR Sideoversettelse 1C FS Filseparator
D Vognretur 1D G.S. Gruppeskiller
E S.I. Bytt til tilleggsregister 1E R.S. Rekordskiller
S.I. Bytt til standard koffert 1F OSS Modulseparator
Antall Symbol Antall Symbol Antall Symbol Antall Symbol Antall Symbol Antall Symbol
20 rom 30 0 40 @ 50 P 60 . 70 s
21 ! 31 1 41 EN 51 Q 61 en 71 q
22 32 2 42 B 52 R 62 b 72 r
23 # 33 3 43 C 53 S 63 c 73 s
24 φ 34 4 44 D 54 T 64 d 74 t
25 % 35 5 45 E 55 OG 65 e 75 Og
26 & 36 6 46 F 56 V 66 f 76 v
27 37 7 47 G 57 W 67 g 77 w
28 ( 38 8 48 H 58 X 68 h 78 x
29 ) 39 9 49 Jeg 59 Y 69 Jeg 70 y
2A 3A ; 4A J 5A Z 6A j 7A z
2B + 3B ; 4B K 5B [ 6B k 7B {
2C 3C < 4C L 5C \ 6C l 7C |
2D 3D = 4D M 5D ] 6D m 7D }
2E 3E > 4E N 5E 6E n 7E ~
2F / 3F g 4F O 5F _ 6F o 7F DEL

Unicode-standard

Den forrige kodingen er fin for engelsk, men den er ikke praktisk for andre språk. For eksempel har tysk omlyd, og fransk har hevet skrift. Noen språk har helt andre alfabeter. Det første forsøket på å utvide ASCII var IS646, som utvidet den forrige kodingen med ytterligere 128 tegn. Latinske bokstaver med streker og diakritiske tegn ble lagt til, og fikk navnet - Latin 1. Neste forsøk var IS 8859 - som inneholdt en kodeside. Det var også forsøk på utvidelser, men dette var ikke universelt. UNICODE-koding ble opprettet (er 10646). Ideen bak kodingen er å tildele hvert tegn en enkelt konstant 16-bits verdi, som kalles - kodepeker. Totalt er det 65536 pekere. For å spare plass brukte vi Latin-1 for kodene 0 -255, og endret enkelt ASII til UNICODE. Denne standarden løste mange problemer, men ikke alle. På grunn av ankomsten av nye ord, for eksempel for det japanske språket, er det nødvendig å øke antall termer med omtrent 20 tusen. Det er også nødvendig å inkludere blindeskrift.

Unicode (Unicode på engelsk) er en standard for tegnkoding. Enkelt sagt er dette en korrespondansetabell mellom teksttegn ( , bokstaver, tegnsettingselementer) binære koder. Datamaskinen forstår bare rekkefølgen av nuller og enere. Slik at den vet nøyaktig hva den skal vise på skjermen, er det nødvendig å tildele hvert tegn sitt eget unike nummer. På åttitallet ble tegn kodet i én byte, det vil si åtte biter (hver bit er 0 eller 1). Dermed viste det seg at en tabell (aka koding eller sett) bare kan romme 256 tegn. Dette er kanskje ikke nok selv for ett språk. Derfor dukket det opp mange forskjellige kodinger, som ofte førte til at det dukket opp noe merkelig sludder på skjermen i stedet for lesbar tekst. En enkelt standard var nødvendig, som er hva Unicode ble. Den mest brukte kodingen er UTF-8 (Unicode Transformation Format), som bruker 1 til 4 byte for å representere et tegn.

Symboler

Tegn i Unicode-tabeller er nummerert med heksadesimale tall. For eksempel er den kyrilliske store bokstaven M betegnet U+041C. Dette betyr at den står i skjæringspunktet mellom rad 041 og kolonne C. Du kan ganske enkelt kopiere den og deretter lime den inn et sted. For ikke å rote gjennom en flerkilometerliste bør du bruke søket. Når du går til symbolsiden, vil du se Unicode-nummeret og hvordan det er skrevet i forskjellige fonter. Du kan skrive inn selve skiltet i søkefeltet, selv om en firkant er tegnet i stedet, i det minste for å finne ut hva det var. På dette nettstedet er det også spesielle (og tilfeldige) sett med samme type ikoner, samlet fra forskjellige seksjoner, for enkel bruk.

Unicode-standarden er internasjonal. Det inkluderer karakterer fra nesten alle manus i verden. Inkludert de som ikke lenger brukes. Egyptiske hieroglyfer, germanske runer, Maya-skrift, kileskrift og alfabeter fra gamle stater. Betegnelser på vekt og mål, noteskrift og matematiske begreper presenteres også.

Unicode-konsortiet selv finner ikke opp nye karakterer. De ikonene som finner sin bruk i samfunnet blir lagt til tabellene. For eksempel ble rubeltegnet aktivt brukt i seks år før det ble lagt til Unicode. Emoji-piktogrammer (uttrykksikoner) ble også først mye brukt i Japan før de ble inkludert i kodingen. Men varemerker og firmalogoer legges i prinsippet ikke til. Selv slike vanlige som Apple-eplet eller Windows-flagget. Til dags dato er omtrent 120 tusen tegn kodet i versjon 8.0.

Tegnoverlegg

BS-tegnet (backspace) lar skriveren skrive ut ett tegn oppå et annet. ASCII sørget for å legge til diakritiske tegn på bokstaver på denne måten, for eksempel:

  • a BS "→ á
  • a BS ` → à
  • a BS ^ → â
  • o BS / → ø
  • c BS , → ç
  • n BS ~ → с

Merk: i gamle skrifttyper ble apostrof " trukket skrått til venstre, og tilde ~ ble forskjøvet opp, så de passet akkurat til rollen som en akutt og en tilde på toppen.

Hvis det samme tegnet er lagt over et tegn, er resultatet en fet skrifteffekt, og hvis en understreking er lagt over et tegn, er resultatet understreket tekst.

  • a BS a → en
  • aBS_→ en

Merk: Dette brukes for eksempel i mannehjelpssystemet.

Nasjonale ASCII-varianter

ISO 646 (ECMA-6) standarden gir mulighet for å plassere nasjonale symboler på plass @ [ \ ] ^ ` { | } ~ . I tillegg til dette, på stedet # kan legges ut £ , og på plass $ - ¤ . Dette systemet er godt egnet for europeiske språk der det bare trengs noen få ekstra tegn. Versjonen av ASCII uten nasjonale tegn kalles US-ASCII, eller "International Reference Version".

Deretter viste det seg å være mer praktisk å bruke 8-bits kodinger (kodesider), der den nedre halvdelen av kodetabellen (0-127) er okkupert av US-ASCII-tegn, og den øvre halvdelen (128-255) av tilleggstegn, inkludert et sett med nasjonale tegn. Dermed ble den øvre halvdelen av ASCII-tabellen, før den utbredte adopsjonen av Unicode, aktivt brukt til å representere lokaliserte tegn, bokstaver på det lokale språket. Mangelen på en enhetlig standard for plassering av kyrilliske tegn i ASCII-tabellen forårsaket mange problemer med koding (KOI-8, Windows-1251 og andre). Andre språk med ikke-latinske skript led også av å ha flere forskjellige kodinger.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .EN .B .C .D .E .F
0. NUL SOM EOA EOM EQT W.R.U. RU KLOKKE BKSP HT LF VT FF CR S.I.
1. DC 0 DC 1 DC 2 DC 3 DC 4 FEIL SYNC L.E.M. S 0 S 1 S 2 S 3 S 4 S 5 S 6 S 7
2.
3.
4. BLANK ! " # $ % & " ( ) * + , - . /
5. 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
6.
7.
8.
9.
EN. @ EN B C D E F G H Jeg J K L M N O
B. P Q R S T U V W X Y Z [ \ ]
C.
D.
E. en b c d e f g h Jeg j k l m n o
F. s q r s t u v w x y z ESC DEL

På de datamaskinene der den minste adresserbare minneenheten var et 36-bits ord, ble det opprinnelig brukt 6-bits tegn (1 ord = 6 tegn). Etter overgangen til ASCII begynte slike datamaskiner å inneholde enten 5 syv-biters tegn (1 bit forble ekstra) eller 4 ni-bits tegn i ett ord.

ASCII-koder brukes også til å bestemme hvilken tast som trykkes under programmering. For et standard QWERTY-tastatur ser kodetabellen slik ut: