Прочетете ASCII изходния формат на данните за мащаба. ASCII кодиране (американски стандартен код за обмен на информация) - основно кодиране на текст за латинската азбука

За да използвате правилно ASCII, е необходимо да разширите познанията си в тази област и относно възможностите за кодиране.

Какво е?

ASCII е таблица за кодиране на печатни знаци (вижте екранна снимка № 1), въведени на компютърна клавиатура за предаване на информация и някои кодове. С други думи, азбуката и десетичните цифри са кодирани в съответните символи, които представляват и носят необходимата информация.

ASCII е разработен в Америка, така че стандартният набор от символи обикновено включва английската азбука с цифри, за общо около 128 знака. Но тогава възниква справедлив въпрос: какво да направите, ако се изисква кодиране на националната азбука?

Други версии на ASCII таблицата са разработени за справяне с подобни проблеми. Например, за езици с чужда структура, буквите от английската азбука бяха или премахнати, или към тях бяха добавени допълнителни знаци под формата на национална азбука. По този начин ASCII кодирането може да съдържа руски букви за национална употреба (вижте екранна снимка № 2).

Къде се използва системата за кодиране ASCII?

Тази система за кодиране е необходима не само за въвеждане на текстова информация на клавиатурата. Използва се и в графиката. Например в програмата ASCII Art Maker графичните изображения на различни разширения се състоят от набор от ASCII знаци (вижте екранна снимка № 3).


По правило такива програми могат да бъдат разделени на такива, които изпълняват функцията на графични редактори, обръщайки изображение в текст, и тези, които преобразуват изображение в ASCII графика. Добре познатият емотикон (или както още го наричат ​​„ усмихнато човешко лице") също е пример за кодиращ знак.

Този метод на кодиране може да се използва и при писане или създаване на HTML документ. Например, въвеждате конкретен и необходим набор от знаци и когато разглеждате самата страница, символът, съответстващ на този код, ще се покаже на екрана.

Освен всичко друго, този тип кодиране е необходимо при създаване на многоезичен уебсайт, тъй като знаците, които не са включени в една или друга национална таблица, ще трябва да бъдат заменени с ASCII кодове. Ако читателят е пряко свързан с информационните и комуникационни технологии (ИКТ), тогава ще бъде полезно за него да се запознае с такива системи като:

  1. Преносим набор от знаци;
  2. Контролни знаци;
  3. EBCDIC;
  4. VISCII;
  5. YUSCII;
  6. Unicode;
  7. ASCII изкуство;
  8. KOI-8.

Свойства на ASCII таблица

Като всяка систематична програма, ASCII има свои собствени характерни свойства. Така например десетичната бройна система (цифри от 0 до 9) се преобразува в двоична бройна система (т.е. всяка десетична цифра се преобразува съответно в двоична 288 = 1001000).

Буквите, разположени в горната и долната колона, се различават една от друга само с малко, което значително намалява нивото на сложност на проверката и редактирането на случая.

С всички тези свойства ASCII кодирането работи като осем-битово, въпреки че първоначално е предвидено да бъде седем-битово.

Използване на ASCII в програми на Microsoft Office:

Ако е необходимо, тази опция за кодиране на информация може да се използва в Microsoft Notepad и Microsoft Office Word. В рамките на тези приложения документът може да бъде записан във формат ASCII, но в този случай няма да можете да използвате някои функции, когато пишете текст.

По-специално удебеляването и удебеляването няма да са налични, тъй като кодирането запазва само значението на въведената информация, а не общия вид и форма. Можете да добавите такива кодове към документ, като използвате следните софтуерни приложения:

  • Microsoft Excel;
  • Microsoft FrontPage;
  • Microsoft InfoPath;
  • Microsoft OneNote;
  • Microsoft Outlook;
  • Microsoft PowerPoint;
  • Microsoft Project.

Струва си да се има предвид, че когато въвеждате ASCII код в тези приложения, трябва да задържите клавиша ALT.

Разбира се, всички необходими кодове изискват по-дълго и по-подробно проучване, но това е извън обхвата на днешната ни статия. Надявам се, че сте го намерили наистина полезно.

Ще се видим отново!

Добър Лош

Според Международния съюз по телекомуникации през 2016 г. три и половина милиарда души са използвали интернет с известна редовност. Повечето от тях дори не се замислят за факта, че всички съобщения, които изпращат чрез компютър или мобилни джаджи, както и текстове, които се показват на всякакви монитори, всъщност са комбинации от 0 и 1. Това представяне на информация се нарича кодиране . Осигурява и значително улеснява нейното съхранение, обработка и предаване. През 1963 г. е разработено американското ASCII кодиране, което е предмет на тази статия.

Представяне на информация на компютър

От гледна точка на всеки електронен компютър, текстът е набор от отделни знаци. Те включват не само букви, включително главни, но и препинателни знаци и цифри. Освен това се използват специални знаци „=“, „&“, „(“ и интервали.

Наборът от знаци, съставляващи текста, се нарича азбука, а техният брой се нарича кардиналност (обозначава се с N). За определянето му се използва изразът N = 2^b, където b е броят на битовете или информационното тегло на определен символ.

Доказано е, че една азбука с капацитет от 256 знака може да представи всички необходими знаци.

Тъй като 256 представлява 8-ма степен на две, теглото на всеки знак е 8 бита.

Единицата за измерване от 8 бита се нарича 1 байт, така че е обичайно да се казва, че всеки знак в текста, съхраняван на компютър, заема един байт памет.

Как се извършва кодирането?

Всички текстове се въвеждат в паметта на персонален компютър с помощта на клавиши на клавиатурата, на които са написани цифри, букви, препинателни знаци и други символи. Те се прехвърлят в RAM в двоичен код, т.е. всеки символ е свързан с познат на хората десетичен код от 0 до 255, което съответства на двоичен код - от 00000000 до 11111111.

Байт-байт кодирането на знаци позволява на процесора, извършващ обработка на текст, да има достъп до всеки знак поотделно. В същото време 256 знака са напълно достатъчни, за да представят всяка символна информация.

ASCII кодиране на знаци

Това съкращение на английски означава код за обмен на информация.

Дори в зората на компютъризацията стана очевидно, че е възможно да се измисли голямо разнообразие от начини за кодиране на информация. Въпреки това, за да се прехвърли информация от един компютър на друг, беше необходимо да се разработи единен стандарт. И така, през 1963 г. в САЩ се появи таблицата за кодиране на ASCII. В него всеки символ от компютърната азбука е свързан със своя сериен номер в двоично представяне. Първоначално ASCII се използваше само в Съединените щати и по-късно стана международен стандарт за компютри.

ASCII кодовете са разделени на 2 части. Само първата половина на тази таблица се счита за международен стандарт. Включва символи със серийни номера от 0 (кодирани като 00000000) до 127 (кодирани като 01111111).

Сериен номер

ASCII кодиране на текст

Символ

0000 0000 - 0001 1111

Символи с N от 0 до 31 се наричат ​​контролни знаци. Тяхната функция е да „управляват“ процеса на показване на текст на монитор или печатащо устройство, подаване на звуков сигнал и др.

0010 0000 - 0111 1111

Знаци от N от 32 до 127 (стандартна част от таблицата) - главни и малки букви от латинската азбука, десети цифри, препинателни знаци, както и различни скоби, търговски и други символи. Символът 32 представлява интервал.

1000 0000 - 1111 1111

Знаците с N от 128 до 255 (алтернативна част от таблицата или кодовата страница) могат да имат различни варианти, всеки от които има свой номер. Кодовата страница се използва за указване на национални азбуки, които са различни от латиница. По-специално, с негова помощ се извършва ASCII кодиране за руски знаци.

В таблицата кодировките са с главни букви и следват едно след друго по азбучен ред, а числата са във възходящ ред. Този принцип остава същият за руската азбука.

Контролни знаци

ASCII таблицата за кодиране първоначално е създадена за получаване и предаване на информация чрез устройство, което не е използвано дълго време, като например телетайп. В тази връзка непечатаемите знаци бяха включени в набора от знаци, използвани като команди за управление на това устройство. Подобни команди са били използвани в такива предкомпютърни методи за изпращане на съобщения като Морзов код и др.

Най-често срещаният знак за телетайп е NUL (00). Той все още се използва днес в повечето езици за програмиране, за да посочи края на ред.

Къде се използва ASCII кодиране?

Американският стандартен код е необходим не само за въвеждане на текстова информация на клавиатурата. Използва се и в графиката. По-специално, в ASCII Art Maker, изображенията на различните разширения представляват спектър от ASCII знаци.

Има два вида такива продукти: тези, които изпълняват функцията на графични редактори, като преобразуват изображения в текст, и тези, които преобразуват „чертежи“ в ASCII графики. Например, известният емотикон е отличен пример за кодиращ символ.

ASCII може да се използва и при създаване на HTML документ. В този случай можете да въведете определен набор от знаци и когато преглеждате страницата, на екрана ще се появи символ, който съответства на този код.

ASCII е необходим и за създаване на многоезични уебсайтове, тъй като знаците, които не са включени в конкретна национална таблица, се заменят с ASCII кодове.

Някои функции

ASCII първоначално е бил използван за кодиране на текстова информация с помощта на 7 бита (единият е оставен празен), но днес работи като 8 бита.

Буквите, разположени в колоните, разположени отгоре и отдолу, се различават една от друга само с един бит. Това значително намалява сложността на одита.

Използване на ASCII в Microsoft Office

Ако е необходимо, този тип кодиране на текстова информация може да се използва в текстови редактори на Microsoft като Notepad и Office Word. Възможно е обаче да не можете да използвате някои функции, когато пишете в този случай. Например, няма да можете да използвате удебелен текст, тъй като ASCII кодирането запазва само значението на информацията, игнорирайки нейния общ вид и форма.

Стандартизация

Организацията ISO е приела стандарти ISO 8859. Тази група дефинира осембитови кодировки за различни езикови групи. По-конкретно, ISO 8859-1 е разширена ASCII таблица за Съединените щати и страните от Западна Европа. И ISO 8859-5 е таблица, използвана за кирилицата, включително руския език.

Поради редица исторически причини стандартът ISO 8859-5 се използва за много кратко време.

За руския език в момента се използват следните кодировки:

  • CP866 (Кодова страница 866) или DOS,което често се нарича алтернативно GOST кодиране. Използва се активно до средата на 90-те години на миналия век. В момента практически не се използва.
  • KOI-8.Кодирането е разработено през 70-те и 80-те години на миналия век и в момента е общоприет стандарт за имейл съобщения в RuNet. Той се използва широко в операционни системи Unix, включително Linux. „Руската“ версия на KOI-8 се нарича KOI-8R. Освен това има версии за други кирилски езици, като украински.
  • Кодова страница 1251 (CP 1251, Windows - 1251).Разработено от Microsoft за осигуряване на поддръжка на руски език в средата на Windows.

Основното предимство на първия стандарт CP866 беше запазването на псевдографски символи в същите позиции като в Extended ASCII. Това направи възможно стартирането на чуждестранни текстови програми, като известния Norton Commander, без модификации. В момента CP866 се използва за програми, разработени за Windows, които работят в текстов режим на цял екран или в текстови прозорци, включително FAR Manager.

Компютърните текстове, написани с кодиране CP866, са доста редки в наши дни, но това е този, който се използва за руски имена на файлове в Windows.

"Уникод"

В момента това кодиране е най-широко използваното. Unicode кодовете са разделени на области. Първият (U+0000 до U+007F) включва ASCII символи с кодове. Това е последвано от областите със знаци на различни национални писмености, както и препинателни знаци и технически символи. Освен това някои Unicode кодове са запазени, в случай че има нужда от включване на нови знаци в бъдеще.

Сега знаете, че в ASCII всеки знак е представен като комбинация от 8 нули и единици. За неспециалистите тази информация може да изглежда ненужна и безинтересна, но не искате ли да знаете какво се случва „в мозъците“ на вашия компютър?!

Всеки компютър има свой собствен набор от символи, които прилага. Този комплект съдържа 26 главни и малки букви, цифри и специални знаци (точка, интервал и др.). Когато се преобразуват в цели числа, символите се наричат ​​кодове. Стандартите са разработени така, че компютрите да имат еднакви набори от кодове.

ASCII стандарт

ASCII (Американски стандартен код за обмен на информация) е американски стандартен код за обмен на информация. Всеки ASCII знак има 7 бита, така че максималният брой знаци е 128 (Таблица 1). Кодовете от 0 до 1F са контролни знаци, които не се отпечатват. Много непечатаеми ASCII символи са необходими за предаване на данни. Например едно съобщение може да се състои от знака за начало на заглавката SOH, самото заглавие и знака за начало на текста STX, самия текст и знака за край на текста ETX и края на предаването характер EOT. Данните по мрежата обаче се предават в пакети, които сами са отговорни за началото и края на предаването. Така че непечатаемите знаци почти никога не се използват.

Таблица 1 - ASCII кодова таблица

Номер Екип Значение Номер Екип Значение
0 NUL Нулев указател 10 DLE Изход от преносната система
1 SOH начало на заглавието 11 DC1 Управление на устройството
2 STX Начало на текст 12 DC2 Управление на устройството
3 ETX Край на текста 13 DC3 Управление на устройството
4 EOT Край на предаването 14 DC4 Управление на устройството
5 ACK Заявка 15 Н.А.К. Непотвърждение за приемане
6 БЕЛ Потвърждение за приемане 16 SYN просто
7 Б.С. Камбана символ 17 ETB Край на предавателния блок
8 HT Крачка назад 18 МОЖЕ Марк
9 LF Хоризонтална табулация 19 Е.М. Край на медиите
А VT Подаване на ред ПОДП Долен индекс
б FF Вертикален раздел ESC Изход
В CR Превод на страница 1C FS Файлов разделител
г ТАКА Връщане на каретка 1D Г.С. Групов разделител
д С.И. Преминете към допълнителен регистър 1E Р.С. Разделител на записи
С.И. Преминете към стандартен случай 1F САЩ Разделител на модули
Номер Символ Номер Символ Номер Символ Номер Символ Номер Символ Номер Символ
20 пространство 30 0 40 @ 50 П 60 . 70 стр
21 ! 31 1 41 А 51 Q 61 а 71 р
22 32 2 42 б 52 Р 62 b 72 r
23 # 33 3 43 В 53 С 63 c 73 s
24 φ 34 4 44 г 54 Т 64 d 74 t
25 % 35 5 45 д 55 И 65 д 75 И
26 & 36 6 46 Е 56 V 66 f 76 v
27 37 7 47 Ж 57 У 67 ж 77 w
28 ( 38 8 48 з 58 X 68 ч 78 х
29 ) 39 9 49 аз 59 Y 69 аз 70 г
; Дж З й z
2B + 3B ; 4B К 5B [ 6B к 7B {
2C 3C < 4C Л 5C \ 6C л 7C |
2D 3D = 4D М 5D ] 6D м 7D }
2E 3E > 4E Н 5E 6E п 7E ~
2F / 3F ж 4F О 5F _ 6F о 7F DEL

Unicode стандарт

Предишното кодиране е добро за английски, но не е удобно за други езици. Например немският има умлаути, а френският има горни индекси. Някои езици имат напълно различни азбуки. Първият опит за разширяване на ASCII беше IS646, който разшири предишното кодиране с допълнителни 128 знака. Добавени са латински букви с удари и диакритични знаци и е получило името - Latin 1. Следващият опит е IS 8859 - който съдържа кодова страница. Имаше и опити за разширения, но това не беше универсално. Създадено е UNICODE кодиране (е 10646). Идеята зад кодирането е да се присвои една постоянна 16-битова стойност на всеки символ, който се нарича - кодов указател. Общо има 65536 указателя. За да спестим място, използвахме Latin-1 за кодове 0 -255, лесно променяйки ASII на UNICODE. Този стандарт реши много проблеми, но не всички. Поради пристигането на нови думи, например, за японския език е необходимо да се увеличи броят на термините с около 20 хиляди. Необходимо е също така да се включи брайлово писмо.

Unicode (Unicode на английски) е стандарт за кодиране на знаци. Казано по-просто, това е таблица на съответствие между текстови знаци ( , букви, пунктуационни елементи) двоични кодове. Компютърът разбира само последователността от нули и единици. За да знае какво точно трябва да покаже на екрана, е необходимо да присвоите на всеки символ свой уникален номер. През осемдесетте години знаците бяха кодирани в един байт, тоест осем бита (всеки бит е 0 или 1). По този начин се оказа, че една таблица (известна още като кодиране или набор) може да побере само 256 знака. Това може да не е достатъчно дори за един език. Поради това се появиха много различни кодировки, объркването с които често водеше до появата на странни безсмислици на екрана вместо четим текст. Необходим беше единен стандарт, което стана Unicode. Най-използваното кодиране е UTF-8 (Unicode Transformation Format), което използва от 1 до 4 байта за представяне на знак.

Символи

Знаците в Unicode таблиците са номерирани с шестнадесетични числа. Например кирилската главна буква М е обозначена с U+041C. Това означава, че стои в пресечната точка на ред 041 и колона C. Можете просто да го копирате и след това да го поставите някъде. За да не се ровите в многокилометров списък, трябва да използвате търсенето. Когато отидете на страницата със символи, ще видите неговия Unicode номер и начина, по който е написан с различни шрифтове. Можете да въведете самия знак в лентата за търсене, дори ако вместо него е нарисуван квадрат, поне за да разберете какво е било. Освен това на този сайт има специални (и произволни) набори от един и същи тип икони, събрани от различни раздели, за по-лесно използване.

Стандартът Unicode е международен. Включва герои от почти всички сценарии по света. Включително и тези, които вече не се използват. Египетски йероглифи, германски руни, писане на маите, клинопис и азбуки на древните държави. Представени са също обозначения на мерки и теглилки, музикални ноти и математически концепции.

Самият Unicode Consortium не измисля нови знаци. Тези икони, които намират своето приложение в обществото, се добавят към таблиците. Например знакът за рубла се използва активно шест години, преди да бъде добавен към Unicode. Емоджи пиктограмите (емотикони) също са били широко използвани за първи път в Япония, преди да бъдат включени в кодирането. Но по принцип не се добавят търговски марки и фирмени лога. Дори такива често срещани като ябълката на Apple или флага на Windows. Към днешна дата във версия 8.0 са кодирани около 120 хиляди знака.

Наслагване на знаци

Символът BS (backspace) позволява на принтера да отпечата един знак върху друг. ASCII се предоставя за добавяне на диакритични знаци към буквите по този начин, например:

  • a BS "→ á
  • a BS ` → à
  • a BS ^ → â
  • o BS / → ø
  • c BS , → ç
  • n BS ~ → с

Забележка: в старите шрифтове апострофът " беше начертан наклонен наляво, а тилдата ~ беше изместена нагоре, така че те просто отговарят на ролята на акут и тилда отгоре.

Ако същият знак е насложен върху знак, резултатът е ефект на удебелен шрифт, а ако върху знак е насложено подчертаване, резултатът е подчертан текст.

  • a BS a → а
  • aBS_→ а

Забележка: Това се използва, например, в системата за помощ на човека.

Национални ASCII варианти

Стандартът ISO 646 (ECMA-6) предвижда възможност за поставяне на национални символи на място @ [ \ ] ^ ` { | } ~ . В допълнение към това, на място # могат да бъдат публикувани £ , и на място $ - ¤ . Тази система е много подходяща за европейски езици, където са необходими само няколко допълнителни знака. Версията на ASCII без национални символи се нарича US-ASCII или „Международна референтна версия“.

Впоследствие се оказа по-удобно да се използват 8-битови кодировки (кодови страници), където долната половина на кодовата таблица (0-127) е заета от символи US-ASCII, а горната половина (128-255) чрез допълнителни знаци, включително набор от национални знаци. По този начин горната половина на ASCII таблицата, преди широкото приемане на Unicode, се използва активно за представяне на локализирани знаци, букви от местния език. Липсата на унифициран стандарт за поставяне на кирилски символи в ASCII таблицата предизвика много проблеми с кодировките (KOI-8, Windows-1251 и други). Други езици с нелатинични скриптове също страдат от наличието на няколко различни кодировки.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .C .D .E .F
0. NUL SOM EOA EOM EQT W.R.U. RU ЗВЪНЧЕ БКСП HT LF VT FF CR ТАКА С.И.
1. DC 0 DC 1 DC 2 DC 3 DC 4 ГРЕШКА СИНХРОНИЗИРАНЕ L.E.M. S 0 S 1 S 2 S 3 S 4 S 5 S 6 S 7
2.
3.
4. ПРАЗНО ! " # $ % & " ( ) * + , - . /
5. 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
6.
7.
8.
9.
А. @ А б В г д Е Ж з аз Дж К Л М Н О
б. П Q Р С Т U V У X Y З [ \ ]
В.
г.
д. а b c d д f ж ч аз й к л м п о
Е. стр р r s t u v w х г z ESC DEL

На тези компютри, където минималната адресируема единица памет е 36-битова дума, първоначално са използвани 6-битови символи (1 дума = 6 знака). След прехода към ASCII такива компютри започнаха да съдържат или 5 седембитови знака (1 бит остана допълнителен), или 4 деветбитови знака в една дума.

ASCII кодовете също се използват за определяне кой клавиш е натиснат по време на програмиране. За стандартна QWERTY клавиатура кодовата таблица изглежда така: