Информационный вес одного символа. Урок информатики и ИКТ "Измерение информации

Современные компьютерные технологии, информатика, мощность алфавита, системы исчисления и многие другие понятия имеют самые непосредственные связи между собой. Очень немногие пользователи сегодня достаточно хорошо разбираются в этих вопросах. Попробуем прояснить, что такое мощность алфавита, как ее вычислять и применять на практике. В дальнейшем это, вне всякого сомнения, может пригодиться на практике.

Как измеряется информация

Прежде чем приступить к изучению вопроса о том, какова мощность алфавита, и вообще, что это такое, следует начать, так сказать, с азов.

Наверняка всем известно, что сегодня существуют специальные системы измерения каких-либо величин, на основе эталонных значений. Например, для расстояний и аналогичных величин это метры, для массы и веса – килограммы, для временных промежутков – секунды и т.д.

Но как же измерить информацию в смысле объема текста? Именно для этого и было введено понятие мощности алфавита.

Что такое мощность алфавита: начальное понятие

Итак, если следовать общепринятому правилу, что конечное значение какой-либо величины представляет собой параметр, определяющий, какое количество раз эталонная единица уложена в измеряемой величине, можно сделать вывод: мощность алфавита есть полное количество символов, использующихся для того или иного языка.

Чтобы было понятнее, оставим пока вопрос о том, как находить мощность алфавита, в стороне, и обратим внимание на сами символы, естественно, с точки зрения информационных технологий. Грубо говоря, полный список используемых символов содержит литеры, цифры, всевозможные скобки, специальные символы, знаки препинания, и т.д. Однако, если подходить к вопросу о том, что такое мощность алфавита именно компьютерным способом, сюда следует включить еще и пробел (единичный разрыв между словами или другими символами).

Возьмем в качестве примера русский язык, вернее, клавиатурную раскладку. Исходя из вышесказанного, полный перечень содержит 33 литеры, 10 цифр и 11 специальных знаков. Таким образом, полная мощность алфавита равна 54.

Информационный вес символов

Однако общее понятие мощности алфавита не определяет сущности вычислений информационных объемов текста, содержащего литеры, цифры и символы. Здесь требуется особый подход.

В принципе, задумайтесь, ну вот каким может быть минимальный набор с точки зрения компьютерной системы, сколько символов он может содержать? Ответ: два. И вот почему. Дело в том, что каждый символ, будь то буква или цифра, имеет свой информационный вес, по которому машина и распознает, что именно перед ней. Но компьютер понимает лишь представление в виде единиц и нулей, на чем, собственно, и основана вся информатика.

Таким образом, любой символ можно представить в виде последовательностей, содержащих цифры 1 и 0, то есть, минимальная последовательность, обозначающая букву, цифру или символ, состоит из двух компонентов.

Сам же информационный вес, принятый за стандартную информационную единицу измерения, называется битом (1 бит). Соответственно, 8 бит составляют 1 байт.

Представление символов в двоичном коде

Итак, что такое мощность алфавита, думается, уже немного понятно. Теперь посмотрим на другой аспект, в частности, практическое представление мощности с использованием двоичного кода. В качестве примера для простоты возьмем алфавит, содержащий всего 4 символа.

В двузначном двоичном коде последовательность и их информационное представление можно описать следующим образом:

Порядковый номер

Двоичный код

Отсюда – простейший вывод: при мощности алфавита N=4 вес единичного символа составляет 2 бита.

Если использовать трехзначный двоичный код для алфавита, например, с 8 символами, количество комбинаций будет следующим:

Порядковый номер

Двоичный код

Иными словами, при мощности алфавита N=8 вес одного символа для трехзначного двоичного кода будет равен 3 битам.

Как находить мощность алфавита и использовать ее в компьютерном выражении

Теперь попробуем посмотреть на зависимость, которую выражает количество знаков в коде и мощность алфавита. Формула, где N – алфавитная мощность алфавита, а b – количество знаков в двоичном коде, будет выглядеть так:

То есть, 2 1 =2, 2 2 =4, 2 3 =8, 2 4 =16 и т.д. Грубо говоря, искомое количество знаков самого двоичного кода и есть вес символа. В информационном выражении это выглядит так:

Измерение информационного объема

Однако это были всего лишь простейшие примеры, так сказать, для начального понимания того, что такое мощность алфавита. Перейдем непосредственно к практике.

На данном этапе развития компьютерной техники для набора текста с учетом заглавных, прописных и строчных букв, кириллических и латинских литер, знаков препинания, скобок, знаков арифметических действий и т.д. используется 256 символов. Исходя из того, что 256 это 2 8 , нетрудно догадаться, что вес каждого символа в таком алфавите равен 8, то есть, 8 битам или 1 байту.

Если исходить из всех известных параметров, можно с легкостью получить нужное нам значение информационного объема любого текста. Например, у нас есть компьютерный текст, содержащий 30 страниц. На одной странице располагается 50 строк по 60 любых знаков или символов, включая и пробелы.

Таким образом, одна страница будет содержать 50 х 60= 3 000 байт информации, а весь текст – 3000 х 50=150000 байт. Как видим даже небольшие тексты измерять в байтах неудобно. А что говорить о целых библиотеках?

В данном случае лучше переводить объем в более мощные величины – килобайты, мегабайты, гигабайты и т.д. Исходя из того, что, например, 1 килобайт равен 1024 байта (2 10), а мегабайт – 2 10 килобайт (1024 килобайта), нетрудно посчитать, что объем текста в информационно-математическом выражении для нашего примера составит 150000/1024=146,484375 килобайт или приблизительно 0,14305 мегабайт.

Вместо послеловия

В общем и целом, это вкратце и все, что касается рассмотрения вопроса, что такое мощность алфавита. Остается добавить, что в данном описании был использован чисто математический подход. Само собой разумеется, что смысловая нагрузка текста в данном случае не учитывается.

Но, если подходить к вопросам рассмотрения именно с позиции, которая дает человеку что-то для осмысления, набор бессмысленного сочетания или последовательностей символов в этом плане будет иметь нулевую информационную нагрузку, хотя, с точки зрения понятия информационного объема, результат все равно можно вычислить.

В целом же, знания о мощности алфавита и сопутствующих понятиях не так уж и сложны для понимания и элементарно могут применяться в смысле практических действий. При этом любой пользователь практически каждый день сталкивается с этим. Достаточно привести в пример популярный редактор Word или любой другой такого же уровня, в котором используется такая система. Но не путайте его с обычным «Блокнотом». Здесь мощность алфавита ниже, поскольку при наборе текста не используются, скажем, прописные буквы.

Информационный объем текста и единицы измерения информации


Современный компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео информацию. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется всего два символа 0 и 1. Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).

Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц - машинным языком.

Какой длины должен быть двоичный код, чтобы с его помощью можно было закодировать васе символы клавиатуры компьютера?

Таким образом, информационный вес одного символа достаточного алфавита равен 1 байту .

Для измерения больших информационных объемов используются более крупные единицы измерения информации:

Единицы измерения количества информации:

1 байт = 8 бит

1 килобайт = 1 Кб = 1024 байта

1 мегабайт = 1 Мб = 1024 Кб

1 гигабайт = 1 Гб = 1024 Гб

Информационный объем текста

1. Количество символов в книге:

60 * 40 * 150 = 360 000 символов.

2. Т.к. 1 символ весит 1 байт, информационный объем книги равен

360 000 байтов.

3. Переведем байты в более крупные единицы:

360 000 / 1024 = 351,56 Кб

351,56 / 1024 = 0,34 Мб

Ответ: Информационный объем текста 0,34 Мб.

Задача:

Информационный объем текста, подготовленного с помощью компьютера, равен 3,5 Кб. Сколько символов содержит этот текст?

1. Переведем объем из Мб в байты:

3,5 Мб * 1024 = 3584 Кб

3584 Кб * 1024 = 3 670 016 байт

2. Т.к. 1 символ весит 1 байт, количество символов в тексте равно

Современные компьютерные технологии, информатика, мощность алфавита, системы исчисления и многие другие понятия имеют самые непосредственные связи между собой. Очень немногие пользователи сегодня достаточно хорошо разбираются в этих вопросах. Попробуем прояснить, что такое мощность алфавита, как ее вычислять и применять на практике. В дальнейшем это, вне всякого сомнения, может пригодиться на практике.

Как измеряется информация

Прежде чем приступить к изучению вопроса о том, какова мощность алфавита, и вообще, что это такое, следует начать, так сказать, с азов.

Наверняка всем известно, что сегодня существуют специальные системы измерения каких-либо величин, на основе эталонных значений. Например, для расстояний и аналогичных величин это метры, для массы и веса - килограммы, для временных промежутков - секунды и т.д.

Что такое мощность алфавита: начальное понятие

Итак, если следовать общепринятому правилу, что конечное значение какой-либо величины представляет собой параметр, определяющий, какое количество раз эталонная единица уложена в измеряемой величине, можно сделать вывод: мощность алфавита есть полное количество символов, использующихся для того или иного языка.

Чтобы было понятнее, оставим пока вопрос о том, как находить мощность алфавита, в стороне, и обратим внимание на сами символы, естественно, с точки зрения информационных технологий. Грубо говоря, полный список используемых символов содержит литеры, цифры, всевозможные скобки, специальные символы, знаки препинания, и т.д. Однако, если подходить к вопросу о том, что такое мощность алфавита именно компьютерным способом, сюда следует включить еще и пробел (единичный разрыв между словами или другими символами).

Возьмем в качестве примера русский язык, вернее, клавиатурную раскладку. Исходя из вышесказанного, полный перечень содержит 33 литеры, 10 цифр и 11 специальных знаков. Таким образом, полная мощность алфавита равна 54.

Информационный вес символов

Однако общее понятие мощности алфавита не определяет сущности вычислений информационных объемов текста, содержащего литеры, цифры и символы. Здесь требуется особый подход.

В принципе, задумайтесь, ну вот каким может быть минимальный набор с точки зрения компьютерной системы, сколько символов он может содержать? Ответ: два. И вот почему. Дело в том, что каждый символ, будь то буква или цифра, имеет свой информационный вес, по которому машина и распознает, что именно перед ней. Но компьютер понимает лишь представление в виде единиц и нулей, на чем, собственно, и основана вся информатика.

Таким образом, любой символ можно представить в виде последовательностей, содержащих цифры 1 и 0, то есть, минимальная последовательность, обозначающая букву, цифру или символ, состоит из двух компонентов.

Сам же информационный вес, принятый за стандартную информационную единицу измерения, называется битом (1 бит). Соответственно, 8 бит составляют 1 байт.

Представление символов в двоичном коде

Итак, что такое мощность алфавита, думается, уже немного понятно. Теперь посмотрим на другой аспект, в частности, практическое представление мощности с использованием двоичного кода. В качестве примера для простоты возьмем алфавит, содержащий всего 4 символа.

В двузначном двоичном коде последовательность и их информационное представление можно описать следующим образом:

Порядковый номер

Двоичный код

Отсюда - простейший вывод: при мощности алфавита N=4 вес единичного символа составляет 2 бита.

Если использовать трехзначный двоичный код для алфавита, например, с 8 символами, количество комбинаций будет следующим:

Порядковый номер

Двоичный код

Иными словами, при мощности алфавита N=8 вес одного символа для трехзначного двоичного кода будет равен 3 битам.

Как находить мощность алфавита и использовать ее в компьютерном выражении

Теперь попробуем посмотреть на зависимость, которую выражает количество знаков в коде и мощность алфавита. Формула, где N - алфавитная мощность алфавита, а b - количество знаков в двоичном коде, будет выглядеть так:

То есть, 2 1 =2, 2 2 =4, 2 3 =8, 2 4 =16 и т.д. Грубо говоря, искомое количество знаков самого двоичного кода и есть вес символа. В информационном выражении это выглядит так:

Измерение информационного объема

Однако это были всего лишь простейшие примеры, так сказать, для начального понимания того, что такое мощность алфавита. Перейдем непосредственно к практике.

На данном этапе развития компьютерной техники для набора текста с учетом заглавных, прописных и строчных букв, кириллических и латинских литер, знаков препинания, скобок, знаков арифметических действий и т.д. используется 256 символов. Исходя из того, что 256 это 2 8 , нетрудно догадаться, что вес каждого символа в таком алфавите равен 8, то есть, 8 битам или 1 байту.

Если исходить из всех известных параметров, можно с легкостью получить нужное нам значение информационного объема любого текста. Например, у нас есть компьютерный текст, содержащий 30 страниц. На одной странице располагается 50 строк по 60 любых знаков или символов, включая и пробелы.

Таким образом, одна страница будет содержать 50 х 60= 3 000 байт информации, а весь текст - 3000 х 50=150000 байт. Как видим даже небольшие тексты измерять в байтах неудобно. А что говорить о целых библиотеках?

В данном случае лучше переводить объем в более мощные величины - килобайты, мегабайты, гигабайты и т.д. Исходя из того, что, например, 1 килобайт равен 1024 байта (2 10), а мегабайт - 2 10 килобайт (1024 килобайта), нетрудно посчитать, что объем текста в информационно-математическом выражении для нашего примера составит 150000/1024=146,484375 килобайт или приблизительно 0,14305 мегабайт.

Вместо послеловия

В общем и целом, это вкратце и все, что касается рассмотрения вопроса, что такое мощность алфавита. Остается добавить, что в данном описании был использован чисто математический подход. Само собой разумеется, что смысловая нагрузка текста в данном случае не учитывается.

Но, если подходить к вопросам рассмотрения именно с позиции, которая дает человеку что-то для осмысления, набор бессмысленного сочетания или последовательностей символов в этом плане будет иметь нулевую информационную нагрузку, хотя, с точки зрения понятия информационного объема, результат все равно можно вычислить.

В целом же, знания о мощности алфавита и сопутствующих понятиях не так уж и сложны для понимания и элементарно могут применяться в смысле практических действий. При этом любой пользователь практически каждый день сталкивается с этим. Достаточно привести в пример популярный редактор Word или любой другой такого же уровня, в котором используется такая система. Но не путайте его с обычным «Блокнотом». Здесь мощность алфавита ниже, поскольку при наборе текста не используются, скажем, прописные буквы.

Измерение информации.

Алфавитный подход к измерению информации.

Одно и то же сообщение может нести много информации для одного человека и не нести её совсем для другого человека. При таком подходе количество информации определить однозначно затруднительно.

Алфавитный подход позволяет измерить информационный объём сообщения, представленного на некотором языке (естественном или формальном), независимо от его содержания.

Для количественного выражения любой величины необходима, прежде всего, единица измерения. Измерение осуществляется путём сопоставления измеряемой величины с единицей измерения. Сколько раз единица измерения «укладывается» в измеряемой величине, таков и результат измерения.

При алфавитном подходе считается, что каждый символ некоторого сообщения имеет определённый информационный вес - несёт фиксированное количество информации . Все символы одного алфавита имеют один и тот же вес, зависящий от мощности алфавита. Информационный вес символа двоичного алфавита принят за минимальную единицу измерения информации и называется 1 бит.

Обратите внимание, что название единицы измерения информации «бит» (bit) происходит от английского словосочетания binary digit - «двоичная цифра».

За минимальную единицу измерения информации принят 1 бит. Считается, что таков информационный вес символа двоичного алфавита.

1.6.2. Информационный вес символа произвольного алфавита

Ранее мы выяснили, что алфавит любого естественного или формального языка можно заменить двоичным алфавитом. При этом мощность исходного алфавита N связана с разрядностью двоичного кода i, требуемой для кодирования всех символов исходного алфавита, соотношением: N = 2 i.

Информационный вес символа алфавита i и мощность алфавита N связаны между собой соотношением: N = 2 i.

Задача 1. Алфавит племени Пульти содержит 8 символов. Каков информационный вес символа этого алфавита?

Решение. Составим краткую запись условия задачи.

Известно соотношение, связывающее величины i и N: N = 2 i.

С учётом исходных данных: 8 = 2 i. Отсюда: i = 3.

Полная запись решения в тетради может выглядеть так:

Ответ: 3 бита.

1.6.3. Информационный объём сообщения

Информационный объём сообщения (количество информации в сообщении), представленного символами естественного или формального языка, складывается из информационных весов составляющих его символов.

Информационный объём сообщения I равен произведению количества символов в сообщении К на информационный вес символа алфавита i: I = K * i.

Задача 2 . Сообщение, записанное буквами 32-символьного алфавита, содержит 140 символов. Какое количество информации оно несёт?

Задача 3. Информационное сообщение объёмом 720 битов состоит из 180 символов. Какова мощность алфавита, с помощью которого записано это сообщение?

1.6.4. Единицы измерения информации

В наше время подготовка текстов в основном осуществляется с помощью компьютеров. Можно говорить о «компьютерном алфавите», включающем следующие символы: строчные и прописные русские и латинские буквы, цифры, знаки препинания, знаки арифметических операций, скобки и др. Такой алфавит содержит 256 символов. Поскольку 256 = 28, информационный вес каждого символа этого алфавита равен 8 битам. Величина, равная восьми битам, называется байтом. 1 байт - информационный вес символа алфавита мощностью 256.

1 байт = 8 битов

Бит и байт - «мелкие» единицы измерения. На практике для измерения информационных объёмов используются более крупные единицы:

1 килобайт = 1 Кб = 1024 байта = 210 байтов

1 мегабайт = 1 Мб = 1024 Кб = 210 Кб = 220 байтов

1 гигабайт = 1 Гб = 1024 Мб = 210 Мб = 220 Кб = 230 байтов

1 терабайт = 1 Тб = 1024 Гб = 210 Гб = 220 Мб = 230 Кб = 240 байтов

Задача 4. Информационное сообщение объёмом 4 Кбайта состоит из 4096 символов. Каков информационный вес символа используемого алфавита? Сколько символов содержит алфавит, с помощью которого записано это сообщение?

Задача 5 . В велокроссе участвуют 128 спортсменов. Специальное устройство регистрирует прохождение каждым из участников промежуточного финиша, записывая его номер цепочкой из нулей и единиц минимальной длины, одинаковой для каждого спортсмена. Каков будет информационный объём сообщения, записанного устройством после того, как промежуточный финиш пройдут 80 велосипедистов?

Решение. Номера 128 участников кодируются с помощью двоичного алфавита. Требуемая разрядность двоичного кода (длина цепочки) равна 7, так как 128 = 27. Иначе говоря, зафиксированное устройством сообщение о том, что промежуточный финиш прошёл один велосипедист, несёт 7 битов информации. Когда промежуточный финиш пройдут 80 спортсменов, устройство запишет 80 7 = 560 битов, или 70 байтов информации.