Кодирование и измерение информации

Кодирование информации. Единицы измерения информации

Количество информации, которое можно получить при ответе на вопрос типа “да/нет” (включено/выключено, true/false, 0/1), если эти состояния равновероятны, называется “бит” (англ. bit – binary digit – двоичное число).

Лампочка горит? (да/нет) – 1 бит информации (при равных вероятностях).

В системе из 2-х лампочек 2 бита информации.

Если есть 3 бита — то из них можно составить один из восьми вариантов: 000, 001, 010, 100, 110, 101, 011,111

4 бита- 16 вариантов, 5 бит- 32 варианта, 6 бит- 64 варианта, 7 бит- 128 вариантов, 8 бит- 256 вариантов,

N бит — 2 в степени N вариантов.

Группа из 8 бит называется байтом (byte – binary term – двоичный элемент)

На основании 1 байта можно получить 256 различных комбинаций.

Производные единицы измерения информации.

1 Kb (килобайт) = 210 b = 1024 b (тысяча байт)

1 Mb (мегабайт) = 220b = 1024 Kb (миллион байт)

1 Gb (гигабайт) = 230b = 1024 Mb (миллиард байт)

1 Tb (терабайт) = 240b = 1024 Gb (триллион байт)

1 Pb (петабайт) = 250b = 1024 Tb (квадриллион байт)

1 Eb (эксабайт) = 260b = 1024 Pb (квинтиллион байт)

1 Zb (зеттабайт) = 270b = 1024 Eb (секстиллион байт)

1 Yb (йоттабайт) = 280b = 1024 Zb (септиллион байт)

Кодирование — преобразование информации из одной знаковой системы в другую.

В компьютере для представления информации используется двоичное кодирование (0 и 1), т.к. такую информацию легко технически смоделировать:

· в какой-то момент времени по проводнику идет ток, то по нему передается единица, если тока нет- ноль.

· если направление магнитного поля на каком-то участке поверхности магнитного диска одно- на этом участке записан ноль, другое- единица.

· если определенный участок поверхности оптического диска отражает лазерный луч- на нем записан ноль, не отражает- единица.

Кодирование текстовой информации.

Начиная с 60-х годов, компьютеры все больше стали использовать для обработки текстовой информации и в настоящее время большая часть ПК в мире занято обработкой именно текстовой информации.

Традиционно для кодирования одного символа используется количество информации = 1 байту (1 байт = 8 битов).

Учитывая, что каждый бит принимает значение 1 или 0, получаем, что с помощью 1 байта можно закодировать 256 различных символов. (28= 256)

Кодирование заключается в том, что каждому символу ставиться в соответствие уникальный двоичный код от 00000000 до 11111111 (или десятичный код от 0 до 255).

Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется кодовой таблицей.

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера (коды), называется таблицей кодировки.

Для разных типов ЭВМ используются различные кодировки. С распространением IBM PC международным стандартом стала таблица кодировки ASCII (American Standard Code for Information Interchange) — Американский стандартный код для информационного обмена.

Стандартной в этой таблице является только первая половина, т.е. символы с номерами от 0 (00000000) до 127 (0111111). Сюда входят буква латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы.

Остальные 128 кодов используются в разных вариантах. В русских кодировках размещаются символы русского алфавита.

В настоящее время существует 5 разных кодовых таблиц для русских букв (КОИ8, СР1251, СР866, Mac, ISO).

В настоящее время получил широкое распространение новый международный стандарт Unicode, который отводит на каждый символ два байта. С его помощью можно закодировать 65536 (216= 65536 ) различных символов.

Сегодня очень многие люди для подготовки писем, документов, статей, книг и пр. используют компьютерные текстовые редакторы. Компьютерные редакторы, в основном, работают с алфавитом размером 256 символов.

В этом случае легко подсчитать объем информации в тексте. Если 1 символ алфавита несет 1 байт информации, то надо просто сосчитать количество символов; полученное число даст информационный объем текста в байтах.

Пусть небольшая книжка, сделанная с помощью компьютера, содержит 150 страниц; на каждой странице — 40 строк, в каждой строке — 60 символов. Значит страница содержит 40×60=2400 байт информации. Объем всей информации в книге: 2400 х 150 = 360 000 байт.

1 Кб соответствует примерно половине страницы текста.

1 Мб соответствует примерно 500 страницам текста

1 Гб соответствует примерно 2 комплектам энциклопедии

1 Тб соответствует примерно 2000 комплектам энциклопедии.

Кодирование графической информации.

В человеческом глазе присутствуют два вида рецепторов: палочки и колбочки. Палочки реагируют на оттенки серого, а колбочки воспринимают спектр цветов. Существует три типа колбочек: первые реагируют на красно-оранжевый цвет, вторые — на зеленый, а третьи — на сине-фиолетовый.

Любой цвет, видимый человеческим глазом, можно получить путем механического смешивания основных цветов. В качестве таких составляющих используют три основные цвета: красный (Red, R), зеленый (Green, G) и синий (Blue, B). Такая система кодирования называется системой RGB.

Создавать и хранить графические объекты в компьютере можно в виде – растрового изображения и векторного изображения.

Растровое изображение формируется из определенного количеств строк, каждая из которых содержит определенное количество точек (пикселов).

Для черно-белого изображения информационный объем одной точки равен одному биту (либо черная (0), либо белая (1)).

Для четырехцветного – 2 бита.

Цветные изображения могут иметь различную глубину цвета (бит на точку).

Изображение Основа кодирования Глубина цвета Кол-во цветов
В оттенках серого 256 градаций серого (от черного до белого) 8 бит
Цветное излучающее RGB (Red, Green, Blue) 24 бит 16 777 216 (True Color)

Векторное изображение рассматривается как графический объект, представляющий собой совокупность графических примитивов (точек, линий, прямоугольников, окружностей и т.д.) и описывающих их математических формул.

Положение и форма графического объекта задается в системе графических координат, связанных с экраном. Обычно начало координат расположено в верхнем левом углу экрана. Информация о векторном изображении кодируется как обычная буквенно-цифровая. По этим данным соответствующие программы построят нужную фигуру на экране дисплея.

Кодирование звуковой информации.

Использование компьютера для обработки звука началось позднее, нежели чисел, текстов и графики.

Звук — волна с непрерывно изменяющейся амплитудой и частотой. Чем больше амплитуда, тем он громче для человека, чем больше частота, тем выше тон.

Цифровой звук – это аналоговый звуковой сигнал, представленный посредством дискретных численных значений его амплитуды.

В процессе кодирования звукового сигнала производится его временная дискретизация — непрерывная волна разбивается на отдельные маленькие временные участки и для каждого такого участка устанавливается определенная величина амплитуды.

Таким образом, непрерывная зависимость амплитуды сигнала от времени заменяется на дискретную последовательность уровней громкости (см. рисунок).

Каждому уровню громкости присваивается его код. Чем большее количество уровней громкости будет выделено в процессе кодирования, тем большее количество информации будет нести значение каждого уровня и тем более качественным будет звучание.

Оцифровка звука(оцифровки звука или аналогово-цифровое преобразование) — технология преобразования аналогового звукового сигнала в цифровой вид, которая осуществляется путем замеров амплитуды сигнала с определенным временным шагом (частота дискретизации) и последующей записи полученных значений в численном виде.

Качество двоичного кодирования звука определяется глубиной кодирования и частотой дискретизации.

Частота дискретизации — количество измерений уровня сигнала в единицу времени.

Количество уровней громкости определяет глубину кодирования. Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. При этом количество уровней громкости равно N =216 = 65536.

Основные характеристики, влияющие на качество звука:

1. Разрядность -размерность (количество) бит информации кодируемое/декодируемое при при кодировании/декодировании

2. Частота дискретизации (англ. sample rate) — частота взятия отсчетов непрерывного во времени сигнала при его дискретизации, измеряется в Герцах.

3. Шум -нежелательные фазовые и/или частотные случайные отклонения передаваемого сигнала

4. Передискритизация -изменение частоты дискретизации дискретного (чаще всего цифрового) сигнала.

Основные форматы:

1. OGG -универсальный формат аудио компрессии.

2. MP3 -третий слой формата кодирования звуковой дорожки MPEG, лицензируемый формат файла для хранения аудиоинформации

3. WAV -формат файла-контейнера для хранения записи оцифрованного аудиопотока.

4. WMA -лицензируемый формат файла, разработанный компанией Microsoft для хранения и трансляции аудиоинформации.

Представление видеоинформации

В последнее время компьютер все чаще используется для работы с видеоинформацией. Простейшей такой работой является просмотр кинофильмов и видеоклипов. Следует четко представлять, что обработка видеоинформации требует очень высокого быстродействия компьютерной системы.

Что представляет собой фильм с точки зрения информатики? Прежде всего, это сочетание звуковой и графической информации. Кроме того, для создания на экране эффекта движения используется дискретная по своей сути технология быстрой смены статических картинок. Исследования показали, что если за одну секунду сменяется более 10-12 кадров, то человеческий глаз воспринимает изменения на них как непрерывные.

Казалось бы, если проблемы кодирования статической графики и звука решены, то сохранить видеоизображение уже не составит труда. Но это только на первый взгляд, поскольку, при использовании традиционных методов сохранения информации электронная версия фильма получится слишком большой. Достаточно очевидное усовершенствование состоит в том, чтобы первый кадр запомнить целиком (в литературе его принято называть ключевым), а в следующих сохранять лишь отличия от начального кадра (разностные кадры).

Мультимедийная информация –это совокупность визуальных и аудиоэффектов под управлением интерактивного программного обеспечения с использованием современных технических и программных средств, они объединяют: текст, звук, графику, фото, видео в одном цифровом представлении.

Далее рассмотрим наиболее известные форматы видеофайлов.

AVI (Audio-Video Interleaved) — один из самых распространенных медиаконтейнеров для операционных система Windows. Этот формат может содержать в себе информацию четырех типов: видео, аудио, текст и midi. В этот контейнер может входить видео различных форматов от MPEG-1 до MPEG-4. AVI имеет большое количество разновидностей по внутренней структуре и может воспроизводиться на смартфонах, коммуникаторах и других устройствах. Медиаконтейнер AVI не накладывает никаких ограничений на тип используемого кодека.

WMV (Windows Media Video) — цифровой видео формат, созданный и контролируемый компанией Microsoft. WMV файлы могут содержать аудио- и видео данные, упакованные с помощью кодеков Windows Media Audio (WMA) и Windows Media Video (WMV).

MOV — этот формат разработан компанией Apple для QuickTime медиа плеера. Для воспроизведения подобных файлов необходимо иметь QuickTime плеер или плееры с уже установленными кодеками MOV. Формат может содержать видео, анимацию, графику, 3D. Данный формат поддерживает любые аудио- и видеокодеки.

ASF (Advanced Streaming Format) — потоковый формат от Microsoft. Основан на MPEG-4 и сипользуется для передачи видео с низким и средним битрейтом в Интернет. ASF представляет собой мультимедиа контейнер, поддерживающий практически все видеокодеки.

MPEG (Moving Pictures Experts Group) — видеофайлы, в которых содержится видео, закодированное с помощью стандартов Mpeg1, Mpeg2, Mpeg3, Mpeg4. Технология MPEG использует поточное сжатие видео, при котором обрабатывается не каждый кадр по отдельности, а анализируются изменения видеофрагментов и удаляется избыточная информация. MPEG-1 — представляет собой формат для хранения аудио и видео данных на мультимедиа носителях. Формат MPEG-4 обычно используется для обмена и передачи видео-файлов в Интернете, видеотелефонии, электронных информационных изданиях и т.п. В этом формате используется раздельное сжатие для аудио и видео дорожек. MPEG-4 рассчитан на очень низкие потоки данных.

2. Кодирование и измерение информации.

Понимая информацию как один из основных стратегических ресурсов общества, необходимо уметь его оценивать как с качественной, так и с количественной стороны. На этом пути существуют большие проблемы из-за нематериальной природы этого ресурса и субъективности восприятия конкретной информации различными индивидуумами человеческого общества.

Определить понятие “количество информации” довольно сложно. В решении этой проблемы существуют два основных подхода. В конце 40-х годов XX века один из основателей кибернетики, американский математик Клод Шенон, предложил вероятностный подход к измерению количества информации.

Сообщение, уменьшающее неопределенность знаний человека в два раза, несет для него 1 единицу информации. В качестве элементарной единицы измерения количества информации принят 1 бит.

Пусть в некотором сообщении содержатся сведения о том, что произошло одно из N равновероятных событий. Тогда количество информации, заключенное в этом сообщении, — х бит и число N связаны формулой Хартли: x=log2N.

Например, сообщение о результате бросания монеты (количество равновероятных исходов равно 2) содержит х=1 бит информации (2х = 2). Пусть в барабане для розыгрыша лотереи содержится 32 шара. Определим сколько информации содержит сообщение о первом выпавшем номере ? Поскольку появление любого из 32 шаров равновероятно, то 2х = 32 и х=5 бит. Рассмотрим еще один пример. При бросании игральной кости используют кубик с шестью гранями. Сколько бит информации получает каждый игрок при бросании кубика ? Так как выпадение каждой грани равновероятно, то 2х = 6, откуда х=log26  2,585 бит.

Рассмотрим алфавитный подход к измерению информации. Обычно информация хранится, передается, обрабатывается в символьной (знаковой) форме. Такой подход позволяет определить количество информации в тексте и является объективным, т.е. не зависит от субъекта (человека), воспринимающего текст.

Одна и та же информация может быть представлена в разной форме, с помощью различных знаковых систем. Язык – это определенная знаковая система представления информации. Существуют естественные (разговорные) языки и формальные языки (нотная грамота, язык математики, язык мимики и жестов, дорожные знаки и т.д.).

Конечный упорядоченный набор знаков, используемых для передачи информации, называется алфавитом. Последовательность символов алфавита — словом. Сообщение, как правило, представляет собой последовательность слов. Довольно часто передаваемая информация кодируется. Кодирование информации – переход от одной формы представления информации к другой, более удобной для хранения, обработки или передачи.

Способ кодирования зависит от цели, ради которой оно осуществляется: сокращение записи, засекречивание (шифровка) информации, удобство обра-ботки и т.д.

Правило отображения одного алфавита на другой называется кодом, а сама процедура — перекодировкой сообщения. Например, при передаче сообщения по телеграфному каналу используется азбука Морзе. При этом каждой букве алфавита ставится в соответствие определённая последовательность точек и тире (А    ; Я      и т.д.).

В технических устройствах хранения, передачи и обработки информации для её кодирования часто используют алфавиты, содержащие лишь два различных символа. Наличие всего двух символов значительно упрощает электрические схемы с электронными переключателями, которые принимают только два состояния — они либо проводят ток, либо нет. Алфавит из двух символов 1 и 0 называют двоичным и говорят о двоичном представлении информации (кодировании информации в двоичном коде). При таком представлении буквы, цифры и любые другие символы изображаются двоичными словами — последовательностями из нулей и единиц.

Как известно, в качестве единицы измерения количества информации принят 1 бит (англ. bit — binary, digit — двоичная цифра). Бит — один символ двоичного алфавита: 0 или 1. Наряду с битом получила распространение укрупнённая единица — байт, равный 8 битам. Из битов складывается все многообразие данных, которые обрабатывает компьютер. Комбинируя восемь нулей и единиц различными способами, можно получить 256 различных комбинаций. Этого количества достаточно, чтобы каждому символу поставить в соответствие свою неповторимую комбинацию из восьми нулей и единиц. Эти комбинации определяются кодовой таблицей ASCII (American Standart Code for Information Interchange — американский стандартный код для обмена информацией).

Одним байтом кодируется любой печатный знак (буква, цифра, любой другой символ). Например, число 7 выражается байтом 00000111; буква L 01001100; знак «плюс» имеет двоичный код 00101011. Байт — один символ, который представляет комбинацию из 8 бит.

Порядковый номер символа в таблице ASCII называют десятичным кодом этого символа. Чтобы его определить необходимо сложить номер строки с номером столбца, которые соответствуют выбранному символу.

Например, десятичный код цифры 7 равен 55 (7+48), а символа % — 37 (5+32). Таким образом, каждый символ имеет десятичный и двоичный код. Первые 32 символа являются управляющими и предназначены, в основном, для передачи различных команд.

В кодовой таблице ASCII первые 128 символов (с номерами от 0 до 127) являются стандартными: буквы латинского алфавита, цифры, знаки препинания и другие (специальные) символы. Остальные (128 кодов) используются для кодировки букв национальных алфавитов.

Буквы располагаются в алфавитном порядке, а цифры по возрастанию значений. Например, буква i имеет десятичный код 105. Что зашифровано последовательностью десятичных кодов: 108 105 110 107 ? Для расшифровки не нужно обращаться к таблице, вспомним лишь порядок букв латинского алфавита: …i j k l m n o …(соответственно, коды этих букв будут от 105 до 111). Поэтому это будет слово «link».

Заметим, что между десятичным кодом строчной буквы латинского алфавита и соответствующей кодом заглавной буквы разница равна 32. Если букве «c» соответствует десятичный код 99, то код буквы «C» будет 67=99-32.

В битах формально можно измерить любую информацию, которая содержится, например, на экране монитора или на странице книги. Естественно, что при этом совершенно не учитываются смысловое содержание информации. Например, в слове «информатика» 11 букв, а значит 11 байт.

Широко используются более крупные единицы информации:

  • 1 Килобайт (Кбайт) = 1024 байт = 210 байт,

  • 1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,

  • 1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.

Средний персональный компьютер хранит в себе десятки Гигабайт информации. Одна дискета может хранить 1,44 Мбайта, CD диск имеет ёмкость около 700 Мбайт.

При двоичном кодировании для характеристики скорости передачи информации используется единица скорости телеграфирования 1 бод = 1бит/c. Названа в честь французского изобретателя кодировки символов для телетайпов Эмиля Бодо. Используются более крупные единицы:

  • Килобит в секунду, кбит/с – единица измерения скорости передачи информации, равная 1000 бит в секунду;

  • Мегабит в секунду, 1 Мбит/с = 106 = 1000000 (миллион) бит информации, переданные от источника к получателю за одну секунду.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *