Домой / Ноутбук / Кодирование информации (4) - Реферат. Решение заданий A6, A7, A8, A9, A10, A11 Вся другая информация звуки изображения

Кодирование информации (4) - Реферат. Решение заданий A6, A7, A8, A9, A10, A11 Вся другая информация звуки изображения

Кодирование ― процесс представления информации в виде кода, т.е. набора условных обозначений для представления информации.
Человек выражает свои мысли в виде предложений, составленных из слов. Они являются алфавитным представлением информации. Основу любого языка составляет алфавит - конечный набор различных знаков (символов) любой природы, из которых складывается сообщение.
Кодирование сводиться к использованию совокупности символов по строго определенным правилам и имеет два основных значения:
■ Способ изложения информации в виде, приемлемом и понимаемым объектом (например ЭВМ),
■ Способ защиты информации от нежелаемого доступа или распространения.
Возможно объединение этих функций, ввиду универсальности удобства, и/или же, ввиду естественных особенностей местоположения группы людей (язык определенного народа).

История возникновения
Согласно данным, раздобытым и приведенным Дэвидом Каном в своей книге "The Codebreackers" ("Раскодировщики"), которая была написана им еще в 1967 г., но служит и по сей день наиболее богатым источником информации по криптографии, первыми известными "шифрователями" данных на планете были египтяне, еще в 1900 г. до н. э. приступившие к исписыванию стен своих жилищ странными иероглифами. Их последователями стали месопотамцы, чьи глиняные тарелки украшали своеобразные картинки, заключающие в себе какой-то определенный смысл. Искусству их оформления они стали обучаться примерно в 1500 г. до н. э. Спустя тысячу лет жители иудейского царства изобрели для написания книг своеобразный простейший шифр, ATBASH, принцип записи которого основывался на алфавите, только в обратном порядке. На этом "языке" древние евреи писали некоторые книги. А позже ими было изобретено еще несколько способов кодирования записанной информации.
В 487 г. до н. э. греки по некоторым данным создали первое "устройство" для шифрования данных (принцип его действия до сих пор не раскрыт), представляющее из себя нечто неопределенное, на что наматывали тонкую кожаную ленту. Затем исписанную полоску материала снимали с, условно говоря, "барабана" и одевали на себя, как пояс. Предполагают, что получатель закодированного "сообщения", носил "дешифратор" все время с собой, и мог прочесть текст послания где угодно. Но подлинность именно этой истории в 1998 г. была оспорена, и теперь многие полагают, что это всего лишь миф.
Следующим поклонником зарождающейся криптографии стал Юлий Цезарь (100-44 гг. до н.э.). Примерно в пятидесятом году до нашей эры он освоил способ кодирования важных документов путем замены некоторых букв нормального алфавита и применял его для тайной правительственной переписки. Шифр Цезаря был проще ATBASH, но, принимая во внимание то, что большинство людей в то время были неграмотными и читать - то толком не умели, для передачи ценных данных пришелся в самый раз. Помимо подстановки "собственных" букв алфавита некоторые отдельные слова Цезарь писал на латинском, а некоторые - на греческом, чтобы окончательно сбить с толку любопытных злоумышленников.
Где-то в 200 г. уже н. э. по данным опять же Кана шифр применяли для записи на каком-то "Ляйденском папирусе" "волшебных" рецептов. В середине 70-х гг. в свет вышла первая книга о криптографии, написанная, судя по длине имени ее автора, арабом, воодушевленным тем решением, которое пришло ему в голову при создании системы кодирования греческих слов для византийского императора. А в 855 г. н. э. его коллега представил сразу несколько новых алфавитов, из знаков которых в последствии составляли свои записи всякие колдуны и колдуньи.
Многие послания Венецианского правительства в 1226 г. были зашифрованы довольно оригинальным образом - гласные буквы многих слов заменялись точками и крестиками. Как их получателям удавалось прочесть написанное - неясным осталось до сих пор. Но то, что речь опять идет о криптографии - очевидно.
1412-м г. датируют четырнадцати томную энциклопедию на арабском языке, один из довольно внушительных разделов которой был посвящен криптографии и криптологии. В нем приводились данные о принципе кодирования и раскодирования текстовых сообщений, а также описывались первые информационные "таблицы-ключи" с разъяснениями, как правильно трактовать написанное. Уже тогда предусматривались случаи, при которых одна и та же буква в слове употреблялась дважды и более. С целью запутывания возможного похитителя зашифрованного письма, знаки, ее заменяющие, каждый раз использовались разные.
В 18-м г. шестнадцатого столетия Йоханнес Тритемиус опубликовал первое печатное издание по криптологии. Он изобрел метод замены каждого слова одной буквой, взятой из последовательности столбцов. Кроме того, он продемонстрировал идею представления лишь одного знака вместо сразу всех букв алфавита.
В последующие годы и века криптографы разных стран совершенствовали свое мастерство, периодически удивляя окружающих новыми шифрами и способами кодирования целых сочинений. Лишь в 1917 г. произошло событие, возможно, действительно заслуживающее внимания. В Америке появился первый криптоаналитик. Им стал Вильям Фредерик Фридман, "отец американского криптоанализа". Сначала вместе с женой Фридман работал в специальной лаборатории при правительстве США, а спустя некоторое время открыл свою школу в Ривербэнке. В функции первого криптоаналитика входило изучение различных вариантов кодирования информации на предмет их взлома. Известно, что системы иногда оказывались не совершенными, и задачей Вильяма ставилось определение этих самых недостатков.
В том же 1917 г. Гилберт С. Вернам, сотрудник компании AT&T, представил первый реально действующий и максимально "безопасный" аппарат для кодирования данных. Данные ключа (таблицы последовательно записанных инструкций по расшифровке) брались произвольно и никогда более не использовались. Ключ представлял собой одноразовую кассету с пленкой. Устройство собирались использовать во времена Первой Мировой Войны, однако широкое применение "машинка" получила лишь в двадцатые годы.

Кодирование используется для представление информации в компьютере.
Компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (например, звуки, изображения, показания приборов и т.д.) для обработки на компьютере должна быть преобразована в числовую форму. Например, чтобы перевести в числовую форму музыкальный звук, можно через небольшие промежутки времени измерять интенсивность звука на определенных частотах, представляя результаты каждого измерения в числовой форме. С помощью программ для компьютера можно выполнить преобразования полученной информации, например "наложить" друг на друга звуки от разных источников. Аналогичным образом на компьютере можно обрабатывать текстовую информацию. При вводе в компьютер каждая буква кодируется определенным числом, а при выводе на внешние устройства (экран или печать) для восприятия человеком по этим числам строятся изображения букв. Соответствие между набором букв и числами называется кодировкой символов.
Как правило, все числа в компьютере представляются с помощью нулей и единиц. Т.е., компьютеры обычно работают в двоичной системе счисления, поскольку при этом устройства для их обработки получаются значительно более простыми. Ввод чисел в компьютер и вывод их для чтения человеком может осуществляться в привычной десятичной форме, а все необходимые преобразования выполняют программы, работающие на компьютере.
Системой счисления называется совокупность приемов наименования и записи чисел.
В любой системе счисления для представления чисел выбираются некоторые символы (их называют цифрами), а остальные числа получаются в результате каких-либо операций над цифрами данной системы счисления.
Арифметические действия над числами в любой позиционной системе счисления производятся по тем же правилам, что и десятичной системе, так как все они основываются на правилах выполнения действий над соответствующими многочленами. При этом нужно только пользоваться теми таблицами сложения и умножения, которые соответствуют данному основанию P системы счисления.
1. При переводе чисел из десятичной системы счисления в систему с основанием P > 1 обычно используют следующий алгоритм:
если переводится целая часть числа, то она делится на P, после чего запоминается остаток от деления. Полученное частное вновь делится на P, остаток запоминается. Процедура продолжается до тех пор, пока частное не станет равным нулю. Остатки от деления на P выписываются в порядке, обратном их получению;
если переводится дробная часть числа, то она умножается на P, после чего целая часть запоминается и отбрасывается. Вновь полученная дробная часть умножается на P и т.д. Процедура продолжается до тех пор, пока дробная часть не станет равной нулю. Целые части выписываются после двоичной запятой в порядке их получения. Результатом может быть либо конечная, либо периодическая двоичная дробь. Поэтому, когда дробь является периодической, приходится обрывать умножение на каком-либо шаге и довольствоваться приближенной записью исходного числа в системе с основанием P.
, .
2. При переводе чисел из системы счисления с основанием P в десятичную систему счисления необходимо пронумеровать разряды целой части справа налево, начиная с нулевого, и в дробной части, начиная с разряда сразу после запятой слева направо (начальный номер -1). Затем вычислить сумму произведений соответствующих значений разрядов на основание системы счисления в степени, равной номеру разряда. Это и есть представление исходного числа в десятичной системе счисления.


По мере развития техники появлялись разные способы кодирования информации. Во второй половине XIX в. американский изобретатель Сэмюэль Морзе изобрел код, применяющийся до настоящего времени. Информация кодируется тремя символами: длинный сигнал (тире), короткий сигнал (точка), нет сигнала (пауза) - для разделения букв.
В вычислительной технике существует своя система - она называется двоичным кодированием и основана на представлении данных последовательностью всего двух знаков: 0 и 1. Эти знаки называются двоичными цифрами, по-английски - binary digit или сокращенно bit (бит).
Одним битом могут быть выражены два понятия: 0 или 1 (да или нет, черное или белое, истина или ложь и т.п.). Если количество битов увеличить до двух, то уже можно выразить четыре различных понятия: 00 01 10 11. Тремя - соответственно восемь.
Увеличивая на единицу количество разрядов в системе двоичного кодирования, увеличивается в два раза количество значений, которое может быть выражено в данной системе, по формуле N=2 в степени m, где N - количество независимых кодируемых значений, m - разрядность двоичного кодирования.

Кодирование данных двоичным кодом.
Существуют два основных формата представления чисел в памяти компьютера. Один из них используется для кодирования целых чисел, второй (так называемое представление числа в формате с плавающей точкой) используется для задания некоторого подмножества действительных чисел.
Множество целых чисел, представимых в памяти ЭВМ, ограничено. Диапазон значений зависит от размера области памяти, используемой для размещения чисел. В k-разрядной ячейке может храниться 2k различных значений целых чисел.
Чтобы получить внутреннее представление целого положительного числа N, хранящегося в k-разрядном машинном слове, необходимо перевести число N в двоичную систему счисления, а полученный результат дополнить слева незначащими нулями до k разрядов.
Наример, чтобы получить внутреннее представление целого числа 1607 в 2-х байтовой ячейке,нужно перевести число в двоичную систему: 160710 = 11001000111(2). Внутреннее представление этого числа в ячейке будет следующим: 0000 0110 0100 0111.
Для записи внутреннего представления целого отрицательного числа (-N) необходимо получить внутреннее представление положительного числа N, получить обратный код этого числа заменой 0 на 1 и 1 на 0 и к полученному числу прибавить 1.
Кодирование вещественного числа по Формату с плавающей точкой использует иные алгоритмы.

Кодирование текста.
Множество символов, используемых при записи текста, называется алфавитом. Количество символов в алфавите называется его мощностью.
Для представления текстовой информации в компьютере чаще всего используется алфавит мощностью 256 символов. Один символ из такого алфавита несет 8 бит информации, т. к. 28 = 256. Двоичный код каждого символа(8 бит) занимает 1 байт памяти ЭВМ.
Все символы такого алфавита пронумерованы от 0 до 255, а каждому номеру соответствует 8-разрядный двоичный код от 00000000 до 11111111. Этот код является порядковым номером символа в двоичной системе счисления.
Для разных типов ЭВМ и операционных систем используются различные таблицы кодировки, отличающиеся порядком размещения символов алфавита в кодовой таблице. Международным стандартом на персональных компьютерах является уже упоминавшаяся таблица кодировки ASCII.
Принцип последовательного кодирования алфавита заключается в том, что в кодовой таблице ASCII латинские буквы (прописные и строчные) располагаются в алфавитном порядке. Расположение цифр также упорядочено по возрастанию значений.
Стандартными в этой таблице являются только первые 128 символов, т. е. символы с номерами от нуля (двоичный код 00000000) до 127 (01111111). Сюда входят буквы латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы. Остальные 128 кодов, начиная со 128 (двоичный код 10000000) и кончая 255 (11111111), используются для кодировки букв национальных алфавитов, символов псевдографики и научных символов.

Кодирование графической информации.
В видеопамяти находится двоичная информация об изображении, выводимом на экран. Почти все создаваемые, обрабатываемые или просматриваемые с помощью компьютера изображения можно разделить на две большие части - растровую и векторную графику.
изображения представляют собой однослойную сетку точек, называемых пикселами (pixel, от англ. picture element). Код пиксела содержит информации о его цвете. Для черно-белого изображения (без полутонов) пиксел может принимать только два значения: белый и черный (светится - не светится), а для его кодирования достаточно одного бита памяти: 1 - белый, 0 - черный.
Пиксел на цветном дисплее может иметь различную окраску, для кодирования 2 в степени n-цветного изображения требуются т бит на пиксел, поскольку они могут принимать 2 в степени n различных состояний. Если иметь возможность управлять интенсивностью (яркостью) свечения базовых цветов, то количество различных вариантов их сочетаний, порождающих разнообразные оттенки, увеличивается. Как пример, может использоваться такой вариант кодировки цветов: 00 - черный, 10 - зеленый, 01 - красный, 11 - коричневый.
На RGB-мониторах разнообразие цветов получается сочетанием базовых цветов - красного (Red), зеленого (Green), синего (Blue), из которых можно получить 8 комбинаций.
- модель. - модель.
Существуют и таблицы цветов, зависящие от количества разрядов.
Векторное изображение ― это графический объект, состоящий из элементарных отрезков и дуг. В противоположность растровой графике векторное изображение многослойно. Каждый элемент векторного изображения - линия, прямоугольник, окружность или фрагмент текста - располагается в своем собственном слое, пикселы которого устанавливаются независимо от других слоев. Каждый элемент векторного изображения является объектом, который описывается с помощью специального языка (математических уравнения линий, дуг, окружностей и т. д.). Сложные объекты (ломаные линии, различные геометрические фигуры) представляются в виде совокупности элементарных графических объектов. Объекты векторного изображения, в отличии от растровой графики, могут изменять свои размеры без потери качества (при увеличении растрового изображения увеличивается зернистость). Базовым элементом изображения является линия. Как и любой объект, она обладает свойствами: формой (прямая, кривая), толщиной., цветом, начертанием (пунктирная, сплошная). Замкнутые линии имеют свойство заполнения (или другими объектами, или выбранным цветом). Все прочие объекты векторной графики составляются из линий.
Также существует фрактальная графика, основываеющаяся на математических вычислениях, как и векторная. Но в отличии от векторной ее базовым элементом является сама математическая формула. Это приводит к тому, что в памяти компьютера не хранится никаких объектов и изображение строится только по уравнениям. При помощи этого способа можно строить простейшие регулярные структуры, а также сложные иллюстрации, которые имитируют ландшафты.

Кодирование звука.
Звук ― это колебания воздуха. Если преобразовать звук в электрический сигнал (например, с помощью микрофона), можно видеть плавно изменяющееся с течением времени напряжение. Для компьютерной обработки такой - аналоговый - сигнал преобразовывается в последовательность двоичных чисел.
Измеряется напряжение через равные промежутки времени и полученные значения записываются в память компьютера. Этот процесс называется дискретизацией (или оцифровкой), а устройство, выполняющее его - аналого-цифровым преобразователем (АЦП).
Для того чтобы воспроизвести закодированный таким образом звук, нужно выполнить обратное преобразование (для него служит цифро-аналоговый преобразователь - ЦАП), а затем сгладить получившийся ступенчатый сигнал.
Чем выше частота дискретизации (т. е. количество отсчетов за секунду) и чем больше разрядов отводится для каждого отсчета, тем точнее будет представлен звук. Но при этом увеличивается и размер звукового файла. Поэтому в зависимости от характера звука, требований, предъявляемых к его качеству и объему занимаемой памяти, выбирают некоторые компромиссные значения. Этот способ кодирования звуковой информации достаточно универсален, позволяет представить любой звук и преобразовывать его различными способами.
Человек издавна использует довольно компактный способ представления музыки - нотную запись. В ней специальными символами указывается, какой высоты звук, на каком инструменте и как сыграть. Ее можно считать алгоритмом для музыканта, записанным на особом формальном языке. В 1983 г. ведущие производители компьютеров и музыкальных синтезаторов разработали стандарт, определивший такую систему кодов. Он получил название MIDI.
Такая система кодирования не позволяет записывать все звуки, она годится только для инструментальной музыки, но имеет преимущества: чрезвычайно компактная запись, естественность для музыканта (практически любой MIDI-редактор позволяет работать с музыкой в виде обычных нот), легкость замены инструментов, изменения темпа и тональности мелодии.
Существуют и другие, чисто компьютерные, форматы записи музыки. Среди них следует отметить формат MP3, позволяющий с очень большим качеством и степенью сжатия кодировать музыку. При этом вместо 18-20 музыкальных композиций на стандартный компакт-диск (CDROM) помещается около 200. Одна песня занимает примерно 3,5 Mb, что позволяет пользователям сети Интернет легко обмениваться музыкальными композициями.

Числовая форма . Как говорилось выше, компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (звуки, изображения, показания приборов и т.д.) для обработки на компьютере должна быть преобразована в числовую форму. Скажем, чтобы перевести в цифровую форму звук, можно через небольшие промежутки времени измерять интенсивность звука, представляя результаты каждого измерения в числовой форме. С помощью программ для компьютера можно выполнить преобразования полученной информации, например «наложить» друг на друга звуки от разных источников. После этого результат можно преобразовать обратно в звуковую форму.

Кодировки символов . Для обработки на компьютере текстовой информации обычно при вводе в компьютер каждая буква кодируется определенным числом, а при выводе на внешние устройства (экран или печать) для восприятия человеком по этим числам строятся соответствующие изображения букв. Соответствие между набором букв и числами называется кодировкой символов. Наиболее часто используемые на IВМ РС кодировки символов описаны в главах 10 и 32.

Двоичная система счисления . Как правило, все числа внутри компьютера представляются с помощью нулей и единиц, а не десяти цифр, как это привычно для людей. Иными словами, компьютеры обычно работают в двоичной системе счисления, поскольку при этом их устройство получается значительно более простым. Ввод чисел в компьютер и вывод их для чтения человеком может осуществляться в привычной для людей десятичной форме - все необходимые преобразования могут выполнить программы, работающие на компьютере.

Биты и байты . Единицей информации в компьютере является одни бит, т.е. двоичный разряд, который может принимать значение 0 или 1. Как правило, команды компьютеров работают не с отдельными битами, а с восемью битами сразу. Восемь последовательных битов составляют байт. В одном байте можно закодировать значение одного символа из 256 возможных (256 = 2). Более крупными единицами информации являются килобайт (сокращенно обозначаемый Кбайт), равный 1024 байтам (1024=2), мегабайт (сокращенно обозначаемый Мбайт), равный 1024 Кбайтам и гигабайт (Гбайт), равный 1024 Мбайтам. Для ориентировки скажем, что если на странице текста помещается в среднем 2500 знаков, то 1 Мбайт- это примерно 400 страниц, а 1 Гбайт - 400 тыс. страниц.

Как работает компьютер

Еще при создании первых компьютеров в 1945 г. знаменитый математик Джон фон Нейман описал, как должен быть устроен компьютер, чтобы он был универсальным и эффективным устройством для обработки информации. Эти основы конструкции компьютера называются принципами фон Неймана. Сейчас подавляющее большинство компьютеров в основных чертах соответствует принципам фон Неймана.

Устройства компьютера . Прежде всего, компьютер, согласно принципам фон Неймана, должен иметь следующие устройства:

· арифмепгическо-логическое устройство, выполняющее арифметические и логические операции;

· устройство управления , которое организует процесс выполнения программ;

· запоминающее устройство , или память для хранения про

· грамм и данных;

· внешние устройства для ввода-вывода информации.

Память компьютера должна состоять из некоторого количества пронумерованных ячеек, в каждой из которых могут находиться или обрабатываемые данные, или инструкции программ. Все ячейки памяти должны быть одинаково легко доступны для других устройств компьютера.

Вот каковы должны быть связи между устройствами компьютера (одинарные линии показывают управляющие связи, двойные - информационные).

Принципы работы компьютера . В общих чертах работу компьютера можно описать так. Вначале с помощью какого-либо внешнего устройства в память компьютера вводится программа. Устройство управления считывает содержимое ячейки памяти, где находится первая инструкция (команда) программы, и организует ее выполнение. Эта команда может задавать выполнение арифметических или логических операций, чтение из памяти данных для выполнения арифметических или логических операций или запись их результатов в память, ввод данных из внешнего устройства в память или вывод данных из памяти на внешнее устройство.

Как правило, после выполнения одной команды устройство управления начинает выполнять команду из ячейки памяти, которая находится непосредственно за только что выполненной командой. Однако этот порядок может быть изменен с помощью команд передачи управления (перехода). Эти команды указывают устройству управления, что ему следует продолжить выполнение программы, начиная с команды, содержащейся в некоторой другой ячейке памяти. Такой «скачок», или переход, в программе может выполняться не всегда, а только при выполнении некоторых условий, например, если некоторые числа равны, если в результате предыдущей арифметической операции получился нуль и т.д. Это позволяет использовать одни и те же последовательности команд в программе много раз (т.е. организовывать циклы), выполнять различные последовательности команд в зависимости от выполнения определенных условий и т.д., т.е. создавать сложные программы.

Таким образом, управляющее устройство выполняет инструкции программы автоматически, т.е. без вмешательства человека. Оно может обмениваться информацией с оперативной памятью и внешними устройствами компьютера. Поскольку внешние устройства, как правило, работают значительно медленнее, чем остальные части компьютера, управляющее устройство может приостанавливать выполнение программы до завершения операции ввода-вывода с внешним устройством. Все результаты выполненной программы должны быть ею выведены на внешние устройства компьютера, после чего компьютер переходит к ожиданию каких-либо сигналов внешних устройств.

Особенности современных компьютеров . Следует заметить, что схема устройства современных компьютеров несколько отличается от приведенной выше. В частности, арифметическо-логическое устройство и устройство управления, как правило, объединены в единое устройство - центральный процессор. Кроме того, процесс выполнения программ может прерываться для выполнения неотложных действий, связанных с поступившими сигналами от внешних устройств компьютера - прерываний. Многие быстродействующие компьютеры осуществляют параллельную обработку данных на нескольких процессорах.

МИНОБРНАУКИ РОССИИ

Федеральное государственное бюджетное образовательное учреждение

высшего профессионального образования

«УДМУРТСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»

(Филиал ГБОУ ВПО «УдГУ» в г. Воткинске)
Кафедра Математики и Информатики

СПО-09-ВТ-030912-11 Право и организация социального обеспечения

РЕФЕРАТ по информатике

на тему: «Кодирование информации»

Работу выполнил

студент группы СПО-09-ВТ-030912-11

Осколкова Ольга

Проверил:

Преподаватель по информатике

Ли Т.М

«___»___________20__г.

г. Воткинск, 2013

Символы и алфавиты для кодирования информации 4

Кодирование и шифрование 5

Цели кодирования 9

Современные способы кодирования информации в вычислительной технике 10

Заключение 12

Список литературы 13

Приложение 14








Введение
Кодирование информации – это процесс формирования определенного представления информации. В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки. Компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (звуки, изображения, показания приборов и т. д.) для обработки на компьютере должна быть преобразована в числовую форму. Например, чтобы перевести в числовую форму музыкальный звук, можно через небольшие промежутки времени измерять интенсивность звука на определенных частотах, представляя результаты каждого измерения в числовой форме. С помощью компьютерных программ можно преобразовывать полученную информацию, например «наложить» друг на друга звуки от разных источников.

Аналогично на компьютере можно обрабатывать текстовую информацию. При вводе в компьютер каждая буква кодируется определенным числом, а при выводе на внешние устройства (экран или печать) для восприятия человеком по этим числам строятся изображения букв. Соответствие между набором букв и числами называется кодировкой символов. Как правило, все числа в компьютере представляются с помощью нулей и единиц (а не десяти цифр, как это привычно для людей). Иными словами, компьютеры обычно работают в двоичной системе счисления, поскольку при этом устройства для их обработки получаются значительно более простыми.

^ История кодирования информации
Первым техническим средством передачи информации на расстояние стал телеграф, изобретенный в 1837 году американцем Сэмюэлем Морзе.

Телеграф – первое техническое средство кодирования информации на расстоянии.

Телеграфное сообщение – это последовательность электрических сигналов, передаваемая от одного телеграфного аппарата по проводам к другому телеграфному аппарату. Эти технические обстоятельства привели С.Морзе к идее использования всего двух видов сигналов – короткого и длинного – для кодирования сообщения, передаваемого по линиям телеграфной связи. Такой способ кодирования получил название азбуки Морзе. В ней каждая буква алфавита кодируется последовательностью коротких сигналов (точек) и длинных сигналов (тире). Буквы отделяются друг от друга паузами – отсутствием сигналов.

Специальных знаков препинания не было. Их записывали словами: "тчк" точка, "зпт" – запятая и т.п. Характерной особенностью азбуки Морзе является переменная длина кода разных букв, поэтому код Морзе называют неравномерным кодом. Самым знаменитым телеграфным сообщением является сигнал бедствия «SOS» (Save Our Souls - спасите наши души). Буквы, которые встречаются в тексте чаще, имеют более короткий код, чем редкие буквы. Например, код буквы «Е» - одна точка, а код буквы «Ъ» состоит из шести знаков. Зачем так сделано? Чтобы сократить длину всего сообщения. Но из-за переменной длины кода букв возникает проблема отделения букв друг от друга в тексте. Поэтому приходится для разделения использовать паузу (пропуск).

Следовательно, телеграфный алфавит Морзе является троичным, так как в нем используется три знака: точка, тире, пропуск.

Равномерный телеграфный кодбыл изобретен французом Жаном Морисом Бодо в конце XIX века. В нем использовалось всего два разных вида сигналов. Не важно, как их назвать: точка и тире, плюс и минус, ноль и единица. Это два отличающихся друг от друга электрических сигнала. Длина кода всех символов одинаковая и равна пяти. В таком случае не возникает проблемы отделения букв друг от друга: каждая пятерка сигналов – это знак текста. Поэтому пропуск не нужен.

Код Бодо (назван в честь Жана Мориса Эмиля Бодо) – это первый в истории техники способ двоичного кодирования информации. Благодаря этой идее удалось создать буквопечатающий телеграфный аппарат, имеющий вид пишущей машинки. Нажатие на клавишу с определенной буквой вырабатывает соответствующий пятиимпульсный сигнал, который передается по линии связи. Принимающий аппарат под воздействием этого сигнала печатает ту же букву на бумажной ленте.

С появлением технических средств хранения и передачи информации возникли новые идеи и приемы кодирования
^

Символы и алфавиты для кодирования информации

Текст на компьютере или в сети состоит из символов. Символы представляют буквы алфавита, знаки препинания или иные символы. Множество символов, используемых при записи текста, называется алфавитом. Количество символов в алфавите называется его мощностью.

Для представления текстовой информации в компьютере чаще всего используется алфавит мощностью 256 символов. Один символ из такого алфавита несет 8 бит информации, т. к. 2 8 = 256. Но 8 бит составляют один байт, следовательно, двоичный код каждого символа занимает 1 байт памяти ЭВМ.

Все символы такого алфавита пронумерованы от 0 до 255, а каждому номеру соответствует 8-разрядный двоичный код от 00000000 до 11111111. Этот код является порядковым номером символа в двоичной системе счисления. Для разных типов ЭВМ и операционных систем используются различные таблицы кодировки, отличающиеся порядком размещения символов алфавита в кодовой таблице.

Международным стандартом на персональных компьютерах является таблица кодировки ASCII. (прил.1)

Принцип последовательного кодирования алфавита заключается в том, что в кодовой таблице ASCII латинские буквы (прописные и строчные) располагаются в алфавитном порядке. Расположение цифр также упорядочено по возрастанию значений.

Стандартными в этой таблице являются только первые 128 символов, т. е. символы с номерами от нуля (двоичный код 00000000) до 127 (01111111). Сюда входят буквы латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы. Остальные 128 кодов, начиная со 128 (двоичный код 10000000) и кончая 255 (11111111), используются для кодировки букв национальных алфавитов, символов псевдографики и научных символов.

Набор знаков, в котором определен их порядок, называется алфавитом. Существует множество алфавитов:

Алфавит кириллических букв {А, Б, В, Г, Д, Е, ...}

Алфавит латинских букв {А, В, С, D, Е, F,...}

Алфавит десятичных цифр{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}

Алфавит знаков зодиака {картинки знаков зодиака} и др.

Особенно большое значение имеют наборы, состоящие всего из двух знаков: пара знаков {+, -}

Пара цифр {0, 1}

Пара ответов {да, нет}

Алфавит, состоящий из двух знаков, называется двоичным алфавитом. Двоичный знак (англ. binary digit) получил название «бит».
^

Кодирование и шифрование

Кодирование сообщений и шифрование информации – это одна из наиболее важных задач в нашем обществе.

Вопросами защиты и скрытия информации занимается наука кpиптология (криптос – тайный, логос – наука). Кpиптология имеет два основных напpавления – кpиптогpафию и кpиптоанализ. Цели этих направлений противоположны. Кpиптогpафия занимается построением и исследованием математических методов преобразования информации, а кpиптоанализ – исследованием возможности расшифровки информации без ключа. Термин "криптография" происходит от двух греческих слов: криптоc - тайна и грофейн – писать. Таким образом, это тайнопись, система перекодировки сообщения с целью сделать его непонятным для непосвященных лиц и дисциплина, изучающая общие свойства и принципы систем тайнописи.

Код – правило соответствия набора знаков одного множества Х знакам другого множества Y. Если каждому символу Х при кодировании соответствует отдельный знак Y, то это кодирование. Если для каждого символа из Y однозначно отыщется по некоторому правилу его прообраз в X, то это правило называется декодированием. Иными словами:

Кодирование – это преобразование входной информации в форму, воспринимаемую компьютером, т.е. двоичный код.

Декодирование – преобразование данных из двоичного кода в форму, понятную человеку.

При представлении сообщений в ЭВМ все символы кодируются байтами.

Пример. Если каждый цвет кодировать двумя битами, то можно закодировать не более 2 2 = 4 цветов, тремя – 2 3 = 8 цветов, восемью битами (байтом) – 256 цветов. Для кодирования всех символов на клавиатуре компьютера достаточно байтов.

Сообщение, которое мы хотим передать адресату, назовем открытым сообщением. Оно, естественно, определено над некоторым алфавитом. Зашифрованное сообщение может быть построено над другим алфавитом. Назовем его закрытым сообщением. Процесс преобразования открытого сообщения в закрытое сообщение и есть шифрование.

Шифрование - кодирование сообщения отправителя, но такое чтобы оно было не понятно несанкционированному пользователю.

Человек выражает свои мысли словами. Они являются алфавитным представлением информации. На уроках физики при рассмотрении какого-либо явления мы используем формулы. В этом случае говорят о языке алгебры. Формула - это математический код. Поэтому одна и та же запись может нести разную смысловую нагрузку. Например, набор цифр 251299 может обозначать: массу объекта; длину объекта; расстояние между объектами; номер телефона; дату 25 декабря 1999 года. Эти примеры говорят, что для представления информации могут использоваться разные коды, и поэтому надо знать законы записи этих кодов, т.е. уметь кодировать.
Код - набор условных обозначений для представления информации. Кодирование - процесс представления информации в виде кода. Кодирование сводится к использованию совокупности символов по строго определенным правилам. При переходе улицы мы встречаемся с кодированием информации в виде сигналов светофора. Водитель передает сигнал с помощью гудка или миганием фар. Кодировать информацию можно устно, письменно, жестами или сигналами любой другой природы.
В процессе обмена информацией мы совершаем две операции: кодирование и декодирование. При кодировании происходит переход от исходной формы представления информации в форму, удобную для хранения, передачи или обработки, а при декодировании - в обратном направлении. Для передачи в канал связи сообщения преобразуются в сигналы. Символы, при помощи которых создаются сообщения, образуют первичный алфавит, при этом каждый символ характеризуется вероятностью его появления в сообщении. Каждому сообщению однозначно соответствует сигнал, представляющий определенную последовательность элементарных дискретных символов, называемых кодовыми комбинациями.

Кодирование - это преобразование сообщений в сигнал, т.е. преобразование сообщений в кодовые комбинации. Код - система соответствия между элементами сообщений и кодовыми комбинациями. Кодер - устройство, осуществляющее кодирование. Декодер - устройство, осуществляющее обратную операцию, т.е. преобразование кодовой комбинации в сообщение. Алфавит - множество возможных элементов кода, т.е. элементарных символов (кодовых символов) X = {xi}, где i = 1, 2,..., m. Количество элементов кода - m называется его основанием. Для двоичного кода xi = {0, 1} и m = 2. Конечная последовательность символов данного алфавита называется кодовой комбинацией (кодовым словом). Число элементов в кодовой комбинации - n называется значностью (длиной комбинации). Число различных кодовых комбинаций (N = mn) называется объемом или мощностью кода.

Существуют три основных способа кодирования текста:

Графический – с помощью специальных рисунков или значков;

Числовой – с помощью чисел;

Символьный – с помощью символов того же алфавита, что и исходный текст.

Кодирование информации в двоичном коде. Существуют разные способы кодирования и декодирования информации в компьютере. Это зависит от вида информации: текст, число, графическое изображение или звук. Для числа также важно, как оно будет использовано: в тексте, или в вычислениях, или в процессе ввода-вывода. Вся информация кодируется в двоичной системе счисления: с помощью цифр 0 и 1. Эти два символа называют двоичными цифрами или битами. Такой способ кодирования технически просто организовать: 1 - есть электрический сигнал, 0 - нет сигнала. Недостаток двоичного кодирования - длинные коды. Но в технике легче иметь дело с большим числом простых однотипных элементов, чем с небольшим числом сложных.

Кодирование текстовой информации.При нажатии клавиши клавиатуры сигнал посылается в компьютер в виде двоичного числа, которое хранится в кодовой таблице. Кодовая таблица - это внутреннее представление символов в компьютере. В качестве стандарта в мире принята таблица ASCII (American Standart Code for Information Interchange - Американский стандартный код для обмена информацией). Для хранения двоичного кода одного символа выделен 1 байт = 8бит. Так как 1 бит принимает значение 0 или 1, то с помощью одного байта можно закодировать 28 = 256 различных символов, т.к. именно столько различных кодовых комбинаций можно составить. Эти комбинации и составляют таблицу ASCII. Например, буква S имеет код 01010011; при нажатии ее на клавиатуре происходит декодирование двоичного кода и по нему строится изображение символа на экране монитора.
Стандарт ASCII определяет первые 128 символов: цифры, буквы латинского алфавита, управляющие символы. Вторая половина кодовой таблицы не определена американским стандартом и предназначена для национальных символов, псевдографических и некоторых нематематических символов. В разных странах могут использоваться различные варианты второй половины кодовой таблицы. Цифры кодируются по этому стандарту при вводе-выводе и если они встречаются в тексте. Если они участвуют в вычислениях, то осуществляется их преобразование в другой двоичный код.

Кодирование чисел. В двоичной системе счисления для представления используются две цифры 0 и 1. Действия с числами в двоичной системе счисления изучает наука двоичная арифметика. Все основные законы арифметических действий для таких чисел также выполняются.
Для сравнения рассмотрим два варианта кодирования для числа 45. При использовании числа в тексте каждая цифра кодируется 8 битами в соответствии с ASCII (т.е. потребуется 2 байта): 4 - 01000011, 5 - 01010011. При использовании в вычислениях код этого числа получается по специальным правилам перевода из десятичной системы счисления в двоичную в виде 8-разрядного двоичного числа: 4510 = 001011012, что потребует 1 байт.

Кодирование графической информации.Графический объект в компьютере может быть представлен как растровое или векторное изображение. От этого зависит и способ кодирования. Растровое изображение представляет собой совокупность точек различного цвета. Объем растрового изображения равен произведению количества точек на информационный объем одной точки, который зависит от количества возможных цветов. Для черно-белого изображения информационный объем точки равен 1 биту, т.к. она может быть либо белой, либо черной, что можно закодировать двумя цифрами 0 и 1. Рассмотрим, сколько потребуется бит для изображе-ния точки: 8 цветов - 3 бита (8 = 23); для 16 цветов - 4 бита (16 = 24); для 256 цветов - 8 битов (1 байт). Различные цвета получаются из трех основных - красного, зеленого и синего. Векторное изображение представляет собой графический объект, состоящий из элементарных отрезков и дуг. Положение этих элементарных объектов определяется координатами точек и длиной радиуса. Для каждой линии указывается ее тип (сплошная, пунктирная, штрих-пунктирная), толщина и цвет. Информация о векторном изображении кодируется как обычная буквенно-цифровая и обрабатывается специальными программами.

Кодирование звуковой информации. Звуковая информация может быть представлена последовательностью элементарных звуков (фонем) и пауз между ними. Каждый звук кодируется и хранится в памяти. Вывод звуков из компьютера осуществляется синтезатором речи, который считывает из памяти хранящийся код звука. Гораздо сложнее преобразовать речь человека в код, т.к. живая речь имеет большое разнообразие оттенков. Каждое произнесенное слово должно сравнивать с предварительно занесенным в память компьютера эталоном, и при их совпадении происходит его распознавание и запись.

^


Цели кодирования

Теория кодирования изучает способы построения конкретных кодов и их свойства. Коды можно классифицировать по различным признакам:

1. По основанию (количеству символов в алфавите): бинарные (двоичные) и не бинарные.

2. По длине кодовых комбинаций (слов): равномерные - если все кодовые комбинации имеют одинаковую длину; неравномерные - если длина кодовой комбинации не постоянна.

3. По способу передачи: последовательные и параллельные;

4. По помехоустойчивости: простые (примитивные, полные) и корректирующие (помехозащищенные)

Благодаря теории кодирования достигнуты следующие цели

1)Представление информации в более компактной и удобной для использования в ИС форме

2) Подготовка информации к обработке в системе и передачи ее по каналам связи

3)Упрощение логической обработки информации с использованием специальных методов

4)Повышение эффективности передачи данных, за счет достижения максимальной скорости передачи данных.

В соответствии с этими целями теория кодирования развивается в двух основных направлениях:

1. Теория экономичного (эффективного, оптимального) кодирования занимается поиском кодов, позволяющих в каналах без помех повысить эффективность передачи информации за счет устранения избыточности источника и наилучшего согласования скорости передачи данных с пропускной способностью канала связи.

2. Разработка приемов, обеспечивающих надежность передачи информации по каналам связи.

^

Современные способы кодирования информации в вычислительной технике

В зависимости от применяемых методов кодирования, используют различные математические модели кодов, при этом наиболее часто применяется представление кодов в виде: кодовых матриц; кодовых деревьев; многочленов; геометрических фигур и т.д.

Наиболее значимым для развития техники оказался способ представления информации с помощью кода, состоящего всего из двух символов: 0 и 1.

Для удобства использования такого алфавита договорились называть любой из его знаков «бит» (от английского «binary digit» -двоичный знак).

Одним битом могут быть выражены два понятия: 0 или 1 (да или нет, черное или белое, истина или ложь и т.п.). Поэтому данные в компьютере на физическом уровне хранятся, обрабатываются и передаются именно в двоичном коде. Двоичный код является универсальным средством кодирования информации.

В настоящее время широкое распространение получил новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два, и потому с его помощью можно закодировать не 256 символов, а 65 536 различных символов. Такого количества символов достаточно, чтобы закодировать не только русский и латинский алфавиты, цифры, знаки и математические символы, но и греческий, арабский, иврит и другие алфавиты.

В Unicode для кодирования символов предоставляется 31 бит (4 байта за вычетом одного бита). Количество возможных комбинаций дает запредельное число: 231 = 2 147 483 684 (т.е. более двух миллиардов). Поэтому Unicode описывает алфавиты всех известных языков, даже «мертвых» и выдуманных, включает многие математические и иные специальные символы. Однако информационная емкость 31-битового Unicode все равно остается слишком большой. Поэтому чаще используется сокращенная 16-битовая версия (216 = 65 536 значений), где кодируются все современные алфавиты. В Unicode первые 128 кодов совпадают с таблицей ASCII.

Для кодировки русского алфавита разработаны несколько вариантов кодировок:

1) Windows-1251 – введена компанией Microsoft; с учетом широкого распространения операционных систем (ОС) и других программных продуктов этой компании в Российской Федерации она нашла широкое распространение;

2) КОИ-8 (Код Обмена Информацией, восьмизначный) – другая популярная кодировка российского алфавита, распространенная в компьютерных сетях на территории Российской Федерации и в российском секторе Интернет;

3) ISO (International Standard Organization – Международный институт стандартизации) – международный стандарт кодирования символов русского языка. На практике эта кодировка используется редко.

Практический переход на данную систему кодировки очень долго не мог осуществиться из-за недостатков ресурсов средств вычислительной техники, так как в системе кодирования UNICODE все текстовые документы становятся автоматически вдвое больше. В конце 1990-х гг. технические средства достигли необходимого уровня, начался постепенный перевод документов и программных средств на систему кодирования UNICODE.

Заключение

При вводе в компьютер каждая буква кодируется определенным числом, а при выводе на внешние устройства (экран или печать) для восприятия человеком по этим числам строятся изображения букв. Соответствие между набором букв и числами называется кодировкой символов. Информацию кодируют с целью сокращения записей, засекречивания (шифровки) информации, удобства обработки и хранения.
Как правило, все числа в компьютере представляются с помощью нулей и единиц (а не десяти цифр, как это привычно для людей). Иными словами, компьютеры обычно работают в двоичной системе счисления, поскольку при этом устройства для их обработки получаются значительно более простыми.

Список литературы

1.Симонович С.В. Информатика. Базовый курс.- М.: Дрофа 2007 .- 235с

2.Савельев А. Я. Основы информатики: Учебник для вузов. - М.: Оникс 2008.-370с

3. Электронный источник «Кодирование информации», дата обращения 01.11.2013 год. http://sch10ptz.ru/projects/002/inf/1.7.htm

Приложение

Таблица стандартной части ASCII (символ – десятичный код – двоичный код) ИНФОРМАТИКА – техническая наука, систематизирующая приемы создания, хранения, обработки и передачи информации средствами вычислительной техники, а также принципы функционирования этих средств и методы управления ими.

В англоязычных странах применяют термин

computer science – компьютерная наука.

Теоретической основой информатики является группа фундаментальных наук таких как: теория информации, теория алгоритмов, математическая логика, теория формальных языков и грамматик, комбинаторный анализ и т.д. Кроме них информатика включает такие разделы, как архитектура ЭВМ, операционные системы, теория баз данных, технология программирования и многие другие. Важным в определении информатики как науки является то, что с одной стороны, она занимается изучением устройств и принципов действия средств вычислительной техники, а с другой – систематизацией приемов и методов работы с программами, управляющими этой техникой.

Информационная технология

– это совокупность конкретных технических и программных средств, с помощью которых выполняются разнообразные операции по обработке информации во всех сферах нашей жизни и деятельности. Иногда информационную технологию называют компьютерной технологией или прикладной информатикой. Информация аналоговая и цифровая . Термин «информация » восходит к латинскому informatio , – разъяснение, изложение, осведомленность.

Информацию можно классифицировать разными способами, и разные науки это делают по-разному. Например, в философии различают информацию объективную и субъективную. Объективная информация отражает явления природы и человеческого общества. Субъективная информация создается людьми и отражает их взгляд на объективные явления.

В информатике отдельно рассматривается аналоговая информация и цифровая. Это важно, поскольку человек благодаря своим органам чувств, привык иметь дело с аналоговой информацией, а вычислительная техника, наоборот, в основном, работает с цифровой информацией.

Человек воспринимает информацию с помощью органов чувств. Свет, звук, тепло – это энергетические сигналы, а вкус и запах – это результат воздействия химических соединений, в основе которого тоже энергетическая природа. Человек испытывает энергетические воздействия непрерывно и может никогда не встретиться с одной и той же их комбинацией дважды. Нет двух одинаковых зеленых листьев на одном дереве и двух абсолютно одинаковых звуков – это информация аналоговая. Если же разным цветам дать номера, а разным звукам – ноты, то аналоговую информацию можно превратить в цифровую.

Музыка, когда ее слушают, несет аналоговую информацию, но если записать ее нотами, она становится цифровой.

Разница между аналоговой информацией и цифровой, прежде всего, в том, что аналоговая информация непрерывна, а цифровая дискретна.

К цифровым устройствам относятся персональные компьютеры – они работают с информацией, представленной в цифровой форме, цифровыми являются и музыкальные проигрыватели лазерных компакт дисков.

Кодирование информации . Кодирование информации – это процесс формирования определенного представления информации . В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.

Компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (звуки, изображения, показания приборов и т. д.) для обработки на компьютере должна быть преобразована в числовую форму. Например, чтобы перевести в числовую форму музыкальный звук, можно через небольшие промежутки времени измерять интенсивность звука на определенных частотах, представляя результаты каждого измерения в числовой форме. С помощью компьютерных программ можно преобразовывать полученную

информацию, например «наложить» друг на друга звуки от разных источников.

Аналогично на компьютере можно обрабатывать текстовую информацию. При вводе в компьютер каждая буква кодируется определенным числом, а при выводе на внешние устройства (экран или печать) для восприятия человеком по этим числам строятся изображения букв. Соответствие между набором букв и числами называется

кодировкой символов . Как правило, все числа в компьютере представляются с помощью нулей и единиц (а не десяти цифр, как это привычно для людей). Иными словами, компьютеры обычно работают в двоичной системе счисления, поскольку при этом устройства для их обработки получаются значительно более простыми. Единицы измерения информации. Бит. Байт . Бит – наименьшая единица представления информации. Байт – наименьшая единица обработки и передачи информации . Решая различные задачи, человек использует информацию об окружающем нас мире. Часто приходится слышать, что сообщение несет мало информации или, наоборот, содержит исчерпывающую информацию, при этом разные люди, получившие одно и то же сообщение (например, прочитав статью в газете), по-разному оценивают количество информации, содержащейся в нем. Это означает, что знания людей об этих событиях (явлениях) до получения сообщения были различными. Количество информации в сообщении, таким образом, зависит от того, насколько ново это сообщение для получателя. Если в результате получения сообщения достигнута полная ясность в данном вопросе (т.е. неопределенность исчезнет), говорят, что получена исчерпывающая информация . Это означает, что нет необходимости в дополнительной информации на эту тему. Напротив, если после получения сообщения неопределенность осталась прежней (сообщаемые сведения или уже были известны, или не относятся к делу), значит, информации получено не было (нулевая информация ). Подбрасывание монеты и слежение за ее падением дает определенную информацию. Обе стороны монеты «равноправны», поэтому одинаково вероятно, что выпадет как одна, так и другая сторона. В таких случаях говорят, что событие несет информацию в 1 бит . Если положить в мешок два шарика разного цвета, то, вытащив вслепую один шар, мы также получим информацию о цвете шара в 1 бит.

Единица измерения информации называется бит (bit) – сокращение от английских слов

binary digit , что означает двоичная цифра.

В компьютерной технике бит соответствует физическому состоянию носителя информации: намагничено – не намагничено, есть отверстие – нет отверстия. При этом одно состояние принято обозначать цифрой 0, а другое – цифрой 1. Выбор одного из двух возможных вариантов позволяет также различать логические истину и ложь. Последовательностью битов можно закодировать текст, изображение, звук или какую-либо другую информацию. Такой метод представления информации называется

двоичным кодированием (binary encoding) . В информатике часто используется величина, называемая байтом (byte) и равная 8 битам. И если бит позволяет выбрать один вариант из двух возможных, то байт, соответственно, 1 из 256 (2 8 ). Наряду с байтами для измерения количества информации используются более крупные единицы:

1 Кбайт (один килобайт) = 2

10 байт = 1024 байта;

1 Мбайт (один мегабайт) = 2

10 Кбайт = 1024 Кбайта;

1 Гбайт (один гигабайт) = 2

10 Мбайт = 1024 Мбайта. Например, книга содержит 100 страниц; на каждой странице – 35 строк, в каждой строке – 50 символов. Объем информации, содержащийся в книге, рассчитывается следующим образом:

Страница содержит 35

× 50 = 1750 байт информации. Объем всей информации в книге (в разных единицах): 1750 × 100 = 175 000 байт. 175 000 / 1024 = 170,8984 Кбайт.

170,8984 / 1024 = 0,166893 Мбайт.

Файл. Форматы файлов . Файл – наименьшая единица хранения информации, содержащая последовательность байтов и имеющая уникальное имя.

Основное назначение файлов – хранить информацию. Они предназначены также для передачи данных от программы к программе и от системы к системе. Другими словами, файл – это хранилище стабильных и мобильных данных. Но, файл – это нечто большее, чем просто хранилище данных. Обычно файл имеет

имя, атрибуты, время модификации и время создания. Файловая структура представляет собой систему хранения файлов на запоминающем устройстве, например, на диске. Файлы организованы в каталоги (иногда называемые директориями или папками). Любой каталог может содержать произвольное число подкаталогов, в каждом из которых могут храниться файлы и другие каталоги.

Способ, которым данные организованы в байты, называется

форматом файла . Для того чтобы прочесть файл, например, электронной таблицы, нужно знать, каким образом байты представляют числа (формулы, текст) в каждой ячейке; чтобы прочесть файл текстового редактора, надо знать, какие байты представляют символы, а какие шрифты или поля, а также другую информацию.

Программы могут хранить данные в файле способом, выбираемым программистом. Часто предполагается, однако, что файлы будут использоваться различными программами, поэтому многие прикладные программы поддерживают некоторые наиболее распространенные форматы, так что другие программы могут понять данные в файле. Компании по производству программного обеспечения (которые хотят, чтобы их программы стали «стандартами»), часто публикуют информацию о создаваемых ими форматах, чтобы их можно было бы использовать в других приложениях.

Все файлы условно можно разделить на две части – текстовые и двоичные.

Текстовые файлы – наиболее распространенный тип данных в компьютерном мире. Для хранения каждого символа чаще всего отводится один байт, а кодирование текстовых файлов выполняется с помощью специальных таблиц, в которых каждому символу соответствует определенное число, не превышающее 255. Файл, для кодировки которого используется только 127 первых чисел, называется

ASCII - файлом (сокращение от American Standard Code for Information Intercange – американский стандартный код для обмена информацией), но в таком файле не могут быть представлены буквы, отличные от латиницы (в том числе и русские). Большинство национальных алфавитов можно закодировать с помощью восьмибитной таблицы. Для русского языка наиболее популярны на данный момент три кодировки: Koi8-R, Windows-1251 и, так называемая, альтернативная (alt) кодировка.

Такие языки, как китайский, содержат значительно больше 256 символов, поэтому для кодирования каждого из них используют несколько байтов. Для экономии места зачастую применяется следующий прием: некоторые символы кодируются с помощью одного байта, в то время как для других используются два или более байтов. Одной из попыток обобщения такого подхода является стандарт

Unicode, в котором для кодирования символов используется диапазон чисел от нуля до 65 536. Такой широкий диапазон позволяет представлять в численном виде символы языка любого уголка планеты.

Но чисто текстовые файлы встречаются все реже. Документы часто содержат рисунки и диаграммы, используются различные шрифты. В результате появляются форматы, представляющие собой различные комбинации текстовых, графических и других форм данных.

Двоичные файлы, в отличие от текстовых, не так просто просмотреть, и в них, обычно, нет знакомых слов – лишь множество непонятных символов. Эти файлы не предназначены непосредственно для чтения человеком. Примерами двоичных файлов являются исполняемые программы и файлы с графическими изображениями.

Примеры двоичного кодирования информации. Среди всего разнообразия информации, обрабатываемой на компьютере, значительную часть составляют числовая, текстовая, графическая и аудиоинформация. Познакомимся с некоторыми способами кодирования этих типов информации в ЭВМ. Кодирование чисел. Есть два основных формата представления чисел в памяти компьютера. Один из них используется для кодирования целых чисел, второй (так называемое представление числа в формате с плавающей точкой) используется для задания некоторого подмножества действительных чисел.

Множество

целых чисел , представимых в памяти ЭВМ, ограничено. Диапазон значений зависит от размера области памяти, используемой для размещения чисел. В k -разрядной ячейке может храниться 2 k различных значений целых чисел . Чтобы получить внутреннее представление целого положительного числа N , хранящегося в k -разрядном машинном слове, нужно: 1) перевести число N в двоичную систему счисления;

2) полученный результат дополнить слева незначащими нулями до k разрядов.

Например, для получения внутреннего представления целого числа 1607 в 2-х байтовой ячейке число переводится в двоичную систему: 1607 10 = 11001000111 2 . Внутреннее представление этого числа в ячейке имеет вид: 0000 0110 0100 0111.

Для записи внутреннего представления целого отрицательного числа (–N) нужно:

1) получить внутреннее представление положительного числа N ; 2) получить обратный код этого числа, заменяя 0 на 1 и 1 на 0;

3) полученному числу прибавить 1 к полученному числу.

Внутреннее представление целого отрицательного числа –1607. С использованием результата предыдущего примера и записывается внутреннее представление положительного числа 1607: 0000 0110 0100 0111. Обратный код получается инвертированием: 1111 1001 1011 1000. Добавляется единица: 1111 1001 1011 1001 – это и есть внутреннее двоичное представление числа –1607. Формат с плавающей точкой использует представление вещественного числа R в виде произведения мантиссы m на основание системы счисления n в некоторой целой степени p , которую называют порядком: R = m * n p . Представление числа в форме с плавающей точкой неоднозначно. Например, справедливы следующие равенства: 12,345 = 0,0012345 × 10 4 = 1234,5 × 10 -2 = 0,12345 × 10 2 Чаще всего в ЭВМ используют нормализованное представление числа в форме с плавающей точкой . Мантисса в таком представлении должна удовлетворять условию: 0,1 p Ј m 1 p . Иначе говоря, мантисса меньше 1 и первая значащая цифра – не ноль (p – основание системы счисления).

В памяти компьютера мантисса представляется как целое число, содержащее только значащие цифры (0 целых и запятая не хранятся), так для числа 12,345 в ячейке памяти, отведенной для хранения мантиссы, будет сохранено число 12 345. Для однозначного восстановления исходного числа остается сохранить только его порядок, в данном примере – это 2.

Кодирование текста. Множество символов, используемых при записи текста, называется алфавитом. Количество символов в алфавите называется его мощностью.

Для представления

текстовой информации в компьютере чаще всего используется алфавит мощностью 256 символов. Один символ из такого алфавита несет 8 бит информации, т. к. 2 8 = 256. Но 8 бит составляют один байт, следовательно, двоичный код каждого символа занимает 1 байт памяти ЭВМ.

Все символы такого алфавита пронумерованы от 0 до 255, а каждому номеру соответствует 8-разрядный двоичный код от 00000000 до 11111111. Этот код является порядковым номером символа в двоичной системе счисления.

Для разных типов ЭВМ и операционных систем используются различные таблицы кодировки, отличающиеся порядком размещения символов алфавита в кодовой таблице. Международным стандартом на персональных компьютерах является уже упоминавшаяся таблица кодировки ASCII.

Принцип последовательного кодирования алфавита заключается в том, что в кодовой таблице ASCII латинские буквы (прописные и строчные) располагаются в алфавитном порядке. Расположение цифр также упорядочено по возрастанию значений.

Стандартными в этой таблице являются только первые 128 символов, т. е. символы с номерами от нуля (двоичный код 00000000) до 127 (01111111). Сюда входят буквы латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы. Остальные 128 кодов, начиная со 128 (двоичный код 10000000) и кончая 255 (11111111), используются для кодировки букв национальных алфавитов, символов псевдографики и научных символов.

Кодирование графической информации . В видеопамяти находится двоичная информация об изображении, выводимом на экран. Почти все создаваемые, обрабатываемые или просматриваемые с помощью компьютера изображения можно разделить на две большие части – растровую и векторную графику. Растровые изображения представляют собой однослойную сетку точек, называемых пикселами (pixel, от англ. picture element). Код пиксела содержит информации о его цвете.

Для черно-белого изображения (без полутонов) пиксел может принимать только два значения: белый и черный (светится – не светится), а для его кодирования достаточно одного бита памяти: 1 – белый, 0 – черный.

Пиксел на цветном дисплее может иметь различную окраску, поэтому одного бита на пиксел недостаточно. Для кодирования 4-цветного изображения требуются два бита на пиксел, поскольку два бита могут принимать 4 различных состояния. Может использоваться, например, такой вариант кодировки цветов: 00 – черный, 10 – зеленый, 01 – красный, 11 – коричневый.

На RGB-мониторах все разнообразие цветов получается сочетанием базовых цветов – красного (Red), зеленого (Green), синего (Blue), из которых можно получить 8 основных комбинаций:

R R
G G
B B
цвет цвет
0 1
0 0
0 0
черный красный
0 1
0 0
1 1
синий розовый
0 1
1 1
0 0
зеленый коричневый
0 1
1 1
1 1
голубой белый
Разумеется, если иметь возможность управлять интенсивностью (яркостью) свечения базовых цветов, то количество различных вариантов их сочетаний, порождающих разнообразные оттенки, увеличивается. Количество различных цветов – К и количество битов для их кодировки – N связаны между собой простой формулой: 2 N = К . В противоположность растровой графике векторное изображение многослойно. Каждый элемент векторного изображения – линия, прямоугольник, окружность или фрагмент текста – располагается в своем собственном слое, пикселы которого устанавливаются независимо от других слоев. Каждый элемент векторного изображения является объектом, который описывается с помощью специального языка (математических уравнения линий, дуг, окружностей и т.д.) Сложные объекты (ломаные линии, различные геометрические фигуры) представляются в виде совокупности элементарных графических объектов.

Объекты векторного изображения, в отличие от растровой графики, могут изменять свои размеры без потери качества (при увеличении растрового изображения увеличивается зернистость).

Кодирование звука . Из физики известно, что звук – это колебания воздуха. Если преобразовать звук в электрический сигнал (например, с помощью микрофона), то видно плавно изменяющееся с течением времени напряжение. Для компьютерной обработки такой – аналоговый – сигнал нужно каким-то образом преобразовать в последовательность двоичных чисел.

Делается это, например, так – измеряется напряжение через равные промежутки времени и полученные значения записываются в память компьютера. Этот процесс называется дискретизацией (или оцифровкой), а устройство, выполняющее его – аналого-цифровым преобразователем (АЦП).

Чтобы воспроизвести закодированный таким образом звук, нужно сделать обратное преобразование (для этого служит цифро-аналоговый преобразователь – ЦАП), а затем сгладить получившийся ступенчатый сигнал.

Чем выше частота дискретизации и чем больше разрядов отводится для каждого отсчета, тем точнее будет представлен звук, но при этом увеличивается и размер звукового файла. Поэтому в зависимости от характера звука, требований, предъявляемых к его качеству и объему занимаемой памяти, выбирают некоторые компромиссные значения.

Описанный способ кодирования звуковой информации достаточно универсален, он позволяет представить любой звук и преобразовывать его самыми разными способами. Но бывают случаи, когда выгодней действовать по-иному.

Издавна используется довольно компактный способ представления музыки – нотная запись. В ней специальными символами указывается, какой высоты звук, на каком инструменте и как сыграть. Фактически, ее можно считать алгоритмом для музыканта, записанным на особом формальном языке. В 1983 ведущие производители компьютеров и музыкальных синтезаторов разработали стандарт, определивший такую систему кодов. Он получил название MIDI.

Конечно, такая система кодирования позволяет записать далеко не всякий звук, она годится только для инструментальной музыки. Но есть у нее и неоспоримые преимущества: чрезвычайно компактная запись, естественность для музыканта (практически любой MIDI-редактор позволяет работать с музыкой в виде обычных нот), легкость замены инструментов, изменения темпа и тональности мелодии.

Есть и другие, чисто компьютерные, форматы записи музыки. Среди них – формат MP3, позволяющий с очень большим качеством и степенью сжатия кодировать музыку, при этом вместо 18–20 музыкальных композиций на стандартном компакт-диске (CDROM) помещается около 200. Одна песня занимает, примерно, 3,5 Mb, что позволяет пользователям сети Интернет легко обмениваться музыкальными композициями.

Компьютер – универсальная информационная машина . Одно из основных назначений компьютера – обработка и хранение информации. С появлением ЭВМ стало возможным оперировать немыслимыми ранее объемами информации. В электронную форму переводят библиотеки, содержащие научную и художественную литературы. Старые фото- и кино-архивы обретают новую жизнь в цифровой форме.

Материалы в ИНТЕРНЕТЕ:

http://www.kbsu.ru/~book (Шацукова Л.З. Информатика. Интернет-учебник). Анна Чугайнова ЛИТЕРАТУРА Симонович С., Евсеев Г., Алексеев А. Общая информатика . М., 1999

2. Различные кодировки кириллицы.

1. Двоичное кодирование текстов. Кодовые таблицы.

Как известно, вся информация, которая попадает в компьютер, преобразуется в последовательность электрических импульсов. Наличие импульса принято условно обозначать "1", а его отсутствие -"О". Такой способ кодирования информации называется двоичным или бинарным. Один двоичный символ получил название бит. (bit - от английскогоbinary digit - "двоичная цифра").

При вводе в компьютер текстовой информации каждая буква кодируется определенным числом, а при выводе на внешние устройства (экран или печать) для восприятия человеком по этим числам строятся изображения букв. Соответствие между набором букв и числами называется кодировкой символов.

Традиционно для кодирования одного символа используется количество информации, равное 1 байту (8 битам). Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код (или соответствующий ему двоичный код). Код символа хранится в памяти компьютера, где занимает, как уже говорилось, 1 байт. При таком способе можно закодировать 256 различных символов (256 = 2 8 ). Такое количество символов вполне достаточно для представления текстовой информации, включая прописные и заглавные буквы русского алфавита, цифры, знаки, графические символы и т. д.

Каждому символу такого алфавита ставится в соответствие уникальный десятичный код от 0 до 255, а каждому десятичному коду соответствует 8-разрядный двоичный код от 00000000 до 11111111. Таким образом, компьютер различает символы по их коду.

Для разных типов ЭВМ и операционных систем используются различные таблицы кодировки, отличающиеся порядком размещения символов алфавита в кодовой таблице.

В настоящее время существует несколько различных кодировок (кодовых таблиц) для русских букв. Поэтому если текст создан в одной кодировке, то он не будет правильно отображаться в другой.

Понятно, что каждая кодировка задается своей кодовой таблицей. Одному и тому же двоичному коду в различных кодировках соответ­ствуют различные символы.

Для того чтобы стало возможным чтение и редактирования текста, набранного в другой кодировке, используются программы перекоди­рования русского текста. Некоторые текстовые редакторы (например,MSWordи др.) содержат встроенные программы-конверторы, позволяющие читать текст в различных кодировках.

Присвоение символу конкретного кода является вопросом соглашения, которое и фиксируется в конкретной кодовой таблице. В качестве международного стандарта принята кодовая таблица ASCII . В этой кодовой таблице латинские буквы (прописные и строчные) располагаются в алфавитном порядке. Расположение цифр также упорядочено по возрастанию значений. Это правило соблюдается и в других таблицах кодировки и называется принципом последова­тельного кодирования алфавитов.

Стандартными в этой таблице кодов ASCII являются только первые 128 символов, т. е. символы с номерами от нуля (двоичный код 00000000) до 127 (01111111). Сюда входят буквы латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы. Остальные 128 кодов, начиная со 128 (двоичный код 10000000) и кончая 255 (11111111), используются для кодировки букв национальных алфавитов, символов псевдографики и научных символов.

1. Двоичное кодирование звуковой информации.

2. Временная дискретизация.

3. Глубина звука.

4. Частота дискретизации.