Информационные процессы: поиск, обработка, хранение и передача

Основные подходы к определению понятия «информация». Измерение информации в теории информации и в технике. Вычисление количества информации.

Термин «информация» происходит от латинского informatio, что означает разъяснение, осведомление, изложение. С позиции материалистической философии информация есть отражение реального мира с помощью сведений (сообщений). Сообщение – это форма представления информации в виде речи, текста, изображения, цифровых данных, графиков, таблиц и т.д. В широком смысле информация – это общенаучное понятие, включающее в себя обмен сведениями между людьми, обмен сигналами между живой и неживой природой, людьми и устройствами.

Информация – сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределённости, неполноты знаний. [Из учебника: Макарова Н.В. и др. Информатика. – М., 2005.].

Понятие информация является одним из фундаментальных в современной науке. Однако формально определить это понятие довольно сложно (как понятия «точка» или «прямая» в геометрии). В бытовом понимании с термином «информация» обычно ассоциируются некоторые сведения, данные, знания и т.п.

Сообщение от источника к получателю всегда передается посредством какой-нибудь среды, являющейся в таком случае «каналом связи» (звук – воздух, текст – лист и т.п.).

Человеку свойственно субъективное восприятие информации через некоторый набор её свойств: важность, достоверность, своевременность, доступность и т.д. В этом смысле одно и то же сообщение, передаваемое от источника к получателю, может передавать информацию в разной степени.

Понятие информации нельзя считать лишь техническим, междисциплинарным и даже наддисциплинарным термином. Информация – это фундаментальная философская категория. Попытки рассмотреть категорию информации с позиций философии привели к возникновению различных концепций.

Представители атрибутивной концепции (Абдеев, Баженов, Петрушенко, Урсул и др.) считают, что информация – атрибут материи, т.е. свойство любой системы объективной реальности.

Приверженцы функциональной концепции (Вержбицкий, Моисеев, Царегородцев и др.) связывают информацию с протеканием информационных процессов в биологических, социальных и социотехнических системах, т.е. с функционированием самоорганизующихся систем. Они признают тот факт, что информация не может быть связана с неживыми системами объективного мира.

Представители антропоцентрической концепции (Цидря, Афанасьев, Шрейдер и др.) считают, что информацию нельзя рассматривать вне человека и вне общества; она рассматривается как смысл сигнала, полученного системой из внешнего мира.

Ряд специалистов утверждают, что все эти точки зрения имеют право на существование, так как информация используется в соответствующих научных областях. В частности, информация как свойство материи изучается в философии и в физике (атрибутивная концепция); информация как содержание сигнала изучается в лингвистике, психологии (антропоцентрическая); информация как функция управления – в кибернетике, биологии (функциональная). В информатике информация рассматривается в соответствии с функциональной и антропоцентрической концепциями.

Измерение информации (различные подходы)

Наиболее часто используются следующие два способа измерения информации: объёмный и вероятностный.

Объёмный подход. В двоичной системе счисления знаки 0 и 1 будем называть битами (от английского выражения BInary digiTs - двоичные цифры). Отдают предпочтение именно двоичной системе счисления потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния: намагничено / не намагничено, вкл./выкл., заряжено / не заряжено и др.

Объём информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации, подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом невозможно нецелое число битов.

Для удобства использования введены и более крупные, чем бит, единицы количества информации. Так, двоичное слово из восьми знаков содержит один байт информации, 1024 байта образуют килобайт (кбайт), 1024 килобайта – мегабайт (Мбайт), а 1024 мегабайта - гигабайт (Гбайт).

Энтропийный (вероятностный) подход. Этот подход принят в теории информации и кодирования. Данный способ измерения исходит из следующей модели: получатель сообщения имеет определённое представление о возможных наступлениях некоторых событий. Эти представления в общем случае недостоверны и выражаются вероятностями, с которыми он ожидает то или иное событие. Общая мера неопределённостей называется энтропией. Энтропия характеризуется некоторой математической зависимостью от совокупности вероятности наступления этих событий.

Количество информации в сообщении определяется тем, насколько уменьшилась эта мера после получения сообщения: чем больше энтропия системы, тем больше степень её неопределённости. Поступающее сообщение полностью или частично снимает эту неопределённость, следовательно, количество информации можно измерять тем, насколько понизилась энтропия системы после получения сообщения. За меру количества информации принимается та же энтропия, но с обратным знаком.

Рассмотрим пример вычисления количества информации сообщения о наступлении одного из N равновероятных событий. Обозначим численную величину, измеряющую неопределённость (энтропию) через H. Величины N и H связаны некоторой функциональной зависимостью: H = f (N). Эта функция, очевидно, является возрастающей, неотрицательной и определённой при всех значениях 1, 2, …, N.

Обозначим через H₁ неопределённость, имеющуюся до совершения события. Через H₂ – неопределённость после наступления события. Тогда за I – количество информации об исходе опыта – примем разность неопределённостей до и после опыта: I = H₁ – H₂.

В случае, когда получен конкретный результат, имевшаяся неопределённость снята (т.к. H₂ = 0). Таким образом, количество полученной информации совпадает с первоначальной энтропией. Неопределённость, заключённая в опыте совпадает с информацией об исходе этого опыта.

Определим функцию H = f (N). Будем варьировать N (число возможных исходов) и M (число опытов). Общее число исходов равно X = N ^M. Каждый исход – некоторый вектор длины M, состоящий из знаков 1, 2, …, N.

Ситуацию с проведением М опытов можно рассматривать как некую сложную систему, состоящую из независимых друг от друга подсистем – однократных опытов. Энтропия такой системы в М раз больше, чем энтропия одной системы (так называемый «принцип аддитивности энтропии»): f (N^M) = M f (N).

Прологарифмируем левую и правую части равенства X = N ^M. Получим:

, .

Подставив полученное для M значение в равенство f (N^M) = M f (N), получим:

Обозначив положительную константу , получим формулу: .

Т.е. получаем: . Обычно принимают , тогда .

Полученная формула называется формулой Хартли.

Важным при введении какой-либо величины является вопрос о том, что принимать за единицу ее измерения. Очевидно, Н будет равно единице при N = 2. Иначе говоря, в качестве единицы принимается количество информации, связанное с проведением опыта, состоящего в получении одного из двух равновероятных исходов (например, бросание монеты). Такая единица количества информации называется битом.

Все N исходов рассмотренного выше опыта являются равновероятными и поэтому можно считать, что на «долю» каждого исхода приходится одна N-я часть общей неопределенности опыта: . При этом вероятность i-гo исхода Р_i; равняется, очевидно, 1/N. Таким образом:

Эта же (последняя) формула принимается за меру энтропии в случае, когда вероятности различных исходов опыта неравновероятны (т.е. значения Р_i могут различаться). Эта формула называется формулой Шеннона.

Коэффициентом информативности (лаконичностью) сообщения называют соотношение количества информации к объёму данных:

, причём

Замечание: под объёмом данных V_Д в сообщении здесь имеется в виду количество символов в этом сообщении (т.е. то, что понимается под битом при объёмном подходе).

Пример 1. Определение количества информации, связанное с появлением каждого символа в сообщении на русском языке. Будем считать, что N = 34 (33 буквы и пробел). Тогда:

(бит)

Пример 2. Однако, в словах русского языка (как и в других языках) различные буквы встречаются неодинаково часто. Если воспользоваться таблицей вероятностей частоты употребления различных знаков русского алфавита, то по формуле Шеннона можно вычислить значение H. Полученный результат будет немного меньше вычисленного ранее (4,72), так как величина Н, вычисляемая по формуле Хартли, является максимальным количеством информации, которое могло бы приходиться на один знак.

Замечание: Для одного и того же сообщения при использовании разных подходов могут получаться разные значения количества информации (но приближённо равные). Количество информации, полученное по формулам Хартли-Шеннона, не может быть больше количества информации, полученного объёмным методом.

Пример 3. Рассмотрим алфавит, состоящий из двух знаков 0 и 1. Если считать, что со знаками 0 и 1 в двоичном алфавите связаны одинаковые вероятности их появления (Р₀ = Р₁ = 0,5), то количество информации на один знак при двоичном кодировании будет равно Н = log₂2 = 1 бит. Таким образом, количество информации (в битах), заключенное в двоичном слове, равно числу двоичных знаков в нём.

Другие (менее известные) способы измерения информации

Алгоритмический подход. Любому сообщению можно приписать количественную характеристику, отражающую сложность (размер) программы, которая позволяет его произвести. Так как имеется много различных вычислительных машин и языков программирования, т.е. разных способов задания алгоритма, то для определённости задаётся некоторая конкретная машина, например машина Тьюринга. Тогда в качестве количественной характеристики сообщения можно взять минимальное число внутренних состояний машины, требующихся для воспроизведения данного сообщения.

Семантический подход. Для измерения смыслового содержания информации, т.е. её количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие «тезаурус пользователя».

Тезаурус – это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя S_p изменяется количество семантической информации I_c воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Например, при S_p ≈ 0 пользователь не воспринимает, не понимает поступающую информацию; а при S_р → ∞ пользователь всё знает, и поступающая информация ему не нужна.

Максимальное количество семантической информации I_c потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом S_р, когда поступающая информация понятна пользователю и несёт ему ранее не известные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для пользователя некомпетентного.

При оценке семантического (содержательного) аспекта информации необходимо стремиться к согласованию величин S и S_p.

Относительной мерой количества семантической информации может служить коэффициент содержательности С, который определяется как отношение количества семантической информации к ее объему: .

Прагматический подход. Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цели. Эта мера также величина относительная, обусловленная особенностями использования этой информации в той или иной системе. Ценность информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых измеряется целевая функция.