Информация и энтропия

Понятие «информация» сейчас у всех на слуху, а у многих - и на языках. Меня в данном случае интересуют лишь некоторые аспекты этого понятия, хотя мне придется остановиться и на общих вещах, чтобы был ясен предмет обсуждения. В данном рассуждении я использую вероятностные формализмы, для адекватного понимания которых следует обратиться к моему рассуждению о вероятностях, опубликованному на этом же сайте.

Считается, что представление об информации как об измеримой физической величине впервые ввел Клод Шеннон, году эдак в 1948. Хотя еще раньше Хартли предложил способ измерения информационного содержания сообщений. Я не буду придерживаться первоисточников и попробую заново изложить все доводы, касающиеся наличия у информации количественной меры.

Согласно исходному смыслу понятия, информация, это просто некое новое знание, полученное субъектом. Субъект, получивший новое знание, обычно склонен считать, что его понимание внешнего мира в какой-то мере улучшилось. Это не удивительно, поскольку с позиций нового знания старое, конечно, выглядит уже не столь убедительно. Естественно, что субъект склонен как-то сравнивать степени этого улучшения для разных случаев. Как я уже упоминал в статье про вероятность, выложенной на этом же сайте, можно доказать, что мера, позволяющая проводить сравнения для различных случаев, описывается действительным числом. Остается лишь определить, функцией каких параметров она является, и каков вид этой функции.

Рассмотрим случай, когда новое знание состоит в том, что некое событие A является достоверным. В той же статье про вероятность я показал, что информационное содержание такого факта описывается изменением распределения вероятностей на рассматриваемом пространстве событий. А вот каково количественное описание полученной информации? Естественно предположить, что оно может определяться только ожиданиями субъекта, связанными с событием A, а от других событий непосредственно не зависит. Ожидания субъекта, связанные с событием A, описываются вероятностью этого события. Отсюда вывод - количество информации является функцией вероятности события.

Конкретный вид функции можно определить из допущения аддитивности количества информации для независимых сообщений. Обратите внимание: вероятность аддитивна для несовместных событий, но не для независимых. Требование аддитивности вероятности возникает из необходимости ее статистической интерпретации. А откуда возникает требование аддитивности количества информации? Очевидно - из представлений о том, что знание должно «накапливаться». Но знания нельзя арифметически сложить, поскольку они не выражаются числовыми величинами. А вот соответствующие им числовые меры сложить можно. Количество информации, полученной субъектом в процессе всего познания предметной области, как раз является такой числовой мерой его знания. Таким образом, если совокупное знание разбивается на независимые фрагменты, соответствующая числовая мера совокупного знания должна представляться суммой мер для отдельных фрагментов знания.

Следует заметить, что независимость сообщений в определенном контексте всегда существует. События A и B с точки зрения априорного знания субъекта могут быть зависимы, но сообщение о событии B, оцениваемое с позиций знания о достоверности события A, уже не может внести ничего нового в знание о событии A, что подтверждается формулой условной вероятности:

p(AB)=p(B|A)p(A)

Формула же для количества информации, в соответствии с принципом аддитивности, должна записываться следующим образом:

I(AB)=I(B|A)+I(A)

Здесь явно учтена зависимость информации о достоверности события B, получаемой субъектом, от знания о достоверности события A.

Поскольку величина I должна выражаться через соответствующее значение вероятности, сопоставление двух приведенных выше формул показывает, что функция f, описывающая зависимость I от p, должна быть аддитивна по отношению к произведению:

f(xy)=f(x)+f(y)

Легко доказать, что такому условию удовлетворяет только логарифмическая функция, определенная с точностью до множителя. Основание логарифма может быть любым положительным числом, отличным от единицы, это влияет только на множитель перед функцией. А множитель, очевидно, влияет только на определение единицы измерения. Если взять в качестве основания двойку, а в качестве множителя - минус единицу (чтобы обеспечить положительность меры), то мы получим формулу для количества информации, измеряемого в «битах»:

I = - log2(p)

Здесь p - вероятность события A, сообщение о достоверности которого получил субъект. Основание и множитель выбраны не случайно. Очевидно, что если событие A и альтернативное ему событие ~A равновероятны, то в сообщении о событии субъект получит ровно один бит информации. Такое сообщение в виде одного знака двоичного алфавита характерно для компьютерной техники. Получение сообщения в виде восьми знаков такого алфавита соответствует восьми битам информации - «байту». Далее я не буду употреблять нижний индекс для обозначения основания логарифма, подразумевая везде двойку, т.е. измерение количества информации в битах.

Итак, мы получили классическую формулу для количества информации. Вспомним, какие допущения при этом мы использовали. Первое - это о наличии ЧИСЛОВОЙ МЕРЫ для фрагментов знаний субъекта. Данное допущение обосновывается необходимостью сравнения количественных характеристик различных фрагментов информации. Второе - это допущение АДДИТИВНОСТИ информации, получаемой в независимых сообщениях. Третье - это допущение о том, что количество информации, получаемой субъектом с сообщением о достоверности события, определяется только его ожиданиями, связанными с возможностью данного события, и НЕ ЗАВИСИТ от других знаний субъекта.

Наиболее интересен принцип аддитивности. Очевидно, что он может рассматриваться как следствие более сильного допущения: что количество информации можно рассматривать как функцию знаний субъекта. В таком случае количество информации в сообщении определяется как разность между количествами апостериорного и априорного знаний субъекта. Без этого допущения принцип аддитивности особого смысла не имеет: мы можем подсчитать суммарное количество информации, полученной в череде сообщений, но пока мы не предположим, что эта величина характеризует итоговое знание субъекта (в том числе и для случая, когда это знание является результатом совсем другой серии сообщений), ее знание нам ничего не даст.

Давайте рассмотрим следующий пример. Пусть предметная область X представляет собой совокупность элементарных альтернативных возможностей x. Любое событие, определенное в рамках данной предметной области, описывается как объединение нескольких различных x. Если эту картину дополнить распределением вероятностей, она будет соответствовать принятому определению вероятностного пространства. Но рассматриваемая предметная область не обязана описывать все возможные мировые события. Поэтому давайте рассмотрим две различные ситуации: когда событие A имеет строгое логическое определение в рамках предметной области (т.е. когда оно представляет собой логическую сумму нескольких различных альтернативных возможностей x) и когда оно такого определения не имеет. В обоих случаях нас интересует количество информации О ПРЕДМЕТНОЙ ОБЛАСТИ, полученной субъектом в сообщении о достоверности события A.

В первом случае полученная информация определяется, в соответствии с формулой, отрицательным логарифмом вероятности p(A|X). Здесь символ X в списке условий обозначает, что все вероятности и количества информации определяются в рамках рассматриваемой предметной области. Указанную вероятность можно рассчитать как сумму вероятностей p(x|X) для всех x, принадлежащих A. Учет следующего сообщения о событии, имеющем строгое логическое определение в рамках предметной области, может привести только к дальнейшему сужению множества допустимых альтернатив x. Но количество информации, полученной в серии сообщений, по-прежнему будет определяться отрицательным логарифмом от суммы вероятностей всех допустимых альтернатив x. Рано или поздно останется только одно возможное значение x, что будет соответствовать окончательному и точному знанию предметной области. В результате субъект получит количество информации, измеряемое отрицательным логарифмом p(x|X).

Если вспомнить теперь, что в соответствии с нашими допущениями количество информации должно являться функцией знания субъекта (в данном случае речь идет о знании предметной области), то для нахождения этой функции нам, вроде бы, остается только выбрать точку отсчета. Велик соблазн выбрать за нулевой уровень априорное знание субъекта, которому соответствует распределение p(x|X). В этом случае легко и однозначно определяется количество знания для любого промежуточного результата (как тот же отрицательный логарифм от суммы вероятностей всех допустимых альтернатив x). Несколько смущает, что количество информации для окончательного точного знания оказывается зависимым от x, хотя с точки зрения описания предметной области (если к нему не относить априорное распределение) все альтернативы равноправны.

Я хочу заранее отметить, что поддаваться этому соблазну не следует. Априорное распределение следует рассматривать только как вариант знаний субъекта о предметной области, которые будут изменены последующими сообщениями. Поэтому более правильным является подход, согласно которому количественная мера окончательного точного знания субъекта о предметной области не должна зависеть от x. Правда в этом случае, вычитая из количественной оценки окончательного точного знания количество информации, полученной в сообщении, мы не получим единой количественной оценки для априорного знания субъекта. Исключением является единственный частный случай, когда априорное распределение равномерно. В последнем случае количественная мера знания определяется отрицательным логарифмом числа возможных альтернатив, хотя правильнее ее было бы назвать «мерой незнания», поскольку за нулевой уровень принято окончательное точное знание. Результат, согласно которому не удается получить единую количественную оценку знания для случая произвольного распределения (а не только равномерного по множеству возможных альтернатив), я разъясню далее, при рассмотрении более общего случая.

К более общему случаю как раз относится сообщение о событии A, не имеющем строго логического определения в рамках предметной области. Такое событие может быть определено в рамках более широкого пространства, подпространством которого является рассматриваемая предметная область. В таком случае, с точки зрения предметной области событие A будет описываться неким набором вероятностей p(A|x) для всевозможных значений x. Символ X в списке условий здесь указывать не обязательно, поскольку он ничего не добавит к условию x. Такое описание позволяет утверждать, что в общем случае любое событие A имеет «вероятностное» определение в рамках предметной области. Очевидно, что строго логическое определение является частным случаем вероятностного: когда вероятности p(A|x) принимают значение только нулей или единиц.

Итак, каково количество информации О ПРЕДМЕТНОЙ ОБЛАСТИ, получаемой субъектом в сообщении о таком событии? Я еще раз подчеркиваю, что речь идет исключительно о знаниях предметной области, поскольку сообщение, вообще говоря, может нести и некую ПОСТОРОННЮЮ информацию. В частности, искомое количество информации нельзя вычислять как отрицательный логарифм от p(A|X), поскольку информация о событии, не имеющем строго логического определения в рамках предметной области, заведомо несет постороннюю информацию. Это можно проиллюстрировать следующим примером. Давайте поделим все вероятности p(A|x) на 2. Тогда p(A|X) тоже поделится на два, что будет соответствовать увеличению рассчитанного указанным образом количества информации на один бит. Но ни апостериорное распределение p(x|AX), ни, тем более, априорное распределение p(x|X) никак не изменятся. А это означает, что такая операция никак не повлияет на знание субъекта о предметной области и, соответственно, на количество информации о предметной области, полученной в сообщении. Т.е. такое изменение вероятностей лишь увеличивает на один бит количество посторонней информации, переданной в сообщении.

Количество информации именно о предметной области, получаемой субъектом в сообщении, можно рассчитать по другому. Рассмотрим сообщение о достоверности одной из альтернатив x. Как мы уже выяснили, количество информации в таком сообщении вычисляется как отрицательный логарифм вероятности p(x|X). Если это сообщение получено уже после сообщения о достоверности A, то оно будет нести количество информации, измеряемое как отрицательный логарифм от апостериорной вероятности p(x|AX). Результатом в обоих случаях будет одно и то же знание - о достоверности x. Поэтому, в соответствии с принципом аддитивности, искомое количество информации в сообщении о достоверности A (обозначим его как i{p(x|A)|X} или просто i), вычисляется как разница двух указанных величин:

i = I(x|X) - I(x|AX)

Трудность состоит в том, что эта величина зависит от окончательного значения x (эта зависимость исчезает только в частном случае строго логического определения A в рамках предметной области), что на первый взгляд кажется очень странным. Формально, это может трактоваться как противоречивость в исходных допущениях о существовании единой численной меры знания. Однако, возможна и другая трактовка, лишь слегка расширяющая исходные допущения. Она состоит в том, что количественная мера знания является не просто определенным действительным числом, а СЛУЧАЙНОЙ ВЕЛИЧИНОЙ. Мы не знаем окончательного значения x, а значит и не знаем конкретного значения i. Но нам известно распределение p(x|AX), а значит, зная функциональную зависимость i от x, мы знаем и распределение случайной величины i.

В соответствии с этой трактовкой, субъект получает в сообщении информацию, количество которой, вообще говоря, известно только с определенной степенью вероятности. По мере уточнения знаний о предметной области, уточняется и знание о количестве полученной информации. В одном частном случае количество полученной информации известно точно: когда сообщение свидетельствует о достоверности события, имеющего строгое логическое определение в рамках рассматриваемой предметной области.

Конечно, всегда можно подсчитать средне-вероятное значение количества информации, полученной в сообщении. Для этого достаточно вычислить математическое ожидание случайной величины i. В соответствии с формулой для математического ожидания это значение составит:

Σx p(x|AX) log { p(x|AX) / p(x|X) }

Что можно расписать в виде разности:

Σx p(x|AX) log { p(x|AX) } - Σx p(x|AX) log { p(x|X) }

Второй член принимает более простую форму для случая, когда априорное распределение p(x|X) является равномерным: от него остается только log(n), где n - число альтернативных возможностей x в рамках рассматриваемой предметной области. Если обозначить первый член как -E(x|AX), мы получим, что средне-вероятное количество информации, получаемой в сообщении, записывается в виде разности:

log(n) - E(x|AX)

Здесь E(x|AX) - положительная величина, рассчитываемая из апостериорного распределения. Ее обычно называют «энтропией». Она принимает максимальное значение для равномерного распределения и равна нулю, если вероятность одного из x равна единице (в случае точного знания предметной области).

Очевидно, что любое априорное распределение тоже можно рассматривать как результат сообщения о некоем событии. В таком случае, в формулу для энтропии можно вместо апостериорного распределения поставить априорное и получить выражение для средне-вероятного количества информации, полученной в сообщении, результатом которого является априорное распределение. Вообще говоря, если за нулевой уровень принять такое знание субъекта о предметной области, которому соответствует равномерное распределение, то средне-вероятное количество знания, соответствующее любому распределению p(x|X) запишется в виде:

log(n) - E(x|X),      где     E(x|X) = - Σx p(x|X) log { p(x|X) }

Следует напомнить, что речь идет лишь о средне-вероятном количестве знания, а не о конкретном значении, соответствующем распределению. Конкретное значение станет известным лишь после получения точного знания о достоверности определенной альтернативы x. Причем полученное конкретное значение, конечно, может не совпадать со средне-вероятным. В общем случае оно равно:

log(n) + log { p(x|X) }

Здесь из первого члена, количественно характеризующего точное знание, вычитается количество информации, полученной в сообщении о достоверности события x.

Интересен информационный смысл величины, определенной как «энтропия». С точки зрения формулы для количества знания, это средне-вероятное количество информации, недостающей до полного знания. О таком смысле энтропии, как ни странно, упоминал еще Больцман, который первый показал, что известная в термодинамике соответствующая величина имеет вероятностную интерпретацию.

Согласно общим принципам описания макроскопического состояния вещества, используемого термодинамикой, энтропия - это функция равновесного состояния тела, прирост которой характеризует переданное телу количество тепловой энергии, отнесенное к его температуре. Поскольку тепловая энергия передается только от горячего тела к холодному, энтропия холодного тела возрастает сильнее, чем убывает энтропия горячего. Отсюда, вроде бы, и следует пресловутый второй закон термодинамики, согласно которому суммарная энтропия может только возрастать. А максимальное значение энтропии в системе достигается при полном равновесии: когда никакие внутренние теплообмены уже не происходят.

Тут весь вопрос в том, что такое «равновесное состояние». Вроде бы, мы смотрим на тело, а оно никак не меняется, значит - это и есть равновесное состояние. Но на самом-то деле тело постоянно меняется: одни молекулы движутся туда, другие - сюда; одни - замедляются, другие - ускоряются. Но с нашей точки зрения это все НЕСУЩЕСТВЕННО. А что же тогда существенно? Вот в этом-то и состоит предмет термодинамики: на основании всего огромного количества возможных состояний тела, включающих положения и скорости каждой молекулы, определить небольшое количество усредненных «макроскопических» параметров, которые нас интересуют.

Тут и вступает в дело теория вероятностей, которая позволяет описывать состояние тела с точки зрения весьма неполного знания. Мы берем все возможные состояния тела, накладываем на них ряд общефизических ограничений, например, закон сохранения энергии, а все оставшиеся варианты полагаем равновероятными: просто потому, что у нас нет никакой возможности их различать, а не потому, что такова «объективная реальность». А в результате у нас получается, что некие «равновесные» макроскопические состояния оказываются существенно более вероятными, чем всякие другие - «неравновесные». Почему? Опять же, не из-за какой-то загадочной «объективной реальности», а просто потому, что каждое равновесное состояние объединяет в себе гораздо большее количество не различаемых нами вариантов.

С точки же зрения полного, микроскопического описания тела два различных «равновесных» состояния похожи друг на друга ничуть не более, чем любые другие состояния. Но с точки зрения макроскопического описания мы их просто не различаем, т.е. относим к одному состоянию. А вот неравновесные состояния мы различаем. Таким образом, странный факт, свидетельствующий о том, что термодинамическая система из неравновесного состояния постоянно норовит перейти в равновесное, объясняется не чудесным устройством Универсума, а характером нашего знания, которое игнорирует множество различий в пределах равновесного состояния системы.

Второй закон термодинамики, переведенный в термины вероятностей и количеств информации, всего лишь гласит: «Знание о состоянии термодинамической системы имеет свойство постепенно утрачиваться». Действительно, система постоянно меняет свои микроскопические состояния, а мы не в состоянии полностью отслеживать эти изменения. В результате, через некоторое время мы оказываемся в состоянии совершенного незнания, которое обобщенно характеризуем как «знание о термодинамическом равновесии системы».

Я, в сущности, затеял изложение вероятностных формализмов лишь затем, чтобы продемонстрировать, что ЛЮБАЯ рассматриваемая предметная область, а не только состояния физического тела, допускает описание в терминах неполного знания, и что для любого описания можно подсчитать энтропию. Я хотел показать, что энтропия характеризует лишь степень нашего незнания, а не объективные характеристики предметной области. Я привел формализмы, в соответствии с которыми учет того или иного факта может понижать энтропию описания предметной области. И я показал, что возрастание энтропии является только следствием утраты знания о предметной области, хотя и не привел формализмов, описывающих эту утрату.

Последнее является отдельной проблемой. Известные формализмы, как вероятностные, так и формально-логические, ориентированы на описание приобретения знания, а не на описание его утраты. Это отражает традиционный подход, согласно которому научное знание якобы может только накапливаться. Но этот подход концептуально неверен, как я уже отмечал в своей статье про вероятности (вспомните раздел про диверсификацию и конкретизацию), а формализмы для адекватного описания утраты знания необходимы. Может быть когда-нибудь я вернусь к этому вопросу.


Используются технологии uCoz