4. Стандартный подход к определению условной вероятности

Чтобы понять, откуда берутся условные вероятности, необходимо еще раз вспомнить, что вероятностная схема описывает не «просто события», а события в контексте конкретной ситуации - с позиций определенных знаний субъекта. Чем определяется этот контекст? В частности - пространством известных событий. Если событие не рассматривается как возможное, оно может и не присутствовать в пространстве событий. Например, игрок, бросающий кость, может выбросить число очков от одного до шести. Поскольку на кости нет грани с числом очков «семь», выпадение семи очков не включается в пространство событий (хотя его можно включить, но только с нулевой вероятностью).

Как новое знание изменяет контекст конкретной ситуации? Рассмотрим один частный случай, когда новое знание состоит в том, что событие A определенно имеет место. Как известно, все пространство событий можно разбить на два несовместных подпространства: A и ~A. С позиций нового знания подпространство ~A должно быть исключено из пространства событий (или ему должна быть приписана нулевая вероятность). Событие же A признается достоверным, т.е. его вероятность становится равной единице. Чтобы отличать вероятности с позиций нового знания от вероятностей с позиций старого знания, для первых вводится понятие «условных вероятностей». В их записи после вертикальной черты приводится соответствующее условие. В частности, указанные выше два следствия нового знания запишутся в виде формул:

p(~A|A)=0 и p(A|A)=1.

Если теперь мы возьмем произвольное событие B, целесообразно задаться вопросом, чему станет равна его вероятность с позиции нового знания, т.е. какова условная вероятность p(B|A)? Для классического вероятностного пространства (которое, как мы помним, является частным случаем общего определения вероятностного пространства) задача решается достаточно просто. Если всего имеется m элементарных несовместных равновозможных исходов, событие A объединяет i исходов, событие B - j исходов, а логическое произведение этих событий (т.е. событие AB) - k исходов, то верны следующие формулы для вероятностей:

p(A)=i/m, p(B)=j/m, p(AB)=k/m, p(B|A)=k/i.

Последняя формула получена из следующих соображений. Пространство событий с позиций нового знания состоит из i элементарных несовместных равновозможных исходов, причем k из этих исходов относятся к событию B, а остальные - не относятся. Сопоставляя первую, третью и последнюю формулы, получаем формулу для условной вероятности:

p(B|A)=p(AB)/p(A).

А как быть с общим случаем: с определением вероятностного пространства без ссылки на равновозможные исходы? Обычно данную формулу автоматически распространяют на общий случай, что является довольно произвольным допущением.

Но давайте попробуем обойтись без произвольных допущений. Для начала обратим внимание, что условная вероятность p(B|A) должна однозначно определяться вероятностным описанием исходной ситуации (потому что больше ей не от чего зависеть). А вероятностное описание исходной ситуации исчерпывается тремя числами: p(A), p(B) и p(AB). Почему? Потому что через них можно выразить вероятности любых логических комбинаций событий A и B. Т.е. условная вероятность должна вычисляться как некоторая функция f от этих трех исходных вероятностей.

Теперь давайте рассмотрим два события C1 и C2, каждое из которых является подмножеством (в терминах теории множеств) или причиной (в терминах логики) события A, т.е. для них верны соотношения:

AC1=C1 и AC2=C2

Если вероятности событий C1 и C2 равны, то равны и вероятности событий AC1 и AC2. Отсюда следует равенство условных вероятностей p(C1|A) и p(C2|A). Таким образом, мы вывели принцип СОХРАНЕНИЯ РАВНОПРАВИЯ ПРИЧИН, который состоит в том, что равноправные (равновероятные) причины события A останутся равноправными (равновероятными) и с позиций знания о достоверности события A.

А теперь давайте рассмотрим события AB1 и AB2. Очевидно, что оба они являются причинами (подмножествами) события A. Если их вероятности равны, будут равны и их условные вероятности, рассчитанные на основе знания о достоверности события A. Можно также показать, что условная вероятность p(AB|A) равна условной вероятности p(B|A). Что отсюда следует? Что если вероятности событий AB1 и AB2 равны, то равны будут и условные вероятности событий B1 и B2, рассчитанные с позиций знания о достоверности события A. Т.е. функция f на самом деле не зависит от p(B) и у нее остаются только две переменные: p(A) и p(AB).

Теперь, использовав свойство аддитивности вероятностей, можно вывести и собственно выражение для функции f. Из аддитивности вероятностей p(AB) и p(B|A) по отношению к различным несовместным событиям B следует аддитивность функции f:

f(x+y) = f(x) + f(y)

Здесь x и y - соответствуют вероятностям p(AB) для различных B (зависимость от p(A) не показана). Поскольку f - числовая функция, определенная на подмножестве действительных чисел, свойство аддитивности для нее означает линейность функции (с учетом некоторых естественных допущений о ее непрерывности). Т.е.

p(B|A)=p(AB)*g.

Здесь множитель g является, очевидным образом, функцией только от p(A), что позволяет найти его из условия нормировки:

1=p(B|A)+p(~B|A)=p(AB)*g+p(A~B)*g=p(A)*g.

Отсюда получаем:

g=1/p(A), т.е. p(B|A)=p(AB)/p(A).

Итак, мы убедились, что формула условной вероятности прекрасно выводится и без классического предположения о существовании равновероятных элементарных исходов. Эта формула ценна тем, что она определяет, как меняются вероятности в связи со знанием о достоверности определенного события. Попробуем сделать из этого какие-нибудь полезные выводы.

Одним из самых полезных выводов является формула Байеса, которая гласит, что p(B|A) можно найти из p(A|B), помножив последнюю на p(B) и пронормировав результат по B. Формула Байеса широко используется для экспериментального уточнения значения случайных величин или векторов.

К примеру, пусть x - неизвестное истинное значение некоторого числа или вектора. Мы пытаемся его измерить, но результат содержит существенную инструментальную ошибку, т.е. мы получаем в результате не x, а некий y. Но мы знаем, в чем состоит инструментальная ошибка, т.е. мы знаем, каково будет распределение вероятностей y при условии, что истинное значение величины - x, а именно, мы знаем p(y|x) («инструментальное» распределение). Хотелось бы на основании этих данных найти истинное значение x, а если это невозможно - хотя бы распределение вероятностей для него.

Формула Байеса предоставляет последнюю возможность, правда для этого необходимо знать некое «априорное» распределение вероятностей для x. Здесь под априорным распределением p(x) понимается распределение вероятностей с позиций нашего доопытного знания, т.е. «исходные ожидания». Мы перемножаем инструментальное распределение p(y|x) на априорное p(x), нормируем результат по x и получаем некое распределение p(x|y). Это распределение называют «апостериорным», т.е. «послеопытным». Оно характеризует знание субъекта об истинном значении величины x, полученное после измерения. Если инструментальная ошибка невелика, это знание будет существенно точнее априорного знания, выражаемого распределением p(x).

Прелесть этого подхода состоит в том, что это апостериорное распределение с точки зрения второго измерения является априорным. Так что если точность единичного измерения нас не устраивает, мы можем провести несколько уточняющих измерений. Нам достаточно только каждый раз домножать распределение на p(y|x) и проводить нормировку. (Конечно, y при каждом измерении будет разный, а x предполагается одним и тем же).

Гармонию этого подхода нарушает только априорная вероятность, которая есть непонятно что такое и непонятно откуда берется. А что будет, если о ней просто забыть? Ничего страшного, просто получится, что мы рассматриваем априорное распределение как равномерное. Тогда результатом первого измерения будет нормированное по x инструментальное распределение p(y|x). Запишем его еще раз в форме условной вероятности: p(x|y1). Здесь индекс при параметре y напоминает, что речь идет о конкретном значении, полученном в первом измерении.

Вместо y1 в это выражение можно подставить y2 и это будет означать результат второго измерения, поскольку в измерениях различается только полученное значение, но не способ расчета результата. Чтобы получить результат серии из n измерений, достаточно пронормировать следующее произведение распределений:

p(x|y1)*p(x|y2)*...*p(x|yn)

Этот результат не удивителен, поскольку его же можно получить из более общего случая для серии из n зависимых испытаний. В этом случае, совместное инструментальное распределение запишется следующим образом: p(y1,y2,...,yn|x). Искомое распределение p(x|y1,y2,...,yn) получается отсюда простой перенормировкой по x (если забыть об априорной вероятности). Очевидно, что поскольку для независимых измерений инструментальное распределение для серии распадается на произведение инструментальных распределений отдельных измерений, то в этом случае получится вышеприведенный результат.

А теперь давайте вспомним об априорном распределении. Вспомним, что на самом-то деле мы ищем следующее распределение: p(x|a,y1,y2,...,yn). Здесь знак a напоминает, что к контексту рассматриваемой ситуации относится не только множество значений, полученных в серии измерений, но и априорное знание субъекта. Учебники почему-то забывают об этом. Из-за этого так непонятно появление какой-то априорной вероятности в формуле Байеса.

Интуитивно понятно, что для серии независимых измерений, чтобы получить полностью корректную формулу, необходимо добавить к произведению распределений - результатов измерений еще один сомножитель - априорное распределение. После этого формула примет следующий вид:

p(x|a)*p(x|y1)*p(x|y2)*...*p(x|yn)

Пронормировав данное произведение по x, мы получим искомое распределение p(x|a,y1,y2,...,yn). Первый сомножитель обычно записывают просто как p(x), называя его априорным распределением. Такая запись затушевывает тот факт, что априорные вероятности тоже зависимы от знаний субъекта и никаких «абсолютных» вероятностей не существует. Здесь это записано явно.

Следующие сомножители тоже имеют совершенно иной смысл, чем тот, который придают учебники записям типа p(x|y). Обычно такая запись используется для апостериорного распределения, которое, в частности, учитывает априорное знание. Обратите внимание, что здесь это не так! Не забывайте, что ранее мы исключили априорное знание из формулы Байеса. В дальнейшем при записи апостериорного распределения я буду указывать зависимость от априорного знания в явном виде: p(x|a,y)

Данная формула демонстрирует приятную глазу симметрию между знанием, полученным в эксперименте, и априорным знанием: оба типа распределений в результате должны быть перемножены. Единственная проблема: непонятно что собой представляют сомножители p(x|y), раз уж они не являются апостериорными распределениями. Чтобы разобраться с этим, давайте перейдем к следующему разделу.


ДАЛЕЕ
Используются технологии uCoz