Метод байеса для распознавания сигналов. Статистические методы распознавания

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Введение

Метод Байеса относится к статистическим методам распознавания, основное преимущество которых состоит в возможности одновременного учета признаков различной физической природы. Это связано с тем, что все признаки характеризуются безразмерными величинами - вероятностями их появления при различных состояниях системы.

Метод Байеса благодаря своей простоте и эффективности занимает особое место среди методов технической диагностики, хотя имеет и недостатки, например большой объем предварительной информации, «угнетение» редко встречающихся диагнозов и др. Однако в случаях, когда объем статистической информации позволяет применить метод Байеса, его целесообразно использовать как один из наиболее надежных и эффективных методов.

1. Основы метода Байеса

Метод основан на формуле Байеса (формуле вероятности гипотез).

Если имеется диагноз D i и простой признак k j , встречающийся при этом диагнозе, то вероятность совместного появления событий (наличие у объекта состояния D i и признака k j ), определяется по формуле:

P (D i k j ) = P (D i ) P (k j /D i ) = P (k j ) P (D i / k j ). (1.1.)

Из этого равенства вытекает формула Байеса:

P(D i / k j ) = P(D i ) P(k i /D i )/P(k j ) (1.2.)

Очень важно определить точный смысл всех входящих в эту формулу величин.

P (D i ) --вероятность диагноза D i , определяемая по статистическим данным (априорная вероятность диагноза ). Так, если предварительно обследовано N объектов и у N i объектов имелось состояние D i , то

P (D i ) = N i /N . (1.3.)

P (k j /D i k j у объектов с состоянием D i .

Если среди N i объектов, имеющих диагноз D i , у N ij проявился признак k j , то байес корреляционный вероятностный

P (k j /D i ) = N ij /N i . (1.4.)

P (k j ) --вероятность появления признака k j во всех объектах независимо от состояния (диагноза)объекта. Пусть из общего числа N объектов признак k j был обнаружен у N j объектов, тогда

P (k j ) = N j /N . (1.5.)

Для установления диагноза специальное вычисление P (kj ) не требуется. Как будет ясно из дальнейшего, значения P (D i P (k j / D i ), известные для всех возможных состояний, определяют величину P (k j ).

В равенстве P (D i /k j )--вероятность диагноза D i после того, как стало известно наличие у рассматриваемого объекта признака k j (апостериорная вероя т ность диагноза ).

2 . Обобщенная формула Байеса

Эта формула относится к случаю, когда обследование проводится по комплексу признаков К , включающему признаки k 1 , k 2 , ..., k v . Каждый из признаков k j имеет m j разрядов (k j l , k j 2 , ..., k js , ...,). В результате обследования становится известной реализация признака

k j * = k js (1.5.)

и всего комплекса признаков K *. Индекс *, как и раньше, означает конкретное значение (реализацию) признака. Формула Байеса для комплекса признаков имеет вид

P (D i / К * )= P (D i )P (К */D i )/P (К * )(i = 1, 2, ..., n ), (1.6.)

где P (D i / К * ) --вероятность диагноза D i после того, как стали известны результаты обследования по комплексу признаков К , P (D i ) --предварительная вероятность диагноза D i (по предшествующей статистике).

Формула (1.6.) относится к любому из n возможных состояний (диагнозов) системы. Предполагается, что система находится только в одном из указанных состояний и потому

В практических задачах нередко допускается возможность существования нескольких состояний А1, ….., Аr, причем некоторые из них могут встретиться в комбинации друг с другом.

P (К */ D i ) = P(k 1 */ D i )P (k 2 */ k 1 * D i )...P (k v */ k l * ...k* v- 1 D i ), (1.8.)

где k j * = k js --разряд признака, выявившийся в результате обследования. Для диагностически независимых признаков

P (К */ D i ) = P (k 1 */ D i ) P (k 2 */ D i )... P (k v * / D i ). (1.9.)

В большинстве практических задач, особенно при большом числе признаков, можно принимать условие независимости признаков даже при наличии существенных корреляционных связей между ними.

Вероятность появления комплекса признаков К *

P (К *)= P (D s )P (К */D s ) . (1.10.)

Обобщенная формула Байеса может быть записана так :

P (D i / K * ) (1.11.)

где P (К */ D i )определяется равенством (1.8.) или (1.9.). Из соотношения (1.11.) вытекает

P (D i / К *)=l, (1.12.)

что, разумеется, и должно быть, так как один из диагнозов обязательно реализуется, а реализация одновременно двух диагнозов невозможна. Следует обратить внимание на то, что знаменатель формулы Байеса для всех диагн о зов одинаков. Это позволяет сначала определить вероятности совместного появл е ния i -гo диагноза и данной реализации комплекса признаков

P (D i К *) = P (D i )P (К */D i ) (1.13.)

и затем апостериорную вероятность диагноза

P (D i /К *) = P (D i К *)/P (D s К *). (1.14.)

Отметим, что иногда целесообразно использовать предварительное логарифмирование формулы (1.11.), так как выражение (1.9.) содержит произведения малых величин.

Если реализация некоторого комплекса признаков К * является детерминирующей для диагноза D p , то этот комплекс не встречается при других диагнозах:

Тогда, в силу равенства (1.11.)

Таким образом, детерминистская логика установления диагноза является частным случаем вероятностной логики. Формула Байеса может использоваться и в том случае, когда часть признаков имеет дискретное распределение, а другая часть -- непрерывное. Для непрерывного распределения используются плотности распределения. Однако в расчетном плане указанное различие признаков несущественно, если задание непрерывной кривой осуществляется с помощью совокупности дискретных значений.

3 . Диагностическая матрица

Для определения вероятности диагнозов по методу Байеса необходимо составить диагностическую матрицу (табл. 1.1), которая формируется на основе предварительного статистического материала. В этой таблице содержатся вероятности разрядов признаков при различных диагнозах.

Таблица 1.1

Диагностическая матрица в методе Байеса

ДиагнозD i

Признак k j

k 1

k 2

P(k 11 /D i )

P(k 12 /D i )

P(k 21 /D i )

P(k 22 /D i )

P(k 23 /D i )

P(k 24 /D i )

P(k 31 /D i )

P(k 32 /D i )

D 1

D 2

Если признаки двухразрядные (простые признаки «да -- нет»), то в таблице достаточно указать вероятность появления признака Р (k i /D i ). Вероятность отсутствия признака Р ( /D,-) = 1 - Р (k i /D i ).

Однако более удобно использовать единообразную форму, полагая, например, для двухразрядного признака Р (k j /D i ) = Р (k i 1 /D i ); Р ( /D,) = Р (k i 2 /D i ).

Отметим, что P(k js /Di) = 1, где т, -- число разрядов признака k j . Сумма вероятностей всех возможных реализаций признака равна единице.

В диагностическую матрицу включены априорные вероятности диагнозов. Процесс обучения в методе Байеса состоит в формировании диагностической матрицы. Важно предусмотреть возможность уточнения таблицы в процессе диагностики. Для этого в памяти ЭВМ следует хранить не только значения P(k js /Di), но и следующие величины: N -- общее число объектов, использованных для составления диагностической матрицы; N i D i ; N ij -- число объектов с диагнозом D i , обследованных по признаку k j . Если поступает новый объект с диагнозом D м , то проводится корректировка прежних априорных вероятностей диагнозов.

Далее вводятся поправки к вероятностям признаков. Пусть у нового объекта с диагнозом D м выявлен разряд r признака k j . Тогда для дальнейшей диагностики принимаются новые значения вероятности интервалов признака k j при диагнозе D м :

Условные вероятности признаков при других диагнозах корректировки не требуют.

Заключение

В методе Байеса объект с комплексом признаков К * относится к диагнозу с наибольшей (апостериорной) вероятностью

K* D i , если P(D i / K *) > P(D j / K *) (j = 1, 2,..., n ; i ? j ). (1.17.)

Символ , применяемый в функциональном анализе, означает принадлежность множеству. Условие (1.17.) указывает, что объект, обладающий данной реализацией комплекса признаков К * или, короче, реализация К * принадлежит диагнозу (состоянию) D i . Правило (1.17.) обычно уточняется введением порогового значения для вероятности диагноза:

P (D i / K *) ? P i , (1.18.)

где P i . -- заранее выбранный уровень распознавания для диагноза D i . При этом вероятность ближайшего конкурирующего диагноза не выше 1 - P i . Обычно принимается P i ? 0,9. При условии

P(D i / K *)

i (1.19.)

решение о диагнозе не принимается (отказ от распознавания) и требуется поступление дополнительной информации.

Процесс принятия решения в методе Байеса при расчете на ЭВМ происходит достаточно быстро. Например, постановка диагноза для 24 состояний при 80 многоразрядных признаках занимает на ЭВМ с быстродействием 10 - 20 тысяч операций в секунду всего несколько минут.

Как указывалось, методу Байеса присущи некоторые недостатки, например погрешности при распознавании редких диагнозов. При практических расчетах целесообразно провести диагностику и для случая равновероятностных диагнозов, положив

P(D i ) = l / n (1.20.)

Тогда наибольшим значением апостериорной вероятности будет обладать диагноз D i , для которого Р (K* /D i ) максимальна:

K* D i , если P(K* /D i ) > P(K* /D j ) (j = 1, 2,..., n ; i ? j ). (1.21.)

Иными словами, устанавливается диагноз D i если данная совокупность признаков чаще встречается при диагнозе D i , чем при других диагнозах. Такое решающее правило соответствует методу максимального правдоподобия. Из предыдущего вытекает, что этот метод является частным случаем метода Байеса при одинаковых априорных вероятностях диагнозов. В методе максимального правдоподобия «частые» и «редкие» диагнозы равноправны.

Список использованных источников

1. Горелик, А. Л. Методы распознавания [Текст] : учеб. пособие для вузов / А. Л. Горелик, В. А. Скрипкин. - М. : Высш. шк., 2004. - 261 с.

2. Сапожников, В. В. Основы технической диагностики [Текст] : учеб. пособие / В. В. Сапожников, Вл. В. Сапожников. - М. : Маршрут, 2004. - 318 с.

3. Сердаков, А. С. Автоматический контроль и техническая диагностика [Текст] / А. С. Сердаков. - Киев: Техника, 1971. - 244 с.

4. Стецюк. А. Е. «Основы технической диагностики. Теория распознавания»: учеб. пособие / А. Е. Стецюк, Я. Ю. Бобровников. - Хабаровск: Изд-во ДВГУПС, 2012. - 69 с.

Размещено на Allbest.ru

Подобные документы

    Изучение наиболее типичных алгоритмов решения задач, имеющих вероятностный характер. Ознакомление с элементами комбинаторики, теорией урн, формулой Байеса, способами нахождения дискретных, непрерывных случайных величин. Рассмотрение основ алгебры событий.

    методичка , добавлен 06.05.2010

    Определение и оценка вероятности наступления заданного события. Методика решения задачи, с использованием теоремы сложения и умножения, формулы полной вероятности или Байеса. Применение схемы Бернулли при решении задач. Расчет квадратического отклонения.

    практическая работа , добавлен 23.08.2015

    Статистическое, аксиоматическое и классическое определение вероятности. Дискретные случайные величины. Предельные теоремы Лапласа и Пуассона. Функция распределения вероятностей для многомерных случайных величин. Формула Байеса. Точечная оценка дисперсии.

    шпаргалка , добавлен 04.05.2015

    Вычисление вероятности непогашения кредита юридическим и физическим лицом, с помощью формулы Байеса. Расчет выборочной дисперсии, его методика, основные этапы. Определение вероятности выпадания белого шара из трех, взятых наудачу, обоснование результата.

    контрольная работа , добавлен 11.02.2014

    Применение формул и законов теории вероятности при решении задач. Формула Байеса, позволяющая определить вероятность какого-либо события при условии, что произошло другое статистически взаимозависимое с ним событие. Центральная предельная теорема.

    курсовая работа , добавлен 04.11.2015

    Опыт со случайным исходом. Статистическая устойчивость. Понятие вероятности. Алгебра событий. Принцип двойственности для событий. Условные вероятности. Формулы сложения и умножения вероятностей. Формула Байеса. Пространство элементарных событий.

    реферат , добавлен 03.12.2007

    Определение вероятности выпадения не менее 4-х очков на игральной кости при кидании ее один раз. Определение вероятности изготовления детали (если наудачу взятая сборщиком деталь оказалась отличного качества) первым заводом из используя формулу Байеса.

    контрольная работа , добавлен 29.05.2012

    Показатели безотказности как показатели надежности невосстанавливаемых объектов. Классическое и геометрическое определение вероятности. Частота случайного события и "статистическое определение" вероятности. Теоремы сложения и умножения вероятностей.

    курсовая работа , добавлен 18.11.2011

    Дискретные случайные величины и их распределения. Формула полной вероятности и формула Байеса. Общие свойства математического ожидания. Дисперсия случайной величины. Функция распределения случайной величины. Классическое определение вероятностей.

    контрольная работа , добавлен 13.12.2010

    Математические модели явлений или процессов. Сходимость метода простой итерации. Апостериорная оценка погрешности. Метод вращений линейных систем. Контроль точности и приближенного решения в рамках прямого метода. Метод релаксации и метод Гаусса.

Кто такой Байес? и какое отношение он имеет к менеджменту? – может последовать вполне справедливый вопрос. Пока поверьте мне на слово: это очень важно!.. и интересно (по крайней мере, мне).

В какой парадигме действуют большинство менеджеров: если я наблюдаю нечто, какие выводы могу из этого сделать? Чему учит Байес: что должно быть на самом деле, чтобы мне довелось наблюдать это нечто? Именно так развиваются все науки, и об этом пишет (цитирую по памяти): человек, у которого нет в голове теории, будет шарахаться от одной идеи к другой под воздействием различных событий (наблюдений). Не даром говорят: нет ничего более практичного, чем хорошая теория.

Пример из практики. Мой подчиненный совершает ошибку, и мой коллега (руководитель другого отдела) говорит, что надо бы оказать управленческое воздействие на нерадивого сотрудника (проще говоря, наказать/обругать). А я знаю, что этот сотрудник делает 4–5 тысяч однотипных операций в месяц, и совершает за это время не более 10 ошибок. Чувствуете различие в парадигме? Мой коллега реагирует на наблюдение, а я обладаю априорным знанием, что сотрудник допускает некоторое количество ошибок, так что еще одна не повлияла на это знание… Вот если по итогам месяца окажется, что таких ошибок, например, 15!.. Это уже станет поводом для изучения причин несоответствия стандартам.

Убедил в важности Байесовского подхода? Заинтриговал? Надеюсь, что «да». А теперь ложка дегтя. К сожалению, идеи Байеса редко даются с первого захода. Мне откровенно не повезло, так как я знакомился с этими идеями по популярной литературе, после прочтения которой оставалось много вопросов. Планируя написать заметку, я собрал всё, что ранее конспектировал по Байесу, а также изучил, что пишут в Интернете. Предлагаю вашему вниманию мое лучшее предположение на тему Введение в Байесовскую вероятность .

Вывод теоремы Байеса

Рассмотрим следующий эксперимент: мы называем любое число лежащее на отрезке и фиксируем, когда это число будет, например, между 0,1 и 0,4 (рис. 1а). Вероятность этого события равна отношению длины отрезка к общей длине отрезка , при условии, что появления чисел на отрезке равновероятны . Математически это можно записать p (0,1 <= x <= 0,4) = 0,3, или кратко р (X ) = 0,3, где р – вероятность, х – случайная величина в диапазоне , Х – случайная величина в диапазоне . То есть, вероятность попадания в отрезок равна 30%.

Рис. 1. Графическая интерпретация вероятностей

Теперь рассмотрим квадрат x (рис. 1б). Допустим, мы должны называть пары чисел (x , y ), каждое из которых больше нуля и меньше единицы. Вероятность того, что x (первое число) будет в пределах отрезка (синяя область 1), равна отношению площади синей области к площади всего квадрата, то есть (0,4 – 0,1) * (1 – 0) / (1 * 1) = 0,3, то есть те же 30%. Вероятность того, что y находится внутри отрезка (зеленая область 2) равна отношению площади зеленой области к площади всего квадрата p (0,5 <= y <= 0,7) = 0,2, или кратко р (Y ) = 0,2.

Что можно узнать о значениях одновременно x и y . Например, какова вероятность того, что одновременно x и y находятся в соответствующих заданных отрезках? Для этого надо посчитать отношение площади области 3 (пересечения зеленой и синей полос) к площади всего квадрата: p (X , Y ) = (0,4 – 0,1) * (0,7 – 0,5) / (1 * 1) = 0,06.

А теперь допустим мы хотим знать какова вероятность того, что y находится в интервале , если x уже находится в интервале . То есть фактически у нас есть фильтр и когда мы называем пары (x , y ), то мы сразу отбрасывает те пары, которые не удовлетворяют условию нахождения x в заданном интервале, а потом из отфильтрованных пар мы считаем те, для которых y удовлетворяет нашему условию и считаем вероятность как отношение количества пар, для которых y лежит в вышеупомянутом отрезке к общему количеству отфильтрованных пар (то есть для которых x лежит в отрезке ). Мы можем записать эту вероятность как p (Y |X у х попал в диапазоне ». Очевидно, что эта вероятность равна отношению площади области 3 к площади синей области 1. Площадь области 3 равна (0,4 – 0,1) * (0,7 – 0,5) = 0,06, а площадь синей области 1 (0,4 – 0,1) * (1 – 0) = 0,3, тогда их отношение равно 0,06 / 0,3 = 0,2. Другими словами, вероятность нахождения y на отрезке при условии, что x принадлежит отрезку p (Y |X ) = 0,2.

В предыдущем абзаце мы фактически сформулировали тождество: p (Y |X ) = p (X , Y ) / p(X ). Читается: «вероятность попадания у в диапазон , при условии, что х попал в диапазон , равна отношению вероятности одновременного попадания х в диапазон и у в диапазон , к вероятности попадания х в диапазон ».

По аналогии рассмотрим вероятность p (X |Y ). Мы называем пары (x , y ) и фильтруем те, для которых y лежит между 0,5 и 0,7, тогда вероятность того, что x находится в отрезке при условии, что y принадлежит отрезку равна отношению площади области 3 к площади зеленой области 2: p (X |Y ) = p (X , Y ) / p (Y ).

Заметим, что вероятности p (X , Y ) и p (Y, Х ) равны, и обе равны отношению площади зоны 3 к площади всего квадрата, а вот вероятности p (Y |X ) и p (X |Y ) не равны; при этом вероятность p (Y |X ) равна отношению площади области 3 к области 1, а p (X |Y ) – области 3 к области 2. Заметим также, что p (X , Y ) часто обозначают как p (X &Y ).

Итак, мы ввели два определения: p (Y |X ) = p (X , Y ) / p(X ) и p (X |Y ) = p (X , Y ) / p (Y )

Перепишем эти равенства виде: p (X , Y ) = p (Y |X ) * p(X ) и p (X , Y ) = p (X |Y ) * p (Y )

Поскольку левые части равны, равны и правые: p (Y |X ) * p(X ) = p (X |Y ) * p (Y )

Или мы можем переписать последнее равенство в виде:

Это и есть теорема Байеса!

Неужели столь несложные (почти тавтологические) преобразования рождают великую теорему!? Не спешите с выводами. Давайте еще раз проговорим, что же мы получили. Имелась некая исходная (априорная) вероятность р (Х), того, что случайная величина х равномерно распределенная на отрезке попадает в диапазон Х . Произошло некое событие Y , в результате которого мы получили апостериорную вероятность той же самой случайной величины х : р (Х|Y), и эта вероятность отличается от р (Х) на коэффициент . Событие Y называется свидетельством, в большей или меньшей степени подтверждающим или опровергающим Х . Указанный коэффициент иногда называют мощностью свидетельства . Чем мощнее свидетельство, тем больше факт наблюдения Y изменяет априорную вероятность, тем больше апостериорная вероятность отличается от априорной. Если свидетельство слабое, апостериорная вероятность почти равна априорной.

Формула Байеса для дискретных случайных величин

В предыдущем разделе мы вывели формулу Байеса для непрерывных случайных величин х и y, определенных на отрезке . Рассмотрим пример с дискретными случайными величинами, принимающими каждая по два возможных значения. В ходе проведения плановых медицинских осмотров установлено, что в сорокалетнем возрасте 1% женщин болеет раком молочной железы. 80% женщин больных раком получают положительные результаты маммографии. 9,6% здоровых женщин также получают положительные результаты маммографии. В ходе проведения осмотра женщина данной возрастной группы получила положительный результат маммографии. Какова вероятность того, что у неё на самом деле рак молочной железы?

Ход рассуждений/вычислений следующий. Из 1% больных раком маммография даст 80% положительных результатов = 1%*80% = 0,8%. Из 99% здоровых женщин маммография даст 9,6% положительных результатов = 99%*9,6% = 9,504%. Итого из 10,304% (9,504% + 0,8%) с положительными результатами маммографии, только 0,8% больных, а остальные 9,504% здоровых. Таким образом, вероятность того, что при положительном результате маммографии женщина больна раком составляет 0,8%/10,304% = 7,764%. А вы думали, что 80% или около того?

В нашем примере формула Байеса принимает следующий вид:

Давайте еще раз проговорим «физический» смысл этой формулы. Х – случайная величина (диагноз), принимающая значения: Х 1 – болен и Х 2 – здоров; Y – случайная величина (результат измерения –маммографии), принимающая значения: Y 1 – положительный результат и Y 2 – отрицательный результат; р(Х 1) – вероятность болезни до проведения маммографии (априорная вероятность), равная 1%; р(Y 1 |X 1 ) – вероятность положительного результата в случае, если пациентка больна (условная вероятность, так как она должна быть задана в условиях задачи), равная 80%; р(Y 1 |X 2 ) – вероятность положительного результата в случае, если пациентка здорова (также условная вероятность), равная 9,6%; р(Х 2) – вероятность того, что пациентка здорова до проведения маммографии (априорная вероятность), равная 99%; р(Х 1 |Y 1 ) – вероятность того, что пациентка больна, при условии положительного результата маммографии (апостериорная вероятность).

Видно, что апостериорная вероятность (то, что мы ищем) пропорциональна априорной вероятности (исходной) с несколько более сложным коэффициентом . Подчеркну еще раз. На мой взгляд, это фундаментальный аспект Байесовского подхода. Измерение (Y ) добавило некоторое количество информации к первоначально имевшейся (априорной), что уточнило наше знание об объекте.

Примеры

Для закрепления пройденного материала попробуйте решить несколько задач.

Пример 1. Имеется 3 урны; в первой 3 белых шара и 1 черный; во второй - 2 белых шара и 3 черных; в третьей - 3 белых шара. Некто подходит наугад к одной из урн и вынимает из нее 1 шар. Этот шар оказался белым. Найдите апостериорные вероятности того, что шар вынут из 1-й, 2-й, 3-й урны.

Решение. У нас есть три гипотезы: Н 1 = {выбрана первая урна), Н 2 = {выбрана вторая урна}, Н 3 = {выбрана третья урна}. Так как урна выбирается наугад, то априорные вероятности гипотез равны: Р(Н 1) = Р(Н 2) = Р(Н 3) = 1/3.

В результате опыта появилось событие А = {из выбранной урны вынут белый шар}. Условные вероятности события А при гипотезах Н 1 , Н 2 , Н 3: Р(A|Н 1) = 3/4, Р(A|Н 2) = 2/5, Р(A|Н 3) = 1. Например, первое равенство читается так: «вероятность вынуть белый шар, если выбрана первая урна равна 3/4 (так как всего шаров в первой урне 4, а белых из них – 3)».

Применяя формулу Бейеса, находим апостериорные вероятности гипотез:

Таким образом, в свете информации о появлении события А вероятности гипотез изменились: наиболее вероятной стала гипотеза Н 3 , наименее вероятной - гипотеза Н 2 .

Пример 2. Два стрелка независимо друг от друга стреляют по одной и той же мишени, делая каждый по одному выстрелу. Вероятность попадания в мишень для первого стрелка равна 0,8, для второго - 0,4. После стрельбы в мишени обнаружена одна пробоина. Найти вероятность того, что эта пробоина принадлежит первому стрелку (Исход {обе пробоины совпали} отбрасываем, как ничтожно маловероятный).

Решение. До опыта возможны следующие гипотезы: Н 1 = {ни первый, ни второй стрелки не попадут}, Н 2 = {оба стрелка попадут}, H 3 - {первый стрелок попадет, а второй - нет}, H 4 = {первый стрелок не попадет, а второй попадет). Априорные вероятности гипотез:

Р(H 1) = 0,2*0,6 = 0,12; Р(H 2) = 0,8*0,4 = 0,32; Р (H 3) = 0,8*0,6 = 0,48; Р(H 4) = 0,2*0,4 = 0,08.

Условные вероятности наблюденного события А = {в мишени одна пробоина} при этих гипотезах равны: P(A|H 1) = P(A|H 2) = 0; P(A|H 3) = P(A|H 4) = 1

После опыта гипотезы H 1 и H 2 становятся невозможными, а апостериорные вероятности гипотез H 3 , и H 4 по формуле Бейеса будут:

Байес против спама

Формула Байеса нашла широкое применение в разработке спам-фильтров. Предположим, вы хотите обучить компьютер определять, какие из писем являются спамом. Будем исходить из словаря и словосочетаний, используя байесовские оценки. Создадим вначале пространство гипотез. Пусть относительно любого письма у нас есть 2 гипотезы: H A – это спам, H B – это не спам, а нормальное, нужное, письмо.

Вначале «обучим» нашу будущую систему борьбы со спамом. Возьмем все имеющиеся у нас письма и разделим их на две «кучи» по 10 писем. В одну отложим спам-письма и назовем ее кучей H A , в другую – нужную корреспонденцию и назовем ее кучей H B . Теперь посмотрим: какие слова и словосочетания встречаются в спам- и нужных письмах и с какой частотой? Эти слова и словосочетания назовем свидетельствами и обозначим E 1 , E 2 … Выясняется, что общеупотребительные слова (например, слова «как», «твой») в кучах H A и H B встречаются примерно с одинаковой частотой. Таким образом, наличие этих слов в письме ничего не говорит нам о том, к какой куче его отнести (слабое свидетельство). Присвоим этим словам нейтральное значение оценки вероятности «спамности», скажем, 0,5.

Пусть словосочетание «разговорный английский» встречается всего в 10 письмах, причем чаще в спам-письмах (например, в 7 спам-письмах из всех 10), чем в нужных (в 3 из 10). Поставим этому словосочетанию для спама более высокую оценку 7/10, а для нормальных писем более низкую: 3/10. И наоборот, выяснилось, что слово «дружище» чаще встречалось в нормальных письмах (6 из 10). И вот мы получили коротенькое письмо: «Дружище! Как твой разговорный английский?» . Попробуем оценить его «спамность». Общие оценки P(H A), P(H B) принадлежности письма к каждой куче поставим, воспользовавшись несколько упрощенной формулой Байеса и нашими приблизительными оценками:

P(H A) = A/(A+B), где А = p a1 *p a2 *…*p an , B = p b1 *p b2 *…*p b n = (1 – p a1)*(1 – p a2)*… *(1 – p an).

Таблица 1. Упрощенная (и неполная) Байес-оценка письма

Таким образом, наше гипотетическое письмо получило оценку вероятности принадлежности с акцентом в сторону «спамности». Можем ли мы принять решение о том, чтобы бросить письмо в одну из куч? Выставим пороги принятия решений:

  • Будем считать, что письмо принадлежит куче H i , если P(H i) ≥ T.
  • Письмо не принадлежит куче, если P(H i) ≤ L.
  • Если же L ≤ P(H i) ≤ T, то нельзя принять никакого решения.

Можно принять T = 0,95 и L = 0,05. Поскольку для рассматриваемого письма и 0,05 < P(H A) < 0,95, и 0,05 < P(H В) < 0,95, то мы не сможем принять решение, куда отнести данное письмо: к спаму (H A) или к нужным письмам (H B). Можно ли улучшить оценку, используя больше информации?

Да. Давайте вычислим оценку для каждого свидетельства другим способом, так, как это, собственно, и предложил Байес. Пусть:

F a – это общее количество писем спама;

F ai – это количество писем со свидетельством i в куче спама;

F b – это общее количество нужных писем;

F bi – это количество писем со свидетельством i в куче нужных (релевантных) писем.

Тогда: p ai = F ai /F a , p bi = F bi /F b . P(H A) = A/(A+B), P(H B) = B/(A+B), где А = p a1 *p a2 *…*p an , B = p b1 *p b2 *…*p b n

Обратите внимание – оценки слов-свидетельств p ai и p bi стали объективными и их можно вычислять без участия человека.

Таблица 2. Более точная (но неполная) Байес-оценка по наличным признакам из письма

Мы получили вполне определенный результат – с большим перевесом с вероятностью письмо можно отнести к нужным письмам, поскольку P(H B) = 0,997 > T = 0,95. Почему результат изменился? Потому, что мы использовали больше информации – мы учли количество писем в каждой из куч и, кстати, гораздо более корректно определили оценки p ai и p bi . Определили их так, как это сделано у самого Байеса, вычислив условные вероятности. Другими словами, p a3 – это вероятность появления в письме слова «дружище» при условии того, что это письмо уже принадлежит спам-куче H A . Результат не заставил себя ждать – кажется, мы можем принять решение с большей определенностью.

Байес против корпоративного мошенничества

Любопытное применение Байесовского подхода описал MAGNUS8 .

В моем текущем проекте (ИС для выявления мошенничества на производственном предприятии) используется формула Байеса для определения вероятности фрода (мошенничества) при наличии/отсутствии нескольких фактов, косвенно свидетельствующих в пользу гипотезы о возможности совершения фрода. Алгоритм самообучаем (с обратной связью), т.е. пересчитывает свои коэффициенты (условные вероятности) при фактическом подтверждении или неподтверждении фрода при проверке службой экономической безопасности.

Стоит, наверное, сказать, что подобные методы при проектировании алгоритмов требуют достаточно высокой математической культуры разработчика, т.к. малейшая ошибка в выводе и/или реализации вычислительных формул сведет на нет и дискредитирует весь метод. Вероятностные методы особенно этим грешат, поскольку мышление человека не приспособлено для работы с вероятностными категориями и, соответственно, отсутствует «наглядность» и понимание «физического смысла» промежуточных и итоговых вероятностных параметров. Такое понимание есть лишь для базовых понятий теории вероятностей, а дальше нужно лишь очень аккуратно комбинировать и выводить сложные вещи по законам теории вероятностей - здравый смысл для композитных объектов уже не поможет. С этим, в частности, связаны достаточно серьезные методологические баталии, проходящие на страницах современных книг по философии вероятности, а также большое количество софизмов, парадоксов и задачек-курьезов по этой теме.

Еще один нюанс, с которым пришлось столкнуться - к сожалению, практически все мало-мальски ПОЛЕЗНОЕ НА ПРАКТИКЕ на эту тему написано на английском языке. В русскоязычных источниках в основном только общеизвестная теория с демонстрационными примерами лишь для самых примитивных случаев.

Полностью соглашусь с последним замечанием. Например, Google при попытке найти что-то типа «книги Байесовская вероятность», ничего внятного не выдал. Правда, сообщил, что книгу с байесовской статистикой запретили в Китае . (Профессор статистики Эндрю Гельман сообщил в блоге Колумбийского университета, что его книгу «Анализ данных с помощью регрессии и многоуровневых/иерархических моделей» запретили публиковать в Китае. Тамошнее издательство сообщило, что «книга не получила одобрения властей из-за различных политически чувствительных материалов в тексте».) Интересно, не аналогичная ли причина привела к отсутствию книг по Байесовской вероятности в России?

Консерватизм в процессе обработки информации человеком

Вероятности определяют степень неопределенности. Вероятность, как согласно Байесу, так и нашей интуиции, составляет просто число между нулем и тем, что представляет степень, для которой несколько идеализированный человек считает, что утверждение верно. Причина, по которой человек несколько идеализирован, состоит в том, что сумма его вероятностей для двух взаимно исключающих событий должна равняться его вероятности того, что произойдет любое из этих событий. Свойство аддитивности имеет такие последствия, что мало реальных людей могут соответствовать им всем.

Теорема Байеса – это тривиальное последствие свойства аддитивности, бесспорное и согласованное для всех сторонников вероятностей, как Байеса, так и других. Один их способов написать это следующий. Если Р(H А |D) – последующая вероятность того, что гипотеза А была после того, как данная величина D наблюдалась, Р(H А) – его априорная вероятность до того, как наблюдалась данная величина D, Р(D|H А) – вероятность того, что данная величина D будет наблюдаться, если верно Н А, а Р(D) – безусловная вероятность данной величины D, то

(1) Р(H А |D) = Р(D|H А) * Р(H А) / Р(D)

Р(D) лучше всего рассматривать как нормализующую константу, заставляющую апостериорные вероятности составить в целом единицу по исчерпывающему набору взаимно исключающих гипотез, которые рассматриваются. Если ее необходимо подсчитать, она может быть такой:

Но чаще Р(D) устраняется, а не подсчитывается. Удобный способ устранять ее состоит в том, чтобы преобразовать теорему Байеса в форму отношения вероятность–шансы.

Рассмотрим другую гипотезу, Н B , взаимно исключающую Н А, и изменим мнение о ней на основе той же самой данной величины, которая изменила ваше мнение о Н А. Теорема Байеса говорит, что

(2) Р(H B |D) = Р(D|H B) * Р(H B) / Р(D)

Теперь разделим Уравнение 1 на Уравнение 2; результат будет таким:

где Ω 1 – апостериорные шансы в пользу Н А через H B , Ω 0 – априорные шансы, a L – количество, знакомое статистикам как отношение вероятности. Уравнение 3 – это такая же соответствующая версия теоремы Байеса как и Уравнение 1, и часто значительно более полезная особенно для экспериментов, с участием гипотез. Сторонники Байеса утверждают, что теорема Байеса – формально оптимальное правило о том, как пересматривать мнения в свете новых данных.

Мы интересуемся сравнением идеального поведения, определенного теоремой Байеса, с фактическим поведением людей. Чтобы дать вам некоторое представление о том, что это означает, давайте попробуем провести эксперимент с вами как с испытуемым. Эта сумка содержит 1000 покерных фишек. У меня две такие сумки, причем в одной 700 красных и 300 синих фишек, а в другой 300 красных и 700 синих. Я подбросил монету, чтобы определить, какую использовать. Таким образом, если наши мнения совпадают, ваша вероятность в настоящее время, что выпадет сумка, в которой больше красных фишек – 0,5. Теперь, Вы наугад составляете выборку с возвращением после каждой фишки. В 12 фишках вы получаете 8 красных и 4 синих. Теперь, на основе всего, что вы знаете, какова вероятность того, что выпала сумка, где больше красных? Ясно, что она выше, чем 0,5. Пожалуйста, не продолжайте читать, пока вы не записали вашу оценку.

Если вы похожи на типичного испытуемого, ваша оценка попала в диапазон от 0,7 до 0,8. Если бы мы проделали соответствующее вычисление, тем не менее, ответ был бы 0,97. Действительно очень редко человек, которому предварительно не продемонстрировали влияние консерватизма, приходит к такой высокой оценке, даже если он был знаком с теоремой Байеса.

Если доля красных фишек в сумке – р , то вероятность получения r красных фишек и (n – r ) синих в n выборках с возвращением – p r (1– p) n– r . Так, в типичном эксперименте с сумкой и покерными фишками, если Н A означает, что доля красных фишек составляет р А и Н B – означает, что доля составляет р B , тогда отношение вероятности:

При применении формулы Байеса необходимо учитывать только вероятность фактического наблюдения, а, не вероятности других наблюдений, которые он, возможно, сделал бы, но не сделал. Этот принцип имеет широкое воздействие на все статистические и нестатистические применения теоремы Байеса; это самый важный технический инструмент размышления Байеса.

Байесовская революция

Ваши друзья и коллеги разговаривают о чем-то, под названием «Теорема Байеса» или «Байесовское правило», или о чем-то под названием байесовское мышление. Они действительно заинтересованы в этом, так что вы лезете в интернет и находите страницу о теореме Байеса и… Это уравнение. И все… Почему математическая концепция порождает в умах такой энтузиазм? Что за «байесианская революция» происходит в среде учёных, причем утверждается, что даже сам экспериментальный подход может быть описан, как её частный случай? В чём секрет, который знают последователи Байеса? Что за свет они видят?

Байесовская революция в науке произошла не потому, что все больше и больше когнитивных ученых внезапно начали замечать, что ментальные явления имеют байесовскую структуру; не потому, что ученые в каждой области начали использовать байесовский метод; но потому, что наука сама по себе является частным случаем теоремы Байеса; экспериментальное свидетельство есть байесовское свидетельство. Байесовские революционеры утверждают, что когда вы выполняете эксперимент и получаете свидетельство, которое «подтверждает» или «опровергает» вашу теорию, это подтверждение или опровержение происходит по байесовским правилам. Для примера, вы должны принимать во внимание не только то, что ваша теория может объяснить явление, но и то, что есть другие возможные объяснения, которые также могут предсказать это явление.

Ранее, наиболее популярной философией науки была – старая философия, которая была смещена байесовской революцией. Идея Карла Поппера, что теории могут быть полностью фальсифицированы, однако никогда не могут быть полностью подтверждены, это еще один частный случай байесовских правил; если p(X|A) ≈ 1 – если теория делает верные предсказания, тогда наблюдение ~X очень сильно фальсифицирует А. С другой стороны, если p(X|A) ≈ 1 и мы наблюдаем Х, это не очень сильно подтверждает теорию; возможно какое-то другое условие В, такое что p(X|B) ≈ 1, и при котором наблюдение Х не свидетельствует в пользу А но свидетельствует в пользу В. Для наблюдения Х определенно подтверждающего А, мы должны были бы знать не то, что p(X|A) ≈ 1, а что p(X|~A) ≈ 0, что мы не можем знать, поскольку мы не можем рассматривать все возможные альтернативные объяснения. Например, когда эйнштейновская теория общей относительности превзошла ньютоновскую хорошо подтверждаемую теорию гравитации, это сделало все предсказания ньютоновской теории частным случаем предсказаний эйнштейновской.

Похожим образом, попперовское заявление, что идея должна быть фальсифицируема может быть интерпретировано как манифестация байесовского правила о сохранении вероятности; если результат Х является положительным свидетельством для теории, тогда результат ~Х должен опровергать теорию в каком-то объеме. Если вы пытаетесь интерпретировать оба Х и ~Х как «подтверждающие» теорию, байесовские правила говорят, что это невозможно! Чтобы увеличить вероятность теории вы должны подвергнуть ее тестам, которые потенциально могут снизить ее вероятность; это не просто правило, чтобы выявлять шарлатанов в науке, но следствие из теоремы байесовской вероятности. С другой стороны, идея Поппера, что нужна только фальсификация и не нужно подтверждение является неверной. Теорема Байеса показывает, что фальсификация это очень сильное свидетельство, по сравнению с подтверждением, но фальсификация все еще вероятностна по своей природе; она не управляется фундаментально другими правилами и не отличается в этом от подтверждения, как утверждает Поппер.

Таким образом, мы обнаруживаем, что многие явления в когнитивных науках, плюс статистические методы, используемые учеными, плюс научный метод сам по себе – все они являются частными случаями теоремы Байеса. В этом и состоит Байесовская революция.

Добро пожаловать в Байесовский Заговор!

Литература по Байесовской вероятности

2. Очень много различных применений Байеса описывает нобелевский лауреат по экономике Канеман (со товарищи) в замечательной книге . Только в моем кратком конспекте этой очень большой книги я насчитал 27 упоминаний имени пресвитерианского священника. Минимум формул. (.. Мне очень понравилась. Правда, сложноватая, много математики (а куда без нее), но отдельные главы (например, глава 4. Информация), явно по теме. Советую всем. Даже, если математика для вас сложна, читайте через строку, пропуская математику, и выуживая полезные зерна…

14. (дополнение от 15 января 2017 г. ) , глава из книги Тони Крилли. 50 идей, о которых нужно знать. Математика.

Физик Нобелевский лауреат Ричарда Фейнмана, отзываясь об одном философе с особо большим самомнением, как-то сказал: «Меня раздражает вовсе не философия как наука, а та помпезность, которая создана вокруг нее. Если бы только философы могли сами над собой посмеяться! Если бы только они могли сказать: «Я говорю, что это вот так, а Фон Лейпциг считал, что это по-другому, а ведь он тоже кое-что в этом смыслит». Если бы только они не забывали пояснить, что это всего лишь их .

Наименование параметра Значение
Тема статьи: Метод Байеса
Рубрика (тематическая категория) Технологии

Постановка задач технической диагностики

Основные направления технической диагностики

Основы технической диагностики

РАЗДЕЛ №5

Определœения. Термин ʼʼдиагностикаʼʼ происходит от греческого слова ʼʼдиагнозисʼʼ, что означает распознавание, определœение.

В процессе диагностики устанавливается диагноз, ᴛ.ᴇ. определяется состояние больного (медицинская диагностика) или состояние технической системы (техническая диагностика).

Технической диагностикой принято называть наука о распознавании состояния технической системы.

Цели технической диагностики. Рассмотрим кратко основное содержание технической диагностики. Техническая диагностика изучает методы получения и оценки диагностической информации, диагностические модели и алгоритмы принятия решений. Целью технической диагностики является повышение надежности и ресурса технических систем.

Как известно, наиболее важным показателœем надежности является отсутствие отказов во время функционирования (работы) технической системы. Отказ авиационного двигателя в полетных условиях, судовых механизмов во время плавания корабля, энергетических установок в работе под нагрузкой может привести к тяжелым последствиям.

Техническая диагностика благодаря раннему обнаружению Дефектов и неисправностей позволяет устранить подобные отказы в процессе технического обслуживания, что повышает надежность и эффективность эксплуатации, а также дает возможность эксплуатации технических систем ответственного назначения по состоянию.

В практике ресурс таких систем определяется по наиболее ʼʼслабымʼʼ экземплярам изделий. При эксплуатации по состоянию каждый экземпляр эксплуатируется до предельного состояния в соответствии с рекомендациями системы технической диагностики. Эксплуатация по техническому состоянию может принœести выгоду, эквивалентную стоимости 30% общего парка машин.

Основные задачи технической диагностики. Техническая диагностика решает обширный круг задач, многие из которых являются смежными с задачами других научных дисциплин. Основной задачей технической диагностики является распознавание состояния технической системы в условиях ограниченной информации.

Техническую диагностику иногда называют безразборной диагностикой, т. е. диагностикой, осуществляемой без разборки изделия. Анализ состояния проводится в условиях эксплуатации, при которых получение информации крайне затруднено. Часто не представляется возможным по имеющейся информации сделать однозначное заключение и приходится использовать статистические методы.

Теоретическим фундаментом для решения основной задачи технической диагностики следует считать общую теорию распознавания образцов. Эта теория, составляющая важный раздел технической кибернетики, занимается распознаванием образов любой природы (геометрических, звуковых и т.п.), машинным распознаванием речи, печатного и рукописного текстов и т.д. Техническая диагностика изучает алгоритмы распознавания применительно к задачам диагностики, которые обычно могут рассматриваться как задачи классификации.

Алгоритмы распознавания в технической диагностике частично основываются на диагностических моделях, устанавливающих связь между состояниями технической системы и их отображениями в пространстве диагностических сигналов. Важной частью проблемы распознавания являются правила принятия решений (решающие правила).

Решение диагностической задачи (отнесение изделия к исправным или неисправным) всœегда связано с риском ложной тревоги или пропуска цели. Для принятия обоснованного решения целœесообразно привлекать методы теории статистических решений, разработанные впервые в радиолокации.

Решение задач технической диагностики всœегда связано с прогнозированием надежности на ближайший период эксплуатации (до следующего технического осмотра). Здесь решения должны основываться на моделях отказов, изучаемых в теории надежности.

Вторым важным направлением технической диагностики является теория контролеспособности. Контролеспособностью принято называть свойство изделия обеспечивать достоверную оценку его

технического состояния и раннее обнаружение неисправностей и отказов. Контролеспособность создается конструкцией изделия и принятой системой технической диагностики.

Крупной задачей теории контролеспособности является изучение средств и методов получения диагностической информации. В сложных технических системах используется автоматизированный контроль состояния, которым предусматривается обработка диагностической информации и формирование управляющих сигналов. Методы проектирования автоматизированных систем контроля составляют одно из направлений теории контролеспособности. Наконец, очень важные задачи теории контролеспособности связаны с разработкой алгоритмов поиска неисправностей, разработкой диагностических тестов, минимизацией процесса установления диагноза.

По причине того, что техническая диагностика развивалась первоначально только для радиоэлектронных систем, многие авторы отождествляют теорию технической диагностики с теорией контролеспособности (поиском и контролем неисправностей), что, конечно, ограничивает область приложения технической диагностики.

Структура технической диагностики. На рис. 5.1 показана структура технической диагностики. Она характеризуется двумя взаимопроникающими и взаимосвязанными направлениями: теорией распознавания и теорией контролеспособности. Теория распознавания содержит разделы, связанные с построением алгоритмов распознавания, решающих правил и диагностических моделœей. Теория контролеспособности включает разработку средств и методов получения диагностической информации, автоматизированный контроль и поиск неисправностей. Техническую диагностику следует рассматривать как раздел общей теории надежности.

Рис. 5.1. Структура технической диагностики

Вводные замечания. Пусть требуется определить состояние шлицевого соединœения валов редуктора в эксплуатационных условиях. При большом износœе шлицев появляются перекосы и усталостные разрушения. Непосредственный осмотр шлицев невозможен, так как требует разборки редуктора, т. е. прекращения эксплуатации. Неисправность шлицевого соединœения может повлиять на спектр колебаний корпуса редуктора, акустические колебания, содержание желœеза в масле и другие параметры.

Задача технической диагностики состоит в определœении степени износа шлицев (глубины разрушенного поверхностного слоя) по данным измерений ряда косвенных параметров. Как указывалось, одной из важных особенностей технической диагностики является распознавание в условиях ограниченной информации, когда требуется руководствоваться определœенными приемами и правилами для принятия обоснованного решения.

Состояние системы описывается совокупностью (множеством) определяющих ее параметров (признаков). Разумеется, что множество определяющих параметров (признаков) должна быть различным, в первую очередь, в связи с самой задачей распознавания. К примеру, для распознавания состояния шлицевого соединœения двигателя достаточна некоторая группа параметров, но она должна быть дополнена, в случае если проводится диагностика и других деталей.

Распознавание состояния системы - отнесение состояния системы к одному из возможных классов (диагнозов). Число диагнозов (классов, типичных состояний, эталонов) зависит от особенностей задачи и целœей исследования.

Часто требуется провести выбор одного из двух диагнозов (дифференциальная диагностика или дихотомия); к примеру, ʼʼисправное состояниеʼʼ и ʼʼнеисправное состояниеʼʼ. В других случаях крайне важно более подробно охарактеризовать неисправное состояние, к примеру повышенный износ шлицев, возрастание вибраций лопаток и т. п. В большинстве задач технической диагностики диагнозы (классы) устанавливаются заранее, и в этих условиях задачу распознавания часто называют задачей классификации.

Так как техническая диагностика связана с обработкой большого объёма информации, то принятие решений (распознавание) часто осуществляется с помощью электронных вычислительных машин (ЭВМ).

Совокупность последовательных действий в процессе распознавания принято называть алгоритмом распознавания. Существенной частью процесса распознавания является выбор параметров, описывающих состояние системы. Οʜᴎ должны быть достаточно информативны, чтобы при выбранном числе диагнозов процесс разделœения (распознавания) мог быть осуществлен.

Математическая постановка задачи. Взадачах диагностики состояние системы часто описывается с помощью комплекса признаков

K = (k l , k 2 ,..., k j ,..., k v ), (5.1)

где k j - признак, имеющий m j разрядов.

Пусть, к примеру, признак k j представляет собой трехразрядный признак (m j = 3), характеризующий величину температуры газа за турбиной: пониженная, нормальная, повышенная. Каждый разряд (интервал) признака k j обозначается k js , к примеру повышенная температура за турбиной k j з. Фактически наблюдаемое состояние соответствует определœенной реализации признака, что отмечается верхним индексом *. К примеру, при повышенной температуре реализация признака k* j = k j з.

Вобщем случае каждый экземпляр системы соответствует некоторой реализации комплекса признаков:

K * = (k 1 * , k 2 * ,..., k j * ,..., k v * ). (5.2)

Во многих алгоритмах распознавания удобно характеризовать систему параметрами x j , образующими v - мepный вектор или точку в v -мepнoм пространстве:

X = (x l , x 2 , x j , , x v ). (5.3)

Вбольшинстве случаев параметры x j имеют непрерывное распределœение. К примеру, пусть x j - параметр, выражающий температуру за турбиной. Предположим, что соответствие между параметром x j (° C) итрехразрядным признаком k j таково:

< 450 к j l

450 - 550 к j 2

> 500 к j 3

В данном случае с помощью признака k j получается дискретное описание, тогда как параметр x j дает непрерывное описание. Отметим, что при непрерывном описании обычно требуется значительно больший объём предварительной информации, но описание получается более точным. В случае если, однако, известны статистические законы распределœения параметра, то необходимый объём предварительной информации сокращается.

Из предыдущего ясно, что принципиальных отличий при описании системы с помощью признаков или параметров нет, и в дальнейшем будут использованы оба вида описания.

Как указывалось, в задачах технической диагностики возможные состояния системы - диагнозы D i - считаются известными.

Существуют два базовых подхода к задаче распознавания: вероятностный идетерминистский . Постановка задачи при вероятностных методах распознавания такова. Имеется система, которая находится в одном из ислучайных состояний D i . Известна совокупность признаков (параметров), каждый из которых с определœенной вероятностью характеризует состояние системы. Требуется построить решающее правило, с помощью которого предъявленная (диагностируемая) совокупность признаков была бы отнесена к одному из возможных состояний (диагнозов). Желательно также оценить достоверность принятого решения и степень риска ошибочного решения.

При детерминистских методах распознавания удобно формулировать задачу на геометрическом языке. В случае если система характеризуется v -мерным вектором X , то любое состояние системы представляет собой точку в v-мерном пространстве параметров (признаков). Предполагается, что диагноз D, соответствует некоторой области рассматриваемого пространства признаков. Требуется найти решающее правило, в соответствии с которым предъявленный вектор X * (диагностируемый объект) будет отнесен к определœенной области диагноза. Таким образом задача сводится к разделœению пространства признаков на области диагнозов.

При детерминистском подходе области диагнозов обычно считаются ʼʼнепересекающимисяʼʼ, ᴛ.ᴇ. вероятность одного диагноза (в область которого попадает точка) равна единице, вероятность других равна нулю. Подобным образом предполагается, что и каждый признак либо встречается при данном диагнозе, либо отсутствует.

Вероятностный и детерминистский подходы не имеют принципиальных различий. Более общими являются вероятностные методы, но они часто требуют и значительно большего объёма предварительной информации. Детерминистские подходы более кратко описывают существенные стороны процесса распознавания, меньше зависят от избыточной, малоценной информации, больше соответствуют логике мышления человека.

В последующих главах излагаются основные алгоритмы распознавания в задачах технической диагностики.

Среди методов технической диагностики метод, основанный на обобщенной формуле Бaйeca , занимает особое место благодаря простоте и эффективности.

Разумеется, метод Байеса имеет недостатки: большой объём предварительной информации, ʼʼугнетениеʼʼ редко встречающихся диагнозов и др.
Размещено на реф.рф
При этом в случаях, когда объём статистических данных позволяет применить метод Байеса, его целœесообразно использовать как один из наиболее надежных и эффективных методов.

Основы метода. Метод основан на простой формуле Байеса. В случае если имеется диагноз D i и простой признак k j , встречающийся при этом диагнозе, то вероятность совместного появления событий (наличие у объекта состояния D i и признака k j )

P (D i k j) = P (D i) P (k j /D i) = P (k j) P (D i /k j). (5.4)

Из этого равенства вытекает формула Байеса (см. гл. 11)

P(D i /k j) = P(D i) P(k i /D i)/P(k j ) (5.5)

Очень важно определить точный смысл всœех входящих в эту формулу величин.

P (D i ) - вероятность диагнозаD i , определяемая по статистическим данным (априорная вероятность диагноза ). Так, в случае если предварительно обследовано N объектов и у N i объектов имелось состояние D i , то

P (D i ) = N i /N . (5.6)

P (k j /D i ) - k j у объектов с состоянием D i . В случае если среди N i объектов, имеющих диагнозD i , у N ij проявился признак k j , то

P (k j /D i ) = N ij /N i . (5.7)

P (k j ) - вероятность появления признакаk j во всœех объектахнезависимо от состояния (диагноза)объекта. Пусть изобщего числа N объектов признакk j был обнаружену N j объектов, тогда

P(k j ) = N j /N . (5.8)

Для установления диагноза специальное вычисление P (kj ) не требуется. Как будет ясно из дальнейшего, значения P (D i P (k j / D i ), известные для всœех возможных состояний, определяют величину P (k j ).

Вравенстве (3.2) P (D i /k j )- вероятность диагноза D i послетого, как сталоизвестно наличие у рассматриваемого объекта признака k j (апостериорная вероятность диагноза ).

Обобщенная формула Байеса. Эта формула относится к случаю, когда обследование проводится по комплексу признаков К , включающему признаки k 1 , k 2 , ..., k v . Каждый из признаков k j имеет m j разрядов (k j l , k j 2 , ..., k js , ..., ). В результате обследования становитсяизвестной реализация признака

k j * = k js (5.9)

и всœего комплекса признаков K *. Индекс *, как и раньше, означаетконкретное значение (реализацию) признака. Формула Байеса для комплексапризнаков имеет вид

P (D i /К * )= P (D i )P (К */D i )/P (К * )(i = 1, 2, ..., n ), (5.10)

где P (D i /К * ) - вероятность диагноза D i после того, какстали известны результаты обследования по комплексу признаков К , P (D i ) - предварительная вероятность диагноза D i (по предшествующей статистике).

Формула (5.10) относится к любому из n возможных состояний (диагнозов) системы. Предполагается, что система находится только в одном из указанных состояний ипотому

В практических задачах нередко допускается возможность существования нескольких состояний А 1 , ..., А r , причем некоторые из них могут встретиться в комбинации друг с другом. Тогда в качестве различных диагнозов D i следует рассматривать отдельные состояния D 1 = А 1 , ..., D r = А r и их комбинации D r +1 = А 1 ^ А 2 , … и т. п.

Перейдем к определœению P (К */ D i ). В случае если комплекс признаков состоит из v признаков, то

P (К */ D i ) = P(k 1 */ D i )P (k 2 */k 1 * D i )...P (k v */k l * ...k* v- 1 D i ), (5.12)

где k j * = k js - разряд признака, выявившийся в результате обследования. Для диагностически независимых признаков

P (К */ D i ) = P (k 1 */ D i ) P (k 2 */ D i )... P (k v * / D i ). (5.13)

В большинстве практических задач, особенно при большом числе признаков, можно принимать условие независимости признаков даже при наличии существенных корреляционных связей между ними.

Вероятность появления комплекса признаковК *

P (К *)= P (D s)P (К */D s) . (5.14)

Обобщенная формула Байеса должна быть записана так:

P (D i /K * ) (5.15)

где P (К */ D i )определяется равенством (5.12) или (5.13). Изсоотношения (5.15) вытекает

P (D i /К *)=l, (5.16)

что, разумеется, и должно быть, так как один из диагнозов обязательно реализуется, а реализация одновременно двух диагнозов невозможна.

Следует обратить внимание на то, что знаменатель формулы Байеса для всœех диагнозов одинаков. Это позволяет сначала определить вероятности совместного появления i -гo диагноза и данной реализации комплекса признаков

P (D i К *) = P (D i )P (К */D i ) (5.17)

и затем апостериорную вероятность диагноза

P (D i /К *) = P (D i К *)/P (D s К *). (5.18)

Отметим, что иногда целœесообразно использовать предварительное логарифмирование формулы (5.15), так как выражение (5.13) содержит произведения малых величин.

В случае если реализация некоторого комплекса признаков К * является детерминирующей для диагноза D p , то данный комплекс не встречается при других диагнозах:

Тогда, в силу равенства (5.15)

(5.19)

Τᴀᴋᴎᴍ ᴏϬᴩᴀᴈᴏᴍ, детерминистская логика установления диагноза является частным случаем вероятностной логики. Формула Байеса может использоваться и в том случае, когда часть признаков имеет дискретное распределœение, а другая часть - непрерывное. Стоит сказать, что для непрерывного распределœения используются плотности распределœения. При этом в расчетном плане указанное различие признаков несущественно, в случае если задание непрерывной кривой осуществляется с помощью совокупности дискретных значений.

Диагностическая матрица. Для определœения вероятности диагнозов по методу Байеса крайне важно составить диагностическую матрицу (табл. 5.1), которая формируется на базе предварительного статистического материала. В этой таблице содержатся вероятности разрядов признаков при различных диагнозах.

Таблица 5.1

Диагностическая матрица в методе Байеса

Диагноз D i Признак k j P(D i)
k 1 k 2 k 3
P(k 11 /D i) P(k 12 /D i) P(k 13 /D i) P(k 21 /D i) P(k 22 /D i) P(k 23 /D i) P(k 24 /D i) P(k 31 /D i) P(k 32 /D i)
D 1 0,8 0,2 0,1 0,1 0,6 0,2 0,2 0,8 0,3
D 2 0,1 0,7 0,2 0,3 0,7 0,1 0,9 0,1

В случае если признаки двухразрядные (простые признаки ʼʼда - нетʼʼ), то в таблице достаточно указать вероятность появления признака Р (k i /D i). Вероятность отсутствия признака Р ( /D,-) = 1 - Р (k i /D i).

При этом более удобно использовать единообразную форму, полагая, к примеру, для двухразрядного признака Р (k j /D i) = Р (k i 1 /D i ); Р ( /D,) = Р (k i 2 /D i).

Отметим, что P(k js /Di) = 1, где т, - число разрядов признака k j . Сумма вероятностей всœех возможных реализаций признака равна единице.

В диагностическую матрицу включены априорные вероятности диагнозов. Процесс обучения в методе Байеса состоит в формировании диагностической матрицы. Важно предусмотреть возможность уточнения таблицы в процессе диагностики. Для этого в памяти ЭВМ следует хранить не только значения P(k js /Di), но и следующие величины: N - общее число объектов, использованных для составления диагностической матрицы; N i - число объектов с диагнозом D i ; N ij - число объектов с диагнозом D i , обследованных по признаку k j . В случае если поступает новый объект с диагнозом D μ , то проводится корректировка прежних априорных вероятностей диагнозов следующим образом:

(5.20)

Далее вводятся поправки к вероятностям признаков. Пусть у нового объекта с диагнозом D μ выявлен разряд r признака k j . В этом случае для дальнейшей диагностики принимаются новые значения вероятности интервалов признака k j при диагнозе D μ :

(5.21)

Условные вероятности признаков при других диагнозах корректировки не требуют.

Пример. Поясним метод Байеса. Пусть при наблюдении за газотурбинным двигателœем проверяются два признака: k 1 - повышение температуры газа за турбиной более чем на 50 °С и k 2 - увеличение времени выхода на максимальную частоту вращения более чем на 5 с. Предположим, что для данного типа двигателœей появление этих признаков связано либо с неисправностью топливного регулятора (состояние D 1 ,), либо с увеличением радиального зазора в турбинœе (состояние D 2).

При нормальном состоянии двигателя (состояние D 3)признак k 1 не наблюдается, а признак k 2 наблюдается в 5% случаев. На основании статистических данных известно, что 80% двигателœей вырабатывают ресурс в нормальном состоянии, 5% двигателœей имеют состояние D 1 и 15% - состояние D 2 . Известно также, что признак k 1 встречается при состоянии D 1 в 20% , а при состоянии D 2 в 40% случаев; признак k 2 при состоянии D 1 встречается в 30%, а при состоянии D 2 - в 50% случаев. Сведем эти данные в диагностическую таблицу (табл. 5.2).

Найдем сначала вероятности состояний двигателя, когда обнаружены оба признака k 1 и k 2 . Для этого, считая признаки независимыми, применим формулу (5.15).

Вероятность состояния

Аналогично получим Р (D 2 /k 1 k 2) = 0,91; Р (D 3 /k 1 k 2) = 0.

Определим вероятность состояний двигателя, в случае если обследование показало, что повышение температуры не наблюдается (признак k 1 2 отличны от нуля, так как рассматриваемые признаки не являются для них детерминирующими. Из проведенных расчетов можно установить, что при наличии признаков k 1 и k 2 в двигателœе с вероятностью 0,91 имеется состояние D 1 , ᴛ.ᴇ. увеличение радиального зазора. При отсутствии обоих признаков наиболее вероятно нормальное состояние (вероятность 0,92). При отсутствии признака k 1 и наличии признака k 2 вероятности состояний D 2 и D 3 примерно одинаковы (0,46 и 0,41) и для уточнения состояния двигателя требуется проведение дополнительных обследований.

Таблица 5.2

Вероятности признаков и априорные вероятности состояний

D i P(k 1 /D i) P(k 2 /D i) P(D i)
D 1 0,2 0,3 0,05
D 2 0,4 0,5 0,15
D 3 0,0 0,05 0,80

Решающее правило - правило, в соответствии с которым принимается решение о диагнозе. В методе Байеса объект с комплексом признаков К * относится к диагнозу с наибольшей (апостериорной) вероятностью

K*D i ,если P(D i /K *) > P(D j /K *) (j = 1, 2,..., n ; i ≠ j ). (5.22)

Символ , применяемый в функциональном анализе, означает принадлежность множеству. Условие (5.22) указывает, что объект, обладающий данной реализацией комплекса признаков К * или, короче, реализация К * принадлежит диагнозу (состоянию) D i . Правило (5.22) обычно уточняется введением порогового значения для вероятности диагноза:

P (D i / K *) P i , (5.23)

где P i . - заранее выбранный уровень распознавания для диагноза D i . При этом вероятность ближайшего конкурирующего диагноза не выше 1 – P i . Обычно принимается P i ≥ 0,9. При условии

P(D i / K *)

(5.24)

решение о диагнозе не принимается (отказ от распознавания) и требуется поступление дополнительной информации.

Процесс принятия решения в методе Байеса при расчете на ЭВМ происходит достаточно быстро. К примеру, постановка диагноза для 24 состояний при 80 многоразрядных признаках занимает на ЭВМ с быстродействием 10 - 20 тысяч операций в секунду всœего несколько минут.

Как указывалось, методу Байеса присущи некоторые недостатки, к примеру погрешности при распознавании редких диагнозов. При практических расчетах целœесообразно провести диагностику и для случая равновероятностных диагнозов, положив

P(D i) = l / n (5.25)

Тогда наибольшим значением апостериорной вероятности будет обладать диагноз D i , для которого Р (K* /D i) максимальна:

K*D i ,если P(K* /D i) > P(K* /D j) (j = 1, 2,..., n ; i ≠ j ). (5.26)

Иными словами, устанавливается диагноз D i если данная совокупность признаков чаще встречается при диагнозе D i , чем при других диагнозах. Такое решающее правило соответствует методу максимального правдоподобия. Из предыдущего вытекает, что данный метод является частным случаем метода Байеса при одинаковых априорных вероятностях диагнозов. В методе максимального правдоподобия ʼʼчастыеʼʼ и ʼʼредкиеʼʼ диагнозы равноправны.

Стоит сказать, что для надежности распознавания условие (5.26) должно быть дополнено пороговым значением

P(K */D i) ≥ P i , (5.27)

где P i - заранее выбранный уровень распознавания для диагноза D i .

Метод Байеса - понятие и виды. Классификация и особенности категории "Метод Байеса" 2017, 2018.

К настоящему моменту разработано большое количество методов, применение которых позволяет распознать вид технического состояния диагностируемого объекта. В данной работе рассмотрены лишь некоторые из них, наиболее широко используемые в практике диагностирования.

Метод Байеса

Метод диагностирования, основанный на применении формулы Байеса, относится к статистическим методам распознавания.

Вероятность события А, которое может наступить лишь при появлении одного из несовместимых событий 2? 1? В 2 ,..., В п, равна сумме произведений вероятностей каждого из этих событий на соответствующую вероятность события А:

Эту формулу называют формулой полной вероятности. Следствие теоремы умножения и формулы полной вероятности - так называемая теория гипотез. Предположим, что событие А может наступить лишь при появлении одного из несовместных событий В , В 2 , ..., В п, но поскольку заранее неизвестно, какое из них наступит, их называют гипотезами. Вероятность появления события Л определяют по формуле полной вероятности (1.5), а условную вероятность Р А (В/) по формуле

Подставив значение Р(Л), получим

Формулу (1.6) называют формулой Байеса. Она позволяет переоценить вероятности гипотез после того, как станут известными результаты испытания, в ходе которого появилось событие А.

Выявление величин условных вероятностей появления признака является ключом к использованию формулы Байеса для диагностики состояния. Байесовский подход широко используется в науке об управлении, теории обнаружения сигналов и распознавания образов, в медицинской и технической диагностике.

Рассмотрим суть метода применительно к задаче диагностирования. Подробно математическая сторона вопроса изложена в работе Ц3]. В процессе эксплуатации любой объект может находиться в одном из возможных состояний TVj, ...,Nj (в простейшем случае - «норма», «отказ»), которым ставятся в соответствие гипотезы (диагнозы) Z)j,...,Z) ; . В процессе эксплуатации объекта контролируются параметры (признаки) к, ..., kj. Вероятность совместного наличия у объекта состояния Z)- и признака kj определяется

где Р(Dj) - вероятность диагноза Dj, определяемая по статистическим данным:

где п - количество обследованных объектов;

Nj - количество состояний;

P(kj /Dj) kj у объектов с состоянием Dj. Если среди п объектов, имеющих диагноз Dj, у проявился признак kj, то

Р(кр - вероятность появления признака kj во всех объектах независимо от состояния (диагноза) объекта. Пусть из общего числа п объектов признак kj был обнаружен у rij объектов, тогда

P(Dj/kj ) - вероятность диагноза Z) ; после того, как стало известно наличие у рассматриваемого объекта признака к-.

Обобщенная формула Байеса относится к случаю, когда обследование проводится по комплексу признаков К, включающему признаки (ку, к п). Каждый из признаков kj имеет rrij разрядов (,к д,

kj 2 , ..., kj s , ..., k jm). В результате обследования становиться известной

реализация признака к.-к . и всего комплекса признаков К . Ин-

деке означает конкретное значение признака. Формула Байеса для комплекса признаков имеет вид

где P(Dj /А*) - вероятность диагноза?Г после того, как стали известны результаты обследования по комплексу признаков К;

P(Dj) - предварительная вероятность диагноза Dj.

Предполагается, что система находится только в одном из указанных состояний, т.е.

Для определения вероятности диагноза по методу Байеса на основе предварительного статистического материала формируется диагностическая матрица (табл. 1.1). Количество строк соответствует количеству возможных диагнозов. Количество столбцов рассчитывается как сумма произведений количества признаков на соответствующее им количество разрядов плюс один для априорных вероятностей диагнозов. В этой таблице содержатся вероятности разрядов признаков при различных диагнозах. Если призна-

ки двухразрядные (простые признаки «да - нет»), то в таблице достаточно указать вероятность появления признака Р(к- /Dj). Вероятность отсутствия признака I. Более удобно

использовать единообразную форму, полагая, например, для двухразрядного признака . Следует уточнить, что , где nij - число разрядов признака kj. Сумма вероятностей всех возможных реализаций признака равна единице. Решающее правило - это правило, в соответствии с которым принимается решение о диагнозе. В методе Байеса объект с комплексом признаков ft относится к диагнозу с наибольшей (апостериорной) вероятностью ft е Dj, если P(Dj/lt) >

> P(Dj/ft) (J - 1, 2, ..., n i * j). Это правило обычно уточняется введением порогового значения для вероятности диагноза P(Dj/ft) >

> Pj, где Pj - заранее выбранный уровень распознавания для диагноза Dj. При этом вероятность ближайшего конкурирующего диагноза не выше 1 - Pj. Обычно принимается Р { > 0,9. При условии PiD/t?) решение о диагнозе не принимается и требуется поступление дополнительной информации.

Таблица 1.1

Диагностическая матрица в методе Байеса

Признак kj

Р(к 12 /

Р(к 22 /

Р(к п /

Пример. Под наблюдением находится тепловозный дизель. При этом проверяются два признака: к - увеличение часового расхода топлива дизелем на номинальной позиции контроллера машиниста более чем на 10 % от паспортного значения, к 2 - снижение мощности дизель-генераторной установки на номинальной позиции контроллера машиниста более чем на 15 % от паспортного значения. Предположим, что появление этих признаков связано либо с повышенным износом деталей цилиндро-поршневой группы (диагноз /)]), либо с неисправностью топливной аппаратуры (диагноз D 2). При исправном состоянии дизеля (диагноз D 3) признак к не наблюдается, а признак к 2 наблюдается в 7 % случаев. По статистическим данным установлено, что с диагнозом Z) 3 до планового ремонта дорабатывают 60 % двигателей, с диагнозом D 2 - 30 %, с диагнозом Z)j - 10 %. Также установлено, что признак к j при состоянии Z)| встречается в 10 %, а при состоянии D 2 - в 40 % случаев; признак к 2 при состоянии Z)| встречается в 15 %, а при состоянии D 2 - в 20 % случаев. Исходную информацию представим в виде табл. 1.2.

Таблица 1.2

Вероятности состояний и проявления признаков

Р(к 2 / А)

Рассчитаем вероятности состояний при различных вариантах реализации контролируемых признаков:

1. Признаки к и к 2 обнаружены, тогда:

2. Признак к обнаружен, признак к 2 отсутствует.

Отсутствие признака k i означает присутствие признака к. (противоположное событие), причем P(k./D.)-- P(k./D.).

3. Признак к 2 обнаружен, признак к отсутствует:

4. Признаки /:| и к 2 отсутствуют:

Анализ полученных результатов расчета позволяет сделать следующие выводы:

  • 1. Наличие двух признаков к и к 2 с вероятностью 0,942 свидетельствует о состоянии Dj
  • 2. Наличие признака к с вероятностью 0,919 свидетельствует о состоянии D 2 (неисправность топливной аппаратуры).
  • 3. Наличие признака к 2 с вероятностью 0,394 свидетельствует о состоянии D 2 (неисправность топливной аппаратуры) и с вероятностью 0,459 о состоянии Z) 3 (исправное стояние). При таком соотношении вероятностей принятие решения затруднено, поэтому требуется проведение дополнительных обследований.
  • 4. Отсутствие обоих признаков с вероятностью 0,717 свидетельствует об исправном состоянии (Z) 3).

МЕТОД ПОСЛЕДОВАТЕЛЬНОГО АНАЛИЗА

МЕТОД БАЙЕСА

План лекции

Анализ и проверка домашней работы

Организационный момент.

Ход лекции.

Лекция 9

Тема. СТАТИСТИЧЕСКИЕ МЕТОДЫ РАСПОЗНАВАНИЯ

Цель. Дать понятие распознавания цифрового сигнала.

1. Учебная. Разъяснить процесс распознавания цифрового сигнала.

2. Развивающая. Развивать логическое мышление и естественное - научное мировоззрение.

3. Воспитательная . Воспитывать интерес к научным достижениям и открытиям в отрасли телекоммуникации.

Межпредметные связи:

· Обеспечивающие: информатика, математика, вычислительная техника и МП, системы программирования.

· Обеспечиваемые: Стажерская практика

Методическое обеспечение и оборудование:

1. Методическая разработка к занятию.

2. Учебный план.

3. Учебная программа

4. Рабочая программа.

5. Инструктаж по технике безопасности.

Технические средства обучения: персональный компьютер.

Обеспечение рабочих мест:

· Рабочие тетради

3. Ответьте на вопросы:

1. В чем заключается отличие цифровых сигналов от аналоговых?

2. Какие классы диаграмм используются при проведении измерений?

3. Дайте краткое описание каждому классу.

4. Что используется для построения глазковой диаграммы?

5. Поясните суть глазковой диаграммы.

· Основы метода

  • Обобщенная формула Байеса.

· Диагностическая матрица.

· Решающее правило

· Основы метода.

· Общая процедура метода.

· Связь границ принятия решения с вероятностями ошибок пер­вого и второго рода.

Основное преимущество статистических методов распознавания состоит в возможности одновременного учета признаков различной физической природы, так как они характеризуются безразмерными величинами - вероятностями их появления при различных состояниях системы .

Среди методов технической диагностики метод, основанный на обобщенной формуле Байеса (Теорема Байеса (или формула Байеса) - одна из основных теорем теории вероятностей, которая позволяет определить вероятность того, что произошло какое-либо событие(гипотеза) при наличии лишь косвенных тому подтверждений (данных), которые могут быть неточны ), занимает особое место благо­даря простоте и эффективности.

Метод Байеса имеет недостатки: большой объем предварительной информации, «угнетение» редко встречающихся диагнозов и др. Однако в случаях, когда объем статистических данных позволяет применить метод Байеса, его целесообразно использовать как один из наиболее надежных и эффективных методов.


Основы метода. Метод основан на простой формуле Байеса. Если имеется диагноз D i и простой признак ki, встре­чающийся при этом диагнозе, то вероятность совместного появ­ления событий (наличие у объекта состояния Di и признака ki)

Из этого равенства вытекает формула Байеса

(3.2)

Очень важно определить точный смысл всех входящих в эту формулу величин.

P(Di)- априорная вероятность гипотезы D

P(ki/Di) - вероятность гипотезы ki при наступлении события D (апостериорная вероятность - вероятность случайного события при условии того, что известны апостериорные данные, т.е. полученные после опыта.)

P(ki) - полная вероятность наступления события ki

P(Di/ki) - вероятность наступления события Di при истинности гипотезы ki

Р(D)- вероятность диагноза D , определяемая по стати­стическим данным (априорная вероятность диагноза). Так, если предварительно обследовано N объектов и у W,- объектов имелось состояние D, то

P(D i) = N i /N. (3.3)

Р (kj/Di) - вероятность появления признака k j ; у объектов с со­стоянием Di. Если среди Ni, объектов, имеющих диагноз Di, у N ij проявился признак k j то

(3.4)

Р (kj) - вероятность появления признака kj во всех объектах независимо от состояния (диагноза) объекта . Пусть из общего числа N объектов признак к } был обнаружен у Nj объектов, тогда

(3.5)

В равенстве (3.2) Р ( Di/kj) - вероятность диагноза D после того, как стало известно наличие у рассматриваемого объекта признака kj (апостериорная вероятность диагноза ).

Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: