Объемное знание – 2. Виртуальный признак в биологии и медицине
Объемное знание – 2. Виртуальный признак в биологии и медицине
Нечмирёв Андрей Борисович
Математический анализ признаков значительно повышает полноту использования информации, а анализ комплекса показателей не только суммирует дифференцирующие способности признаков, но и выявляет новые дополнительные возможности распознавания, не содержащиеся ни в одном отдельном признаке [1].
В настоящей работе сделана попытка выявить дополнительные возможности распознавания при анализе совокупности признаков, учитываемых в микробиологии, с целью получения диагностической информации в ее количественном выражении, не содержащейся ни в одном из признаков в отдельности.
Можно сказать, что в основе распознавания микроорганизмов лежит различие в связи между признаками и дифференцируемыми группами. Чем чаще признак определяется у одной из групп, и чем реже у другой, тем больше диагностическая информация от обнаружения у штамма этих градаций признака.
Количественно такая информация может описываться десятичным логарифмом отношения вероятностей выявления градаций признака в дифференцируемых группах, умноженным на 10 – так называемым диагностическим коэффициентом (ДК) [2,4]. При выявлении у исследуемого штамма градации «+» признака «1», которая встречается у представителей группы «А» с частотой Pa, а у представителей группы «В» с частотой Pb, будет получена диагностическая информация в количестве: ДК+1=10lg(P+a / P+b).
При выявлении градации «-»: ДК-1=10lg(P-a / P-b).
Знак «+», который может иметь вычисленный диагностический коэффициент, свидетельствует о преобладании вероятности того, что штамм относится к группе, частота которой находится в числителе отношения. ДК со знаком «-» указывает на преобладание вероятности альтернативной группы.
При получении информации по результатам нескольких тестов вычисленные ДК алгебраически складываются.
Любому значению ДК или их сумме соответствует определенная вероятность (Р) принадлежности штамма к той или иной дифференцируемой группе. Эта вероятность может быть найдена по таблицам [2] или по формуле, выведенной нами из формул [2], отражающих взаимосвязь ДК и Р:
Р = (alg0,1ДК-1)/((alg0,1ДК-1)/ (alg0,1ДК)) [Формула 1].
Представим себе совокупность из двух бинарных, то есть имеющих только градации «+» и «-» признаков как единство, более сложное, по отношению к его составляющим. Градациями такого признака-комплекса будут все возможные сочетания градаций его составляющих: «++», «--», «+-», «-+». Обозначим их частоты по отношению к дифференцируемым группам и признакам, и определим несомую ими диагностическую (дифференцирующую образы) информацию так, как это показано в таблице 1, и назовем ее V-информацией, в отличие от ДК-информации. ДК-информация тождественна V-информации и их значения могут алгебраически складываться.
Таблица 1. Определение величины V-информации градаций признака-комплекса
Вероятность градаций в группах | Формулы, для вычисления величины V-информации | |
А | В | |
P++a1,2 | P++b1,2 | V++ = 10lg(P++a1,2/ P++b1,2) |
P--a1,2 | P--b1,2 | V-- = 10lg(P--a1,2/ P--b1,2) |
P+-a1,2 | P+-b1,2 | V+- = 10lg(P+-a1,2/ P+-b1,2) |
P-+a1,2 | P-+b1,2 | V-+ = 10lg(P-+a1,2/ P-+b1,2) |
1 | 1 |
Благодаря получению V-информации при помощи одних и тех же признаков к информации о различии в связи между признаками и дифференцируемыми группами прибавляется порция информации о различии в связи между признаками у этих групп. V-информация представляется нам достаточно независимой от ДК-информации (то есть не дублирует ее).
В этой связи, даже среди наименее перспективных в отношении ДК-информации признаков можно найти такие, которые дадут значимую V-информацию. К примеру, показано [3], что тесты на рафинозу (тест 1) и рамнозу (тест 2) у представителей Esherihia (группа А) и Shigella (группа В) дают положительный и отрицательный результат с частотой 0,5, то есть P+a1 = P+a2 = P+b1 = P+b2 = P-a1 = P-a2 = P-b1 = P-b2 = 0,5. Если нет иной информации, то справедливо сделать заключение о непригодности этих тестов для дифференциации указанных групп. При подсчете окажется, что все ДК = 0.
Гипотеза. Теперь предположим, что получена дополнительная информация о достоверном различии в скоррелированности одних и тех же сочетаний градаций признаков у дифференцируемых групп. Сочетания градаций «элементарных» признаков выступают здесь как градации признака-комплекса. Обозначим их в буквенном выражении (таблица 2) и дадим им произвольные числовые значения, соблюдая вышеуказанное равенство – все ДК = 0.
Таблица 2. Частота градаций V-признака у дифференцируемых групп
Esherihia (группа А) | Shigella (группа В) | ||||||
Рамноза (тест 2) | |||||||
+ | - | + | - | ||||
Рафиноза (тест 1) | + | P++a1,2 0,1 | P+-a1,2 0,4 | P+a1 = 0,5 | P++b1,2 0*(0,01) | P+-b1,2 0,5 | P+b1 = 0,5 |
- | P-+a1,2 0,4 | P--a1,2 0,1 | P-a1 = 0,5 | P-+b1,2 0,5 | P--b1,2 0*(0,01) | P-b1 = 0,5 | |
P+a2 = 0,5 | P-a2 = 0,5 | P+b2 = 0,5 | P-b2 = 0,5 |
* Примечание: Для исправления нулевых частот использована формула [2]: P = 1/(n + a), где P – исправленная частота (в таблице дана в скобках); n – общее число штаммов в группе (здесь условно взято100); а – число градаций признака (здесь 2).
Вычисляя величину V-информации по формулам таблицы 1 получим: V++ = V-- = 10; V+- = V-+ = -1.
По формуле 1 вычислим, что значениям V = 10, тождественным ДК, соответствует вероятность Р = 0,91, имеющая значение в медицинских научных исследованиях [7], свидетельствующая о преобладании вероятности группы А. Прочим градациям виртуального признака соответствует Р = 0,44, указывающая на преобладание вероятности группы В.
Таким образом, теоретически показана возможность получения диагностической информации, не содержащейся ни в одном из отдельно взятых признаков. До настоящего времени информация подобного рода в ее количественной мере в микробиологии не использовалась и фактически была потеряна для исследователя.
Практика. Для нахождения V-информации на основе реальных данных мы взяли признак-комплекс арабиноза-рамноза для дифференциации Salmonella typhimurium от Shigella flexneri 1-5, x- и y-variant. Данные о наличии сочетаний признаков у биоваров дифференцируемых групп (соответственно 25 и 15 биоваров) мы взяли из таблиц 39 и 41 литературного источника [3], по ним вычислили частоты градаций V-признака: P++a1,2 = 0,68; P--a1,2 = 0,08; P+-a1,2 = 0,20; P-+a1,2 = 0,04; P++b1,2 = P--b1,2 = P+-b1,2 = 0,267; P-+b1,2 = 0,2, а затем определили, согласно формул таблицы 1: V++ = 4,1(P=0,72); V-- = -5,2(P=0,77); V+- = -1,2(P=0,43); V-+ = -7,0(P=0,17).
Таким образом, учет виртуальных признаков может внести свою лепту диагностической информации, и подчас существенную, в дело распознавания образов.
Для получения V-информации не требуется изучения дополнительных признаков – используется уже изученные признаки, от которых получали ДК-информацию.
На практике реализация виртуальных признаков может осуществляться табличными методами или с помощью ЭВМ [8]. Это сделает ее доступной для рядовых врачей. Полагаем, что более полное использование признаков, за счет извлечения V-информации позволит уменьшить число обязательных тестов в схемах распознавания. Особенно привлекательным это может оказаться при проведении весьма дорогостоящих испытаний новых лекарственных препаратов на людях.
Думается, что признаки-комплексы сами, или в сочетании с «элементарными» признаками могут являться составляющими для более интегрированных виртуальных признаков.
Вышеизложенный алгоритм может быть использован для моделирования такого свойства как интуиция, о чем будет рассказано в планируемой к публикации статье «Объемное знание –3. Интуиция».
Литература
Информация об авторе:
Нечмирёв Андрей Борисович
Должность: Врач-программист
Место работы: СЭС МСО (санэпидстанция бывш.IV Главн.Управления Республики Узбекистан), Республиканский центр хирургии, Ташкентский городской центр борьбы со СПИД, ООО «Хумо» при АО УзбекКосмос
Печатный или электронный источник: публикуется впервые.
E-mail: ses@sarkor.uz