Полная версия:

Математические модели в естественнонаучном образовании. Том II

скачать книгу бесплатно

намного меньше

, то откуда уверенность в том, что молекулярные часы не работают в эволюции, описанной деревом на рисунке 5.15?

Рисунок 5.16. Дерево с соседями

и

.

Таким образом, выбор ближайших таксонов для присоединения ввел заблуждение; нужен более сложный критерий выбора таксонов для присоединения. Чтобы изобрести его, представьте себе дерево, в котором таксоны

и

являются соседями, соединенными в вершине

, а

каким-то образом соединена с оставшимися таксонами

, как показано на рисунке 5.16.

Если данные точно соответствуют этому метрическому дереву, то для каждого

, дерево будет включать поддерево, подобное изображенному на рисунке 5.17.

Рисунок 5.17. Поддерево дерева на рисунке 5.16.

Но на этом рисунке видим, что

, так как в сумму слева входят только длины четырех ребер, отходящих от листьев дерева, а в сумму справа – все они и, кроме того, удвоенная длина центрального ребра. Это неравенство называется 4-точечным условием для соседей. Если

и

являются соседями, то неравенство верно для любых значений

из диапазона от 3 до

.

Условие 4-точек лежит в основе метода присоединения соседей, но предстоит еще много работы, чтобы перевести его в простую для применения форму. Для фиксированного

существует

возможных значения

удовлетворяющих условию

при

. Если просуммировать 4-точечные неравенства по этим

, то получим следующее неравенство, содержащее сумму расстояний

.

Чтобы упростить это неравенство, определим общее расстояние от таксона

до всех других таксонов как

, где расстояние

в сумме интерпретируется как 0, естественным образом. Затем, добавление

к каждой стороне исходного неравенства позволяет записать его в более простой форме следующим незамысловатым образом

.

Вычитание

из частей неравенство придает ему ещё более симметричную форму

.

Наконец, если рассмотреть эту последовательность действий для произвольных

и

, а не только для

и

, то можно ввести обозначение

.

Тогда, если

и

являются соседями, то имеет место

для всех

.

Это дает критерий, используемый в методе присоединения соседей: из данных расстояний

, заполоняется новая таблица значений

. Затем для соединения выбирается пара таксонов с наименьшим значением

. Приведенный выше вывод формулы для вычисления

показывает, что если

и

являются соседями, то соответствующее им значение

будет наименьшим из значений в

-й строке,

-м столбце таблицы. Более глубокий анализ, который провели Штудер и Кеплер в 1988 году, показывает, что если данные идеально подходят к дереву, то наименьшая запись во всей таблице значений

будет указывать на пару таксонов, которые являются соседями.

Поскольку полный алгоритм присоединения соседей довольно сложен, приведём лишь краткое описание этого метода:

Шаг 1: Учитывая данные о расстоянии для

таксонов, вычислите новую таблицу значений

. Выберите наименьшее значение, чтобы определить, к каким таксонам присоединиться. Это значение как правило оказывается отрицательным; в этом случае «наименьшее» означает отрицательное число с наибольшим значением по абсолютной величине.

Шаг 2: Если

и

должны быть соединены на новой вершине

, временно сверните все остальные таксоны в одну группу

и определите длины рёбер от

и

до

, используя 3-точечные формулы из предыдущего раздела для

,

и

, как в FM-алгоритме.

Шаг 3: Определите расстояния от каждого из таксонов

в

до

, применив 3-точечные формулы к данным расстояния для 3 таксонов

,

и

. Теперь включите

в таблицу данных о расстоянии и отбросьте

и

.

Шаг 4: Таблица расстояний теперь включает

таксонов. Если есть только 3 таксона, используйте 3-точечные формулы для завершения работы алгоритма. В противном случае вернитесь к шагу 1.

Как уже можете видеть, метод присоединения соседей утомительно реализовывать вручную. Несмотря на то, что шаги относительно просты, легко потеряться в процессе с таким количеством арифметики. В упражнениях найдете пример частично отработанных данных, с которыми нужно завершить алгоритм, для лучшего понимания шагов. После этого предлагается написать и использовать компьютерную программу, чтобы избежать ошибок.

Точность различных методов построения деревьев – трех, описанных до выше в этой главе, и многих других – проверялась в первую очередь путем моделирования мутаций ДНК в соответствии с определенными филогенетическими деревьями, а затем применяя разные методы, сравнивали, как часто они восстанавливают правильное дерево. Некоторые исследования также были проведены с реальными таксонами, связанными известным филогенетическим деревом; деревья, построенные из последовательностей ДНК с использованием различных методов, можно было затем сравнить с заведомо правильным деревом. Эти тесты привели исследователей к большей уверенности в результативности описанного метода присоединения соседей, чем других методах, которые обсуждали ранее. Хотя UPGMA или FM-алгоритм могут быть надежными при некоторых обстоятельствах, метод присоединения соседей хорошо работает с более широким диапазоном данных. Например, если молекулярные часы не существуют, то лучше использовать метод присоединения соседей, поскольку он не предполагает неявных допущений о молекулярных часах. Поскольку в настоящее время накоплено много данных, указывающих на то, что гипотеза молекулярных часов часто нарушается, таким образом метод присоединения соседей становится предпочтительным дистанционным методом для построения дерева.

Задачи для самостоятельного решения:

5.3.1. Перед проработкой примера, в целях более глубокого понимания метода присоединения соседей, полезно вывести формулы используемые на шаге 2 и 3 изложенного алгоритма. Предположим, что решили объединить

и

на шаге 1.

а. Покажите, что на шаге 2 расстояния от

и

до внутренней вершины

могут быть найдены по следующим формулам:

,

.

Затем покажите, что вторая из этих формул может быть заменена на

.

страницы: 1 2 3 4 5 6 7 8