Анатолий Клёсов.

ДНК-генеалогия от А до Т



скачать книгу бесплатно

Как рассчитывают погрешности в ДНК-генеалогии?

ОБЩАЯ ОТНОСИТЕЛЬНАЯ ПОГРЕШНОСТЬ – важная величина, указывающая на доверительный интервал, или надежность определения расстояния до времени жизни общего предка рассматриваемой популяции. По правилам математической статистики, расчет погрешности обычно производится для «одной сигма» или «двух сигма», что соответствует 68 % и 95 % доверительному интервалу, соответственно. Для одной сигма берется обратная величина квадратного корня из общего числа мутаций в серии гаплотипов, возводится в квадрат, к ней прибавляется 0.01 (это квадрат средней погрешности величины константы скорости мутации, при принимаемой ее погрешности ± 10 %, то есть 0.1), и из полученной суммы извлекается квадратный корень.

Например, при 100 мутациях (от базового гаплотипа) в серии гаплотипов получаем:



Таким образом, погрешность расчетов для 100 мутаций в серии равна ± 14.14 %, или, округленно, 14 %. Это – для доверительного интервала 68 % (одна сигма).

Для доверительного интервала 95 % (два сигма) полученная величина удваивается, то есть погрешность расчетов составляет ± 28 %. Но опыт показывает, что для расчетов реальных, документированных генеалогий, доверительный интервал в одну сигма является реалистичным. Дело в том, что требование 95 %-ной точности нереально для ограниченных серий гаплотипов. Более того, после рассмотрения многих сотен экспериментальных серий гаплотипов выяснилось, что закладываемая погрешность для констант скоростей мутаций ± 10 % является завышенной, на практике она не превышает ± 2.5 %. Поэтому при 100 мутациях в серии гаплотипов погрешность при одной сигме составляет не ± 14.14 %, а ± 10.31 %.

Тем не менее, мы рекомендуем (и делаем это сами) давать результаты расчетов при завышенной погрешности, как описано выше. Лучше так, чем быть обвиненными в завышении «точности расчетов».


Погрешности рассчитываются по тем же правилам для количества мутаций и для скоростей мутаций в отдельных маркерах, и в гаплотипах, содержащих любое количество маркеров. Например, в маркере DYS391 для серии из 275 гаплотипов гаплогруппы N1c1 наблюдается 59 мутаций. По правилам статистики при одной сигма эти 59 мутаций на самом деле соответствуют 59 ± 8 мутаций, так что неопределенность, или погрешность начинаются уже здесь. Погрешность получена как обратная величина квадратного корня, переведенная в величину 13.02 %. Если переводить это число мутаций в среднее число мутаций на маркер, получаем 59/275 = 0.2145, но погрешности целесообразно записывать уже в конце расчетов, чтобы не усложнять вычисления. С учетом поправки на возвратные мутации (см. врезку) получаем, что среднее число мутаций на маркер равно 0.2402, и поскольку значение константы скорости мутации для маркера DYS391 равно 0.0022, получаем, что «возраст» для маркера DYS391 для данной серии гаплотипов равен 0.2402/0.0022 = 96 условных поколений, или 2400 лет. Погрешность здесь уже больше, чем рассчитанные выше ± 13.02 %, потому что к ней добавляется погрешность определения константы скорости мутации, которая в данном случае не менее ± 30 %. В итоге обратную величину квадратного корня из 59 возводим в квадрат (получая 0.01695), прибавляем 0.09 (квадрат погрешности в определении константы скорости мутации), извлекаем квадратный корень из полученной суммы, и находим, что погрешность (которое еще называют средним квадратичным отклонением) равна в данном случае ± 32.7 %. Мы видим, что при введении в расчеты константы скорости мутации погрешность более чем удвоилась. Получаем, что маркер DYS391 в данной серии указывает на «возраст» выборки 2400 ± 800 лет.

Но когда расчет ведется по всем маркерам сразу, а не его индивидуальным величинам, то число аллелей и мутаций в них идет на тысячи, и погрешность получаемого «возраста» резко снижается, но никогда не становится меньше, чем погрешность определения константы скорости мутации. Последняя обычно принимается за ± 10 %, хотя определенно меньше этой величины, как пояснено выше.


Вторая плоская ветвь из 57 гаплотипов далее по часовой стрелке (из которой половина казахские, остальные – киргизские, узбекские, ногайские, индийские и один монгольский), еще более недавняя, там на всю ветвь всего 39 мутаций. Ее возраст -900 ± 170 лет. Но предковый гаплотип отличается принципиально от предыдущей ветви:


13 25 16 10 12 13 и 14 10 13 и 29


Между ними – 5 мутаций, что соответствует 5/0.02 = 250 ? 331 условных поколений, то есть примерно 8275 лет между их общими предками. Общий предок обеих ветвей жил примерно (8275 + 1240 + 900)/2 = 5200 лет назад.

Если обратить к схеме субкладов, картина с казахскими гаплотипами проясняется. Первая ветвь относится к субкладу С2b1b-M48, вторая – С2b1c-F1918, их общий предок – субклад С2b1-F1699. В данном случае расчеты имеют лишь иллюстративный характер, так как гаплотипы короткие, и их разрешающая способность мала.

В субкладе С2, два уровня которого занимают казахские и родственные гаплотипы, среднеазиатские и монгольские гаплотипы обычно имеют субклад С2-М217, но там много уровней, их занимают американские индейцы, Индия, Китай, Япония, Корея, Филиппины, все они расходятся по разным подуровням. В субкладе Cl находятся Новая Зеландия, острова Кука и Гавайские острова – С1b2a-М38; центральноевропейские гаплотипы (Англия, Ирландия, Шотландия, Италия, Испания, Венгрия, Греция, Польша) – С1а2a1-V222, и так далее. Обратим внимание на самую нижнюю небольшую ветвь дерева гаплотипов, которая показывает большой разрыв со среднеазиатскими гаплотипами. Они имеют субклад С1а2a1-V222, это потомок ископаемых гаплотипов С1а2-V20, найденных в Испании, Венгрии и Анатолии с датировками 7000–8400 лет назад. Эти потомки продолжают сейчас жить в Европе. Свою отдельную ветвь имеют гаплотипы Гавайских островов и Новой Зеландии, на дереве гаплотипов это ветвь на 8 часов, к ней примыкает ветвь филиппинцев.

В большой выборке из 657 австралийских аборигенов[43]43
  Nagle, N., Ballantyne, K.N., van Oven, M., Tyler-Smith, C., Xue, Y., Taylor, D., Wilcox, S., Wilcox, L., Turkalov, R., van Oorschot, R.A., McAllister, R, Williams, L., Kayser, M., Mitchell, R J. (2015) Antiquity and diversity of aboriginal Australian Y-chromosomes. Am. J. Phys. Anthropol. doi: 10.1002/ajpa.22886, October 30, 2015


[Закрыть]
у 125 человек (19 %) нашли гаплогруппу С1b2b-M347. Кстати, в той же работе больше половины аборигенов (56 %) были признаны «ненастоящими» аборигенами, потому что у них гаплогруппы были «пришлыми», причем относительно недавно.

У нас нет возможности разбирать здесь все гаплотипы гаплогруппы С по регионам, хронологии, этносам, субкладам, для этого понадобилась бы отдельная книга. Суть этих иллюстраций в том, что каждый, имеющий гаплогруппу С, может найти себя и свою ДНК-генеалогическую линию на подобном дереве, увидеть место себя и своего рода в общей картине мира, лучше понять историю своих предков.

Но еще на одном примере мы немного остановимся – это киргизские гаплотипы гаплогруппы С. Причина проста – у киргизов есть свой ДНК-проект, и киргизы будут читать эту книгу. Дерево киргизских гаплотипов в 12-маркерном формате дано на рисунке, где показаны ветви разных гаплогрупп. Большинство их относится к гаплогруппе R1a, скифская ветвь, что мы будем рассматривать ниже. Ее датировка – середина I тыс н. э.


Дерево 63 гаплотипов в 12-маркерном формате киргизского Проекта FTDNA. Указаны гаплогруппы отдельных ветвей. Построено по данным Проекта[44]44
  https://www.familytreedna.com/public/kirgiz/default. aspx?section=yresults


[Закрыть]


В нижней части дерева – плоская ветвь субклада С2-М217 (так указано в киргизском проекте), в ней – 10 гаплотипов, на все приходится всего 10 мутаций от предкового гаплотипа.


13 25 16 10 12 13 1114 10 13 11 29


Мы видим, что это точно такой же предковый гаплотип, какой был рассмотрен выше для казахских (в основном) гаплотипов субклада С2b1c-F1918, с датировкой общего предка 900 ± 170 лет назад. Так что в киргизском проекте субклад С2-М217 указан правильно, но «недотипирован», там на самом деле на несколько уровней глубже. Проверим датировку. Общий предок ветви жил 10/10/0.02 = 50 ? 52 условных поколения, или 1300 ± 430 лет назад, то есть примерно восьмой век, плюс-минус несколько веков назад. По случайному совпадению или нет, общий предок ветви R1a жил тогда же, 1300 ± 280 лет назад. Возможно, скифы на территории современной Киргизии имели обе гаплогруппы – R1a и С2. Первая – потомки ариев, которые прошли по тем землям почти за три тысячи лет до того, вторые – обычно монголоидные племена. Вот и возможная отгадка, почему скифы считаются монголоидными (хотя не все и необязательно) – если носители гаплогрупп R1a и С2 жили на одной территории, образовывали смешанные семьи европеоидов и монголоидов, то дети, внуки и последующие потомки обычно были монголоидными, хотя мужская гаплогруппа оставалась R1a, арийской, исходно европеоидной. Это же наблюдается на Алтае, в регионах бывшего «скифского круга», где мужчины имеют в своем большинстве гаплогруппу R1a, а мтДНК – классические восточно-азиатские (или центрально-азиатские, или восточно-евразийские) А, С, D и G. Это же наблюдалось при изучении ископаемых ДНК пазырыкской культуры на Алтае – более половины ископаемых костных остатков пазырыкской культуры имели «восточно-евразийские» мтДНК – А, С, D и G. Получается, что скифы унаследовали арийскую гаплогруппу R1a, но их местные восточно-евразийские матери передали им монголоидную внешность.

История с гаплотипом Чингиз-хана

Расскажем о так называемом «гаплотипе Чингиз-хана», ДНК-генеалогия которого представляет собой одну из наиболее распространенных мистификаций. Все началось в начале 2000-х годов, когда группа исследователей обнаружила от Средней Азии до Тихого океана необычно высокую долю гаплотипов гаплогруппы Сз в их выборке. Выборка была немалая, 2123 человека. Исследователи пересчитали долю этих гаплотипов на население, и пришли к выводу, что таких гаплотипов в Азии должно быть 8 % от всего населения, или как минимум 16 миллионов человек[45]45
  Zerjal, Т., Xue, Y., Bertorelle, G., Wells, R.S., Bao, W. et al. (2003) The Genetic Legacy of the Mongols. Am. J. Hum. Genet. 72, 717–721.


[Закрыть]
. Поскольку территория этого гаплотипа огромна, то ясно, что не какая-то локальная популяция, а общее, так сказать, явление, надпопуляционное. Кто же мог быть основателем такого огромного количества потомков? Ну ясно, что это мог быть только Чингиз-хан, решили исследователи. Вот такая аргументация. Да, авторы еще оценили, что общий предок гаплотипов этого кластера жил примерно 1000 лет назад, или с 95-ной надежностью в интервале 700-1300 лет назад. В другом варианте счета эта оценка составила 860 лет назад, с 95 %-ной надежностью 590 – 1300 лет назад. В общем, времена Чингиз-хана, или близкие.

Правда, некоторое недоумение вызывало то, что при таком количестве обладателей гаплотипа, много миллионов человек, и при наличии ажиотажа, поднятого прессой, их никак не могли найти. Сенсацию вызвало то, что одного нашли на Украине, старший офицер Советской армии в отставке, и он был смущен обилием статей о нем в прессе. Но помилуйте, если таких 16 миллионов человек, то найти таких должно быть очень просто. Но вот не находили. Такая незадача.

Статья под названием «Генетическое наследство монголов» была опубликована в сжатом виде, на четырех страницах, и с тех пор по этой теме научных публикаций не было. Да и гаплогруппа была типирована весьма примитивно. Субклад «Чингиз-хана» определен как С(хСзс), то есть гаплогруппа С за исключением подгруппы Сзс, которую определяет снип М48. Этого снипа у «потомков Чингиз-хана», стало быть, нет. С тех пор номенклатура изменилась, и не один раз, и сейчас это читается так, что у «Чингиз хана» не было субклада С2b1b-M48, а остальные, стало быть, могли быть почти любые, которые приведены на диаграмме. Кстати, субклад М48 хорошо выражен у современных казахов, как описано выше. Но это, получается, не гаплотип Чингиз-хана.

Поскольку гаплотипов в статье не дано, то проверить расчеты авторов по мутациям не представляется возможным. Однако можно применить другой метод расчета, при котором сами гаплотипы не требуются. В статье приведена диаграмма, которая отображает «вариации» гаплотипов в схематической форме. Отдельно показан «звездный кластер» (более правильный перевод был бы «звездчатый кластер»), из которого можно заключить, что в него входит 66 гаплотипов, из которых 35 являются одинаковыми. Это уже достаточно для расчетов, при условии, что известна средняя скорость мутации маркеров в гаплотипе. Хотя гаплотип нестандартный, в формате DYS 389-1? 389-2? 390? 391, 392, 393, 388, 425, 426, 434, 435, 436, 437, 438, 439 (который никто и никогда больше в литературе не применял), но эту скорость, а, точнее, константу скорости мутации, нетрудно рассчитать, поскольку мы знаем константу скорости мутации для каждого маркера в отдельности (см. врезку). Осталось сложить соответствующие величины, и получить, что искомая константа скорости мутации этого нестандартного 15-маркерного гаплотипа равна 0.0133 мутаций на весь гаплотип за 25 лет.

Поскольку из 66 гаплотипов по данным статьи[46]46
  Там же.


[Закрыть]
35 были одинаковыми, то можно рассчитать, через какое время, прошедшее от общего предка, сохранятся интактными эти 35 гаплотипов. Это время равно ln(66/35)/0.0133 = 48 ? 51 условных поколений, то есть 1275 ± 250 лет прошло от общего предка до времени тестирования участников «стар-кластера» на гаплотипы. Это согласуется с оценками авторов статьи про Чингиз-хана. Получается 728 ± 250 год нашей эры, то есть 8-й век, плюс-минус два-три века. Чингиз-хан родился между 1155–1162 гг., на четыреста лет позже, ну да ладно, порядок, как говорится, тот же.



Базовый, или предковый гаплотип, одинаковый в 35 из 66 гаплотипов кластера, имел следующие аллели, соответственно приведенным выше маркерам:


10 16 25 10 11 13 14 12 11 11 11 12 8 10 10


В системе FTDNA этот гаплотип для первых 12 маркеров имеет вид:


13 25 Х 10 Х Х Х 14 10 10 11 26


Странный этот гаплотип, и самое странное в нем – это первый маркер справа в верхнем гаплотипе, или третий маркер справа в системе FTDNA, DYS389-1 = 10. Из многих сотен гаплотипов в проекте[47]47
  https://www.familytreedna.com/public/Chaplogroup/default. aspx?section=yresults


[Закрыть]
гаплогруппы С в этом маркере нет ни одного «10», обычно «13» или «14». А уж утверждать, что таких гаплотипов, с «10», 16 миллионов, это уже слишком. Так не бывает, чтобы миллионы гаплотипов, и ни один не попал в базу данных. Скорее всего, в статье ошибка.

Собственно говоря, никакого Чингиз-хана в статье «Генетическое наследство…» нет. Есть якобы широко распространенный гаплотип, в котором явно ошибка, есть предположение, что это – потомки Чингиз-хана. И всё.

Сам Чингиз-хан, по многим источникам, в том числе древним, опубликованным буквально через несколько лет после его смерти, был описан как вовсе не монгол. Он любил собирать в лесу грибы и ягоды (найдите таких среди монголов), любил охотиться на уток (покажите степняку-монголу утку, и предложите съесть, его тут же вывернет), любил с братом ловить рыбу в реке сетью (найдите такого степняка-монгола, да и вообще степняка), он был из племени «голубоглазых» (Борджигинов), прятался от преследователей в лесу, и чувствовал там себя вполне уверенно (найдите такого монгола), и так далее. Совсем не удивлюсь, если он окажется гаплогруппы R1a.

Глава 8
Гаплогруппа D

Гаплогруппы D в Российской Федерации, на Кавказе и в Средней Азии практически нет, поэтому мы ее не будем здесь подробно рассматривать. Упомянем только, что она встречается в Юго-Восточной Азии, в Японии (треть от мужской популяции), на Филиппинах, в Китае, Монголии, в Тибете (половина от мужской популяции). Например, в Афганистане среди выявленных 1023 гаплотипов – ни одного из гаплогруппы D.

В «Проекте гаплогруппы D»[48]48
  https://www.familytreedna.com/public/Dhaplogroup?iframe=yresults


[Закрыть]
есть всего 36 человек (по состоянию на декабрь 2015 года) с показанными регионами жизни предков, из них 22 японца, один кореец, пять казахов, один ногаец, один крымский татарин, три китайца и три филиппинца.

Расчет по снипам показал, что гаплогруппа D образовалась примерно 63500 лет назад[49]49
  http://www.yfull. com/tree/D/


[Закрыть]
, то есть опять при выходе из бутылочного горлышка людей, переживших, видимо, глобальную катастрофу 64000 ± 6000 лет назад.

Глава 9
Гаплогруппа Е

Это – одна из наиболее населенных гаплогрупп человечества, ее характерные мутации имеют в своих Y-хромосомах несколько сотен миллионов мужчин на планете. «Характерные мутации», а не одна характерная мутация – это не оговорка. Гаплогруппу Е определяют 151 мутация, и все они определяют её в равной степени. Конечно, какая-то одна из них была первой, у какого-то конкретного младенца, и от него, выжившего и давшего потомство, начался отсчет времени жизни гаплогруппы Е.

Это дает возможность проиллюстрировать несколько важных положений. Первое – что пока невозможно установить, какая мутация была первой, поскольку все они есть у носителей гаплогруппы Е. Расчеты по снипам показывают, что гаплогруппа Е образовалась примерно 63500 лет назад[50]50
  5 0. http://www.yfull. com/tree/Е/


[Закрыть]
, ту же датировку дают и расчеты по мутациям в гаплотипах. Допустим, что все эти мутации образовались у потомков, несущих первую мутацию, на протяжении многих тысячелетий, но таким образом эти мутации в совокупности есть у всех современных носителей гаплогруппы Е. Возможно, они есть не все у каждого носителя гаплогруппы, но современные методы пока не позволяют выявлять такие тонкие различия. Поэтому все 151 снип считают на равных правах образующими гаплогруппу Е. Еще особенность классификации в том, что многие снипы являются синонимами других, такие синонимы записывают через косую черту, как, например, М96/ PF1823, или CTS433/M5384/PF1504.

В составе гаплогруппы Е насчитывается 140 субкладов, то есть подуровней гаплогруппы. Приведем только 26 из них.


Дерево субкладов гаплогруппы E. По данным ISOGG.


Гаплотипы наших современников гаплогруппы Е

На рисунке ниже приведено дерево гаплотипов субклада Е1b1b1-M35.1 (и нижестоящих субкладов вплоть до V92), построенное с использованием 470 гаплотипов в 111-маркерном формате. Видно, как дерево расходится по ветвям, и при желании каждую ветвь можно анализировать отдельно. Возраст всего дерева, то есть временное расстояние до общего предка дерева несложно рассчитать так, как это показано во врезке. Получается, что общий предок всех 470 человек жил примерно 10 тысяч лет назад. Но это – общий предок субклада М35.1, восьмого уровня на схеме субкладов. Общий же предок гаплогруппы Е, как сообщено выше, жил примерно 60 тысяч лет назад.


Субклад, дерево гаплотипов которого приведено на рисунке ниже, имеет индекс М35.1. Что означает это продолжение индекса после точки? До недавнего времени в номенклатуре значилась только мутация М35, и она относилась к мутации в нуклеотиде под номером 21 миллион 741 тысяча 703, в котором исходный гуанин превратился в цитозин, то есть G>C. Эта мутация маркирует субклад Е1b1b1 (см. схему субкладов гаплогруппы Е). Позже было найдено, что по чистой случайности в Y-хромосоме с ее 58 миллионами нуклеотидов именно в указанном нуклеотиде произошла другая, последующая мутация, при которой образовавшийся цитозин превратился в тимин, С>Т. Естественно, это произошло в той же гаплогруппе Е, только в нисходящем субкладе, а именно в E1b1b1a1b1a3. Поэтому первую по времени мутацию обозначили М35.1, а вторую – М35.2. Таких примеров в номенклатуре есть несколько сотен, а именно 429 из 20076 снипов (примерно 2 %) по номенклатуре ISOGG по состоянию на конец декабря 2015 года.

Расчет времени жизни общего предка субклада Е1b1b1-M35.1 (дерево 111-маркерных гаплотипов показано ниже)

Вручную делать расчеты такой серии гаплотипов уже слишком трудозатратно, поскольку 470 гаплотипов в 111-маркерном формате содержат 52170 аллелей, то есть чисел в гаплотипах, и все эти аллели содержат 27187 мутаций. Как только подсчет мутаций завершен, дальше уже просто – делим 27187 на число гаплотипов и на константу скорости мутаций для 111-маркерных гаплотипов (0.198 мутаций на гаплотип на условное поколение в 25 лет), получаем 27187/470/0.198 = 292 ? 392 условных поколения, то есть 9800 ± 980 лет до общего предка.

Но вручную так, конечно, никто не считает. Никто не считает не только потому, что долго, а потому что в мире есть всего два человека, которые умеют обрабатывать подобные серии гаплотипов, и знают, как это делать. Помимо автора настоящей книги, еще один – это И.Л. Рожанский, вместе с которым мы опубликовали серию статей по ДНК-генеалогии. Ну и, конечно, вручную считать такие серии данных смысла не имеет, для этого разработана специальная программа. Она и число мутаций подсчитывает, и остальные расчеты проводит. Для данной серии из 470 гаплотипов в 111-маркерном формате расчет проводится в течение одной секунды, и программа выводит на дисплей время до общего предка: 9801 ± 982 лет. Как видим, это то же самое время, которое получено при счете вручную, только без округления. Для тех же гаплотипов, но в 67-маркерном формате время до общего предка (без округления) получается 9241 ± 927 лет, то есть разница составляет всего 6 %, и оба числа совпадают в пределах указанной погрешности. Это вполне приемлемо для подобных расчетов. Это показывает, как на многих сотнях подобных примеров, что расчетный аппарат ДНК-генеалогии отлажен и надежно работает.

Здесь представлен ознакомительный фрагмент книги.
Для бесплатного чтения открыта только часть текста (ограничение правообладателя). Если книга вам понравилась, полный текст можно получить на сайте нашего партнера.

Купить и скачать книгу



скачать книгу бесплатно

страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26

сообщить о нарушении