Что такое Полный геном и зачем он нужен

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Атлас запустил новый продукт — Полный геном. Теперь мы можем исследовать не только отдельные точки в геноме, как в генетическом тесте, но и прочитать всю последовательность нуклеотидов генома. В этой статье рассказываем, что это и зачем это нужно. Внимание! Мы подарим Полный геном одному из наших читателей, кто выполнит все задания. Подробнее — в конце статьи.

Что значит Полный геном?

Чтобы разобраться с полным геномом или полногеномным секвенированием (whole genome sequencing, WGS), мы сначала расскажем коротко о технологии обычного генетического теста.

Микрочип и обычный генетический тест

Генетический тест «Атлас», как и многие подобные тесты, делают с помощью ДНК-микрочипа (DNA-microarray, Beadchip). Поверхность ДНК-микрочипа содержит множество небольших углублений (порядка 700 тысяч), в каждом из которых находится по кремниевому шарику диаметром около 3 микрометров. На поверхности этого шарика находятся сотни тысяч сшитых с ним идентичных коротких последовательностей одноцепочечной ДНК, соответствующих участку генома человека, расположенному рядом с исследуемой вариацией (снип, SNV). Каждый шарик соответствует только одной генетической вариации, а координаты лунки на чипе для каждого шарика известны (Рисунок 2D).

Образовательный блок 1

Снип или SNV (Single Nucleotide Varition) — генетическая вариация, то есть изменение последовательности ДНК только в одном нуклеотиде. Например, на участке гена Х в определенной позиции может существовать один из трех нуклеотидов (аллелей) A, G или T, а в остальной части последовательности у разных людей нуклеотиды идентичны (Рисунок 1). От этой одной буквы может зависеть определенная особенность человека.

genom1.pngРисунок 1 Автор иллюстраций Rentonorama

Например, полиморфизм rs4481887, который находится на первой хромосоме рядом с геном обонятельного рецептора OR2M7, имеет три аллеля: A, G и T. Наличие аллеля А на одной или на обеих хромосомах (генотипы A/G, A/T и A/A) определяет чувствительность к запаху мочи после употребления спаржи. При отсутствии аллеля А человек даже не будет догадываться о том, что после поедания спаржи с мочой выделяется вещество с характерным запахом.

Индел или INDEL (Insertion/Deletion) — другой тип генетических вариаций, в который относят удаление или вставку одного или нескольких нуклеотидов. Снипы и инделы вместе, наряду с возможными структурными изменениями: большими делециями, инсерциями, транслокациями, инверсиями, являются фактической разницей в геноме разных людей.

При сдаче генетического теста «Атлас» из слюны выделяют геномную и митохондриальную ДНК, увеличивают количество ее копий (амплифицируют) и фрагментируют — нарезают на небольшие отрезки (Рисунок 2А). Многочисленные одноцепочечные фрагменты человеческой ДНК соединяются с соответствующими им последовательностями на кремниевых шариках (Рисунок 2В), после чего происходит удлинение этих последовательностей на 1 искусственный флюоресцирующий нуклеотид (Рисунок 2С). Разные нуклеотиды светятся разными цветами: красным и зеленым. По соотношению интенсивностей свечения каждого цвета (Рисунок 2E) можно определить генотип, который соответствует шарику.

genom2.pngРисунок 2

После сканирования всего чипа мы получаем около 700 тысяч генотипов вариаций и пропускаем их через нашу систему интерпретации. Часто пользователи пытаются сравнить результаты разных тестов, но замечают сильную разницу. Это происходит по нескольким причинам. Во-первых, разные компании используют разные версии чипов и наборы SNV. Как следствие, на одних чипах существуют уникальные наборы вариаций, которые нельзя найти на других чипах. Во-вторых, всегда существует ошибка генотипирования, которая может возникнуть по разным причинам, хотя она вносит наименьший вклад в различие результатов. Данные исследований показывают, что точность генотипирования на ДНК-микрочипах, которые использует Атлас, выше 99,5%. Но основная причина отличий результатов генетических тестов в интерпретации: разные компании делают ее по-разному даже для одинаковых исходных данных генотипирования.

Что такое полногеномное секвенирование?

Главное отличие полногеномного секвенирования от генотипирования на микрочипах — технология и обработка получаемых данных. При полногеномном секвенировании определяется почти вся последовательность ДНК. Почти — потому, что в геноме существуют участки, которые в силу различных причин невозможно прочитать. Часто это участки теломер и центромер — концов и центра хромосом. Для определения последовательностей подобных регионов генома используют малодоступные узкоспециализированные технологии. Такие исследования носят в основном исследовательский характер.

Определение последовательности ДНК позволяет узнать генотипы вариаций в любом месте генома, включая исследуемые вариации на ДНК микрочипе в генетическом тесте «Атлас». Для быстрого и эффективного определения последовательности генома используется технология NGS (next generation sequencing, секвенирование следующего поколения). Существует несколько принципиально отличающихся методов, созданных разными компаниями.

Суть метода Атласа заключается в следующем: выделенную и очищенную ДНК многократно амплифицируют и фрагментируют до определенной длины. К каждому фрагменту пришиваются специальные последовательности, которые позволяют управлять данным фрагментом. Прочитываются, именно эти обработанные фрагменты (Рисунок 3).

genom3.pngРисунок 3. Процесс пошагового секвенирования: каждый следующий нуклеотид флуоресцирует в уникальном для него цветовом канале.

На каждом шаге происходит удлинение на один нуклеотид, с которым связан флуоресцентный зонд. Каждый из четырех нуклеотидов связан с зондом определенного цвета. Таким образом, шаг за шагом по цвету свечения можно определить порядок нуклеотидов в исследуемом фрагменте. Полученные последовательности каждого фрагмента называются прочтениями или ридами (reads), и их получается около 1 миллиарда на каждый образец исследуемой ДНК. Риды и показатели качества их прочтения хранятся в текстовом формате FASTQ.

Далее риды выравниваются (картируются) на референсный геном. С использованием специального программного обеспечения, например Burrows-Wheeler aligner, для каждого рида происходит поиск места на референсном геноме, которому он соответствует. Прочтение вместе с информацией о положении в геноме записывается в файл формата SAM или BAM. Визуализация картированных на геном ридов в SAM (BAM) файле с помощью геномного браузера IGV показана на Рисунке 4.

genom4.pngРисунок 4. Визуализация BAM файла в программе IGV (участок хромосомы одного человека). Картированные риды обозначены горизонтальными блоками, позиция указана в треке сверху.

На рисунке также видно, что такое глубина прочтения (depth of coverage) — когда, любую позицию в референсном геноме покрывает несколько выровненных ридов. Значение усредняется по всему геному и используется как показатель качества исследования. Атлас гарантирует среднее покрытие генома глубиной выше 30, что обеспечивает высокое качество генотипирования. Увеличение глубины прочтения значительно увеличивает стоимость секвенирования, точность определения генетических вариаций и используется в узких онкологических исследованиях, например, в Атлас Онкодиагностике.

Образовательный блок 2

Референсный геном — это искусственно собранная последовательность ДНК биологического вида. Большинство последовательностей, из которых собран референсный геном человека, были взяты у одного человека Африкано-Европейского происхождения. Референсный геном регулярно обновляется: последняя версия, GRCh38, была выпущена в 2013 году и содержит в себе 3,3 млрд нуклеотидов. Несмотря на доступность новой версии, многие генетические тесты и сервисы по анализу генетических данных используют предыдущую — GRCh37. Для предоставления наиболее точных результатов анализа Атлас использует версию GRCh38.

Полученные после картирования файлы (SAM-файлы, sequencing alignment map, или в бинарном виде BAM — binary alignment map) фильтруются и используются для поиска вариаций в геноме, включая как однонуклеотидные вариации, так и короткие инсерции и делеции. Наличие однонуклеотидного варианта на хромосоме 1 в позиции 248333561 (приведенный ранее пример rs4481887 — вариант, определяющий чувствительность к запаху мочи после употребления спаржи) показано на Рисунке 5.

genom5.pngРисунок 5. Визуализация BAM файла в программе IGV. Участок хромосомы 1. В позиции 248333561 находится полиморфизм rs4481887: нуклеотид в данной позиции не соответствует референсному геному и выделен цветом. Во всех ридах, которые покрывают данный участок генома, присутствует нуклеоид G, что говорит о гомозиготности генотипа. У человека с такими результатами секвенирования будет генотип G/G и нечувствительность к запаху мочи после употребления спаржи.

Найденные генетические вариации хранятся в VCF файле (variant call format). Он содержит обнаруженные аллели для каждой позиции генома, а также показатели качества генотипирования. VCF файл фильтруется: из него удаляются записи о наличии/отсутствии вариаций, которые не соответствуют порогам качества и являются потенциально ложными. Каждой найденной вариации присваиваются известные по ней данные из dbSNP, в частности, уникальные идентификаторы rsID.

Подробно ознакомиться со спецификой форматов хранения данных секвенирования и генотипирования можно по следующим ссылкам:

FASTQ — maq.sourceforge.net

SAM — samtools.github.io

VCF — samtools.github.io

Для визуализации картирования ридов (SAM или BAM файлов) используется различное программное обеспечение. Наиболее популярным является IGV (Integrative Genomics Viewer от Broad Institute). Загрузить IGV и ознакомиться с ним можно по ссылке.

Какие данные интерпретирует Атлас?

Полный геном содержит данные по тем вариантам генов, которые есть в генетическом тесте «Атлас», а также по признакам, которые нельзя подсчитать с помощью технологии генотипирования с использованием ДНК-микрочипов. Например, к таким признакам относятся риски онкологических заболеваний.

Здоровье

383 Наследственных заболеваний

Основной акцент всех тестов Атласа — раздел здоровье, и наш новый тест «Полный геном» не стал исключением. К признакам нашего основного теста мы добавили еще 65 наследственных заболеваний.

К наследственным или моногенным заболеваниям относятся болезни, которые передаются от родителей детям и на развитие которых не влияет образ жизни человека. Для развития такого заболевания достаточно мутации от одного или от обоих родителей в зависимости от типа наследования заболевания.

genom6.png

21 Многофакторное заболевание

На развитие многофакторных заболеваний влияют гены, образ жизни и факторы окружающей среды. К таким болезням относятся, например, сахарный диабет, ожирение, болезнь Паркинсона и Альцгеймера, атопический дерматит. В личном кабинете пользователю доступен расчет относительного риска развития заболевания на основе данных теста и опросника об образе жизни.

6 других признаков, связанных со здоровьем

Здесь мы собрали признаки, которые влияют на образ жизни человека. Например, продолжительность сна, хронотип, синдром хронической усталости, боязнь боли.

genom7.png

Клиническая генетика

43 Онкологических риска

Благодаря тому, что в полном геноме исследуется больше вариантов генов, мы получаем больше данных и можем оценить риски развития онкологических заболеваний. По результатам теста мы оцениваем предрасположенность к наследственным онкологическим синдромам.

Наследственные онкологические синдромы — генетические заболевания, которые могут передаваться в семье из поколения в поколение и повышать риски некоторых видов рака. Около 10% случаев онкологии имеют наследственную природу. ⁠ Поиск наследственных онкологических синдромов полезен в первую очередь тем, у кого в семье были случаи рака. На наследственную природу может указывать ранний возраст начала болезни (до 50 лет), наличие нескольких родственников по одной линии с одинаковым диагнозом, редкие формы рака. На основе результатов теста врач определит объем дополнительных исследований и составит персональную программу управления онкологическими рисками. Узнайте больше о том, как развиваются злокачественные образования, можно в нашей серии статей.

genom8.png

53 Показателей восприимчивости к активным компонентам лекарств

Каждый человек по разному реагирует на лекарства: у одних препарат действует хорошо, другие страдают от тяжелый побочных эффектов, а у третьих лечение оказывается неэффективным. В некоторых случаях это обусловлено работой генов, которые влияют на метаболизм активных веществ и риски побочных реакций.

Например, препарат Омепразол снижает секрецию соляной кислоты в желудке. Используется при лечении язвенной болезни желудка и двенадцатиперстной кишки, рефлюксной болезни. Ген CYP2C19 кодирует фермент, который отвечает за метаболизм омепразола. Поэтому, в зависимости от вариантов гена, необходимо корректировать дозу омепразола или использовать альтернативное лекарственное средство.

В тесте мы исследуем варианты генов, связанные с особенностями метаболизма 53 препаратов. Среди них есть антидепрессанты, гормональные контрацептивы, препарат для снижения свертываемости крови и некоторые другие.

genom9.png

Специализированный отчет по наследственным заболеваниям

Отчет — заключение Лаборатории клинической биоинформатики Федора Коновалова. Биоинформатики лаборатории ищут мутации, которые могут негативно влиять на здоровье, но по которым в настоящее время нет полноценных исследований. В заключении содержится вся необходимая информация для врача-генетика. С этим отчетом вы сможете обратиться к профильному специалисту в случае необходимости.

Такие генетические отчеты похожи на юридический документ с обилием сложных терминов, правильно оценить который может только специалист, в нашем случае — генетик. Поэтому мы не показываем данные клинической генетики до консультации. Во время встречи врач-генетик подробно рассказывает, что стоит обратить внимание с учетом вашей семейной истории и наличия симптомов. Это может помочь, например, для уточнения возраста начала скрининга определенных заболеваний или при планировании семьи.

Питание

28 Отчетов

По генетическим тестам и даже по полному геному подобрать оптимальное питание и составить рацион нельзя. Продуктов, их способов приготовления и блюд настолько много, что исследователям трудно найти какие-либо корреляции с вариантами генов. При этом некоторые данные все же есть.

По определенным вариантам генов мы можем узнать, есть ли у человека предрасположенность к непереносимости лактозы или глютена, быстро или медленно организм справляется с алкоголем или кофеином, а также оценить предрасположенность к определенному уровню железа, кальция, омега-3 и 6 жирных кислот. По этим данным человек может решить, какие продукты ему стоит убрать или наоборот добавить в рацион.

Спорт

16 Отчетов

Определить вид спорта, который вам больше подходит генетически — так же сложно, как и подобрать питание. Видов физической нагрузки сейчас множество, и понятие спорт с каждым годом расширяется. Так скейтбординг и серфинг добавили в программу олимпийских видов спорта. Видов физической нагрузки слишком много, чтобы это в большей степени было обусловлено генетикой. Поэтому не верьте генетическим тестам, которые обещают найти наиболее подходящий вам вид спорта. Выбирайте тот вид спорта, который просто нравится.

Научные сообщества генетиков обеспокоены, что родители делают генетические тесты детям, чтобы узнать, какой вид спорта им больше подходит. В таком случае ребенка могут отправить в группу, которая ему не нравится, но подходит по результатам теста. Если человек хочет добиться выдающихся результатов в спорте, то успех в большей степени будет зависеть от его амбиций, силы воли и характера. Варианты генов тут играют меньшую роль.

С помощью генетического теста можно узнать, как гены влияют на риски спортивных травм, количество свободного инсулиноподобного фактора роста-1, уровень эритроцитов, эритропоэтина, а также на особенности обмена аминокислот — валина, лейцина и L-карнитина. К результатам «Полного генома» мы добавили также риск невралгии седалищного нерва, уровень IGFBP 3, объем выдоха и другие.

Другие признаки

15 Отчетов

В этом разделе мы собрали признаки, которые относятся к особенностям организма: черты внешности, восприятие света, чувствительность к травам и запахам. В нашем тесте вы не найдете признаков, которые связаны с эмоциями, поведением или характером. В основном эти черты зависят от особенностей воспитания, окружения и привычек, и в меньшей степени на них влияют варианты генов. К тому же многие личные качества можно поменять или выработать во взрослом возрасте.

Происхождение

3 Отчета

Генетики не используют понятия этнической или национальной принадлежности. В большей степени они обусловлены культурными различиями, а не разными вариантами генов. Вместо этого генетики используют понятие популяция — группа людей, которая долгое время живет на одной территории. Сегодня доступны геномные данные определенных популяций, из них ученые выделили последовательности и варианты генов, характерные для каждой. Генетические исследования происхождения — это поиск таких вариантов в геноме и определение генетической схожести с известными популяциями в процентном соотношении.

Кроме популяционного состава по генетическому коду можно узнать свою гаплогруппу. Гаплогруппа — это группа людей с одинаковым вариантом гена, который случился у одного общего предка тысячи лет назад. Также по геному можно определить процент ДНК неандертальца. В геноме современного человека оказалось около 1–4 % ДНК неандертальцев. Сейчас известно только несколько признаков, которые зависят от наличия вариантов гена неандертальца, — рост волос на спине и уровень липопротеинов низкой плотности ЛПНП (плохой холестерин).

genom10.pngСравнение Полного генома и генетического теста «Атлас»

Почему Полный геном?

Главный плюс Полного генома в том, что вы получаете всю информацию о своей ДНК. Когда появятся новые данные, мы просто добавим их в личный кабинет. С обычным генетическим тестом это работает не всегда, так как в нем исследуется около 660 000 вариантов — 0,1% всей ДНК. Для интерпретации новых признаков их может быть недостаточно.

Результаты теста помогут предпринять меры по профилактике заболеваний, планированию семьи, а врач сможет уточнить диагноз в будущем или уже сейчас. Тест доставят на дом и всё, что требуется от пользователя — собрать образец слюны и вызвать курьера для передачи пробирки в лабораторию.

Основа Полного генома «Атласа»: генетический анализ высокой точности (99,5%), контроль качества полученных данных, запатентованная система интерпретации данных, доступ к исходным данным, консультация генетика, а также отобранные научные статьи, которые доступны каждому пользователю. Всё это пользователь получает за 94 500 — самая низкая цена за подобные услуги в России. Тест уже можно купить на сайте Атласа.

Если вы умеете работать с большими данными, а особенно биоинформатическими, ваши сырые данные полного генома могут быть пластилином, с которым на досуге можно поиграть и узнать о себе больше. Например, можно отсеять варианты генов, которые изучают другие компании и загрузить в их базу интерпретации, узнать родственную связь с другим человеком, взять референсную ДНК шимпанзе или Неандертальца и сравнить насколько вы схожи.

А еще

Атлас приготовил большой подарок читателям Хабра! В следующих статьях мы дадим 3 задачи с примерами и вводными данными, а также информацией по необходимому ПО. Первый, кто решит все задачи, — получит Полный геном в подарок!

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (4 votes)
Источник(и):

Хабр