Секвенирование ДНК

1406586035_sekvenirovanie-dnk-6173514 Секвенирование ДНК

Секвенирование ДНК в примерах.

Современная биология еще не научилась читать последовательности нуклеотидов в больших молекулах ДНК букву за буквой. Вместо этого ученые расшифровывают последовательности коротких (длиной примерно 100-300 нуклеотидов) кусочков ДНК, называемых ридами, не имея ни малейшего представления, из какого места генома был вырезан каждый кусочек.

Процесс сборки генома из таких ридов, называемый по-научному секвенироваиием ДНК, сродни попытке собрать головоломку из миллиарда кусочков. Это серьезная математическая задача, и мы расскажем увлекательную историю ее математического и биологического аспектов.

Секвенирование ДНК — введение

Представьте, что целый тираж какой-то газеты лежал в одном ящике, а потом этот ящик взорвался. Допустим, что газеты не сгорели, как это случилось бы в реальной жизни, а разлетелись на маленькие кусочки наподобие конфетти. Естественный вопрос:Стопка газет «Нью-Йорк Таймс» за 27.00.2000г. — можно ли по этим обрывкам восстановить то, что было написано в газете?Задача интереснее, чем может показаться на первый взгляд, — она не сводится лишь к склеиванию обрывков друг с другом, как будто это были кусочки пазла. Во-первых, мы вполне могли потерять часть обрывков. Во-вторых, в сундуке было много экземпляров газеты, и поэтому какие-то обрывки могут перекрываться между собой и содержать куски одних и тех же фраз. Таким образом, задачу о восстановлении газеты можно назвать задачей о перекрывающихся кусочках.Хоть наша аналогия с обрывками газет несколько притянута за уши, задача восстановления текста газеты по своей сути аналогична задаче сборки ДНК из фрагментов.Напомним, что ДНК можно представлять себе как цепочку из звеньев (нуклеотидов) четырех типов, обозначаемых буквами А, Т, Г и Ц. К сожалению, технология, которая позволила бы нам читать целый геном последовательно, нуклеотид за нуклеотидом, еще не придумана. Тем не менее, ученые научились определять последовательность нуклеотидов в коротких кусочках ДНК. На данный момент самые распространенные технологии имеют дело с ридами длиной всего лишь 100-300 нуклеотидов. Прочитывается множество ридов из нескольких копий одного генома, и получается гигантский пазл (в котором кусочки могут перекрываться). Например, геном млекопитающего длиной в 3 миллиарда нуклеотидов потребует сборки пазла из миллиарда кусочков — кажется, это рекорд для головоломок такого рода.

Таким образом, задача секвенирования ДНК сводится к чтению (г.е. определению последовательности) ридов (биологическая часть) и сборке фрагментов (математическая часть). Первая задача ведет свою долгую и запутанную историю с 70-х годов, когда Уолтер Гилберт (Walter Hilbert) и Фред Сэнгер (Fred Sanger) получили Нобелевскую премию за изобретение первого метода чтения ридов. В начале 1990-х на рынке появились современные ссквенаторы (машины для определения кусочков последовательности ДНК), и с этого момента для задачи секвенирования ДНК началась новая эра. В 2000 году несколько сотен таких машин, работая без остановки более года, прочитали достаточно большое число ридов, чтобы удалось возможно определить последовательность генома человека. Сборка этого генома потребовала нескольких месяцев работы одних из самых производительных суперкомпьютеров того времени.

Сложности сборки фрагментов ДНКЧуть позже мы достаточно подробно расскажем о том, как читают риды, а пока остановимся на вычислительной задаче сборки фрагментов — как, используя полученные риды, определить последовательность всего генома.Хотя и восстановление газеты, и сборка фрагментов сводятся к складывания пазла, задача сборки значительно сложнее, и не только из-за своего гигантского масштаба (напомним, что нам может потребоваться обработать миллиард ридов). Во-первых, газета написана на некотором понятном языке. Его правила будут подсказывать нам, могут ли какие-то два отрывка находиться рядом, вне зависимости от того, перекрываются они или нет. В то же время правила «языка» ДНК по большей части неизвестны биологам, и исходя из одной только последовательности практически невозможно понять, могут ли два иепересекающихся рида располагаться близко или далеко друг от друга.Вторая сложность сборки фрагментов состоит в том, что алфавит последовательностей ДНК состоит всего из 4 букв: А, Т, Г и Ц. Работа с маленьким алфавитом усложняет восстановление исходной последовательности, поскольку большее количество пересечений будет вызвано случайными причинами.В-третьих, любая последовательность ДНК содержит множество «консервативных участков» — нуклеотидных «слов», которые повторяются много раз подряд практически без изменений. Например, в геноме человека последовательность так называемого повтора (длиной примерно 300 нуклеотидов) встречается свыше миллиона раз, причем в каждом вхождении изменены всего несколько нуклеотидов. Поэтому для конкретного фрагмента бывает трудно определить, в каком именно консервативном участке генома он находится. Подходящей иллюстрацией этого затруднения может быть популярная когда-то в США головоломка «Triazzle». Хотя по сути это обычный пазл всего из 16 кусочков, исходное изображение содержит много одинаковых фигурок, повторяющихся на многих кусочках, из-за чего собрать «Triazzle» существенно сложнее, чем обычный пазл.

Наконец, современные секвенаторы ДНК далеко не совершенны, и считываемые ими риды содержат много ошибок. Поэтому, например, два рида, находившиеся в геноме далеко друг от друга, могут быть в результате ошибки интерпретированы как пересекающиеся.

Теперь, когда мы выяснили, какие трудности связаны с процессом секвенирования ДНК, можно рассказать о математическом аппарате, с помощью которого можно подойти к задаче сборки фрагментов.

Перед тем как перейти непосредственно к математике, давайте немного отвлечемся, чтобы лучше представить исторический контекст. Начнем с XVIII века и прусского города Кенигсберга (в настоящее время — Калиниград). Кенигсберг располагался тогда на двух берегах реки Преголи и двух ее островах. Эти четыре части города соединялись между собой семью мостами. Жители Кенигсберга любили прогуливаться, и им стало любопытно: можно ли пройти по каждому из семи мостов ровно один раз и вернуться после этого в исходную точку? Этот вопрос стали называть «задачей о Кенигсберских мостах». Окончательный ответ на него дал в 1735 году великий математик Леонард Эйлер. Решение Эйлера, которое мы обсудим чуть ниже, очень любопытно, потому что сто можно применить не только к мостам Кенигсберга, но и к любой другой сети мостов.Вторая история случилась в Дублине, где в 1857 году ирландский математик Уильям Гамильтон изобрел «Икосаэдрическую игру». Эта «игра», наслаждаться которой довольно непросто даже по современным меркам, состояла из деревянной доски с 20 лунками, некоторые из которых были соединены между собой линиями, и 20 пронумерованных фишек, которые можно было вставлять в эти лунки.

Цель игры расставить фишки по лункам так, чтобы фишка 1 была соединена на доске линией с фишкой 2, та, в свою очередь, соединялась с фишкой 3, и гак далее вплоть до фишки 20, которая должна быть связана с фишкой 1. Другими словами, если бы мы шли по линиям от фишки к фишке в порядке возрастания номеров, то мы побывали бы у каждой фишки ровно один раз и в конце вернулись бы к исходной.

Автор: Admin
Прочитано:
Комментариев: 0

Оцените статью
Яндекс.Метрика