Биоинформатикам Санкт-Петербургского государственного университета удалось создать новый алгоритм TruSPAdes, который значительно повышает эффективность технологии секвенирования TruSeq Synthetic Long Reads (TSLR). Новая разработка позволяет получать более длинные и точные фрагменты генома для последующей сборки. Результаты исследования были опубликованы в престижном журнале Nature Methods. Авторы статьи — младший научный сотрудник СПбГУ Антон Банкевич и заведующий лабораторией «Центр алгоритмической биотехнологии» Института трансляционной биомедицины СПбГУ Павел Певзнер.
Задача геномной сборки (восстановления нуклеотидной последовательности генома) — одна из центральных задач биоинформатики. Ее решение состоит из двух этапов: секвенирование («разрезание» молекулы ДНК на мелкие фрагменты и прочтение каждого такого фрагмента в отдельности) и непосредственно сборка — применение алгоритмов для восстановления генома из его фрагментов. При этом эффективность таких алгоритмов становится тем выше, чем длиннее и точнее получаются фрагменты в результате секвенирования.
На протяжении около 20 лет ученые всего мира стараются усовершенствовать оба этапа. Сегодня существует целый ряд компаний, разрабатывающих и улучшающих технологии секвенирования. Одна из таких технологий — TruSeq Synthetic Long Reads (TSLR), разработанная компанией Illumina, признанным лидером в данной области. Она уникальна тем, что позволяет провести сборку в два этапа. Благодаря этой технологии алгоритмисты получают возможность работать с промежуточной информацией (более короткими фрагментами, так называемыми ридами), анализировать ее, а затем уже восстанавливать более длинные фрагменты генома. Этот промежуточный этап называется баркодной сборкой. Именно ему посвятили свое исследование эксперты Санкт-Петербургского государственного университета.
Ученые проанализировали свойства технологии TruSeq, выявили ряд недостатков в ее работе и создали новый алгоритм для их компенсации. Один из минусов данной технологии — формирование ридов, часть которых принадлежит одному фрагменту генома, а часть — другому. Это так называемые химерические риды. «С такой проблемой довольно сложно бороться, — подчеркивает младший научный сотрудник СПбГУ Антон Банкевич. — Нужно находить эти соединения и удалять их. Для этого, сравнив риды друг с другом, необходимо определить, какие из них правильные, а какие нет. Специалисты Illumina не знали, что такая проблема может быть крайне актуальной для TSLR. Мы доказали: с ней справится разработанный нами новый алгоритм».
Для решения этой проблемы ученые СПбГУ предлагают использовать стандартную конструкцию, которую начали применять при сборке генома еще в начале 90-х годов. Тогда в биоинформатике стали использовать математическую модель — граф де Брюйна. Это универсальный инструмент, позволяющий представить информацию, данную в ридах, в более наглядном виде. Если построить этот граф для ридов, он будет таким же, как если бы его построили для всего генома. С помощью этого инструмента ученые СПбГУ научились находить ошибочные, в том числе химерические, риды, анализировать свойства этих соединений, а затем удалять их.
С проблемой химерических ридов исследователи СПбГУ уже сталкивались в процессе работы над одним из своих первых проектов — при разработке инструмента SPAdes. Выявление этих ридов было связано с применением технологии MDA, которая позволяет проводить секвенирование из одной клетки. До сегодняшнего дня никто не предполагал, что такие же проблемы могут возникнуть в технологии TSLR.
Результаты, полученные в ходе исследования, позволяют повысить эффективность технологии TSLR на 20 %. Разработанный алгоритм можно будет устанавливать на серверы различных лабораторий, которые занимаются сборкой генома. Через него будут проходить данные, полученные с помощью TSLR. На выходе ученые получат более длинные и более точные фрагменты генома.
Подробнее о результатах исследования читайте в статье TruSPAdes: barcode assembly of TruSeq synthetic long reads, Nature Methods, 2016.
Справка:
Технология TruSeq Synthetic Long Reads — это часть новой волны технологий секвенирования длинных прочтений, начавшейся в 2011 году с появления технологии SMRT (разработчик — компания Pacific BioSciences). TSLR выделяется тем, что позволяет получать очень точные геномные фрагменты по значительно более низкой цене, чем у технологий-конкурентов.
Сегодня с использованием TSLR связано несколько крупных проектов, в реализации которых задействованы в том числе специалисты СПбГУ. Один из них — изучение метагеномов (совокупных геномов микроорганизмов). При помощи этой технологии можно просеквенировать метагеном и получить практически идеально собранные гены, что было невозможно с использованием технологий предыдущего поколения. Секвенирование метагенома тех или иных бактерий, живущих в человеке, поможет выявить влияние этих микроорганизмов на возникновение определенных патологических состояний.
Второй проект, связанный с поиском вариаций генома, также задействует новую технологию. С ее помощью станет возможно находить сложные вариации, которые до последнего времени оставались незамеченными. Это позволит ученым лучше понять вариативность человеческого генома и установить истинные причины многих генетических заболеваний.