Второй день работы конгресса начался с выступлений, посвященных таким актуальным вопросам отрасли как биоинформатика, амилоидные структуры и прионы дрожжей, а также синдром наследственных опухолевых заболеваний.
Открывая пленарную сессии, академик РАН, научный руководитель Института цитологии СО РАН Николай Колчанов отметил, что сегодня генетика находится в состоянии информационного взрыва: так, например, только один геномный центр ежегодно производит около 7 петабайт приемной информации. Это превышает объем данных, накапливаемых самой большой социальной сетью Facebook. «Темпы накопления геномных данных существенно превышают возможность их биоинформационной обработки, что стало отправной точкой для развития методов глубокого машинного обучения», - сообщил Николай Александрович.
Несмотря на очевидные преимущества, такие методы имеют существенный недостаток – непрозрачность принимаемых решений. Одним из путей преодоления данной проблемы генетики видят в создании интерпретируемой нейронной сети с глубоким обучением для предсказания процессов в мутантных линиях дрожжей и оценки эффективности роста дрожжевых культур. Прозрачность достигается за счет того, что ее топология создается в полном соответствии с двумя онтологическими описаниями биологических процессов на клеточном уровне: генная онтология и специализированная онтология дрожжевых клеток.
Другой источник больших данных в генетике — это научные публикации, тексты патентов, тысячи графических баз, из которых нужно научиться автоматически и точно извлекать информацию. Одна из таких систем, разработанная в институте цитологии, основана на мощной системе словарей и лингвистического анализа научных текстов. Она позволяет накапливать информацию в базе знаний и содержит описание двух миллионов генов и белков, 46 тысяч заболеваний и более тридцати миллионов взаимодействий. Из этой базы можно извлекать информацию о генных сетях, ответственных за формирование фенотипических признаков организмов или заболеваний.
Подробно проблемы обработки больших данных будут обсуждаться участниками III Международной конференции BIATA 2019 «Биоинформатика: от алгоритмов к применению», которая пройдет в третий день съезда.