
Группа российских ученых из ведущих научных организаций совместно с компанией Syntelly достигла впечатляющих результатов в разработке нейронной сети для автоматической генерации названий органических соединений. Инновационная система способна работать с номенклатурой ИЮПАК на уровне профессиональных химиков, открывая новые возможности для научного сообщества.
Международный союз теоретической и прикладной химии (ИЮПАК) разработал универсальный язык для наименования органических соединений. Химические названия могут быть удивительно сложными — например, обычная сахароза в номенклатуре ИЮПАК представляет собой длинную формулу: (2R,3R,4S,5S,6R)-2-[(2S,3S,4S,5R)-3,4-дигидрокси-2,5-бис(гидроксиметил)оксолан-2-ил]окси-6-(гидроксиметил)оксан-3,4,5-триол. Даже привычный парацетамол имеет научное название N-(4-гидроксифенил)ацетамид.
Уникальность каждого химического названия заключается в том, что оно досконально описывает структуру молекулы. Для комплексных соединений эти названия становятся весьма объемными и сложными. Малейшая неточность в записи может полностью исказить химическую формулу, поэтому работа с номенклатурой ИЮПАК требует исключительной точности и глубокого понимания множества правил. До настоящего времени доступные инструменты для генерации названий существовали только в виде платных программных продуктов.
Инновационный подход исследователей заключался в использовании передовых технологий искусственного интеллекта для решения этой сложной задачи. Команда успешно адаптировала архитектуру Трансформер, изначально разработанную Google для машинного перевода, к задаче химической номенклатуры. Система научилась виртуозно преобразовывать структурные формулы в названия ИЮПАК и обратно.
Для создания высокоэффективной системы использовалась крупнейшая в мире база данных PubChem, включающая информацию о примерно 100 миллионах химических соединений. Результаты превзошли ожидания — всего за шесть недель разработки нейросеть достигла феноменальной точности в 99%, сравнявшись по эффективности с традиционными алгоритмическими методами.
Особенно важным достижением стала способность нейросети справляться с задачами, требующими абсолютной точности. Руководитель проекта Сергей Соснин проводит интересную параллель: «Подобно тому, как калькулятор безошибочно выполняет сложные вычисления, наша нейросеть безупречно работает с химическими названиями, хотя изначально считалось, что искусственный интеллект не подходит для таких точных задач».
Прорывное достижение открывает захватывающие перспективы применения искусственного интеллекта в различных областях науки. Успешная работа системы с химической номенклатурой доказывает возможность использования нейросетей для решения сложных алгоритмических задач c высочайшей точностью.
Разработанная технология уже интегрирована в платформу Syntelly и находится в открытом доступе. Исследователи с оптимизмом смотрят в будущее, предполагая широкое применение своей методологии не только в химии, но и в других областях, включая математику и программирование. Этот успех знаменует важный шаг в развитии искусственного интеллекта для решения сложных научных задач.
Источник: scientificrussia.ru