Ученые из петербургского Зоологического института РАН создали нейросеть, которая позволяет намного быстрее распознавать виды насекомых, чем традиционные методы. Статья об их исследовании в 2022 году вышла в журнале Systematic Entomology. Но уже готова следующая часть работы, которая пока не опубликована.
«Бумага» выяснила у авторов исследования, в чем практический и глобальный смысл их работы и насколько дорого делать такие междисциплинарные проекты.
Федор Константинов
старший научный сотрудник Зоологического института РАН, доцент кафедры энтомологии СПбГУ
Алексей Солодовников
старший научный сотрудник Зоологического института РАН, куратор коллекции жесткокрылых Музея естественной истории Дании
В чем смысл проекта
Федор: Есть такой вредитель пшеницы — клоп Вредная черепашка. Он — серьезная проблема для Европейской части России, особенно на юге. Клопов-черепашек при этом существует несколько видов, но серьезный вредитель только один. Основная сложность в том, что они все выглядят одинаково. Нам было интересно создать некое приложение, которое позволяло бы агроному с вероятностью 98,5 % определить, с кем он имеет дело: с Вредной черепашкой или с безобидным родственником. Этой прикладной задаче, например, посвящена вторая, еще не опубликованная часть исследования.
Алексей: Вообще, уже давно существуют любительские приложения для определения насекомых по фото. Но их точность не идет ни в какое сравнение с точностью определения вида внутри рода. Мы хотели создать именно профессиональный определитель для энтомологов и тех, кто интересуется насекомыми.
Ф: При этом мы понимали, что у среднестатистического человека, которому нужно опознать клопа-вредителя, вряд ли будет в кармане айфон последней модели. Поэтому мы отобрали намного более простой телефон у одной нашей студентки и несколько дней снимали на него клопов-черепашек. И даже с картинками такого качества нейросеть достаточно уверенно разделяет виды. Нейросетка пока не выложена в открытый доступ и доступна только специалисту.
А: Но это только прикладная часть. Понятно, что для определения вредного клопа-черепашки достаточно знать черепашку и близкие с ним виды. Но для того чтобы понимать, как функционирует природа, как работает эволюция, нужно знать гораздо больше. Нынешняя теория эволюции основана на моделях, то есть на изученных группах, по которым мы заключаем, что аналогичным образом работает всё остальное. Но если изученных организмов меньше половины от реально существующего биоразнообразия, то как мы можем быть уверены в аккуратности наших гипотез? Когда мы будем иметь данные для потенциально нескольких миллионов видов насекомых, нейросеть сможет создать такую модель, которая изменит наше нынешнее знание. Возможно, появятся новые законы природы.
Ф: И потом, определить название жука, конечно, важно, но это не исследовательская задача. Вы наверняка знаете, что существуют фирмы, в которые вы можете послать образец слюны и узнать многое о ваших предках. Или, скажем, вы задумывались, каким образом происходит криминалистический анализ фрагментов ДНК? В обоих случаях люди используют программы, изначально разработанные учеными для фундаментальных целей науки — для реконструкции всего дерева жизни.
Сколько стоит проект
А: Мы получили довольно щедрый грант РНФ — по 6 миллионов рублей в год, грант рассчитан на три года. Но деньги уходят не только на нейронные сети, проект сложнее. Его идея в том, чтобы определить, как вообще можно модифицировать и ускорить процесс изучения насекомых в России. Деньги идут на несколько направлений. Самое дорогое — зарплата сотрудников. Работы очень много.
Ф: Когда вы тренируете нейросеть распознавать лица в метро или номера на машинах, у вас нет недостатка в фотографиях. Обучить нейросеть можно быстро. Когда то же самое нужно сделать для набора видов насекомых, приходится делать тысячи фотографий.
А: Чтобы с точностью профессионала научить нейросеть различать 16 видов клопов, нам пришлось сделать 3800 фотографий. Мы выбрали именно клопов, а также жуков-стафилинидов как наиболее сложные группы, в которых насекомые очень похожи. Идея была такая: если компьютер научится определять то, что раньше мог определить только хардкорный энтомолог, тогда нейросеть можно обучить чему угодно.
Как сейчас определяют виды клопов
Ф: Классическая энтомология находится сейчас где-то в XX веке. Как вы себе представляете определение вида — что лаборант под микроскопом рассматривает жука и сверяет с картинкой из каталога, — так чаще всего и происходит. Новые технологии очень медленно внедряются в практику. Одна из причин — насекомых просто очень много. Больше, чем всех остальных: животных, растений, вообще всех. Этот объем просто невозможно покрыть. Даже в бумажном определителе по самой изученной европейской части России отсутствует огромное количество групп. Совсем. Их нельзя определить.
К сожалению, мы живем в эпоху больших данных, которые, с одной стороны, не успеваем анализировать, а применительно к зоологии и не можем толком получать. Существует огромная коллекция Зоологического института, где вещи хранятся так, как это было заведено в 1960-х годах или даже раньше. Это всё не цифруется. Хотя можно было бы привлечь к этому авторов научных статей, чтобы, работая с материалом коллекции, они бы его фотографировали и вносили в международные базы данных. Чем больше ученых в процессе своей каждодневной деятельности будут заниматься оцифровкой коллекции, тем доступнее она будет для сообщества.
А: Но некоторые виды придется собирать заново. Бывает, что какой-то вид известен благодаря всего одному экземпляру, собранному 100 лет назад. У него все ножки отвалились, ДНК уже сгнила и для фотографии он не годен. Надо ехать в экспедицию, заново собирать материал.
Насколько работа новаторская
Ф: В филогенетике, науке о построении эволюционного дерева жизни, был всплеск интереса к использованию нейронных сетей примерно два-три года назад. Но процесс заглох, потому что в зависимости от настроек нейросети ученые получали слишком разные данные, не понимая логику искусственного интеллекта.
А в случае с анализом изображений, все-таки существует способ оценить логику нейросети. Мы сделали «тепловые карты», визуализировали те пиксели, «глядя» на которые, нейросеть ошибалась или, наоборот, верно определяла вид клопа. Благодаря этому мы смогли определить, что с чем путается и как правильно сфотографировать клопа, чтобы после обучения нейросеть не ошибалась. У нас есть три алгоритма проверки, которые применил замечательный математик Саша Попков.
Как энтомологи объединились с программистом
Ф: Это смешная история. Нам нужен был человек, который мог бы нам помочь с нейронными сетями. Это всегда большая проблема. Потому что как ты можешь найти такого человека? Ты анализируешь статьи. Период полураспада очень короткий. Вот человек опубликовал статью, вот ты ее увидел — но он уже в Стенфорде или где-нибудь еще. Это было сложно. Но так получилось, что неожиданным результатом этого исследования стало то, что моя очень хорошая студентка Вероника вышла замуж за замечательнейшего Александра Попкова. А познакомились они в процессе наших судорожных поисков программиста.
А: По большому счету наш проект — это совместная работа энтомологов и математика, программиста, аналитика данных. Без такого человека невозможно сделать систему.
Как вы связали свою жизнь с жуками
А: Как-то зимой я перечитывал том детской советской энциклопедии и наткнулся на главу «Как собирать свою коллекцию». И как только я это прочел, я понял: вот это то, что я хочу делать. Мне было 12–13 лет. Той же весной я начал собирать свою коллекцию. До сих пор помню своих первых жуков, настолько сильны были детские впечатления.
Ф: В Петербурге было довольно много зоологических кружков, но они не производили на меня впечатления до тех пор, пока я случайно не попал в энтомологический кружок при Зоологическом институте. Мы ездили в экспедиции. Там была активнейшая жизнь, в которой я полностью растворился. На тот момент времени мне было совершенно не важно, к какому факультету имеет отношение энтомология, я точно знал, на какую я хочу кафедру. Мне очень нравилось всё, что происходило в воде. Я мог часами зависнуть над какой-нибудь лужей, рассматривая, что там происходит. Так что к клопам я пришел через всяких водомерок и водных клопов.
Заявленная цель гранта — «преодолеть неполноту Линнея». Что это и удалось ли это сделать
Ф: Отвечу честно: энтомологи — не самые конкурентные на свете люди в плане привлечения финансирования. И есть некоторые ходы, помогающие объяснить в грантовой заявке, почему то, что ты делаешь, — важно. Это один из них. Когда мы говорим о «неполноте Линнея» (Linnean shortfall), речь идет о том, что мы даже не знаем, сколько насекомых вообще существует на свете. Но мы точно уверены, что их гораздо больше, чем описано к настоящему моменту. Есть разные способы подсчета неизвестной части, но как бы мы ни оценивали число неизвестных науке насекомых, оно будет больше чем то, которое известно.
А: А насчет «удалось ли» — мы показали, в каком направлении нужно изменить свою работу энтомологам, чтобы неполноту Линнея вообще было возможно когда-нибудь преодолеть. Если все продолжат так же жить и работать, как сейчас, то мы не сможем сделать этого никогда.
Какой план дальше
Ф: Исследования — такая вещь, они никогда не завершаются.
А: То, что мы делаем, — почка для нескольких ростков. Фронт работ так огромен, а нас так мало, что за три года закончить работу невозможно.
Сейчас, например, сильно развиты генетические технологии. С их помощью можно определять происхождение вирусов или людей с точностью до человека, до популяции. Но чтобы это стало возможным делать для насекомых, нужно для начала элементарно отсеквенировать (получить с помощью секвенатора набор нуклеотидов ДНК насекомого) нужный фрагмент гена тех видов, которые вокруг нас гуляют. Создать базу данных. Как раз покупаем сейчас для экспериментов секвенатор MinION. Это такой маленький USB приборчик, который способен определить насекомое по небольшому кусочку какого-то гена. Как в магазине можно определить товар по штрихкоду.
Ф: Одна из наших ближайших целей — совместно анализировать с помощью нейронных сетей фотографии внешнего вида с последовательностями нуклеотидов сфотографированных насекомых. Насколько мне известно, такого еще пока никто не делал.
Получайте главные новости дня — и историю, дарящую надежду 🌊
Подпишитесь на вечернюю рассылку «Бумаги»
подписатьсяЧто еще почитать:
- «Российская наука стала невидима». Ученые — про изоляцию от мирового исследовательского сообщества.
- Премию «Просветитель» получили авторы книг об оттепели и зарождении человеческого разума.