Развитие технологий тормозят программисты, скрывающие свой код, - исследование
Главная проблема развития искусственного интеллекта в том, что большинство исследователей не публикуют исходный код своих работ и учебные алгоритмы
Такая "скрытность" приводит к тому, что воспроизвести результаты работы почти невозможно, а следовательно, нельзя устроить полноценное сравнение или организовать работу по улучшению результатов.
Издание ссылается на исследования профессора Норвежского университета естественных и технических наук Одда Эрика Гюндерсена. Тот изучил 400 работ в области искусственного интеллекта, представленных на конференциях в течение нескольких последних лет.
Оказалось, что только в 6% из них представлен исходный код. Половина работ идет с ограниченным описанием алгоритма, представленном в формате псевдокода. И только треть ученых поделилась данными, на которых проводились исследования.
Гюндерсен считает это большой проблемой, близкой к кризису. Невозможность воспроизвести эксперименты с ИИ других ученых ставит их результаты под сомнение.
Кроме кризиса доверия, такая практика и в целом тормозит всю область машинного обучения. К слову, ранее с кризисом воспроизводимости столкнулись психология, медицина и некоторые другие отрасли науки.
Но считалось, что область, связанная с ИИ, защищена от этого, ведь всегда есть исходный код, данные - все это позволяет воспроизводить эксперименты до мельчайших подробностей. Но на практике все иначе.
Исследователи находят тысячи причин, чтобы не публиковать тренировочную выборку и исходный код, пишет издание. Они начинаются с объективных - соглашение о неразглашении или желание обогнать конкурентов - и заканчиваются "детскими" отговорками, вроде, "у нас полетел жесткий диск с данными".
И Гюндерсен, и Science понимают причины, препятствующие публикации выходных данных, но протестуют против того, чтобы это тормозило развитие технологий.
Другие ученые, например, Питер Хендерсон из Университета МакГилл в Монреале, отмечают, что именно в области машинного обучения и искусственного интеллекта особенно важны точные исходные данные.
Говоря "точные, он подразумевает совпадение до последнего знака в коде. Он также подразумевает, что данные для тренировки алгоритма должны быть представлены. Свое мнение он подтверждает на примерах, запуская один и тот же алгоритм с наименьшими изменениями в тренировочной выборке или в коде.
По описанию, это по-прежнему одна и та же программа, но результаты совершенно противоположные. Поэтому Science, Гюндерсен и его коллеги пришли к выводу, что без исходного кода полноценное сравнение и реакция на работы в сфере ИИ других ученых невозможны.