Искусственный интеллект научился играть в видеоигры
Компания-разработчик искусственного интеллекта DeepMind продемонстрировала своё новое изобретение — программное обеспечение, способное играть в 49 различных видеоигр. Алгоритм, лежащий в основе программы-геймера, в ходе эксперимента набрал достаточно опыта, чтобы в половине игр "побить" опытных соперников-людей.
Первое описание принципа работы алгоритма было выложено на сайте препринтов arXiv.org ещё в 2013 году. Тогда DeepMind вызвала большой ажиотаж у информатиков и математиков по всему миру. Как утверждают разработчики, программа является первой в мире информационной системой, способной обучаться выполнению различного рода задач при минимальном наборе изначально предоставленных данных.
По сути, новизна разработки заключается в том, что алгоритм DeepMind способен обучаться новым видеоиграм без каких-либо дополнительных первоначальных баз данных. Для того чтобы освоить новый навык, ему просто нужно немного времени на обучение и адаптацию к новым функциям.
"Мы надеемся, что наша разработка послужит не только развлечением для информатиков, но и поможет развитию фундаментальной науки. Поскольку алгоритм построен по образу и подобию человеческого мозга, он может помочь неврологам в изучении интеллекта и процесса принятия решений", — рассказывает Демис Хассабис (Demis Hassabis), соучредитель DeepMind.
Программа компании DeepMind является одной из немногих способных соперничать с человеком в интеллектуальных состязаниях. Прежде мы рассказывали об алгоритме, способном "побить" любого игрока в техасский покер, а также упоминали о компьютере IBM Deep Blue, который обыграл в шахматы самого Гарри Каспарова в 1997 году.
Универсальность алгоритма DeepMind разработчики объясняют объединением двух типов машинного обучения. Первый из них использует архитектуру мозга, в которой связи между слоями искусственных нейронов укрепляются по мере приобретения опыта. Этот тип, называемый глубинным обучением (deep-learning systems), используется, к примеру, для автоматической классификации фотографий или машинного перевода в различных сервисах Google.
Второй тип машинного обучения называется обучением с закреплением (reinforcement learning). Он основан на особой искусственной системе принятия решений и вдохновлён биологической системой дофаминового вознаграждения у животных и людей.
В качестве входных данных программа DeepMind использует только пиксели экрана и счёт игры. Методом проб и ошибок она учится совершать различные действия — ход влево или вправо, вперёд или назад, атака, защита и так далее. Каждое действие, приводящее к победе или поражению, программа фиксирует и "запоминает". В эксперименте алгоритму потребовалось несколько часов на обучение каждой игре — примерно как среднестатистическому геймеру.
По словам учёных, данное достижение может найти применение в различных сферах человеческой деятельности. Алгоритм может быть использован как для маркетинговых исследований, так и для решения проблем, возникающих при взаимодействии умных роботов с окружающей средой.
Однако разработчики алгоритма DeepMind надеются, что их детище поможет развитию нейробиологии. Анатомию мозга при помощи данной программы изучать не получится, но вычислительные способности мозга можно будет исследовать с совершенно новой стороны.
В ближайшем будущем Хассабис и его коллеги планируют обучить свой алгоритм новым задачам, которые помогут достичь предела его вычислительных возможностей.
Статья с описанием разработки опубликована в журнале Nature.