[ Russian ] [ English ]

Ограниченная машина Больцмана как основа глубоких нейронных сетей

Павел Нестеров,
Mail.ru,
p.nesterov@corp.mail.ru

В истории изучения и применения искусственных нейронных сетей можно выделить три этапа бурного роста и падения интереса к этой теме. Каждый из них ассоциирован с определенной моделью, которая в очередной раз возбуждала интерес научной общественности к нейронным сетям.

Первая волна интереса была вызвана персептроном Розенблатта в 1958 году. В отличие от других методов анализа данных того времени, эта модель была создана, опираясь в большей степени на работы физиологов и нейропсихологов, а не на труды математиков. Журналисты в то время писали, что уже не за горами создание полноценного искусственного интеллекта. Однако, даже спустя пятьдесят лет, такой ИИ все еще не создан.

Второй пик интереса можно отнести к 1986 году, когда Румельхарт, Хинтон и другие разработали эффективный алгоритм обучения многослойных сетей прямого распространения. У этого алгоритма также были свои недостатки, и со временем нейронные сети были вытеснены методом опорных векторов.

Сегодня мы можем наблюдать третий пик, связанный с появлением эффективных алгоритмов обучения так называемых глубоких нейронных сетей.

Современные глубокие нейронные сети побеждают во многих соревнованиях. В некоторых областях, таких, как компьютерное зрение, обработка естественного языка и распознавание речи, был сделан настоящий прорыв. Например, группа Хинтона достигла улучшения качества распознавания речи на 30%, что для этой области считается крайне значительным результатом. Крупные компании сегодня инвестируют в разработку и исследования в области глубокого обучения, так же ведутся исследования по применению глубоких сетей для анализа больших данных.

Доклад посвящен модели, которая инициировала третью волну интереса к нейронным сетям. Рассматриваются проблемы, ввиду которых этот интерес несколько убавился после переоткрытия метода обратного распространения ошибки, и способы преодоления этих проблем с помощью ограниченной машины Больцмана.

План доклада включает следующие пункты:

  • Краткая история искусственных нейронных сетей
  • Алгоритм обратного распространения ошибки
  • Проблемы алгоритма обратного распространения ошибки
  • Ограниченная машина Больцмана
  • Глубокие нейронные сети
  • Практическое применение глубоких нейронных сетей

Презентация доклада в формате pdf.

Видеозапись доклада.

Литература:

  1. Rumelhart, D. E., Hinton, G. E., and Williams, R. J. Learning internal representations by error propagation. 1986.
  2. Yann LeCun, Sumit Chopra, Raia Hadsell, Marc’Aurelio Ranzato, and Fu Jie Huang. A Tutorial on Energy-Based Learning. 2006.
  3. Geoffrey Hinton. A Practical Guide to Training Restricted Boltzmann Machines. 2010.
  4. Yoshua Bengio. Learning Deep Architectures for AI.
  5. Geoffrey E. Hinton, Simon Osindero, Yee-Whye Teh. A Fast Learning Algorithm for Deep Belief Nets.
  6. Ruslan Salakhutdinov, Geoffrey E. Hinton. Deep Boltzmann Machines. 2009.
Supported by Synthesis Group