(1) Тип сначала обучают каждый слой в отдельности, потом все слои вместе методом обратного распространения ошибки. Задача метода состоит в том, что бы во входных данных выявить различные абстракции и зависимости разного уровня, начиная от зависимостей между данными и кончая зависимостями между зависимостями разных уровней. Конечно, если я правильно понял общий смысл, попгулив пару тройку статей.
Закон Брукера: Даже маленькая практика стоит большой теории.