31 lines
4.3 KiB
Markdown
31 lines
4.3 KiB
Markdown
---
|
||
title: Gradient Descent
|
||
localeTitle: Градиентный спуск
|
||
---
|
||
## Градиентный спуск
|
||
|
||
Градиентный спуск - алгоритм оптимизации для нахождения минимума функции. В глубоком изучении этот алгоритм оптимизации очень полезен, когда параметры не могут быть вычислены аналитически.
|
||
|
||
![Градиентный спуск](https://upload.wikimedia.org/wikipedia/commons/6/68/Gradient_descent.jpg) То, что вы хотите сделать, - это многократно обновлять значение параметра theta до тех пор, пока вы не уменьшите значение функции стоимости J (θ), близкое к 0;
|
||
|
||
### Уровень обучения
|
||
|
||
Размер шага называется скоростью обучения. Более высокая скорость обучения ускоряет итерацию, но может превысить глобальный минимум, ценность, которую мы ищем. С другой стороны, мы могли бы предотвратить это превышение путем уменьшения скорости обучения; но будьте осторожны, что чем меньше вы получаете скорость обучения, тем интенсивнее вычислительная интенсивность. Это может либо излишнее вычисление, либо вы не можете достичь глобального минимума.
|
||
|
||
### Масштабирование функций
|
||
|
||
Для проблемы глубокого обучения вам потребуется использовать несколько функций для создания предсказательной модели. Если, например, если вы строите прогностическую модель для ценообразования на дому, вам придется иметь дело с такими функциями, как сама цена, количество комнат, площадь лота и т. Д. И эти функции могут сильно отличаться по диапазону, например, например, в то время как партия площадь может составлять от 0 до 2000 квадратных футов, другие функции, такие как количество комнат, будут от 1 до 9.
|
||
|
||
В этом случае полезно масштабирование функций, также называемое нормализацией, чтобы убедиться, что алгоритм машинного обучения работает правильно.
|
||
|
||
### Стохастический градиентный спуск
|
||
|
||
Проблемы с машинным обучением обычно требуют вычислений по размеру выборки в миллионах, и это может быть очень интенсивно вычислительным.
|
||
|
||
В стохастическом градиентном спусках вы обновляете параметр градиента стоимости каждого примера, а не сумму градиента стоимости всех примеров. Вы можете получить набор хороших параметров быстрее после нескольких проходов по примерам обучения, таким образом, обучение также происходит быстрее.
|
||
|
||
### Дальнейшее чтение
|
||
|
||
* [Руководство по нейронным сетям и глубокому обучению](http://neuralnetworksanddeeplearning.com/)
|
||
* [Градиентный спуск для машинного обучения](https://machinelearningmastery.com/gradient-descent-for-machine-learning/)
|
||
* [Разница между градиентом градиента и стохастическим градиентом](https://towardsdatascience.com/difference-between-batch-gradient-descent-and-stochastic-gradient-descent-1187f1291aa1) |