|
Last updated: 2020.4.17(first uploaded 2018.6.13)
勾配降下法と誤差逆伝播法(backward propagation)のPython 実装 |
import numpy as np import matplotlib.pylab as plt def numerical_gradient(f, x): h = 1e-4 # 0.0001 grad = np.zeros_like(x) for idx in range(x.size): tmp_val = x[idx] x[idx] = tmp_val + h fx1 = f(x) x[idx] = tmp_val - h fx2 = f(x) grad[idx] = (fx1 - fx2) / (2*h) return grad def gradient_descent(f, init_x, eta=0.01, ite_num=100): x = init_x x_history = [] for i in range(ite_num): x_history.append( x.copy() ) grad = numerical_gradient(f, x) x -= eta * grad return x, np.array(x_history) def function_2(x): return (x[0] - 1)**2 + (x[1] - 2)**2 init_x = np.array([0.0, 0.0]) eta = 0.1 ite_num = 20 x, x_history = gradient_descent(function_2, init_x, eta, ite_num) plt.plot( [-5, 5], [2,2], '--b') plt.plot( [1,1], [-5, 5], '--b') plt.plot(x_history[:,0], x_history[:,1], 'o') plt.xlim(-3.5, 3.5) plt.ylim(-4.5, 4.5) plt.xlabel("X0") plt.ylabel("X1") plt.show()
import numpy as np class Sigmoid: def __init__(self): self.out = None def forward(self, x): out = 1/(1 + np.exp(-x)) self.out = out return out def backward(self, dout): dx = dout * (1.0 - self.out) * self.out return dx
class Dense_layer: def __init__(self, W, b): self.W =W self.b = b self.x = None self.dW = None self.db = None def forward(self, x): self.x = x out = np.dot(self.x, self.W) + self.b return out def backward(self, dout): dx = np.dot(dout, self.W.T) self.dW = np.dot(self.x.T, dout) self.db = np.sum(dout, axis=0) return dx
確率的勾配降下法(SGD)のPython 実装 |
ミニバッチ方式で勾配降下法を使用するアルゴリズムを確率的勾配降下法(SGD)と言います。Deep Learningで用いられる最適化手法には、SGDの他に、AdaDelta、Adam、Momentum、Nesterov、RMSPropと呼ばれるアルゴリズムがあります。いずれにしても、損失関数の勾配(偏微分値)を使用します。
ここでは、確率的勾配降下法(SGD)のPython実装の例を紹介します。偏微分計算をするモジュールを grad として、paramsをネットワークの重みとするとき、以下のような形式になります。
import numpy as np class SGD: """確率的勾配降下法(Stochastic Gradient Descent)""" def __init__(self, lr=0.01): self.lr = lr def update(self, params, grads): for key in params.keys(): params[key] -= self.lr * grads[key] optimizer = SGD() --- for i in range(300): grads['x'], grads['y'] = grad(params['x'], params['y']) optimizer.update(params, grads) ---
機械学習で使用されているPython API には、こうした最適化関数のモジュールと微分計算のモジュールが準備されています。ちなみに、以下の例はPyTorchにおける最適関数の利用方法となります。loss.backward()は逆伝播法による微分計算の実行を表現します。nn.MSELoss()は平均二乗誤差法による損失関数を呼び出します。
def main(opt_type): loss_list = [] # データの作成 x = torch.randn(1, 10) w = torch.randn(1, 1) y = torch.mul(w, x) +2 # ネットワークの定義 net = Net() # 損失関数 criterion = nn.MSELoss() # 最適化関数の指定 if opt_type == "SGD": optimizer = optim.SGD(net.parameters(), lr=0.1) elif opt_type == "Momentum": optimizer = optim.SGD(net.parameters(), lr=0.1, momentum=0.9) elif opt_type == "Adadelta": optimizer = optim.Adadelta(net.parameters(), rho=0.95, eps=1e-04) elif opt_type == "Adagrad": optimizer = optim.Adagrad(net.parameters()) elif opt_type == "Adam": optimizer = optim.Adam(net.parameters(), lr=1e-1, betas=(0.9, 0.99), eps=1e-09) elif opt_type == "RMSprop": optimizer = optim.RMSprop(net.parameters()) # 学習ループ for epoch in range(20): optimizer.zero_grad() y_pred = net(x) loss = criterion(y_pred, y) loss.backward() optimizer.step() loss_list.append(loss.data.item()) return loss_list loss_hist = main('SGD')
この例からわかるように、opt_type を具体的に指定することによって、主要な最適化関数が利用できます。詳しくは、PyTorchの公式ページを参照ください。同じように、TensorFlowの tf.keras.optimizer モジュールにも、以下の通り、主要な最適化関数の9種類が用意されています。
詳しくは、TensorFlowのTutorialsを参照ください。