Ö>: [Machine Learning] Tại sao ta thường nên dùng tanh thay vì sigmoid khi chọn activation function?

Thứ Tư, 26 tháng 12, 2018

[Machine Learning] Tại sao ta thường nên dùng tanh thay vì sigmoid khi chọn activation function?

Hai hàm sigmoid và tanh có cùng trend, tuy nhiên chúng lại có đặc tính khác nhau do đặc tính đồ thị, ta quan sát đồ thị hai hàm dưới đây.

Lí do hàm tanh tốt hơn hàm sigmoid đặc biệt là trong các ứng dụng về Big data bởi vì đạo hàm của hàm tanh thường luôn có giá trị lớn hơn đạo hàm của hàm sigmoid, do đó độ dốc của hàm tanh là lớn hơn, do đó hàm lost sẽ converge nhanh hơn. Sử dụng toán học, ta có thể chứng minh rằng.

tanhx=2σ(2x)−1

Và trong hầu hết các trường hợp, ta có thể chứng minh rằng.

| \frac{\partial \tanh (x)}{\partial x} | > | \frac{\partial σ (x)}{\partial x} |

| \frac{\partial \tanh (x)}{\partial x} | > | \frac{\partial σ (x)}{\partial x} |

Trong một số trường hợp đặc biệt, ta sẽ dùng sigmoid function thay vì hàm tanh,
ví dụ như trong bàitoán binary classification, đầu ra chỉ là 0 và 1, khi này sigmoid
sẽ là một lựa chọn hợp lý thay vì sử dụng tanh.

Ö>

Thứ Tư, 26 tháng 12, 2018

[Machine Learning] Tại sao ta thường nên dùng tanh thay vì sigmoid khi chọn activation function?

Không có nhận xét nào:

Đăng nhận xét