1. 논문 자료
논문 링크: https://ieeexplore.ieee.org/document/10170942
USV Formation Path Planning Based on Behavior Trees and Fast Marching Method
In the deployment of multiple Unmanned Surface Vehicles (USVs) for collaborative operation, path planning is a crucial component. This paper addresses the path planning problem for USV formations operating in complex marine environments and proposes a mult
ieeexplore.ieee.org
※ 위 논문 리뷰는 온전히 개인이 공부하면서 정리한 글입니다.
2. 논문 알아보기
2.1 논문 주제 및 목적
이 논문은 다중 무인수상선박(USV) 편대 운항 시 협력적 작전을 위한 경로 계획(Path Planning)을 다룬다. 특히 좁고 복잡한 해상 환경에서 USV 편대의 운항 경로를 효율적으로 계획하기 위해 행동트리(Behavior Tree, BT)와 Fast Marching Method (FMM) 를 결합한 편대 경로 계획 방법론을 제안한다.
2.2 제안한 방법의 특징
- 적응형 편대 라이브러리 (Adaptive Formation Library): FMM을 기반으로 속도 퍼텐셜 필드(velocity potential field)를 활용하여 형성.
- 행동트리 기반 장애물 회피 제어 전략: 행동트리를 사용하여 상황에 따른 효율적인 제어 전략을 도출함.
- 복잡한 해상 환경에서도 높은 성능을 발휘하며, 특히 좁은 해협에서 장애물 회피 성능이 우수함.
2.3 연구 배경 및 중요성
USV 편대는 군사적, 민간적 용도에서 항구 순찰, 해안 감시, 환경 모니터링, 무인 운송 등 다양한 분야에서 활용된다. 편대 경로 계획은 미션 수행 시작점에서 목표 지점까지 안전하고 최적의 경로를 결정하여 효율적이며 충돌 위험을 최소화하는 데 중요한 역할을 한다. 기존 경로 계획 알고리즘으로는 Dijkstra, A*, PSO, ACO, 유전자 알고리즘(GA), APF, FMS 등이 연구되었으며, 특히 FMS는 국부 최소 문제를 해결하고 연속성 및 부드러운 경로 생성 능력에서 강점을 가지고 있다. FMM은 계산 속도가 빠르고 실시간 경로 생성이 가능해, 복잡한 해상 환경에서 USV의 실시간 운항에 적합하다.
2.4 행동트리의 장점
- 모듈화(Modularity), 확장성(Scalability), 결함 내성(Fault tolerance) 측면에서 탁월한 성능을 제공한다.
- 협력 제어, 충돌 회피, 유연성과 적응성을 보장하는 전략으로 유용하게 활용된다.
3. 논문 기술 요소
3.1 이론적 모델 (Theoretical Model)
A. Fast Marching Method (FMM)
Fast Marching Method(FMM)는 Eikonal 방정식을 해결하기 위해 제안된 방법으로, 다음과 같은 형태의 방정식을 해결한다.
$|\nabla T(x,y)| \cdot V(x,y) = 1$
여기서 $T(x,y)$ 는 좌표 $(x,y)$ 에서의 파면 도달 시간(wave arrival time)을 의미하며, $V(x,y)$ 는 파면 전파 속도를 나타낸다.
특정 지점 $(x_0,y_0)$에서의 경계 조건은 $T(x_0,y_0) = 0$으로 주어진다.
위 식을 upwind 차분법을 사용하여 풀면 다음과 같은 형태가 된다.
$\max\left(\frac{T - T_1}{\Delta x}, 0\right)^2 + \max\left(\frac{T - T_2}{\Delta y}, 0\right)^2 = \frac{1}{V^2(x,y)}$
여기서 $T_1$과 $T_2$는 현재 격자점의 주변 격자점 중 최소 도달 시간을 나타내며, 각각 다음과 같이 표현된다.
$T_1 = \min\left(T_{(x-\Delta x,y)},\, T_{(x+\Delta x,y)}\right)$
$T_2 = \min\left(T_{(x,y-\Delta y)},\, T_{(x,y+\Delta y)}\right)$
이 방정식을 $T$ 에 관해 명시적으로 풀게 된다. 이렇게 구한 도달시간 행렬 $T$를 기반으로, 경사 하강법(Gradient Descent Method)을 이용하여 시작점에서 목표점까지의 최적 경로를 결정한다.
B. Fast Marching Square Method (FMS)
일반적인 FMM은 생성된 경로가 장애물과 지나치게 가까워 안전성 문제를 야기할 수 있다. 따라서 안전성을 높이기 위해 Fast Marching Square Method(FMS)가 제안되었으며, FMS는 FMM을 두 번 연속 적용한다.
FMS 알고리즘 과정:
1. 초기 이진 맵(binary map)을 생성한다. (흰색: 이동 가능 공간, 검정색: 장애물)
2. 첫 번째 FMM을 적용하여 장애물로부터 퍼지는 파면을 통해 속도 퍼텐셜 맵(velocity potential) $W(x)$를 생성한다.
3. 두 번째 FMM을 목표점에서부터 적용하여, 도달시간 퍼텐셜 필드(arrival time potential) $D(x)$를 생성한다.
4. 생성된 $D(x)$를 바탕으로 경사 하강법(아래 4.1 참고)을 적용하여 시작점에서 목표점까지 최적 경로를 얻는다.
이러한 과정은 장애물에 너무 가까운 경로가 생성되는 문제를 방지하며, 결과적으로 무인수상선(USV)의 운항 안전성을 높인다.

그림 (Fig. 1) 설명:
(a) 초기 이진 맵: 장애물과 이동 가능 공간을 구분한 상태를 나타냄.
(b) 속도 퍼텐셜 필드 &W(x)&: 장애물로부터 거리에 따라 파면이 전파된 상태를 나타냄.
(c) 도달시간 퍼텐셜 필드 &D(x)&: 목표점으로부터 파면이 전파되어 생성된 도달시간을 표현한 상태.
(d) 최적 경로 생성 결과: (c)의 도달시간 퍼텐셜 필드를 이용하여 경사 하강법을 통해 결정된 최종 경로.
C. 행동 트리 (Behavior Trees)
행동 트리(Behavior Trees)의 핵심 개념은 복잡한 작업을 보다 작은 하위 작업(subtask)들로 분해하여 이를 조합하고 조율하여 전체 작업을 수행하는 것이다.
행동 트리는 실행 노드(execution nodes)와 제어 노드(control nodes)로 구성된다.
- 실행 노드(Execution nodes): 리프(leaf) 노드*이며, 조건 노드(condition node)와 행동 노드(action node)로 구분된다.
- 제어 노드(Control nodes): 내부 노드로 논리와 작업 전환을 담당하며, 주로 다음과 같은 유형을 포함한다.
- 순차(sequence) 노드: 자식 노드를 순서대로 실행하며, 모든 자식 노드가 성공해야 성공을 반환하고, 하나라도 실패하면 실패를 반환하고 실행을 중단한다.
- 선택(selector) 노드: 자식 노드를 차례대로 실행하며, 하나의 자식 노드라도 성공하면 성공을 반환하고 실행을 중단하며, 모든 자식 노드가 실패해야 실패를 반환한다.
- 병렬(parallel) 노드: 여러 자식 노드를 동시에 실행할 수 있다.
* 리프 노드(Leaf Node) 란 트리 구조에서 더 이상 하위 노드를 가지지 않는 마지막(끝) 노드를 의미
행동 트리의 기본 노드 유형은 다음과 같다.
- 순차 노드 (Sequence node): 자식 노드를 순차적으로 실행함.
- 선택 노드 (Selector node): 자식 노드 중 하나라도 성공하면 성공을 반환함.
- 조건 노드 (Condition node): 특정 조건의 만족 여부를 판단하여 성공 혹은 실패를 반환함.
- 행동 노드 (Action node): 행동 트리의 리프 노드로 특정 작업을 수행하고 성공 또는 실패를 반환함.
3.2 USV 편대 장애물 회피 경로 계획
A. Fast Marching Method 기반 적응형 편대 라이브러리 (Adaptive Formation Library)
환경 제약 조건 아래에서 무인수상선박(USV) 편대가 장애물을 회피하기 위해 형상을 유연하게 조정할 수 있도록, 편대 라이브러리를 구축하고, FMM(Fast Marching Method)의 속도 퍼텐셜 필드를 활용하여 적응적인 형상 변화를 달성한다.
편대의 관계를 나타내는 매트릭스(편대의 각도, 거리 등 상대적 형상 정보를 나타낸 행렬)는 다음과 같이 정의된다.
$ E=[R L\varphi]^T $
- 여기서 $R = [R_1, R_2, R_3, \dots, R_n]$은 USV의 식별 지시자(identity indicators)를 나타낸다.
- $L = [l_1, l_2, l_3, \dots, l_n]$은 원하는 편대 간격(desired formation distance)을 나타낸다.
- $\varphi= [\varphi_1, \varphi_2, \varphi_3, \dots, \varphi_n]$는 원하는 편대 형상 각도(desired formation angle)를 나타낸다.
즉, 각 행은 리더로부터 특정 USV까지의 편대 번호, 거리($l_i$), 각도($\varphi_i$)로 구성됨.
USV 편대의 주요 형상은 삼각형(triangular), 열(columnar), 선형(linear) 등으로 구분할 수 있으며, 다중 USV 편대 제어를 위한 편대 라이브러리는 다음과 같은 행렬 집합으로 표현된다.
$E=({E i | E j,E c,E t})$
각각의 형상 파라미터 행렬은 다음과 같다.
- 선형 편대(linear formation) $E_j$:
$E_j = \begin{bmatrix}
1 & 0 & 0 \\
2 & l_i & \frac{\pi}{2} \\
\vdots & \vdots & \vdots \\
i & l_i & \pi(\sqrt{i}+1)
\end{bmatrix}$
- 열 편대(column formation) $E_c$:
$E_c = \begin{bmatrix}
1 & 0 & 0 \\
2 & l_i & \pi \\
\vdots & \vdots & \vdots \\
i & l_i & \pi
\end{bmatrix}$
- 삼각형 편대(triangular formation) $E_t$:
$E_t = \begin{bmatrix}
1 & 0 & 0 \\
2 & l_i & \frac{3\pi}{4} \\
\vdots & \vdots & \vdots \\
i & l_i & \frac{\pi}{2}\left(\frac{3}{2}+\sqrt{i}\right)
\end{bmatrix}$
행렬 $E_j, E_c, E_t$에 있는 값 중 편대 간격 $l_i$만 지정해주면, 나머지 각도 값들은 이미 행렬 내에서 고정적으로 정의되어 있기 때문에, 자동으로 그림 2와 같은 기본 편대 형태가 형성되는 구조이다.
행렬 편대 형태 간격($l$) 이외의 각도($\varphi$) 값의 특징
| $E_j$ | 선형 편대(linear formation) | 각도가 $\pi/2$ (90°)로 일정하게 설정됨 |
| $E_c$ | 열 편대(column formation) | 각도가 $\pi$ (180°)로 일정하게 설정됨 |
| $E_t$ | 삼각형 편대(triangular formation) | 각도가 약 135°(3π/4) 등으로 설정되어 삼각 형태 유지 |

논문에서 소개된 편대 형상 라이브러리의 기본 형상은 Figure 2와 같이 나타낼 수 있으며, 이를 기반으로 환경 변화에 따라 적응형 편대 변경과 장애물 회피가 가능하다고 한다.
형상 행렬 라이브러리 $E$를 만드려면 환경 제약에 따라 다중 USV 형성 변화 및 장애물 회피의 토대를 마련해야한다.
FMM velocity potential field와 결합하여 환경의 적응 형성 변화를 달성 할 수 있다.
행렬 변환에 의해, 리더에 대한 각도 및 거리 행렬은 글로벌 좌표계에서 위치 행렬로 변환되어 다음 USV 궤적 추적의 문제를 해결한다.
추가 설명:
1. 기본적인 개념 정리
논문에서는 편대의 상대적 형상 적보(각도, 거리 등)를 나타낸 행렬을 가지고 있다. 이 상대적인 형상 정보는 일반적으로 편대 리더(leader)를 기준으로 한 상대 좌표계에서 정의된다.
하지만 실제 운항 중인 USV(무인수상선박)들은 현실 세계(global coordinate system)에 위치하고 있다.
따라서 상대 좌표계에서 정의된 편대 형상 정보를 실제 글로벌 좌표계에서의 각 USV 위치로 변환할 필요가 있다.
글로벌 좌표계 변환이 필요한 이유:
초기에는 리더를 기준으로 하는 상대적 편대 형상 정보(거리와 각도)를 가지고 있다. 예를 들어, 두 번째 USV가 리더로부터 거리 $l_i$만큼 떨어져 있고, 특정 각도 $\varphi_i$로 위치한다는 정보가 있다.
하지만 실제 경로 계획 및 제어를 수행하기 위해서는 이 상대적 정보가 아닌, 지도(map)나 GPS와 같은 글로벌 좌표계를 기준으로 한 위치로 변환되어야 한다. 이를 통해 각 USV가 실제로 목표 경로를 따라 안정적으로 움직일 수 있도록 제어 명령을 내릴 수 있다.
글로벌 좌표계에서 위치행렬(F) 생성 과정:
$F = \begin{bmatrix}
R_1 & x_1 & y_1 \\
R_2 & x_2 & y_2 \\
\vdots & \vdots & \vdots \\
R_i & x_i & y_i
\end{bmatrix}$
- 이 행렬 $F$는 편대에 속한 각 USV의 실제 글로벌 좌표계에서 위치 정보를 담고 있다.
- 각 행의 첫 번째 요소인 $R_i$는 USV의 ID (번호)를 의미하고, 두 번째와 세 번째 요소 $(x_i, y_i)$는 그 USV의 글로벌 좌표를 나타낸다.
형상 라이브러리 행렬 $F$ 는 다음 절차로 계산된다.
(1) 리더의 글로벌 좌표계 위치 ($x_1, y_1$)를 초기화하여 행렬 $F$의 첫 번째 행에 저장한다.
$F = [R_1, x_1, y_1]$
(2) 이후 팔로워(follower)들의 상대적 위치를 글로벌 좌표로 변환하여 저장한다. $i$번째 추종자(follower)의 전역 좌표계(global coordinate)에서 위치 $[x_i,y_i]$를 다음 단계로 계산한다.
팔로워의 위치를 구하는 과정:
a. 속도 퍼텐셜 필드(velocity potential field) $W_i$ 를 사용하여 편대 간격을 조정한다. (편대 간격을 속도 퍼텐셜 필드 값 $W_i$에 따라 조정):
$l_i^e = l_i^* W_i$
b. 속도 퍼텐셜 필드 값 $W_i$를 기반으로 편대의 각도를 조정한다:
$\varphi_i^c = \varphi_i * (1 - W_i) + \varphi_i^t * W_i$
여기서, $\varphi_i^c$는 조정된 편대 형상 각도이다. 이때 각도는 리더를 기준으로 한 상대 좌표계(local coordinate system) 기준이다.
- $\varphi_i$ : 기존 편대 형상의 각도 (원래 목표로 설정된 각도)
- $\varphi_i^t$ : 장애물을 만났을 때 적응적으로 조정된 목표 편대의 각도 (장애물 회피 등을 위해 수정된 각도)
- $W_i$ : 속도 퍼텐셜 필드(Velocity potential field)의 값으로, 환경 정보를 반영하여 0~1 사이의 값을 가진다.
첨자 $c$ (current의 약자):
- $\varphi_i^c$는 현재(Current)의 편대 형상 각도를 나타낸다.
- 즉, 현재 실제 USV 편대가 유지하고 있는, 혹은 가지고 있는 형상의 각도를 의미
- 환경 변화(장애물 등)가 없었다면 원래 설정한 각도를 유지하고 있을 테니, 기존의 각도를 기반으로 환경 변화에 따라 현재 편대가 가진 실제 각도를 표현할 때 사용하는 첨자
첨자 $t$ (target의 약자):
- $\varphi_i^t$는 목표(Target) 편대 형상 각도를 나타낸다.
- 장애물을 회피하거나 형상을 변경할 필요가 있을 때, 앞으로 변경하고자 하는 목표 형상 각도
- 장애물 회피 등 환경 변화가 발생할 때 새로운 목표 형상을 결정하여, 편대가 점차 이 목표 형상 각도로 바뀌어 가는 과정에서 사용되는 첨자
각 팔로워가 리더를 기준으로 한 로컬 좌표계(local coordinate system)에서 어디에 위치할지 결정하는 단계:
c. 리더를 기준으로 한 로컬 좌표계에서 팔로워의 상대 위치 벡터 $P_i$를 계산한다:
$P_i = [l_i^e \cdot \cos(\varphi_i^e),\quad l_i^e \cdot \sin(\varphi_i^e)]^T$
- $l_i^e$: 리더와 팔로워 사이의 거리 (편대 간격을 환경에 따라 조정한 값)
- $\varphi_i^e$: 리더의 진행 방향(로컬 좌표계의 x축)을 기준으로 팔로워가 위치할 상대적 방향 각도
이 결과로 얻어지는 $P_i$는 팔로워가 리더로부터 x축(리더 진행 방향)으로 얼마나 떨어져 있는지와 y축(리더 진행 방향의 수직 방향)으로 얼마나 떨어져 있는지를 알려주는 벡터이다.
d. 로컬 좌표계에서 얻은 위치 벡터를 전역 좌표계로 변환하여 전역 좌표상의 위치를 얻는다(각 에이전트의 실제 위치를 얻는 과정):
$[x_i, y_i]^T = [x_1, y_1]^T + R(\alpha) \cdot P_i$
- $[x_1, y_1]^T$: 리더의 실제 전역 좌표 (GPS 또는 지도 상의 절대 좌표)
- $R(\alpha)$: 로컬 좌표계를 글로벌 좌표계로 바꿔주는 회전 변환 행렬
- $\alpha$: 리더가 실제 전역 좌표계에서 향하고 있는 방향 각도 (리더가 바라보는 글로벌 좌표계에서의 절대 방향)
여기서, 좌표 회전 변환 행렬(rotation matrix) $R(\alpha)$는 다음과 같다.
$R(\alpha) = \begin{bmatrix}
\cos(\alpha) & -\sin(\alpha)\\[6pt]
\sin(\alpha) & \cos(\alpha)
\end{bmatrix}$
물리적 의미와 예시:
- 로컬 좌표계에서 팔로워가 $P_i=[10,0]^T$라면 리더의 방향으로부터 정면으로 10m 떨어진 위치에 있다는 뜻.
- 하지만 실제 전역 좌표계에서 리더가 $(100,200)$ 위치에 있고, 리더의 방향이 90°(전역 좌표계에서 북쪽 방향)이라면, 팔로워의 글로벌 위치는 회전 행렬로 인해 다음과 같이 변환된다:
$[x_i,y_i]^T = [100,200]^T + R(90^\circ)\cdot[10,0]^T = [100,200]^T +
\begin{bmatrix}
0 & -1 \\
1 & 0
\end{bmatrix}\cdot[10,0]^T = [100,200]^T + [0,10]^T = [100,210]^T$
즉, 로컬 좌표에서 리더의 정면으로 10m 떨어져 있던 팔로워는, 리더가 실제로 북쪽을 바라보며 $(100,200)$ 지점에 위치할 때 글로벌 좌표계상으로 $(100,210)$ 위치에 놓이게 된다.
(3) 계산된 추종자의 전역 위치 $[x_i,y_i]$를 전역 좌표계 행렬 $F$에 추가한다.
전체 편대 라이브러리 행렬의 일반적인 형태는 다음과 같다.
$F = \begin{bmatrix}
R_1 & x_1 & y_1 \\
R_2 & x_2 & y_2 \\
\vdots & \vdots & \vdots \\
R_i & x_i & y_i
\end{bmatrix}$
삼각형 형상 라이브러리 행렬의 예시는 다음과 같이 표현된다.
$F = \begin{bmatrix}
R_1 & x_1 & y_1 \\[6pt]
2 & x_1 - lW_2(\cos\alpha - \sin\alpha) & y_1 - lW_2(\cos\alpha + \sin\alpha) \\[6pt]
3 & x_1 + lW_3(\cos\alpha - \sin\alpha) & y_1 - lW_3(\cos\alpha + \sin\alpha)
\end{bmatrix}$
- $R_i$ : 각 USV를 식별하는 인덱스 (ID)
- $(x_i,y_i)$ : 글로벌 좌표계에서의 i번째 USV의 실제 위치 좌표
B. 행동 트리 기반 편대 형상 변환 제어 전략

행동트리 기반 형상 변환 전략은 모듈성 및 계층적 구조를 특징으로 한다. 복잡한 장애물 환경에서 편대를 최적화하여 장애물을 회피한다.
- Figure 3과 같이 상황에 따라(한쪽 또는 양쪽에 장애물 존재) 적절한 하위 작업(subtask)을 선택하여 편대 형상을 조정하고, 장애물을 회피하여 좁은 환경을 통과할 수 있도록 한다.
- 적시에 형상 조정을 수행함으로써 장애물을 효과적으로 회피하고 작업의 안전한 수행을 보장한다.
형상 장애물 회피 행동트리 전략의 구체적인 단계:
행동트리의 루트 노드는 장애물 회피 순차 노드(sequence node)이며, 자식 노드를 순차적으로 실행한다. 먼저 환경 인식 노드는 이동 가능한 영역과 원하는 경로(desired route)를 확인하고, 경로가 장애물 사이에 있을 경우 확장 노드(action node)를 실행하여 스케일링 팩터(scaling factor) $\rho$를 계산한다.
그림 3의 경우, 장애물 사이에서 편대 너비가 $D_{unit}$보다 작을 때 형상 조정이 필요하며, 이때 스케일링 팩터는 다음과 같이 정의된다.
$\rho=D_{max}/D$
여기서 $D_{max}$는 통과 가능한 경로의 최대 너비를 나타내고 $D$는 형성의 최대 너비를 나타낸다.
formation transformation selection node는 scaling factor $\rho$를 분석하고 obstacle avoidance formation transformation mode (장애물 회피 형성 변환 모드)를 결정하여 다음 세가지 동작 노드 중 하나를 입력한다.
(a) $\rho \geq 1$인 경우:
- 편대 변환이 필요하지 않은 형상 유지(zero transformation) 액션 노드가 활성화된다.
- 편대는 형상을 변경하지 않고 장애물을 통과할 수 있다.
(b) $\rho_m < \rho < 1$인 경우 (여기서 $\rho_m = l_{min}/D$):
- 동일 형상 축소(isomorphic transformation) 액션 노드가 활성화된다.
- 이 경우, 원래의 편대 형상을 유지한 채 편대의 크기를 축소하여 장애물을 통과한다.
- 새로운 형상 매트릭스의 간격(distance parameter)은 다음 식으로 결정된다.
$l_i^d = l_i \times \rho$
(c) $0 \leq \rho \leq \rho_m$인 경우:
- 다른 형상으로 전환(heteromorphic transformation) 액션 노드가 활성화된다.
- 이때, 형상 적응 비용 함수(formation adaptation cost function)는 다음 식과 같이 계산된다.
$S_{fd}(F_c,F_t) = \frac{D_{max}}{D}$
- 편대 라이브러리로부터 가장 적합한 목표 편대(target formation)를 선택한다.
- 이후 다른 형상으로 전환하는 액션 노드와 경로 재계획(route replanning) 액션 노드를 수행한다.
이러한 방식으로 USV 편대는 상황에 따라 장애물을 효과적으로 회피하며 안전하고 효율적인 경로를 유지할 수 있다.

※ 위 논문 리뷰는 온전히 개인이 공부하면서 정리한 글입니다.
[1] H. Cao, R. Song, J. Xu, X. Hu, Z. Bao, and L. Bao, "USV formation path planning based on behavior trees and fast marching method," in 2023 5th International Conference on Intelligent Control, Measurement and Signal Processing (ICMSP), Chengdu, China, May 2023, doi: 10.1109/ICMSP58539.2023.10170942.
4. 추가 학습 내용
4.1 경사 하강법
경사 하강법(Gradient Descent)은 최적화 문제에서 자주 사용되는 반복적(iterative) 수치 해법이다. 주로 어떤 함수의 값을 최소화하거나 최대화할 때 쓰인다. 일반적으로 머신러닝에서 비용 함수(Cost function)의 최소값을 찾는 데 널리 활용된다.
기본 원리
경사 하강법은 함수의 그래디언트(Gradient)를 활용한다. 그래디언트는 함수가 가장 급격히 증가하는 방향을 가리키는 벡터로서, 경사 하강법은 이 벡터의 반대 방향으로 조금씩 이동하면서 함수의 최솟값을 찾는다.
함수 $f(x)$를 최소화하는 경우, 경사 하강법의 갱신 규칙은 다음과 같다.
$x_{new} = x_{old} - \eta \nabla f(x_{old})$
- $x_{new}$ : 새롭게 갱신된 변수 값
- $x_{old}$ : 이전 단계의 변수 값
- $\eta$ : 학습률(Learning rate)이라고 하며, 한 번에 이동하는 보폭을 의미
- $\nabla f(x_{old})$ : $f(x)$의 미분값(그래디언트)
학습률(Learning rate, $\eta$)의 역할
학습률은 매우 중요한 하이퍼파라미터로, 적절한 값을 설정하는 것이 중요하다.
학습률이 너무 클 때:
최솟값을 건너뛰어 오히려 발산할 위험이 있다.
학습률이 너무 작을 때:
최적점에 도달하는 데 시간이 너무 오래 걸리거나, 국부적 최소점(local minima)에 빠지게 된다.
'논문 리뷰' 카테고리의 다른 글
| [논문 리뷰] 강화학습 기반예인선 제어방법에 의한선박 자율 접안 (0) | 2025.11.21 |
|---|---|
| Proximal Policy Optimization (PPO) - OpenAI (0) | 2025.09.03 |