1. 강연 소개
- 연사: 이원열 (포항공대 교수)
- (참석자): Xavier Rival
2. AD (Automatic Differentiation)의 기본
- AD (자동 미분) 는 함수의 도함수(Jacobian)를 계산하는 기술입니다.
- (예: 딥러닝의 역전파 (Backpropagation)는 AD의 일종인 Reverse-mode AD를 사용합니다.)
- 함수 $p: \mathbb{R}^n \to \mathbb{R}^m$에 대해, AD는 도함수 행렬 $DP(x) \in \mathbb{R}^{m \times n}$를 계산합니다.
3. 문제 제기: 미분 불가능한 함수
- 이론적 한계: AD의 수학적 근간이 되는 연쇄 법칙(Chain Rule) (예: $(g \circ f)’(x) = g’(f(x)) \times f’(x)$)은 함수가 모든 지점에서 ‘미분 가능(differentiable)‘하다고 가정합니다.
- 실제적 문제: 하지만 딥러닝에서 널리 사용되는 ReLU 함수는 $x=0$ 지점에서 미분 가능하지 않습니다.
4. AD는 실제 무엇을 계산하는가?
- 접근 1: 조각별 해석 함수 (Piecewise-Analytic, PAP)
- ReLU와 같은 함수는 PAP 함수로 분류할 수 있습니다.
- “각 domain 내부에서 미분 후, 합친다”
- 각 조각 (piece)의 미분 가능한 영역 내부에서 개별적으로 도함수를 구한 뒤, 이를 합치는 접근
- 접근 2: 부동 소수점 (Floating Point) 관점
- $\mathbb{F}^{n}\in\mu^{-1}(0)$ ($\mathbb{F}$: floating pt set)
- 컴퓨터의 부동 소수점 ($\mathbb{F}$) 연산 환경에서는 ReLU의 $x=0$과 같은 ‘뾰족한’ 미분 불가 지점에 정확히 도달할 확률이 매우 낮습니다. (이러한 미분 불가 지점의 집합은 수학적으로 ‘측도 0(measure zero)’, $\mu^{-1}(0)$입니다.)
- $\mathbb{F}^{n}\in\mu^{-1}(0)$ ($\mathbb{F}$: floating pt set)
- 결론: 클라크 미분 (Clarke Subdifferential)
- “AD computes Clarke Subdifferentiables”
- (강연의 핵심 결론) 미분 불가능한 함수에 대해 AD가 실제로 계산하는 것은 ‘클라크 일반화 기울기(Clarke’s Subgradient)’ 이며, 이들의 집합인 ‘클라크 미분(Clarke Subdifferential)’ 입니다.
- “AD computes Clarke Subdifferentiables”
참고 강연
ERC 2025W 이원열 교수님 - On Correctness of Numerical Libraries - 여기서는 부동 소수점 이야기!