1. 강연 소개

2. AD (Automatic Differentiation)의 기본

AD (자동 미분) 는 함수의 도함수(Jacobian)를 계산하는 기술입니다.
(예: 딥러닝의 역전파 (Backpropagation)는 AD의 일종인 Reverse-mode AD를 사용합니다.)
함수 $p: \mathbb{R}^n \to \mathbb{R}^m$에 대해, AD는 도함수 행렬 $DP(x) \in \mathbb{R}^{m \times n}$를 계산합니다.

이론적 한계: AD의 수학적 근간이 되는 연쇄 법칙(Chain Rule) (예: $(g \circ f)’(x) = g’(f(x)) \times f’(x)$)은 함수가 모든 지점에서 ‘미분 가능(differentiable)‘하다고 가정합니다.
실제적 문제: 하지만 딥러닝에서 널리 사용되는 ReLU 함수는 $x=0$ 지점에서 미분 가능하지 않습니다.

접근 1: 조각별 해석 함수 (Piecewise-Analytic, PAP)
- ReLU와 같은 함수는 PAP 함수로 분류할 수 있습니다.
- “각 domain 내부에서 미분 후, 합친다”
  - 각 조각 (piece)의 미분 가능한 영역 내부에서 개별적으로 도함수를 구한 뒤, 이를 합치는 접근
접근 2: 부동 소수점 (Floating Point) 관점
- $\mathbb{F}^{n}\in\mu^{-1}(0)$ ($\mathbb{F}$: floating pt set)
  - 컴퓨터의 부동 소수점 ($\mathbb{F}$) 연산 환경에서는 ReLU의 $x=0$과 같은 ‘뾰족한’ 미분 불가 지점에 정확히 도달할 확률이 매우 낮습니다. (이러한 미분 불가 지점의 집합은 수학적으로 ‘측도 0(measure zero)’, $\mu^{-1}(0)$입니다.)
결론: 클라크 미분 (Clarke Subdifferential)
- “AD computes Clarke Subdifferentiables”
  - (강연의 핵심 결론) 미분 불가능한 함수에 대해 AD가 실제로 계산하는 것은 ‘클라크 일반화 기울기(Clarke’s Subgradient)’ 이며, 이들의 집합인 ‘클라크 미분(Clarke Subdifferential)’ 입니다.