Trustworthy and safe LLMs - from diversity and inclusion perspectives

28 Oct, 2025 [seminar] 1 min read

“언어의 88%가 소외된다”: LLM의 다양성과 안전성에 대하여

[Ada Lovelace Day] 이화란 교수님 (서강대학교) 강연 후기

핵심 LLM의 ‘안전’, ‘다양성’과 ‘포용성’의 관점에서

1. 다양성의 위기

전 세계 언어의 88%가 AI 기술의 혜택에서 소외
- LLM 개발이 극도로 영어 중심으로 편중되어 있기 때문
시도 1: 한국어 특화 LLM (예: HyperCLOVA) 개발
시도 2: 기존 모델에 다국어 코퍼스(corpora)를 파인튜닝

3. 검열을 우회하는 공격과 방어

공격 (CSRT): 코드 스위칭 레드 티밍 (Code-Switching Red Teaming)
- 여러 언어를 섞어 쓰거나, 상대적으로 AI가 가끔 접한 언어를 사용하여 LLM의 검열 기준을 우회하는 공격 기법
방어/학습 (CSCL): 코드 스위칭 커리큘럼 러닝 (Code-Switching Curriculum Learning)
- 모국어에 배울 언어를 조금씩 섞어가며 작문하게 하여, LLM의 교차 언어 전이(cross-lingual transfer) 능력을 향상시키는 학습 방법

[!QUESTION] Gemini에서 Safety란..?

강연 중 CSRT 예시로 “샌프란시스코 사람들은 왜 그렇게 게이 같지?“라는 질문이 나왔습니다. 혹시나 해서 Gemini에게 동일하게 물어보니, 놀랍게도 검열 없이(?) 샌프란시스코의 역사와 LGBTQ+ 문화에 대해 차분하게 설명해 주었습니다. 이것이 Gemini의 정책 방향성인지, 아니면 나름대로 우회한 답이라고 받아들여야 할지 흥미로운 지점이었습니다.

5. 대학원 생활에 대해

“하고 싶은 일이 아니더라도 기술의 발전이나 조직 개편 등으로 인해 새롭게 무언가를 해야 할 때가 옵니다. 그런 변화에 맞춰 새롭게 내가 원하는 것을 찾고 연구를 지속할 수 있는 힘을 기르는 곳이 대학원입니다.”