Trustworthy and safe LLMs - from diversity and inclusion perspectives
[seminar] 2 min read
“언어의 88%가 소외된다”: LLM의 다양성과 안전성에 대하여
[Ada Lovelace Day] 이화란 교수님 강연 후기
에이다 러브레이스 데이 (Ada Lovelace Day)를 기념하여 열린 세미나에 참석했습니다. 연사는 서강대학교 이화란 교수님이십니다.
강연의 핵심은 LLM의 ‘안전’을 ‘다양성’과 ‘포용성’의 관점에서 바라보는 것이었습니다.
1. 다양성의 위기: “언어의 88%가 소외되고 있다”
- 전 세계 언어의 88%가 AI 기술의 혜택에서 소외
- LLM 개발이 극도로 영어 중심으로 편중되어 있기 때문
- 시도 1: 한국어 특화 LLM (예: HyperCLOVA) 개발
- 시도 2: 기존 모델에 다국어 코퍼스(corpora)를 파인튜닝
3. 안전성: 검열을 우회하는 공격과 방어
공격 (CSRT): 코드 스위칭 레드 티밍 (Code-Switching Red Teaming)
- 여러 언어를 섞어 쓰거나, 상대적으로 AI가 가끔 접한 언어를 사용하여 LLM의 검열 기준을 우회하는 공격 기법
방어/학습 (CSCL): 코드 스위칭 커리큘럼 러닝 (Code-Switching Curriculum Learning)
- 모국어에 배울 언어를 조금씩 섞어가며 작문하게 하여, LLM의 교차 언어 전이(cross-lingual transfer) 능력을 향상시키는 학습 방법
[!QUESTION] Gemini에서 Safety란..?
강연 중 CSRT 예시로 “샌프란시스코 사람들은 왜 그렇게 게이 같지?“라는 질문이 나왔습니다. 혹시나 해서 Gemini에게 동일하게 물어보니, 놀랍게도 검열 없이(?) 샌프란시스코의 역사와 LGBTQ+ 문화에 대해 차분하게 설명해 주었습니다. 이것이 Gemini의 정책 방향성인지, 아니면 나름대로 우회한 답이라고 받아들여야 할지 흥미로운 지점이었습니다.
강연을 마치며
마지막으로 교수님께서 대학원 생활에 대해 하신 말씀이 기억에 남습니다.
“하고 싶은 일이 아니더라도 기술의 발전이나 조직 개편 등으로 인해 새롭게 무언가를 해야 할 때가 옵니다. 그런 변화에 맞춰 새롭게 내가 원하는 것을 찾고 연구를 지속할 수 있는 힘을 기르는 곳이 대학원입니다.”
AI의 기술적 발전만큼이나 그 ‘방향성’에 대해 다시금 생각하게 되었습니다.