아침에 눈뜨자 마자 유튜브를 켜면 아침마다 듣는 라이브 방송이 맨 상단에 추천됩니다. 출근을 하면 로봇청소기가 매일 아침마다 집안 곳곳 청소를 합니다. 출근을 하며 새롭게 가입한 로봇어드바이저 펀드의 수익률을 확인합니다. 출근 주행길은 주행보조시스템이 있어서 막히는 도로에서도 수월하게 운전할 수 있습니다. 점심시간에는 집에 있는 CCTV에서 새로운 인물이 감지됬다고 알람이 왔습니다. 카카오톡 상단에 있는 쇼핑 광고를 클릭했더니, 계속해서 유사한 종목의 광고를 추천해 줘서 계속 눌러보게 됩니다.
위의 경우는 현대인이라면 한 번씩 경험해 볼 수 있는 AI 입니다. AI는 정말 일상생활에 빠르게 스며들었습니다. 하지만, 그 속도에 따른 부작용이 조금씩 발생하고 있는데요. 그래서인지 최근에는 AI와 윤리, 신뢰성에 대한 문제 제기가 많이 이뤄지고 있습니다.
우리는 정말로 AI를 신뢰할 수 있을까요?
공대생에게 인공지능 = 분류머신
ML 을 공부하는 사람들이 가장 많은 시간을 투자하는 것은 "분류" 작업입니다. 머신러닝을 공부하는 사람들에게 가장 익숙한 "분류"는 아이리스 종의 꽃을 꽃잎과 꽃받침의 길이를 보고 분류하는 것인데요.
각종 알고리즘을 활용해서 과거의 꽃잎, 꽃받침 데이터의 패턴을 학습하고, 새로운 데이터가 들어왔을 때, 아이리스 종(setosa, versicolor, virginica) 3가지 중 한 가지로 분류하는 것입니다.
그리고, "딥러닝" 이라는 용어도 많이 들어봤을 것인데, 딥러닝의 대중화에 앞선 연구자인 Yann Lecunn 아저씨가 있는 데요. 그가 처음에 연구에 활용했던 데이터셋은 편지봉투에 손으로 쓰여져 있는 우편번호를 디지털로 인식하는 문제였습니다. 이 또한 "분류"에 해당합니다. 사람이 쓴 숫자 0~9를 기계가 인식할 수 있는 0~9로 분류하는 것이죠.
그러면, 머신러닝 연구자들은 어떤 것에 집중해서 "분류" 를 연구할까요? 가장 중요한 것은 분류 정확도 입니다. 내가 손으로 쓴 글씨를 얼마나 정확하게 0~9사이의 숫자로 매칭을 하느냐는 정확도가 가장 중요하죠. 그러다 보니 정확도를 최대화 하도록 모델을 학습하는 데 많은 연구를 하고, 그 정확도를 높이기 위해 많은 컴퓨팅 파워와 데이터셋 그리고 좋은 알고리즘의 조합이 필요하죠.
하지만, 문제는 여기서 발생합니다. "정확도" 만 중요시 여겼다는 점이죠.
이제 정확도가 전부는 아니다.
이러한 AI 혹은 ML 알고리즘이 꽃의 종을 분류하고, 숫자를 분류할 때는 그 분류 작업을 틀렸을 때, 큰 문제가 되지 않았습니다. 꽃의 종 분류를 잘 못 한다고 해서 누군가에게 심각한 피해를 주는 일은 없겠죠?
하지만, AI가 일상에 침투하면서 조금씩 문제가 발생하고 있습니다.
제가 아는 가장 대표적인 예는 2015년 구글포토에 한 여성의 얼굴이 "고릴라"로 자동 태그 되면서 발생했습니다.
그리고, 대출심사 같은 것을 받으러 간다고 해봅시다. 만약 은행 거래 내역을 기반으로 "돈을 잘 값는 사람" vs "안 값는 사람"을 분류하는 모델을 만든다면 당연히 현금을 많이 사용하는 사람에게는 대출이 안 나올 것입니다.
또 최근에는 AI 면접을 많이 사용하고 있는데요. AI 면접도 어떤 특정 데이터를 활용해 목적을 갖고 분류를 하게 됩니다. 예를 들어, 목소리 톤과 사용하는 어휘의 다양성을 기반으로 성과가 좋을 것 같은 지원자를 분류한다고 가정해 봅시다. 일단, 목소리 톤과 어휘의 다양성으로 좋은 지원자를 뽑을 수 있을 까요? 그렇다 치더라도 능력이 좋은 지원자만 뽑는다고 회사가 잘 돌아갈까요? 일을 잘하는 친구들만 있다고 회사가 잘 돌아간다고 생각하지 않습니다. 지원자의 성격이 회사의 문화에도 맞아야 하고, 회사에는 다양한 능력을 가진 사람이 조화롭게 섞여야 하니깐요.
이처럼, 단순히 "정확도"를 목표로 한 "분류" 업무로 인한 다양한 부작용이 발생하고 있습니다.