Notice
Recent Posts
Recent Comments
Link
관리 메뉴

Asia-Pacific Region Intelligence Center

챗GPT의 편향성...비영어권 사용자가 소외되는 3가지 측면 본문

Guide Ear&Bird's Eye6/4차 산업을 찾다

챗GPT의 편향성...비영어권 사용자가 소외되는 3가지 측면

CIA bear 허관(許灌) 2023. 11. 5. 18:45

실리콘밸리의 AI 시스템을 비영어권 제품에 사용하는 사업체들은 불이익을 받고 있다

전문가들은 인공지능(AI) 시스템의 영어 편향으로 인해 전 세계 비영어권 사용자가 소외된다고 경고한다.

챗GPT나 구글의 ‘바드’와 같은 생성형 AI 솔루션은 수많은 사람에게 새로운 기술·사업 아이디어를 제공하고 있지만, 더 많은 사람에게 불이익을 줄 가능성도 있다.

최근 많은 국가에서 정부 지원을 받은 기업들이 자국어용 AI를 출시·구축하기 위해 경쟁적으로 뛰어들었다. 인도네시아어·일본어·중국어·한국어 및 여러 인도 언어가 포함된다.

하지만 과연 이런 언어의 AI 모델이 실리콘밸리의 AI 봇과 경쟁하거나 대체재가 될 수 있을까?

비영어권 사용자가 생성형 AI의 물결에서 뒤처지는 3가지 측면과 이 문제가 중요한 이유를 살펴본다.

1. 낮은 정확도와 경제성을 마주하는 비영어권 사용자

머신러닝 엔지니어 예니 전은 다양한 언어로 챗GPT-4를 시험하던 중 이 문제를 발견했다.

그는 "양질의 학습 데이터가 확보되는 한국어·중국어로 시험할 때도 속도가 훨씬 느리고 성능이 나쁘다는 사실을 확인했다"고 말했다.

이달 초, 예니는 몇 가지 까다로운 수학 문제를 이용해 ‘오픈AI’의 최신 AI 모델 GPT-4를 시험하기로 했다.

그는 16개 언어로 동일한 수학 문제를 질문했을 때 영어·독일어·스페인어와 같은 특정 언어에서 훨씬 뛰어난 문제 해결 능력을 확인했다.

실제로 GPT-4는 수학 문제를 영어로 풀 때 아르메니아어·페르시아어와 같은 다른 언어에 비해 정답률이 3배 이상이었다. 미얀마어나 암하라어로 질문하면 어려운 문제는 하나도 풀지 못했다.

이 실험은 예니가 챗GPT와 다른 대규모 언어 모델 AI의 편향성을 확인하기 위해 진행한 가장 최근 작업 중 하나다.

예니는 올여름 초 또 다른 시험에서 '토크나이저'(토큰화) 도구를 만들어 이런 AI 모델이 비영어권 언어 문제 해결에 어려움을 겪는 이유를 설명했다.

AI는 문장을 이해하기 쉬운 작은 덩어리, 즉 토큰으로 나누는데, 언어 이해도가 낮을수록 더 많은 토큰을 생성한다. 예를 들어, '모렐 버섯에 대해 말해줘'라는 간단한 요청을 토크나이저에 입력할 때 토큰 수는 다음과 같이 다양하다.

  • 영어: 6토큰
  • 스페인어: 8토큰
  • 중국어: 14토큰
  • 미얀마어: 65토큰

이 차이가 비영어권 사용자가 마주하는 문제다. 질문에 대한 결과는 더 느리게 나오고, 입력창이 토큰 단위로 제한되기 때문에 영어 사용자처럼 많은 단어를 한 번에 질문할 수 없다.

예니는 이런 AI로 제품·서비스를 구축하려는 기업이 이 문제로 인해 실질적 불이익을 겪는다고 말한다.

예를 들어, 버섯 재배 기업이 고객 문의에 답변하기 위해 자체 앱에 챗GPT-4를 도입했다면, 미얀마어 사용 고객에게 서비스를 제공할 때 영어 사용 고객보다 10배 더 많은 비용이 들 것이다. 요청을 처리하는 데 필요한 토큰 수가 10배 더 많기 때문이다.

챗GPT뿐 아니라 모든 대규모 언어 모델에 비슷한 격차가 존재한다. 구글의 바드 AI는 이 문제에 대해 질문하자 "영어 이외의 언어에 대한 토큰화 프로세스가 영어보다 더 복잡하기 때문에 다른 언어로 질문할 경우 속도가 더 느리고 비용이 많이 들 수 있다"고 인정했다.

2. 다른 문화를 반영하지 못하는 ‘영어 중심 AI’

인터넷을 지배하는 영어가 이제 AI도 지배하고 있다.

대부분의 AI 모델이 인터넷에 공개된 데이터를 가져와 학습에 사용하는데, 이 가운데 영어 데이터가 압도적으로 많기 때문이다.

비영리 단체 ‘민주주의·기술 센터’(CDT)가 작성한 인공지능 언어 편향에 관한 보고서에서 따르면, 전 세계 인구 중 영어 화자는 16%에 불과하지만, 웹사이트 중 63.7%가 영어로 작성됐다.

샘 알트만 OpenAI 최고경영자는 미국 상원위원회에서 인공지능의 잠재력에 대해 증언했다

영어는 소셜미디어 게시물부터 사업 보고서, 과학 논문에 이르기까지 모든 종류의 텍스트가 풍부하게 갖춰진 '초고자원' 언어로 묘사되곤 한다.

그러나 온라인에서 언어 자원이 풍부한 정도는 해당 언어의 사용자 수와 비례하지 않는다.

예를 들어 CDT 연구진은 아프리카 대륙에 6억 명 이상의 인터넷 사용자가 있지만, 거의 모든 아프리카 언어가 ‘자원 부족’ 상태라고 말한다.

학계에서 분류하는 방식은 다양하지만, 언어별 자원 수준은 일반적으로 다음과 같이 나눌 수 있다.:

  • 초고자원 언어: 영어
  • 고자원 언어: 중국어, 일본어, 스페인어, 독일어, 프랑스어, 러시아어, 아랍어
  • 중자원 언어: 힌디어, 포르투갈어, 베트남어, 네덜란드어, 한국어, 인도네시아어, 핀란드어, 폴란드어, 체코어
  • 저자원 언어: 바스크어, 아이티 크리올어, 스와힐리어, 암하라어, 미얀마어, 체로키어, 줄루어, 기타 언어 대부분

오픈AI는 챗GPT의 학습 데이터 중 영어의 비율을 공개하지 않았다. AI에 질문하면 "데이터 세트 내 언어 및 비율에 대한 상세 분석은 비공개 정보"라고 답한다. 구글의 바드 역시 이 정보를 묻자 "기밀"이라고 답했다.

CDT는 보고서에서 "이러한 왜곡은 전 세계 인터넷 사용자가 사용하는 언어의 다양성을 반영하지 못하며 영어의 지배력을 더욱 영속화한다"고 지적했다.

예니 전은 본인의 실험에서 서구 편향성도 강하게 드러났다고 말한다.

그는 "AI에게 역사적으로 중요한 사건과 인물에 대해 물어봤더니, 심지어 다른 언어로 질문하더라도 계속해서 서양 인물과 사건이 많이 나왔다"고 말했다.

3. 실리콘밸리의 불평등 해소는 요원할 것

CDT는 미국 기업들이 비영어권 고객 경험을 개선을 위해 영어권 고객의 경험 개선보다 적은 금액을 투자한다고 주장했다. 예를 들어, ‘글로벌 사우스’ 지역 등에서 벌어들이는 돈이 훨씬 적기 때문이라는 것이다.

‘와이어드’(Wired) 보도에 따르면, 오픈AI의 한 직원은 작년 개발자 포럼에 참석해 자사 모델이 "의도적으로 영어로 훈련"됐으며, "스페인어 결과가 좋게 나온다면 얻어걸린 것"이라고 인정했다.

미국 상원 청문회에 세워진 샘 알트만 오픈AI 최고경영자(CEO)는 영어 사용자 편향에 대한 질문을 받자 다양한 문화를 반영하는 작업에 "똑같이 집중"한다고 말했다.

오픈AI와 구글 모두 BBC가 홍보실로 보낸 질문에는 응답하지 않았다.

또 다른 AI 대기업 ‘메타’는 수백 개 언어에 대한 머신러닝 번역 솔루션을 개선하기 위해 ‘어떤 언어로도 소통할 수 있도록’(No Language Left Behind) 하는 대규모 번역 프로젝트에 투자 중이다. 하지만 메타도 최신 대규모 언어 모델인 ‘라마 2’(Llama 2)가 비영어권 언어에는 "여전히 취약하므로 주의해서 사용해야 한다"고 인정했다.

AI 전문 벤처캐피털 펀드 ‘디퍼렌셜 벤처스’의 닉 아담스 창립 파트너는 이대로 가면 돈과 투자가 이미 부유한 기업·국가·언어로만 계속 흘러 들어갈 것이라고 말한다.

그는 "AI 업계가 현재 상태를 유지하면 불평등을 개선하는 것이 아니라 가속화할 것이며, 신흥 시장에는 서방 세계의 모델과 경쟁할 수 있는 컴퓨팅 파워, 데이터 세트, AI가 없다"고 말했다.

비영어권 AI에 대한 투자 부족도 문제지만, 데이터 부족 문제는 미국의 거대 테크기업도 극복하기 어려울 것이다.

한때는 다국어 언어 모델을 개발해 AI 모델을 훈련시키고 고자원 언어의 패턴을 발견해 저자원 언어에 적용한다면 데이터 격차를 해결할 수 있다고 생각했다. 그러나 CDT를 비롯한 일부 연구자들은 비영어권 사용자의 경우 다국어 언어 모델 성능이 여전히 떨어진다고 말한다.

인도는 사람들이 AI 언어 모델을 개선하도록 장려하고 있다

인도 전자정보기술부에서는 크라우드 소싱으로 저자원 언어의 학습 데이터를 확충하는 ‘바샤 단’(Bhasha Daan) 프로젝트를 야심 차게 시작했다.

바샤 단 프로젝트는 사람들을 모아 "데이터를 검증하고 모국어 AI 모델을 직접 개선"하도록 했다. 참가자에게는 다양한 인도 언어로 녹음된 팟캐스트나 TV방송 음성을 들려주는데, 참가자가 이를 모국어 번역하면 보상으로 디지털 메달을 수여하는 것이다.

하지만 넘어야 할 산이 높다. 엄청나게 많은 인구에도 불구하고, 지금까지 참여한 인원은 수천 명에 불과하다.

인공지능: 챗GPT의 편향성...비영어권 사용자가 소외되는 3가지 측면 - BBC News 코리아

 

인공지능: 챗GPT의 편향성...비영어권 사용자가 소외되는 3가지 측면 - BBC News 코리아

전문가들은 인공지능 시스템이 영어에 편향돼 있기 때문에 전 세계의 비영어권 사용자들이 뒤쳐지고 있다고 경고한다.

www.bbc.com