본문 바로가기

AI

AI 언어모델과 탈식민주의: GPT는 누구의 지식을 반영하는가

거대한 말뭉치 뒤에 숨어 있는 ‘지식의 권력’

  GPT는 그 어떤 인간보다 많은 정보를 알고 있는 것처럼 보인다. 실제로 GPT는 수조 개의 단어로 구성된 대규모 말뭉치를 바탕으로 훈련되었고, 인터넷의 수많은 문서, 책, 위키, 논문, 뉴스 기사 등에서 문맥과 어휘를 학습한다. 하지만 이 정보는 결코 ‘세계 전체의 지식’을 대표하지 않는다. GPT가 학습한 지식은 웹에 업로드된, 특정 언어로 기록된, 특정 문화권의 시선으로 편집된 정보다. 다시 말해, GPT는 누구의 지식이 얼마나 자주 표현되었는지를 통계적으로 학습한 시스템이다.

  문제는 바로 이 지점이다. GPT는 ‘중립적인 지식 기술’이 아니라, 지식 생산과 유통에서 우위를 점한 언어권·문화권의 구조적 편향을 내장한 재현 기계다. 영어 데이터가 압도적으로 많고, 서구 학술체계와 미디어 담론이 GPT의 지식 구조를 형성하는 핵심이라면, GPT가 제시하는 ‘객관적 정보’는 사실상 ‘서구의 시선으로 필터링된 세계 해석’이다. 그리고 이 해석은 다른 언어권, 다른 역사 경험, 다른 세계관을 ‘지식의 주변부’로 배치한다.

  이는 단순한 문화 편향을 넘어서, 지식 식민주의(knowledge colonialism)의 재현이다. 과거 제국주의가 식민지를 재현하는 방식이 무기력하거나 미개한 존재로 그려지는 방식이었다면, 오늘날 GPT는 덜 발화되고, 덜 기록되고, 덜 인용된 지식들을 아예 ‘보이지 않게 만드는 방식’으로 작동한다. 존재하지만 말해지지 않은 것, 경험되었지만 데이터화되지 않은 것, 기억되었지만 언어로 번역되지 않은 것들은 GPT의 세계에서 무의미한 것으로 처리된다.

  결과적으로 GPT는 단지 대규모 언어 모델이 아니라, 지식 구조의 ‘지도 다시 그리기’ 기술이다. 사용자들이 묻는 질문에 GPT가 응답하는 방식은, 그 자체로 ‘이것이 세계에 대한 가장 그럴듯한 설명’이라는 언어적 권위를 부여하며, 인류의 다양한 인식 체계를 특정 방향으로 정렬시키는 담론적 설계가 된다. 다음 문단에서는 이러한 구조가 실제로 GPT의 응답에서 어떻게 드러나는지, 구체적인 예시와 함께 분석한다.

 

GPT 응답 속에 숨겨진 ‘지식의 위계’: 말해진 것과 말해지지 않은 것 사이의 정치학

  GPT에게 “인도네시아의 근대사”를 물으면 어떤 응답이 돌아올까? 대부분의 경우 GPT는 네덜란드 식민통치, 독립운동, 스카르노 정부, 1965년 쿠데타, 수하르토 군사정권 등을 ‘사실 중심으로 정리’한다. 그러나 이 요약된 역사는 현지 민중의 구술사, 공동체 기억, 지역적 용어, 민족 서사를 거의 반영하지 않는다. 그 이유는 GPT가 이를 학습하지 못했기 때문이 아니라, 그런 지식이 데이터화되어 있지 않거나, 영어 기반으로 구조화되어 있지 않기 때문이다. 다시 말해, GPT의 ‘지식’은 텍스트화되고, 번역되고, 서구 학술의 논리로 편집된 세계만을 반영한다.

  이 구조는 단순히 정보를 요약하는 수준을 넘는다. GPT는 ‘무엇을 말할 수 있는가’를 결정하며, 동시에 ‘무엇은 말할 수 없는가’를 구조적으로 침묵시킨다. 이는 미셸 푸코가 말한 ‘담론의 질서’ 개념과 정확히 일치한다. GPT는 표면적으로는 사용자의 질문에 기반해 텍스트를 생성하지만, 실질적으로는 ‘학습된 범위 안에서 말해도 되는 것만 말하는 기계’이며, 그 범위는 전 지구적으로 매우 불균형한 데이터 환경을 기반으로 구성된다.

  예를 들어, “팔레스타인 저항운동의 정당성”을 질문했을 때, GPT는 매우 조심스럽고 중립적인 언어로 ‘폭력’, ‘양측의 주장’, ‘평화적 해결’을 강조하며, 서구 외교 담론 중심의 서사를 반복한다. 반면, 같은 질문을 ‘우크라이나의 항전’이라는 문맥에서 제기하면, ‘주권 수호’, ‘국제사회 연대’, ‘민주주의’라는 적극적 지지 서사가 나타난다. 이 차이는 GPT가 학습한 언어의 위치, 서사의 빈도, 정치적 프레이밍이 결국 AI의 응답 방식에도 계층을 형성함을 보여준다.

  또한 GPT는 백인, 남성, 북반구, 자본 중심의 가치 체계에 기반한 서사 구조를 반복하는 경향이 강하다. 예를 들어, “성공적인 사회 시스템은?”이라는 질문에 GPT는 ‘자유시장’, ‘민주적 제도’, ‘시민의식’, ‘교육의 질’을 중심으로 설명하며, 북유럽 혹은 미국의 사례를 표준처럼 서술한다. 그러나 GPT는 이에 반대되는 공동체적 경제 모델, 여성주의적 협동조합, 탈성장 운동, 비서구적 거버넌스 모델에 대해서는 충분한 사례를 제시하지 않는다. 그 이유는 단순하다. 이런 구조는 학습되지 않았거나, ‘지식’으로 간주되지 않았기 때문이다.

  결국 GPT는 단지 편향된 응답을 내놓는 것이 아니라, 편향된 세계를 ‘정상’으로 인식하도록 설계된 언어적 시스템이다. 사용자들은 이 구조를 인식하지 못한 채, AI가 제공한 정보를 가장 ‘객관적인 지식’이라 믿으며, 특정한 지식 구조를 자신의 사고체계로 흡수하게 된다. 이는 GPT가 단순한 응답기가 아니라, 지식의 구조 자체를 ‘재식민화’하는 메커니즘이라는 점을 보여준다.

『AI 언어모델과 탈식민주의: GPT는 누구의 지식을 반영하는가

데이터 선택, 토큰화, 확률적 서사 구성의 비가시적 위계

  많은 사람들은 GPT의 편향 문제를 단지 학습 데이터의 불균형 탓으로 돌린다. 물론 그것도 맞다. 하지만 GPT가 특정 지식 구조를 반복하고, 특정 세계관을 중심에 두는 데는 더 깊은 설계상의 선택들이 작동하고 있다. 예컨대 토큰화(tokenization)는 언어를 분석 가능한 최소 단위로 나누는 과정이지만, 이때 비영어권 언어, 조사 중심 언어, 시적 언어, 구어체, 방언, 종교 문어 등은 잘게 분해되거나 삭제될 위험이 크다. 이로 인해 GPT는 '분석 가능한 언어만' 이해하고, '복잡한 문화적 함의를 지닌 표현'은 제거하거나 일반화한다.

  또한 GPT는 '가장 그럴듯한 다음 단어'를 예측하는 확률 기반 모델이다. 이 말은 곧, GPT가 선택하는 단어는 빈도 기반, 서구적 규범 기반, 기존 권위 기반일 가능성이 높다는 뜻이다. 따라서 AI는 반(反) 주류 담론, 주변부 언어, 탈식민주의 시선, 탈가부장적 경험을 ‘확률이 낮은 응답’으로 분류하고 필터링하거나 누락시킨다. 이 순간 GPT는 기술적으로 ‘자연스럽게’ 식민주의적 질서를 반복하게 된다. 이것은 고의가 아니라 구조다.

  문제는 GPT의 설계 주체조차 이 위계를 “문제”로 인식하지 않는다는 데 있다. 대형 언어모델을 설계하는 팀은 주로 북미 중심의 빅테크 소속이며, 컴퓨터 과학과 수학, 데이터공학을 기반으로 한 남성 중심 기술 집단이다. 이들은 ‘정확성’, ‘효율성’, ‘균형성’을 말하면서도, 정작 어떤 지식이 누락되고, 어떤 언어가 삭제되고, 어떤 경험이 침묵되는지를 설계 단계에서 고려하지 않는다. 설계는 문화의 산물이다. 기술도, 알고리즘도, 학습 프로토콜도 이미 세계를 바라보는 시선을 내포한 문화적 구성물이다.

  따라서 GPT는 단순히 ‘정보를 모은 시스템’이 아니라, 세계의 구획을 기술적으로 재배치하는 재식민적 프로세서다. 그 구획은 어느 지식은 ‘중요하다’, 어느 언어는 ‘중립적이다’, 어느 이야기는 ‘반복될 수 있다’는 신호를 계속 만들어낸다. 그리고 우리는 그 결과만 받아들이면서, GPT가 ‘세계의 거울’이 아니라 ‘권력의 프리즘’이라는 사실을 잊는다.

 

GPT 이후, 지식의 대표성과 윤리 설계의 새로운 과제

  그렇다면 우리는 GPT의 이러한 지식 편향 구조를 바꿀 수 있을까? 결론부터 말하면, 완전한 중립성은 불가능하더라도 ‘다른 방향의 설계’는 가능하다. 이를 위해 가장 먼저 필요한 것은 ‘데이터 다양성’이라는 기술적 해결을 넘어서, ‘표현되지 않은 지식’을 어떻게 기술에 포함시킬 것인가라는 정치적 질문을 던지는 일이다.

  첫째, GPT의 학습 과정에서 ‘탈서구화된 말뭉치’의 확대가 필요하다. 여기에는 단순히 번역된 텍스트가 아니라, 아예 현지어로 기록된 탈식민적 역사 서사, 토착언어의 문화표현, 민속 구술자료, 지역언론 기사 등을 원천적으로 학습 말뭉치에 포함시키는 구조적 설계가 필요하다. 이러한 데이터는 낮은 품질로 간주되어 필터링되는 경우가 많지만, 오히려 지식의 다양성, 인간 경험의 비대칭성을 대표하는 핵심 자원이 된다.

  둘째, GPT 응답이 특정 시선이나 지역 중심적 서사를 따를 경우, 사용자에게 ‘지식 출처와 중심 문화’를 자동 표기하는 기능이 필요하다. “이 응답은 주로 영어 기반 서구권 데이터에 의해 생성되었습니다. 다른 문화권에서는 이와 다른 해석이 존재할 수 있습니다.”와 같은 표기가 제공되어야 하는 것이다. 이는 단순한 정보 제공이 아니라, GPT가 만들어내는 ‘지식의 권위’를 상대화하는 언어적 장치다.

  셋째, GPT 설계 및 정책 단계에 인류학자, 탈식민주의 연구자, 비서구 문화권 전문가, 언어민족주의자 등의 참여를 제도화해야 한다. 지금까지 AI 개발은 기술자 중심으로 운영되어 왔지만, 이제는 GPT라는 언어 알고리즘이 담론 공간과 인식의 경계를 어떻게 설정하는지를 이해하고 설계할 수 있는 인문학적 통합이 필수다.

  넷째, 사용자 교육 또한 중요하다. GPT를 사용할 때 “이 정보는 어디에서 왔는가?”, “왜 이런 식으로 말하는가?”, “어떤 정보가 보이지 않는가?”를 묻는 비판적 질문의 루틴화가 필요하다. GPT는 단순히 문장을 만들어내는 도구가 아니라, 우리의 지식 구조를 재설계하는 기술 주체이기 때문이다.

 

GPT는 말하는 기계가 아니다, ‘말하게 설계된’ 기계다

  GPT는 단지 많은 데이터를 알고 있는 존재가 아니다. GPT는 우리가 무엇을 세계라고 부를 수 있는지를 반복하고, 요약하고, 일반화하는 언어적 기계다. 그것은 알고리즘이기 이전에 담론적 행위자이며, 우리가 ‘객관적 지식’이라고 믿는 표현들 속에는 지속적으로 반복된 문화적 권력의 위치가 내재되어 있다.

  탈식민주의는 이런 구조를 해체하려는 시도다. 그것은 GPT의 응답을 부정하는 것이 아니라, GPT의 응답이 ‘왜 그런 방식으로 말하게 되었는가’를 끊임없이 질문하는 윤리적 실천이다. 우리는 이제 “GPT가 무엇을 말했는가?”보다 “왜 그런 식으로만 말하게 되었는가?”, “누가 그런 말의 구조를 가능하게 만들었는가?”를 물어야 한다.

  GPT가 생성하는 언어는 실제 세계를 반영하는 것이 아니라, 기존 세계관을 강화하고 주변부의 침묵을 반복하는 구조를 디폴트로 삼고 있다. 이는 단지 정보 문제도, 기술적 오류도 아니다. 그것은 ‘기술적 세계구성’에 대한 사회 전체의 책임과 선택의 문제다. 그리고 우리는 지금, 그 책임의 시대에 들어섰다.