도파민의 진실 (강화학습, 신경조절물질, 보상회로)

솔직히 저는 도파민을 오랫동안 그냥 '기분 좋아지는 호르몬' 정도로만 알고 있었습니다. 게임에 빠지거나 자극적인 영상을 반복해서 보게 될 때마다 "도파민 때문이겠지" 하고 넘겼는데, 신경과학 연구를 파고들수록 그 이해가 얼마나 표면적이었는지 새삼 깨달았습니다. 도파민은 쾌락을 주는 물질이 아니라, 우리가 어떻게 배우고 어떻게 행동을 바꾸는지를 결정하는 핵심 신호입니다.

도파민은 호르몬이 아니라 신경조절물질이다

일반적으로 도파민을 '행복 호르몬'이라고 알고 있는 분들이 많은데, 제 경험상 이 오해가 생각보다 뿌리 깊습니다. 저도 처음에는 당연히 호르몬이라고 믿었으니까요.

정확히 말하면 도파민은 신경조절물질(neuromodulator)입니다. 여기서 신경조절물질이란 특정 기관 안에서만 분비되고 작용하는 물질로, 혈액을 타고 온몸을 순환하는 호르몬과는 근본적으로 다릅니다. 도파민은 혈뇌 장벽(Blood-Brain Barrier)을 넘지 못하기 때문에 뇌 안에서 만들어지면 뇌 안에서만 작용합니다. 여기서 혈뇌 장벽이란 뇌로 유입되는 물질을 선별적으로 차단하는 방어막으로, 뇌를 유해 물질로부터 보호하는 역할을 합니다.

도파민을 만드는 재료도 흥미롭습니다. 우리가 고기나 단백질 식품을 통해 섭취하는 아미노산 중 티로신(tyrosine)이라는 물질이 출발점입니다. 티로신에 산소가 결합하면 엘도파(L-DOPA)가 되고, 여기서 이산화탄소가 떨어져 나가면 도파민이 됩니다. 이 도파민에서 한 단계 더 나아가면 노르에피네프린(norepinephrine), 여기서 또 한 단계를 거치면 에피네프린(epinephrine)이 됩니다. 에피네프린은 우리에게 아드레날린이라는 이름으로 더 친숙한 물질입니다.

제가 이 구조를 처음 접했을 때 솔직히 예상 밖이었습니다. 단 하나의 재료에서 도파민, 노르에피네프린, 에피네프린이 모두 만들어진다는 사실이 놀라웠습니다. 이 세 물질의 화학 구조가 서로 매우 유사하기 때문에, 하나의 수용체가 여러 물질에 반응할 수 있고 몸은 최소한의 재료로 다양한 신호를 만들어낼 수 있습니다. 진화적으로 대단히 효율적인 설계입니다.

도파민이 분비되더라도 혼자서는 아무것도 못 합니다. 반드시 도파민 수용체(dopamine receptor)가 있어야 신호가 전달됩니다. 여기서 수용체란 도파민과 결합해 세포 안으로 신호를 전달하는 분자 구조물을 말합니다. 현재 알려진 도파민 수용체는 D1부터 D5까지 다섯 가지이며, 뇌의 어느 영역에 어떤 수용체가 분포하느냐에 따라 같은 도파민 신호도 완전히 다른 결과를 낳습니다. 도파민이 뇌 전체에 균일하게 작용하는 것이 아니라, 영역마다 다른 수용체를 통해 서로 다른 기능을 수행한다는 점이 핵심입니다.

도파민이 과잉 분비될 경우 수용체 수가 줄어드는 방향으로 몸이 스스로 조절한다는 연구 결과도 있습니다. 이것이 중독의 신체적 기반입니다. 수용체가 줄어든 상태에서 도파민 공급이 갑자기 끊기면, 평소보다 훨씬 적은 신호만 받을 수 있게 되어 강한 결핍감이 생깁니다(출처: NIH National Institute on Drug Abuse).

도파민이 실제로 하는 일, 강화학습과 보상회로

도파민을 단순히 '쾌락 물질'로 보는 시각이 있는데, 저는 그 해석이 절반밖에 맞지 않는다고 봅니다. 도파민이 실제로 하는 일은 강화학습(reinforcement learning)에 가깝습니다. 여기서 강화학습이란 시행착오를 통해 어떤 행동이 보상을 가져오는지 학습하고, 그 행동을 더 자주 하도록 강화하는 과정을 말합니다. 인공지능 분야에서 먼저 익숙해진 개념이지만, 사실 이 이론은 동물과 인간의 뇌에서 먼저 발견된 원리입니다.

제가 가장 인상적으로 받아들인 부분은 도파민이 '보상 그 자체'에 반응하는 것이 아니라 '예상보다 더 큰 보상'이 주어졌을 때 폭발적으로 반응한다는 점이었습니다. 제가 연애 프로그램이나 게임에 빠져들었던 경험을 돌아보면, 결과를 예측할 수 없었을 때가 가장 강렬했습니다. 결말이 훤히 보이는 콘텐츠보다 예상을 벗어나는 전개가 나올 때 더 몰입했던 이유가 여기 있었습니다.

이 원리를 이해하면 왜 같은 자극이 반복될수록 재미가 줄어드는지도 설명됩니다. 예측 정확도가 높아질수록 도파민 반응은 줄어듭니다. 이것이 보상예측오차(reward prediction error) 개념입니다. 보상예측오차란 내가 기대했던 보상과 실제로 받은 보상 사이의 차이를 말하며, 이 차이가 클수록 도파민이 더 많이 분비됩니다.

도파민이 주로 작용하는 곳은 뇌의 줄무늬체(striatum)와 전전두엽(prefrontal cortex)입니다. 줄무늬체는 탐색, 동기 부여, 습관 형성에 관여하고, 전전두엽은 주의 집중과 작업 기억을 담당합니다. 도파민 농도가 적정 수준일 때는 집중력이 높아지지만, 농도가 지나치게 높아지면 오히려 과도하게 넓은 정보를 처리하려다 산만해지는 상태가 됩니다.

도파민의 역할을 정리하면 다음과 같습니다.

보상예측오차를 계산해 행동을 강화하거나 수정한다
새로운 환경에서 탐색 행동을 촉진한다
동기를 부여하고 목표 지향 행동을 지속하게 만든다
전전두엽을 통해 주의 집중과 작업 기억을 조절한다
줄무늬체를 통해 습관 형성에 관여한다

도파민 신경 세포가 대규모로 손상되면 파킨슨병(Parkinson's disease)이 발생합니다. 놀라운 것은 전체 도파민 신경 세포의 약 85% 이상이 손상되어야 비로소 운동 증상이 나타난다는 점입니다. 그만큼 도파민 시스템은 여유 용량이 크고, 뇌가 스스로 보상하는 능력도 상당하다는 뜻입니다. 파킨슨병 치료에는 도파민 자체가 아닌 그 전구물질인 엘도파(L-DOPA)를 투여합니다. 도파민은 혈뇌 장벽을 넘지 못하지만 엘도파는 넘을 수 있기 때문입니다. 뇌 안에서 엘도파가 도파민으로 전환되어 부족한 도파민을 보충하는 방식입니다(출처: 대한신경과학회).

도파민 시스템의 진화적 기원도 생각할 부분이 있습니다. 식물에도, 박테리아에도 도파민이 존재한다는 사실은 이 물질이 얼마나 오래된 생물학적 기제인지 보여줍니다. DNA가 세상의 모든 정보를 담아낼 수 없기 때문에, 경험을 통해 학습하고 행동을 수정할 수 있는 능력 자체를 코딩한 것이 도파민 시스템이라고 볼 수 있습니다.

현대 사회에서 짧고 강한 자극이 끊임없이 반복되는 환경은 도파민 시스템에 실질적인 영향을 줄 수 있습니다. 다만 이것을 단순히 개인의 의지 문제로 돌리는 것은 무리가 있다고 생각합니다. 수용체 발현이 환경에 따라 변하는 것은 뇌의 가소성(plasticity) 때문입니다. 뇌의 가소성이란 경험과 환경의 영향을 받아 뇌 구조와 기능이 유연하게 변해가는 특성을 말합니다. 이 가소성은 나이가 들어도 사라지지 않습니다. 결국 도파민 시스템을 어떻게 활용하느냐, 어떤 환경에 자신을 놓느냐가 장기적인 뇌의 방향을 결정합니다.

도파민에 대해 제대로 이해하고 나니, 앞으로는 단기적인 자극보다 학습과 성취처럼 예측 불가능한 만족감을 줄 수 있는 활동에 더 의도적으로 시간을 쓰게 됩니다. 도파민은 통제하거나 두려워할 대상이 아니라, 원리를 알면 삶의 방향을 조율하는 데 활용할 수 있는 내부 신호입니다. 이 글은 개인적인 경험과 의견을 공유한 것이며, 전문적인 의료 조언이 아닙니다.

참고: 우리는 도파민에 대해 완전히 잘못 알고 있다? 그 오해와 진실 (feat. 송민령 박사) [취미는 과학/ 30화 확장판] :

https://www.youtube.com/watch?v=DPBJ1PWo9WM

하일

도파민의 진실 (강화학습, 신경조절물질, 보상회로)

도파민은 호르몬이 아니라 신경조절물질이다

도파민이 실제로 하는 일, 강화학습과 보상회로

티스토리툴바

티스토리툴바