대규모 언어 모델은 사람이 아닙니다. 마치 그런 것처럼 테스트하는 것을 중단합시다.

이 기술이 날뛰는 것에 대한 희망과 두려움이 있는 가운데, 이제 이 기술이 할 수 있는 것과 할 수 없는 것에 동의해야 할 때입니다.

Taylor Webb은 2022년 초 GPT-3을 가지고 놀았을 때 OpenAI의 대규모 언어 모델이 무엇을 할 수 있는지 보고 깜짝 놀랐습니다. 여기에 텍스트 블록의 다음 단어(점프업 자동 완성)를 예측하도록 훈련된 신경망이 있습니다. 그럼에도 불구하고 Webb이 설정한 많은 추상적인 문제, 즉 IQ 테스트에서 찾을 수 있는 문제에 대한 올바른 답을 제공했습니다. "저는 이러한 문제를 해결하는 능력에 정말 충격을 받았습니다."라고 그는 말합니다. “내가 예상했던 모든 것이 완전히 뒤집어졌습니다.”

Webb은 캘리포니아 대학교 로스앤젤레스 캠퍼스의 심리학자로서 사람과 컴퓨터가 추상적인 문제를 해결하는 다양한 방식을 연구합니다. 그는 특정 추론 기능이 추가된 신경망을 구축하는 데 익숙했습니다. 하지만 GPT-3는 무료로 배운 것 같았습니다.

문화 현상의 무대 뒤에서 우리를 안내하는 독점적인 대화입니다.

지난 달 Webb과 그의 동료들은 Nature에 기사를 게재했습니다. 이 기사에서는 문제 해결을 위한 유추 사용(유추 추론이라고도 함)을 평가하기 위해 고안된 다양한 테스트를 통과하는 GPT-3의 능력을 설명합니다. 일부 테스트에서는 GPT-3가 학부생 그룹보다 더 나은 점수를 받았습니다. Webb은 “유추는 인간 추론의 핵심입니다.”라고 말합니다. "우리는 이것이 모든 종류의 기계 지능이 입증해야 할 주요 사항 중 하나라고 생각합니다."

Webb의 연구에서 강조하는 것은 대규모 언어 모델을 통해 뽑아낸 일련의 놀라운 기술 중 가장 최근에 나온 것입니다. 예를 들어, OpenAI가 지난 3월 GPT-3의 후속 제품인 GPT-4를 공개했을 때 회사는 수십 개의 고등학교 시험을 포함하여 새로운 대규모 언어 모델이 좋은 결과를 얻었다고 주장하는 전문적이고 학술적인 평가의 눈에 띄는 목록을 발표했습니다. 그리고 변호사 시험. OpenAI는 나중에 Microsoft와 협력하여 GPT-4가 미국 의료 면허 시험의 일부를 통과할 수 있음을 보여주었습니다.

그리고 여러 연구자들은 대규모 언어 모델이 사고 연쇄 추론(단계적으로 문제를 해결하는 방식)부터 마음 이론(다른 사람이 생각하는 것을 추측하는 방식)에 이르기까지 인간의 특정 인지 능력을 식별하기 위해 고안된 테스트를 통과할 수 있음을 보여주었다고 주장합니다. ).

이러한 종류의 결과는 이러한 기계가 곧 사무직 일자리에 등장하여 교사, 의사, 언론인 및 변호사를 대체할 것이라고 예측하는 과대광고 기계를 키우고 있습니다. Geoffrey Hinton은 이제 자신이 개발하는 데 도움을 준 기술이 두려운 이유 중 하나로 생각을 하나로 묶는 GPT-4의 명백한 능력을 지적했습니다.

그러나 문제가 있습니다. 그 결과가 실제로 무엇을 의미하는지에 대한 합의가 거의 없습니다. 어떤 사람들은 인간과 같은 지능의 희미한 빛으로 보는 것에 현혹됩니다. 다른 사람들은 조금도 확신하지 못합니다.

이스라엘 라마트 간(Ramat Gan)에 있는 바르일란 대학교(Bar-Ilan University)의 컴퓨터 과학자인 나탈리 샤피라(Natalie Shapira)는 “현재의 대규모 언어 모델 평가 기술에는 몇 가지 중요한 문제가 있습니다. "그것은 그들이 실제로 존재하는 것보다 더 큰 능력을 가지고 있다는 환상을 만듭니다."

이것이 바로 점점 더 많은 연구자(컴퓨터 과학자, 인지 과학자, 신경과학자, 언어학자)가 평가 방식을 점검하고 보다 엄격하고 철저한 평가를 요구하는 이유입니다. 어떤 사람들은 인간 테스트에서 기계로 채점하는 관행이 잘못된 것이며, 폐기되어야 한다고 생각합니다.

뉴멕시코주 산타페 연구소의 인공지능 연구원인 멜라니 미첼은 “사람들은 AI가 시작된 이래로 인간 지능 테스트(IQ 테스트 등)를 기계에 적용해 왔습니다.”라고 말합니다. “전체적으로 문제는 이와 같은 기계를 테스트할 때의 의미였습니다. 그것은 인간에게 의미하는 것과 같은 것을 의미하지 않습니다.”

“의인화 작업이 많이 진행되고 있습니다.”라고 그녀는 말합니다. "그리고 그것은 우리가 이러한 시스템에 대해 생각하는 방식과 테스트 방법을 색칠하는 것과 같습니다."

이 기술에 대한 희망과 두려움이 사상 최고 수준에 달하는 가운데 대규모 언어 모델이 할 수 있는 것과 할 수 없는 것을 확실히 파악하는 것이 중요합니다.