어려운 문제에 대한 퀴즈를 풀 때 AI가 실수를 하는 것을 발견한 Boffins • The Register

CChatGPT8
3 Min Read

[ad_1]

AI 모델은 텍스트나 이미지가 표시될 때 충분히 잘 관리할 수 있으며 심각한 오류가 발생하지 않으면 복잡한 문제를 해결할 수도 있습니다.

예를 들어 OpenAI는 자사의 GPT-4 모델이 SAT 수학 시험에서 800점 만점에 700점을 획득했다고 밝혔습니다. 그러나 그러한 주장이 모두 입증된 것은 아닙니다. GPT-4가 MIT에서 컴퓨터 과학 학위를 취득할 수 있다고 말한 6월에 발표된 논문은 이후 철회되었습니다.

따라서 텍스트 입력을 해석하는 대규모 언어 모델과 텍스트, 이미지 및 기타 입력 형식을 해석하는 대규모 다중 모드 모델이 실제로 문제 해결을 처리하는 방법을 더 잘 평가하기 위해 로스앤젤레스 캘리포니아 대학의 10명의 연구원 그룹은 워싱턴 대학과 Microsoft Research는 시각적 중심 과제에 초점을 맞춘 MathVista라는 테스트 벤치마크를 고안했습니다.

Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh Hajishirzi, Hao Cheng, Kai-Wei Chang은 “시각적 맥락에서 수학적 추론을 수행하는 이러한 기초 모델의 능력은 체계적으로 조사되지 않았습니다”라고 말합니다. , Michel Galley 및 Jianfeng Gao, 사전 인쇄 논문 [PDF].

따라서 시각적 구성 요소를 사용하여 수학적 추론의 개발을 돕고 추론 작업에서 다양한 모델을 비교하는 방법을 평가하기 위한 새로운 벤치마크를 개발하는 것이 필수적이라고 그들은 말합니다.

AI 모델이 시각적 문제를 올바르게 해결할 수 있음을 보여줄 수 있으면 사고 피해자 위에 멈추지 않고 자동차를 운전하는 소프트웨어를 신뢰하는 것이 현명한지 여부를 결정하는 데 도움이 될 수 있습니다.

MathVista는 28개의 다중 모드 데이터 세트와 IQTest, FunctionQA 및 PaperQA라는 3개의 새로운 데이터 세트에서 개발된 6,141개의 예제를 통합합니다. 다양한 형태의 추론(대수학, 산수학, 기하학, 논리학, 수치학, 과학 및 통계학)을 다루며, 도형 질문 답변, 기하학 문제 해결, 수학 단어 문제, 교과서 질문 및 시각적 질문에 중점을 둡니다.

MathVista 챌린지 질문 스크린샷

MathVista 챌린지 질문 스크린샷 – 확대하려면 클릭하세요.

연구원들은 3개의 LLM(ChatGPT, GPT-4 및 Claude-2), 2개의 독점 LMM(GPT4V 및 Bard), 7개의 오픈 소스 LMM 등 12개의 기본 모델을 테스트했습니다. 그들은 또한 Amazon Mechanical Turkers를 통해 최소한 고등학교 학위가 있는 사람의 답변과 무작위 응답을 고려했습니다.

AI 실무자에게 좋은 소식은 LLM과 LMM이 모두 무작위 확률보다 더 나은 결과를 얻었다는 것입니다. 이는 많은 질문이 예 또는 아니오가 아닌 객관식이었다는 점을 고려하면 그다지 놀라운 것은 아닙니다.

실제로 최고의 성능을 발휘하는 OpenAI의 GPT-4V는 대수적 추론과 관련된 질문과 테이블 및 함수 플롯과 관련된 복잡한 시각적 과제와 같은 특정 영역에서 인간의 성능을 능가했습니다.

우리는 이 프로젝트에 연구원들이 기여한 Microsoft가 OpenAI에 상당한 지분을 갖고 있다는 점에 주목합니다.

덜 좋은 소식은 GPT-4V조차도 문제의 정답률이 49.9%에 불과하다는 것입니다. 34.8%의 정확도를 관리하는 최고의 다중 모드 Bard를 목표로 한다면 이는 적절합니다.

하지만 테스트를 거쳐 60.3%의 점수를 받은 Amazon Mechanical Turk 작업자에게는 여전히 부끄러운 일입니다. 연구원들이 논문에서 관찰한 바와 같이, “인간 기준과 비교할 때 전체 정확도의 10.4% 차이가 남아 있어 모델 개선의 여지가 많이 남아 있습니다.” ®

Share this Article
Leave a comment

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다