GPT-4V(ision) 다중 모드 모델
입력(텍스트 및 이미지)의 다양한 "양식"을 수용하고 해당 입력을 기반으로 결과를 반환할 수 있음을 의미
GPT-4V는 9월 24일부터 출시 OpenAI ChatGPT iOS 앱과 웹 인터페이스 모두에서 사용가능
도구를 사용하려면 GPT-4 구독
테스트
- 시각적 질문 답변
- 광학 문자 인식(OCR)
- 수학 OCR
- 객체 감지
- 보안 문자
제한및안전
이미지에 텍스트나 문자가 누락되었습니다.
누락된 수학 기호
공간적 위치와 색상을 인식하지 못함
비전
GPT-4V는 기계 학습 및 자연어 처리 분야에서 주목할만한 움직임입니다. GPT-4V를 사용하면 자연어로 이미지에 대해 질문하고 후속 질문을 할 수 있으며 모델은 질문을 시도합니다.
GPT-4V는 다양한 일반 이미지 질문에서 좋은 성적을 거두었으며 테스트한 일부 이미지에서 상황에 대한 인식을 보여주었습니다. 예를 들어, GPT-4V는 영화가 무엇인지 텍스트로 알려주지 않고도 이미지에 등장하는 영화에 대한 질문에 성공적으로 답할 수 있었습니다.
일반적인 질문 답변의 경우 GPT-4V가 매우 흥미롭습니다. 과거에는 이러한 목적을 위해 모델이 존재했지만 답변이 유창하지 못한 경우가 많았습니다. GPT-4V는 이미지에 대한 질문에 답변하고 후속 질문을 심층적으로 수행할 수 있습니다.
GPT-4V를 사용하면 2단계 프로세스를 만들지 않고도 이미지에 대해 질문할 수 있습니다(즉, 분류한 다음 그 결과를 사용하여 GPT와 같은 언어 모델에 질문하는 것). GPT-4V가 이해할 수 있는 것에는 제한이 있을 수 있으므로 모델의 성능을 이해하기 위해 사용 사례를 테스트하는 것이 중요합니다.
하지만 GPT-4V에는 한계가 있습니다. 모델이 "환각"을 하여 부정확한 정보를 반환했습니다. 이는 질문에 답하기 위해 언어 모델을 사용할 때 위험합니다. 게다가 모델은 객체 감지를 위한 경계 상자를 정확하게 반환할 수 없었으며 이는 현재 이 사용 사례에 적합하지 않음을 나타냅니다.
우리는 또한 GPT-4V가 사람에 관한 질문에 대답할 수 없다는 사실도 관찰했습니다. 테일러 스위프트의 사진을 제시하고 사진 속 인물이 누구인지 묻자 모델은 답변을 거부했다. OpenAI는 이를 게시된 시스템 카드에서 예상되는 동작으로 정의합니다.
Top comments (0)