LLM > LMM (GPT-4V) 대형멀티모달

#lmm #gpt4v #llm #ision

GPT-4V(ision) 다중 모드 모델

입력(텍스트 및 이미지)의 다양한 "양식"을 수용하고 해당 입력을 기반으로 결과를 반환할 수 있음을 의미

GPT-4V는 9월 24일부터 출시 OpenAI ChatGPT iOS 앱과 웹 인터페이스 모두에서 사용가능

도구를 사용하려면 GPT-4 구독

테스트

시각적 질문 답변
광학 문자 인식(OCR)
수학 OCR
객체 감지
보안 문자

제한및안전

이미지에 텍스트나 문자가 누락되었습니다.
누락된 수학 기호
공간적 위치와 색상을 인식하지 못함

비전

GPT-4V는 기계 학습 및 자연어 처리 분야에서 주목할만한 움직임입니다. GPT-4V를 사용하면 자연어로 이미지에 대해 질문하고 후속 질문을 할 수 있으며 모델은 질문을 시도합니다.

GPT-4V는 다양한 일반 이미지 질문에서 좋은 성적을 거두었으며 테스트한 일부 이미지에서 상황에 대한 인식을 보여주었습니다. 예를 들어, GPT-4V는 영화가 무엇인지 텍스트로 알려주지 않고도 이미지에 등장하는 영화에 대한 질문에 성공적으로 답할 수 있었습니다.

일반적인 질문 답변의 경우 GPT-4V가 매우 흥미롭습니다. 과거에는 이러한 목적을 위해 모델이 존재했지만 답변이 유창하지 못한 경우가 많았습니다. GPT-4V는 이미지에 대한 질문에 답변하고 후속 질문을 심층적으로 수행할 수 있습니다.

GPT-4V를 사용하면 2단계 프로세스를 만들지 않고도 이미지에 대해 질문할 수 있습니다(즉, 분류한 다음 그 결과를 사용하여 GPT와 같은 언어 모델에 질문하는 것). GPT-4V가 이해할 수 있는 것에는 제한이 있을 수 있으므로 모델의 성능을 이해하기 위해 사용 사례를 테스트하는 것이 중요합니다.

하지만 GPT-4V에는 한계가 있습니다. 모델이 "환각"을 하여 부정확한 정보를 반환했습니다. 이는 질문에 답하기 위해 언어 모델을 사용할 때 위험합니다. 게다가 모델은 객체 감지를 위한 경계 상자를 정확하게 반환할 수 없었으며 이는 현재 이 사용 사례에 적합하지 않음을 나타냅니다.

우리는 또한 GPT-4V가 사람에 관한 질문에 대답할 수 없다는 사실도 관찰했습니다. 테일러 스위프트의 사진을 제시하고 사진 속 인물이 누구인지 묻자 모델은 답변을 거부했다. OpenAI는 이를 게시된 시스템 카드에서 예상되는 동작으로 정의합니다.

DEV Community

LLM > LMM (GPT-4V) 대형멀티모달

GPT-4V(ision) 다중 모드 모델

테스트

제한및안전

비전

Top comments (0)

Read next

Build Your Own AI Language Model with Python and NumPy

Building an AI-Powered Equation Solver with GPT-4o, AutoGen.Net and StepWise

Exploring parallelism in Large Language Models (LLMs)

Build an AI Agent in a Next.js app using Web AI Framework