👣 Reference
👣 개요
구글과 딥마인드가 개발한 멀티모달 인공지능.
여기서 멀티모달이란 기존에 텍스트로만 소통할 수 있던 ChatGPT, Bard와는 달리
오디오, 이미지, 비디오와 같은 다양한 미디어 파일을 입력으로 사용할 수 있는 방식을 일컫는다.
파라미터의 갯수는 GPT-4를 뛰어넘는다고 발표했으며, GPT-4와 비슷한 수준의 성능을 낸다고 한다.
구글 CEO인 순다르 피차이는 Gemini Ultra는 구글 최신 거대 언어모델인
'PaLM2' 보다 더 정확한 응답을 생성할 수 있다고 밝혔다.
다만, 가끔 발생하는 '환각 현상'으로 인해 옳바르지 못한 대답을 내놓는 경우가 있기 때문에
2024년 초에 출시될 예정이다.
👣 아키텍처
Gemini 모델은 자연스런 이미지, 차트, 스크린샷, PDF, 동영상 등 다양한 오디오 및 시각적 입력과 텍스트 입력을 interleaving하여 텍스트 및 이미지 출력을 생성할 수 있도록 학습되어 있다.
또한 Universal Speech Model(USM) feature로부터 16kHz의 음성 신호를 직접적으로 수집할 수 있다고 함.
이는 늬앙스 정보를 모델이 잡아낼 수 있음을 시사함.
모델 아키텍처, 학습 데이터셋에 대해서는 구체적으로 밝히지 않고 있다.
👣 적용 예시
제미나이에 관한 Google 연구팀의 논문인
Gemini : A Family of Highly Capable Multimodal Models
에 의하면 아래와 같은 적용 예시가 있었다고 한다.
'Tech Issue' 카테고리의 다른 글
실시간 영상 스트리밍 서비스인 Twitch 한국 철수 (0) | 2023.12.09 |
---|