Tech Issue

Google의 Gemini 서비스 공개

iksadnorth 2023. 12. 9. 17:05

👣 Reference

 

Gemini - 나무위키

이 저작물은 CC BY-NC-SA 2.0 KR에 따라 이용할 수 있습니다. (단, 라이선스가 명시된 일부 문서 및 삽화 제외) 기여하신 문서의 저작권은 각 기여자에게 있으며, 각 기여자는 기여하신 부분의 저작권

namu.wiki

 

 

구글 제미나이(Gemini)! 너 잼민이 아냐? | Smilegate.AI

오늘 소개할 기술은 구글의 제미나이입니다. 제미나이는 구글에서 LLM의 최고는 누구인가, 어떤 모달리티까지 커버할 수 있는가, 요즘 핫한 on-device AI까지 다 먹어버리겠다고 나온 모델입니다.

smilegate.ai

 

👣 개요

구글과 딥마인드가 개발한 멀티모달 인공지능.
여기서 멀티모달이란 기존에 텍스트로만 소통할 수 있던 ChatGPT, Bard와는 달리
오디오, 이미지, 비디오와 같은 다양한 미디어 파일을 입력으로 사용할 수 있는 방식을 일컫는다.

파라미터의 갯수는 GPT-4를 뛰어넘는다고 발표했으며, GPT-4와 비슷한 수준의 성능을 낸다고 한다.

구글 CEO인 순다르 피차이는 Gemini Ultra는 구글 최신 거대 언어모델인
'PaLM2' 보다 더 정확한 응답을 생성할 수 있다고 밝혔다.

다만, 가끔 발생하는 '환각 현상'으로 인해 옳바르지 못한 대답을 내놓는 경우가 있기 때문에
2024년 초에 출시될 예정이다.

 

👣 아키텍처

Gemini 모델은 자연스런 이미지, 차트, 스크린샷, PDF, 동영상 등 다양한 오디오 및 시각적 입력과 텍스트 입력을 interleaving하여 텍스트 및 이미지 출력을 생성할 수 있도록 학습되어 있다.

또한 Universal Speech Model(USM) feature로부터 16kHz의 음성 신호를 직접적으로 수집할 수 있다고 함.
이는 늬앙스 정보를 모델이 잡아낼 수 있음을 시사함.

모델 아키텍처, 학습 데이터셋에 대해서는 구체적으로 밝히지 않고 있다.

 

👣 적용 예시

제미나이에 관한 Google 연구팀의 논문인
Gemini : A Family of Highly Capable Multimodal Models
에 의하면 아래와 같은 적용 예시가 있었다고 한다.

짤방 해석
사진 위치 특정
이미지로 된 문제 풀이

'Tech Issue' 카테고리의 다른 글

실시간 영상 스트리밍 서비스인 Twitch 한국 철수  (0) 2023.12.09