OpenAI

오픈AI의 챗GPT 진화 음성과 이미지, 다중 모달 기능 추가

openaichat 2023. 9. 27. 21:34
반응형

오픈AI는 2023년 9월 25일 현지시간, 그들의 챗GPT에 화제를 모을 새로운 업그레이드를 공개했습니다. 이제 챗GPT는 사용자와 음성으로 대화하며 이미지를 인식하고 질문에 답할 수 있게 되었습니다. 이러한 멀티 모달 기능은 유료 서비스인 '챗GPT 플러스'와 '챗GPT 엔터프라이즈' 사용자에게 제공되며, 2주 동안 순차적으로 배포될 예정입니다.

듣고 말하는 기능: 음성 대화의 새로운 시대


이제 챗GPT와 실시간 음성 대화가 가능합니다. 사용자는 더 이상 텍스트 프롬프트를 입력하고 텍스트 답변을 기다릴 필요가 없습니다. 대신, 말로 질문하면 챗GPT가 이를 텍스트로 변환하고, 이에 대한 답변을 다시 음성으로 변환하여 제공합니다. 이 음성 기능은 오픈소스 음성 인식 AI인 '위스퍼(Whisper)'를 활용하여 음성을 텍스트로 변환하고, 새로운 텍스트-음성 변환 모델을 사용하여 생성된 문자 답변을 사람의 음성으로 변환합니다. 사용자는 여러 목소리 중에서 선택하여 원하는 목소리를 설정할 수 있습니다.

이미지를 보고 답하는 기능: 시각적 정보의 활용


또한, 사용자가 이미지를 업로드하고, 그 이미지를 토대로 질문하면 챗GPT가 이미지를 분석하고 답변을 제공합니다. 자전거 수리 방법을 알고 싶다면 자전거 사진을 올리고 질문하면 됩니다. 또한 냉장고 사진을 찍어 메뉴 추천을 요청하거나, 복잡한 데이터 그래프를 분석해 달라고 할 수 있습니다. 수학 문제의 경우, 문제 전체를 사진으로 찍어 올리면 챗GPT가 사진을 인식하고 풀이 과정을 설명해 줄 수 있습니다.

멀티모달 AI의 미래


이번 업그레이드로 오픈AI는 멀티모달 AI의 가능성을 더욱 확장했습니다. 이는 기존의 음성 비서와 다릅니다. 챗GPT는 다양한 정보 유형을 통합하여 사용자에게 더 풍부하고 유용한 경험을 제공합니다.

오픈AI가 이번 멀티모달 기능 출시로 구글과의 경쟁에 나선 것으로 분석되며, 구글이 개발 중인 차세대 언어 모델 '제미니(Gemini)'가 멀티모달 기능에 중점을 두고 있다는 소식이 있습니다. 이로 인해 인공지능 분야에서의 경쟁은 더욱 치열해질 것으로 보입니다.

음성 번역 협력과 수익화


또한, 오픈AI는 스포티파이와 협력하여 목소리를 유지한 채로 다른 언어로 번역하는 방안을 검토하고 있습니다. 이로써 사용자는 오디오 AI 챗봇과 텍스트와 음성을 통해 자연스러운 대화를 나눌 수 있게 될 것입니다.

오픈AI는 최근에 수익화에 집중하고 있으며, 그들의 최신 멀티모달 AI 기능은 이러한 노력의 일환입니다.

마무리


이와 같이 오픈AI의 챗GPT는 음성과 이미지를 통합한 새로운 경험을 사용자에게 제공하며, 인공지능의 미래를 열어나가고 있습니다.

반응형