본문 바로가기
AI

Google I/O 2025 주요 발표 요약: Gemini 2.5, Veo 3, Imagen 4 등 핵심 AI 기술 총정리

by 더씨이 2025. 5. 21.
반응형

Google I/O. 2025년 행사에서는 그 어느 때보다도 강력하고 실용적인 AI 기술이 대거 공개되었습니다. 특히 Gemini 2.5를 중심으로 한 에이전트 모드, Veo 3와 Imagen 4 같은 미디어 생성 AI, 그리고 실전형 코드 어시스턴트 Jules까지 발표되며, AI 기술이 실생활과 업무 전반에 어떻게 통합될 수 있는지를 명확히 보여주었습니다.

Google I/O 2025에서 발표된 핵심 기술들을 분야별로 정리하여, 앞으로 변화할 디지털 환경을 미리 예측해보는 시간을 가져보겠습니다.

  • 1. 에이전트 모드: Gemini가 직접 실행하는 작업 도우미
  • 2. Veo 3: 오디오까지 포함된 차세대 AI 비디오 생성
  • 3. Jules: 실전형 AI 코드 어시스턴트
  • 4. Flow: 프롬프트 기반 AI 영화 제작 도구
  • 5. 프로젝트 아스트라: 실시간 인터랙티브 비전 AI
  • 6. Imagen 4: 디테일까지 살아있는 AI 이미지 생성기
  • 7. Deep Think & Gemini 2.5의 진화
  • 8. 네이티브 오디오 생성 및 컴퓨터 사용 기능
  • 9. Google Beam: AI로 구현된 3D 화상 통화
  • 10. 핵심 요약

1. 에이전트 모드: Gemini가 직접 실행하는 작업 도우미

Gemini 앱의 **에이전트 모드(Agent Mode)**는 단순한 챗봇을 넘어, 사용자의 계획이나 작업을 실제로 대신 실행하는 능동적 도우미로 발전했습니다. 일정 조율, 이메일 작성, 문서 편집 같은 일상 업무는 물론, 복잡한 멀티태스킹도 스스로 판단하여 처리할 수 있도록 설계되었습니다.

 

특히 앱이나 웹 연동 능력이 개선되면서, 실제 어시스턴트처럼 행동하는 최초의 AI 기능이라는 점에서 주목할 만합니다.

2. Veo 3: 오디오까지 포함된 차세대 AI 비디오 생성

Google Veo 3는 텍스트 프롬프트나 이미지 프롬프트를 기반으로 현실적인 영상을 생성하는 모델로, 이번 버전에서는 오디오 생성 기능까지 포함되었습니다.

 

영상 속 립싱크 정확도, 물리적 움직임의 자연스러움, 조명·카메라 각도 표현까지도 크게 개선되었으며, 초고해상도 시네마틱 영상 제작이 가능해졌습니다. 이는 콘텐츠 크리에이터에게 매우 유용한 AI 도구가 될 전망입니다.

3. Jules: 실전형 AI 코드 어시스턴트

Jules는 기존 AI 코딩 보조도구보다 한 단계 진화한 에이전트형 코드 어시스턴트입니다. 저장소와 직접 연동되어 프로젝트 전반을 이해하고, 필요한 테스트 작성, 기능 추가, 버그 수정까지 스스로 수행할 수 있습니다.

 

특히 대규모 프로젝트에서도 컨텍스트를 파악하고 연관 코드를 참조해주는 기능이 탁월하여, 실무에 바로 활용 가능한 코드 파트너로 기대를 모으고 있습니다.

4. Flow: 프롬프트 기반 AI 영화 제작 도구

Flow는 Google의 AI 기술(Veo, Imagen, Gemini 등)을 결합해 만든 프롬프트 중심의 영화 제작 플랫폼입니다. 사용자가 제공한 간단한 텍스트 프롬프트로 클립을 만들고, 이를 장면 단위로 구성하며, 전체 흐름을 시퀀스화할 수 있습니다.

 

저장, 편집, 재배열 기능도 포함돼 있어, 기존의 스토리보드 작업을 AI가 대체하거나 보조할 수 있는 차세대 영상 제작 툴로 각광받고 있습니다.

5. 프로젝트 아스트라: 실시간 인터랙티브 비전 AI

Project Astra는 실시간 비전 AI 기능으로, 사용자가 카메라를 통해 보고 있는 장면에 대해 실시간으로 질문하거나 요청할 수 있습니다.

 

이제 Android와 iOS에서도 Search Live 기능을 통해 Astra의 기능을 체험할 수 있으며, Gemini 앱과도 통합되어 시각 인식 기반의 AI 인터페이스 시대가 도래했음을 보여줍니다.

6. Imagen 4: 디테일까지 살아있는 AI 이미지 생성기

Imagen 4는 전작 대비 디테일과 해상도에서 큰 진보를 이뤘으며, 사실적인 표현력과 추상적 스타일 모두에서 압도적 품질을 제공합니다.

 

특히 최대 2K 해상도 지원, 정확한 텍스트 삽입 능력, 고급 질감 표현 등으로 디자인, 마케팅, 콘텐츠 제작자들에게 유용한 도구가 될 것입니다.

7. Deep Think & Gemini 2.5의 진화

Gemini 2.5 Pro에 추가된 Deep Think 모드는 병렬 사고 기반으로 복잡한 문제를 해결하는 고급 추론 엔진입니다.

 

기존 모델보다 수학, 논리, 코딩 분야에서 월등한 성능을 보이며, 이를 통해 AI가 단순 지시 수행 단계를 넘어 스스로 사고하고 판단하는 지능의 초기 모습을 보여주고 있습니다.

8. 네이티브 오디오 생성 및 컴퓨터 사용 기능

Gemini 2.5의 또 다른 업그레이드는 AI의 네이티브 오디오 생성 및 사용자의 컴퓨터와 직접 상호작용할 수 있는 기능입니다.

 

이제 Gemini는 문서를 읽고 소리로 요약하거나, 사용자의 기기 내에서 작업을 직접 실행하며 도우미 역할을 수행할 수 있게 됩니다. 이는 데스크탑 AI 인터페이스의 새 시대를 열 수 있는 기능입니다.

9. Google Beam: AI로 구현된 3D 화상 통화

Google Beam은 2D 영상을 AI 기반으로 실시간 3D로 변환해주는 새로운 커뮤니케이션 플랫폼입니다.

 

최대 6개의 카메라와 머신러닝 기술을 활용하여 실제로 옆에 있는 것처럼 느껴지는 화상 통화를 지원하며, HP와 협력한 전용 기기가 올해 말 출시될 예정입니다. 원격 회의의 현실감을 크게 끌어올릴 기술로 기대를 모읍니다.

핵심 요약

Google I/O 2025는 단순한 제품 발표가 아니라, AI를 삶의 도구로 완전 통합하려는 구글의 청사진을 보여주었습니다.

에이전트형 AI, 실시간 비전 인식, 고품질 영상/이미지 생성, 실무형 코드 어시스턴트 등 전방위 AI 혁신을 통해 우리 생활의 모든 측면에서 AI의 존재감이 더욱 커질 것으로 예상됩니다.

반응형

녹색 버튼 파란색 버튼 빨간색 버튼 노란색 버튼