Acabei de sair da live de apresentação da OpenAI Spring Update. Muitas novidades a caminho. Vem conhecer comigo!
Acessibilidade:
ChatGPT para Desktop: Uma versão desktop do ChatGPT foi lançada, simplificando o uso e integrando-o ao fluxo de trabalho do usuário.
GPT-4o(letra o mês não zero) para todos: O novo modelo principal, GPT-4o, traz a inteligência do GPT-4 para todos os usuários, incluindo os gratuitos.
Interface de Usuário Aprimorada: A interface do ChatGPT foi atualizada para uma experiência mais natural e intuitiva, com foco na colaboração.
Capacidades do GPT-4o:
Multimodalidade: O GPT4o opera de forma nativa com voz, texto e imagens, tornando a interação mais natural e eficiente.
Eficiência: GPT-4o é mais rápido e 50% mais barato que o GPT-4 Turbo, com limites de capacidade 5 vezes maiores para usuários pagos.
Recursos Avançados para Usuários Gratuitos: A eficiência do GPT-4o permite que recursos avançados, como GPT Store, visão, memória, navegação e análise de dados, estejam disponíveis para todos.
Melhorias em Idiomas: A qualidade e velocidade do ChatGPT foram aprimoradas em 50 idiomas.
Segurança:A OpenAI está ciente dos desafios de segurança relacionados ao uso de áudio e vídeo em tempo real e está trabalhando em medidas para mitigar o uso indevido.
A colaboração com governos, mídia, empresas e sociedade civil continua paragarantir o uso responsável da tecnologia.
Demonstrações:
Foram realizadas demonstrações ao vivo das capacidades de voz e visão do GPT-4o, incluindo:
Tradução em tempo real.
- Reconhecimento de emoções em fotos.
- Interação com código e análise de gráficos.
Detalhes dos recursos de voz e visão demonstrados no OpenAI Spring Update:
Voz:
- Conversação em tempo real: O GPT-4o pode se comunicar por voz em tempo real, respondendo instantaneamente à fala do usuário, sem necessidade de esperar pela conclusão da frase.
Interrupção: O usuário pode interromper a fala do modelo a qualquer momento, assim como em uma conversa natural.
Detecção de emoções: O modelo consegue perceber a emoção na voz do usuário, como no exemplo da respiração acelerada de Mark, e adaptar sua resposta.- Geração de voz com diferentes estilos: O GPT-4o pode gerar falas com diferentes estilos, como robótica, dramática e musical.
- Tradução em tempo real: O modelo traduziu instantaneamente frases entre italiano e inglês, demonstrando capacidade de tradução em tempo real.
Visão:
- Análise de imagens: O modelo pode analisar imagens fornecidas pelo usuário, identificando objetos e descrevendo a cena
- Interação com código e gráficos: O GPT-4o pode “ler” código e gráficos, descrevendo suas funções e respondendo perguntas sobre os dados apresentados.
- Reconhecimento de emoções em fotos: O modelo conseguiu reconhecer a emoção expressa na foto de Barrett (felicidade).
Em suma, as demonstrações mostraram como a multimodalidade do GPT-4o permite uma interação mais rica e natural com a IA, abrindo portas para aplicações inovadoras em diversas áreas.
Próximos passos: as novas funcionalidades serão disponibilizadas para todos os usuários nas próximas semanas.