25 set, 2023 - 17:28 • João Pedro Quesado
O ChatGPT ganhou novas capacidades. Esta segunda-feira, a empresa responsável pelo famoso software de inteligência artificial anunciou "novas capacidades de voz e imagem" que oferecem "uma interface mais intuitiva" e permitem conversar com o ChatGPT, assim como mostrar o tópico da conversa através de fotos.
"Tire uma foto de um monumento enquanto viaja e tenha uma conversa sobre o que é interessante nele", declara a OpenAI. "Quando está em casa, tire fotos do frigorífico e da despensa para perceber o que é o jantar (e faça mais questões para ter uma receita passo a passo)", acrescenta a empresa, que colabora de perto com a Microsoft.
Com esta atualização, o conhecido chatbot começa a parecer-se mais com assistentes virtuais como a Siri, a Alexa e o Google Assistant - lançados em 2011, 2014 e 2018, respetivamente. Estes serviços estão integrados com os dispositivos, e são frequentemente usados para pesquisas, para marcar despertadores, para reconhecer música e até para tarefas mais complexas, como fazer compras.
A nova capacidade de geração de voz do ChatGPT consegue narrar histórias para adormecer, "resolver discussões à mesa de jantar" e ler, em alta voz, texto escrito na aplicação. E é possível escolher cinco vozes diferentes, criadas em colaboração "com atores de voz profissionais".
Esta nova tecnologia da OpenAI vai ainda servir para o Spotify para começar a traduzir podcasts da língua em que foram produzidos para a língua nativa de cada ouvinte. Mais: a tradução deve igualar o estilo de fala do locutor.
Estes episódios traduzidos vão estar disponíveis para todos os utilizadores do Spotify, mas há poucos para já. Inicialmente, pode-se ouvir, em espanhol, episódios dos podcasts Lex Fridman Podcast, Armchair Expert with Dax Shepard e The Diary of a CEO with Steven Bartlett - seguem-se as traduções em francês e alemão.
Na aplicação, os episódios traduzidos vão estar disponíveis ao ouvir o episódio original. É possível ver todos os episódios que já estão traduzidos na área do género "Traduções de voz".
Quanto à capacidade de reconhecer imagens, a OpenAI diz que a ferramenta permite "perceber porque é que o grelhador não funciona" e analisar "um gráfico complexo com dados relacionados com o trabalho". Além disso, é possível selecionar uma parte específica da imagem, utilizando a ferramenta de desenho na aplicação móvel.
A aplicação Google Lens é a mais popular para obter informação sobre imagens, incluindo fazer a tradução de texto presente nas imagens - o que permite perceber placas de direções quando em viagem, por exemplo.
Desde o lançamento do ChatGPT, baseado num grande modelo de linguagem, que o chatbot tem sido adaptado por empresas para uma grande variedade de tarefas, desde resumir documentos de grande dimensão a escrever código informático.
Vários especialistas têm alertado para os perigos da capacidade de geração de som e imagem - o que permite criar deepfakes, reforçando o fenómeno da desinformação.
Procurando acalmar esses receios, a OpenAI diz que acredita "em disponibilizar as nossas ferramentas gradualmente", permitindo "fazer melhorias e refinar a mitigação do risco ao longo do tempo". Ao mesmo tempo, a empresa quer "preparar todos para sistemas mais poderosos no futuro".
Reconhecendo "o potencial de atores maliciosos personificarem figuras públicas ou cometer fraude", a empresa responsável pelo ChatGPT vai limitar a nova ferramenta de geração de voz à conversa com o chatbot, assim como à tradução de podcasts do Spotify - para já.
Quanto à ferramenta de reconhecimento de imagens, a OpenAI assegura que testou o modelo com profissionais de cibersegurança. O objetivo foi perceber "o risco em domínios como o extremismo e proficiência científica", e os testes resultaram na alteração de "alguns detalhes chave para o uso responsável".
Por outro lado, o ChatGPT está agora "significativamente" limitado na capacidade de analisar e fazer afirmações diretas sobre pessoas, já que "não é sempre preciso e estes sistemas devem respeitar a privacidade dos indivíduos".
Inicialmente, apenas os utilizadores Plus e Enterprise vão ter acesso às novas ferramentas, já "nas próximas duas semanas". As ferramentas devem chegar depois a outros grupos de utilizadores.