Renascença - Música para sentir, informação para decidir.

ChatGPT já vê, ouve e fala. E vai traduzir podcasts no Spotify

25-09-2023 - 17:28

• João Pedro Quesado

As novas ferramentas de IA, que aproximam o ChatGPT dos assistentes virtuais, não vão estar disponíveis a todos. A OpenAI reconhece que a capacidade de geração de voz traz riscos, e por isso limitou-a ao seu chatbot.

O ChatGPT ganhou novas capacidades. Esta segunda-feira, a empresa responsável pelo famoso software de inteligência artificial anunciou "novas capacidades de voz e imagem" que oferecem "uma interface mais intuitiva" e permitem conversar com o ChatGPT, assim como mostrar o tópico da conversa através de fotos.

"Tire uma foto de um monumento enquanto viaja e tenha uma conversa sobre o que é interessante nele", declara a OpenAI. "Quando está em casa, tire fotos do frigorífico e da despensa para perceber o que é o jantar (e faça mais questões para ter uma receita passo a passo)", acrescenta a empresa, que colabora de perto com a Microsoft.

Com esta atualização, o conhecido chatbot começa a parecer-se mais com assistentes virtuais como a Siri, a Alexa e o Google Assistant - lançados em 2011, 2014 e 2018, respetivamente. Estes serviços estão integrados com os dispositivos, e são frequentemente usados para pesquisas, para marcar despertadores, para reconhecer música e até para tarefas mais complexas, como fazer compras.

Spotify vai começar a traduzir podcasts

A nova capacidade de geração de voz do ChatGPT consegue narrar histórias para adormecer, "resolver discussões à mesa de jantar" e ler, em alta voz, texto escrito na aplicação. E é possível escolher cinco vozes diferentes, criadas em colaboração "com atores de voz profissionais".

Esta nova tecnologia da OpenAI vai ainda servir para o Spotify para começar a traduzir podcasts da língua em que foram produzidos para a língua nativa de cada ouvinte. Mais: a tradução deve igualar o estilo de fala do locutor.

Estes episódios traduzidos vão estar disponíveis para todos os utilizadores do Spotify, mas há poucos para já. Inicialmente, pode-se ouvir, em espanhol, episódios dos podcasts Lex Fridman Podcast, Armchair Expert with Dax Shepard e The Diary of a CEO with Steven Bartlett - seguem-se as traduções em francês e alemão.

Na aplicação, os episódios traduzidos vão estar disponíveis ao ouvir o episódio original. É possível ver todos os episódios que já estão traduzidos na área do género "Traduções de voz".

ChatGPT já consegue perceber imagens

Quanto à capacidade de reconhecer imagens, a OpenAI diz que a ferramenta permite "perceber porque é que o grelhador não funciona" e analisar "um gráfico complexo com dados relacionados com o trabalho". Além disso, é possível selecionar uma parte específica da imagem, utilizando a ferramenta de desenho na aplicação móvel.

A aplicação Google Lens é a mais popular para obter informação sobre imagens, incluindo fazer a tradução de texto presente nas imagens - o que permite perceber placas de direções quando em viagem, por exemplo.

OpenAI reconhece riscos de "atores maliciosos"

Desde o lançamento do ChatGPT, baseado num grande modelo de linguagem, que o chatbot tem sido adaptado por empresas para uma grande variedade de tarefas, desde resumir documentos de grande dimensão a escrever código informático.

Vários especialistas têm alertado para os perigos da capacidade de geração de som e imagem - o que permite criar deepfakes, reforçando o fenómeno da desinformação.

Procurando acalmar esses receios, a OpenAI diz que acredita "em disponibilizar as nossas ferramentas gradualmente", permitindo "fazer melhorias e refinar a mitigação do risco ao longo do tempo". Ao mesmo tempo, a empresa quer "preparar todos para sistemas mais poderosos no futuro".

Reconhecendo "o potencial de atores maliciosos personificarem figuras públicas ou cometer fraude", a empresa responsável pelo ChatGPT vai limitar a nova ferramenta de geração de voz à conversa com o chatbot, assim como à tradução de podcasts do Spotify - para já.

Quanto à ferramenta de reconhecimento de imagens, a OpenAI assegura que testou o modelo com profissionais de cibersegurança. O objetivo foi perceber "o risco em domínios como o extremismo e proficiência científica", e os testes resultaram na alteração de "alguns detalhes chave para o uso responsável".

Por outro lado, o ChatGPT está agora "significativamente" limitado na capacidade de analisar e fazer afirmações diretas sobre pessoas, já que "não é sempre preciso e estes sistemas devem respeitar a privacidade dos indivíduos".

Inicialmente, apenas os utilizadores Plus e Enterprise vão ter acesso às novas ferramentas, já "nas próximas duas semanas". As ferramentas devem chegar depois a outros grupos de utilizadores.