Links Externos
Echos Over Time - Como ultrapassar um dos grandes limites dos modelos de video‑to‑audio
Publicado em 02/03/2026 15:20 em Links Externos
O Echoes Over Time explora como ultrapassar um dos grandes limites dos modelos de video‑to‑audio: a capacidade de gerar áudio de longa duração a partir de vídeo, mesmo quando treinados apenas com clipes curtos.
O projeto apresenta a arquitetura MMHNet, uma rede multimodal hierárquica que melhora significativamente a geração de áudio contextualizado por vídeo, escalando para durações superiores a 5 minutos onde métodos anteriores falham.
Esta abordagem mostra que é possível treinar com segmentos curtos e generalizar para vídeos longos, abrindo portas a aplicações mais realistas em multimédia e design sonoro.
Statics2Dynamics - Para além da transformação estática
Publicado em 02/03/2026 15:15 em Links Externos
O projecto Statics2Dynamics propõe um novo paradigma para image editing que vai além da simples transformação estática de imagens, introduzindo transições físicas previsíveis entre estados para gerar edições que respeitam leis de física como refracção ou deformação realista. Baseia-se num grande conjunto de trajectórias de transição física (PhysicTran38K) e num modelo (PhysicEdit) que combina raciocínio físico guiado por texto-visão com consultas de transição adaptáveis para conduzir um backbone de difusão.
Isto resulta em edições de imagem mais plausíveis e coerentes com o mundo real, superando limitações de métodos que tratam apenas pares de imagens sem dinâmica contínua.
LavaSR - Fast Speech restoration and enhancement
Publicado em 02/03/2026 14:50 em Links Externos
O LavaSR é um modelo de speech enhancement que recupera e melhora rapidamente áudio de baixa qualidade, estendendo a largura de banda (upsampling) até 48 kHz com alta fidelidade e muito maior velocidade do que modelos baseados em difusão. Com apenas ~50 MB e execução até milhares de vezes em tempo real, é ideal para restaurar gravações, melhorar TTS ou chamadas com ruído sem exigir hardware pesado.
Visitar Link
Test-Time Training na reconstrução 3D,
Publicado em 02/03/2026 14:34 em Links Externos
O tttLRM introduz Test-Time Training na reconstrução 3D, permitindo que o modelo se adapte dinamicamente durante a inferência à medida que recebe novas imagens. Em vez de usar apenas representações fixas, comprime múltiplas vistas em pesos adaptativos que capturam a estrutura 3D implícita da cena. O resultado é uma reconstrução mais coerente, escalável e eficiente, com complexidade linear mesmo em contextos longos.
Visitar Link
VecGlypher - Gerador de fontes
Publicado em 01/03/2026 14:44 em Links Externos
O VecGlypher é um modelo de linguagem multimodal que gera glifos vetoriais (contornos SVG editáveis) diretamente a partir de descrições de estilo em texto ou de imagens de referência, sem precisar de passar por rasterização nem vetorização posterior.
Ele produz outlines vetoriais de alta fidelidade num único passo, combinando treino em grande escala com dados tipográficos para dominar geometria e linguagem, facilitando a criação de fontes tipográficas com palavras ou exemplos visuais.
Qwen
Publicado em 24/02/2026 20:02 em Links Externos, Recursos
Qwen, um modelo de linguagem de grande escala desenvolvido pela Alibaba Cloud, integrando a família de produtos Qwen — uma linha avançada de soluções de inteligência artificial criadas para potenciar a produtividade, a criatividade e a inovação em múltiplos setores e idiomas, incluindo o português europeu.
Visitar Link
OpenRouter
Publicado em 19/02/2026 19:28 em Links Externos, Recursos
A Openrouter.ai é uma plataforma que oferece aos desenvolvedores uma API unificada para aceder a centenas de modelos de IA de diferentes fornecedores através de um único ponto de integração, simplificando a gestão de chaves, faturação e comutação de modelos sem mudar o código.
Visitar Link
Gemini 3 - Lyria 3
Publicado em 18/02/2026 17:30 em Links Externos
Apresentando o Lyria 3, o mais recente e avançado modelo de música, disponível na aplicação Gemini a partir de hoje 🙂
Transforme uma ideia, imagem ou vídeo em música em segundos!
Deepseek
Publicado em 26/01/2026 15:28 em Links Externos, Recursos
O DeepSeek é um modelo de linguagem de grande escala focado em raciocínio avançado e eficiência, concebido para resolver problemas complexos em texto, código e tarefas analíticas.
Visitar Link
PI - Um asistente AI muito conversador.. :)
Publicado em 26/01/2026 15:14 em Links Externos, Recursos
Pi é um assistente de inteligência artificial empático e amigável, criado pela Inflection AI para ajudar, conversar e conectar-se com os usuários de forma natural e positiva
Visitar Link
GROQ - Onde o hardware e software fazem diferença..
Publicado em 26/01/2026 15:04 em Links Externos, Recursos
A Groq.com é uma empresa de tecnologia especializada em hardware e software de aceleração para inteligência artificial, focada em oferecer inferência extremamente rápida e eficiente para modelos de aprendizagem automática.
Visitar Link
Gemini — o chatbot baseado nos LLMs da Google
Publicado em 25/01/2026 15:11 em Links Externos, Recursos
O Gemini é o chatbot da Google baseado na família de modelos de linguagem Gemini, concebido para compreender e gerar texto, código e outros tipos de conteúdo de forma multimodal.
Visitar Link