Suno v4.5+ 上线:人声替换与伴奏生成功能升级
Suno 推出 AI 音乐生成模型 v4.5+ 版本。新增 Add Vocals 功能,用户上传伴奏输入歌词替换原唱音轨;Add Instrumentals 功能上传人声生成伴奏;Inspire 功能分析播放列表创作新歌。简化音乐创作流程,...
Suno 推出 AI 音乐生成模型 v4.5+ 版本。新增 Add Vocals 功能,用户上传伴奏输入歌词替换原唱音轨;Add Instrumentals 功能上传人声生成伴奏;Inspire 功能分析播放列表创作新歌。简化音乐创作流程,...
Lightricks 推出开源视频生成模型 LTX-Video 13B。该模型应用多尺度渲染技术,快速构建低分辨率框架再细化细节,生成速度提升 30 倍,支持 RTX 4090 消费级 GPU 运行。开发者输入文本提示控制动作和场景,实现视...
OpenAI 为 ChatGPT Plus 用户推出 Mac 版录音功能。用户点击应用聊天窗口的录音按钮,可录制麦克风和系统音频长达 120 分钟。音频自动上传至服务器,生成详细转录文本,包括完整对话、关键点总结和行动项清单。原始音频转录后...
PixVerse(拍我 AI)在首尾帧模块中新增「多关键帧生成」功能,标志着 AI 视频创作迈入故事性表达的新阶段。用户可通过上传最多 7 张图片作为关键帧,AI 自动解析帧间语义关系,构建流畅的动作与场景转换路径,适用于短剧分镜、产品演示...
IndexTTS 推出轻量实时文本转语音模型。支持英语和中文,它用了先进的自回归架构,结合了文本到语义、语义到梅尔频谱、声码器这些核心模块,还跟大语言模型深度融合,生成的语音自然又稳定。开源代码登陆 GitHub。运行快速推理,提升生成效率...
月之暗面推出的 Kimi K2 大语言模型在参数规模和智能体能力上表现出色,采用混合专家架构并拥有强大的自主调用工具和执行代码能力,同时通过开源策略推动了多场景应用的发展,显示出其在通用智能领域的竞争力。
通义千问 Qwen Chat 推出桌面客户端,用户一键唤起 MCP 功能。支持写文案、生成图像、开发网页等任务。界面升级简化操作,无缝衔接办公流程。访问官网还能轻松查看相关的论文、技术博客和模型 API,想深入研究 AI 的朋友,这下资料不...
微软近日宣布开源轻量化 AI 模型 Phi-4-mini-flash-reasoning,该模型采用全新 SambaY 架构实现推理效率飞跃。通过跨层记忆共享与无显式位置编码技术,其长文本生成速度达传统模型 10 倍,32K 上下文处理延迟...
xAI 推出了全新旗舰 AI 模型 Grok4,分普通版和编程版。编程版助开发者编写代码、查找错误。模型实时抓取 X 平台热点新闻。训练耗费 20 万 GPU,性能提升 10 倍。目前仅处理文本,图像视频功能后续添加。用户需 X 高级会员或...
阿里通义实验室开源 ThinkSound AI 工具,免费自动添加视频音效。该工具分析画面和文字描述,生成匹配音效,例如森林场景配鸟鸣。音画同步精准,支持 4K 视频。GitHub 开放模型代码下载,帮助创作者节省成本。用户能语音调整音效,...
最新评论