Boximator 是由字节跳动发布的一种视频编辑工具,它能让用户通过简单的操作控制生成视频中主体的运动轨迹。物体将严格按照用户绘制的位置和路径进行运动。这个工...
在人工智能领域,从语音中创建准确的面部唇部动作一直是一个持续的挑战。然而,突破已经到来——Media2Face。Media2Face是通过音频、文本和图像多模态...
Audio2Face,一款由ai驱动的应用程序,通过语音生成富有表现力的3D面部动画。Audio2Face 简化了 3D 角色的动画,以匹配任何画外音轨道,无论...
WhisperFusion 建立在开源工具 WhisperLive 和 WhisperSpeech 的功能之上。WhisperFusion可以让你和ai聊天机器...
ai Cover是由idoubi艾逗笔开发的一款AI红包封面生成器,利用AI技术根据用户的需求创造独特高清精美的微信红包封面图片。可用于制作精美的红包封面。一般...
StreamRAG,一个视频搜索和流媒体代理工具,StreamRAG 使您能够在 ChatGPT 中与您的视频库聊天并观看视频流。StreamRAG能够在数百小...
DuckDB-NSQL,一个专门为DuckDB数据库设计的文本到SQL的模型,你可以使用自然语言说描述你的需求,它会自动转换成SQL代码,也就是可以使用自然语言...
Diffuse to Choose主要用于虚拟试穿场景。它能够在修复图像时保留参考物品的细节,并且能够进行准确的语义操作。Diffuse to Choose能让...
SupIR是一个通过增加模型规模来提升图像修复能力的技术,SupIR能够根据文本提示进行智能修复,提高图像修复的质量和智能程度。SupIR是一种突破性的图像恢复...
Lumiere是谷歌研究院团队开发的基于空间时间的文本到视频扩散模型。Lumiere采用了创新的空间时间U-Net架构,该架构通过模型中的单次传递一次性生成视频...
DiffusionGPT,字节跳动开发的由LLM驱动文本生成图像多合一系统,专门设计用于为不同的输入提示生成高质量的图像。其主要目标是解析输入提示并确定产生最优...
GPT-SoVITS,一个声音克隆和文本到语音转换的开源 Python RAG框架,只需1分钟语音即可训练一个自己的TTS模型。完美克隆你的声音!GPT-SoV...
LibreChat,一个增强版的ChatGPT程序,一个免费开源的聊天机器人平台,集成了多种 ai 模型,例如 ChatGPT、OpenAI、BingAI、Pa...
Motionshop,ai角色动画工具,通过先进的视频处理和3D渲染技术,Motionshop能够自动检测视频中的人物,并替换成3D卡通角色模型,生成有趣的AI...
PhotoMaker,利用多张照片作为身份ID,获取人物特征,然后根据描述生成符合描述的人物照片创造出一个新的、个性化的人物图像。PhotoMaker也能把几个...
图像上色(Image Colorization)是一项经典的计算机视觉任务,在许多现实世界的应用中具有巨大的潜力,例如老照片修复、电影重制和艺术创作等。给定一个...