那感觉就是,我总能在一个事儿上找到一个合适的Agent辅助我从头到尾完成一个任务。这几天,就有人问我用过那么多Agent,视频的呢,有没有合适的Agent可以用啊?
没错,两个视频都是用市面上已经在用的视频Agent,只通过文字对话(没有其他操作)生成出来的。
那目前能够做到什么程度呢?或者说这个交互过程是什么样的?甚至是每个Agent擅长什么不擅长什么?我们现在到底在什么场景下能用上这些视频Agent?
整个过程我会不掺杂任何优化,完全实测,从交互体验、画面、细节到音画匹配,都实打实展开说,看看它们到底能做到什么程度。
文章中所有case的高清素材和提示语我都打包好了,公众号后台回复“视频Agent”就可以啦。
剧情小短片其实可以说难度相当高的一个任务了,不仅考验模型编写剧情故事的能力,还要看对应分镜是否一致、生成图片的人物一致性、场景一致性、配音、旁白、音乐、剪辑等等等等每一步都不可或缺。
“写一个30秒的小故事,主角是一个穿着宇航服的女孩,在下雨天的便利店门口偶遇了未来的自己。要画面氛围感强,补充完整的剧情,有配音和背景音乐。”
我觉得完成度还可以,至少每一个都是基本上完成了一组镜头的生成制作,并且搭配了旁白和相应的配乐。
个人来说,会比较喜欢纳米和AIpai生成的两个版本,镜头衔接比较流畅,画面的一致性也比较强,剧情补充的比较完整,配音也很完整,尤其是纳米甚至为了整个故事的完整制作了超出30s的剧情。
星流整体是做了一个动画版的视频,画面单个来看都很精美,氛围感很足。但是放在一个故事里的前后几个分镜,就比如说小女孩给未来的自己递伞但是又被退回来后却接了一个女孩抬头看向星空的镜头,和未来的自己转身走远的镜头,看下来会觉得稍微有点不那么连贯。镜头设计这里还可以再加强。
美图RoboNeo的30s视频一共做了4个分镜,单个镜头看起来都不错,尤其是最后女孩消失的特效做的还挺有意思,但是因为这四个镜头几乎都是同景别切换,缺少人物动线,就会显得镜头切换稍微有些生硬。
Flowith最最最大的问题是,没给我一个成品视频,而是做了一个嵌入视频的网页,而且我并不能在网页中下载视频。而且网页的逻辑是把音频也是嵌在网页中,不是和视频匹配上,所以导致打开网页播放视频后,音频会一直一直循环播放。
manus的话,开头结尾镜头和中间镜头的一致性保持的不太好,有点割裂,视频的动态感也不是很强,有点像PPT,同时音频对应的不是很准确,最后话都没说完的视频就结束了。
体验下来,几个模型目前共同存在的问题就是,大多数模型生成的分镜数量还是比较少,很少会设计动态比较大的镜头,不足以支撑复杂完整的剧情,人物配音的AI感还是非常强,并且没有匹配场景中生成对应音效的能力,但我相信这些都是各个模型正在或者未来即将优化的方向。
给第一张图片中的雪糕产品制作一个带有旁白和配乐的30秒创意广告片,并在最后一个画面中展示第二张图中的logo,严格保持我给你的图片中雪糕和logo的一致性
个人觉得完成度最高的是纳米AI这个短片,38秒做出了9个镜头,每一个镜头都和台词对应上了,而且镜头从环境到产品展示到人物品尝到制作过程最后到logo展示(还把logo做成了立体版本非常可爱),属于是一气呵成,非常符合产品宣传片的逻辑了
美图RoboNeo的产品视频我觉得做的比剧情视频要好玩很多,会针对产品给出很多艺术化、夸张的画面处理,比如我下面放了几张我另外跑了一个视频的部分截图,把雪糕放在城堡、画展、展览上就很有意思。一点点遗憾就是在不进行中途干预的情况下,还是只会给出4-5个的分镜设计,数量有点少。
星流的视频其实也很符合产品展示的逻辑,从场景到产品展示再到细节展示,最后也给logo做了一个动画展示。完成度是很不错,但个人觉得在镜头数量上可以再多一些和单个镜头的动态上可以再大一些。(看完视频只记得星流的巧克力雪糕很奢华hhh)
AIpai因为只能上传一张图片,所以结尾自然忽略了logo这一部分,整体上镜头数量会稍微多一点,台词、音乐和画面对应的都很好,但是中间有一些镜头的动态不够,有几个镜头雪糕的一致性和我给的原图相差出入也有一点点大。
Flowith的问题和上面剧情视频还是一样,我甚至觉得可能不用它专门做视频而是做一个带视频和其他元素的一个比较完整的网页会更好。
Manus。。。。这个开场大热天的镜头还是震惊到我了,一下子没get到啥意思。没有做出台词配音,而且最后两个镜头的雪糕突变成冰淇淋,还有我那么大一个logo去哪了。。。。。
我个人是非常喜欢AIpai的交互形式,我可以看到角色设定、场景设定、每一个分镜的画面描述、景别并调整镜头运动,同时我可以持续在右侧的对话框中针对一个具体的分镜进行修改再修改,然后再继续完成接下来的制作。每一个阶段都有我的参与和确认,能保证视频按照我想要的方向去制作,
纳米AI以前我都用来做搜索或者做做调研报告,这回没想到的是它的视频Agent功能也这么厉害,而且很简单就是传统的对话框唤起任务,一看就知道怎么用。中间不会暂停等待确认,但是能看到它对于剧情的设计比较完整,调用工具的次数很多但是几乎不会有出错的情况,成功率很高。
星流是自由画布+对话框的交互形式,基于星流自身强大的AI图像处理能力再搭配现在Agent,非常适合一套品牌设计流程的使用,可以直接从0开始完成雪糕到logo到产品宣传片的设计,直接在一个对话内就可以完成,不用跳出。
RoboNeo同样是自由画布+对话框的形式,中间每一个步骤完成后都会进行询问,可以在每个步骤进行修改,然后继续生成。
而且美图对于动漫风格的视频生成效果非常好,动作流畅度和画面风格都做的很有意思,这个视频也是一句话生成的,人物一致性和动态都做的很好。
Flowith则是节点对话的方式,某一个节点不满意的情况可以重新生成,从中途重新开始下面的任务,这个对于我们已经经过了一轮流程之后突然对前面某一步觉得不好,既想要延续这之前的生成又想要更改这之后的效果的情况,非常的友好天博登陆。
manus是对话框唤起任务的形式,中间会确认一点重点步骤,对于一些发生的错误会执行安全检测,缺点就是生成出来的效果真的有点一般,我开的还都是高质量模式。。。
视频Agent已经不只是一个新鲜的生成工具,它其实已经可以在我真实的日常任务里,替我完成一些具体的事情了。
这时要自己写文案、找参考图、抠素材,做动效,结果客户来一句“还是不太有感觉”你又要重来一版。
现在我直接丢一句提示:“来一条30秒的xxx风格广告,(描述想要的细节),重点突出节奏感强、产品视觉有高光、画面情绪饱满。”
又或者,我们可以在某一条剧情短片创作时,把剧情想法告诉这些Agent,让他们先出一个剧情预演版本,有了demo的参考,你会更知道哪里的剧情需要更改,哪里的镜头需要替换。
实际上,我们能够看出目前的视频Agent产出的质量虽然不足以支撑将成片直接投入实际宣传中使用,
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
特朗普将签署行政命令 允许私募基金天博app、地产、加密货币以及其他另类资产纳入401(K)退休帐户
赵露思直播喊话所有商家“都不用找我了 我不做带货和植入,如果我在直播间接商务,不跟公司分钱是违法的”
因涉金建希案再收拘捕令,尹锡悦拒捕过程曝光:被10人架四肢连椅子强抬,手臂被拉到“快脱臼”
前大厂算法工程师,3家科技公司技术总监|致力打造最系统的Al学习体系,让1万人通过Al提高生产力