正式(shi)上线！一键当“导演”,混元,视频,模型(xing)-业界新闻

正式(shi)上线！一键当“导演”,混元,视频,模型(xing)

2024-12-05 14:35:59

腾讯(xun)旗下混元大模型(xing)，正在“招聘”导演。12月3日，在混元大模型(xing)媒体沟通会上，腾讯(xun)公布了旗下模型(xing)最(zui)新进展：正式(shi)上线视频生成能力(li)。现场生成视频显示，无论(lun)是在水里冲浪，还是在阁楼里跳舞，只要你的想象力(li)“够(gou)用”，输(shu)入精确提示词(ci)后都能一键生成。另外在人(ren)物展示方面，混元视频大模型(xing)不(bu)仅(jin)能生成人(ren)物中景还能展示人(ren)物特写，镜头转换的过(guo)程丝滑又(you)颇具电影质感。

今年以来，“等我老了依靠小(xiao)猫来养老”“老照(zhao)片古人(ren)物动起来”等用AI大模型(xing)制作的上述视频走红(hong)网络，视频领(ling)域俨然已成AI技术落地的首个桥头堡。在沟通会上腾讯(xun)还宣布开源该视频生成大模型(xing)，参数量130亿，是当前最(zui)大的视频开源模型(xing)。目前，用户可在腾讯(xun)元宝APP的“AI视频”板块申(shen)请(qing)试用。

超写实电影感视频，能AI一键生成了

沟通会上，腾讯(xun)混元多模态生成技术负责人(ren)凯撒透露，用户只需输(shu)入一段描述，即可生成视频。目前的生成视频支持中英文双语(yu)输(shu)入、多种视频尺寸以及多种视频清晰度(du)。

下面来展示一些(xie)用混元最(zui)新视频大模型(xing)生成的实验案例，比如输(shu)入提示词(ci)：“超大海浪，冲浪者在浪花上起跳，完成空中转体。摄影机从海浪内部穿越而出，捕(bu)捉阳光(guang)透过(guo)海水的瞬间。水花在空中形成完美弧线，冲浪板划过(guo)水面留下轨迹。最(zui)后定格在冲浪者穿越水帘的完美瞬间。”

展开剩余 82 %

视频生成的效果可以看到，水和人(ren)在视频演进的过(guo)程中都分离呈现得很好，镜头从冲浪者到水花再到冲浪者出水，整体非常(chang)流(liu)畅。

再举一个颇具西方电影感的例子，输(shu)入提示词(ci)“穿着白床单的幽灵面对(dui)着镜子。镜子中可以看到幽灵的倒影。幽灵位于布满(man)灰尘的阁楼中，阁楼里有老旧的横梁和被布料遮盖的家具。阁楼的场景映照(zhao)在镜子中。”

生成的视频中幽灵在镜子前跳舞，视频有前景也有后景，幽灵在床单中跳舞的动作可以通过(guo)床单的褶皱展示，电影氛围和电影感打光(guang)都做到了。

有读者可能会想，上面的例子都比较(jiao)现代化，如果想要生成古风的人(ren)物，还有效吗？输(shu)入提示词(ci)“一位中国美女穿着汉服，头发飘(piao)扬，背景是伦敦，然后镜头切换到特写镜头”。

从生成的视频可以看到，混元真(zhen)是贯通中西！从中景到大特写，虽然经历(li)了一个电影语(yu)境上的“大跳切”，但是一点(dian)也不(bu)突兀，中景古风美女衣袂飘(piao)飘(piao)，切到特写时美女头上发带、钗环甚至连头发丝都在随风飘(piao)动，另外混元把(ba)人(ren)物脸上的微小(xiao)瑕疵也做出来了，很有真(zhen)实感。

除了单主(zhu)体镜头，混元视频大模型(xing)在多主(zhu)体上也做得很好。输(shu)入提示词(ci)“特写镜头拍摄的是一位60多岁、留着胡须的灰发男子，他坐在巴黎(li)的一家咖(ka)啡馆里，沉思着宇宙的历(li)史，他的眼睛聚焦在画外走动的人(ren)们身上，而他自己则(ze)基本一动不(bu)动地坐着，他身穿羊毛大衣西装外套，内衬系扣衬衫，戴着棕色贝雷帽(mao)和眼镜，看上去很有教授风范，片尾他露出一丝微妙的闭嘴微笑，仿佛找到了生命之谜的答案，灯光(guang)非常(chang)具有电影感，金(jin)色的灯光(guang)，背景是巴黎(li)的街道(dao)和城市，景深，35毫米电影胶片。”

这段提示词(ci)中主(zhu)体除了“灰发男子”，还有“画外走动的人(ren)们”“巴黎(li)的街道(dao)和城市”。生成的视频可以看到，从特写切到中景，男子脸上的光(guang)、表情细节，以及背景中走动的人(ren)、城市景色都表现出来了，背景与前景相互(hu)结合，也做到了所谓的“电影感”。

结合以上案例不(bu)难看出，目前腾讯(xun)混元生成视频大模型(xing)可以实现超写实画质、生成高度(du)符合提示词(ci)的视频画面，画面流(liu)畅不(bu)易变形。

比如，在冲浪、跳舞等大幅度(du)运动画面的生成中，腾讯(xun)混元可以生成非常(chang)流(liu)畅、合理的运动镜头，物体不(bu)易出现变形；光(guang)影反射基本符合物理规律，在镜面或者照(zhao)镜子场景中，可以做到镜面内外动作一致。值得一提的是，混元目前已实现了在画面主(zhu)角保持不(bu)变的情况下自动切镜头，这是业界(jie)大部分模型(xing)所不(bu)具备的能力(li)。

同(tong)时，在与国内外多个顶尖模型(xing)的评测对(dui)比显示，混元视频生成模型(xing)在文本视频一致性、运动质量和画面质量多个维度(du)效果领(ling)先，在人(ren)物、人(ren)造场所等场景下表现尤(you)为出色。

文生视频评测结果

全面开源，上元宝可免费使用

目前该模型(xing)已上线腾讯(xun)元宝APP，用户可在AI应(ying)用中的“AI视频”板块申(shen)请(qing)试用。企业客(ke)户通过(guo)腾讯(xun)云提供服务(wu)接入，目前API同(tong)步开放内测申(shen)请(qing)。

通过(guo)腾讯(xun)元宝APP-AI应(ying)用-AI视频即可使用该功能

同(tong)时，腾讯(xun)方面还宣布，此次发布的视频生成大模型(xing)已在Hugging Face平台及 Github上发布，包含模型(xing)权重、推理代码(ma)、模型(xing)算法等完整模型(xing)，全面开源，可供企业与个人(ren)开发者免费使用和开发生态插(cha)件。基于腾讯(xun)混元的开源模型(xing)，开发者及企业无需从头训练，即可直接用于推理，并可基于腾讯(xun)混元系列打造专属应(ying)用及服务(wu)，能够(gou)节约大量人(ren)力(li)及算力(li)，加速行业创(chuang)新步伐。

从年初以来，腾讯(xun)混元系列模型(xing)的开源速度(du)不(bu)断加快。就在11月初，腾讯(xun)召开混元大模型(xing)媒体沟通会，宣布最(zui)新的MoE模型(xing)“混元Large”以及混元3D生成大模型(xing)“ Hunyuan3D-1.0”正式(shi)开源。

今年以来，“等我老了依靠小(xiao)猫来养老”“老照(zhao)片古人(ren)物动起来”等用AI大模型(xing)制作的上述视频走红(hong)网络。视频领(ling)域俨然已成AI技术落地的首个桥头堡。不(bu)少AI视频出圈(quan)的背后，是“中国版Sora”的快速崛起。今年春节期间，Sora的横空出世(shi)投下了一枚炸弹，瞬间让卷“文生文”“文生图”的大模型(xing)厂商开启了“视频ChatGPT时代”。不(bu)过(guo)，Sora一鸣惊人(ren)后却迟迟未上线，被外界(jie)称为“期货”。

在这期间，多家中国厂商抢先入场，推出了视频大模型(xing)产品，包括字节、快手、阿(a)里云、昆仑万维、美图在内的互(hu)联网厂商，以及Minimax、智谱(pu)、爱诗科技与生数科技等大模型(xing)初创(chuang)等厂商都在快速跟进。

腾讯(xun)混元多模态生成技术负责人(ren)凯撒在沟通会后接受采访时表示，目前不(bu)少业界(jie)产品和模型(xing)都有先发优势，但团队(dui)在研发时发现，现在视频生成特别是文生视频领(ling)域成熟度(du)远没有大家想象的那么高，失败率仍很高。“在我们内部评估，这个技术程度(du)还没有到大规模商业化的程度(du)，还在技术打磨阶段。我们选择在这个阶段推出它，同(tong)时选择对(dui)外开源，希(xi)望跟社区(qu)一起把(ba)技术早日推向像AI图像生成这样真(zhen)正可用的状态。”

采写：南(nan)都记者林文琪