阿里达摩院低调上线文本生成视频大模型:仅支持英文输入,已开放试玩
2023-03-22 17:23
作者:张璠
来源:IT之家 阅读量:5082
感谢IT之家网友 大眼夹、打工轨道人、航空先生 的线索投递!
,近日,阿里达摩院已在 AI 模型社区“魔搭”ModelScope 上线了“文本生成视频大模型”。
根据官方介绍,目前文本生成视频大模型,由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这 3 个子网络组成,整体模型参数约 17 亿,目前仅支持英文输入。扩散模型采用 Unet3D 结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。
官方介绍称,本模型适用范围较广,能基于任意英文文本描述进行推理,生成视频。一些文本生成视频示例如下:
据IT之家了解,模型已经在创空间和 huggingface 上线,可以直接体验,也可以参考该页面自行搭建。模型需要硬件配置大约是 16GB 内存和 16GB GPU 显存。在 ModelScope 框架下,通过调用简单的 Pipeline 即可使用当前模型,其中,输入需为字典格式,合法键值为 'text',内容为一小段文本。该模型暂仅支持在 GPU 上进行推理。
从试玩的结果来看,目前能生成的视频长度多在 2-4 秒,生成等候时间从 20 多秒到 1 分多钟不等。
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
猜您喜欢
最新热点
第五届《英雄联盟:云顶之弈》公开赛开启报名,总冠军独享100万奖金
2023-03-22 17:17
文本和图片之后AIGC的下个前沿将是视频生成
2023-03-22 17:06
王一博也救不了场,乐华娱乐净利大降三成,老板杜华亲自上场直播带货
2023-03-22 17:04
vivo智能车载现已支持QQ音乐
2023-03-22 16:34
华硕无畏162023笔记本电脑今日开售:搭载酷睿i5-13500H,44
2023-03-22 16:16
微软计划最早明年推出手机游戏应用商店与苹果和谷歌竞争
2023-03-22 16:10
精彩推荐
经济新动能加速聚集A股中长期向上趋势不改
2021-07-29 09:44
首趟“中吉哈”公铁联运中转出境
2021-07-29 09:15
音乐是我永远的好朋友——小琴童仔仔成长记
2021-07-26 01:40
A股三大指数集体下挫两市逾3300个股下跌
2021-07-23 13:10
妙可蓝多倾力打造“中国酪印”
2021-07-21 09:41
深化全面合作加快老区振兴
2021-07-20 12:35