从妙鸭爆火到老片修复,大模型已经开始干活了
自AIGC热潮涌现以来,敏锐的科技巨头们纷纷下场,推动着国内大模型赛道一路狂奔。
然而,技术本身很难直接创造价值,训练大模型只是一个起点,沸沸扬扬的“百模大战”,也或多或少夹杂了一丝“重复制造轮子”的意味。
对大模型而言,嵌入应用场景,从而实现成熟的商业化落地,才是终点所在——而随着大模型赛道的逻辑从训练转向落地,AIGC应用正逐渐在各个领域涌现。
(资料图片)
7月,AI写真应用妙鸭相机爆火出圈,不仅在社交平台里疯狂刷屏,更是激起了科技语境的广泛讨论。很多此前不太熟悉科技语境的用户,也从中第一次真切地感受到AIGC的魅力。
8月,抖音及火山引擎发起了“经典影像修复计划”,首次将AIGC视觉大模型应用于老片修复场景,计划修复100部香港老电影,还原大众记忆中的香港电影,最初的、最清晰的模样。
左图为修复前,右图为修复后
这意味着,大模型已逐渐走出了“实验室”,走入人们的视野。
妙鸭相机与老片修复,藏着大模型的答案
妙鸭相机的爆火,对当下仍困于落地的大模型赛道无疑有着启示作用。
其实,从技术路径来看,妙鸭相机背后的AIGC图像生成能力,并没有太高的技术壁垒,亦不及Midjourney、StableDiffusion等主流应用全面。
只是,诸如Midjourney等应用有着极高的上手门槛,需要用户不断摸索提示词(Prompt),在此过程中难免产生消费障碍。
而妙鸭相机则将前述繁琐的步骤封装、简化为一键操作,用户仅需上传一张正面半身照,以及不少于20张的补充照,便能根据设定模板一键生成各式各样的写真,易用性大幅提高。
从中不难窥见,前沿技术若想实现大规模落地,不仅需要找准应用场景,更需解决相应场景过往的痛点与难点。这正是火山引擎切入“老片修复”场景的重要原因。
一直以来,老片修复都是影像领域的重要议题,根据来自65个国家超过130电影资料馆统计,电影自诞生以来平均存活率不过10%。
背后的逻辑在于,早期电影拍摄后大都储存于胶片上,可胶片作为储存介质可谓相当脆弱,不仅对储存环境的温度、湿度要求极高,亦极易在使用、搬运等过程遭受物理和化学损伤,从而产生褪色、撕裂、脏点、霉变、酸变等问题。
一个简单的例子,如今许多早期电影的画面色调常常偏红或偏紫,除却导演本身艺术表达的因素,更多是电影胶片因保存不当而患上醋酸综合征的表现——胶片褪色变红的同时,还会释放出刺鼻的酸味,加剧保存环境的恶化。而酸化一旦开始,便很难完全逆转。
此外,电影在制作、分发过程中,胶片往往会经历反复翻印,每次翻印都会带来细微的画面细节损失,而随着翻印次数增加,画质衰减将愈发严重。基于种种因素,多数港片的画面表现远不及当下的高清视频,用户的观影体验难言友好。
另一方面,传统修复技术主要仰仗于人工进行——先将胶片转制为数字格式,再由修复师一帧一帧地处理画面上的霉斑、污渍等问题。
然而,一部电影通常包含数十万帧画面。若完全依赖人工修复,不仅成本高昂,效率也难以令人满意。以《东邪西毒》为例,王家卫曾回忆道,因为胶片受潮,当时的修复耗费了整整四年时间。尽管如此,还是因为修复不及时,使《东邪西毒终极版》的极少数片段仍有花片的情况出现。
换言之,传统影像修复技术,难以进行大规模修复。而若无法实现规模化,电影资料馆修复胶片的效率,或许难以追赶数十万卷胶片在时光荏苒下逐渐褪色的速度。
在此背景下,AIGC视觉大模型,成为了影视领域老片修复“心病”的解药。
火山引擎的大模型答卷
利用AI深度学习算法修复影像,其实并不是什么新鲜事。早在几年前,国内影像垂直论坛上,便已有影像发烧友通过深度学习算法提升老片分辨率,以提升画面观感。
然而,过去的影像处理算法虽能在一定程度上起到提升画质的作用,但并不足以支撑严肃的商业应用场景,以现阶段基于StableDiffusion的开源大模型为例,其主要针对图片生成任务,对偏向于退化修复的老片修复场景的针对性较差,很难简单套用。
基于此,火山引擎在现有成熟大模型的基础上,叠加了自身的老片修复网络,对模糊、失焦、人像、色彩等常见修复问题进行了针对性优化,使得大模型可以充分感知和适应老片场景。
一个简单的例子,传递角色的情感状态和内心世界的人像镜头,在电影语言中尤为重要。对此,火山引擎针对不同画面质量的影片,自适应使用了不同人像解决方案。
针对制作时间久远,影片画质较差的老电影,火山引擎使用基于生成式的人像修复模块,在保持人像真实特征的前提下,进行高清五官重建;针对中高质量的人像,火山引擎则使用了人像超清模块,优化五官清晰度,实现了对睫毛、眉毛、发丝和肤质等脸部细节最大程度地还原和纹理增强。
值得一提的是,除了面向泛化老片修复场景的调优,火山引擎此次更是针对港片的特性,打磨出了更垂直细分的修复能力。
以武打场景为例,不同于海外电影“直截了当”的打斗,打戏作为贯穿香港电影黄金年代的独特标志,更像是华丽的舞蹈,强调每一招每一式的对垒,有着极强的辨识度。
可武打场景,对AIGC模型而言却是不小的考验。一方面,画面中迅速变化的动作和快速运动,往往会造成较大的帧间位移,进而导致光流模型的准确性下降,从而产生拖影;另一方面,复杂的武打动作更容易导致插帧结果的失真,产生伪影,直接影响了观众的视觉体验。
为此,火山引擎自研了智能插帧算法,通过对前后帧的内容进行光流估计,根据光流信息将前后帧像素转换到中间帧,然后进行整合,生成中间帧,提升视频帧率;通过针对性优化,降低处理大运动时的计算负担,从而提升模型的稳定性和效果。
而武侠元素,向来是香港电影的重要组成部分,但由于早期电影拍摄制作方式较为简陋,部分武打场面往往会有威亚的部分残留,从而破坏了画面的完整性。对此,火山引擎利用去噪点和去划痕等算法批量处理画面瑕疵的同时,亦针对威亚优化了去划痕算法,在消除威亚痕迹的同时保证了画面主体人物的完整性。
左图为修复前,右图为修复后
据中国电影资料馆副馆长张小光介绍,此次电影修复也邀请了电影的主创人员参与到修复流程中,既通过技术还原影像的“形态”,亦还原影片原本的“灵魂”,使其“修旧如旧”。
背后的逻辑在于,电影修复并不仅是前沿技术的找寻落地场景的尝试,更是一种商业行为。而“修旧如旧”,正是经典电影触动大众情怀、唤醒集体记忆,从而提升商业化价值的关键。从中不难窥见,火山引擎务实的技术观。
飞入寻常百姓家
尽管AIGC初期爆发初期,互联网语境曾困于技术与应用的激烈争论,但妙鸭相机与火山引擎却证明了,二者其实并不对立。
一方面,前沿技术的演化不断扩展着应用的边界,既使普罗大众无需负担写真馆高昂的价格,便能看到自己的多元面貌;也使昔日陈旧的影像摆脱了生存危机,穿越时空焕发了新的生命力。
另一方面,前沿技术从研发到落地往往需要经历较长的周期,过去更多活在“实验室”里、商业化遇冷的大模型,更是需要这些深入人心的内容来赋予它们生命,以此真正走入人们的生活。
面对前沿技术落地的桎梏,玩家们不断交出的答卷,对行业无疑有着重要的参考价值。
出圈的妙鸭相机,一改过去前沿技术落地“苦大仇深”的面貌,通过贴近普通用户的场景与更易上手的功能,以更活泼、轻快的姿态切入了C端市场。
无独有偶,火山引擎亦在不断探索落地场景。早在2021年,火山引擎便基于画质增强技术,将哪吒、葫芦娃、黑猫警长等童年记忆中的经典动画修复为4K版本;去年,其则是使Beyond乐队在红磡体育馆的演唱会,时隔30多年于大众视野中重现。
换言之,从还原经典动画,到演唱会重映,再到港片修复,有如一个个锚点,昭示着火山引擎在商业化应用领域的落地生根。时至今日,火山引擎已打磨出不俗的技术力,并已在内部业务线以及外部企服市场,实现了规模化实践与批量规模化生产应用。
归根结底,妙鸭相机也好,火山引擎也罢,均在通过更多元、灵活的应用,解构了AIGC的科技高墙,使活在科技语境里的前沿技术,演变为了用户触手可及的现实。可以预见,在这批务实派玩家的带动下,AIGC未来或将以更丰富的形态,飞入寻常百姓家。
关键词: