主页 > 书画艺术 >

Unity通过训练人工智能,实现画面的实时风格化变

编辑:山水画 2025-07-10 20:28 浏览: 来源:www.souhuashi.com

随着现代人工智能技术的飞速发展,学习技术已成为推动其前进的核心动力。特别是在图像识别和处理领域,卷积神经网络(CNNs)的高速处理能力已经让这一任务变得前所未有的轻松。Unity实验室正是这一技术进步的先锋,他们致力于将卷积推论无缝集成到其领先的3D渲染通道中,并成功研发出高效的神经网络推理引擎——Barracuda。现在,让我们共同见证一个充满挑战的案例:在游戏内实现多风格变换。

长久以来,学习一直局限于超级计算机和离线计算环境中。随着计算能力的飞速提升,实时学习技术开始在消费者级硬件上展现出巨大的潜力。Unity实验室正是借助Barracuda,努力将这一前沿技术普及到广大创作者手中。尽管ML-Agents已经成功应用于一些游戏开发中的人工智能应用,但仍有许多功能需要在实时游戏引擎中得以展现,比如学习超采样、环境遮挡、全局光照以及风格变换等。在这里,我们以风格变换作为典型案例,展示从训练卷积到Unity渲染循环中集成的完整过程。

风格变换是一种独特的图像处理技术,它能够将图像的风格转换为另一种风格。举个例子,我们可以将世界名画的风格应用到真实照片上。自2015年以来,借助卷积神经网络的发展,风格变换的质量得到了显著提升。研究团队付出了巨大的努力来训练卷积,以完成一次性处理任务。现在,只需选定图像作为网络输入,网络便能在极短的时间内(借助GPU)输出其风格化版本。在我们的研究中,我们使用了这样一个网络的小版本,并训练了多种风格的变换。然后,我们将该网络完美集成到Unity的渲染管道中,以实现实时图像风格转换。

在高端电脑硬件的助力下,实时全高清风格转换已经成为可能。以《死亡之书》场景为例,图像能够实时进行风格转换,呈现出动态切换的风格效果,其速度达到每秒30帧。这种实时风格转换技术为游戏开发者带来了无限创意空间。

为了实现实时的风格转换,我们采用了最先进的快速风格变换网络。该网络由两部分组成:样式推理网络和样式传递网络。前者负责从样式图像推导出紧凑描述,后者则使用该描述将样式传递到输入图像上。我们的风格变换网络设计巧妙,由下采样和对称的上采样层组成,中间有五个追加模块。

为了训练这个网络,我们选择了离线预训练的方式。我们使用了视频和计算机动画电影中的“内容”图像进行训练,同时从一个包含大约8万幅绘画的数据库中获取“风格”图像。通过优化网络的权重,我们使得在给定的样式和内容图像下,输出的图像能够展现出高保真度的样式,同时保持内容的高可识别性。我们还需要训练网络来处理时间维度上的图像,以实现连续的帧进行不同的风格化,创造出连续闪烁的效果。

借助Barracuda和先进的学习技术,我们已经在游戏内实现了多风格变换的壮举。随着技术的不断进步,我们期待未来能在更多领域看到学习的身影,为创作者和玩家带来更多惊喜和创意空间。在漫长的研发过程中,我们经历了无数次的尝试与错误。使用配备Cuda/CuDNN后端张量流库的NVidia RTX 2080 GPU进行培训,这一过程大约需要两到三天的时间。经过长时间的训练后,网络架构及其训练后的参数被保存在磁盘上,随后加载到Unity中,以备运行时使用。

接下来是整合Unity功能的时候。Unity实验室已经成功构建一个跨平台的推理引擎,可以通过Barracuda在Unity中轻松导入和运行。预先训练的网络需要保存在你选择的库中并保存到磁盘上。文件详细描述了如何在Pytorch或TensorFlow上进行网络培训。Barracuda的多平台能力源于Unity,可在多种CPU或GPU上运行。所有使用Unity的平台都支持CPU推理功能,而GPU推理功能则需要借助Unity计算着色器以及其他功能(除WebGL外)。为了更方便用户的使用,Barracuda推荐的输入途径是通过开放交换格式。这是一种大多数学习库可以导出到的开放格式。对用户而言,导入过程就像将文件简单地拖放到Unity项目中一样便捷。随后,资产检查器会提供输入、输出和网络层等信息。

至于如何运用这一技术呢?我们面临的问题是向网络提供输入(内容图像和风格图像),并展示风格化的输出。在Unity中,我们只需创建一个自定义后处理脚本,将Barracuda加载其中即可。每帧获取相机渲染的图像后提交给网络进行推断和计算样式化结果再回显至屏幕上即可完成实时的多风格转换效果展现渲染的过程包含两个阶段即渲染阶段后期处理阶段其中后期处理阶段的风格变换取决于所提供的风格我们在充满奇幻色彩的《死亡之书》场景中展示了实时的风格转换技术为游戏创作者带来了无限可能的想象空间和技术挑战未来值得期待和发展改进创新更多激动人心的技术突破和革新方案出现推动游戏行业的不断发展和进步让游戏世界更加丰富多彩和富有想象力创造力!尽管3D渲染阶段的计算量相当庞大,特别是在推理(即后期处理)阶段,但在高端硬件的助力下,我们的演示仍然能够流畅运行。

使用NVidia RTX 2080 GPU(分辨率为1080p)时,每帧的总时间虽然达到了23毫秒(渲染阶段6-9毫秒,推理阶段14毫秒),但这并未阻碍我们展示复杂而美丽的场景。对于AMD Vega RX 64,每帧的运行时间稍微长一些,为28毫秒(包括渲染场景的7-10毫秒和推理的18毫秒)。无论在哪种情况下,演示都能保持每秒30帧的流畅运行速度。这些数字背后,包含了我们对Barracuda的优化努力。

想象一下观众在欣赏我们的演示时的体验,就像是在游玩备受赞誉的游戏《死亡之书》,自由导航于复杂而细致的场景之中。更令人兴奋的是,观众还可以选择不同风格进行欣赏,如毕加索的画作。游戏会根据用户的选择实时转换风格。值得注意的是,推断部分仅在风格改变时运行一次,甚至可以从磁盘加载,这意味着在切换风格时没有任何滞后。尽管当前版本已经能够处理多种风格,但如何在保持实时高效网络的同时提高风格转换质量并处理更多风格的多样性,仍是待解决的研究问题。

当我们聚焦于PS4 Pro这块硬件时,其推理计算能力相较于PC上的RTX 2080显然有所不足。为了充分利用这一平台,我们选择一个独特的场景——Unity维京人村,来展示我们的技术实力。这个场景以其鲜明的风格为我们的应用赋予了独特的特色。为了在这个平台上实现流畅运行,我们必须大幅度提高速度并减少内存占用。

Barracuda GPU级别的优化是达成这一目标的核心策略之一。通过内存布局的调整、运算融合以及针对上采样、下采样和残差情况的卷积核创新,我们在PS4 Pro上实现了每帧28毫秒的流畅运行速度。

我们的架构具备处理任何场景和风格的能力。通过深入分析每种卷积层上花费的时间,并针对上采样和下采样过程以及网络通道数量进行优化,我们在PS4 Pro上成功实现了以1080p的分辨率在短短56毫秒内进行推断的显著速度提升。

为了在不损失细节的情况下提高渲染速度,我们借鉴了游戏开发手册中的技巧,将风格转换演示与Unity的常规后期效果完美融合。通过Barracuda的GPU级优化、网络的精简化和时间的巧妙采样,我们已经成功地在PS4 Pro上实现了流畅的1080p风格化渲染。这一切都是为了给玩家带来更加细腻、丝滑的视觉体验。

作为计算机图形技术领域的领先者,我们一直在寻找突破技术边界的新方法。Unity游戏引擎为我们提供了强大的工具,使我们能够以前所未有的方式应用计算机图形技术。它所提供的每一帧信息都远超过最终渲染的信息,为我们打开了无限的可能性。

当下许多游戏都采用时间化方案来增强屏幕空间效果的质量或性能。借助连续帧之间的一致性,我们能够利用先前渲染帧的信息来改进或完成当前帧。Barracuda的推断原理可以逐层手动调度,这使得我们能够在几帧内完成图像的风格化。这种技术的引入极大地提升了图像渲染的效率和效果。

为了充分展示Barracuda在风格化计算中的优势,我们采用了重新投影技术来显示中间帧,将技术与艺术完美结合,为玩家带来无与伦比的视觉盛宴。这种方法犹如计算机图形学中的其他时间优化技术,采用图像空间的双向场景重新投影技术,为每个网络输出帧之间创造出高质量的中间帧。想象一下在PS4 Pro游戏主机上,运用这种技术来渲染四帧的风格化画面,每帧的处理时间仅需短短的几毫秒。其中,重新投影和场景渲染的时间分别为短短的4毫秒和10毫秒,整个流程只需短短的28毫秒即可完成!这一技术的成果在游戏主机上的表现堪称惊艳!

尽管这种时间优化方案在风格转换方面表现出色,但它也面临一些挑战。风格转换有时会导致对象边界形状的变化,并可能出现光晕现象,进而影响运动矢量的有效性。这可能导致重新投影的中间帧出现重影等问题。为了克服这一问题,我们调整了算法,获取每个像素附近的最小运动矢量。虽然这有助于减少伪像的出现,但尚未完全消除这些问题。

展望未来,渲染循环中的卷积将为我们带来更多的机遇和挑战。我们已经在Unity的渲染管道中尝试将卷积作为后期效果即时使用,以优化性能。想象一下,在延迟流水线中使用多个G缓冲区作为输入,这将极大地支持我们去噪、增强纹理、抗锯齿和全局照明等任务的实现。这种将卷积与计算机图形技术相结合的方法,具有巨大的潜力,但同样面临新的挑战。特别是在风格转换中,图像形状的变化使得重新投影变得更加复杂和具有挑战性。

这些挑战为实时图形和机器学习之间开辟了新的交叉领域。得益于Barracuda的支持,Unity实验室能够全身心地投入到新功能的研究中,推动神经纹理合成和风格变换的研究以及Barracuda的应用和发展。我们相信,随着技术的不断进步和创新思维的引领,未来的计算机图形技术将不断突破现有的界限,带给我们更多的惊喜和突破!无论是游戏、电影还是虚拟现实,这些技术的发展都将为我们提供更丰富、更逼真的视觉体验。让我们共同期待这个充满无限可能的未来吧!