首页 >前沿 >最新动态

潘云鹤 | “文化+科技”，AIGC时代文化智能引领未来变革

海峡文创

Aug 15, 2024 5:05:53 PM

[ 海峡文创导读 ] 数智时代，人工智能在哪些方面发生了怎样的变化？当前中国AIGC发展的瓶颈是什么？人类会被人工智能取代吗？为解答这一系列难题，中国工程院院士潘云鹤在第二十三届白马湖文化交流活动暨两岸文化创意产业高校研究联盟十五周年恳谈会上发表了题为《AIGC和文化智能》的主旨演讲，现将全文整理如下。

从打败柯洁的AlphaGo到引爆全网的神器ChatGPT，再到文生视频的Sora，人工智能的发展速度令人瞠目结舌。如今的人工智能在大数据、大知识、大用户、智能生成AIGC五个方面发生了巨大变化，未来，AIGC也将促进文化智能AI4C(AI for culture)的发展，在文艺创作、艺术装备制造、设计交互、文化传播等方面发挥不可忽视的作用。

人工智能AI走向AIGC

从去年开始人工智能兴起了一个新的热潮，全世界对OPENAI公司ChatGPT新程序议论纷纷。常刊登经济、政治、军事信息的《参考消息》在去年2月用两个版面来报道ChatGPT，同时也刊登了中国的百度公司将迅速发展人工智能的消息。去年5月，科技部开始研究中国大模型的发展方向。在杭州召开的全国人工智能发展会议上，二十余位专家讨论认为，ChatGPT出来以后，人工智能在大数据、大模型、大知识、大用户、智能生成AIGC五个方面发生了巨大变化。

（图片来源：参考消息）

过去也有智能生成，且布局很广。1982年，中国用人工智能做图案设计，像这样的图案用图案设计专家系统来推理，几分钟就能完成一幅，效果显著，当时引起了全世界的兴趣。但从理论上讲，当时只提出“图案设计专家系统”没有提出智能生成AIGC的概念。AIGC是重要的大概念。从条件上讲，AIGC时代崛起需要大数据、大知识、大模型三个基本因素，如今三个基本条件都已具备，智能化生成AIGC的时代已经到来。

回顾近几年人工智能的发展，不难发现其逐渐转化为AIGC的趋势。2020年，谷歌Alpha Fold的突破引起了生物学很大的担忧；2021年，Facebook公司宣布进入元宇宙，meta已可以生成与实际世界关联的虚拟世界；2022年，ChatGPT等可以生成符合要求主题的文本；2023年年底到2024年发布的Sora，实现了文生视频、文生世界的跨越。

人工智能的发展已攻克识别到生成的难题。人工智能发展的大突破都涉及AIGC，AIGC指出了AI发展轨迹中的聚集点从识别转向了生成。而大模型成了智能生成的新重器。以前的人脸识别、语音识别，现在转为生成式人工智能，这意味着人工智能将转向一个新的应用方向——生成。

今年引爆全网的Sora不但能够生成文字内容，更是跨越到视频创作的崭新维度。Sora生成视频的过程展现出高度的逻辑性与系统性：首先，通过“文生文”的方式，构建出引导性的提示词，这一过程虽看似基础，实则蕴含了巨大的潜力，预示着未来可能向代码生成、软件开发等更广泛领域的拓展。提示词作为自然语言的软件化表达，为后续的文本与图像生成奠定了框架基础；随后，依据这些提示词，Sora能够生成相应的图像；进而，通过对图像进行时间与空间维度的延展与边界设定，最终生成连贯的视频内容。

（图片来源：Sora文生视频）

Sora生成的一段视频“一名女性在夜晚的东京街头漫步”长达1分钟，发布后在全世界范围内引起了轰动。令人振奋的是，中国也在此领域迈出了坚实的步伐，已具备生成长达三分钟视频的能力。标志着我国在文生视频技术上的显著进步。

当前，中国人工智能的发展态势强劲，紧跟美国之后，稳居世界第二。在应用层面，中国已展现出卓越的成就；然而，在人工智能基础大模型的研究领域，仍需持续努力，寻求突破。OpenAI屡获创新突破，启示我们：第一，大模型是有效模拟人类思维生成与识别活动的关键工具，其重要性不言而喻。第二，大模型的进步离不开创新，特别是知识创新，将新知识有效融入大模型的训练过程中，是实现模型创新的重要途径，跨媒体知识的更好表达与融入，被视为大模型创新的关键方向。第三，构建兼容性强、整合度高的数据集，是支撑大模型发展的重要基石。

跨媒体知识、相容的大数据和创新大模型系统是人工智能思维模拟创新的三大要素。因此，我们应沿着这些方向深入探索与研究，旨在不仅保持中国人工智能在实践应用领域的领先地位，更要在基础模型研究上实现重大突破，为全球人工智能的发展贡献中国智慧与力量。

AIGC将促进文化智能AI4C

（AI for culture）的发展

（一）辅助文学创作——大数据智能

随着人工智能技术的飞速发展，以ChatGPT为代表的生成式预训练语言模型正迅速成为文学创作辅助领域的研究热点，推动人工智能在应用方面进行全新探索。这一现象不仅标志着“AI for Culture”的深入实践，也引发了关于人工智能如何影响文学创作过程与成果的广泛讨论。

在文学创作辅助方面，ChatGPT等模型展现出了强大的文本生成能力。例如成都红星网站记者利用ChatGPT成功撰写了关于古代四川的小说片段，这一实践展示了生成式人工智能在快速生成连贯、符合逻辑叙事文本方面的潜力。进一步，当要求ChatGPT以唐代伟大诗人杜甫的口吻创作关于成都的诗歌时，初次尝试结果不尽如人意，这主要归因于模型在特定历史时期文学风格与知识深度上的局限性。然而，随着时间的推移与模型的不断迭代优化，后续测试显示ChatGPT在类似任务上的表现已有所提升。与此同时，我利用中国自主研发的大模型“文心一言”也进行了文学创作尝试，通过让它创作关于杭州的诗歌，虽然结果难以媲美人类写诗的诗意与灵感，但这一实验揭示了AI在文学创作辅助中的初步探索及其面临的挑战。具体而言，在生成式人工智能缺乏深厚传统文化底蕴与针对性训练的情况下，难以完全捕捉古诗词的韵味与意境，生成的内容往往显得机械且缺乏生命力。但有理由相信，未来随着算法的不断优化、数据集的丰富以及更多针对文学创作的专项训练，人工智能有望在保持其高效生成能力的同时，逐步融入并提升文学创作的艺术性与深度，为文学创作领域带来全新的可能性与变革。

（二）辅助艺术创作——跨媒体智能

文学创作主要应用大数据智能，而艺术创作一定需要跨媒体智能的深度融合。何为媒体？这里所指的“媒体”，超越了传统广播、电视等传播媒介的范畴，聚焦于信息形态的多样性，即语言、图形、视觉与听觉等元素间语义层面的无缝对接与转换。跨媒体智能的核心能力在于促进这些不同信息形态之间的语义贯通，为联想、推理、概括等高级认知功能的实现提供了关键支撑，其中，语言和视觉信息的跨越整合尤为关键，构成了人工智能2.0时代亟待攻克的重要课题。

（图片来源：文心一言根据“用欧洲画家马奈的画风来画

白日依山尽，黄河入海流”的指示生成图片）

以“文心一言”为例，它拥有在文字生成与图像生成上的双重潜力。以特定提示词“黄河入海流”创作一幅绘画作品，尝试印象派、梵高、马奈、融合马奈和莫奈的不同风格，这一实践揭示了当前生成式人工智能在文转图过程中的局限性：虽然技术已能在图像生成层面达到一定的成熟度，但在深入理解并精准传达文本深层语义方面仍显不足，难以实现高度的个性化与精准控制。

（图片来源：《长安三万里》）

以《长安三万里》为例的国产动画电影，分析人工智能在文艺创作中的实际介入方式，可以观察到一种新兴的创作模式正在形成：由人工智能生成动画初稿，专业画师在此基础上进行精细化修改与完善。这一过程不仅提升了创作效率，也为美术产业乃至更广泛的创意产业带来了前所未有的变革机遇，预示着未来这些领域或将呈现出全新的业态与发展趋势。

（三）文化装备智能化——自主智能系统（机器人）

在文化与科技深度融合的背景下，文化内容的生成正在逐步迈向智能化，而文化装备的智能化进程亦不容忽视。目前，人工智能装备智能化的标志性成就聚焦于机器人技术，这是人工智能1.0时代的显著特征，而随着技术的演进，人工智能步入2.0时代，其核心转向自主智能系统的构建，旨在将AI能力融入各类设备，使之全面智能化。回顾历史，机器人技术在展示艺术技能方面，如机器人演奏钢琴，虽早有尝试，但多年来在特定技能（如钢琴演奏）上的进步有限，反映出技术应用的局限性，即过分聚焦于机械复制而忽视智能评判与反馈机制的缺失。理想的智能钢琴应不仅能够精准执行演奏指令，还应具备技术评估能力，能够识别演奏中的错误与改进空间，此类智能装备的研发目前仍处于探索阶段。

（极限飞球依靠360°全沉浸式裸眼特效巨幕、动感座椅，

给体验者带来虚实结合的刺激体验）

进一步探讨智能自主艺术装置，其作为文化赋能自动化的典型，展现了创意、艺术与科技的深度融合。以大连博涛文化科技股份有限公司为例，该公司通过“创意+艺术+科技”三者融合，成功推出了一系列高科技文旅体验项目，如“360极限飞球”“无上龙门沉浸体验馆”等，倡导“尖叫美学”，为大众旅游市场注入了新活力。类似地，在浙江也有文化企业专注于古代艺术的数字化呈现，虽尚未全面实现智能化，但已积极寻求与浙江大学的合作，以期在智能化转型上取得突破。这一趋势表明，文化装备智能化，特别是VR（虚拟现实）、AR（增强现实）等技术的广泛应用，正逐步形成一个庞大的新兴产业，对经济增长（GDP）产生显著贡献，展现出广阔的发展前景与深厚的学术研究价值。

（四）设计与交互的智能化——融合增强智能

设计相较于绘画更为复杂。近年来，浙江大学积极响应行业需求，受企业委托，深入探索工业设计尤其是服装智能设计的前沿领域，标志着传统服装设计从手工匠艺向智能化、自动化方向的深刻转型。其大模型构建过程是以数十亿通用图文对预训练大模型，再手工精细标注数万“服装图像-文本描述”数据对和数万“羽绒服图像-文本描述”数据对，以增量学习技术精调大模型，提升羽绒服设计的智能化水平、产出质量及设计可控性，推动整个服装设计行业的革新进程。然而，尽管取得了一定进展，当前智能服装设计仍面临显著挑战：其一，精确生成难题，即系统难以精确依据输入（无论是文字描述、参考图片还是草图）生成符合预期的服装设计；其二，生产对接障碍，现有技术主要输出二维图像，缺乏直接转化为三维可生产模型的能力，限制了自动化生产的实现。

进一步剖析智能生成与智能设计之间的差距，以教室座椅设计为例，理想中的智能设计应涵盖以下几个关键维度：跨媒体生成能力，将抽象的文字概念转化为具象的设计图；高度的灵活性与可编辑性，支持结果的精确调整与个性化定制；结构化生成机制，确保设计作品既符合美学原则又满足功能需求；以及最终设计的可生产性，即设计成果能够无缝对接实际生产流程，解决专业领域的具体问题并实现深层次的价值创造。当前，虽然大模型在跨媒体生成与结果可修改性方面已取得一定成果，但结构化生成与可生产性仍是需要重点攻克的技术难点。所以，设计是生成，生成不都是设计，从单纯的智能生成迈向全面而深入的智能设计，还需要跨越多重技术壁垒，构建多座连接理论与实践、创意与实现的桥梁。

（五）文化传播智能化——群体智能平台、无人机

无人机群协同作业无疑是最直观且引人注目的群体智能。然而，群体智能的疆域远不止于此，数字平台作为一种核心形态，正以前所未有的方式重塑着经济与社会结构。数字平台是一个典型的群体智能系统，其本质在于通过网络与数据技术，将平台内的参与者有机整合，形成了一种产品与货币循环的新型合作范式。这一系统充分发挥了群体智能自组织结构的优势，促进了资源的高效配置与价值的创新创造，从而孕育出了一系列新兴业态，在此过程中，数字平台企业往往扮演着技术创新与引领的角色，成为推动数字科技发展的关键力量。正如马云所言，“阿里巴巴已经从单一的电子商务企业公司转型为以数据为核心驱动力的企业。”

（通过keypose引导，T2I适配器可以生成具有

相同姿势的动物，例如熊猫和老虎。）

展望未来，随着技术的不断进步与应用的持续深化，第二轮数字平台浪潮即将涌现。大模型技术的广泛应用将催生出大量新型数字平台企业，这些企业将不再局限于传统意义上的电子商务或社交媒体领域，而是广泛涉足人工智能、创意设计等多个前沿领域。例如，基于AI技术的导航工具、文本生成图像与音频等创新应用，正逐步成为数字平台的重要组成部分。以Stability AI为例，该公司作为美国领先的智能化创作与设计平台，通过深度学习算法，实现了从简单草图到动态人物模型的快速转换，展示了群体智能在创意产业中的巨大潜力。

（六）未来几年文化艺术将有大变革

第一，AIGC技术的飞速进展预示着文艺创作与设计领域的效率大大提升。

第二，随着设计与创作平台的蓬勃兴起（平台经济2.0的深化发展），全民参与文艺创作的时代将到来。当前，全民摄影已成为普遍现象，预示着未来全民绘画乃至更广泛的艺术创作活动亦有可能成为常态，艺术的边界将被极大拓宽，准入门槛显著降低。在此背景下，个体的创意与想象力成为了最为宝贵的资源，其重要性日益凸显。

第三，面对这一趋势的加速推进，数据、知识以及模型等要素的深度融合与应用尤为关键。然而，更为核心的是，需着力培养一批能熟练运用人工智能平台工具进行文艺创作与设计的新型人才。若继续沿用传统的艺术教育模式，仅聚焦于传统的艺术创作与设计技能，则此类人才的就业市场或将面临日益严峻的挑战。因此，教育体系需适时调整，注重跨学科融合，强化人工智能技术在艺术创作与设计领域的应用教育，以培养出适应未来需求的复合型人才。

新一代人工智能的发展规划已开始不断瞄准文化智能（AI4C）的发展方向。在《中国新一代人工智能发展规划（2017）》中已经指出，新一代人工智能将向着大数据智能、跨媒体智能、群体智能、人机智能和自主智能系统这五个方向前进。当前，文化智能的蓬勃发展正紧密契合并沿循这五大前沿趋势不断前行。

习近平总书记在2018年《在中共中央政治局第九次集体学习时的讲话》中指出，人工智能是引领这一轮科技革命和产业变革的战略性技术，具有溢出带动性很强的“头雁”效应。在移动互联网、大数据、超级计算、传感网、脑科学等新理论新技术的驱动下，人工智能加速发展，呈现出深度学习、跨界融合、人机协同、群智开放、自主操控等新特征，正在对经济发展、社会进步、国际政治、经济格局等方面产生重大而深远的影响。

我们相信，中国人工智能技术与产业不但能促进中国经济和科技的发展，也能促进中国文化和社会走向一个高质量、高水平的快速发展期！

媒体提问

AIGC在文化领域的应用越来越广泛，您认为当前中国AIGC发展最大的瓶颈是什么？您如何看待AIGC应用在文化领域之后造成的部分行业从业者失业的问题？

回答：从表层来看，人工智能领域的瓶颈之一在于高端芯片技术的国际依赖，尤其是美国的技术封锁，不过当前已探索出若干替代策略以缓解此困境。另一方面，创新资源分配不均的问题亦不容忽视：资金充裕的机构往往缺乏足够的创新思维，而富有创新精神的单位常受限于资金短缺，这种资源错配现象阻碍了创新潜能的充分释放。当前，大模型的研发主要集中于大型企业之手，这些企业虽财力雄厚，但其核心目标多聚焦于跟随国际前沿步伐，以维护并拓展自身的生产与发展模式，其创新驱动力相对有限。与此同时，那些活跃于学术界、研究机构中的创新型人才，虽具备丰富的创意与理论探索能力，却因资金匮乏难以承担高昂的研发成本，加之单一方向的投资力度不足，进一步限制了创新实践的广度与深度。

鉴于此，本文提出一项设想：若能为国内顶尖的高等教育机构提供充足的人工智能芯片资源支持，例如向每所大学分配一定数量的高端AI芯片，用以促进新型基础大模型的研发与训练，此举无疑将为中国人工智能领域的自主创新能力注入强劲动力，对推动国家整体科技进步与产业升级具有深远意义。

关于失业问题，随着生产技术的迭代与产业链结构的重构，短期内确实可能引发就业市场的波动与调整，造成一定规模的失业现象。然而，从长远视角分析，人工智能技术的广泛应用非但不会完全取代人类劳动力，反而将催生出一系列新职业，要求从业者具备更高的技术素养与创新能力。未来的职场竞争，将更多体现在对人工智能技术的掌握与运用能力上，即那些能够熟练运用AI工具提升工作效率与创造力的人才，将逐渐取代那些未能及时适应技术变革的劳动者。

因此，面对即将到来的技术变革，教育体系与学习方式的深刻转型显得尤为迫切。对于即将步入未来职场的新一代学习者而言，必须注重培养其适应新技术环境所需的知识结构与能力体系，确保他们能够成为推动社会进步的新质生产力。

作者 | 潘云鹤（中国工程院院士）

来源 | 言之有范