首页 >前沿 >高端声音

高书生：从文化大数据到文化大模型

海峡文创

Sep 27, 2023 5:32:17 PM

[ 海峡文创导读 ] 9月21日，由中国公共关系协会文化大数据产业委员会主办文化大模型开发应用大会在南京举行。在主旨演讲环节，中宣部文改办原副主任、中国公共关系协会文化大数据产业委员会副主任高书生以《从文化大数据到文化大模型》为题发表主旨演讲，以下是演讲全文。

9月21日，由中国公共关系协会文化大数据产业委员会主办文化大模型开发应用大会在南京举行。在主旨演讲环节，中宣部文改办原副主任、中国公共关系协会文化大数据产业委员会副主任高书生以《从文化大数据到文化大模型》为题发表主旨演讲，以下是演讲全文。

从文化大数据到文化大模型

文/高书生

非常高兴通过视频方式同大家就文化大模型问题进行交流，主要分享三个观点，一是为什么要搞文化大模型？二是文化大模型和其他大模型的区别，三是文化大模型开发应用的关注点。

为什么要搞文化大模型？

我们搞文化大模型并不是赶时髦，主要基于以下三个方面的考虑：

第一，这是实施国家文化数字化战略的必然结果，

第二，这是文化传承发展智能化的内在要求，

第三，这是维护意识形态和文化安全的技术保障。

今年6月，习近平总书记在文化传承发展座谈会上强调：“在新的起点上继续推动文化繁荣，建设文化强国，建设中华民族现代文明，是我们在新时代新的文化使命。”

习近平总书记在重要讲话中明确提出：第二个结合是又一次的思想解放，让我们能够在更广阔的文化空间中，充分运用中华优秀传统文化的宝贵资源，探索面向未来的理论和制度创新。

中华优秀传统文化的宝贵资源在哪儿？这是贯彻落实总书记重要讲话精神的一个非常重要的问题。

去年3月，中办国办印发的《关于推进实施国家文化数字化战略的意见》，实际上已经为这个问题提供了现成的答案，那就是统筹利用文化领域已建或在建数字化工程或数据库所形成的成果，全面梳理中华文化资源，推动文化资源科学分类和规范标识，关联形成中华文化数据库。

文化大数据从何而来？主要有三个渠道，第一是汇集全国性文化资源普查数据，第二是采集中华民族文化基因数据，第三是贯通已建或在建文化专题数据库。

通过这三个渠道，我们就将中华民族积淀了五千多年的文化资源，转化为具有文化内涵的数据，使其成为文化创新创造的素材和源泉，从中提取具有历史传承价值的中华文化元素符号和标识，丰富中华民族文化基因的当代表达，增强对伟大祖国、中华民族、中华文化、中国共产党、中国特色社会主义的认同。这就是我们要形成的文化大数据。

人工智能有三个要素，第一是算力，第二是算法，第三是数据。我们已经进入到大模型时代，大家已经看到了，现在各个科技公司都在研发大模型，应该说科技已经发力，在这种情况下文化不能缺席。

文化为什么不能缺席？因为我们有数据，这是人工智能的第三个要素。我们一直坚持认为，人工智能是文化和科技深度融合的产物。所以，科技一定要携手文化，文化做两头，科技做中间。

根据文化大数据形成语料库，文化机构为科技公司提供语料，用于训练大模型，文化再根据应用场景开发利用大模型，这样就实现了深层次的人工智能，生成式人工智能就不只是玩具，而成为工具，服务文化传承发展的工具。我认为这点非常重要的，文化机构不能因为不熟悉技术而太自卑，科技公司也不要以为技术能够解决一切而太自负，科技只有与文化深度融合，才能在人工智能上越走越远。

在人工智能发展过程中，还有一个问题需要关注，就是人工智能哺育什么样的人。因为数据的来源和质量决定了大模型的生命力，一定要用最真实的数据训练大模型，否则就跟小男孩天天生活在语言被严重污染的环境，久而久之就染上一身坏习惯一样。更为重要的是，千万不能因为青少年接触生成式人工智能，无意中变成了“香蕉人”，皮肤是黄的，价值观是西方的。价值观认同是人工智能发展的试金石。恰恰在这一点上，决定文化大数据在人工智能发展中大有可为、大有作为。

文化大模型与其他大模型的区别

文化大模型的特征有两个，一是领域宽，二是应用广。

很多人都在问文化的疆域在哪儿？2009年，联合国教科文组织发布过一个文化统计框架，非常明确地提出文化领域主要包括6个方面，第一是文化和自然遗产，第二是表演和庆祝活动，第三是视觉艺术和手工艺，第四是书籍和报刊，第五是音像和交互媒体，第六是设计和创意服务。

我们当下讲的文化，主要是指宣传思想文化领域，从部门来讲包括了宣传、网信、文旅、新闻出版、电影、广播电视、网络文化文艺，从领域上来讲包括了思想理论、文化旅游、文物、新闻出版、电影、广播电视和网络文化文艺，这基本上就划定了整个文化的范围，范围还是非常宽的。

文化大模型最重要的应用场景，就体现在中华文化全景呈现和中华文化数字化成果全民共享两个大的方面。两办文件当中明确提出要建设数字化文化消费的新场景，包括了线上和线下两个方面，线上一个是大屏，包括电视机和户外的大屏，另外一个就是小屏，主要是指手机等移动终端，线下按照文化体验场所的规模不同，区分为文化体验园、文化体验馆和文化体验厅。

文化体验园主要是在旅游景区等比较大的场所，文化体验馆主要是学校和商场两个方面，文化体验厅的范围就更加广泛了，家庭也可以成为文化体验厅。所以在两办文件当中明确提出文化体验要场景化，而现在的科学技术已经实现了，只要有空间就能够营造出文化体验场景。

两办文件当中指出了非常明确的体验场景，一个就是文化教育设施，包括新时代文明实践中心、学校，还有公共图书馆、文化馆、博物馆、美术馆、影剧院、新华书店和农家书屋。另外一方面公共场所，就是刚才提到的旅游景区、社区、购物中心、城市广场、商业街区、机场车站等等。这些都是应用场景，所以文化大模型应用非常广。

文化大模型开发应用的关注点

在这方面我主要提供一个宏观思路。

我们这次发布的文化大模型是由中国公共关系协会文化大数据产业委员会和华为云计算技术有限公司基于华为盘古大模型而联创的。华为的盘古大模型实际是一个基础大模型，我们在基础大模型的基础上形成了行业模型，也就是文化大模型。然后大家再基于文化大模型开发场景模型，也就是它的专业模型。

所以我们讲大模型是分层分类的，这块大家根据刚才国家图书馆出版社、中数、超星、雅昌文化、南京文投和玖扬公司的一些应用场景展示，这个特点已经体现出来了。

更重要的是通过这些应用场景的展示，大家注意到一个非常重要的特点，就是我们是把大模型当做工具来使用的，包括自动标注，包括文生图，包括我们用CV模型来进行数据的开发应用，这都是从生产的角度去做的，这是我们讲大模型当中关注的第一个点。

第二个点就是要区分常识和知识。在这个问题上，大家过去可能讲得不是特别多，实际上常识和知识还是可以分开的。

我们讲有这么几个点，第一个点就是常识是对已知世界认知的成果，而知识是对未知世界认识的成果，这是常识和知识之间的一个区别。

根据这样一个区别，派生了以下三个方面的区别：

常识是具有普及性的，而知识是具有探索性的；

常识具有稳定性，而知识具有不确定性或者是可变性；

常识是面向大众的，主要是普通老百姓，而知识是面向小众的，主要是知识阶层。

所以我们讲文化大模型，更看重的是常识。实际上我们面向的是大众，通过我们的文化大模型，能够使得大家获得常识更加便捷、更加智慧化。这是我们想的第二个关注点。只有大家把常识掌握了，才能够去探索未知的世界和未来的世界。

第三个需要关注的点就是我们现在人工智能，是讲生成式人工智能。有一种新的生产方式叫AIGC，就是人工智能自动生成内容，我们觉得AIGC一定需要PGC加持，也就是专业生成内容加持。所以在过程中我们需要把握两点，第一点就是在大模型与应用场景之间应当有一个训练的答案池，叫提示词工程，实际上这个就意味着文化大模型开发应用过程是一个非常大的产业。

所以我们想整个的从大模型到整个的应用场景中间应该有一个非常专业化的通道，就是我们讲的PGC，而这恰恰是一个可以做大的产业，也就是说我们从大模型和应用场景之间，一定是有一个TO B的环节，然后才能够进入到TO C的环节。这是我想提醒的一点。

第二点就是在进入消费端之前应当建立一个隔离带，也就是专业化的核验过程。这两者之间与刚才我们提到的提示词工程是TO B再到TO C是完全一致的，是一个问题的两个方面。

只有这样，我们才能够确保TO C端的每一个消费者从大模型当中得到的这些常识，是经过了专业的机构，专业的人认可的内容，从而保证我们的文化大模型在开发应用过程中能够顺利地进行，这一点尤为重要。如果缺少这一点，我们是没有办法确保文化大模型进入到一个健康发展的轨道。

作者介绍：高书生

中央宣传部文化体制改革和发展办公室原副主任、一级巡视员，中国公共关系协会文化大数据产业委员会副主任。2003年以来，参与文化体制改革总体文件和配套政策、文化产业振兴规划、文化产业促进法、文化产业统计标准、金融支持文化产业、文化和科技融合、文化数字化和文化大数据等文件制定，发表多篇文章，出版《感悟文化改革发展》、《文化数字化：关键词与路线图》、《国家文化数字化战略怎样落地落实》等著作。（根据讲话录音整理）