环球微资讯！专访华傲数据董事长贾西贝：数据是大模型的胜负手|AI地理图鉴

2023-06-30 18:05:40　　来源：科创板日报

财联社6月30日讯（记者付静）近日深圳市重磅发布的《深圳市加快推动人工智能高质量发展高水平应用行动方案（2023—2024年）》（以下简称《行动方案》）强调，支持本地龙头企业加大人工智能投入。

深圳AI产业链企业研发/应用进展如何？各企业对于深圳AI产业发展有哪些看法及建议？带着这些问题，财联社记者与深圳市人大代表、国内头部公共数据加工治理企业华傲数据董事长贾西贝进行了深度对话，以下为采访实录。

(资料图)

深圳数据和人工智能产业有哪些优势？

财联社：您认为深圳数据和人工智能领域的发展水平在一线城市中排在怎样的位置？

贾西贝：目前一线城市对人工智能都比较重视，北京、上海、深圳、广州各有千秋。北京有百度、头条等一些大型科技企业总部和旷视、第四范式等专业人工智能头部公司，也是很多央企总部、国家级科研机构和大学的所在地，对人工智能比较重视，多年前就成立了智源人工智能研究院等新型研发机构，今年快速出台了相应政策，有很大优势。上海在芯片企业和头部专业AI公司方面也有优势。

但深圳的优势非常明显，第一，有全国最好的营商环境和创业氛围，非常多的数字科技公司、硬科技创新企业在深圳发展，产业链完备，创新活跃、后劲大；第二，有全国最丰富的大模型应用场景，很多专家认为每一个行业都值得用大模型重新做一遍，深圳在这些行业的大量应用场景中在全球占有重要影响力，从互联网与通信、消费电子、新能源车到黄金珠宝加工等；第三，通过鹏城实验室建立了国际上数一数二的智能算力基础设施；第四，在整个数据要素市场化方面，深圳是国内做得最好的城市之一，深圳数据交易所现在是全国交易额最大的数据交易所；第五，深圳是全国最早开展跨层级、跨部门、跨系统、跨业务大规模数据治理工作的城市，2013年以来获得过国家政务信息共享示范市和信息惠民示范城市等很多相关荣誉，十年来积累了大量城市公共数据，在秒批、数字营商环境、政策AI计算器、以及政府便民热线、基层治理、法院工作、一网统管等领域的AI写报告等方面发挥了重要价值，已经实践证实可以为大模型提供非常好的养料；第六，深圳在数据和人工智能的立法与政策方面是全国的领头羊，无论是全国第一部综合性数据立法的出台，还是人工智能、自动驾驶的立法以及针对数据交易、大模型等的相关政策都走在全国前列；第七，在大型科技企业、央企总部和专业AI及数据公司方面，深圳有华为、腾讯、中兴、平安、中电子、奥比中光、云天励飞、优必选、华傲等。

财联社：整体而言，您怎么看《行动方案》对深圳AI产业发展的意义？对本土相关企业、产业将带来哪些机会？

贾西贝：第一，从使用者的角度来讲，现在有toC、toB、toG的大模型，《行动方案》肯定会促进在深个人、企业包括政府更广泛地应用大模型，享受大模型带来的红利。第二，大模型刚出现时训练成本非常高，现在则走入一个分段创新、开放参数、开源算法、分工协作的时代，分工协作的生态化体系代替了单一公司的全栈开发，每个公司有自己的资源基础和优势，通过生态的开源开放复用了高代价的无监督学习、有监督学习的训练成本，就大大降低了门槛，形成了百花齐放、百家争鸣的百模大战、千模大战的市场现状。我认为大模型是非常讲生态的，深圳就有非常好的大模型生态。

“旧时王谢堂前燕,飞入寻常百姓家。”这句诗可以很好地概括这一年大模型的发展趋势。

“数据是大模型的胜负手”

财联社：“数据”是此次《行动方案》中的高频词，比如《行动方案》指出，强化数据和人才要素供给方面，建立多模态公共数据集，打造高质量中文语料数据；进一步做大深圳数据交易所交易规模，鼓励行业龙头企业、平台型企业提供高质量数据产品和专业化数据服务；重点培育数源商、数据开发商、数据服务商、平台服务商等多元主体等等。您怎么看《行动方案》里数据相关的指示？

贾西贝：整个《行动方案》出台的过程其实比较快，后续可能还会有一些新政策出来。深圳一直以来在算法和数据监管方面做了很多工作，比如出台了全国第一部数据领域综合性立法，但此次《行动方案》更侧重技术、人才和算力，在数据和人工智能监管方面讲的比较少。

大模型需要很好的监管，其一在于大模型生成内容的滥用可能会污染整个互联网，也会污染大模型本身，模型滥用最近几周也发生了好多案例；其二是人工智能生成的内容和非人工智能自然产生的内容二者如何区分的问题；其三是人工智能的知识产权问题，比如AI绘画的训练集里可能有上千万艺术作品，将上千万艺术作品做融合是否算抄袭？是否允许人工智能作品和非人类创作主体申请知识产权？

再回到数据的问题，大模型训练实际是语元（token）化的训练数据变换（transform）成模型及参数的过程，通常不具有去隐私和脱敏能力，这样就导致对模型的监管和对数据的监管密不可分，其实对人工智能的监管很大程度上是要穿透算法和模型去监管用于训练的底层数据，包括底层数据的授权与盗版的问题，个人信息保护的问题，数据安全保障的问题，粗俗内容与脏话的问题等。

从自上而下的角度看，AI监管要穿透模型监管数据；从自下而上的角度看，底层数据会约束、污染上层模型和应用。种瓜得瓜、种豆得豆，底层训练数据隐含了什么样的知识、什么样的文化、什么样的思维、什么样的意识，上层的模型和应用就会有什么样的能力和风格。因此说，训练数据的边界约束了模型与应用的边界，训练数据的问题会污染模型与应用。在数据治理领域，有个GIGO（Garbage In，Garbage Out）金法则叫垃圾进、垃圾出。不可能期待在脏话满篇、谬误百出、思维偏执的数据中训练出优雅而正能量满满的大模型。

现在对于人工智能大家的关注点可能更集中于算力、模型、算法、技术、人才，但我强烈呼吁一定要关注数据及监管。

财联社：您认为大模型数据目前面临哪些难题？

贾西贝：一些专家都在强调说，数据比算力更稀缺，数据是大模型的胜负手。为什么数据比算力更稀缺？因为算力可以通过花钱买显卡或者租云上的算力，数据不一定可以花钱买，数据天然包括了知识产权、个人隐私、数据安全等问题。

同时，人工智能大模型对数据的消耗至少要比最终模型的参数数量大1到2个数量级，模型训练得越来越大，对数据的消耗也越来越大。其实数据某种程度上是不可再生资源，有统计指出到2026年人类能投喂给人工智能的自然数据会被用光，数据荒可能很快会伴随着大模型的时代很快到来。

数据这块的缺口我觉得非常大，而这只是全球整体的情况，具体到中国，中国互联网巨头即使在大模型上投入很多，其训练的相当大的训练集还是英文，中文训练集比英文训练集还要荒得厉害，所以有的专家讲，现在高质量中文训练集的丰富程度可能不及英文训练集的十分之一甚至不及百分之一。所以从这些意义上来讲，数据比算力更有挑战性。

数据荒如何解决？

财联社：公司对于深圳的人工智能产业发展做出了哪些贡献？后续在助力深圳AI产业发展方面有何计划或目标？

贾西贝：华傲数据一直以来专注数据治理。第一，华傲数据能做的就是通过公共数据治理，使更多数据成为喂养大模型的养料、成为高质量的训练数据；第二，大模型将来可能分成公有大模型和私有大模型。大模型的使用是有边界的，不是所有大模型都能开放给所有的工作来使用，将来私有的大模型会很多。华傲数据会促进私有的训练数据在政府的决策、管理、服务场景中训练更多的模型。

此外，我们正在筹备组建深圳首席数据官（CDO）联合会，联合深圳人工智能学会、深圳大数据研究与应用协会、深标协、深咨协、深圳数据交易所、DAMA中国等单位发起一个算料联盟，收集全国政策、法律、标准、论文、程序代码、基因和蛋白质组等数据，创造更高质量、更大的训练集，在多模态时代、大模型时代解决数据领域难题。

过去十余年我们看到了深圳大数据和人工智能发展的良好营商环境和非常适时的政策推进。后续我们会进一步和在深甲方单位、深圳数据交易所促进公共数据在公有大模型和私有大模型里的价值发挥。我觉得将来的大模型竞争恐怕是得场景者得天下、得数据者得天下，私有大模型会成为AI浪潮长期的星辰大海。

财联社：您所说的算料联盟是否有具体的时间规划？

贾西贝：我们计划通过筹建中的首席数据官联合会逐步把深圳、大湾区、全国的首席数据官聚集起来，共同解决数据荒问题，计划今年年内成立起来。

财联社：当前生成式人工智能引发的新一轮智能化浪潮中，公司面临着哪些机会？您感受到的数据需求怎么样，是否有明显的提升？

贾西贝：数据方面，我们是国内数据质量方面的标准领跑者，为全国26个省、58个城市提供了数据支撑服务。场景方面，华傲数据有着决策、管理、服务三大场景的多年深耕所积累的服务经验，以及数据授权运营、定标定质、标测质测、训练数据质量提升与筛选、众包标注和算法标注等方面的创新实践。模型和算法方面，华傲数据的人工智能团队聚焦文本智能中的自然语言理解与生成（NLP）、代码智能中的数据低代码及SQL脚本翻译与生成，目前在智慧城市相关的AI写报告、AI理政策、AI助审判、AI迁SQL脚本等垂直场景已落地应用。

数据的需求肯定是提升的，但目前需求不主要来自大模型，整个社会的数据需求呈现平稳增长的态势。数据要素市场化也好，数据基础制度也好，并不是专门针对大模型的，整个数据产业不仅在大模型这个方向上迎来一个重要发展期，在其他方向上也不像早期有很多泡沫，数据的价值在逐渐释放、逐渐发挥。

（编辑曹婧晨）

关键词：

相关新闻