数联网:重塑智能时代的数据供给体系

2025-11-14 14:34
来源:《中国网信》2025年第10期

大数据的出现为人类认识世界带来了全新的思维视角,同时也提供了探索客观规律、改造自然与社会的全新工具和方法,推动网络空间从“计算为中心”向“数据为中心”转型。数据空间可视为网络空间发展的新形态,是继计算空间1.0(机与机之间基于网络连接构成)、信息空间2.0(人-机和物-机基于信息连接构成)之后的数据空间3.0(人-机-物基于数据连接构成)形态,是数据实体、数据活动(数据的感知、传输、存储和处理等)及其相互之间的关系构成的物理世界的数字映像或孪生。各种智能化应用运行在特定数据空间内,以满足各类场景化需求,实现数据价值最大化释放。


科学范式跃迁:数据空间的形成机理与大模型的理论根源


当前,生成式人工智能大模型通过对高质量数据的关联分析,参数化表征海量知识、自监督学习人类认知模式,展现出前所未有的通用智能潜力,极大加速了数据空间的转型。


第一,科学第四范式与数据空间形成的必然。


科学第四范式(以下简称“第四范式”)是指数据密集型科学(数据科学),由图灵奖得主吉姆·格雷(Jim Gray)于2007年首次提出。它是大数据时代下人类科学发展继实验科学、理论科学、计算科学之后的新型科学研究范式。在传统科学研究范式下,科学家需要预先假设一个理论,然后针对这个理论定向地搜集相关数据,进而通过实验验证理论的正确性。而在第四范式下,科学家不再需要清晰的假设,仅通过对大量数据的关联分析即可得到一个全新理论。


第四范式标志着人类对世界的认知从“假设驱动”向“数据驱动”的跃迁,而数据本身即构成了科学发现的本体。随着第四范式向各个领域不断演进,以数据为生产要素,算法、算力为生产工具的生产模式已经成为驱动数字经济发展的元动能。连接多方数据、算法、算力等资源,构造各类数据产品,实现数据价值释放的基础设施——数据空间应运而生。


第二,大模型带来数据空间资源供给体系的结构化矛盾。


以美国开放人工智能研究中心的ChatGPT、中国深度求索公司的DeepSeek为代表的生成式人工智能大模型技术的出现,进一步加速了对数据要素的价值挖掘,也给数据空间资源供给体系带来巨大挑战。


大模型技术的快速发展正在重塑数据空间资源供给体系的基本逻辑。以DeepSeek为代表的推理模型不仅打破了算力霸权,更通过模型开源、算法创新和成本重构暴露出传统数据空间资源供给体系与智能时代需求之间的矛盾。这种矛盾首先体现在数据供给模式的根本性转变上——当模型生成数据成为新型供给方式,传统依赖人工标注和真实数据采集的线性供给体系面临价值重估。DeepSeek-R1-Zero模型通过大规模强化学习实现无标注训练的创新实践,使得数据生产要素的创造主体从单一的人类社会活动扩展至人机协同生产。这种转变在提升数据生产效率的同时,也引发了数据确权、质量评估和流通规则的重构需求,传统供方视角自下向上的数据供给链条已难以适应生成数据的动态特征。


更深层次的矛盾源于数据质量要求的升维。随着推理模型向专家级思维链演进,高质量真实数据的重要性不降反升,进一步对现有数据空间资源供给体系形成双重压力。一方面,基础模型训练仍需海量真实标注数据支撑规模定律,医疗健康、工业制造等垂直领域对专业数据的渴求持续加剧;另一方面,多模态数据的稀缺性矛盾愈发凸显,特别是视频标注数据和小语种语音数据集的结构性短缺已成为制约多模态大模型能力跃迁的关键瓶颈。这种数据质量要求的升维与当前数据资源碎片化现状形成矛盾。大量高价值私域数据沉睡在各类业务系统中,其形态碎片化、权属模糊化、价值封闭化的特征与智能时代的数据需求形成鲜明反差。


数据应用场景的爆炸式扩展进一步加剧了供给体系的结构性失衡。DeepSeek开源生态引发的“模型平权”效应,使得超过200家头部企业在两个月内快速接入,这种行业数据应用的集体觉醒暴露出传统数据空间资源供给体系的响应迟滞。当传统行业巨头转向深度开发私域数据时,既有的数据中台架构在跨系统协同、动态资源调度等方面显现出明显短板。而智能体技术的突破性发展更将矛盾推向新高度——机器人实时操作数据、智能网联汽车多模态感知数据等新型数据产品的开发、运行,要求供给体系具备毫秒级响应能力和复杂环境自适应能力,这与当前“静态资源池+固定调度规则”的传统架构形成代际落差。


这些结构性矛盾本质上反映了工业时代条块化的数据管理范式与智能时代网络化的数据资源需求之间的根本性冲突。当DeepSeek推动通用人工智能发展进入“推理模型-智能体-组织智能”的新阶段时,数据空间资源供给体系不仅需要应对规模、质量、时效等量级挑战,更需重构数据与算力、算法的协同关系,建立适应“数据即服务”“模型即服务”“算力即服务”新型业态的基础设施。这种变革压力正在倒逼数据空间资源供给体系进行范式革命,从传统的数据资源管理平台转向基于数联网的数据资源互联网络,通过数据资源实体化、资源关系网络化和资源调度智能化,破解供给体系的结构性矛盾,为形成数据驱动的正反馈循环机制、实现智能时代的“数据飞轮”效应(即以数据作为核心驱动要素,通过构建数据增强回路,最终达成系统的自我加速迭代与长期持续运转能力)提供关键驱动力。


数联网:基于第四范式的数据空间应用基础设施技术体系


北京大学同数据空间技术与系统全国重点实验室以第四范式为原理支撑,提出智能时代数据空间应用基础设施技术体系——数联网。数联网以数据为中心,将数据要素价值释放的过程抽象为数据、算法、算力等资源在不同场景下的有机结合与协同复用,并将其建模为各类数字对象相互连接所形成的数字对象互联网,进而实现异构、异域、异主、异地信息系统之间的数据资源实体化、资源关系网络化、资源调度智能化,支撑私域数据要素的广域互联及智能化复用。


第一,数据资源实体化封装:从业务附庸到逻辑实体,凝结数据空间的“骨骼肌肉”。


数据资源实体化封装是构造数联网的基础,其本质在于将数据、算法等资源与应用系统业务逻辑解耦,使资源成为可直接管理、独立存在的逻辑实体,凝结数据空间的“骨骼肌肉”。


在传统信息化架构中,计算机应用都是按业务需求设计信息系统、按系统功能组织数据,数据紧密耦合在应用之中,数据往往作为业务系统的附庸存在,其存储结构、访问接口、管理模式均深度耦合于特定业务逻辑。这种耦合状态导致数据资源呈现三个缺陷:形态碎片化(同质数据在不同系统中重复存储)、权属模糊化(数据生产、存储、使用主体交叉重叠)、价值封闭化(跨系统数据调用需重建接口和语义)。


数联网基于图灵奖得主罗伯特·卡恩(Robert E.Kahn)提出的开放式数据管理技术体系数字对象架构(Digital Object Architecture,DOA)实现数据资源与业务系统的解耦。通过对象化封装,数联网使数据成为一个个直接可见、可用且独立的逻辑实体——数字对象,向下不依赖软件和硬件环境,向上不依附应用和业务逻辑,在复杂、变化的业务逻辑中保持数据访问的简化、统一。目前,数联网已发布DOIP(数字对象接口协议)新版协议并被数字对象架构采纳,掌握了数字对象架构技术及标准体系的国际话语权。


第二,数据标识互联网络:数据-算法-算力的场景化互联,形成数据空间的“血液循环”。


标识互联网络是数联网的全局视图,其核心是构造一张连接各个“数据孤岛”的桥梁网络,使数据、算法、算力等资源可以直接被全网发现、定位并在“数据孤岛”之间流通,形成数据空间的“血液循环”。


数联网基于数字对象架构将耦合在业务系统中的数据资源变成可以被独立管理、直接访问的数字对象,但数字对象仍然分散在成千上万的“数据孤岛”之中。此外,在第四范式下,数据的潜在需求者、使用方式、使用目的、发挥的效用均无法预知。如何激活数据潜在价值、高效进行数据供需匹配是数联网需要解决的另一大挑战。传统数据共享交换平台从供方视角出发,通过建设一个数据中台、编制一张数据目录、详细描述数据资源,面向数据潜在使用方提供数据资源浏览及检索服务。这种供方视角构造的条块式数据平台建设成本高、供需匹配率低且互联互通程度差,客观上形成了一个个更大的“数据孤岛”。


数联网从需方视角出发,基于数据的场景化语义(数据语用)描述该场景下数据、算法、算力的资源需求,形成数据资源供需匹配的基本单元。在此基础上,基于数据、算法、算力的标识及元数据,构建跨场景的数据语用关系链接。随着数据、算法在不同场景下的有机结合及复用,数联网上将逐渐形成一张连接“数据孤岛”的跨系统、跨主体、跨领域的数据语用关系复杂网络,实现需求驱动的数据发现及定位。随着标识互联网络规模的不断扩大,数联网上数据发现成本会进一步降低,这将激发“数据飞轮”效应——更多数据资源接入推动更精准的供需匹配,而更高效的流通又吸引更多主体参与,最终形成指数级扩张的数据空间应用生态。


第三,数据空间操作系统:智能资源调度引擎,打造数据空间的“神经中枢”。


数据空间操作系统是数联网的调度中心,其本质是以数据为中心,构建数据、算法与算力等资源的动态适配框架,突破传统“计算为中心”的架构中“静态资源池+固定调度规则”的局限性,打造数据空间的“神经中枢”。


在传统“计算为中心”的资源调度体系中,其核心逻辑是围绕微观层面的计算资源时间片分配与优化展开任务调度,将计算节点、存储设备等硬件资源抽象为静态资源池,通过预设的调度规则(如负载均衡算法、优先级队列)进行任务分配。这种模式存在局限性:数据规模大导致网络传输高时延;数据异构性强导致固定调度策略难以适配;更重要的是,数据本身未被作为独立要素纳入调度决策,造成算力资源与数据特性的错配。


数据空间操作系统将数据空间应用的资源调度抽象为“数据、算法、环境”在不同场景下的动态匹配,从宏观层面进行广域资源协同调度:首先,基于语用理解引擎对数据任务需求进行多维度解构,将大模型训练、智能体协作等第四范式任务的异构需求转化为可量化的资源需求描述;其次,依托数据标识互联网络构建的全域资源视图,通过寻址定位系统发现、匹配广域分散的数据资源、算法模型和硬件设施;最终,在应用执行过程中实现任务需求-资源成本的动态均衡,实时感知数据的空间分布、访问热度、隐私等级等动态属性,运用多目标优化算法生成最优调度方案,将传统响应指令的被动式资源调度演进为理解意图的主动式资源自适应匹配。


数联网的技术突破标志着数据空间应用基础设施从“连接型”向“认知型”的范式跃迁。其价值不仅在于提升资源利用效率,更在于重构智能时代的数据生产关系——通过建立数据要素全域流通的数字对象互联网络,让分散的数据、算法、算力等资源能够像生物体内的养分一样,精准输送到需要它们的智能应用场景中,真正释放数据作为新型生产要素的乘数效应,为构造高效可用、安全可控、智能敏捷的数据产品提供关键技术支撑。


数联网的实践路径:国家数据基础设施的技术底座


目前,数联网已经构建了以开放协议、开源软件为基础的技术体系,形成从科学原理到技术实现再到解决方案的“产学研用”协同创新的一体化生态,其关键技术已被国家数据基础设施采纳,写入《可信数据空间发展行动计划(2024—2028年)》《国家数据基础设施建设指引》等数据基础设施政策文件,支撑医药、科学、教育、文旅、通信等多个行业的数据空间建设及数据要素的流通利用。


数联网典型案例之一:基于数联网的临床试验数据流通利用。


药物临床试验是药品批准上市的关键环节,是评价药物有效性和安全性的关键步骤。药物临床试验需要在临床研究机构(医院)、药物研发企业(药企)和监管部门(药品监督管理局)之间进行大量数据交换,完整、一致、真实的临床试验数据是药品安全性和有效性的源头保障。临床试验数据分布离散、关联复杂、敏感度高且数据真实性极为重要,高效、可控、可溯的流通利用是医疗健康数据基础设施建设的基本目标。


针对此问题,北京大学联合中国生物、中日友好医院等药品研发领域的国内优势力量,基于数联网技术体系建设面向药物临床试验的数据基础设施。通过部署在医院、药企的数联网接入终端按需提取脱敏数据,并封装为具有唯一标识、可标准化流通的数字对象;通过数联网路由系统按需连接各个网关,提供跨网关的数据发现、定位、访问能力,支持药企获取分布在各个医院中的临床数据,并开展药物临床试验;通过关系存证系统记录数联网中的数据流转关系,构建一张基于标识的药物临床试验数据关系网络。


数联网已在400多家医院和药企之间建立了一个混合云架构的药物临床试验数据基础设施,高效率、低成本地打通了医院、药企及监管部门之间临床数据可审、可控、可溯的流转通道,极大提升了数据驱动的智能制药研发及智能监管效率,缩短新药研发周期约30%,降低新药研发项目成本约25%,单一药物研发成本可节约数百万至数千万元。


数联网典型案例之二:科学数联网支撑跨学科数据融合分析。


科学数据开放共享是科学数据基础设施建设的基本原则,但科学数据流通共享面临数据体量大、结构差异大、数据来源分散、跨学科需求强等挑战。针对“融合科学”多中心科学数据协作的需求,国家基础学科公共科学数据中心联合国家空间科学数据中心、国家气象科学数据中心等多个国家科学数据中心,基于数联网技术及架构建设多学科跨领域的科学数据基础设施,通过流水线智能编排、跨域任务协同调度、跨进程流计算、跨场景数据关联等技术手段,实现了跨领域、跨地域多个科学数据中心之间数据、计算、模型的调度与整合,解决了传统跨域数据处理流程中的效率低、错误率高等问题。


科学数联网支撑了多个典型多学科跨领域融合分析应用。例如,在黄河流域交叉学科应用场景中,有效支撑了黄河流域淤地坝识别与生态价值评估,实现了分布于冰川冻土沙漠、对地观测、农业、气象等4个国家科学数据中心的TB级数据资源及近20个模型算法的网络化接入,支持淤地坝提取、淤地坝生态效益评估等跨区域、跨领域流水线的协同调度,以及淤地坝评估数据及报告的定期生成和发布。目前,科学数联网已经支撑了20TB数据资源、160个模型算法的融合与协同调度,同时具备高可扩展性。


数联网作为智能时代的数据空间应用基础设施,融合数据语用机理和数字对象架构,以“解耦-互联-调度”为核心逻辑,实现了私域数据的广域互联互通及按需调度,为构造人机协同的智能化、网络化数据空间应用生态提供了核心技术支撑。


当前,人工智能作为引领新一轮科技革命和产业变革的战略性技术,正在深刻改变人类生产生活方式。我们应抓住这个历史性机遇,加快推进数据空间基础设施建设,重构工业时代的条块化数据资源供给体系,加速智能时代数据要素价值的挖掘与释放,为形成全国一体、全球互联的数据空间提供切实可行的方案。


原标题:《数据空间应用基础设施技术挑战与数联网解决方案》


作者:黄罡系数据空间技术与系统全国重点实验室主任、北京大学人工智能研究院副院长;罗超然系数据空间技术与系统全国重点实验室副研究员