我院孟小峰教授团队在人民论坛发布有关数据垄断及其治理模式的研究成果
近日,人民论坛发布了ダファベット 入金不要孟小峰教授有关数据垄断及其治理模式的研究成果。
孟小峰教授团队基于3000万真实用户数据和30万APP数据,对当前的数据收集情况进行了量化分析发现,当前数据垄断形势异常严峻,对数据进行有效治理迫在眉睫。
孟小峰教授首先以当前数据收集者们的数据获取量为依据,分析了数据垄断的成因。然后提出了三种数据治理模式,以缓解数据垄断形势、促进数据安全与公平的共享流通。最后,孟小峰教授指出:数据透明是解决数据垄断问题的根本途径,是未来数据治理的必经之路。
作为中央主流媒体、重点党刊、思想理论传播重要平台,《人民论坛》全方位集结思想动态、深层次研判政策时局、多视角解析热点难点,互动传播名家大家和实践一线官员的精品力作与前沿思考;被读者誉为具有国际影响力的“中国第一政论期刊”,转载率、引用率、影响力、关注度名列同类期刊前茅,反响巨大。当前,《人民论坛》已成长国内领先的高端思想理论传播平台。
破解数据垄断的几种治理模式研究
来源: 人民论坛 作者: 孟小峰
原文链接:
【摘要】随着数据的累积,不同科技企业在数据资源的储备量上的差异愈加明显,数据垄断逐渐形成,并催生了“堰塞湖”,导致各企业间的数据难以互通,用户隐私泄露问题随之凸显。因此,通过有效的数据治理来缓解数据垄断形势、促进数据安全与公平的共享流通刻不容缓。一方面应完善当前的数据治理模式,发挥现有治理手段的作用;另一方面要积极开拓透明化的数据治理框架,解决以数据垄断为主的数据伦理问题,构建健康有序的中国大数据生态。
【关键词】数据垄断 数据治理 数据透明 【中图分类号】F49 【文献标识码】A
大数据时代,海量数据的累积催生了数据挖掘、机器学习等新兴技术,同时也为这些技术预测未来、作出决策提供了基础,为社会创造了前所未有的价值。随着数据的累积,数据作为驱动人工智能等技术发展的重要资源,逐渐成为各科技公司争夺的主要对象,不同科技企业在数据资源的储备量上的差异也愈加明显,数据垄断逐渐形成,并催生了“堰塞湖”,各企业间的数据难以互通,并且由于数据本身与个人隐私的密切关系,用户隐私泄露问题亦随之凸显。笔者带领团队基于3000万真实用户数据和30万APP数据,对当前的数据收集情况进行了量化分析发现,当前数据垄断形势异常严峻,对数据进行有效治理迫在眉睫,而数据透明化应是未来数据治理的主题和必经之路。
当前移动应用软件市场的数据垄断现状
为量化当前移动应用市场的数据垄断情况,笔者基于3000万真实用户数据和30万APP数据,使用权限分析法对2018与2019两年大数据收集现状进行分析。分析的主要对象包括:数据生产者,即产生数据的个人或机构,在移动应用场景中通常指移动用户;数据收集者,即以主动或被动的方式收集数据的个人或机构,在移动应用场景中通常指APP开发商;数据使用者,即以任何形式处理或使用数据的个人或机构,在移动应用场景中它可以是数据收集者,也可以是通过数据流通、共享等方式获取数据的第三方;数据监管者,即在数据收集、流通、使用过程中对数据进行合法监管的个人或机构,通常包括相关政府机构和可信第三方等。分析结果显示,当前移动应用市场数据垄断形势十分严峻,10%的数据收集者可获取99%的用户权限数据,数据收集的不平衡现象远甚于社会财富分配中的二八定律。
首先,从总体数据垄断现状来看,为详细阐明该数据收集现状,笔者根据获取权限数据的数量级对数据收集者进行划分,将获取1亿及以上权限数据的收集者定义为“亿级权限数据收集者”,获取1亿以下1千万以上权限数据的数据收集者定义为“千万级权限数据收集者”,并以此类推。主要结论如下:根据2019年总体数据收集状况,当前数据垄断形势严峻,极少数数据收集者垄断了绝大部分权限数据。2019年度数据垄断的“主力军”是占据所有数据收集者数量1%的“百万级、千万级、亿级的权限数据收集者”,他们可获取约92%的权限数据。对比2018年度与2019年度数据垄断状况,前10%的权限数据收集者获取的权限数据量占比略有减少,但总体上数据垄断态势居高不下。具体而言,不同级别权限数据收集者的数量与获取数据量的对比分布如图1所示,“百万级、千万级、亿级的权限数据收集者”本身的数量极小,但权限数据获取量均在10%以上,而其余大量的数据收集者可获取的数据量不足3%。该状况从不同比例数据收集者获取权限数据分布情况中体现得更为明显,如图2所示。表1给出2018年度与2019年度权限数据收集的对比情况,其变化量为负值说明这些权限数据收集者获取数据量占比有所减少,但权限数据收集者数量超过5%后,其获取数据量的变化微乎其微。可见,我国总体数据垄断形势依旧严峻。
其次,从分类数据垄断现状来看,笔者所在团队对Google Play及国内第三方应用网站中APP分类进行调研,将当前市场上的APP划分为20类,分别是安全类、生活类、社交类、办公类、理财类、购物类、教育类、儿童类、旅游出行类、摄影图片类、视频类、工具类、通信类、新闻类、医疗类、音乐类、游戏类、娱乐类、阅读类和运动类。基于该分类,得出如下结论:每类APP的数据垄断形势都十分严峻,前10%的数据收集者均收集了不少于97%的权限数据。各类APP中,工具类、社交类和游戏类为数据垄断的重灾区,教育类和阅读类的数据垄断状况较总体水平有所缓解。具体情况如图3所示,工具类、社交类和游戏类的前0.1%数据收集者收集了约80%的权限数据,前1%的数据收集者收集了约95%的权限数据,而前5%的数据收集者就收集了约99%的权限数据。在形势较为缓和的教育类和阅读类,前1%的数据收集者收集了约75%的权限数据,低于该比例数据收集者对应的总体占比。
最后,从主要数据收集者垄断现状来看,笔者对数据获取量排名前5的数据收集者对比分析,以展示当前主要数据收集者的垄断现状。为保护数据收集者的个体隐私,该分析隐藏这5个数据收集者的名称,仅提供统计性结果。这5个数据数据者,最多的可获取8%的权限数据,最少者可获取3%的权限数据,累计可获取近24%的数据。也就是说,仅这5个数据收集者,就可获取约1/4的用户数据。其中,3个数据收集者所开发APP涉及了18个以上的APP类别,其余2个数据收集者侧重于单个领域,其开发APP仅涉及了不足5个类别。这5个数据收集者的共同点是:其开发APP对应的用户量群体均十分庞大。
以当前数据收集者们的数据获取量为依据,分析数据垄断的成因
在严峻的数据垄断形势下,探究数据垄断成因十分关键。当前数据垄断的形成与数据自身的特点、数据收集者们的商业运营模式以及人工智能时代的网络效应密切相关。
第一,数据易聚集、难确权的特性,使得数据垄断易形成。大数据时代,海量数据通过移动设备、传感器网络等源源不断地自动产生,数据的生产成本较低,同时其本身的价值密度也较低,海量数据的价值需通过数据挖掘、机器学习等技术提取。而这些技术本质上是数据驱动型技术,需基于大量数据的输入才能获取高准确性、高可用性的输出结果,造成数据本身易聚集的特点。此外,数据本身的特殊性使其既不同于石油、矿藏类的自然产物,也不同于专利、作品等精神产物,难以确定其所有权。在当前数据不能依据法律法规确权的现状下,数据收集的合理合规性得不到有效保证,易形成数据垄断。
第二,数据寡头多产品、跨领域、高用户量的商业运营特点,是数据垄断形成的重要因素。数据寡头即当前数据垄断的主要对象,对应的就是排名前0.1%的数据收集者。当前数据寡头们通过业务扩张、资本运作、并购等方式完成企业扩张,导致其具有多产品、跨领域的商业特点,并据此吸引或维系海量用户,从而具有海量数据收集的能力,形成数据垄断。分析结果表明,在移动应用市场,数据收集者们开发APP的数量越多、使用量越高、涉足的领域越多,其获取的权限数据量越大,越有可能成为数据寡头,形成数据垄断。显然,前0.1%的权限数据收集者的这三个因素比其他权限数据收集者明显高出数倍。
第三,人工智能时代的网络效应促进数据垄断形成。人工智能技术数据驱动的特点使其本身就具有网络效应。随着人工智能技术产品使用的用户量激增,该技术可获取更多用户的数据输入,从而可创建可用性更高的数据模型,增加其自身价值的同时吸引并服务于更多用户。当前移动应用市场上的数据寡头均为大型科技公司,他们均受益于人工智能等技术的支持。相应地,基于其海量的用户数据,他们可持续发展优化其产品与服务,进一步维持并吸引新用户。而本身处于弱势的数据收集者们则限于其产品或服务的升级能力,迫于数据寡头发展的压力逐渐流失用户,滚雪球效应产生,数据垄断现象随之加剧。
缓解数据垄断形势、促进数据安全与公平的共享流通,三种数据治理模式更为有效
严峻的数据垄断形势给当前移动互联网的发展带来了巨大的挑战。数据垄断使得寡头公司拥有大部分的用户数据,在数据驱动的发展模式下,压缩了该领域内其他公司的生存空间,不利于小型企业的发展。数据垄断一定程度上破坏了市场自由竞争的规则,数据寡头公司基于海量数据资本掌握市场主导权。对小型企业的打压,使得消费者失去同类服务的可替代选项。数据垄断有可能阻断小型企业的技术创新,而大型企业利用其丰富的数据可开发多领域的生产经营活动,技术壁垒进一步抑制了新技术的产生。数据垄断使得寡头企业一家独大,掌握对用户数据的控制权,易加剧数据滥用、隐私泄露、用户歧视等其他数据伦理问题的产生。因此,一方面,应规范数据的收集、流通和使用,促进数据资源的合理配置;另一方面,应积极探索用户隐私保护的数据共享方式,促进数据共享流通。现有的数据治理模式包含以下三种:
一是局部模式。在数据流通前,从数据源头基于隐私保护技术对数据进行处理,一定程度上能够限制企业收集大规模数据的行为。当前应用的隐私保护技术主要包括基于扰动的匿名化、差分隐私技术和基于密码学的安全多方计算等,这些技术提供的隐私保护程度越高,收集数据的准确性越差,计算成本也就越高。数据收集者必须平衡隐私保护与数据有效价值之间的关系,从而缓解当前低成本的数据收集垄断局势。在该治理模式下,数据寡头仍持有大部分数据的控制权,数据垄断有所缓解但并未根除,并且需要权衡好数据治理与产业输出之间的关系。
二是中介模式。在数据流通过程中增加第三方中介平台,参与数据流通,促进数据共享。当前的中介平台主要包括数据交易平台、数据众包平台和数据共享平台三种模型,分别适用于不同情景。自2015年国务院印发《促进大数据发展行动纲要》以来,全国范围内涌现出多个数据交易平台,包括以数据包交易为主的政府类数据交易所,如贵州大数据交易所、上海数据交易中心、长江大数据交易中心等,以及以API接口模式为主的民营平台,如聚合数据、京东万象、数据堂等。数据众包平台为企业或个人提供有偿的数据供应及下载途径,目前有百度数据众包、有道众包、蚂蚁众包等平台。数据共享平台包括数据直接共享和数据间接共享两种方式。直接数据共享平台依据必要的设施规则,推动公共部门之间不对称信息的流通和企业之间数据的合理共享,较为典型的是英国人工智能实验室与开放数据研究所合作建立的“数据信托”实验点,其目的是促进多集团之间的数据共享。间接数据共享平台拒绝对源数据的直接共享,支持对本地数据训练得到的模型参数进行共享,而后由多方参与者共同训练效果较强的机器学习模型。该方法符合当前数据驱动的技术发展情景与用户隐私保护的需求,具代表性的是微众联邦学习项目与华为NAIE联邦学习平台。从总体发展现状来看,第三方中介的项目众多,但目前数据交易、共享的规模并不大,具有很大的发展空间。
三是全局模式。对数据产生、流通和使用的整个生命周期进行监管,弱化数据寡头对数据的掌控权,增强数据生成者(即用户)和数据监管者对数据的控制权。该模式主要分为中心化和去中心化两种形式。中心化全局模式是指建立统一的数据监管平台,对数据进行统一管理,如库克提议美国联邦贸易委员会组建的“数据清算所”,通过监管数据流通状况来确保用户对数据的控制权。去中心化全局模式指借助区块链、智能合约等去中心化技术与平台,对数据收集、流通、共享、使用、结算等过程存证,构建可验证、可追踪、可溯源的数据共享与监管机制,目前已有众多政府机构与学术机构在此方面展开研究。全局模式相较其他两种治理模型成本更高,目前该数据治理体系正在构建中,其应用尚不成熟。
数据透明是解决数据垄断问题的根本途径,是未来数据治理的必经之路
上述数据治理模式以政府和IT企业为主要参与者,针对数据垄断、阻塞、不互通等问题提出局部或全局的治理方案,重点在于可监控的数据资产平衡分配。然而,当下的数据垄断问题不仅仅是数据资产的分配失衡问题,更是人工智能时代数据伦理的问题,数据垄断的加剧会导致数据隐私、数据歧视等其他伦理问题的发生。笔者认为,当下大数据的“堰塞湖”已然形成,数据垄断愈发严重,数据隐私与公平问题层出不穷,归根结底是数据收集、流通、共享、使用和决策过程中的不透明性所致。因此,数据透明是解决上述问题的根本途径,是未来数据治理的必经之路。
数据透明,并不表示数据对所有人公开可见,它指的是数据在其生命周期中对其从属主体透明化,即在数据收集、流通、共享、使用和决策过程中,保证数据对其拥有者、使用者和监管者显示部分或全部的透明性。在整个数据透明框架中,数据的隐私必须加以考虑并得到保证。对数据垄断而言,数据透明的应用可促进数据收集、流通和使用记录的生成,从而完成数据的审计、溯源与问责。该方式既可达到数据监管的目的,又可为数据共享方向与方式提供评估依据,结合数据访问控制技术可全方面监控并防止数据垄断的生成。
宏观上,基于数据透明的数据治理应聚焦于以下三个方面内容:第一方面,保证数据质量与价值。数据作为大数据时代科技企业的主要资源,在使用数据治理手段协调各个社会主体利益时,应基于数据透明机制保证数据的真实性、正确性,统一多源数据标准,评估有效数据价值,从而保证数据驱动决策的可靠性。第二方面,评估和监管个人隐私数据的使用。用户作为大数据生产者,极易在数据流通过程中丢失对自身数据的控制权。基于数据透明,可评估和监管个人隐私数据的流向及用途,使用户重拾数据控制权,有效避免数据过度收集与聚积,预防个人隐私数据泄露。第三方面,监管并促进数据流通与共享。这也是阻断数据垄断的重要举措,但在实施时需兼顾数据隐私,考虑各参与主体间的信任模型,平衡各方利益。
具体而言,基于数据透明的数据治理可借助区块链技术实现。基于区块链公开透明、去中心化和不可篡改的特性,可在数据生命周期中的各阶段分别进行有效的数据治理。在数据存储阶段,基于区块链和智能合约存储数据,可达到支持审计的目的,防止该过程中数据伪造、数据篡改、数据标准不统一等问题的出现。在数据收集与共享阶段,可使用区块链保存数据的收集与共享日志,对数据流通过程进行追踪溯源;同时结合策略承诺、违法检测、隐私审计,可在隐私保护技术失效的情况下通过溯源问责保护隐私,并为实施数据监管、防止数据垄断提供技术支持。在数据使用与决策阶段,可基于区块链对数据计算节点进行验证,通过经济惩罚等手段防止恶意参与方的加入,同时验证决策结果的可靠性,确保数据的高效合理产出。
2020年4月6日,中共中央、国务院印发的《关于构建更加完善的要素市场化配置体制机制的意见》提出,要加快培育数据要素市场的概念,并强调了数据的开放与共享。这使得解决数据垄断问题、评估和监管数据的合理分配与使用,变得更加紧迫和必要。同时,它也对数据共享流通方式和数据质量等提出了更高的要求。将数据作为要素应该放在数据治理的框架下加以考量,需要综合考虑数据生命周期内相关参与主体的权利与义务。在未来数据治理的过程中,我们一方面要完善当前的数据治理模式,发挥现有治理手段的作用;另一方面要积极开拓透明化的数据治理框架,解决以数据垄断为主的数据伦理问题,构建健康有序的中国大数据生态,促进大数据产业合理规范发展。
(作者为ダファベット 入金不要教授、博导)
【参考文献】
①《中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见》,中国政府网,2020年4月6日。
②《国务院关于印发促进大数据发展行动纲要的通知》,中国政府网,2015年9月5日。
③《习近平:实施国家大数据战略,加快建设数字中国》,《人民日报》,2017年12月10日。