数据究竟属于谁｜重新思考数字化之十一

胡泳/文如今，人类的各种行为被广泛记录下来，数据似乎以空前的规模产生。

传感器、可穿戴设备和智能装置不断将物理运动和状态转化为数据点。智能手表可以实时捕捉我们的脉搏信息，蓝牙和 GPS可以记录我们在哪里停留购物，摄像头、机器人、无人机广泛应用于智慧城市、智慧社区、智能制造、新零售等AI边缘计算场景，而网络汽车和自动驾驶依赖于对车辆和交通数据的大规模收集和处理。

在浏览互联网或使用社交媒体时，分析工具处理每一次点击。购物兴趣和行为被纳入量身定制的广告和产品。精准医疗的目的是在大量病人数据中寻找模式和相关性，并承诺根据个别病人的具体特点和情况进行个性化的预防、诊断和治疗。金融行业与信息技术的融合交汇，推动金融机构不断发展自身的大数据分析能力，应用于精准营销、实时风控、交易预警和反欺诈、信贷风险评估、供应链金融、普惠金融等方面。工业4.0将制造和生产的步骤数据化和自动化，物联网则将数字化、数据化和网络化的对象进一步扩展。

反复出现的现象是，数据处理将变得越来越普遍和强大。生成和收集个人数据已成为当代经济的一个重要组成部分。现在，我们见证了人类在感知、框架、思维、价值、沟通、谈判、工作、协调、消费、信息保密和透明方面的转变。

更不用说疫情对此的助力。公民为防疫目的交出个人数据，包括位置和电信数据，而政府决策人员则通过人群的实时流动数据，掌控封城政策对市民的影响。手机也可以定位并向可能接触过冠状病毒的人发送未经请求的短信，提醒密接者注意潜在风险。

中国的健康码系统更先行一步，根据居民与病毒影响区接触的密切程度，为他们分配不同的颜色代码，进入公共交通工具、医院、生活和工作设施的机会都与这些数据联系起来，从而事实上形成了对居民的“风险评分”。

国际货币基金组织的两位经济学家严·卡里尔-斯沃洛（Yan Carrière-Swallow）和维克拉姆?哈卡萨（Vikram Haksar）指出，新冠疫情将有关数据的两个基本问题带入了人们的视线：一是数据经济本身并不透明，因而时时处处出现个人隐私被侵犯的情况；二是数据大量存储在私人数据库内，这降低了数据作为一种公共品的价值。

大数据，捡到归我

公允地说，这两个问题长期以来一直存在，只不过疫情让其更加凸显。它们的背后，其实离不开数据时代我们无论如何也无法绕道而行的“天问”：数据究竟属于谁？

大多数国家都奉行“捡到归我”的模式，即谁获取了数据，谁就可以处理、转售它们。该模式往往会导致数据收集过多的现象；例如，你会在APP安装过程中发现，获取权限的请求五花八门，但绝大多数APP索取的权限与实现功能的需求并不匹配。据相关统计，目前在智能手机上平均每安装1个移动APP应用，就需要获取15项以上个人信息。个人变成透明人的趋势越来越明显。

作为使用者，你可曾想到，从GPS、麦克风、电脑软件、手机应用程序、面部识别、生物识别、无人机以及大量部署的高分辨率闭路电视摄像头等收集的大量数据，都去往了哪里？

首先，政府依赖对这些数据的收集，来维系社会秩序、开展社会管理；同时，数据也成为那些控制社交媒体、电商销售和搜索引擎的大型科技公司所持有的私有财产。卡里尔-斯沃洛和哈卡萨指出：“由于数据量越大，分析结果就越精准，这反过来又可以吸引更多的用户下载使用，进而获取更多的数据和利润。这些公司为数据战拨付了巨量资金，这巩固了它们的平台网络，也扼杀了潜在竞争对手。”

考虑到这些数据的价值，科技公司采取严格的数据保密。同时，它们设置技术壁垒，阻碍数据跨平台转移，导致出现了平台通过数据“绑架用户”的普遍现象。这进一步造成数据垄断日趋严重，为获取更多的数据，科技公司频繁并购，并不断向其他产业渗透，加剧数据集中，市场竞争规则遭到破坏。

面对政府的监管与用户的反弹，科技公司一般采取两种方式为自身辩护：一是声称，对用户数据的采集，均经过用户的“知情同意”：即用户读过隐私协议，了解自己将分享哪些数据、对数据享有何种权利，并同意相关安排。

其实，在实践中我们都知道，隐私保护中的一个常见现象是“无人阅读隐私协议”。网络用户虽然在使用服务时不得不点开相关的隐私协议页面，但他们通常会视冗长繁复的法律文本为无物，直奔底下的“同意”按钮。这就导致，所谓的用户同意常常流于形式，勾选同意复选框的授权方式，很难构成真正的用户知情同意。消费者对数字平台如何使用信息仅拥有“有限的知识”，甚至不清楚平台何时以何种方式收集信息、信息的种类和数量，以及是否会将这些信息转给第三方使用。

有观察者认为：“当用户在‘同意’企业协议时难言‘知情’，这一点将同时损害用户和企业双方的利益：其一，企业可能借机攫夺用户对个人数据享有的权益；其二，企业也将因此始终面临数据合规层面的监管风险。”

更何况，相当多的涉及个人信息的交易，用户实际上并不知情，遑论交易授权。这就产生了经济学所称的外部性：数据交换并没有充分考虑到隐私泄露的成本。以个人数据过度或超范围采集而言，采集者给用户留下了数不胜数的隐患：个人数据在数据主体不知情的情况下被转移和流通交易，甚至被不法分子以不正当途径获取并进行非法交易；个人数据进入非正常营销活动，大数据被应用于商业杀熟、精准诈骗、人肉搜索等不法目的；个人数据被过度画像，不正当分析个人生理健康、兴趣爱好、生活习惯、社会关系等个人私密信息，侵犯了个人隐私权益，危害个人安全。尤为令人担忧的是，个人特殊数据被非安全形式采集、存储和流通，包括基因、指纹、孔膜、肖像等个人唯一生物信息，其一旦泄露，后果将更为严重。这是因为，个人生物信息最为独特的特性就是它的不可再生性，一旦泄露，就是终身泄露。

科技公司的第二种防卫方式是流传甚广的“以隐私换便利”的说辞。大数据蕴含的商业价值不言而喻，因为它可以影响用户的消费行为，潜移默化地塑造用户的消费习惯。在这种情况下，科技公司声称，这样的价值交换是双向的，用户毋需直接支付经济成本，就可以体验很多便捷的数据驱动功能。

然而问题在于，用户的数据贡献与价值分享之间，存在巨大的不对等性。随着经济的智能化，数据对人工智能、机器学习等服务的价值不断提高，但由于用户缺乏数据的生产价值方面的知识，使得科技公司具有显著的垄断力量并由此获取高额垄断租金。

保护性与参与性

在上述背景下，最重要的考量是个人主体的基本权利是否得到尊重，以及如何保障这些权利不受干扰。一个经常讨论的话题是，必须厘清数据的所有权关系，也就是一个所有者和她/他的财产之间的关系。然而数据财产有其自身的复杂性。虽然数据具有有形的方面，例如它们与技术-物质基础设施的关系，但它们似乎也与普通资源和有形财产不同。

在一个数字化和数据化的生活世界中，对数据的主张，对于主张个人基本权利和自由，是不可或缺的。这促使我们澄清数据所有权的确切含义，它是如何被证明的，它试图实现什么，以及它是否可以成功地用来促进我们的目标。

数据所有权是指对信息的占有和责任。所有权意味着权力和控制。对信息的控制不仅包括访问、创建、修改、打包、获取利益、出售或删除数据的能力，还包括将这些访问权限分配给他人的权利。

这是戴维·劳辛（David Loshin）在大数据时代之前就比较早地给出的一个数据所有权定义，当时尚未考虑大数据分析及大数据交易。根据劳辛的说法，数据具有内在价值，同时作为信息处理的副产品也具有附加价值，“核心是，所有权的程度（以及由此推断的责任程度）是由每个相关方从该信息的使用中所获得的价值驱动的”。

其后，数据所有权概念经历了复杂的变迁。首先，它可以是一个单纯的防御性、保护性概念。个人需要一个保密的领域，而对其数据的访问和使用的权限允许他们保护这一领域不受国家、公司和其他人的影响。

劳伦斯·莱斯格（Lawrence Lessig）即持此立场，他认为财产权具有工具性价值，因为其促进和加强了隐私：如果我的数据是我的财产，那么在未经我同意的情况下，拿走、使用或出售它们都是错误的。“如果人们把一种资源看成是财产，那么就需要大量的转换来说服他们，像亚马逊这样的公司应该可以自由地拿走它。同样地，像亚马逊这样的公司也很难摆脱小偷的标签”。

财产权可以用来划定一个别人不得干涉的个人领域。“产权的言谈经常受到抵制，因为它被认为会孤立个人。这是很可能的。但是在隐私的背景下，隔离是目的。隐私即是授权个人选择被隔离”。

同样，艾伦·威斯汀（Alan F. Westin）声称“个人信息，作为对一个人的私人人格的决定权，应该被定义为一种财产权”，这也是建立在一种工具性的主张上：产权化本身不是目的，而是一种有效的手段。它的价值来自于促成和促进个人控制和保障隐私的能力。

按照这种思路，我们可以想象，至少对于某些隐私泄露事件，可以认定隐私破坏的错误性源自它破坏了所有权。当然，反对隐私侵犯的理由也可能在于个人不受伤害的权利，或是个人不被仅仅作为一种手段来对待。

在具体实践当中，产权化和经营数据的选择加强了数据主体的控制和权力。莱斯格认为，“如果‘产权"的本质是想要它的人必须与它的持有者进行谈判才能得到它，那么将隐私产权化也会加强个人拒绝交易或转让其隐私的权力”。

前述主要是消极的、保护性的主张，即把他人挡在个人信息空间之外。然而，对数据所有权的作用的立场，也可以通过个人的自性理论（theory of selves）加以了解——什么构成了自我，以及我们是否认定个人主要是作为公民或特定社区的成员而占据社会角色。

在此，我们可以通过卢西亚诺·弗洛里迪（Luciano Floridi）的论述获得启示。弗洛里迪对人格的描述建立在“对自我的信息性解释”之上。自我是一个复杂的信息系统，由意识活动、记忆和叙述组成。“从这样的角度来看，你就是你自己的信息”。因而，隐私的重要性主要来自于我们作为“相互连接并嵌入信息环境（infosphere）的信息有机体（inforgs）”的地位。由于信息对信息体的自我构成具有重要意义，隐私泄露会侵犯人们的身份。这种情况导致弗洛里迪反对基于所有权的隐私解释，根据这种解释，“[一个]人被认为拥有他或她的信息……因此有权控制其整个生命周期，从生成到通过使用被删除”。人不只是拥有信息；他们被信息所构成。因此，弗洛里迪呼吁“将对一个人的信息隐私的侵犯理解为对一个人的个人身份的侵犯”。

一方面，弗洛里迪的自我概念强调了保护与个人领域和人的完整性有关的信息的重要性。另一方面，他也在暗示，保护虽然重要，但远远不够。个人作为信息体与他们的个人信息及其在信息圈中的嵌入深深地交织在一起。由于信息体在信息圈中编织着信息纽带，我们可以说，可控的、局部的信息屏蔽的保留权，使他们能够与他人互动，并参与社区和社会活动。

这意味着，数据所有权不会总是与假定的权利和机制挂钩，以限制数据流动。有时，个人会要求他们的数据，并寻求以某些方式分享它们。对于信息体来说，数据所有权作为孤立的东西是不够的。它还必须允许参与经由信息圈居间调停的社会努力。因此，一个人利用自身数据的方式不仅是保护性的，常常也是参与性的。

由此来看，一些关于数据所有权的建议和反对意见涉及真正的财产权，而另一些则涉及某些控制权，而不管这些权利是否符合财产权的条件。有些人认为数据所有权的意义在于将个人置于经营其数据的地位，而另一些人则坚持认为，个人与他们的数据之间的关系实际上激励着一种完全相反的动机：个人数据的不可剥夺性。根据一些理解，对数据所有权的承认涉及到分配保护性权利以及保障和执行这些权利的机制。

但在其他建议中，这还远远不够。数据所有权并不局限于保护性权利，而是涉及更多的内容：使数据所有者能够享受到社会参与和社会包容。最后，对于数据到底是由个人数据主体、数据处理者和/或像整个社会这样的集体所拥有，也存在着分歧。

促进数据主体的信息自决

弗洛里迪批评数据所有权的保护性语言，是为了强调它实际上仅涉及最字面意义上的自我所有权。而由于信息与它所构成的信息有机体之间的密切纠缠，弗洛里迪要求对信息的保护应直接建立在后者的规范性地位之上。

“人们仍然可以争辩说，一个个体行动者‘拥有’他或她的信息，但不再是在刚刚看到的隐喻意义上，而是在一个行动者就是她或他的信息的确切意义上。‘你的信息’中的‘你的’与‘你的汽车’中的‘你的’不同，而是与‘你的身体’、‘你的感觉’、‘你的记忆’、‘你的想法’、‘你的选择’等中的 ‘你的’一样。它表达了一种构成性的归属感，而不是外部所有权，也即一种你的身体、你的感觉和你的信息是你的一部分，但不是你的（法律）财产的感觉。”

这意味着,“对隐私的保护应直接基于对人类尊严的保护，而不是间接通过其他权利，如财产权或表达自由权。换句话说，隐私应该作为一级分支嫁接到人类尊严的主干上，而不是嫁接到某些分支上，好像它是一项二阶权利”。

这样做的一个结果是，数据将变得不适合于市场交易。事实上，弗洛里迪怀疑，如果他的看法是对的，“个人信息是……一个人的个人身份和个性的构成部分，那么有一天，交易某些种类的个人信息可能会成为严格的非法行为”。

上述观察阐明了当数据所有权被主张时的利害关系。对这些含义的反思会带来一个实质性的主张：数据所有权的所有这些方面对于信息层面的自决权都是至关重要的。保护性与参与性两个领域都需要被考虑，以掌握与数据所有权相关的主张，而对它们进行协商是促进数据主体的信息自决所必需的。

总的来说，这些区别表明对数据所有权的呼吁并不像人们希望的那样统一。理由虽然各不相同，但存在一套与数据所有权相关的期望——给那些想要释放数据经济潜力的人和那些试图重新赋权给失去数据控制的个人以希望。这方面我们需要更多的公共对话，以更好地承认数据主体和重新分配整个数据驱动的生活世界的资源。

全球性解决方案仍然付之阙如

不过，人们的期望是一回事；政府监管部门的想法是另一回事。2021年8月20日，中国全国人大常委会通过了《个人信息保护法》（PIPL），与另外两部法律并行，组成中国治理网络安全、非个人身份数据和个人信息的“三驾马车”。

这“三驾马车”分别是：《网络安全法》，适用于中国境内建设、运营、维护和使用网络的活动，以及网络安全的监管；《数据安全法》，规范除个人信息以外的其他数据的安全、治理和交易；PIPL，适用于个人信息和相关事项。

在草案阶段，研究人士即指出，PIPL可能代表了美国的部门方法和欧盟全面的《通用数据保护条例》（GDPR）框架之间的第三种方式，前者对特定行业或消费者类别适用不同的规则，后者则在各种情况下体现了基本权利。在法律的草案阶段可以清晰看出，中国不断发展的数据治理制度在强调消费者隐私的同时，也通过数据本地化措施、跨境数据流动限制以及持续的监控和执法权力，将国家安全放在首位。

事实上，最终通过的PIPL建立了一个类似于GDPR的机制，但它在某些方面的要求更严格。比如，PIPL要求在处理敏感个人信息时应向个人披露更多细节。向境外提供个人信息的，PIPL要求披露每一个境外接收方的名称／姓名和联系方式，并取得个人的单独同意。PIPL还要求控制者在若干种情形下进行安全影响评估。PIPL对关键信息基础设施运营者和处理个人信息达到规定数量的控制者提出了信息存储要求。此外，PIPL对跨境数据转移实行更严格的管控。

从数据治理角度，该法不仅重塑了中国的隐私法，而且还将成为不断发展的全球隐私格局中的重要力量，亦即成为对国际商业具有高度影响的监管框架。

然而，也正是因为这一点，中国的PIPL与欧洲的GDPR之间，可能会产生互操作性障碍。首先我们必须承认，任何重要的隐私法都不可避免地要被拿来与欧洲的GDPR相比较。这部分是因为它提供了一个全面的框架，启发了包括中国在内的其他司法管辖区的监管，但同时也因为欧洲的规则适用于欧洲人的数据在世界各地的处理方式，令GDPR成为任何处理跨国个人数据的参考点。

在许多方面，中国的法律显示出与GDPR的相似之处，GDPR中的几个被广泛采用的隐私最佳实践，包括数据最小化（data minimisation）和目的限制，都体现在中国的法律中。广义上说，个人信息、敏感信息、个人权利和处理的法律依据的定义都与GDPR有相似之处，但其中也存在重要区别，最大的区别在于与国家安全有关的规定。

原则上，GDPR促进了数据的跨境自由流动，提供了若干法律转移机制。然而，虽然一些欧盟委员会官员公开批评数据本地化措施，但其他人似乎支持这一概念。在此方面，PIPL发出了毫不含混的信息。根据《网络安全法》，包括个人数据在内的关键信息基础设施（CII）数据必须存储在中国境内。PIPL将这一要求扩大到了非CII运营商处理的个人数据，代表着《网络安全法》和《数据安全法》中现有数据本地化措施的扩展，这些措施都与GDPR在满足条件下实现数据流动的机制相悖。虽然与GDPR的一些差异是可以预期的，但这方面的不一致可能会破坏数据保护，并可能阻碍数据制度的互操作性。

对于PIPL来说，隐私的追求主要是针对私营部门的风险。尽管个人数据处理规则同样适用于政府，但现有的制度缺乏明确的措施和界限，以做到在援引国家安全或公共利益时能够保护公民隐私。在后斯诺登时代，虽然世界各地的公民和政府都在推动保护个人隐私免受政府监控，但仍然没有一个全球性的解决方案来平衡高度的隐私问题和国家安全需求。

为此，迫切需要在全球范围内找到解决方案，并对全球监控行为进行改革和提高透明度，特别是在涉及相称性（proportionality）和个人补救权利方面。在缺乏政府监控和公民隐私的平衡措施的情况下，一国政府若非能够对自身的监控行为进行重大改革，将难以在全球范围内有意义地参与这些紧迫的问题。

在当今的全球隐私环境中，世界各地的监管机构当然会关注控制着大量个人信息的美国科技公司。然而，监管机构也可能意识到，由于中国政府具有广泛的数据访问能力，将数据转移到中国的风险将难以缓解。随着中国公司越来越多地在全球范围内运营，对数据保护的高度呼吁将使中国公司处于竞争劣势。而对国际企业来说，由于中国是一个如此重要的市场，其数据规则对以多种方式与中国打交道的国际企业将产生重大影响，它们的全球监管负担和地缘政治风险都在增加。

从这样的角度来看，“数据究竟属于谁”的问题，牵涉到中国与世界上其他数据保护制度的适当性之争。尽管中国是最大的数据进口国和出口国之一，并且表达了与其他国家相互承认数据保护规则的雄心，但可以预期，中国在全球舞台上推进自身的数据治理模式的挑战将相当深远。

（作者系北京大学新闻与传播学院教授）

关键词：数据究竟属于谁｜重新思考数字化之十一新冠疫情