联系方式:010-59919125
当前位置:首页 > 政务理论

数据自治开放模式

日期: 2018-06-27    

  1  引言

  数据已经成为国家基础性战略资源,推动数据资源开放共享是国家《促进大数据发展行动纲要》的核心内容。政府和公共数据资源的开放共享不仅是构建一个透明的政府,更重要的是创造新兴战略产业(数据产业),推进传统产业转型升级,成为驱动创新的主要因素。但在实施过程中,数据开放共享面临着“数据拥有者不愿、不敢、不会开放共享”的问题。由于数据可以以极低成本复制和传播(复制一份数据的成本远远低于生产一份数据的成本),加之数据资源的战略性和商业价值越来越显现,这就导致生产数据的意愿远远低于复制数据的意愿,因而呼吁数据开放的人越来越多;数据生产者越来越不愿意将其拥有的数据开放出来。因此,数据资源的开放变得越来越难以实现。事物的价值源于稀缺性,由于数据可以几乎零成本地复制和传播,所以,数据开放意味着数据资源的稀缺性丧失,从而丧失其原有的价值,这是不愿意开放数据的根本原因。因此,如何既开放数据又保持数据资源的稀缺性,是一个亟待解决的重大问题。本文围绕该重大问题,探索数据开放模式,提出数据自治开放模式。

  开放数据是指数据免费开放给每一个希望使用数据的人,主要是指政府和公共数据资源应该开放给公众,使公共数据能被任何人、在任何时间和任何地点自由利用、再利用和分发;数据共享是指对数据使用对象、使用时间和使用地点加以限制,主要是对使用对象进行限制,即将数据开放给特定对象,只有特定对象在特定的时间、地点使用指定的数据,可以理解为开放数据的限制版;数据交易是指数据拥有者依据法律在市场交易规则下进行自由交易。总体而言,开放数据、数据共享和数据交易都是数据拥有者将数据开放给数据使用者,只是在范围、对象、是否收费等方面有所不同,三者面临的核心问题都是“数据如何治理”,具体说就是“如何控制数据使用者传播或滥用数据”。开放数据模式不对开放出去的数据进行治理 ;数据共享模式则由共享圈共同治理数据,但共享圈约束有限,数据常常流出共享圈而造成事实上的开放数据;数据交易的数据治理目前还没有具体做法。因此,为了方便叙述,将开放数据、数据共享和数据交易统称为“数据开放”。

  当前,绝大部分数据资源都还处在封闭不开放的状态,数据完全由数据拥有者治理。拥有者尽量保护系统数据不受外界侵害,不对外界开放,即数据是自治封闭的。现有的数据资源管理技术(数据库管理系统、文件系统)和应用软件技术都支持这种数据自治封闭模式。数据自治封闭模式的问题是数据资源只能由数据拥有者使用,没有发挥数据资源应有的价值。要更大程度地开发利用数据,就需要将数据资源开放出来。然而,数据会被怎样开发利用事先可能是不知道的,使用数据的软件也是事先不知道的、基本外部的、数量无限的、安全不可控的、隐私不可控的。现有的数据库管理系统软件根本无法处理数据开放的应用需求,因此,需要探索新型的数据资源管理技术和数据开放模式。

  本文提出的“数据自治开放”是指数据拥有者在法律框架下对数据进行自行确权和管理、自行制定开放规则(即数据自治),然后将数据开放给使用者,包括上传到数据应用软件使用数据和下载数据到使用者的设备中(使用者没有数据治理权)。

  数据自治开放模式有望成为数据开放的基本模式,是政府数据开放共享、企业及个人数据交易、国家数据主权实现的一种可行方法。

  2  数据资源开放与稀缺性的矛盾

  数据资源是重要的现代战略资源,而且其重要性越来越显现,在21世纪有可能超过石油、煤炭、矿产,成为最重要的人类资源。提高数据资源开发利用水平、保护国家的战略资源是增强我国综合国力和国际竞争力的必然选择。2011年5月麦肯锡公司发布的《大数据:下一个创新、竞争和生产力的前沿》报告、2012年2月世界经济论坛年会发布的《大数据,大影响》报告等,都突显了大数据的价值和重要性。2012年3月美国白宫科学和技术政策办公室发布《大数据研究和发展倡议》,标志着美国率先将大数据上升为国家战略,随后,日本、法国、澳大利亚、英国等国家也开始发布大数据国家战略或计划等。2014年和2015年,我国将大数据写入《政府工作报告》,2015年8月19日国务院通过《关于促进大数据发展的行动纲要》,2015年10月26—29日中国共产党第十八届五中全会提出“实施国家大数据战略”等,这些都表明数据已经成为重要的战略资源。

  一份数据资源的价值除了体现在它的内容外,更重要的方面体现在它的稀缺性。内容再重要的数据资源,如果人手一份或者随时可以获得,那就没有人愿意付费购买,其本身的价值就难以体现出来。由于数据可以以极低的成本复制和传播,所以一旦数据资源生产者将数据资源开放,就意味着该份数据资源可能会传遍世界,从而丧失稀缺性。

  矛盾在于:如果不开放,则数据资源只能自用,价值发挥有限;如果开放,则数据资源可能丧失稀缺性,使数据资源生产者丧失利益。

  由于目前在技术上还没有保持数据资源稀缺性的数据开放技术,所以,在实践中,数据资源拥有方不愿开放、不会开放就成了数据开放进程中的“拦路虎”。另外,由于政策制约,数据资源拥有方还存在不敢开放的问题。

  不愿开放:指数据资源拥有者不愿意在没有获得足够利益的情况下进行数据开放。

  不会开放:指尽管数据持有者希望将数据资源开放出来,但是由于现行技术并不适合数据资源开放,所以不知道如何实现数据资源开放。

  不敢开放:指怕承担责任,目前的政策是“谁有数据谁负责”,因此,万一数据开放出了问题,数据拥有部门就要承担责任;另外,一些数据拥有者担心数据开放后,数据资源的稀缺性会丧失。

  3  现有数据资源管理模式

  现行的数据管理技术是面向数据自治封闭的,不适合数据开放共享,急需开发面向数据开放共享的技术。

  3.1 政府开放数据

  政府开放数据的典型代表是2009年美国政府推出的网站www.data.gov,因此,2009年一般被认为是数据开放元年。之前是政府信息公开,政府向公众公开各种报告、决策结果;政府开放数据是信息公开的进一步,即将形成报告和决策的原始数据也公开,主要内容是政府应该向公众透明。2015年我国国务院印发的《促进大数据发展行动纲要》明确提出,数据开放共享主要是指政府和公共数据资源应该开放给公众共享。

  从国际上看,政府数据开放主要通过制定战略或政策文件形式指导开放,又因涉及多个部门,往往由最高领导层发布,例如美国前总统奥巴马在2009年和2013年两次发布开放政府数据的行政令;英国在2010年和2011年先后两次发布《致政府部门开放数据函》等。开放过程中,各国通常把数据作为一种国家资产进行管理,要求建立相关的制度。比如,建立数据资产目录,各部门需梳理数据资产,明确各类数据的开放属性(公开、限制公开、不公开);建立数据开放的目录,确定哪些是已开放的,哪些是将来会开放的。并且,目录保持持续更新和补充。在开放的形式上,一般采用国家统一的门户网站形式开放数据。此外,重视建立公众的参与和反馈机制,确保用户的需求得到及时反馈,优先释放用户需求最为迫切的数据集,并对数据开放的相关进展进行评估。

  从技术上来看,政府数据开放基本上都只提供数据下载服务。政府将开放的数据放在政府网站上,公众可以下载需要的数据。这些数据往往不可机读,公众更不可能通过上传到应用程序来使用这些数据。这样当数据资源比较大的时候,这些数据就变成了不可用的数据。

  3.2 科学数据开放

  从最早推行数据资源开放的科学研究领域来看,科学数据表面上已经开放了,但实际上开放程度非常有限,主要是由政府或公共资源投资的科学研究产生的数据的开放,并且大多集中于各自领域,例如地震科学、水利科学、天文学等。在我国,主动共享科学数据的研究单位和个人还比较少,大部分的数据共享活动是通过政府投资、项目驱动的形式进行的。这些都影响了科学数据的开放共享进展和质量,目前为止,尚未形成完全开放的科学数据开放共享局面。

  3.3 数据自治封闭

  绝大部分数据资源还处在封闭不开放的状态,数据完全由数据拥有者自己治理,即数据自治。从20世纪90年代信息化战略开始,大部分数据是由各类计算机应用系统生产的,例如政府系统、金税工程、教务系统、超市系统、银行系统等。信息技术也只支持数据封闭,尽量保护系统数据不受外界侵害,即信息安全,例如系统设置防火墙、登录口令,制定用户级别和使用系统的功能类别等。

  这些系统中的数据由系统拥有者自己管理,或者说数据由数据拥有者自己管理,称为数据自治。加之数据保持封闭不对外界开放,所以称这类数据资源管理模式为“数据自治封闭”。

  在数据自治封闭模式中,使用数据的软件是事先知道的、基本内部的、数量有限的、安全可控的、隐私可控的。现有的数据资源管理技术(数据库管理系统、文件系统)和应用软件技术也只支持数据自治封闭模式,图1为数据自治封闭系统结构。

  

  图1 数据自治封闭系统示意


政务理论

数据自治开放模式

发布时间:2018-06-27