大数据时代,数据蕴藏着巨大力量。如今,很多企业和公司都依靠将海量的数据作为样本来建立大量的技术和模型,有效数据越多,越能帮助企业创造出较为有效的模型。而另一方面,企业也越来越重视数据保护——无论是和用户相关的敏感信息,还是会影响到企业自身机密的运营数据,都是企业在网络安全中必须保护的对象。
但是问题来了,我们真的做到保护所有的数据了吗?对于这个问题,大多数企业肯定会回答:是啊,我们做了对所有数据的完善保护,配置了数据库防火墙、DLP、IDS/IPS等针对数据的安全系统,怎么会没有保护好所有的数据?
且慢,企业固然是对数据进行了全方位的保护。但是,下一个问题:我们真的知道自己保护了哪些东西吗?或者换个问法,我们真的知道我们有多少数据吗?企业很可能会回答:你看,这是我们的数据库系统,这是我们的网络部署方式等等——怎么会不知道我们拥有哪些数据以及它们在哪呢?
可是事实真的是这样的吗?
数据的黑暗之海——暗数据
举个简单的例子吧,如果有一个人用了一台电脑多年,突然想从自己几百个G的硬盘中找一份相关资料。然而,他早已忘了它被放在哪里、文件名又是什么、修改时间又是什么,他记得的就是里面的可能内容——以及这些内容里会有敏感信息。这种情况在企业的运营当中也会存在:比如当因为需求重新产生或者技术的更新,企业需要针对某项曾经的业务进行重新启动并且优化的时候,可能会因为业务的时间过长而导致业务相关数据无法被发现,使得企业无法在这些数据的基础上制定更合适的方案。
以上的例子只是企业中可能无法被利用的数据的一种可能性,企业在运营的过程中会产生和储存大量的数据,并且并且其中会有很大一部分数据数据因为没有被发现无法被真正投入使用。事实上,这类数据就是“暗数据”,Gartner很早就定义了“暗数据”:组织在常规业务活动中收集、处理和储存,但通常无法用于其他用途的信息资产。Veritas在2016年的《数据冰山报告》中提到,企业的数据中,52%为价值尚不明确的暗数据,33%的数据属于对于企业没有价值的冗余、过期或者不重要的陈旧数据——换而言之,我们现在所使用到的储存数据,只占了数据总量的15%。企业对于自身数据的了解和使用程度还远远不够高。
暗数据产生的原因有很多,例如人们的遗忘、文档的缺失和未有效处理、组织和人员的变更等,随着时间的推移,持续导致暗数据囤积,大量的数据隐藏在黑暗中无法被认知,较后汇聚成了一片数据的黑暗之海,变的腐朽不堪。
在这片按数据之海下,固然有着大量没有价值的陈旧数据,但是一旦扫除这些无用数据,本身能给企业带来大量的网络、存储和计算资源,剩下的数据也存在着无限的潜力:通过挖掘和利用这些数据,企业可以获得更好的业务模型、发现更多的用户倾向、开发新的产品等等。无论是了解企业自身状况,还是了解自己的客户情况,这些数据都会带给企业巨大的价值。
然而,窥探这些暗数据的还有其他人——内部和外部的攻击者们。由于企业对自身的数据情况不够了解,无法轻易获知自身哪些数据有价值,更难以在数据泄露后发现事件以及对事件进行响应和溯源。相对的,对于攻击者来说,除了窃取传统的敏感数据(比如个人身份数据、财务数据、内部通信数据等),攻击者还会窃取任何安全保护不足的数据。如果企业对暗数据缺乏了解,那么具有潜在有价值的数据就无法得到应有的保护等级,容易被攻击者获取。而对于攻击者来说,每一项数据可能都有价值,尤其是在对不同数据进行各种组合的情况下,原本孤立的非敏感数据可能会成为机密数据。攻击者可以通过分析这些数据,获知企业的业务信息、交易信息、内部交流等内容,一旦这些信息被泄露,会对企业的研发、市场影响以及之后的业务合作带来极大的负面影响。
那么,回到之前的问题:我们真的保护了所有数据吗?我们真的知道自己有哪些数据吗?我们真的知道自己的数据都在哪里吗?
我们面临哪些困难?
由于暗数据拥有无限的潜力,我们需要对暗数据采取保护措施。但是首先我们需要知道自己有哪些暗数据,对暗数据进行梳理,知道哪些是敏感数据,哪些是有价值的数据、哪些又是无效的数据。
但是,在这一过程中,企业会面临很多问题,主要包括以下几个方面:
1. 对数据的理解存在误区:企业需要理解到的是,数据是需要作为资产被保护的。数据资产和网络资产(如域名、IP、DNS服务器等)类似,是整个企业信息资产的一种。对于资产的保护,我们首先要明确我们有哪些资产——而不仅仅是这些资产在哪里。如同我们对仓库里的资产进行保护,我们首先要了解到仓库里有些什么货物,哪些是有价值的资产,哪些是没有价值的垃圾——数据需要被给予同样的对待,企业不仅仅需要知道数据库里有数据,更需要知道自己有哪些数据,从而将有价值的数据梳理后转化为数据资产——之后再进行使用以及保护。
2. 无法获取所有信息:对于数据较熟悉的人莫过于直接接触业务的人,因此,当尝试获取数据的时候,需要依靠业务相关的人员;而企业内部每一位员工都有自己的定位,只能触及自己特定的业务线,只能挖掘和自己业务相关的数据。这样一来,在进行数据梳理的时候,就很难真正做到对数据的全面梳理。而另一方面,如果根据业务分别对数据进行梳理,又无法将不同数据结合,发现数据内在价值。
3. 无法识别数据含义:数据单纯来看可能只是毫无价值的数字。但是,如果要让这些数字变得有价值,就需要企业识别每份数据之后的含义。
4. 数据工具不完善:企业想要去了解数据,首先需要知道数据库里每张表描述哪些业务,表里的每个字段表示什么意思。但是,现阶段大多数企业内部数据字典不完善,导致企业在尝试去了解数据之初就遇到阻碍。
事实上,这些问题不仅仅是对企业数据的保护,对数据的利用本身也存在着这些困难。
有谁可以帮助我们?
要解决发现暗数据的难题,需要数据安全厂商的合作。从国内市场来看,这是美创较近的产品方向——帮助企业认识和挖掘自己的暗数据。
美创的理念是“从数据去认识数据”:他们先将暗数据变为明数据,然后再将明数据变成分类有序的数据,从而完成从数据到数据资产的转化过程。在这一过程中,美创暗数据发现和分类平台有六大主要功能:
1. 全面捕获数据:通过适配多种数据源,从而确定数据分布、规模和分类。
2. 数据智能解析:根据内置的数据标准,实现自动识别数据格式,在此基础之上,通过自然语言处理、特征分析等方法进行语义内容识别,快速认识数据。
3. 建立数据标准:通过内置的数据标准可以识别数据的技术类型和业务类型,可以明确的识别身份证号码,姓名,地址,编号等,把不可认知的数据变成有价值的数据。
4. 内置业务模型:美创依据自身在多个行业的累积,内置了多个行业的业务模型,并结合机器学习、深度学习,使得暗数据发现和分类平台可以更好的服务于这些行业。
5. 构建数据地图:实现源数据的数据地图展示功能,能自动生成数据字典并且识别数据关系,然后通过数据地图对分析结果进行图形化展示,并通过对不同层次的图像展示粒度控制,满足开发、运维或者业务上不同应用场景的数据查询和分析需求。
6. 分析结果可视化:数据只有被理解了以后才有价值,因此美创提供了丰富的图表,通过可视化的方式展示数据资产报告,直观清晰的展现数据富含的意义,使得用户快速、直观的了解数据资产。
从美创的部署成果来看,通过对企业暗数据的发掘,企业的数据资产扩大了10倍, 帮助企业减少了70%的数据建设周期,并且降低了50%的数据利用成本;更重要的是,企业可以了解自己有价值的数据以及哪些是敏感数据——并对这些数据进行保护。
安全也需要“资产化”——企业需要了解到自己有哪些资产,并且进行对应的保护,而不是无脑地部署各种安全设备和服务,这一点在数据上尤为重要。企业首先需要知道自己究竟有多少数据,而这些数据里又有些什么,哪些是有用、有价值的数据——并将数据转化为数据资产。然后才能将数据资产变成自己生产的原料为企业创造更多的价值;同时,根据数据资产不同的敏感度,进行针对性的保护,避免发生因为安全保护的不合规、过度保护等问题而造成的成本提升、暗数据被盗被利用而不自知等情况。
第二十八届CIO班招生
法国布雷斯特商学院MBA班招生 法国布雷斯特商学院硕士班招生