数据水印企业数据痛点
数据只有在不断的流通、使用、共享和交换下才能为企业创造价值,从而形成数据资产,也正因如此,数据在整个流通过程中的安全问题也越发的被重视起来。由于企业在运作的过程中需要多种类的系统以及大量的数据做支撑,很多时候结合业务需求或实际场景需求需要将带有敏感性、性数据的文件或信息进行共享、交换、存储等操作,在这个过程中则会有数据无意识泄露的情况发生。另一方面,由于数据资产能够带来极为丰厚的利益价值,在利益熏心的驱使下,内部员工会有价值的数据资产进行从而为自己获取丰厚的经济利润。
数据水印分类
数宇型水印
利用随机生成或用户自定义而成的溯源KEY从而对源数据进行水印转换,将转换后的虚构数据嵌入到源数据之中或全部转换为水印数据。
非数宇型水印
非数字型水印包含汉字、字符等,同样利用随机生成或用户自定义而成的溯源KEY将源数据部分内容转换为新的汉字(生僻字)、字符,嵌入到源数据之中或全部转换为水印数据。
数据水印概述
数据库水印是将水印信息(数据量少)隐藏到数据库载体(数据量比较大)中,有两种隐藏方式:一种是隐藏在数据库的文件头中,另一种是隐藏在数据库包含的关系表中,通常指的是后者,本文指代也是该方式。
具体如何将水印信息隐藏到数据库(关系表)中呢?其方案框架如图1所示。它包括水印嵌入端和提取端,包括两个重要算法:水印嵌入算法和水印提取算法。水印嵌入端:企业或组织机构通过水印嵌入算法,将水印标识信息W,隐藏到原始数据库D中,得到含水印的数据库DW,为了保证安全性,该过程通常由密钥控制。水印提取端:当数据库DW发生泄露后,企业或组织机构希望查找清楚是谁泄露了该数据库,它通过水印提取算法,在获得的数据库D’W中进行水印提取或相关性检测操作,进而溯源确定的泄露主体,追究责任。
需注意的是,在数据泄露过程中,由于泄露主体可能会有意或无意对数据库进行一些操作,比如对数据库的元组进行随机抽样、选择部分列、修改数据库的某些值或对格式进行调整,这些操作通常被称为水印攻击(后续将介绍),通常会对水印信息造成一定影响,这要求设计的水印嵌入/提取算法具有一定强度的鲁棒性,即遭受攻击后同样能提取/检测到正确的水印信息。