近日,字节跳动安全团队对外宣布开源敏感数据保护方案GoDLP,该方案能够应用多种隐私合规标准,对原始数据进行分级打标、判断敏感级别和实施相应的脱敏处理。
据悉,GoDLP 提供了一系列针对敏感数据的识别和处置方案, 其中包括敏感数据识别算法,数据脱敏处理方式,业务自定义的配置选项和海量数据处理能力。
作为字节跳动在数据脱敏保护方向成功的实践案例,字节安全团队决定用开源的方式向大家分享其研究成果,与行业一同成长。字节跳动安全团队相关负责人表示,GoDLP会长期维护更新,欢迎行业人士一起沟通交流。
字节跳动开源的GoDLP是怎么样?
GoDLP 能够广泛支持结构化(JSON数据、KV数据、golang map)和非结构化数据(多语言字符串)。
● 可实现敏感数据自动发现
GoDLP内置多种敏感数据识别规则,可覆盖市面80%以上识别规则,最大程度识别敏感数据
● 灵活的敏感数据脱敏处理
GoDLP支持多种脱敏算法,用户可自行根据需求进行脱敏处理
● 业务自定义配置选项
除默认的敏感信息识别和处理规则外,业务可根据实际情况,配置自定义的YAML规则,GoDLP能够根据传入的配置选项,完成相应的数据处理任务。
GoDLP的性能表现
下方数据是在开启全部敏感数据类型情况下的结果
● 针对1K的文件,用时需4.1毫秒,占用128.6k的内存
● 1M的文件,用时为4.1s,内存占用118.6MB
(测试环境:8核虚拟机,Linux,amd64,Intel(R)Xeon(R)Platinum8260CPU@2.40GHz;代码版本:v2.0.0)
GoDLP在字节的实践
GoDLP已在字节跳动进行了丰富的实践,已接入的业务线涵盖抖音、电商、飞书、火山引擎、云安全、财经、教育、游戏等诸多业务线。目前,字节跳动安全团队已放出GitHub上开源地址(https://github.com/bytedance/godlp)。