“第一批数据量有多大?”她问。
“大约500GB。”王总监说,“都是文本数据,需要做去重、去噪、格式标准化。时间比较紧,下周一就要完成。”
路容在心里快速计算:500GB文本数据,按照常规清洗速度,至少需要三天。今天是周四,下周一交,意味着她需要加班。
“我能问一下,”她小心地选择措辞,“这批数据的密级是?”
王总监看了她一眼,那眼神里闪过一丝什么,但很快消失了。
“A级。”她说,“所以清洗工作必须在公司内网完成,不能带出公司。我会给你开通临时权限,允许你在非工作时间进入办公区。”
路容点点头:“我明白了。”
“还有,”王总监从抽屉里拿出一份文件,“这是数据清洗的具体规范,你仔细看看。特别是数据出口前的检查项,一定要严格执行。”
路容接过文件。
文件的封面写着:“深蓝计划数据清洗规范_V3.2”。她翻开第一页,里面详细列出了清洗流程、质量要求、安全规范。在最后一节“数据出口检查”里,列出了十七个检查项,包括加密状态、完整性校验、传输协议确认等等。
The content is not finished, continue reading on the next page