“污染的具体表现是,”王总监继续说,手指在笔记本电脑上敲击了几下,“部分关键字段被随机替换成了无意义字符。比如用户ID字段,原本应该是十六位数字,现在变成了乱码。比如时间戳字段,原本应该是标准的时间格式,现在变成了随机字符串。”
她调出一张截图,投影到白板上。
白板上出现了一行行数据。路容的目光立刻锁定在那些异常字段上。确实如王总监所说,一些字段的内容完全混乱了,字母、数字、符号混杂在一起,没有任何规律。但她的注意力没有停留在数据本身,而是快速扫过数据的格式、排版、字段顺序。
“这批数据原本计划今天上午交付给技术部,用于模型训练的初步测试。”王总监的声音冷了下来,“现在因为污染问题,交付必须推迟。李总已经知道这件事了,非常生气。”
她顿了顿,目光再次扫过全场。
“李总的意思是,必须有人为这件事负责。”
会议室里鸦雀无声。路容能听到空调出风口的嗡嗡声,能听到旁边林晓吞咽口水的声音,能听到远处办公室传来的模糊电话铃声。她看着白板上的数据截图,大脑在飞速运转。
这些数据,她认识。
上周三到周五,她花了整整三天时间,清洗了这批数据。500GB的文本数据,她逐条检查了格式,编写了清洗脚本,运行了去重算法,最后生成了清洗报告。每一个步骤她都记得清清楚楚,因为这是她进入星耀后接手的第一个重要任务,她不敢有丝毫马虎。
“经过初步排查,”王总监的声音再次响起,“问题出在数据清洗环节。”
路容抬起眼睛。
The content is not finished, continue reading on the next page