基于调研结果,项目组将狼眼系统的需求归纳为“四大支柱”,分别对应后续章节的核心模块,构成从数据采集到决策支持的完整闭环。
(一)支柱一:“鹰眼”数据抓取——让系统“看得见”
数据是系统的“血液”,抓取能力决定了“视野宽度”。需求明确要求:
? 多源异构数据的自动化采集:对接Wind、Choice等金融终端API,爬取巨潮资讯、港交所披露易等官方平台公告,解析PDF/Excel财报(解决“表格识别错位”难题),抓取雪球、东方财富股吧的用户评论(日均处理量≥100万条);
? 非结构化数据的结构化转换:通过NLP技术提取业绩说明会录音中的“管理层语气词”(如“谨慎”“乐观”的频率)、行业论坛讨论中的“高频关键词”(如“产能过剩”“技术突破”),转化为可计算的标签;
? 数据更新的实时性:财报数据T+1更新,舆情数据分钟级推送,产业链数据(如商品价格)每小时刷新。
这一需求直接对应第222章“数据抓取”,为后续清洗整理(第223章)提供“原料保障”。
(二)支柱二:“筛子”清洗整理——让数据“用得上”
原始数据如同矿石,需经清洗才能提炼价值。需求聚焦三大痛点:
? 缺失值处理:对“未披露数据”(如部分港股公司的研发费用),采用“行业均值填充+风险提示”策略,避免简单剔除导致样本偏差;
? 异常值识别:通过“3σ原则”与“孤立森林算法”双重校验,区分“真实异常”(如突发大额订单)与“数据错误”(如财报录入失误);
The content is not finished, continue reading on the next page