小小书屋 > 都市小说 > 都市小说 > 股狼孤影 > 第302章 数据挖掘 (4 / 11)
        ? 盘口复现:调取“隐形账户”观察的“挂单序列”(如“凤竹纺织”的“8888手托单”),验证算法识别准确性;

        ? 庄家风格匹配:结合“温州帮”(爱炒小盘次新)、“山东帮”(爱炒国企改革)、“游资庄”(爱炒题材热点)的历史数据,标注每只候选股的“疑似庄家类型”;

        ? 风险评级:按“控盘度(高/中/低)”“拉升概率(>70%/50%-70%/<50%)”“监管风险(高/中/低)”分为“S/A/B/C”四级,优先推荐“S级”(高控盘、高概率、低风险)。

        二、实战应对:以“数据熔炉”为炉,以“特征匹配”为火

        1. 第一道防线:“2000只样本”的“清洗熔炉实战”

        团队用“数据挖掘四阶流程”对2017年3月A股2000只有效样本进行筛选,还原“从数据矿到候选弹”的全过程:

        (1)一阶清洗:剔除1200只无效样本

        ? ST股剔除:ST新亿、ST众和等150只ST股因“监管**险”被排除;

        ? 流动性剔除:日均成交额<5000万的“僵尸股”(如*ST宏盛)300只被排除;

        ? 基本面扰动剔除:近3个月有重组公告的“洛阳钼业”、业绩预增的“赣锋锂业”等750只标的被排除;

        ? 剩余样本:2000-150-300-750=800只?不对,前面说初始3000只压缩至2000只有效样本,这里应该是从2000只有效样本中清洗掉噪音,最终剩下2000-(ST150+流动性300+基本面750)=800只?哦,原文说“将初始3000只股票压缩至2000只有效样本”,然后一阶清洗是从2000只有效样本中剔除噪音,所以应该是2000只有效样本中,再剔除“ST股150只、流动性不足300只、基本面扰动750只”,剩下2000-150-300-750=800只进入二阶匹配?可能前面的“初始3000只压缩至2000只有效样本”是一阶清洗的一部分,这里需要理顺:初始3000只→一阶清洗(剔除ST、流动性不足、基本面扰动)→剩余2000只有效样本→二阶匹配五维特征→筛选出87只候选股。对,这样更准确。

  The content is not finished, continue reading on the next page

温馨提示:方向键左右(← →)前后翻页,上下(↑ ↓)上下滚用, 回车键:返回列表

投推荐票 上一章章节目录下一章