AI 如何改变量化:从因子挖掘到自动策略生成
AI 如何改变量化:从因子挖掘到自动策略生成 > “当一个 26 岁的量化研究员告诉我,他用 GPT-4 在 3 天内生成并回测了 200 个因子,而他的前辈们为此花费了整整一个牛市周期,我意识到这个行业已经永久性地改变了——但变化的方向,可能和大多数人想象的不同。” 这不是一个关于 AI 将取代量化交易员的故事。这是一个关于效率杠杆、技术边界和认知分化的故事。 过去三年,大语言模型、强化学习、扩
美股市场深度分析,覆盖纳斯达克、纽交所和标普500
AI 如何改变量化:从因子挖掘到自动策略生成 > “当一个 26 岁的量化研究员告诉我,他用 GPT-4 在 3 天内生成并回测了 200 个因子,而他的前辈们为此花费了整整一个牛市周期,我意识到这个行业已经永久性地改变了——但变化的方向,可能和大多数人想象的不同。” 这不是一个关于 AI 将取代量化交易员的故事。这是一个关于效率杠杆、技术边界和认知分化的故事。 过去三年,大语言模型、强化学习、扩
当市场分裂时,价差会说话 2008 年 9 月 16 日,雷曼兄弟申请破产后的第三天。大量机构投资者被迫去杠杆化,清算所有可变现资产。在这场集体性抛售中,一只名为 "LEH" 的股票——雷曼兄弟——在 30 分钟内跌去近半,与此同时,大量与之毫无业务关联的股票也在同步暴跌。 但一位遵循特定规则的量化交易者此刻看到的是机会,而非恐慌。 她知道,LEH 与同板块的其他股票之间并没有经济意义上的联动。它
延迟 800 毫秒的代价:一个回测圣杯在实盘中失效的真实故事 "你的策略回测夏普 3.2,实盘跑了三周,夏普变成 0.4。" 这不是个例。根据海外量化社区的调查,超过 60% 的量化策略在从回测切换到实盘时,性能会出现显著衰减。其中一个核心原因不是策略逻辑本身,而是信号生成的响应延迟——行情数据到了,但你的系统没有及时处理。 具体来说,一个在 2023 年跑得风生水起的均值回归策略,在实盘环境下的
当数据说谎:为什么你的量化策略可能只是捕获了一厢情愿的相关性 相关性不等于因果——这是统计学第一课,但也是被违背次数最多的原则。 2012 年,NASA 火星探测器“好奇号”发射升空。同一年,意大利帕勒莫地区冰淇淋销量创历史新高。如果我告诉你这两件事高度相关,你会相信帕勒默人靠吃冰淇淋把钱送到了火星吗? 荒谬。但同样的逻辑每天都在量化交易中以更隐蔽的方式上演。 --- 一、为什么冰淇淋和溺水共享同
三个数字毁掉一个策略:美股日频回测中最隐蔽的数据陷阱 --- 2019 年,一个名叫"低估值动量"的策略在回测中表现惊艳——8 年年化收益 23%,夏普比率 1.8,最大回撤仅 12%。团队信心满满地上线实盘,第一年亏了 18%。 复盘会上,量化研究员盯着账户曲线看了很久,最后说了一句:"问题可能不在策略里,在数据里。" 他说对了。回测用的历史数据有三大问题:调整因子用反了、停牌日被静默删除、退市
非农数据发布瞬间的外汇订单簿变化:EURUSD 流动性监控实战 --- 模块一:开篇 > "好消息不会让市场上涨,坏消息不会让市场下跌——真正推动价格的,是预期与现实的落差在订单簿中引发的流动性再平衡。" 北京时间每月第一个周五 21:30(非夏令时为 22:30),美国劳工部发布非农就业报告。这份数据之所以成为全球外汇市场最集中的流动性重构时刻,不是因为数字本身有多大,而是因为它同时冲击了数万亿
过拟合:当策略背下了答案而不是学会了规律 一位曾在华尔街工作过的量化研究员告诉我他最难忘的经历:团队花了三个月开发了一套"完美"的选股模型,在回测中夏普比率达到 4.2,收益曲线像一条笔直上升的斜线。他们信心满满地开了模拟盘,六个月后,模型亏掉了 30% 的模拟资金。 这不是能力问题,是统计学的基本陷阱:他们优化了一个不存在的规律。 这个故事几乎在每个量化团队都发生过类似版本。它指向一个核心问题:
拆股前后的价格序列对齐:前复权与后复权的选择陷阱 1999 年 6 月 25 日,纳斯达克综合指数在盘中突破 4000 点。同一天,亚马逊(Amazon)宣布将股票 1 拆 2,股价从 113.75 美元直接腰斩至 56.88 。如果一名量化研究员在 1999 年初用历史 K 线数据构建均线策略,他面临的第一个问题不是因子有效性,而是:这张 K 线图上的历史价格,究竟和今天的股价在同一个坐标系里吗
非农数据发布瞬间的外汇订单簿变化:EURUSD 流动性监控实战 场景适配说明:TickDB 当前支持港股 10 档深度数据、数字货币 10 档深度数据,暂不支持外汇 EURUSD。为保证技术演示的可操作性,本文以 BTCUSDT 永续合约作为深度数据监控的实战示例——其 24/7 交易、高频波动、机构参与的特性和外汇市场高度相似,流动性分析方法论可完全迁移。 --- 模块一:开篇 凌晨 2:00,
收盘钟声响起的那一刻,你的策略才刚开始被审判 "你的因子在今天贡献了多少 alpha?" 这不是一个能靠"感觉"回答的问题。职业量化团队的答案来自盘后工作流:数据清洗、归因分析、信号预计算、风险检查——一套完整的自动化流水线,在纽交所 4:00 ET 收盘后立即启动,到次日凌晨 5:00 前完成所有准备工作。对于一个有竞争力的团队,这套系统的工程质量,直接决定了明天早上你坐在屏幕前时,手里握的是一
回测的谎言:你的策略为什么总是高估收益 2019年夏天,一个量化团队遇到了困惑。他们的趋势策略在回测中表现优异——年化28%,夏普比率2.1,最大回撤8%。但实盘运行三个月后,资金曲线几乎是一条水平线,年化收益不到15%,夏普比率跌到0.9。 他们的代码没有问题。数据没有问题。因子没有问题。 问题出在回测本身。 回测是一个理想化的实验室。实盘是一场真实的战斗。在实验室里,你的订单瞬间成交,价格永不
财报电话会议的文本之外:管理层语调如何影响股价短期走势 > “The way a question is answered often reveals more than the answer itself.” > > —— 华尔街资深分析师的共识 2024 年 2 月,AMD 在发布财报后的电话会议上,CEO 苏姿丰用了 47 次“挑战性环境”(challenging environment),
熔断与涨跌停:当市场按下暂停键 --- > "市场最恐惧的不是暴跌,而是暴跌时发现没有人在另一边接盘。" 2010 年 5 月 6 日,道琼斯工业平均指数在 20 分钟内狂泄近 1000 点,随后在收盘前几乎完全反弹。这天后来被称为"闪电崩盘"(Flash Crash)。美国证券交易委员会(SEC)的调查报告显示,在暴跌最剧烈的几分钟内,部分股票的买卖价差扩大了数十倍,订单簿深度近乎归零——市场本
当芝加哥的夜班交易员开始盯着东京的屏幕 美东时间凌晨 2:15,北京时间下午 3:15。 我盯着 TickDB 控制台上的那张图表——AAPL 的盘后成交量在过去 45 分钟内突然放大了 3 倍,卖一档到卖五档的挂单密度持续攀升,而盘前期权链的隐含波动率 Skew 正在快速向负值区域滑落。 这不是正常的隔夜持仓节奏。这是某个知道些什么的资金,在集合竞价前悄悄布好了局。 我改了开盘的挂单方向。 这是
损失厌恶:为什么赚 10% 的快乐抵不过亏 5% 的痛苦 --- > “亏钱带来的痛苦,大约是赚钱带来快乐的两倍。” 这是 Daniel Kahneman 在《思考,快与慢》中最简洁的陈述。他和同事 Amos Tversky 用一系列实验证明:人类对损失的厌恶是刻在神经层面的本能,而非简单的“心态问题”。 想象这样一个交易场景: 你设定了一个简单的趋势跟踪策略,止损 10%,止盈 20%。某天开仓
量化系统进程守护:用 supervisor 和 systemd 让你的策略永不宕机 --- 凌晨 3:47,你被手机震动惊醒。策略账户亏损了 12 万。 原因是下午 6 点的那次 OOM Kill——服务器内存不足,Python 进程被系统干掉了。没有人知道。直到美股盘前数据开始推送,你的策略发现数据源断了,开始疯狂重试,然后触发风控阈值。 你盯着日志里那个孤零零的 关键字,第一次认真思考一个问
流动性的本质:为什么有些股票你永远买不到好价格 > "The market is not a place where you buy and sell things. The market is a place where you buy and sell immediacy." — Larry Harris 你下了 100 万美元的买单,以为拿到了一个不错的价格。成交报告显示:均价确实在预期附近
从逐笔成交反推做市商行为:美股高频做市策略入门 价格是结果,订单流才是原因 2024 年某交易日的上午 10:23 分,某大型科技期权的隐含波动率在 3 秒内飙升 15%,而标的资产的价格几乎纹丝不动。如果你只看价格,你会错过这个信号。但如果你有逐笔成交数据,你会看到:连续的 100-200 股小单以略高于卖一的价格成交,持续时间 2.7 秒,总成交量 4,800 股——这不是散户的随机交易,而是
开篇 2019 年,我认识一位私募出身的量化研究员,年化收益跑出了 32%,最大回撤控制在 8% 以内。2020 年他出来单干,第一年业绩更漂亮——36% 收益,回撤 6%。2021 年底,他退出了。 不是策略失效了。是账户清算了——不是被市场打爆的,是他自己的钱包先撑不住了。 这个故事听起来像一个“独立交易者必败”的论据。但它不是。我想说的恰恰相反:他的策略没问题,是财务结构和心理结构从一开始就
市场以噪音对话,你以数据为锚 凌晨 3:17,你的监控系统响了。 不是策略亏损的告警,是数据源心跳超时——主行情源已经 47 秒没有推送任何数据。而你账户里的 Algo 正在以 12 毫秒的间隔高频挂单,参考的是一份 47 秒前的价格。 你迅速打开备用界面,发现行情还在跳动——价格一直在走,但那个走的是另一套数据源。然后你意识到:你其实不知道哪边是真,哪边是假。 这不是虚构场景。2024 年某头部