[Tech Talk #41] 哥大 彭天翼:当A/B实验平台遇上强化学习A/B测试面临实验干扰问题,影响结果可靠性。我们提出基于强化学习的"Difference-in-Q"(DQ)估计器,通过求解Q值差分估计treatment effect。理论上,DQ在偏差-方差权衡方面表现出色,显著降低偏差,方差指数级缩减。与抖音合作应用于大规模商业场景,均方误差减少99%以上,展现卓越性能。应用统计 A/B测试 实验设计 实验干扰 off-policy evaluation 强化学习 2023-09-03 阅读时长1分钟
[Tech Talk #39] 开源FinRL和FinGPT本次分享中,刘小洋博士将介绍FinGPT——金融领域的大模型架构,并重点分享金融强化学习中由于金融数据的高度动态性而呈现出独特的挑战及其解决方案。金融 Finance LLM 强化学习 FinGPT FinRL 金融数据处理 2023-05-12 阅读时长1分钟