个人简介 (Biography)
我是大连理工大学软件工程专业的本科生(2023.09 - 至今)。在校期间成绩优异,前五学期加权平均分 95.04,专业排名 2/397 (Top 1%)。
我对 AI Agent, Agentic RL 以及 AI infra 感兴趣。
- Email: wuyinqi@mail.dlut.edu.cn
教育经历 (Education)
- 大连理工大学 (Dalian University of Technology)
- 本科 · 软件工程 | 2023.09 - 至今
- 核心课程: 概率论 (99), 线性代数与解析几何 (98), 数据结构与算法 (95), 计算机组织与结构 (93)
- 英语水平: CET-6 (610)
- 编程能力: CCF-CSP认证 360 分
科研项目 (Research Projects)
(Paper Title Redacted for Blind Review)
SIGKDD (Under Submission)
- 方向: AI Safety, SIGKDD 二作 在投
- 个人贡献: 针对现有攻击方法易触发 LLM “前肯定后否定”的问题,以及在优化效率与文本困惑度(PPL)之间难以平衡的问题,提出 RepDAN。该方法利用模型内部隐藏层状态引导优化方向,并结合 Counter-fitting 同义词替换技术,在保证攻击强度的同时显著提升文本质量。实验表明,该方法对 Llama2-7B-Chat 与 GPT-3.5-Turbo 的攻击成功率分别达 82% 和 88%;相较于传统梯度优化方法,实现了近 5 倍的优化加速,并将 PPL 降低了近 10 倍。
松辽流域水旱灾害防御智能体调度研究
- 方向: AI Agent
- 个人贡献: 提出了从ReAct到CodeAct框架的迁移方案,把逻辑推理转换为Python代码执行,解决了传统方法在大规模遍历时上下文和推理步长受限的问题,推理时间加速近10倍,准确率提升约5倍。提出基于Docker容器的轻量化SandBox隔离机制,解决传统方法执行代码安全性问题,实现了100%的运行隔离。针对上下文长度超过模型长度的问题,提出了差异化记忆压缩与管理方案,将长对话拆分为意图、目标、事实和草稿区进行动态维护,实现对上下文90%的压缩率。具体演示视频如下:
演示视频
verl 框架贡献:大规模强化学习中的 Group-Level 负载均衡策略
- 方向: Reinforce Learning
- 个人贡献: 传统的负载均衡以请求作为指标,对于类似于GRPO的方法,无法有效利用现代推理引擎中的prefix cache hit来增加吞吐量。提出了以Group作为指标的负载均衡方法,使得prefix cache rate增加4倍,rollout生成速度提升14%。 详细实验和代码设计详见 这里
荣誉奖项 (Honors & Awards)
奖学金
- 2023-2024, 2024-2025 学年国家奖学金 (连续两年)
- 院级学习优秀一等奖学金
- 院级科技创新奖学金
竞赛获奖
- 银牌, 第50届国际大学生程序设计竞赛 (ICPC) 成都站
- 铜牌, 第50届国际大学生程序设计竞赛 (ICPC) EC Final 东亚总决赛
- 铜牌, 第11届中国大学生程序设计竞赛 (CCPC) 郑州站
- 铜牌,第49届国际大学生程序设计竞赛 (ICPC) 杭州站
- 银牌,第49届国际大学生程序设计竞赛 (ICPC) 邀请赛 西安站
- 银牌, 第10届中国大学生程序设计竞赛 (CCPC) 邀请赛 郑州站
- 一等奖, 第5届辽宁省大学生程序设计竞赛