Agent Harness Engineer(自动化测试)
北京Junior全职4 天前
工作职责
- 设计并实现Agent评估框架(eval harness),覆盖端到端任务完成率、工具调用准确性等
- 构建可复现的测试用例集(benchmark suite)
- 开发自动化CI/CD管线中的Agent质量门禁
- 维护测试结果的可观测性平台,提供dashboard、告警和趋势分析
任职要求
- 3年以上自动化测试或测试基础设施开发经验
- 熟悉Python/TypeScript,能独立开发测试框架
- 了解LLM API调用模式(tool use、structured output、streaming)
- 有Playwright、Pytest、Jest等测试框架实战经验
- 熟悉CI/CD系统(GitHub Actions、GitLab CI等)
加分项
- 有AI Agent/Copilot类产品测试经验
- 了解eval-driven development(EDD)方法论
- 熟悉SWE-bench、HumanEval等Agent评估基准
- 有cost-aware testing经验
团队的其他职位
了解这群人

Floatboat
Floatboat learns how you run your business and turns it into your personal AI team.
7-7 人·北京