← 返回职位

Agent Harness Engineer(自动化测试)

北京Junior全职4 天前

工作职责

  • 设计并实现Agent评估框架(eval harness),覆盖端到端任务完成率、工具调用准确性等
  • 构建可复现的测试用例集(benchmark suite)
  • 开发自动化CI/CD管线中的Agent质量门禁
  • 维护测试结果的可观测性平台,提供dashboard、告警和趋势分析

任职要求

  • 3年以上自动化测试或测试基础设施开发经验
  • 熟悉Python/TypeScript,能独立开发测试框架
  • 了解LLM API调用模式(tool use、structured output、streaming)
  • 有Playwright、Pytest、Jest等测试框架实战经验
  • 熟悉CI/CD系统(GitHub Actions、GitLab CI等)

加分项

  • 有AI Agent/Copilot类产品测试经验
  • 了解eval-driven development(EDD)方法论
  • 熟悉SWE-bench、HumanEval等Agent评估基准
  • 有cost-aware testing经验
团队的其他职位
了解这群人
Floatboat
Floatboat learns how you run your business and turns it into your personal AI team.
7-7 人·北京