← 返回职位

Agent Harness Engineer（自动化测试）

北京Junior全职4 天前

工作职责

设计并实现Agent评估框架（eval harness），覆盖端到端任务完成率、工具调用准确性等
构建可复现的测试用例集（benchmark suite）
开发自动化CI/CD管线中的Agent质量门禁
维护测试结果的可观测性平台，提供dashboard、告警和趋势分析

任职要求

3年以上自动化测试或测试基础设施开发经验
熟悉Python/TypeScript，能独立开发测试框架
了解LLM API调用模式（tool use、structured output、streaming）
有Playwright、Pytest、Jest等测试框架实战经验
熟悉CI/CD系统（GitHub Actions、GitLab CI等）

加分项

有AI Agent/Copilot类产品测试经验
了解eval-driven development（EDD）方法论
熟悉SWE-bench、HumanEval等Agent评估基准
有cost-aware testing经验

团队的其他职位

Agent 算法工程师

AI Native 全栈开发（TypeScript 方向）

了解这群人

Floatboat learns how you run your business and turns it into your personal AI team.

7-7 人·北京