考试几千年从未考过这个
谷歌研究院推出Vantage实验项目利用生成式AI搭建多角色模拟职场场景让AI假扮"难缠的同事"通过制造压力检验用户体验者的软技能。测试由四个AI智能体分别负责场景生成、角色扮演、行为提取和评分打分形成完整评估流水线。
Vantage四层架构
| 层级 | 角色 | 功能 |
|---|---|---|
| 第一层 | 场景生成器 | 根据评估量表生成具体情境 |
| 第二层 | 角色扮演者 | 多名AI角色协作制造压力 |
| 第三层 | 行为提取器 | 逐轮提取用户具体行为表现 |
| 第四层 | 评分器 | 对照量表逐条打分需引用对话片段 |
188人实证验证
谷歌联合纽约大学开展188人实测结果显示AI评分与人类专家的一致性处于同一水平。在软技能评估这个主观性较强领域AI已具备接近人类的评判能力且成本仅为人类专家的百分之一。
核心发现
- 冲突解决和项目管理两个维度完成验证
- AI与人类专家评分一致性持平
- 模块化架构支持扩展到其他软技能维度
- "最难考的能力"变得可规模化评估
行业影响
- 企业招聘可大幅降低软技能评估成本
- 教育系统有望将软技能纳入正式考核
- 个人成长获得可视化进度追踪
- 未来考试可能是跟AI吵一架