评估标准与复盘

一、衡量是否真的培养出来了

不要只看他学了多少工具，要看他是否出现了下面这些变化：

遇到问题时，开始主动定义问题，而不是等指令。
遇到新工具时，能快速判断是否值得用。
使用 AI 时，能够提出高质量问题并验证结果。
面对模糊任务时，能主动拆解、推进和交付。
做项目时，越来越关注用户价值和真实结果。
能把零散行动逐渐组织成方法、系统和团队协作。

如果这些变化持续出现，说明培养方向是对的。

二、建立一套看得见的评分标准

如果没有评分标准，培养过程就很容易变成“谁表达得好，谁看起来就更强”。

更好的做法，是从关键能力出发建立评分表。

1. 五个核心评分维度

每个维度按 1 到 5 分打分。

问题定义

1 分：只会接受别人给的问题。
3 分：能初步识别真实问题，但还容易停留在表面。
5 分：能准确界定问题、识别约束，并找到高价值切入点。

技术杠杆

1 分：知道一些工具，但不会用在实际任务里。
3 分：能在具体项目中使用平台和工具提高效率。
5 分：能主动设计流程，把工具变成稳定产出能力。

AI 协作

1 分：把 AI 当搜索或答案机器。
3 分：会拆任务、会提问、会做基本验证。
5 分：能把 AI 纳入工作流，同时保持独立判断和结果校验。

创造性表达

1 分：有想法但表达混乱。
3 分：能清晰表达方案并做出基础原型。
5 分：能把抽象想法包装成可传播、可协作、可推动的成果。

事业推进

1 分：容易停留在想法和讨论。
3 分：能完成阶段性交付并推动迭代。
5 分：能围绕目标持续推进，整合资源，并带动他人参与。

2. 评分的正确用法

评分不是为了贴标签，而是为了识别接下来该练什么。

例如：

问题定义低，就多做用户访谈和问题拆解。
技术杠杆低，就多做自动化和原型训练。
AI 协作低，就多练任务拆解、提示设计和结果验证。
事业推进低，就多练目标管理、节奏控制和项目复盘。

评分的价值不在“分数”，而在“下一步动作”。

3. 建议使用统一评分表

为了避免每次评分都凭印象，建议直接使用统一评分表：

能力评分表模板

这份表建议至少包含：

当前分数
评分依据
代表性证据
下一步改进动作

只有分数，没有证据，评分会迅速失真。

只有结论，没有动作，评分就失去了训练价值。

4. 什么时候打分更合理

建议至少在三个时点打分：

第 1 周开始前，做一次初始评分。
第 6 周左右，做一次中期评分。
第 12 周结束后，做一次总结评分。

这样才能看见变化，而不是只看某一刻的状态。

5. 谁来打分更合理

更稳妥的方式是三种视角一起保留：

自评分：看本人如何理解自己的变化。
导师评分：看是否具备外部专业判断。
结果证据：看交付物、反馈和推进结果是否支持这个分数。

如果三者差距很大，重点不是争论谁对，而是回到证据本身。

三、执行模板在哪里使用

为了避免评估标准和执行模板混在一个文件里，模板已经独立拆出到单独目录：

四、最容易失败的四种方式

1. 只学工具，不碰真实问题

结果就是会很多名词，但做不出东西。

2. 只讲愿景，不做交付

结果就是表达越来越好，结果越来越少。

3. 过度依赖 AI，放弃独立判断

结果就是看起来很快，实际上越来越空心。

4. 没有固定节奏，完全靠热情推进

结果就是前两周很兴奋，后面快速松散。

五、常见评分偏差与纠正方式

1. 表达偏差

表现：谁更会讲，谁看起来分数就更高。

纠正方式：

评分时必须绑定交付物和证据。
把“讲得清楚”与“真实推进”分开看。

2. 印象偏差

表现：因为某一次高光或某一次失误，整体评分被拉高或拉低。

纠正方式：

至少看一个周期内的连续表现。
不用单一事件代表整体能力。

3. 关系偏差

表现：因为喜欢一个人、熟悉一个人，评分自然偏高。

纠正方式：

尽量同时保留自评分、导师评分和证据复核。
先看证据，再下结论。

4. 努力偏差

表现：看到很努力，就误以为结果和能力也同步提高。

纠正方式：

努力可以肯定，但评分优先看结果质量和能力变化。
把“投入很多时间”和“形成有效产出”分开评价。

5. 工具偏差

表现：谁用了更多工具、更多 AI，就被误判为能力更强。

纠正方式：

不看工具数量，看工具是否真的形成杠杆。
不看 AI 使用频率，看是否提升了判断和交付质量。