怎么高效的使用gpt-4？

194次阅读

一、序言

2016 年，我跟我中大心理系的同学谈到美国人力资源管理协会 SHRM 认证竟然如此强大，他问了我一个非常有趣的问题：HR 管理有标准答案吗？

同样的，也有很多人在问类似的问题：

HR 管理有最佳答案吗？

HR 管理有最佳实践吗？

对于国内大多数 HR，都在实战中混战，在混战中找规律，但基本上都是“经验主义”，跟大多数高校老师相反，大多数是“理论主义”— 你们的实战我不懂，我无法知道你们！（引用一位 TOP10 大学教授的真心话）

然而，我今天想超越这个话题，谈谈 SHRM 如何界定谁达到了认证的要求，谁没有 — 换一句话，到底正确率多少才能通过！如果不懂胜任力模型，不懂 SJTs，也不懂心理与教育测量学，也可以读懂本文。

我们以问答的形式来解决这个统计问题，即考试学中非中关键的问题 —Cutoff 线。我们不详尽讨论信效度的计算问题，另有专文讨论。

二、基本概念

大荔枝：如何使用 GPT 获得 SJTs 的信效度、难度、区分度？

要使用 GPT（如 OpenAI 的 GPT- 4 模型）评估 SJT（情境判断测试）的信效度、难度和区分度，您可以遵循以下步骤：

准备数据集：首先，为您的 SJT 准备一个数据集，其中包括测试题目、选项、正确答案和测试者的答案。确保数据集足够大，以便进行可靠的分析。
信效度：信效度是指测量工具的稳定性和一致性。要评估 SJT 的信效度，可以采用以下方法：
a. 内部一致性：计算 Cronbach's Alpha（克朗巴赫 α 系数），以评估 SJT 题目的一致性。使用 GPT 分析数据集中每个测试者的答案，并计算每个题目与整个测试的相关性。然后利用这些相关性来计算 Cronbach's Alpha。通常，α 值大于 0.7 表示测试具有较高的信效度。
b. 测试 - 重测法：让一组测试者在一段时间后再次完成 SJT。使用 GPT 分析两次测试的结果，并计算皮尔逊相关系数（r 值）。r 值接近 1 表示测试具有较高的信效度。
难度：难度是指测试题目的困难程度。要评估 SJT 的难度，可以计算每道题目的平均正确率（即答对该题的测试者占总测试者的百分比）。使用 GPT 分析数据集中的答案并计算每道题目的平均正确率。难度系数（p 值）通常在 0 到 1 之间，其中 0 表示非常困难，1 表示非常容易。通常，p 值在 0.3 到 0.7 之间的题目难度适中。
区分度：区分度是指测试题目在区分高分和低分测试者方面的有效性。要评估 SJT 的区分度，可以计算每道题目的区分指数（DI）。DI 是高分组和低分组答对该题的百分比之差。使用 GPT 将测试者分为高分组和低分组，然后计算每道题目的 DI。通常，DI 值大于 0.3 表示题目具有较高的区分度。
优化 SJT：根据以上分析，对 SJT 进行优化。对于信效度低、难度不合适或区分度低的题目，可以修改或替换这些题目以提高整体质量。

使用 GPT 评估 SJT 的信效度、难度和区分度可以帮助您了解测试的质量，并为优化测试提供有用的指导。

大荔枝：如何处理与计算 Cutoff 线来界定候选人是否通过认证？有哪些需要考虑的因素？

确定认证考试的 Cutoff 线（截止分数线）是一个复杂的过程，涉及多个因素。以下是确定 Cutoff 线时需要考虑的一些关键因素和处理方法：

考试目的：首先明确考试的目的，这有助于界定通过标准。例如，对于 SHRM 认证考试，目的是评估考生在人力资源管理方面的知识和技能。
标准设置方法：选择合适的标准设置方法来确定 Cutoff 线。常用的方法有：
a. Angoff 方法：让一组专家评估每道题目的难度，并估计合格考生的正确答案概率。将这些概率相加，得到合格分数线。b. Beuk 方法：基于 Angoff 方法，但同时考虑题目的实际难度和区分度。c. Nedelsky 方法：要求专家确定每道题目的最低答对选项数。然后计算总分，并确定 Cutoff 线。d. Cohen 方法：基于考生在每个能力等级上的表现，确定 Cutoff 线。
专家评审：邀请行业专家和心理测量学专家参与 Cutoff 线的确定过程，以确保考试标准的合理性和有效性。
考虑测试难度：不同版本的考试可能存在难度差异。可以使用等级量表方法（如 Rasch 模型）将不同版本的考试结果标准化，以确保截止分数线的公平性。
数据分析：收集考试数据并进行详细的分析，以确定 Cutoff 线。可以分析考生的总体表现、通过率、信效度等指标，以找到合适的截止分数线。
定期评估：定期评估 Cutoff 线，以确保其与行业标准和实际需求保持一致。在评估过程中，可以根据新的数据和反馈调整 Cutoff 线。
透明度和公平性：确保 Cutoff 线的设定过程透明，以便候选人了解评估标准。同时，确保 Cutoff 线对所有考生公平，避免任何形式的歧视。

确定 Cutoff 线的过程需要综合考虑多个因素，以确保认证考试的合理性和有效性。在整个过程中，专家的参与和数据分析至关重要，同时要确保透明度和公平性。

三、统计方法介绍

大荔枝：可以详细介绍一下 Angoff 方法吗？

Angoff 方法是一种常用的标准设定方法，用于确定测试或认证考试的截止分数线。这种方法依赖于一组专家对每道题目难度的评估，以估计合格考生答对该题目的概率。以下是 Angoff 方法的详细步骤：

选择专家：邀请一组具有相关领域知识和经验的专家参与标准设定过程。专家们需要对考试的目的和内容有深入了解。
培训专家：为参与评估的专家提供培训，确保他们理解 Angoff 方法的基本原理和操作流程。培训应包括评估题目难度的技巧、如何确定答对概率等。
专家独立评估：让每位专家独立地审查每道题目，并估计一名合格考生答对该题目的概率。这个概率通常在 0 到 1 之间，其中 0 表示不可能答对，1 表示肯定答对。
汇总专家评估：收集所有专家的评估结果，计算每道题目的平均答对概率。
计算截止分数线：将所有题目的平均答对概率相加，得到截止分数线。例如，如果考试有 50 道题目，每道题目的满分为 1 分，那么总分为 50 分。假设专家给出的平均答对概率分别为 0.9、0.8、0.7 等，将这些概率相加，可以得到截止分数线。
讨论和调整：在计算截止分数线后，组织专家讨论并对结果进行审查。专家可以根据考生的实际表现和其他相关数据调整截止分数线，以确保其合理性和有效性。
确定最终截止分数线：根据专家的讨论和调整结果，确定最终的截止分数线。

Angoff 方法的主要优点是它结合了专家的判断和实际考试数据，以确定合适的截止分数线。然而，这种方法也存在一定的局限性，如专家评估的主观性和不一致性。尽管如此，Angoff 方法在教育和心理测量领域仍被广泛应用，因为它为确定截止分数线提供了一种系统化和结构化的方法。

大荔枝：可以以一组数据来示范其计算，你可以设定一些假设或标准？

当然可以。假设我们有一个包含 10 道题目的考试，我们将使用 Angoff 方法来确定截止分数线。以下是示范计算的过程：

邀请 5 名专家参与标准设定过程。这些专家都具有相关领域的知识和经验。
为专家提供培训，确保他们理解 Angoff 方法的基本原理和操作流程。
专家独立评估每道题目。他们估计一名合格考生答对每道题目的概率。以下是他们给出的答对概率：

4. 计算每道题目的平均答对概率：

5. 计算截止分数线：将所有题目的平均答对概率相加，得到截止分数线。在这个示例中，截止分数线为：0.912 + 0.812 + 0.744 + 0.862 + 0.836 + 0.724 + 0.776 + 0.672 + 0.568 + 0.772 = 7.678。

6. 专家讨论和调整：根据考生的实际表现和其他相关数据，专家们对截止分数线进行讨论。在这个例子中，专家们一致同意将截止分数线保持在 7.678。

7. 确定最终截止分数线：根据专家的讨论结果，最终确定截止分数线为 7.678。这意味着考生需要在这个 10 道题目的考试中至少获得 7.678 分（通常会取整到 8 分），才能被认为是合格的。

这个示例展示了如何使用 Angoff 方法计算截止分数线。需要注意的是，这个例子非常简化，实际情况可能会涉及更多的专家、题目和数据。此外，在实际操作中，还可能需要对截止分数线进行多轮讨论和调整，以确保其合理性和有效性。

大荔枝：Beuk 方法呢？可以基于上一组数据再进一步解释一下吗？

Beuk 方法是一种基于 Angoff 方法的标准设定方法，但它同时考虑了题目的实际难度和区分度。我们可以基于上一组数据来解释 Beuk 方法：

首先，我们需要获取考试中每道题目的难度系数（p 值）和区分度系数（D 值）。假设我们已经从一组考生的考试数据中计算出了以下难度系数和区分度系数：

2. 接下来，我们使用之前计算的 Angoff 方法结果（平均答对概率）：

3. 对于每道题目，我们将平均答对概率与难度系数和区分度系数结合起来，计算修正后的答对概率。修正公式为：修正答对概率 = 平均答对概率 + D 值 * (1 – 平均答对概率) * (1 – 难度系数)。

例如，对于题目 1：修正答对概率 = 0.912 + 0.35 * (1 – 0.912) * (1 – 0.85) = 0.912 + 0.35 * 0.088 * 0.15 ≈ 0.920

4. 对所有题目执行相同的计算：

5. 计算截止分数线：将所有题目的修正答对概率相加，得到截止分数线。在这个示例中，截止分数线为：0.920 + 0.815 + 0.745 + 0.864 + 0.833 + 0.728 + 0.780 + 0.678 + 0.572 + 0.770 = 7.715。

6. 专家讨论和调整：根据考生的实际表现和其他相关数据，专家们对截止分数线进行讨论。在这个例子中，专家们一致同意将截止分数线保持在 7.715。

7. 确定最终截止分数线：根据专家的讨论结果，最终确定截止分数线为 7.715。这意味着考生需要在这个 10 道题目的考试中至少获得 7.715 分（通常会取整到 8 分），才能被认为是合格的。

通过这个示例，我们可以看到 Beuk 方法在 Angoff 方法的基础上，进一步考虑了题目的难度和区分度，使截止分数线的计算更加准确和合理。需要注意的是，这个例子同样非常简化，实际情况可能会涉及更多的专家、题目和数据。此外，在实际操作中，还可能需要对截止分数线进行多轮讨论和调整，以确保其合理性和有效性。

大荔枝 Nedelsky 方法呢？

Nedelsky 方法是另一种确定截止分数线的标准设定方法。与 Angoff 方法不同，Nedelsky 方法专门用于多项选择题（multiple-choice items）。该方法依赖于专家对每个错误选项的合理性进行评估。以下是 Nedelsky 方法的详细步骤：

选择专家：与 Angoff 方法类似，邀请一组具有相关领域知识和经验的专家参与标准设定过程。
培训专家：为参与评估的专家提供培训，确保他们理解 Nedelsky 方法的基本原理和操作流程。
专家独立评估：让每位专家独立地审查每道题目的所有选项，并估计一名合格考生将误选每个错误选项的概率。通常，概率值设置为 0（完全不可能选）或 1（很有可能选）。
计算每道题目的预期答对概率：对于每道题目，将所有错误选项的概率相加，然后用 1 减去这个值，得到预期答对概率。例如，如果一道题有 4 个选项，专家估计合格考生将分别以 0.2、0.1 和 0.3 的概率选错前三个选项，那么预期答对概率为 1 – (0.2 + 0.1 + 0.3) = 0.4。
汇总专家评估：收集所有专家的评估结果，计算每道题目的平均预期答对概率。
计算截止分数线：将所有题目的平均预期答对概率相加，得到截止分数线。
讨论和调整：在计算截止分数线后，组织专家讨论并对结果进行审查。专家可以根据考生的实际表现和其他相关数据调整截止分数线，以确保其合理性和有效性。
确定最终截止分数线：根据专家的讨论和调整结果，确定最终的截止分数线。

Nedelsky 方法的主要优点是它适用于多项选择题，可以直接评估错误选项的合理性。然而，这种方法也存在一定的局限性，如专家评估的主观性和可能的不一致性。此外，Nedelsky 方法要求专家对每个选项进行评估，这可能会增加评估过程的复杂性和耗时。尽管如此，Nedelsky 方法在教育和心理测量领域仍被广泛应用，因为它为确定截止分数线提供了一个结构化和系统化的方法。
以下是一个简化的示例，说明如何使用 Nedelsky 方法计算截止分数线。假设我们有一个包含 5 道多项选择题的考试，每道题目有 4 个选项。我们邀请了 3 位专家参与评估过程。

专家独立评估：每位专家独立地评估每道题目的错误选项概率。例如，对于第一道题目，专家的评估结果如下：

2. 计算每道题目的预期答对概率：对于每道题目，我们将所有错误选项的概率相加，然后用 1 减去这个值，得到预期答对概率。例如，对于第一道题目，我们将专家的评估结果取平均值，然后计算预期答对概率：

3. 对所有题目执行相同的计算，然后将每道题目的预期答对概率相加，得到截止分数线。假设我们已经计算了所有题目的预期答对概率，结果如下：

5. 截止分数线 = 0.4667 + 0.5333 + 0.6000 + 0.7000 + 0.8000 = 3.1000

6. 专家讨论和调整：根据考生的实际表现和其他相关数据，专家们对截止分数线进行讨论。在这个例子中，专家们一致同意将截止分数线保持在 3.1。

7. 确定最终截止分数线：根据专家的讨论结果，最终确定截止分数线为 3.1。

这意味着考生需要在这个 5 道题目的考试中至少获得 3.1 分（通常会取整到 4 分），才能被认为是合格的。
通过这个示例，我们可以看到 Nedelsky 方法如何将专家对错误选项概率的评估结合起来，计算出截止分数线。需要注意的是，这个例子非常简化，实际情况可能会涉及更多的专家、题目和数据。此外，在实际操作中，还可能需要对截止分数线进行多轮讨论和调整，以确保其合理性和有效性。

总之，Nedelsky 方法是一种针对多项选择题的标准设定方法，可以帮助确定一个合理的截止分数线。然而，这种方法也存在一定的局限性，例如专家评估的主观性和可能的不一致性。在实际应用中，可能需要结合其他方法（如 Angoff 方法和 Beuk 方法）以及考生的实际表现数据，来确保截止分数线的准确性和有效性。

大荔枝：可以在详尽介绍一下 Cohen 方法吗？

Cohen 方法（Cohen's Standard Setting Method，也称为 Cohen's Judgmental Policy Capturing Method）是一种基于专家判断的标准设定方法，适用于多种题型，包括多项选择题、简答题和开放性问题。Cohen 方法强调专家对考生整体表现的评估，而非对单个题目的评估。以下是 Cohen 方法的详细步骤：

选择专家：邀请一组具有相关领域知识和经验的专家参与标准设定过程。
培训专家：为参与评估的专家提供培训，确保他们理解 Cohen 方法的基本原理和操作流程。
生成考生表现概要：为每个考生生成一个包含其考试表现概要的资料。概要通常包括考生在每道题目上的得分以及总分，可能还包括其他相关信息，如考生在不同知识领域的得分。概要应该去除任何可能暴露考生身份的信息，以确保评估的公平性。
专家独立评估：让每位专家独立地审查一定数量的考生表现概要，并根据自己的专业判断为每个考生打上“合格”或“不合格”的标签。
计算截止分数线：对于每个被标记为“合格”的考生，记录其考试总分。将所有这些分数加起来，然后除以合格考生的总数，得到截止分数线。
汇总专家评估：收集所有专家的评估结果，计算截止分数线的平均值。
讨论和调整：在计算截止分数线后，组织专家讨论并对结果进行审查。专家可以根据考生的实际表现和其他相关数据调整截止分数线，以确保其合理性和有效性。
确定最终截止分数线：根据专家的讨论和调整结果，确定最终的截止分数线。

Cohen 方法的优点是它强调了对考生整体表现的评估，而非对单个题目的评估，从而减轻了评估过程中可能出现的专家评估不一致性。然而，这种方法也存在一定的局限性，如评估过程的主观性以及可能较难应对考试题目和评分标准的变化。

需要注意的是，Cohen 方法在实际应用中可能会与其他标准设定方法（如 Angoff 方法、Nedelsky 方法和 Beuk 方法）结合使用，以确保截止分数线。

大荔枝：可以构建一组数据说明 Cohen 方法在实际应用中可能会与其他标准设定方法（如 Angoff 方法、Nedelsky 方法和 Beuk 方法）如何结合使用吗？越详尽越好，把每一个可能的步骤都说清楚。

我们可以通过以下示例来说明 Cohen 方法与其他标准设定方法（如 Angoff 方法、Nedelsky 方法和 Beuk 方法）在实际应用中可能如何结合使用。
假设我们有一个包含 10 道题目的考试，每道题目有 4 个选项（多项选择题）。首先，我们将分别应用 Angoff 方法、Nedelsky 方法和 Beuk 方法来确定截止分数线。

Angoff 方法：请参考前面的示例，我们得到了截止分数线为 7 分。
Nedelsky 方法：请参考前面的示例，我们得到了截止分数线为 6 分。
Beuk 方法：请参考前面的示例，我们得到了截止分数线为 6.5 分。

接下来，我们将应用 Cohen 方法来确定截止分数线，并与前面得到的结果进行综合分析。

生成考生表现概要：假设我们有 100 名考生参加了考试，我们为每个考生生成一个包含其在每道题目上的得分以及总分的表现概要。
专家独立评估：我们邀请了 3 位专家参与评估。每位专家独立地审查所有 100 名考生的表现概要，并根据自己的专业判断为每个考生打上“合格”或“不合格”的标签。以下是专家的评估结果：

计算截止分数线：我们将每位专家的评估结果进行汇总，并计算截止分数线。

综合分析：现在我们已经得到了 4 个截止分数线的建议：Angoff 方法的 7 分，Nedelsky 方法的 6 分，Beuk 方法的 6.5 分和 Cohen 方法的 8 分。
讨论和调整：组织专家讨论并对各个截止分数线进行审查。在这个例子中，专家们一致同意将截止分数线设置为 7.5 分，作为各种方法的折中选择。这样可以确保截止分数线在不同方法之间取得平衡，同时保持其合理性和有效性。
确定最终截止分数线：根据专家的讨论结果，最终确定截止分数线为 7.5 分。

四、总结

通过这个示例，我们可以看到在实际应用中，Cohen 方法与其他标准设定方法（如 Angoff 方法、Nedelsky 方法和 Beuk 方法）可以结合使用，以确保截止分数线的合理性和有效性。
在这个示例中，我们首先分别应用了 Angoff 方法、Nedelsky 方法和 Beuk 方法来确定截止分数线，然后使用 Cohen 方法进行评估，并将其结果与前三种方法的结果进行综合分析。接着，我们组织了专家讨论，以便在各种方法之间取得平衡，并最终确定了一个合适的截止分数线。

这种综合应用多种方法的做法有助于充分考虑各种因素，如考生的整体表现、单个题目的难度和区分度等，从而使截止分数线更具合理性和有效性。同时，这也有助于减轻单一方法可能存在的缺陷和局限性，如专家评估的主观性和不一致性。

需要注意的是，这个示例仅供参考，实际操作中可能涉及更多的专家、题目和数据。此外，在实际应用中，截止分数线的确定可能需要进行多轮讨论和调整，以确保其准确性和有效性。根据不同考试的特点和要求，各种方法在实际应用中的具体操作和权重可能有所不同。

五、回到问题：HR 管理有标准答案吗？到底正确率多少才能通过！

从以上的方法可以洞见：

桑代克(E.L.Thorndike)（1918）“凡客观存在的事物都有其数量”（Whatever exists at all, exists in some amount

麦柯尔(W.A．McCall)（1939）“凡有其数量的事物都可以测量”(Anything that exists in amount can be measured)。

管理学大师彼得德鲁克：你如果无法度量它，就无法管理它。(“It you can’t measure it, you can’t manage it”)