3 月 17 日,OpenAI 官方发布了最新的研究论文《GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models》,论文作者认为当下的发展趋势中,GPT 类大模型逐渐成为一种通用技术,这将会对美国劳动力市场产生深刻的潜在影响,并在论文中探讨了 LLM(大型语言模型)对美国不同职业和行业的具体影响。
本文主要对该篇论文的研究结论和研究方法进行翻译和总结,包括结论、数据说明、研究设计三个部分。
1、研究结论
-
绝大多数职业和从业者将受到 GPT 冲击 : 每个职业里至少 15% 部分的工作量、80% 从业者中的 19% 从业者的工作量可通过 GPT 完成并能节省 50% 以上时间。
-
GPT 会影响各个薪资层面 : 更高工资的工作受到 GPT 的冲击更大。
-
需要深度思考的脑力劳动更重要 : 需要科学和批判性思维这类技能的职业不太可能受到 LLM 的影响。相反,需要编程和写作技能的职业更容易受到 LLM 的影响。
-
高学历工作者更易受到 GPT 冲击 : 拥有学士、硕士及更高学位的工作者相对普通人来说更容易受到 GPT 的冲击。
-
不需要培训或只需实习的职业更易受 GPT 冲击 : 在职培训时间最长的职业受 GPT 冲击程度最低(薪资水平较较低),不需在职培训或只需实习的工作更容易受 GPT 冲击(薪资水平相对较高)。
-
与“数据处理、信息处理”深度相关的行业受到 GPT 影响最大
2、研究设计2.1 数据来源
2.1.1 数据集 1:职业、详细工作活动、具体任务
数据集 1 来源于 O *NET 数据库,包含:1016 种职业(Occupation)、2087 项详细工作活动(DWA)、19265 个具体任务(Task)。其中,1 项详细工作活动(DWA)与 1 个或多个具体任务(Task)对应。1 项具体任务(Task)可以关联多项详细工作活动(DWA)。
2.1.2 数据集 2:工资、就业、人口
数据集 2 来自于 美国劳工统计局(BLS)2020、2021 年的数据,包含:职业名称、每个职业的工人数量、2031 年职业水平的就业预测、职业准入的教育水平以及获得职业能力所需的在职培训情况。
另外,论文中通过 BLS 中的 当前人口调查数据(CPS),将 O*NET 中的任务和工作活动数据集与 BLS 劳动力人口统计数据联系起来,形成了一个截面数据。
2.2 Exposure 度量规则
论文中用 Exposure 指标 来衡量 GPTs 对工作活动(DWA)和任务(Task)的冲击程度,以此代理 GPTs 对潜在经济的影响。Exposure 指标 被定义为:保证完成质量相同的情况下,接入 GPT 或基于 GPT 技术的软件是否能够将完成工作活动或完成任务所需的时间缩短至少 50%以上。
论文将职业受冲击程度 Exposure 分为以下三类:
· No Exposure(E0):使用 GPT 完成一项 DWA/Task 的时间没有减少或差不多,或是导致完成质量下降。
· Direct Exposure(E1):直接通过 ChatGPT/OpenAI 接口访问 LLM 或者 GPT- 4 可以将完成 DWA/Task 所需的时间减少 50% 以上。
· LLM+ Exposed(E2):直接访问 LLM 不会将完成一项 DWA/Task 所需的时间减少 50% 以上,但是通过基于 LLM 开发一个附加软件,使用该软件可以将完成所需的时间减少 50% 以上。
论文采用了人工和 GPT- 4 两种方式进行注释、分类(两种方式互为补充,结论显得更有说服力)度量Exposure:
1、人工法:首先通过对 O*NET 数据库中的每一个 DWA—Tasks 进行注释打分,之后进行人为归类到职业 (Occupation) 级别。
2、GPT- 4 法:使用早期版本的 GPT-4 对工作活动和任务进行注释打分。但是针对的是 Tasks—Occupation,而非人工法的 DWA—Tasks。在 GPT- 4 法中作者又对Exposure 度量规则进行了轻微的修改以增强与一组人工标注组标签的一致性。完全一致率(Agreement)在表 2 中给出。
此外,论文通过构建了 3 个指标 α、β 和 ζ,分别衡量低、中、高水平下的 GPT 对各职业的冲击程度:α 代表一个职业的 Exposure 下限;ζ 代表一个职业的 Exposure 上限;β 中对 E2 的 0.5 权重意图是度量额外开发部署软件所需的Exposure(这句翻译得不太准)。以下表 2 为 GPT 和人类打分两种方式的一致性和 Pearson 相关系数情况:
3、研究结论
3.1 Exposure 统计指标汇总
表 3 是人工和 GPT- 4 两种 Exposure 度量方法得到的数据汇总结果。两种标注方式的结果都表明:𝛼的平均值在 0.14 左右,这表明在中位数职业里至少 15% 部分的 Task 直接暴露给了 GPT(用 GPT 替代人工可节省 50% 以上时间),巧合的是,所有 Tasks 中也有 15% 左右也是直接暴露给了 GPTs。
结合 β 的平均值,论文作者认为:80% 职业的工作者,他们的工作任务中至少有 1 个 task 暴露给了 GPTs;这些工作者他们当中的 19%,工作任务中至少 50% 以上 Tasks 被标记暴露给 GPT。(0.8*0.19 约等于 15%)
3.2 工资、就业
3.2.1 经济体间的 Exposure 密度分布
图 3 的左右两图分别是不同分位数下的职业—工作任务、工作者—工作任务的 Exposure 程度分布。两图具有相似的分布,表明 GPT 的冲击程度与不同职业的工作者之间不存在高度线性相关性。
3.2.2 就业水平与薪资阶层
对于职业层面的结论,见图 4 的 binscatter 图,人工和 GPT- 4 注释的两种方式结果表现出了一定程度的相似性和相关性:
图 4 中前两个图表明:GPT 冲击似乎与就业水平之间没有太大的相关性。两个图表都没有显示出 GPT 冲击在不同就业水平上的显著差异。
图 4 中后两个图显示:尽管存在“许多低薪职业的 Exposure 很高、高薪职业的 Exposure 很低”的情况,但是 binscatter 图中的总体趋势表明:高工资受到 GPTs 的冲击更大。
3.3 工作技能
作者首先将 O*NET 数据库中的“skill-base”11 类数据中各类数据对各个职业的重要性分数进行标准化,之后将其与 Exposure 指标 (α,β,ζ) 进行回归分析,以检验技能重要性与 Exposure 程度之间的关联度。
根据表 5 的回归结果:科学和批判性思维技能的重要性与 Exposure 强烈负相关 ,这表明需要这些技能的职业不太可能受到 LLM 的影响。 相反,编程和写作技能与 Exposure 强烈正相关,这意味着涉及这些技能的职业更容易受到 LLM 的影响。
注:skill-base 数据样例如下(最新的 O *NET 6 中没有“编程”这一项,作者应该用的是老数据)
3.4 职业准入门槛
首先,论文研究了不同领域(Job Zone)的工作 准入壁垒与 Exposure 程度 的关系,使用的数据为 O*NET 数据库中 5 个“Job Zone”及对应职位相关信息,结果为图 5、表 6。从结果上看:从 Zone 1 到 Zone 4,Exposure 逐渐增加,但在 Zone 5 则有所减少。并且,50% 以上任务受到 GPT 冲击的职业比例(平均百分比)分别为 0.00%(Zone 1),6.11%(Zone 2),10.57%(Zone 3),34.5%(Zone 4)和 26.45%(Zone 5)。
之后,论文验证了各领域(Job Zone)职业中的 教育门槛(学历门槛、在职培训时长,两个变量)与 Exposure 程度的关系,使用的数据为 BLS-Occupation 数据集中 "Typical Education Needed for Entry"、"On-the-job Training Required to Attain Competency" 两类。
表 7、表 10 分别是按“在职培训时长”、“准入学历”分类职业的平均 Exposure 结果。论文作者认为:高学历工作者(持有学士、硕士和更高学位)相对普通人更容易受到 GPT 的冲击。在职培训时间最长的职业受 GPT 冲击程度最低(这类工作的收入水平更低),而不需在职培训或 只需实习 的工作 更容易受 GPT 冲击(工作的收入水平 更高)
注:O*NET 数据库中 5 个“Job Zone”、BLS-Occupation 教育数据样例
3.5 职业、行业层面的 Exposure
作者整理了最高 Exposure 的 5 个职业(这些职业均与“信息、数据处理”任务高度相关)以及 Exposure 为 0 的 34 个职业(几乎都为体力劳动),最后将数据整合到行业层面。下面是具体结果,其中行业层面 Exposure 的图片来源于东北证券对该论文的解读。
另外,作者认为:近期的生产增长率 (包含全要素和劳动力两方面) 与 Exposure 无显著相关性。从散点图上看,不同行业自 2012 年以来的生产力增长率与研究中定义的 Exposure 没有明显的线性关系,但已经历快速增长的生产性行业与 Exposure 度之间存在高度相关性。即:如果 LLM 有可能在不同行业之间以不同程度提高生产力,那么高生产力的企业将更有生产力。由于这些行业的生产需求普遍缺乏弹性,生产率最高的部门在经济投入中所占的比例将缩小。
4、关于Exposure 方法的讨论
为了说明 Exposure 度量方法的可靠性以及结论的稳健性,作者除了使用 GPT-4、人工标注法对比以外,在这一部分又与其他方法进行了比较。作者首先总结了前人在 Occupation Exposure 方面的度量方法,并将这些研究方法应用于数据集中:
之后,作者将这些方法作为解释变量,在本文中新定义的 Exposure 规则上分别用 GPT-4、人工标注得到的评分数据对这些方法(解释变量)进行基准回归(对比控制 Avg.Salary 对数值):
可以看到,除了 AI 大部分数据都是 ***,说明作者定义的 Exposure 规则与前人 8 种度量方法之间存在显著相关性,因此,本篇论文作者实证得到的结论具有一定的可信性。
参考文献
[1] 2023 GPTs are GPTs- An Early Look at the Labor Market Impact potential of LLM
https://arxiv.org/pdf/2303.10130v1.pdf
[2] 东北证券. GPT 将如何影响我们的工作? 2023.03.23
原文链接:https://www.bilibili.com/read/cv22774682