人工智能的技术应用到教育上可以帮助老师快速评估学生的学习程度,更有时间去进行针对性的教学方式方法的调整,对症下药学生才能往正确的方向提高。不必觉得它是洪水猛兽, 此次 kaggle 的赛题就是为了解决阅读和写作课程评估,提高学生写作技能的!
今天不谈基础教育,毕竟学姐是搞 AI 的不是搞 K12 的 (●’◡’●)~
回归正题!本次 kaggle 赛题的基本思路和 baseline 部分代码如下。(完整代码后台回复“文本回归”获取。)
01 赛题背景
阅读是取得学术成功的一项基本技能。当学生联系阅读挑战性的文章时,他们自然就会培养阅读能力。
当前教育课本使用传统的可读性方法与读者进行匹配。但是它们缺乏构造和理论有效性。CommonLit 是一家非营利性教育技术组织,为超过 2000 万名师生提供 3 至 12 年级的免费数字阅读和写作课程。
02 赛题任务
在本竞赛中,您将构建算法来评估 3 -12 年级课堂使用的阅读文章的复杂程度。赛题数据集包括来自各个年龄段的读者以及来自各个领域的大量文本。获胜的模型将确保结合文本衔接和语义。
本竞赛开发的算法将帮助教师和学生能够快速准确地评估课堂作业,学生同时也更容易提高基本的阅读技能。
03 数据介绍
为 3 -12 年级的阅读内容划分等级:
其中每个字段的描述如下:
-
id:每个不同专家的 id
-
url_legal: 代表数据的来源,测试集中为空白字符,避免选手知道数据的来源
-
license:数据使用许可协议,测试集为空
-
target – 可阅读性的分数,越低代表可阅读性差
-
standard_error- 衡量每个摘录的多个评分者之间的分数分布。不包括测试数据。
数据如下:
主要用到的为文本 excerpt 和目标 target,要求选手通过文本构建模一个回归模型,来推断出具体的分数。 就好比如好多学生在写作文,把写好的作文给其他人阅读,评估下每个人写好的论文可阅读性,是否能够让人通俗理解。
04 评分指标
提交分数是根据均方根误差进行计算预测值与真实值评分的。RMSE 定义为:
05 基于预训练模型的文本回归任务解决方案
数据分析
首先我们看下目标值 target 的具体分布,其中大部分值集中在 - 1 左右,最小值为 - 4 左右,最大值为 2:
另外我们可以看下整体语料中的,经常实现的词以及词组有哪些:
因为是小学年级的文本语料,所以可以看到大多数词汇还是入门级别的常用词。
预训练模型 - 继续预训练
首先导入所需要的包:
预训练主要参数设置:
预训练任务 MLM 的训练如下:
预训练模型 - 回归任务微调
导入所需要的包:
自定义数据集加载器:
回归模型构建:
06 赛题解析总结
1. 基于 baseline 的思路,模型多样性越多精度更好
2. 模型多样性指:Bert,DistilRoberta,Roberta
3. 模型参数多样性:层随机初始化,超参数差异
(完整代码关注公众号后台回复“文本回归”即可获取)
新的比赛已经来了奖金 10w 美刀
没人组队,来找学姐!
不知如何开始,来找学姐!
看赛题不知从哪入手,来找学姐!
原文链接:https://www.bilibili.com/read/cv12611344/