1、损失函数就是预测下一个词
2、所有下游任务都需要微调 ( 再训练 )
3、gpt1 是 decoder, 解码器
二、gpt-2( 开源 )
1、zero-shot( 不做任何训练 ) 在这开始耍起来了 , 下游任务不训练 , 不微调
2、下游任务很多种 , 不训练怎样让模型知道你要干什么呢 ?
3、暗示 , 通过提示告诉模型需要完成什么任务
4、总的来说就是更大了 , 而且下游任务不需要微调
半监督
( 二 ) 采样策略相关
1、子湖规模性要进行预测 , 但会不会进入一个死循环 ?
2、成语接龙 : 一一得一 , 一一得一……
3、我们希望模型有点多样性 , 就像写作文似的 , 不能光用然后
( 三 )Temperature
1、温度就是说对预测结果进行概率重新设计
2、默认温度为 1 , 就相当于还是 softmax,( 进行归一化处理 , 使得参数都在 0 - 1 这个范围 )
3、温度越高相当于多样性越丰富
4、温度越低相当于越希望得到最准的那个
( 四 )——top K 与 Top p
1、模型在采样的时候能不能采样到贼离谱的结果 ?
2、送一 TOP K 与 Top P 都是要剔除掉哪些特别离谱的结果
3、Top K 比如概率排序后选前 10 个 , 那之后的值就全部为 0 了
4、Top P 就跟那个 CUMSUM 似的算累加 , 一般累加到 0.9 或者 0.95
三、GPT-3
不做微调 ,
1、zero-shot 啥也不提示
2、one-shot。有提示 , 给例子、打个样 ( 给个例子 , 然后预测的时候参考上边的答案 )
3、few-shot 输入几个例子 ( 没有记住这些例子 , 朱模型参数并没有基于学习进行改变 )
( 二 )3 种方式的对比
1、这三种都没有更新模型
2、肯定是 few 的效果更好一些
3、api 太贵了
4、输入序列长度更长了
( 三 ) 网络结构
3.2M 的 Batch
( 四 ) 准本数据的事
1、数据集得大还得干净才行 , 需要做的工作还挺多
2、质量判断 , 对爬取的网页进行分类 , 进行分类任务看其质量 OK 不 ?
3、对网页进行筛选
原文链接:https://blog.csdn.net/m0_64745075/article/details/129801755