本文 文末有学姐整理好的通用大模型论文 ,都是 各个大模型的原始论文,强烈建议大模型方向的同学,或者对大模型研究感兴趣的同学阅读!
另外也分享一下学姐之前整理的类 GPT 模型,大家感兴趣的可以点传送门!里面也有 免费资料 哦!
自 ChatGPT 发布以来,通用大模型就仿佛坐了火箭,短短几个月的时间,各大企业便争相发布自己的大模型,这其实也反应了目前人工智能发展的方向,所以,目前通用大模型的研发已经成为各国新一轮技术竞争的核心领域。
既然都这么火了,那让我们来看看到现在都有哪些通用大模型(学姐收集的都是比较热门的,如果有缺漏欢迎大家评论区补充哈,使用评价也是偏主观的,有不同的看法评论见)
国内:
使用评价:在文学创作上回答的挺全面,数学解答能力有点不太行,代码能力也是一般般。
使用评价:文学创作也很不错,翻译和数学问题回答的也可以,代码能力有待提高。
使用评价:首先它这个审核速度我是满意的,两天就通过可以上手玩耍了,代码解释能力不错,但是写代码还是差点意思。
使用评价:文学创作能力也在线,数理问题也能做,代码能力整体也是一般。
使用评价:这个也是申请了好久,刚刚才通过,我都快忘了 … 简单试用了一下,数理问题复杂点的不太行,代码编程能力还不错。
国外:
使用评价:这还需要学姐评价嘛(doge)
使用评价:这么说吧,学姐现在找论文基本都用它。
使用评价:用 Claude 需要先注册一个 slack 号,然后才能使用。流程还是比较简单的,有同学需要注册攻略吗?需要的话在评论区吱一声,学姐之后整理一下。
偏题了 …Claude 好处是登录之后就不用再用魔法了,而且用它来辅助阅读论文是真不错~
使用评价:这个学姐用的少,用的时候还不支持中文,创造力不如 GPT,其他能力还是可以的。
必读论文:
论文标题:Efficient Estimation of Word Representations in Vector Space
这篇论文在词向量学习和大规模文本表示学习方面做出了以下贡献:
1) 提出两种词向量学习模型架构:word2vec 模型
2) 这些模型可以在大规模数据集上快速学习高质量词向量
3) 学习到的词向量在词相似度任务上优于其他方法,达到当时的最先进水平
这篇论文为大规模词向量学习和文本表示学习提供了有价值的参考,为自然语言处理任务奠定了基础。
论文标题:Sequence to Sequence Learning with Neural Networks
这篇论文提出了一种基于 LSTM 的端到端序列学习方法:Seq2Seq,首次将编码器 - 解码器结构应用于自然语言处理任务。
这篇论文为序列学习和神经网络机器翻译研究提供了有价值的参考,为后续研究奠定了基础。
论文标题:Attention is All You Need
这篇论文的主要贡献为:
1) 提出一种网络架构 Transformer,引入了自注意力机制
2) Transformer 在机器翻译质量和效率上优于其他序列转换模型
3) Transformer 显示出很强的泛化能力,可以应用于其他自然语言处理任务
这篇论文为序列学习和神经网络机器翻译研究提供了新的思路和参考。该网络架构 Transformer 已成为机器翻译和其他序列学习任务的主流框架之一。
论文标题:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
这篇论文的主要贡献为:
1) 提出 BERT 模型,实现实现了多项自然语言处理任务的突破性进展。
2) BERT 在 11 个 NLP 任务上取得 SOTA,展示了其强大的适用性
3) BERT 通过简单的微调即可迁移到不同任务,无需重大改变模型架构,这大大减轻了研发模型的工作量。
这篇论文在 NLP 的预训练模型和深度学习模型的研究与应用方面具有里程碑意义。
BERT 模型的提出开启了 NLP 中大规模语言理解的新篇章。其强大的表征学习能力和任务迁移能力使其迅速应用于 NLP 的各个子领域,产生广泛影响,极大地推动了 NLP 技术的进步。
论文标题:Improving Language Understanding by Generative Pre-Training
这篇论文的主要贡献为:
1) 提出一种基于生成式预训练和歧视性微调的方法,实现 NLP 任务的迁移学习
2) 使用面向任务的输入变换实现迁移,仅需要少量改变模型架构
3) 实证该方法在 12 个任务上的有效性,实现 SOTA
4) 提供一种通用的框架,解决 NLP 任务学习中的数据匮乏问题。
这篇论文在 NLP 中迁移学习和端到端学习的研究方面具有重要意义。作者提出的方法为解决不同任务的数据匮乏问题提供了一种有效和实用的框架。
论文标题:Language Models are Unsupervised Multitask Learners
这篇论文的主要贡献为:
1) 提出了一个从大规模文本数据中自动发现任务的方法
2) 利用大规模网页数据集 WebText 预训练语言模型,使其可以零样本学习执行 NLP 任务
3) 证明语言模型的容量对迁移学习至关重要,更大的模型可以实现更好的性能
4) 模型 GPT- 2 在 7 个语言建模数据集上达到 SOTA,但仍然不足以拟合全部 WebText
这篇论文在 NLP 中的迁移学习和无监督学习方面具有重要意义。作者证明了大规模语义模型在合适的数据集上的预训练可以实现对 NLP 任务的零样本学习和适配。这为解决数据匮乏问题,构建可以像人类一样从示例中学习任务的语言模型提供了参考。
论文标题:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
这篇论文的主要贡献为:
1) 提出一个统一的框架 T5,推动迁移学习的发展
2) 系统研究不同迁移学习方法,并在多个 NLP 下游任务上进行比较
3) 基于 Colossal Clean crawled 语料库和模型规模,在许多基准测试上达到 SOTA
这篇论文在 NLP 中迁移学习的研究和应用方面具有重要意义。作者提出的框架和比较研究可以指导未来在不同任务和方法上的工作。
论文标题:Language Models are Few-Shot Learners
这篇论文的主要贡献为:
1) 提出大规模语言模型 GPT-3
2) 在少样本设置下,GPT- 3 在许多 NLP 任务上达到或超过先前 SOTA,展示了规模化带来的性能提高
3) GPT- 3 在某些任务上表现人类水平,但也面临方法论方面的挑战
4) 讨论大规模语言模型可能带来的广泛社会影响。
GPT- 3 的强大能力预示着深度学习在 NLP 领域可能取得的显著进步,但也提示研究社区需要正视并处理人工智能带来的广泛影响。
论文标题:Open and Efficient Foundation Language Models
这篇论文的主要贡献为:
1) 开发并开源一组不同规模的语言模型 LLaMA
2) 证明可以仅使用公开数据集训练最先进的语言模型
3) 这些模型在性能上匹配或超过专有模型,为语言模型的研究和应用带来更大选择
这篇论文在大规模语言模型和神经网络模型的研发和应用方面具有重要意义,减少了语言模型研究的门槛,使更多研究者可以接触并开发大规模神经网络模型,有助于推动该领域技术的发展。
论文标题:GPT-4 Technical Report
这篇论文的主要贡献为:
1) 开发了大规模多模态语言模型 GPT-4
2) GPT- 4 在人工智能基准测试中达到或超过人类水平
3) 模型研发采用可扩展的框架,可以在不同规模下保证性能,为后续更大规模模型提供经验
4) 该模型为多模态智能体研究和人工通用智能发展提供了有价值的参考
GPT- 4 的强大能力表明在人工智能的发展已进入新的阶段,为人工智能的未来发展指明了方向。
以上 10 篇原始论文学姐帮你下载打包 OK 啦,大家可以关注“学姐带你玩 AI”公号(不懂的看我主页签名)回复“通用”即可免费领取!
原文链接:https://zhuanlan.zhihu.com/p/634769284