什么是人工智能?GPT语言模型发展史

125次阅读

GPT(Generative Pre-training Transformer,生成预训练变压器)是由 OpenAI 开发的一种语言模型,在广泛的自然语言处理任务中取得了最先进的结果。它最初由 Alec Radford, Karthik Narasimhan, Tim Salimans 和 Ilya Sutskever 在 2017 年的一篇论文中介绍。

GPT 的关键思想是在大量文本数据上以无监督的方式预训练一个大型变压器模型,然后在下游任务上使用较少的标记数据进行微调。这种方法在语言翻译、语言生成和问答等任务中已被证明非常有效。

GPT 的一项关键创新是使用变压器体系结构,该体系结构由 Vaswani 等人在 2017 年提出。变压器体系结构基于自注意机制,可以使模型更好地捕捉输入数据中的长距离依赖性。这对于语言建模特别有用,因为在输入文本中单词和短语可能相隔很远,但仍然具有很强的关系。

GPT 自初次发布以来经历了几次重大修订。GPT- 2 是 2019 年发布的一个更大、更强大的版本,具有超过 15 亿个参数。GPT- 3 是 2020 年发布的,更大,具有 175 亿个参数,能够以高精度执行各种各样的任务。

GPT 还启发了许多后继模型的开发,比如 Google 于 2018 年推出的 BERT(Bidirectional Encoder Representations from Transformers,双向编码器表示来自变压器),该模型也在许多自然语言处理任务中取得了最先进的结果。

总体而言,GPT 及其后继产品对自然语言处理领域产生了重大影响,为建立基于语言的智能系统开辟了许多新的可能性。

原文链接:https://baijiahao.baidu.com/s?id=1752989690645243062&wfr=spider&for=pc

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-07-10发表,共计738字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。