我们来看看 gpt4 的上下文处理模型为什么只能达到 8 -32k，因为 transformer 的 可输入长度取决于内存大小 ，这意味着实现太长的 token 不现实，Transformer 存在一个关键问题，即其注意力操作的二次复杂度，这导致将大模型应用于 处理较长序列变得越来越困难。然而，通过利用特殊的记忆 token 实现记忆机制的 Recurrent Memory Transformer（RMT）模型，有效上下文长度能够增长到百万级，这带来了新的发展前景。

2.RMT 模型

RMT 全称 Recurrent Memory Transformer（递归记忆 Transformer）

GPT4 限制被破解！ChatGPT 实现超长文本处理的新方法 — RMT 结构图

递归记忆 Transformer（RMT）是一种 基于记忆机制的序列建模架构，用于存储和处理序列数据中的局部和全局信息，并通过递归传递信息来处理长序列中的段之间的依赖关系。

相较于标准 Transformer 模型的实施，RMT 仅通过对输入和输出序列进行修改而 无需修改底层模型架构。模型通过训练过程中的记忆操作和序列表示处理来掌控记忆机制的行为。

具体而言，RMT 采用记忆 token 的方式将记忆信息添加到输入序列中，从而为模型提供额外的容量，以处理与输入序列中任意元素无直接关联的信息。为了应对长序列的挑战，RMT 将序列分割为不同的段，并通过记忆传递机制将上一段的记忆状态传递到当前段。在训练过程中，梯度通过记忆传递的路径从当前段向前一段流动，从而实现信息的回传和更新记忆状态的目的。

这意味着扩展了 token 的数量，如果达到理想的 200 万，我们可以将整部小说甚至更多内容输入到 GPT 中，而 无需依赖上下文来理解用户的信息。这种改进使得 GPT 能够更准确地处理输入，并提供更精准的回复。现在，试想一下，如果我将整篇《红楼梦》输入到 GPT 中，是否可以让它帮我续写这个经典作品呢？

3. 计算推理速率

GPT4 限制被破解！ChatGPT 实现超长文本处理的新方法

从论文的计算结果中可以很直观地观察到，推理时间与输入序列长度呈线性关系。

在处理包含多个片段的大型序列时，递归记忆 Transformer（RMT）模型可能比非循环模型更有效率。

这意味着在 GPT 模型中输入更多内容，可以让模型更深入地理解用户的意图，从而提供更准确的答复。

如果将自己的聊天信息和朋友圈动态等数据导入 GPT 模型，并让它进行理解和吸收，是否能够快速生成一个完整的虚拟人格呢？如果 token 达到这个量级完全是可实现的，这就有些恐怖了

4. 渐进学习能力

论文中还指出，随着输入数量的增加，机器学习模型学习到的结果也变得更加准确。

GPT4 限制被破解！ChatGPT 实现超长文本处理的新方法

这意味着输入更多的数据可以 显著提升模型的性能和预测准确度。

总结

这项技术将使得 ChatGPT 的能力上限被突破。这也让 ChatGPT 的痛点得以解决，使得它更完美。

我们甚至可以将整个项目的代码交给 GPT，并明确告诉它我们的需求，它将能够直接开始处理后续需求、修改代码并进行优化以及后面的需求迭代。

写到最后

每天在 AI 领域都有令人震撼的进展，各种新技术层出不穷。有幸生活在这个充满创新的时代，你准备好了吗

AI 是一个充满机遇和挑战的领域，

AI 时代已经到来，AI 真的会取代我们吗？

你还不主动了解 AI？

你还在为跟同事聊 AI 插不上话吗？

那请关注大侠，带你了解 AI 行业第一动态。

GPT4 限制被破解！ChatGPT 实现超长文本处理的新方法

原文链接：https://blog.csdn.net/qq_38150538/article/details/130840359

正文完

发表至：资讯

2023-08-01

转载说明：声明：本站内容均来自互联网，归原创作者所有，如有侵权必删除。本站文章皆由CC-4.0协议发布，如无来源则为原创，转载请注明出处。

GPT-4和GPT-3有什么区分？

通义千问怎么用通义千问使用教程详细介绍

GPT-4 出来了，它能颠覆 Web3 吗？

GPT4发布功能强于ChatGPT还能识图和角色扮演

ChatGPTplugins

GPT4限制被破解！ChatGPT实现超长文本处理的新方法

前言

使用 chat-gpt 过程中有哪些痛点

1. 无法理解人类情感和主观性

2. 上下文丢失

3. 约定被打断

那如何去解决这个痛点

Transformer（RMT） 怎么去实现的

1.Transformer 模型

2.RMT 模型

3. 计算推理速率

4. 渐进学习能力

总结

写到最后

Transformer（RMT）怎么去实现的