Claude 已经能够支持 100K 的上下文 token 长度,也就是大约 75,000 个单词。
这是什么概念?
一般人用时大约 5 个小时读完等量内容后,还得用更多的时间去消化、记忆、分析。
对于 Claude,不到 1 分钟就搞定。
把「了不起的盖茨比」整本书扔给它,大约有 72k token,并将其中的一句话进行改动:
Mr. Carraway 是一个在 Anthropic 从事机器学习工具的软件工程师。
你敢相信?Claude 仅花了 22 秒,就把改动的这句话找出来了。
众路网友纷纷表示,有了 Claude 100K,手里的 GPT-4 32K 已经不香了。
Claude 100k,倍儿香!
前段时间,在 OpenAI 的开发者社区中,许多人讨论 GPT-4 32K 正在推出。
而且,不少 GPT- 4 的用户已经可以在自己的 PlayGround 上看到 GPT-4 32k 的选项。
已经解锁这一版本的网友,让其访问了数百个来自卸载 HyperWrite 用户的数据点,GPT- 4 便准确地告诉他接下来该做怎样的改进。
他称赞道,GPT-4 32k 是世界上最好的产品经理。
32k 都这么厉害了,那么,有了 100K 岂不更强了。
显然,OpenAI 的强大对手 Anthropic 最先占据了优势。
100K token 的上下文长度,意味着,你可以在 Claude 上传数百页的文本分析。并且对话的持续时间也被大大拉长,延长到数小时,甚至数天。
当然,除了长文本阅读之外,Claude 还可以从文档中快速检索出你所需的信息。
你可以把多个文档,甚至一本书的内容当作 prompt,然后提问。
以后遇到论文,甚至巨长篇幅的直接让 Claude 总结吧,这简直就是啃论文后辈们的福音。
这种综合性的问题通常需要对文本中很多部分的内容有一个全面的认识,而在处理这种问题上,Claude 可以说要比基于向量搜索的办法要强。
Claude 还可以是你的「代码伴侣」,分分钟就能做个演示。
比如,上传一个 240 页的 Langchain API 文档,让它基于这个文档,用 Anthropic 的语言模型做一个 Langchain 的简单演示。
还可以把 85 页的公司年度报表(10k)喂给 Claude。
然后,要求突出对潜在投资者最重要的项目,并解释其重要性。
此外,Claude 100k 还能处理大约 6 小时的音频量。
比如说,AssemblyAI 把一个卡马克的播客的内容转录成了 58k 个 token 量的文本,然后用 Claude 进行了总结和问答。
最后,Claude 总结了一下自己能干的事,覆盖可以说是非常全面了。
– 理解、总结和解释密集的文件,如财务报表、研究论文等
– 根据年报分析公司的战略风险和机遇
– 评估一项立法的利弊
– 识别法律文件中的风险、主题和不同形式的争论
– 阅读数百页的开发文档,回答技术问题
– 通过将整个代码库放入上下文中,并智能地构建或修改它来快速制作原型
当然,现在,Anthropic 表示 100K 上下文还是一个测试版功能,在此期间将按照标准 API 定价来收费。
官网也给出了具体价格:
Claude Instant
Prompt:$0.00163 / 1K tokens
Completion:$0.00551 / 1K tokens
Claude-v1
Prompt:$0.01102 / 1K tokens
Completion:$0.03268 / 1K tokens
比起 OpenAI,这价格已经非常亲民了。
据 OpenAI 官网,GPT-4 32k 的 Prompt 需要 $0.06,Completion 需要 $0.12。
相当于,你得花 5 - 6 倍的价格给模型 prompt。
网友称,Claude 100k 比 GPT-4 32k 更快速、更便宜。
网友实测
这么重磅级的更新,一定少不了网友的体验。
有网友称 100k 简直难以置信,能够处理多篇完整的论文,部分完整的代码库,甚至一本 250 页的小说。
顺便提一句,许多网友最先用 Claude 测试了一番,发现效果还不错。
最初,100K 仅限在 API 中,Claude 应用的默认模型仍然是 9K。但很快,Claude 应用界面也支持 100K 了。
一位网友用 100 页的「GPT- 4 技术报告」测试,结果只能用 amazing 来形容。
还有人直接把太宰治的「人间失格」喂给了 Claude,并用英文问故事中情节,完全给出了准确的回答。
同时,这位网友把自己开发的 Toolformer Zero 完整源代码丢给它,Claude 精准描述出这是用来做什么。
并且,Claude 还称赞了代码的模块化,提供增加一些单元测试的建议。
把「贝奥武夫」诗扔进去,分析下贝奥武夫这个人物性格,也是非常准确。
英伟达科学家 Jim Fan 表示,这是 Anthropic 抛出的杀手锏。未来在上下文长度的军备赛正快速升温。
对于支持 100k 的意义,网友称,泰裤辣!这很好地展示了为什么长文本对 LLM 很重要。
还有好多网友纷纷暗示 GPT-4。
Claude-100K 的诞生,让 AnthropicAI 正式成为 OpenAI 的真正竞争者。
「许多人还在排队等候 32k 的 GPT-4。这次,Claude 将上下文窗口扩展到 10 万 token,直接大幅跃升。
这也意味着包括 OpenAI、谷歌在内的公司都要在这一领域竞争,这对用户来说是一个巨大的胜利。」
还有网友感慨时代进步太快了。
谷歌宣布 PaLM 2 擅长高级推理任务不到一天,而 Anthropic 的 Claude 现在可以在不到一分钟的时间内消化 10 万个 token。人工智能的进步确实令人瞩目。
不过,如果你输入的 token 少于 9K,Antropic 调用的似乎就是之前的模型了。
百万 token,不是梦
过去几年,斯坦福大学 Hazy Research 实验室一直在从事一项重要的工作,就是增加模型的序列长度。
在他们看来,这将开启机器学习基础模型的新时代。
研究人员在 22 年提出的 FlashAttention 算法证明了 32k 可行性。
就连 Sam Altman 称我们要的是 32k token。
其实,不仅是 32k,现在 100k 都实现了,百万 token 也不远了。
「绝对太野了!几年后,支持 100 万的 token 上下文长度会不会成为可能?」
前段时间,来自 DeepPavlov、AIRI、伦敦数学科学研究所的研究人员发布了一篇技术报告,使用循环记忆 Transformer(RMT)将 BERT 的有效上下文长度提升到「前所未有的 200 万 tokens」,同时保持了很高的记忆检索准确性。
论文地址:https://arxiv.org/abs/2304.11062
该方法可以存储和处理局部和全局信息,并通过使用循环让信息在输入序列的各 segment 之间流动。
不过,虽然 RMT 可以不增加内存消耗,可以扩展到近乎无限的序列长度,但仍然存在 RNN 中的记忆衰减问题,并且需要更长的推理时间。
实际上,RMT 背后是一个全新的记忆机制。
具体操作方法是,在不改变原始 Transformer 模型的前提下,通过在输入或输出序列中添加一个特殊的 memory token,然后对模型进行训练以控制记忆操作和序列表征处理。
与 Transformer-XL 相比,RMT 需要的内存更少,并可以处理更长序列的任务。
当然,在最终实现百万 token 之前,Claude 100k 已经是相当大的起步了。
参考资料:
https://www.anthropic.com/index/100
原文链接:https://www.zhihu.com/question/600571085