AnthropicAI最新推出的10万token模型:对大型文档与书籍进行语言模型学习的崭新尝试??️

AnthropicAI的新款10万token模型,为大型文档或书籍的语言模型学习(LLM)任务提供了新的可能。这令人不禁开始思索,它与微调(fine-tuning)和上下文学习(in-context learning)之间的关系 – 是优势还是劣势,或者只在特定情况下才具备优势?

如果考虑极端情况,假设上下文窗口无限大,那么将所有数据置于提示(prompt)中就如同进行一次性的微调。

优点:

  • 同微调一样,可以明确让模型接触到你的全部知识,只不过是在输入中,而不是在微调后的权重(weights)中。
  • 相较于Embedding,无需额外编写代码。
  • 相对微调,更方便地加入新的数据。

缺点:

  • 每次推理调用都需要重复输入所有数据。
  • 因此,边际成本和延迟将显著增加。

尽管Embedding在功能上更为有限(因为它本质上需要一些代码操作和向量数据存储),但另一方面,它能降低成本和延迟。那么,这种将所有内容都输入到提示中的方法,究竟是一种完美的妥协,还是两头不讨好的最差选择?

回归10万个token的上下文窗口问题:10万个token已经相当大了,但如果你有千兆或兆字节的数据,10万个token无法装下所有的内容(例如无法装下UBER SEC的文件)。因此,你仍需从你的数据中进行一些检索,特别是在没有微调的情况下。问题就变成了,你是否总是希望最大化上下文窗口,或者你是否愿意去分块检索。

 

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注