ARVIS，一个将LLMs(大模型们)与ML(机器学习)社区连接起来的系统。

随着ChatGPT的诞生，众多大模型也如雨后春笋般涌现，包括斯坦福的Alpaca，Meta的LLAMA，OpenAI的whisper以及stable-diffusion，还有清华大学开源的中文大语言模型ChatGLM。这些大模型专注于各自的领域，并具备出色的任务完成能力。目前你只能用alpaca去生成文本，用whisper处理语音，stable-diffusion生成图像。

使用midjourney或者stable-diffusion时，为了生成合适的图像，需要输入恰当的prompt（提示词），不同的prompt生成出来的图像可能有巨大的差异，因此许多人会先使用chatGPT，根据描述生成prompt，再将其输入到midjourney中生成图像。

而ChatGPT本就是作为生产力工具出现的，如此复杂的步骤在工程师眼中是不可容忍的。因此JARVIS应运而生。通过将各种不相关的大模型（LLM）串联在一起，去实现单一大模型无法完成的任务。在下图的例子中可以很清楚的看到大模型能力的提升。

如图，给JARVIS提出的需求是：生成一张小女孩看书的图片，并且她的姿势和提供的图片里小男孩的姿势一样。然后用语音描述这张新的图片。

这个需求由于涉及到几个大模型协同工作，因此目前单一的大模型无法处理。而JARVIS会将这个需求分解成几个需求，每一个需求找到合适的大模型去处理，最终成功完成任务。

系统要求

Ubuntu 16.04 LTS
NVIDIA GeForce RTX 3090 * 1
RAM > 24GB

准备工作

JARVIS通过ChatGPT串联各个大模型，因此需要准备openai.key，JARVIS会需要从huggingface下载大模型，因此还需要准备huggingface.cookie。

项目描述

项目地址：https://github.com/microsoft/JARVIS

当有了以上资源后，就可以快速开始你的JARVIS之旅了。

提问：这些图片里有几只斑马？

回答：

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

系统要求

准备工作

项目描述

相关文章

发表回复 取消回复

发表回复取消回复