什么是大模型,什么是RAG,什么是提示词,常见的开源大模型的区别,常见的文生图工具
- GPT: Generative Pretrained Transformer(生成式 预训练的 Transformer),
在transformer之前,语言模型的主流架构是RNN(循环神经网络),但是rnn不能并行处理,只能按顺序处理,并且难以有效的捕捉长距离的语义关系,lstm是rnn的改良,但是当距离过长的时候,也依然受到限制;而transformer能学习输入序里所有词的相关性和上下文,不会受到短时记忆的影响,这得益于transformer的自注意力机制 :
transformer在处理每个词的时候,不仅会注意这个词本身,以及它附近的词,还会去注意输入序列里所有其他的词,然后给予每个词不一样的注意力权重,权重是模型在训练过程中通过大量文本逐渐习得的
大语言模型,首先需要大量文本进行无监督学习,大语言模型的大,不仅是训练数据巨大,而且参数数量也是巨大的,因此transformer知道当前词和其它词的相关性有多强,然后专注于输入里真正重要的部分,即时两个词的位置隔的很远,transformer也可以捕捉到它们之间的依赖关系;
transformer在把词输入给神经网络之前,除了会先对词进行嵌入,转换成词向量,也就是把词各用一串数字表示,还会把每个词在句子中的位置也用向量表示,即位置向量,然后把它们添加到输入序列的表示当中,然后把这个结果给神经网络,于是模型既可以理解每个词的意义,又能够捕获词在句子中的位置,从而理解不同词之间的顺序关系,借助位置编码,词可以不按顺序输入给transformer,模型可以同时处理输入序列里的所有位置,而不需要向rnn那样依次处理,在计算时,每个输出都可以独立计算,不需要等待其他位置的计算结果,从而大大提高了训练速度。
- AIGC:(AI Generated Content) ai生成内容:
如文本、代码、图片、音频、视频
- 什么是大模型(Large Language Models, LLMs)
定义:大规模语言模型是一种基于深度学习的AI系统,通过海量文本数据训练而成
特点:
- 具有理解和生成人类语言的能力
- 参数量巨大(通常在数十亿到数万亿不等)
- 可以完成多种任务:对话、写作、代码生成、翻译等
工作原理:基于Transformer架构,使用自注意力机制处理输入信息
- 提示词工程:就是调教ai,研究如何提高和AI的沟通质量和效率,让它给我们想要的结果
方法:
- 小样本提示,用样本进行引导
- 借助思维链:在给ai的小样本里,不仅包含正确的结果,还包含具体的推理步骤
- 分步骤思考
- 什么是RAG(Retrieval-Augmented Generation)
让模型访问外部知识库,获得实时且正确的数据,生成更可靠和准确的回答,这种架构叫做RAG
- 定义:检索增强生成,是一种将信息检索与语言生成相结合的技术
- 工作流程:
- 将知识库文档拆分并建立向量索引
- 收到用户查询后检索相关文档
- 将检索到的信息作为上下文提供给大模型
- 大模型基于上下文生成回答
rag有利于搭建企业知识库和个人知识库
- 优势:
- 提高回答准确性
- 可以处理最新信息
- 降低幻觉问题
- 支持私有领域知识