InstrucGPT
InstructGPT相对于GPT的改进主要是使用了来自人类反馈的强化学习方案—— RLHF( Reinforcement Learning with human feedback)来微调 GPT-3,这种技术将人类的偏好作为激励信号来微调模型。让模型输出与人类真实意图对齐,符合人类偏好。
LLaMA
LLaMA(Large Language Model Meta AI)是Meta 在2023年3月,发布并开源了一款新型大模型,其参数量范围从70亿至650亿。值得注意的是,参数量为130亿的LLaMA模型在大部分基准测试中的表现,已超越了参数量高达1750亿的GPT-3。并且,这款模型可以在单块V100 GPU上运行。
AGI (通用人工智能)
AGI,全称为Artificial General Intelligence,也就是通用人工智能,是一种理论性的人工智能形态。它拥有全面的理解、学习和知识应用能力,其智能水平在各方面都与人类相当,甚至有超越之处。这种AI的特点是,它能够将在某一领域学到的知识理解、学习并应用到任何其他领域中。
Diffusion (扩散)
“扩散” 来自一个物理现象:当我们把墨汁滴入水中,墨汁会均匀散开;这个过程一般不能逆转,但是 AI 可以做到。当墨汁刚滴入水中时,我们能区分哪里是墨哪里是水,信息是非常集中的;当墨汁扩散开来,墨和水就难分彼此了,信息是分散的。类比于图片,这个墨汁扩散的过程就是图片逐渐变成噪点的过程:从信息集中的图片变成信息分散、没有信息的噪点图很简单,逆转这个过程就需要 AI 了。
AI Alignment (AI 对齐)
在人工智能领域,'对齐'(Alignment)指的是使人工智能模型的输出与人类的常识、认知、需求以及价值观保持一致。其目标范围广泛,从大的方面来看,是防止人工智能对人类造成伤害;从小的方面来看,是确保生成的结果符合人们的真实需求。例如,OpenAI设立了专门的对齐团队,并开发了名为InstructGPT的模型。这个模型采用了对齐技术,旨在使AI系统的目标与人类的价值观和利益保持一致。