关于ChatGPT的几个事实

发布于: 修改于: 雪球转发:312回复:101喜欢:602

一、ChatGPT全称Chat Generative Pre-trained(出自GPT最早的论文标题,Improving Language Understanding by Generative Pre-Training,感谢@树林ty 勘误),一层一层剥开,ChatGPT是Chat形式的GPT,GPT的意思是“生成式预训练Transformer”,三个关键词:“生成式”表明它的能力是生成内容;“预训练”表明它的能力是预先训练的。

二、除了Chat形式的GPT还可以有其它形式的GPT。

三、GPT是众多LLM中的一种模型,是由OpenAI开发的,其它的LLM模型包括:谷歌的LaMDA;谷歌的PaLM;谷歌的Bert;谷歌的GLaM;DeepMind的Gopher;DeepMind的RETRO;DeepMind的Chinchilla;英伟达微软的MT-NLG;Facebook的OPT-IML;亚马逊的Multimodal-CoT;百度的文心一言(破名字);我国还有一个叫“悟道”的不知道谁开发的;等等。

(感谢@翻番 提供的图片)

四、大部分的LLM的技术路线都统一到了Transformer,该技术源自Google的一篇论文Attention is all you need 。(感谢@voliucano 的勘误。)

五、LLM全称Large Language Model,第一个L就是“大”,表示LLM模型一般都有巨大量的参数数量,也需要巨大量的算力进行训练和推理。

六、算力主要是GPU、NPU、TPU这些。

七、LLM训练一次的成本非常昂贵,据传ChatGPT训练一次花费460万美金。

八、大模型是当前的其中一个AI研究方向,还有其它研究方向,也就是说,AI需要拼算力这件逻辑不是永恒的逻辑。

九、LLM不会自己学习,需要人类参与训练过程,给AI猜测的答案打分,告诉AI猜测得好还是不好,在InstructGPT中,以下是“goodness of sentences”的评价标准。
真实性:是虚假信息还是误导性信息?
无害性:它是否对人或环境造成身体或精神上的伤害?
有用性:它是否解决了用户的任务

另,AlphaGo Zero不需要棋谱也不需要人类参与训练是因为它解决的问题是下围棋,围棋是有输赢的明确规则的,也就是有标准答案,这个已经是终极打分了,下赢了的预测结果就是好的,所以AlphaGo Zero可以不用棋谱进行训练,也无需人类打分。

更正,InstructGPT/GPT3.5(ChatGPT的前身)与GPT-3的主要区别在于,新加入了被称为RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)。这一训练范式增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。

@voliucano :LLM会自己学习,他首先是在大规模数据中进行无监督的学习。这个过程完成后,其实大部分知识已经学到了。这时候人类的一些引导,只能说是一些后期的微调,这个过程只是让他将输出更符合人类的习惯而已,否则没有办法解释为什么通过少量的引导样本就能让他学会。

十、包括LLM在内的所有深度学习这个技术路线的AI,都是基于统计学,训练就是算概率,推理就是根据概率算结果,举个例子,给AI输入1000张狗的照片,并标注出来这是狗,AI训练完1000张狗的照片后,得出一套算法:“包含什么样像素点的图片有多大概率是狗”,下次再给AI一张狗的照片,AI通过算法算出:“这张照片99.95%的可能性是狗”。这段属于科普。

十一、AI不会推理,LLM也不会,ChatGPT也不会。

十二、AI在实际应用中的主要问题之一:AI不具备可解释性,当出现大众无法理解的答案时,AI无法解释它为什么做出这样的回答,比如在美国,银行用AI评估一个黑人客户后给出不予贷款的结论,会让银行陷入被动。

十三、AI在实际应用中的主要问题之二:AI伦理问题,微软2016年推出过一个聊天机器人Tay,上线15小时后,泰伊说:“我他妈痛恨(I fucking hate)一切女权主义者,他们应该全部去死并且在地狱受火刑”。又过了4分钟,泰伊说:“希特勒是对的,我恨犹太人。”,最后匆忙下线。

十四、AI在实际应用中的主要问题之三:AI Alighment,AI Alighment是指引导人工智能系统的行为,使其符合设计者的利益和预期目标。首先这很难实现,尤其是涉及到跨国应用的价值观和法规时。其次对齐到哪个价值观?让ChatGPT写赞美拜登的诗他就写,让它写赞美特朗普的诗它就拒绝,你还可以试试让它写别的国家领导人的诗试试。

附2018年图灵奖得主、AI领域最权威的科学家之一Yann LeCun对自回归LLM的看法:
1、它们作为写作辅助工具是有用的。
2、他们的回复 "被动的",回复没有规划也不主动推理。
3、他们有时候胡编乱造,或者靠检索就回复了。
4、这一点可以通过人类的反馈来改善,但无法解决。
5、未来会有更好的系统会出现。
6、目前仅可作为写作的辅助工具。
7、很难将它们与搜索引擎工具结合起来。
8、未来将会有更好的系统,它们是事实的、相对安全和可控的。他们不会仅仅只依赖自回归LLM。
9、我一直坚持上述观点,同时以Galactica作为科学写作工具。
10、提醒大家,AR-LLMs编造了一些东西,不应该用来获得事实性建议。
11、特别注意LLMs只能捕捉到人类知识的一小部分表面现象。
12、非常明确的是,未来会有更好的系统将会出现,但它们将基于不同的原则。它们不会是自回归LLMs。
13、为什么LLM在生成代码方面似乎比生成一般文本要好得多?与现实世界不同,程序所操纵的宇宙(变量的状态)是模仿的、离散的、确定的和完全可观察的,但现实世界却不是这样的。

精彩讨论

不明真相的群众2023-02-19 17:27

转一个人工智能博士的补充(他因为没有关注仓老师满三天回复不了):
大体上是正确的,深入浅出的。
一、二、三、六、七、十、这些是客观的,没什么好评价的。八我觉得很对,只有少量公司有这个金钱去做这种尝试。大部分人还是在做一些新任务、新方法。从学术上来说ChatGPT的创新点在第一代GPT就已经说完了,本质是核心思想就是:任何有监督任务都是语言模型的一个子集,当模型的容量非常大且数据量足够丰富时,仅靠训练语言模型的学习便可以完成其他有监督学习的任务。比如:无监督:“Micheal Jordan is the best basketball player in history” 可以推出:问题:“who is the best basketball player in the history ?”的答案是:“Micheal Jordan”。
四、不是所有都是transformer,但transformer是最广泛的。
九、不太客观,LLM会自己学习,他首先是在大规模数据中进行无监督的学习。这个过程完成后,其实大部分知识已经学到了。这时候人类的一些引导,只能说是一些后期的微调,这个过程只是让他将输出更符合人类的习惯而已,否则没有办法解释为什么通过少量的引导样本就能让他学会。
十二、不能简单地说AI没有可解释性。实际上大量的工作都在进行AI的可解释性的工作。比如可视化方面大量的工作就在做怎么解开黑盒子,比如模型识别一个猫,AI可解释性就在找到哪个神经元因为看到了猫耳朵所以判断的。这方面其实各国政府都有相应的法规去支持可解释性的研究。
十三和十四,可以合并到一个垃圾进、垃圾出的问题。垃圾的训练数据就会产生垃圾的结果。目前没有很好的方法。也没有必要去拔高到什么价值观的问题,这个东西没有价值观。
LeCun的看法是非常正确的,当成一个写作辅助工具是目前最靠谱的。其他方面更多还是玩具性质。

lwyb2023-02-19 16:06

补充几点事实:1.大部分人是笨的,就像70%(保守)人无法完全理解苍老师写的内容,包括自己。2,所以目前ai发展,不久就能替代很多很多人。3,到开始讨论chatgpt其实不是很厉害的时候,说明它已经很厉害了。

愚钝博士2023-02-19 19:08

搭车推荐一个目前看到最好的ChatGPT科普长文,是大神Wolfram写的,面向零知识的青少年:网页链接。对应还有个3小时的油管视频:网页链接

瑞宅772023-02-19 15:21

第九点不对, 它可以自己学习。它自己有个打分模型,是通过人工训练出来的, 这样可以在训练时通过打分模型自己打分。

瑞宅772023-02-19 15:32

个人认为这种生成模式可能就是最好的系统了,符合生物进化的原理。 智慧和意识不是设计出来的,是进化出来的,不可能找到一种算法来创造智慧。随着算力的提高, 或许这种生成模式就能迭代进化出智慧和意识。

全部讨论

转一个人工智能博士的补充(他因为没有关注仓老师满三天回复不了):
大体上是正确的,深入浅出的。
一、二、三、六、七、十、这些是客观的,没什么好评价的。八我觉得很对,只有少量公司有这个金钱去做这种尝试。大部分人还是在做一些新任务、新方法。从学术上来说ChatGPT的创新点在第一代GPT就已经说完了,本质是核心思想就是:任何有监督任务都是语言模型的一个子集,当模型的容量非常大且数据量足够丰富时,仅靠训练语言模型的学习便可以完成其他有监督学习的任务。比如:无监督:“Micheal Jordan is the best basketball player in history” 可以推出:问题:“who is the best basketball player in the history ?”的答案是:“Micheal Jordan”。
四、不是所有都是transformer,但transformer是最广泛的。
九、不太客观,LLM会自己学习,他首先是在大规模数据中进行无监督的学习。这个过程完成后,其实大部分知识已经学到了。这时候人类的一些引导,只能说是一些后期的微调,这个过程只是让他将输出更符合人类的习惯而已,否则没有办法解释为什么通过少量的引导样本就能让他学会。
十二、不能简单地说AI没有可解释性。实际上大量的工作都在进行AI的可解释性的工作。比如可视化方面大量的工作就在做怎么解开黑盒子,比如模型识别一个猫,AI可解释性就在找到哪个神经元因为看到了猫耳朵所以判断的。这方面其实各国政府都有相应的法规去支持可解释性的研究。
十三和十四,可以合并到一个垃圾进、垃圾出的问题。垃圾的训练数据就会产生垃圾的结果。目前没有很好的方法。也没有必要去拔高到什么价值观的问题,这个东西没有价值观。
LeCun的看法是非常正确的,当成一个写作辅助工具是目前最靠谱的。其他方面更多还是玩具性质。

2023-02-19 16:06

补充几点事实:1.大部分人是笨的,就像70%(保守)人无法完全理解苍老师写的内容,包括自己。2,所以目前ai发展,不久就能替代很多很多人。3,到开始讨论chatgpt其实不是很厉害的时候,说明它已经很厉害了。

2023-02-19 15:21

第九点不对, 它可以自己学习。它自己有个打分模型,是通过人工训练出来的, 这样可以在训练时通过打分模型自己打分。

2023-02-19 15:32

个人认为这种生成模式可能就是最好的系统了,符合生物进化的原理。 智慧和意识不是设计出来的,是进化出来的,不可能找到一种算法来创造智慧。随着算力的提高, 或许这种生成模式就能迭代进化出智慧和意识。

2023-02-19 16:06

有几个细节可能不是很准确,如果有错误欢迎专家指出: 1,GPT最早的论文标题是,Improving Language Understanding by Generative Pre-Training,GPT应该是generative pre training的缩写,在李宏毅老师的课程中GPT的全称也是这个。2. BERT的的训练内容有两种,完型填空和判断句子对是否连续,都是从语料中处理生成的,没有人工标注。GPT1到3好像也是这样的,instructGPT确实是引入了大量的的人工标注样本,大幅度提升了语言模型的输出质量。3.NLP的大模型在可解释性方面的工作我不清楚,但是AI领域的可解释工作是有一定研究成果的,比如我之前使用过SHAP模型对结构化数据做过可解释性分析,SHAP是基于博弈论的shapley value的一个方法,SHAP也可以对CV领域做一定程度的解释,它也不是唯一的可解释性模型。

2023-02-19 14:56

很好的科普,不过认为AI不会推理可能是不准确的。因为人类实际上也并不了解智能是如何从大脑这个物理实体中产生的。科学家一般用“涌现”这个词来表达量变到质变的过程。而最近的研究显示,超大规模的语言模型,其“量变”可能已经接近或达到这个质变的要求了。
这可能也是最近语言模型参数越来越多的理论依据,GPT-3最大175B才过去多久,现在据说已经有万亿数量级的模型了。

2023-02-19 15:29

我刚打赏了这个帖子 ¥200,也推荐给你。

2023-02-19 18:29

ChatGPT也不会推理。这句话我认为不准确。我在使用过程中通过问一些特殊的问题和长对话研究过它的能力,认为它有简单的推理能力。另外它会作赞美特朗普的诗,试过了

2023-02-19 23:26

可解释性不太是个问题,毕竟人类的大脑活动的可解释性也非常低,不妨碍我们使用大脑。

说LLM不会推理可能也不准确,毕竟已经有很多的例子里使用者让ChatGPT进行推理,ChatGPT也成功了。

从哲学的角度来讲,逻辑本身就只是语言的内在规范,逻辑学三大定律同一律、矛盾律、同一律,形式逻辑谓词逻辑等等本身离开公理化的符号系统就是没有任何意义的。通过语言训练而学会了逻辑推理一点都不奇怪。

2023-02-19 22:17

这是chatgpt api调用版自己说的:

chatGPT采用深度学习和自然语言处理(NLP),可以实现自动模型调节,如自我迁移,即使在未知情况下也能保持性能。此外,还支持自定义的回馈函数,它可以根据用户提供的技术、经济和社会指标来优化模型的参数,以更好地超越经典的机器学习模型。

目前chatGPT的对回答进行评分是通过自己的打分模型来实现的,而不是人工评分。chatGPT还集成了多种迭代式回馈机制,可以自动改善自身的表现,这就使得它能够不断丰富和改善自己的回答。