您的位置首页  网络科技  前端

投身 LLM(大型语言模型)要从本质上想明白 3 个问题

  由于人工智能的快速发展,许多人终于开始理解和接受这个事实:AI 离我们并不遥远,它正在改变我们的世界。作者在看LLM(大型语言模型)的机会时,深度思考了3个问题:LLM下一个发展未来是什么、哪些落地方向更有前景、我们要做些什么准备。希望能够给各位带来启发。

  src=最近我自己在看LLM的机会,也和创业者、投资人、从业者进行非常多的交流。大家普遍的感觉是我知道他很好,但我应该怎么做?。在被OpenAI拖着狂奔的过程中,涌现出了很多机会,大家都处于一种兴奋而迷茫的状态。

  特别在OpenAI联手微软依次打翻文本应用(Jasper/Grammarly),办公软件(微软 Copilot),开发框架(OpenAI插件之于langchain),低代码(今天刚出的新闻)后,这种迷茫更进一步叠加了对中心化LLM巨头鲸鱼翻身的恐惧。

  在深度思考后,我总结出这三个问题,并从底层本质进行了回答。他将会是我接下来看LLM机会的核心框架,希望对你有所帮助。欢迎点赞,转发,再看。

  我在2月26日、3月2日分别做过LLM的未来预判,正确率几近100%,其中一篇是:重磅:盘点7大方向,谁将诞生ChatGPT领域的尤里卡时刻(七个方向仅有一个未被兑奖)

  但有一位朋友问了我一个印象很深刻的问题,你是怎么做出这些预判的呢?。这就是知其然和知其所以然的区别了,当时我回答不上来,现在我有了思考后的初步框架,与各位分享:

  列举这么多数据,是为了直观告诉大家现在的推理成本到底有多贵,只有少数业务能够满足到这个价格/成本的剪刀差。

  开源平替小模型,例如Meta开源的LLama及延伸出Alpaca-lora,ColossalChat等等,通过针对性微调,在更小参数量级(10B或100B)级别上对齐千亿参数的效果。

  上下文压缩,通过文件分块后语义检索,或者长文分段摘要在合并等方式缩减上下文长度。例如ChatPDF,乃至bing(虽然他没公开,但我猜是)。

  可谓是八仙过海,各显神通,大语言核心厂家在做优化的同时,小玩家也通过各种手段拼命压缩成本。要让LLM进一步踏入千家万户,迎来像AI绘画侧SD算法那种爆发,推理成本一定是最重要的第一个方向。

  并且他也一定能快速被解决,不管从LLM本身出发,还是上下文压缩的技术迭进,还是开源平替小模型,他的各项技术前景都是现实的。所以如果4月1号OpenAI又宣布降价,别惊讶,常规操作。

  头部大模型价格高昂:OpenAI的Davanci基本模型调用价格为0.02美元/1Ktoken,但微调后模型的使用价格变成了0.12美元/1Ktoken,翻了6倍。

  而事实上,基于Lora机制(冻结大部分模型参数,仅微调调整少量参数)实现的微调新模型,他的成本不可能翻6倍之多。我怀疑OpenAI在通过这种极其高昂的定价策略,逼迫使用者进行低阶模型的微调(在次一级模型上微调后,尽管价格仍然翻6倍,但只是上一级模型价格的60%),从而获得低阶模型微调适配的珍贵数据。所以OpenAI下调微调模型价格的空间理论上是存在的。

  而现在开源平替模型的出现可能冲击OpenAI的这种策略,他的微调价格可能会产生相应调整,并可能也开放自己的小模型平替。但这种情况其实和Google推出LLM一样,是自己在刨自己的根,非常难做出决定。

  另一方面,微调的任务能力有限,目前常见的微调主要为通用领域,例如更好的营销文案写作,更友好/更专业/更严肃的回答方式,针对性的文本提取,情绪分类等传统NLP任务。真正迫切的知识更新效果很差的,即让LLM专门记住我这批专业数据,并老实回答,这也是为什么ChatGPT到现在还是只有21年以前记忆的原因之一。

  在这里要简单科普一下上下文和注意力是什么。大家会看到GPT的原始版本是2K左右的token上下文支持,GPT-3时代变成4K,GPT-4时代变成8K和32K。

  那么为什么上下文会是一个要逐步被解决的问题呢?因为他的本质是,当你输入一个超长上下文(包括你的指示、你的补充知识、你的示例等),LLM需要对你的上下文进行全面的理解,用到一个叫注意力的技术去计算每个字与字之间的关系,甚至这种关系产生在你输入的第一个字和你回答的最后一个字之间也存在。

  当LLM生成回答的时候,他会基于注意力权重来计算本次应该生成哪个字来形成答案。而这个注意力权重他是要对所有你输入的上下文文本进行计算的,文本越多,他的计算资源要求就越多(这也是为什么OpenAI以token计费,并且输入的文本也要钱)。

  大概了解上下文和注意力后,我们回归这个问题——那么当我计算了所有的注意力后,哪些注意力是更重要的呢?

  这就是所谓注意力失控,或者说根本就不给我控。通俗来说,如果我希望你记得某个关键信息,我会把那个字体标红、放大10倍。

  而在LLM的技术中,其实也有类似手段。在GPT-3.5 turbo API(即CHatGPT这个版本)中,他们定义了一个叫System的字段,可以看为是允许开发者自行定义最关键的注意力点。但实践中,system中的内容总是被遗忘,并且仅有一个字段来承载也不够适配业务中的丰富需求。

  我写这篇文章的时候,马斯克发起的公开信已经有1000个人联署了,大概内容就是AI很可怕,在找到约束方法前,你们(OpenAI)不准再迭代拉!。

  有毒,不要种族歧视,不要性别歧视,不要地域歧视,不要引导做负面事情,阳光向上保持健康做个好AI等等。

  在他们的公开论文中,GPT-4在2022年8月已就位,拖到23年3月才发布,全是为了解决上述的安全问题。

  他是不是问题?是的。为什么大家要说这个问题?有真正的担忧,也有利益上的诉求。他真的会被执行吗?领先者用它敲打追随者,追随者用它声讨领先者,双方肯定会挥舞大棒打成一团(我原本以为还要再等一段时间)。

  他稍微与环保问题不一样的地方是:环保不存在技术实现问题,更多是利益的纠缠。而LLM的幻觉和有毒性,真的没办法完全解决,这一点的判断我完全站在杨老板这边。

  有一个有趣的公司,Anthropic,成员来自OpenAI中脱离而出的创业者。一开始被Google投资了,和OpenAI一起上线了Poe应用做对比,效果实差。而且他的金主Google也发力自己搞了,整个情况风雨交加。但是他找到了一条合适的路子,站在了LLM安全这个领域,并推出所谓的RLAIF(人类反馈约束安全变成AI反馈约束安全)。

  如果让我说,这就是时代的风口,环保问题解决不了,但是环保会撑起来一个庞大市场,并诞生如同环保少女这样的顶流。

  这是我在7大方向文章中唯一不被现实兑奖的预测。但我仍然认为这是一个很重要的方向,解释性在所有决策类业务上都是非常重要的。

  我最近几年没在做AI,做的是搜索推荐,你可以把这个搜索推荐也看成某种意义上的AI决策(AI决定什么东西到你面前)。而这个领域中,越是高行动成本的,就越需要可解释性和信息背书。

  例如推荐你看某个短视频,你的成本几乎没有,不准的代价是手指划走;推荐你看某个电影,你的成本是几十块+现场观影的两小时,不准则收获坏心情;推荐你买金融产品,你的成本是一堆钱,不准则失去这笔钱。

  你会发现,越是高行动成本的事情,你越需要推荐的解释理由以及更丰富的信息背书(影评,导演,精彩片段等等)。LLM也是这样的,他如果要进一步发展,就一定需要更深入地介入人类生活,更进一步地去接管,辅助高行动成本的事情,在这个过程中缺乏解释性是一个超级大的问题。

  从纯粹LLM技术本身,我不看好他被解决——神经网络的可解释性都是一个超级古老的大难题,更何况LLM这种集大成技术的可解释性。但通过Cot,产品设计,信源定位等方式总是能部分缓解的,这也可能成为未来所有LLM设计必涉及的一个范式。

  文章中OpenAI的人员认为LLM的正确做法是:明确 AGI 基础模型的目标(任务)并搜集尽可能多的有效数据,然后使用所有可能的无损压缩方式,从而得到对任务方法的最小描述长度。我的理解就是学习本质,而不是学习表层知识。

  整个思路有点像我本文的分享框架,比起给你表层知识,不如给你获得、分析这个知识的思考框架,用哲学上的话来说,就是先验胜于后验。例如我知道特朗普是美国总统,不如我理解总统、美国这些概念,进而再通过Bing获取信息来整合。

  这也是我认为OpenAI放弃进一步堆叠知识,而借由外部工具(计算器,wiki,Bing)来提升能力的原因。他并不是对现实妥协了,而是始终在坚持他心中的最优策略,就像这几年他一直坚持GPT方向一样。

  这个部分逻辑很简单,排除成本问题,很多企业还面临数据安全问题。并且这种安全问题可能到了云端私有化也解决不了的程度。

  因此OpenAI下一个重点一定会包括与Azure一起推进的云端私有化开放,但与此同时大量的小模型厂家(基于开源模型改一改自研的那些)也一定会迎来属于他们的机会。

  这个真的很简单,我不多说什么了,只是这个事实确实还未完全发生,勉强算是预测,所以我放上来写一下。

  门槛的第二部分来自各种开发框架,例如langchain或者Colossal-AI,支持开发者更便捷的实现应用。

  门槛的第三部分我不太确定,有点怀疑是低代码+AI绘画+开发框架串起来的APP工作流。即未来每个人都能极低成本实现自己的APP。

  这部分OpenAI有可能会亲自下场,特别是门槛三种人人都是产品经理,人人都能构建自己APP的这个事情,具有非常大的意义。

  在微软的KOSMOS-1论文中(即我发现多模态未来的那篇),他举的例子可不止图像理解,还在旁边放了音频、视频,这也是大家目前很容易预见的。

  这些概念其实和图像、音频、视频不太一样,他们本身不具备丰富的人类信息,并且通常以清晰明了的数据格式存在(例如温度=17°C)。在LLM落地到手机这类新的终端后,他将远不止获取到图像、音频、视频这样的信息,还包括N多人类传统用于刻画客观环境的量化信息。

  我反而很期待针对这些细小信源的应用,因为他们的信息结构很简单,基本都是代码常见格式,是现有能力能够快速兼容的,比起音频、视频要做的语义融入简单太多。

  另外有一个超级遥远的未来(我觉得很遥远…说不定过几天又开发布会了),目前自动驾驶侧某种意义上是对真实世界的建模,那么如果线D世界能够被LLM理解,那么整个世界会向LLM进一步揭开了面纱。

  首先,ChatGPT插件某种程度上就是一种干预行动,只是受限于安全风险,OpenAI做了控制,将所有步骤停留在产生影响的前一步(订机票,最后订那一步你自己做)。

  其次,今日消息(28号),OpenAI投资了挪威机器人公司1X;并且之前他在机械手臂方面也是有相关技术积累的(Dactyl系列)。

  但LLM的行动要解决和他现在的安全性问题是存在极大冲突的。在前面可解释性部分提过,AI仅仅辅助我们决策,我们都有那么高的要求,更何况他现在要直接干预世界?

  这个部分,我在短期内是不抱期待的,我认为技术上的安全的问题很难解决。毕竟谁也不想被剃头机器人真的把头剃掉吧。

  微软目前的所有尝试,都是在围绕PC落地:bing,office全家桶,GitHub。所以在这个烽火连三月,爆发出的杀手级产品基本上是生产力方向的应用。

  一个原因是头部终端厂家没完全放弃,想自己搞搞看看能不能突破,另一方面是他们可能获得信息时间较晚,微软的整个动手准备可能从去年8月就开始尝试了,而大部分终端厂家可能等到11月30日ChatGPT发布才反应过来。

  2. 要去看设备特性的差异,例如手机的LBS和PC的LBS本质上是两个东西,手机上的图像输入和PC的图像输入也是两个东西。手机更具备时空跟随属性,和固定的PC不相同,不能简单用PC侧的认知去看待新的设备端口。

  4. 要去看全新的交互范式,CUI+GUI的最终答案是什么,不要被目前的对话框限制住,要知道当初移动时端的时候,每个APP都长得和PC端一模一样。

  这两者的区别在于,苹果本身的特性(移动,陀螺仪,触碰,实时LBS等)给众多基于他的APP提供了广阔的创造性,而Skill Store提供的特性有限,并且因为输入输出单一(语音),产生了非常大的限制(所以后面又加了屏幕)。

  要更进一步发展,一方面GPT-4的图像模态需要开放,另一方面ChatGPT要落到更多的应用端,从端上获得更丰富的信息输入,并掌握更多的输出手段。

  插件市场一定要用这种思维去看,LLM是核心能力,但这个核心能力也受限于端的输入(信息获取)和输出(交互手段),所以关键不是现在插件能做什么,而是未来插件能做什么。

  这次是我自己问自己:你分析的依据是什么?你为什么认为这个好,那个差?,下面与你分享我的框架:

  第一,更成熟的CUI,可以让LLM帮你做任何事情,基本如臂指使(做不做得到,做不做的对两说)。

  第四,一定的推理能力,能够进行基本逻辑的推理,例如先干什么在干什么最后干什么,能够帮助你把一些事情串起来(我说的不是做数学题哈哈,不是那种推理)。

  第五,人机信任,人类以往对AI都是恶意接触,即我不相信你是个人,并且会做各种极端测试,那么新技术带来的信任(或者说局部信任)将是一个本质变化。

  存量市场指这个市场以前就存在,例如客服,教育,游戏,通常来说存量市场的壁垒在于资深的业务逻辑,同时已经拥有非常多的资深玩家。当新技术到来时,旧玩家会纷纷拥抱,进入新一轮内卷,直到卷完后再次形成动态平衡。

  在存量市场中,新玩家纯靠LLM技术几乎难以突破(特别是这种技术某种意义上非常平等,应用门槛很低)。

  同时存量市场本身服务于某些市场需求,这些市场需求是否会因为新技术带来的体验提升,进一步扩大便捷,推动增量产生也是不一定的(要分行业去看,甚至要分具体应用去看)。

  增量市场指这个市场以前或许存在,但相关技术不达标,所以整个市场一片蓝海,没有强有力的老玩家,大家众生平等各凭本事。

  请注意,不是说增量一定就比存量好,存量才是当前世界的绝大多数,并且AI对每个存量市场的破坏式更新和增量带动也都不一样。

  第二,观察OpenAI的未来发展方向,至少目前小模型,开发框架,整合工作流等都需要警惕OpenAI下场

  A阶段,我提供一个1.0模型,给2B客户或2C用户使用,我需要从中收集的是在当前1.0版本能力范围内,你们做了怎样的微调,怎样的Prompt来令LLM达成你们想要的业务效果。

  B阶段,使用收集到的Prompt或微调数据进行人工校正,标注,形成SFT监督数据集,重新走RLHF模式,获得2.0模型

  C阶段,开放2.0模型,干翻一堆旧的延伸应用——以前需要额外优化的场景,现在通用的LLM能力已经能够支持了。然后基于2.0版本,再次收集在2.0版本能力范围内,你们做了怎样的微调,怎样的Prompt来令LLM达成你想要的业务效果

  这个猜测你可以结合回顾我前面的本质学习章节,和OpenAI的理念是相符的。他们从始至终,要做到的事情,就不是锻炼LLM对于表层知识的理解(例如特朗普是谁),而是要锻炼LLM的思考框架。而Prompt指令中凝练了人类对任务的表达和要求,是这个阶段中最有价值的数据。

  当我们还在感叹中文世界的语料数据(例如paper、文章)等不如英文世界时,OpenAI眼中的高质量数据可能已经从事实数据变为指令数据了。

  情感方向是我目前看到唯一一个纯粹的增量市场,在过去技术的限制使这个方向的发展十分微弱。在LLM出现后,他的技术前提已经使得这个市场成为可能。

  第一,留存问题。近乎所有这类型的应用都会发现,长期留存的用户少之又少,短期兴奋尝试占据了大部分比例。这个问题要解决全看对用户的需求捕捉灵敏度,只能通过核心故事,功能设计,玩法设计来解决。

  第二,信任问题。在近期,人类的观念仍未改变,对初次接触的AI充满恶意。在恶意前置的情况下,用户会格外挑剔。这个问题也不好解决,只能等待新技术带来的转变。

  第三,时长与精力问题。投注感情是一件看似不需要体力实则非常耗费精力的事情,用户在此类产品上消费的时间越多,会越觉疲惫,对产品的离心力会更大。一个好的解决方式是构建心流,但难度很大。而反面则是用户本身就难以有足够理由在这个APP上提供足够的时长。

  新的技术发展总会带来新的范式,例如PC时代表格工具对传统表格的降维打击(不仅仅是表格,更是查询、加工)。而Notion更进一步,试图推进All-in-one,形成Word、Excel等多种格式的统一,让创作者专注表达想法,而Notion负责输出时的多样化演绎。

  那么Notion,或者说现在的Notion AI 就是最终的形式吗?或者说像Office Copilot那样快捷实现多种文件的互相转换和便捷操作是最终的形式吗?

  会不会有一种新的文件格式.ai,只需要你写好你的大纲论点,就可以在演示过程中实时自由延伸(扩写),并变换多种展示方式(从导图到PPT,又在局部变成可交互表格)?

  事实上,新技术出现初期,人类的想象力总会被约束在旧的思维框架中而不自知。例如《Power and Prediction》这本书中的例子,当电力出现时,要用它取代工厂中蒸汽机。

  仅仅只是替换就可以吗?蒸汽是有管道链接到各个机器的,而电力只需要一根电线。蒸汽是必须常开的,而电力却可以即时开关。蒸汽动力举例衰减严重,所以他需要在工厂中间,而电力却不用。所有这些本质不同最终催生了对工业生产在技术,工具,管理等度的深刻改变。

  因此,我不相信目前简单在旧模式上叠加的创作,生产提效就是终局范式,更不要说生活范式由于更娱乐化的手机、VR、音箱等端还未完全落地,更是起步初期。

  在这样一个时期,谁先打磨出新的文件格式,先打磨出新的范式(创作/工作/生活),谁就有可能吃到最好的机会。——但是感觉巨头们绝不会放过这个场景。

  2B:每月20美元,帮助你开掉数据分析人员,5000元快速接入CHatGPT进直播间/小程序/公众号

  2B:SaaS服务叠加AI,有些观点认为LLM会摧毁大部分SaaS,我的观点恰恰相反。LLM能够提升SaaS的能力上限,并降低他的适配成本,从而推动SaaS繁荣。

  农业后,单位农业生产力溢出,导致农民流向了工业。工业后期,溢出劳动力流向了第三产业。那么现在,因为AI溢出的劳动力(并且较为优质),他们会流向哪里?

  是附生在新AI的周边服务上,还是流向内容产业(我们的内容供给到极限了吗?),还是像有的朋友所说,回流到第一第二产业?

  这种劳动力迁移中,一定会伴随着相应的机会出现。机会在哪里,我看不出来。但一个好的方法是观察美国,他们的劳动力市场更敏锐,他们的资本家也更冷酷,整个迁移方向有可能在美国先表现出来。

  生产力的变化也会带来人文的变化,例如工业抹除了男性和女性的体力差距,并使女性具备经济独立,从而推动人格独立。再例如移动时代的碎片化特性使得短平快的奶头乐内容逐步取代长篇深度内容。

  那么LLM技术会带来什么?一个猜想是前面提及的信任感,人类可能在未来逐步更相信AI,不再具备初次使用时的恶意。另一个极端则是对AI危机的警惕抗拒,例如今天马斯克发起的联名信其实就借用了这样的焦虑。

  但是否还有其他更深远的影响呢?例如AI内容提效后,进一步推动创作者的两级分化:99.9%的好作者,和0.1%的超级好作者?例如AIGC飞速爆发后,对机器推荐的信任转向真实KOL的信任(人肉信息过滤器)?

  不过人文的变化更多影响通常集中在内容行业,或者说创作者领域,我能想到的就是赶紧开个反AI的号,从今天开始立人设。

  首先,如果你自己没有任何方向上的思考判断(并且是结合你自己过往经验的),我奉劝不要下场,任何只消化表层知识而不建立自身框架的行为都是雁过无痕的,就像收藏=已读一样。

  其次,如果你真的要…看我的分析库链接吧,里面有69个方向(在这个大章节的开头),但是这个库我后面的更新频率会越来越低,因为他对我的价值越来越低了。我已经过了看遍青山的阶段。

  现在越来越多的趋势表明,LLM的辐射范围不仅仅局限在内容创作领域,更包括应用创作领域,OpenAI接口的易用性,Github Copilot、Microsoft Power platform的发布都证明这一点。

  所以你需要做的第一件事是,开始你的创意,并用各种工具努力去把它做出来,不要管他多丑陋、多无聊,开始才是最重要的。

  那么当LLM落地到手机端甚至VR端的未来,你不仅在电脑面前无所不知,而是随时随地无所不知了。

  在这种情况下,你最稀缺的能力就是更本质,更先验的底层思考框架,就像OpenAI的他们的目标一样——始终找到更优雅的理解这个世界的方式。

  第一,挑选你的信源。这里要注意你的信源是跟随你的成长而变化的,有些作者在你初期会觉得很有帮助,但随着你的自我迭代,他们理应是从信源被移出的——这就是你已经平视甚至俯视他了。永远不要觉得万一他发了一些有用的怎么办?,注意力是非常珍贵的,果断、勇敢下手干掉!移出关注,不看朋友圈,取消订阅!

  第二,做高效飞速的阅读。我的阅读习惯是,先从顶部到尾部快速浏览一遍,根据标题或关键字判断内容质量,然后再判断是否值得深入阅读。所以英文世界其实对我很不友好,我不是不能读英文,但是我的语言水平没有到一目十行的地步……这个时候就用一些语言翻译工具吧。从这个角度来说——文字,其实也是视觉模态。

  第三,做有输入的阅读。我现在基本不在移动端阅读,移动端用来做过滤筛选,我会通过第二点中的方法判断信息质量,然后转发到稍后阅读。当天在PC端进行扫货,然后转译摘要,记录到flomo中。如果读过而不提取精华,那么本质和收藏是没有区别的。

  我的观点发表在AIGC之我见 Vol.12,到目前都没有变过:技术理解,商业判断,产品设计这些都是产品的基本功,不会因为他是AI产品就有本质上的区别。AI产品经理最大的本质区别在于对不可控性的控制,他手里的工具在技术、市场、效果等各方面都呈现出极大的不可控性,而产品经理最核心的能力就是控制它,在起伏的海浪中寻找One piece

  现在将这句话送给读到这里的各位,现在这不仅是AI产品经理的核心能力了,也是这场时代风暴下所有人应当共有的能力。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186