你用智能体吗?类似聊天机器人的东西。
以前,了解一个行业,得看大量数据,查好多资料,现在AI改变了做事、生活的方式;只要问几个问题,它就能帮我整理出清晰的计划。
日常工作生活中,智能体能直接帮我找到答案,很方便。但智能体是最好的AI应用方向吗?我不知道。
不过,百度“李厂长”在百度世界2024大会上提到:
AI智能体时代快要来了,应用爆发点就在我们眼前;智能体可能会成为AI应用的主流,还会迎来爆发式的增长。这个观点引起业界的讨论,也让我对智能体有了更深的认识。
我一直在关注这个领域。我觉得智能体不仅是提供提示、旅行建议、分析文档的工具。它们更像有智慧的专家,能进行深入的交流。
智能体和传统的问答机器不一样,它们能和用户连续对话,一步步深入问题的核心,这是它们的强项。前几天,我就用智能体解决了obsidian插件冲突的问题。
不过,进一步探索中,我发现,智能体还有很多问题需要解决。什么问题呢?
第一个:使用距离。
使用距离?什么意思?别人不会用吗?不是的。准确说,是用户习惯。
智能体不仅是一个聊天机器人,更像一个超级大脑,我们用聊天的方式跟它交流,但要认识到它真的可以解决系统问题。
这个过程,不是简单的一问一答那么简单,是可以让思考更上一层楼,让效率翻一倍。
举个身边的例子:前几天,有个朋友在群里说要做PPT。咱们以前做PPT,基本上两种方法。第一种非常老土,不用AI,自己把内容整理好,结构搭起来,然后动手做,这种方法虽然踏实,但费时费力,效率不高。
第二种呢,用AI帮忙,先给个提示词,再给AI一些背景资料,让它根据提示词和资料来辅助你整理后,再给新的提示词,让它帮我们把内容做得更结构化,最后,用这些内容去做PPT。
这种方法效率提升了,但还缺少点人性化的互动。智能体呢,它更高级,属于第三种方法。
我们可以直接跟它说:接下来有个做PPT的任务,你跟我一起完成。我先给你一些资料,你学习下,然后,学习过程中,给我提出问题,类似于问我要多少页?每页突出什么?
如此循环渐进的像一个合作伙伴,不仅理解了需求,还能提出建设性意见,同时又节省了写提示词的时间,还能达到我们想要的目的。
所以,智能体真的很能干活儿。它是三维思考的。
想用好它,我们得有点项目思维、或者任务思维,这样才能发挥巨大作用;但是,很多人还在用二维思维,你问我答的方式,如果一直这样想,用智能体的速度和效率就上不去。
比起使用距离,第二个关于API的问题要厂商们思考下。
事情是这样:前两天百度上搜比亚迪,看到官网用了智能体,我就跟它说:“帮我找找比亚迪内饰的照片。”结果,你猜怎么着?它给我生成了四张图。
我差点笑出声,这不是搞笑吗?我要生成图吗?当然不是。我更希望它能直接从官网上给我调出照片来。
紧接着,我带着疑问,又试了豆包、腾讯元宝,想让他们帮我P个图。结果都差不多,我发现他们对P图的理解跟我不一样。
我理解的P图是用Photoshop那样去掉背景,但他们好像把P图理解成生成新照片。
这个问题可能出在智能体本身。因为,它们现在还做不到那种专业的修图效果,背后缺少某种插件或能力模块;只有当能调用这些模块时,才能帮我修图。
为什么大公司都做不到智能体处理一整套任务呢?
因为,一个智能体要完成一个复杂的工作流,背后不是靠一个生成模块就能搞定的,它要调动很多数据和应用程序。
打个比方:你去餐厅吃饭,不需要知道厨师是怎么做菜的,菜就端到你面前了。但其实,厨师得用各种材料,比如白菜、辣椒、调料,把它们放到锅里一炒,菜就出来了。
智能体也是这样,得调用各种API,API像菜单一样,集合所有的服务和请求,让不同的软件能够互相交流合作,最后才能达到想要的效果。
现在,很多网站和APP都有自己的API,API不统一,不标准化,这导致智能体没有足够的接口可以用,限制了它的发展。
还有,以前没有统一的底层开发框架,技术团队开发智能体时得从零开始,现在阿里、百度都做了统一开发框架,解决了底层数据处理、模型训练、监控部署的问题,但中小型软件服务商还是不多。
因此,也就限制了其他能力模块的发展。
当然,这也是个好机会,因为如果有人能在细分场景下,利用自己对特定业务场景的了解,开发出一个更符合一线需求的智能体,那就有机会成功。
比如:你在教育赛道很多年,凭借个人对教育技术和孩子学习需求的理解,开发一个智能体,帮孩子提升学习进度和测试成绩,就能赚到钱。
所以,API的问题需要时间和更多中小开发者入局。
能写出这些想法,自然不会错过开发智能体的好机会;开发中,我发现一个第三个问题:能力泛化。
什么意思呢?
起初,我设计占卜师智能体,目的是让它进行占卜。没想到,它不仅能占卜,还能算命,甚至能总结文章。
我以为提示词没写清楚。后来,试了其他智能体,发现也有类似情况。
为什么会这样?
我认为智能体知识可以分为两部分:一部分通用知识,像我们学的基础知识,这是智能体必须掌握的。
另一部分则是针对特定行业的,随着行业人士的使用,智能体也能跟着学习。这有点像能力的二八法则:80%的能力是基础的,剩下20%在实际工作中边干边学。
实际上,过去一年,大厂都在训练大型语言模型,这些大模型的本质,是通过海量数据训练得到的,目的是生成最有可能的回答,而不是专注于特定能力或任务。
这种泛化能力,让智能体在多任务中表现不错,因为这些任务都涉及语言处理和推理,这意味着,要进行任务微调,就必须做任务分离。
而开发多个智能体,是一种过程性的解决方案。
你想想看,各大平台现在都在尝试将智能体做垂直细分,专注于特定领域或任务,比如法律助手、医疗问诊、学习辅助等。
这种趋势也表明,未来肯定会有更多人根据不同需求,选择和使用专门化的智能体,推动AI更深入地融入日常生活和工作场景。这是第一点。
第二点,目前市面上缺少专业的智能体开发者,能培养的也很少,我想去,居然还找不到;要不,厂牌们考虑下开个班吧?
现在的开发者,很多是对AI感兴趣的人,他们在设计智能体时,主要是用提示词来引导模型的行为。
但是,提示词这种东西,像个软性的约束,并不能真正限制智能体能干什么,这种设计方式,很容易让智能体“越界”。
你想想看,我设计一个占卜师智能体,占卜本身可能“顺便”会提供点儿心理咨询,甚至还会推荐人生规划;这种能力的模糊性,不是我不愿意解决,而是目前工具和方法还不够成熟,我很难精准控制。
就像禅宗里说的:“少即是多(Less is more)”。少比多难,少不是减少,是聚焦,得用技术聚焦。
还有一点:现在智能体缺少明确场景。这听起来像废话。但你有没有想过,这些场景究竟从哪里来?
钉钉总裁不穷说过一句话:“AI得从下面开始,先让懂行的人用起来。”
只有对AI有需求、愿意尝试的人开始用了,才能慢慢积累出真正有用的场景,找到AI真正的价值。
我觉得,就算智能体慢慢融入了医疗、法律、金融这些领域,它还是停留在“看起来懂,但不专业”的阶段。
因为现在大多数人还是把智能体当成“聊天工具”,聊天工具是什么?即弄个董宇辉文案、搞个妈妈式唠叨,这不能帮助行业。
如果这种情况一直这样下去,最后的结果就是,大家还是只把它当聊天工具玩,没法真正用到工作中;这样的话,别说提高行业效率了,这不仅是对智能体的浪费,更是错过了行业变革的机会。
所以,一个简单的结论即:我们要思考清楚,哪类智能体做工具?哪类做平台?需要什么样的开发者来开发智能体?
这三个问题回答清楚,智能体才会在场景中发挥作用。
看到这,别误会,我不是说通用智能体不行,确实有它们的好处。
垂直单一的智能体可能比较局限,但能处理多种任务处理就厉害了,因为能同时搞定好几个工作流程,不仅速度快,而且思考的过程也更清楚、更靠谱。
而且,这些智能体还能处理各种类型数据,在很多场景下都能派上用场。
在公司里,这种能干多种事情的智能体,已经开始发挥作用了,比如:RPA技术,现在已经被看作是智能体的一个工具。
这种通用智能体在营销、生产管理、运营自动化这些地方也有很多可能。
最近特别火的一个话题就是:智能体在手机界面上的应用。大家都觉得,将来它们会成为重要的用户界面入口,就像人一样,能自动操作界面,根据需要自动用APP完成任务。
比如:腾讯的AppAgent和阿里的MobileAgent项目,或者手机厂商发布会上展示的“一句话点单”的功能,这些都是很好的例子。
我相信,在电脑、手机、自动驾驶这些领域,将来这种多功能的智能体会有很多应用场景,比如:接管系统级操作,或者用通用智能体管理子智能体等等。
我也看到,很多智能体在一些特定场景中的开发和工程化潜力,但是,话说回来,智能体的使用和能不能商业化,是两回事。
你想想看,如果一个公司用了被随意开发的智能体,然后问它另一个公司的情况,它也回答了,岂不是很荒谬?
所以,不能光看宏观叙事,还是要扎根行业去思考,希望大公司能多想想行业的实际问题。
比如:智能体怎么帮一个职员做决定,怎么规划某个工作流程,怎么提供真正管用的解决方案。
我说的行业,更准确地是行业里在用、想用智能体的人,因为只有这些人,才能会不断给智能体特定知识;换句话说:智能体学习了他们的东西,它才会进步。
你觉得呢?