▪️ 关闭AI再次打开,又是一次“全新”的对话
▪️ 想吃昨天的大“瓜”,AI却查不到结果……
RAG:就相当于大模型外挂了一个知识库,优点是成本相对较低,但缺点是大模型没法对外部知识库进行深度学习。所以这类大模型在涉及到外部知识库时,更类似于数据库搜索, AI回答这部分知识时,水平会显著下降。而且这种搜索还是每次都从头到尾重新进行,不仅精度差,效率还低。
Fine-Tuning(微调):是在预训练好的AI模型上通过特定的少量数据进行额外训练,让AI模型适应新的任务或领域。但微调成功有着极高门槛,首先要求用户拥有高质量数据集;其次还要避免这个数据集与百亿、千亿参数的大模型过拟合;在微调训练时还要防止新增数据破坏原有大模型的神经网络……这些要求导致大模型微调的失败率高达98%。
此外,还有上下文记忆问题。比如你打开AI进行多轮对话,这些对话就是上下文记忆。但这都是短期记忆,关闭AI就相当于数据清零,这就是为何AI总将你当做“陌生人”。而要让AI记住你,就必然要保存这些聊天记录并训练到AI模型中去。
言而总之,就是AI不会保存用户上传的新增数据(长期记忆),更不会将这些数据训练到模型中去(实时学习),AI自然就不“懂”你。
目前业界已对AI的“长期记忆”能力进行过一系列探索,比如Google发布的Titans论文中介绍了一种将新增知识压缩并训练至神经网络,让AI模型具备长期记忆的方法;OpenAI也曾推出ChatGPT Memory版本,其会记录用户的对话和偏好;微软则通过KBLam技术来增强知识库以支持更多tokens。
虽然效果不一,但却让行业逐渐意识到,AI真正的长期记忆,必须根植于神经网络。
在2024年5月时,OpenAI的CEO萨姆·奥特曼曾提出数据与推理引擎分离的架构设计,并称可能会在GPT-5及后续模型中使用,不过目前还没看到后续。反倒是国内的AI企业传神语联率先进行探索,在2024年11月正式发布任度大模型时,其核心“数推分离”双网络架构已实现实时学习与长期记忆能力。该架构的本质,是将客户数据学习网络与推理网络分离,双网络通过moH混合熵架构联动,在保障基座网络推理能力不受影响的前提下,实现了对新增数据的实时学习与长期记忆。
更重要的是,“数推分离”架构还带来了数据安全。一直以来,企业在应用大模型的时候,安全问题是企业的一大顾虑。而数推分离架构,很巧妙地避免了这一问题,企业数据不用离场,即可实现对数据的实时学习。这样一来,企业完全掌握数据主动权,可以放心大胆地部署大模型。
基于此,传神语联先后推出了传神·素问中医大模型和传神·归藏大模型。其中,传神·归藏大模型通过技术迭代,强化了长期记忆与实时学习能力,可对用户上传数据实时学习,能做到长文本理解、复杂任务推理、个性化对话、长期记忆用户习惯等,为用户提供更好的推理服务。
具体来说,归藏大模型不仅能记住对话历史和工作上下文,还能通过积累用户行为模式,预判需求并提供个性化服务,甚至能将通用资料、数据等转化为专属知识应用,提供更贴合用户期望的服务。
这就好比根据您的喜好风格,定制训练了一个AI“私人助理”。
比如,您可以将日程上传到归藏大模型,它可以通过实时学习与长期记忆能力,让您随时随地查询具体日程。
而针对一些敏感信息或者过期资料,则可以让归藏大模型“遗忘”,这相当于从归藏的神经网络中删除,一方面避免知识错误,同时也有利于数据安全。
这一切,还要从传神语联的“根原创”说起。传神语联从底层算法框架到模型架构完全自主研发,且通过了中国信通院0开源依赖的验证。传神语联以这种对AI技术的执着,将对技术的深刻理解转化为行业应用,推动大模型的具体落地。
从本次的归藏大模型就能看出来,传神语联从长期记忆、实时学习这样直击大模型本质的能力,让业界看到了通用人工智能发展的一种新路径,那就是记住用户的点点滴滴,与用户共同成长,展示了AI技术从“通用工具”向“专属伙伴”的精准定位。
展望未来,大模型领域还会有很多技术要去突破,但可以肯定的是,这条创新路上,必然有传神语联。他能以“根原创”技术带来哪些新惊喜?又能给行业带来什么样的启发?答案交给时间。