”也能“快回答”
这个智能体有个特别实用的功能——能在“思考模式”和“非思考模式”之间自由切换,就像你做题时,既能写解题步骤,也能直接写答案,完全看你的需求。
1 思考模式:“知其然,更知其所以然”
默认情况下是思考模式,回答问题时会把自己的推理过程说出来,就像老师讲题一样。比如你问“这张图里是不是小米su7?”,它会说:“我先看车标,是小米的‘i’标志,再看车身线条,溜背造型、低趴姿态,还有前脸的贯穿式车灯,这些都是su7的特征,所以判断这是小米su7。”
这种模式适合需要搞懂逻辑的场景:比如学生问数学题,能跟着它的思路学方法;职场人分析数据,能验证它的结论有没有依据;甚至你调试手机功能时,能知道它为啥点这个按钮而不是那个。模式的控制成功率是100,不会乱跳步骤。
2 非思考模式:快准狠,省时间省电量
要是你赶时间,不想听过程,只要加个“\/no_thk”指令,它就切换到非思考模式,直接给答案。比如刚才的问题,它会直接说“是红色小米su7轿车”。
这个模式的优势特别明显:响应速度比思考模式快40,计算资源消耗少35,也就是更省电、更不占手机内存,成功率还高达9984,几乎不会出错。平时你问“现在几点了”“附近有啥咖啡店”这种简单问题,用这个模式秒出答案;老师批改作业时批量核对答案,用它能省一半时间;财务做日常数据汇总,快速提取关键数字也靠它。
四、为啥这么聪明?小米的“训练妙招”
能有这么强的能力,不是靠“堆参数”瞎练出来的,小米在训练上花了不少心思,总结下来就是“数据好、方法巧、架构优”。
1 数据:24万亿token“喂饱”,还专加“思考料”
模型学得好不好,关键看“吃”什么数据。小米给它喂了足足24万亿token的高质量数据,涵盖文字、图片、视频、音频等各种类型。更关键的是,后期特意加了大量“长链思维数据”——就是把人类思考问题的全过程记录下来的数据,比如“算1+2x3”,还写“先算乘法2x3=6,再加1得7”。
这些“思考料”让模型不是死记硬背答案,而是学会了“怎么想”。而且小米还用了“拒绝采样”的方法,不好的数据直接扔掉,只留高质量的,相当于给模型“挑食”,只吃有营养的。
2 方法:先打基础再优化,强化学习练实战
训练分了四阶段预训练,先让模型掌握基础能力,比如认识图片、理解文字,再慢慢增加复杂推理数据的比例。后期还用上了强化学习,就像运动员赛前集训——先让模型尝试执行任务,再根据结果打分,做得好就强化这个方法,做得不好就调整。比如第一次订车票时找错了app,下次就记住“高铁票要找而不是机票app”,越练越精准。
3 架构:“三部分组合”
模型的“身体构造”很科学,由三部分组成:视觉编码器负责“看”(处理图片、视频、界面),投影器负责“转译”(把视觉信息转换成模型能理解的语言),语言模型负责“想和说”(分析需求、生成回答)。就像一个“翻译+军师”组合:视觉编码器先把手机界面拍成的“照片”翻译成文字,投影器再把文字递给语言模型,军师立马规划出“点哪个按钮、走哪步流程”,整个过程无缝衔接,反应自然快。
五、能帮咱们干点儿啥?机到行业干活全覆盖
这个智能体不是“实验室里的花瓶”,不管是咱们普通人的日常,还是企业的工作场景,它都能派上大用场。
1 普通人的手机“全能助手”
咱们平时用手机遇到的麻烦事,它基本都能解决:
- 娱乐场景:精准控设备,还能懂你喜好
你说“我想听周杰伦的快歌”,它能直接打开音乐app,找到周杰伦的歌单,还能筛选出节奏快的曲目播放;刷视频时说“帮我找类似《流浪地球》的科幻片”,它会定位到视频平台的搜索框,输入关键词还能根据你的观看记录推荐更精准的内容。
- 出行办事:全程代操作,不用自己点
要出差时说“订后天北京到广州的机票,选早上8点左右的”,它会一步步打开购票app,填好出发地、目的地、时间,甚至能帮你选靠窗的座位;出门前说“查一下去公司的最快路线”,它直接调出导航app,结合实时路况给出最优方案,还能提醒你“现在出发不堵车,耗时40分钟”。
- 生活服务:琐事全包办,省事儿又高效
手机内存满了说“帮我清理缓存”,它能找到设置里的存储界面,一键清理没用的文件;想发朋友圈说“把这张照片加个‘周末愉快’的文字,再选个清新的滤镜”,它会打开相册编辑功能,按要求改好还能帮你跳到发布界面。
2 行业里的“效率神器”
企业用它能省不少人力和时间,已经在四个领