百川新模子冲顶汉文测试基准!首款AI助手“百小应”同期发布

发布日期:2024-05-25 19:00    点击次数:60

衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

王小川在搜索时期种下的种子,在大模子期间又着花了。

他创业的百川智能,刚刚发布了自家首款AI应用,to C的“百小应”。

乍一看,这即是个当下大热点的AI助手,但官方强调,这个AI助手啊,它懂搜索,还会指引式发问。

你别说,当“搜索”和“王小川”这两个词放到悉数的时候,就格外让东说念主想仔细一研究竟。

百小应不仅不错随时回答用户冷落的多样问题,速读文献、整理贵府、扶助创作等,还具备多轮搜索、定向搜索等才能,能更精确地会通和开心用户需求。

百川阐发,让模子掌抓专科的搜索技能,是为了给用户“提供专科、丰富的学问和资源”。

何况,它还搭救用户通过语音进行交互。

我们试过了,群众当今不错在iOS商店、安卓应用市集、百川智能官网下载百小应App,或者通过Ying.ai的Web端免费使用。

而百小应背后,是百川智能终于亮相的新一代基座大模子,Baichuan 4。看到前边能语音交互就能笼统猜到,此次百川推出的大模子具备多模态才能。

仍是发布就坐窝上战场了,丢给SuperCLUE(通用大模子概述性汉文测评基准),以总得分80.64分刷新了国内记录,汉文概述才能测试更是以1.51分的上风险胜GPT-4-Turbo-0125。

亮出Baichuan 4,连同发布懂搜索、会发问的AI助手百小应,朝磋商的超等模子和超等应用更进一步,百川智能本年一改以往月更上新的频率,正本是憋了个大活……

百小应,如何用?

百小应,百川智能配置一年多来推出的首款AI应用。

和大大都AI助手相同,它亦然个通才,岂论是长文本阅读照旧多模态会通,都是它具备的基础才能。

不外照旧想先跟群众悉数来看一下它区别于通盘AI助手家具最出奇的点,百小应它懂搜索、会发问。

如何个懂搜索法?交融Baichuan 4通用才能和百川搜索本领,百川展示了百小应的3种懂法。

一是会定向搜索。

提一个问题,百小应能精确定位问题限度,然后直奔泰斗站点提取要点信息,丰富输出。

主打一个快速和准确。

二是能多轮搜索。

每一个问题,百小应都能针对它进行慢慢默契,搞明晰问题背后到底想要的是什么,然后再给出要害谜底。

比较单轮搜索,在市集调研、产业分析等复杂场景下,多轮搜索能够有用地获取更专科、更有深度的信息。

三是不错提供镶嵌式搜索成果。

简易来说,即是与其它AI在单次搜索后“回归网页信息”的简易调用不同,百小应是将搜索成果行为不雅点、论据顺利应用到问答成果中。

“像Perplexity那种,叫回归搜索成果,我们认为阿谁标的应该是搜索2.0要作念的责任,搜索引擎公司我方就颖慧,不是我们要作念的。”

同期在输出时,百小应比较细腻结构化输出。

也即是将要害信息以刻画+表格的模式来给出,让回答更澄莹,要点一目了然。

多轮、定向、镶嵌搜索等本领加持,得到的成果即是百小应懂搜索。

团队明确了解,模子+搜索本领的交融确乎不错升迁模子回答的准确性、缩短幻觉,但只好本领是不够的,需要家具想象上有配套的惩处决议。

就上手体验的初步感不雅来说,懂搜索带来的平允,既能提高AI输出回答的准确性、时效性,缩短幻觉;也能加多回答中的不雅点、案例、数据等,使模子的回答更丰富、更鲜嫩。

说完百小应懂搜索,再来说说它会发问是如何个情况。

非专科教唆词工程师,一般和AI对话时的需求刻画都比较迟滞,不会出奇精确。

百小应会发问即是针对这种情况准备的,在用户问题的基础上,通过发问一步步指引,匡助用户澄莹抒发自身需求。

上头这些对百小应家具想象理念的想考和本领已毕都是为了缩短过去东说念主使用AI助手的门槛,对过去用户来说照旧很友好的。

天然了,说到底是为了临了给出一个用户信得过用得上的谜底。

前边提到,百小纰漏长文本阅读和多模态会通亦然轻车熟路,底下放几个showcase,群众也不错我方上手体验一下(捉虫和找bug,险些是大模子期间我们最脍炙人丁的事儿了)。

多模态测试成果,还比较nice,博物馆里的半面雕饰头像也能精确识别出:

长文本才能,让它读财报也成功过关:

一通体验下来,嗅觉日常对话、办公场景、搜索要知、多模态识别……百小应的可应用场景照旧挺多的。

但百川智能独创东说念主兼CEO斗胆开麦,这并不是他此前提到过会推出的超等应用。

现阶段市集上,既莫得超等模子,也莫得超等应用。

用他的话说,百小应面前是个AI助手,是大模子期间,用户手里的应用从“用具”化身“伙伴”的中间态。

悉数经过,是慢慢发展、慢慢开心用户需求的经过。

背后模子Baichuan 4首战登顶

起首咱就提到过,百小应背后,是百川智能推出的Baichuan系列模子最新版块Baichuan 4。

亦然百川智能入局大模子以来推出的第一款多模态模子。

相较前代基座模子Baichuan 3(本年1月底发布),Baichuan 4在各项才能上的升迁还挺昭彰。

其中指示随从升迁20%,信息会通升迁9%,学问问答升迁15%,创作升迁16%,逻辑推理升迁15%;专项才能方面,数学升迁14%,代码升迁9%。

首战成功,在OpenAI恒久霸榜的SuperCLUE概述基准上,Baichuan 4一滥觞就拿下了第一:

总得分80.64分,跨越前一个榜一大模子0.61分。

真是是险胜……

关联词分差虽小,但无人不晓在大模子期间,哪怕0.01分也显得弥足珍稀。

如何作念到的呢?

熟练经过中,Baichuan 4引入的本领优化技能,包含基于model-based+human-based的协同数据筛选优化,对长文本建模位置编码科学的Scaling-law,有用升迁了模子对数据的诈欺。

对皆阶段,团队要点优化Baichuan 4模子Reasoning、Planning、Instruct Following才能,通过Loss驱动的数据选取与熟练,多阶段爬坡,多模子参数交融等神气。

不仅如斯,团队在这一阶段还冷落了Sequential Preference Optimization(SPO)法子,通过法则微调LLMs以与东说念主类偏好的多个维度保持一致,要害宗旨和模子褂讪性得到权贵升迁。

同期冲突RLHF和RLAIF交融的RLxF强化学习对皆本领,大幅升迁模子的指示撤职等才能。

此外,Baichuan 4还具备行业首先的多模态才能,在MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista等评测基准上意见优异,首先Gemini Pro、Claude3-Sonnet等多模态模子。

不外,此次Baichuan 4可没走开源道路。

王小川大方对此作念出了回答:“旧年我们率先挑起开源,是百川团队入局大模子的投名状,其时国内开源环境极端不矜重。我们挑起开源这件事,也对国内开源行业产生了伏击孝顺,当今开源限度已经有好多玩家在竞争了”。

一又友们,要肯定市集的退换机制啊——王小川说。

Baichuan 4闭源了,但API供应依旧。

新一代基座模子对外敞开后,连气儿敞开四款模子API,区分是Baichuan 4、Baichuan3-Turbo、Baichuan3-Turbo-128k、Assistant API。

同期也分旗舰版和专科版,旗舰版全量敞开Baichuan 4的各项才能;专科版则为Baichuan3-Turbo,价钱比旗舰版实惠,性能比Baichuan 2更好,且针对企业的高频应用场景作念了针对性优化。

好奇瞻仰的是,天然Assistant API也顺利敞开给企业用户免费试用,但面临近期繁荣昌盛的大模子价钱战,百川的作风很明确:

什么,价钱战?婉拒了哈。

一来,王小川明确自家主若是吃to C这碗饭的,云厂商的价钱战,对百川没啥影响。

二来,他旗子昭彰,认为异日确定会卷,但群众当今太狠了,“在中国市集,API作事其实对创业公司是走欠亨的”。

王小川进一步意见我方的不雅点:

“如果仅仅从交易角度来看的话,中国现时的交易环境里面To B比To C好像本人就小了10倍,在好意思国,中国B端市集这么的情况是不存在的;

其次,在作念数据时会发现,你当今收的是东说念主民币,但花的算力却是好意思元,这其实又有一个中好意思API作事市集的浩大区别。”

关于百川智能而言,里面一致认为一定要作念有各别化的事情。

“仅仅卷价钱的话,可能头部创业公司走廉价是一个上风,但你想价钱低就造成竞争力的话,往市集走这么其实是不够的。”

为什么首款to C家具长这么?

旧年,王小川几度对外公开荒言,默示2024年有可能会出身多少大模子超等应用。

不出无意的话,这随机是势在必行,行业中,不少大模子创业公司确乎早就在to C端出牌了。

但在价钱战上不慌不忙的百川智能,在推出应用这块,也呈现出一种徐徐图之的心态。

王小川一笑,说:“我不以为百小应发得晚,相背,我以为发早了。我认为模子应用还需要更多时期的打磨。”

他默示,模子应用百万级的DAU,还远远达不到“超等应用”的名称。群众之前发布应用,更多是对自家模子进行展示,到当今,用户反而不知说念这些应用在干啥了。

悉数行业当今都还没到矜重的情景。

之前作念输入法、作念搜索引擎、作念浏览器,我们潜入地知说念一个应用到什么样的时候,才是造成一个无为被使用的家具(的最好时机)。

是以,百小应亮相的时期无所谓是早是晚,而是百川智能挑了个契机把它丢到行业里,让团队不错更具体地把它启动起来。

在迈向超等应用之前,百川智能把百小应顶住为第一位上战场领受审阅的战士,也有我方的预见。

如上文提到的,百川智能认为,不同于信息期间用具属性的家具,大模子创造的是新物种。

让AI从用具变为伙伴,基于大模子打造AI助手更像是在“造东说念主”。

就像东说念主能够使用用具、会想考,能听、能读、会看、会写等相同,AI助手类家具跟着模子才能的络续升迁,也应该具备相应的才能。

搜索行为当下大模子最伏击的用具,不仅能让大模子及时获取最新信息,还能有用惩处大模子的幻觉问题,是大模子的要害本领之一,亦然百川智能的要点探索标的——旧年发布Baichuan-53B的时候,团队就已经冷落了搜索增强的理念,RAG本领也一直处于第一梯队。

基于这个理念,百川遴荐了懂搜索的AI助手来行为团队在to C场景打响的第一枪。

是以,百小应身上的各别化的百川滋味,极端一目了然——

AI伙伴中间态+Baichuan模子上风+搜狗搜索功底千里淀+过往家具素养荟萃。

至于首款应用亮相后的异日是什么,王小川淡淡知道了一丢丢。

愿景天然是超等模子和超等应用,得可靠,且一定需要和搜索作念蚁合。

冲突点应该是让AI像(每个)行业的功绩东说念主士,把这个功绩里的数据密度、想维度加进去,让它迷漫可用。

下一步的更替标的嘛——嘿,王小川卖了个关子,横问竖问他即是不说。

不外发布会后的换取技艺,他隐朦胧约有露馅马脚啦!

他提到,为什么要让AI助手会发问,一个原因是为了日后的超等应用作念荟萃,举的例子即是“你去看病说我发热了,AI顺利给你一个成果,一定是不成行的嘛”。

他还提到图灵奖得回者、Ilya的至意Geoffrey Hinton最近领受的采访,老爷子称医疗保健是最有前途的AI应用限度(他建议群众都去望望这个采访)。

医疗,嗯,这个想路竟然很王小川。

归正,且让我们试着玩着百小应,多等瞬息吧……

参考赓续:

[1]https://mp.weixin.qq.com/s/56KqpHrtqesrsp8wGehEzQ

— 完 —

量子位 QbitAI · 头条号签约

","del":0,"gnid":"961c649ac7e84087e","img_data":[{"flag":2,"img":[{"desc":"","height":"452","title":"","url":"http://p1.img.360kuai.com/t01c9046c22d9be57d0.jpg","width":"472"},{"desc":"","height":"1080","title":"","url":"http://p0.img.360kuai.com/t0195dc3ef27593e008.webp","width":"1080"},{"desc":"","height":"1336","title":"","url":"http://p1.img.360kuai.com/t01d5505cf2e8199a25.webp","width":"666"},{"desc":"","height":"530","title":"","url":"http://p1.img.360kuai.com/t0120ea993b22706e9d.webp","width":"1080"},{"desc":"","height":"1160","title":"","url":"http://p0.img.360kuai.com/t016523eb42180f859e.webp","width":"742"},{"desc":"","height":"828","title":"","url":"http://p2.img.360kuai.com/t01fb3900123b1a1b90.jpg","width":"988"},{"desc":"","height":"540","title":"","url":"http://p0.img.360kuai.com/t0122e9ed62f84b7533.webp","width":"828"},{"desc":"","height":"1084","title":"","url":"http://p2.img.360kuai.com/t0147771e05ca5b5dd5.webp","width":"1080"},{"desc":"","height":"509","title":"","url":"http://p0.img.360kuai.com/t0100dc9e534437956d.webp","width":"1080"},{"desc":"","height":"522","title":"","url":"http://p1.img.360kuai.com/t01db0fcdf34e7cfdd7.webp","width":"1080"},{"desc":"","height":"392","title":"","url":"http://p2.img.360kuai.com/t017b7e5446864ce6d8.jpg","width":"468"},{"desc":"","height":"387","title":"","url":"http://p0.img.360kuai.com/t01f00ee10e0178cbc8.webp","width":"1080"},{"desc":"","height":"468","title":"","url":"http://p0.img.360kuai.com/t0111c265fc4e05bbd9.jpg","width":"468"},{"desc":"","height":"472","title":"","url":"http://p2.img.360kuai.com/t017501edc3228a1d4b.jpg","width":"476"},{"desc":"","height":"832","title":"","url":"http://p2.img.360kuai.com/t017c2a5a613084030d.webp","width":"1080"},{"desc":"","height":"632","title":"","url":"http://p0.img.360kuai.com/t0134156d057bfd29a5.webp","width":"1080"}]}],"original":0,"pat":"art_src_3,fts0,sts0","powerby":"cache","pub_time":1716452400000,"pure":"","rawurl":"http://zm.news.so.com/e0de355e15e4851f265d556f3912ff74","redirect":0,"rptid":"da7f2284342b91f1","rss_ext":[],"s":"t","src":"量子位","tag":[],"title":"百川新模子冲顶汉文测试基准!首款AI助手“百小应”同期发布","type":"zmt","wapurl":"http://zm.news.so.com/e0de355e15e4851f265d556f3912ff74","ytag":"科技:互联网:搜索引擎","zmt":{"brand":{},"cert":"优质科技限度创作家","desc":"跟踪东说念主工智能新趋势,报说念科技行业新冲突","fans_num":48,"id":"3324838173","is_brand":"0","name":"量子位","new_verify":"5","pic":"https://p0.img.360kuai.com/t019169dba71cb73484.jpg","real":1,"textimg":"https://p9.img.360kuai.com/bl/0_3/t017c4d51e87f46986f.png","verify":"0"},"zmt_status":0}","errmsg":"","errno":0}

栏目分类



Powered by leyu手机版登录入口官网 @2013-2022 RSS地图 HTML地图