联系我们 百川智能发布Baichuan2-192K大模子:一次可输入35万字

杭州软件开发

你的位置:杭州软件开发 > 软件开发团队介绍 > 联系我们 百川智能发布Baichuan2-192K大模子:一次可输入35万字
联系我们 百川智能发布Baichuan2-192K大模子:一次可输入35万字
发布日期:2024-08-13 06:07    点击次数:187
软件开发

【巨匠网科技玄虚报说念】10月30日音问, 百川智能发布Baichuan2-192K大模子,简略惩办约35万个汉字,是现在相沿长凹凸文窗口大模子Claude2(相沿100K凹凸文窗口,实测约8万字)的 4.4倍,亦然 GPT-4(相沿32K凹凸文窗口,实测约 2.5万字)的14倍。

贵寓露出,本年9月25日,百川智能已怒放了Baichuan2的API接口,阐扬进犯企业级阛阓,开启买卖化程度。这次Baichuan2-192K将以API调用和特有化部署的神志提供给企业用户,现在百川智能一经脱手Baichuan2-192K的API内测,怒放给法律、媒体、金融等行业的中枢联接伙伴。

据先容,凹凸文窗口长度是大模子的中枢技能之一,通过更大的凹凸文窗口,模子简略连合更多凹凸文执行取得更丰富的语义信息,更好的捕捉凹凸文的关连性、摒除歧义,进而愈加准确、畅通的生成执行,擢升模子才能。

Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、纲目的评测集上认知优异。LongEval的评测成果露出,在窗口长度逾越100K后Baichuan2-192K依然简略保抓极端强盛的性能。

扩大凹凸文窗口能灵验擢升大模子性能是东说念主工智能行业的共鸣,然而超长凹凸文窗口意味着更高的算力需乞降更大的显存压力。现在,杭州软件开发业内有好多擢升凹凸文窗口长度的神志,包括滑动窗口、降采样、小模子等。这些神志天然能擢升凹凸文窗口长度,但对模子性能均有不同程度的损伤,换言之齐是通过殉国模子其他方面的性能来疏通更长的凹凸文窗口。

而本次百川发布的Baichuan2-192K通过算法和工程的极致优化,杀青了窗口长度和模子性能之间的均衡,作念到了窗口长度和模子性能的同步擢升。

算法方面,百川智能提倡了一种针对RoPE和ALiBi动态位置编码的外推决策,该决策简略对不同长度的ALiBi位置编码进行不同程度的Attention-mask动态内插,在保证分别率的同期增强了模子对长序列依赖的建模才能。在长文本困惑度尺度评测数据 PG-19上,当窗口长度扩大,Baichuan2-192K的序列建模才能抓续增强。

不过杉浦悠太在转职业之前,已经声名远播。去年,他以业余身份赢得宫崎县凤凰乡村俱乐部举行的邓禄普凤凰高球赛,成为历史上第七个以业余身份在日巡赛上夺冠的选手。

工程方面,在自主缔造的散播式考研框架基础上联系我们,百川智能整合现在阛阓上统统先进的优化技能,包括张量并行、活水并行、序列并行、重计较以及Offload功能等,独创了一套全面的4D并行散播式决策。该决策简略阐发模子具体的负载情况,自动寻找最合乎的散播式计谋,极大镌汰了长窗口考研和推理经过中的显存占用。



Powered by 杭州软件开发 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024 云迈科技 版权所有