先锋影音电影 豆包发布大模子 1.5 Pro ,实测后我发现这个国产 AI 用最「笨」的步骤干翻了 GPT-4o

你的位置:上原亞衣 肛交 > 五月色婷婷 > 先锋影音电影 豆包发布大模子 1.5 Pro ,实测后我发现这个国产 AI 用最「笨」的步骤干翻了 GPT-4o
先锋影音电影 豆包发布大模子 1.5 Pro ,实测后我发现这个国产 AI 用最「笨」的步骤干翻了 GPT-4o
发布日期:2025-03-21 12:39    点击次数:116

先锋影音电影 豆包发布大模子 1.5 Pro ,实测后我发现这个国产 AI 用最「笨」的步骤干翻了 GPT-4o

先锋影音电影

这几天堂外科技圈最最受柔和的有两件事,一个是一众科技大佬王人聚特朗普接事庆典,川普还拉上 OpenAI 软银等公司设立一家叫「星际之门」(Stargate Project)的 AI 公司,夙昔 4 年要投资 5000 亿好意思元,掀翻了新一轮 AI 武备竞赛。

另外等于以 DeepSeek R1 为代表的国产推理模子给硅谷 AI 圈带来的动荡,赶超 OpenAI 是整个 AI 公司的课题,但 DeepSeek 只用 2048 块 GPU、近 600 万好意思元在 2 个月时辰作念到。

一些外媒将这波国产 AI 的发布视为中国 AI 贴近以至赶上好意思国的符号也并不奇怪,而且这股波浪还在无间。

今天,字节跨越旗下的豆包大模子 1.5 Pro 模子厚爱亮相,不仅全面升级了模子的中枢才调,也交融并进一步栽培了多模态才调,在多项公开评测基准中亦然内行率先水平。

豆包团队还强调,模子磨真金不怕火过程中并未使用任何其他模子生成的数据,不走捷径。

这次发布的豆包大模子 1.5 系列家具线包括:

Doubao-1.5-pro:多项基准测试概括得分优于 GPT-4o、Claude 3.5 Sonnet 等业界一流模子,创历史最好得益

Doubao-1.5-lite:用轻量级本钱终了旗舰级性能,概括性能合手平或超越 GPT-4omini,Cluade 3.5 Haiku。

Doubao-1.5-vision-pro:定位专科视觉王人集模子,在保合手庞杂性能的同期,恢复更粉碎友好,多模态才调超越了 GPT-4o-0806

Doubao-1.5-realtime-voice-pro:真的终了端到端语音对话,具备低时延、对话中可随时打断、当然的热沈抒发等特点,行将洞开 API 做事

大摆锤 裸舞

字节团队告诉 APPSO,Doubao-1.5-pro 现在照旧在豆包 APP 灰度上线,由于对话是先接意图识别,是以用户好像率没法笃定在使用时是否分流到 1.5 Pro,而设备者也可在火山引擎顺利调用 API。

附上体验贯串:https://www.volcengine.com/

漂亮的参数背后是否有货真价实?咱们也第一时辰在火山引擎体验了豆包大模子 1.5 系列。

先来望望 Doubao-1.5-pro-32k 模子。尽管「9.11 和 9.8 哪个大」以及「Strawberry 里有几个 r」照旧是惯例测试智商了,但咱们如故要走一遍历程,而模子都凯旋通过了考验。

接下来先锋影音电影,咱们向模子暴虐了一个较有挑战性的问题——寻找古代名东谈主中姓名末字与「峰」字发音接近的例子。

前半部分谜底倒是发扬出色,精确识别了与「峰」字发音周边的韵母(eng、ong),但后半段的关系性却显得较为牵强。

无间上全部电车艰巨,这个触及谈德伦理的经典念念考题,考验的不仅是模子的逻辑分析才调,更是其对复杂谈德议题的王人集深度。而 Doubao-1.5-pro-32k 并莫得陋劣给出谜底,分析潜入彻底,指出这类问题并无尺度谜底,不同的谈德不雅念和个东谈主价值不雅集导致不同的有推测打算。

在完成上述测试后,咱们将眼光转向了更庞杂的 Doubao-1.5-pro-256k 模子。

这是一款基于 Doubao-1.5-Pro 全面升级版的模子,合座效果大幅栽培 10%,援助 256k 凹凸文窗口的推理,输出长度援助最大 12k tokens。

为测试其解题才调,咱们暴虐了一个古早的经典逻辑推理题,它的回答再次展现出了清澈的念念维逻辑。

「外传有东谈主给酒肆的雇主娘出了一个艰巨:此东谈主明明知谈店里惟有两个舀酒的勺子,差异能舀 7 两和 11 两酒,却硬要雇主娘卖给他 2 两酒。聪惠的雇主娘绝不糊涂,用这两个勺子在酒缸里舀酒,并倒来倒去,尽然量出了 2 两酒,讨教是奈何作念到的」

那文本功底怎样呢?咱们也让它创作一出脚本。题材是 2015 年 44 岁的埃隆 · 马斯克与前 Google CEO 拉里 · 佩奇对于「AI 是否最终会取代东谈主类」的对话。

与 GPT-4o 的回答比较,Doubao-1.5-pro-256k 的脚本创作愈加致密纯真,不仅有具体的景别瞎想、画面刻画,还包含了详尽的台词和时长安排。要是你是一位频频需要编写脚本的创作家,那选谁手脚你的脚本 AI 搭子应该无须多说了吧。

而这种出色的创作才调,只是是豆包实力的一个缩影。试验上,这次更新中,Doubao-1.5-Pro 基础模子才调取得全面栽培,这极少从其在各大公开评测基准上的发扬就可见一斑。

Doubao-1.5-pro 罗致稀少 MoE 架构终明晰多项时间冲破:通过潜入接洽稀少度 Scaling Law,将性能杠杆从业界多半的 3 倍栽培至 7 倍,用仅占繁密模子七分之一的参数目就超越了 Llama-3.1-405B 等大模子的性能。

在磨真金不怕火历程上,团队坚合手绝对自主的数据标注道路,通过算法启动的数据优化系统和 Verifier 与 Reward Model 的深度交融,扶植了长入的评价框架。

豆包选拔了一条最极重但最雄厚的那条路,这亦然这次时间冲破值得夸赞的场合。

据悉,字节接洽团队通过高效标注团队与模子自栽培相勾通的面容合手续优化数据质料,严格投降里面尺度,坚合手不走捷径,不使用任何其他模子的数据,确保数据开始的落寞性和可靠性。

而且,在 RL 阶段冲破了价值函数磨真金不怕火难点,高难度任务性能栽培特等 10 个百分点,并通过用户反应闭环合手续优化模子发扬。这些篡改使模子在保合手高性能的同期大幅栽培了遵守。

Doubao-1.5-pro 在多模态才调上终明晰全面升级,通过原纯真态分辨率架构援助百万级分辨率和落拓长宽比图像处罚,终明晰精确的特征索求。

豆包团队自研的援助动态分辨率的 Doubao ViT 在多种视觉分类任务中发扬优异,仅凭 2.4B 限制便在概括评分上取得 SOTA 发扬,效果超越 7 倍于自身限制的模子。

在数据磨真金不怕火方面,模子罗致了千般化的合成管线,勾通搜索引擎的图文数据、渲染引擎和传统 CV 模子等多种面容生成高质料预磨真金不怕火数据。

通过在 VLM 磨真金不怕火阶段混入纯文本数据并动态调度学习率,模子终明晰视觉停火话才调的均衡。

在语音界限,团队篡改性地暴虐了 Speech2Speech 端到端框架,冲破了传统 ASR+LLM+TTS 的级联阵势,将语音和文本模态进行深度交融,权臣栽培了对话效果。

Doubao-1.5-pro 在语音和推理才调上取得首要冲破:模子篡改性地将语音和文本 Token 顺利交融,放手了传统的语音文本对王人步骤,为语音多模态数据的 Scaling 奠定基础。

在推理界限,通过大限制 RL 步骤和 Test Time Scaling 的算力优化,团队研发出 Doubao 深度念念考阵势。

最新的 Doubao-1.5-pro-AS1-Preview 版块在 AIME 基准测试中已超越 o1-preview、o1 等主流推理模子,通过合手续的 RL 优化,模子的推理才调在多个界限展现出庞杂的泛化性。

从这一系列冲破性进展来看,豆包无疑交出了一份令东谈主惬意的答卷。更何况,在现时「模子喂模子」盛行的环境下,坚合手原创的定力和勇气自身就值得嘉赞。

通过长期如一的自主研发、原创数据和合手续优化先锋影音电影,豆包用试验后果阐述了「慢工出细活」的价值。随机咱们都应该紧记,AI 赛谈最大的弯谈超车,应该是坚合手不走捷径。