目濡耳染网

印媒:比尔·盖茨将印度比作“实验室”,引发印度网友强烈不满

  报道称,比尔·盖茨在播客节目中表示,印度虽然存在诸多问题,但其健康、营养、教育状况正在得到改善,它就像是一个“可以用来进行尝试的实验室”,当一些举措在印度被验证可行后,就可以将它们推广到其他地方。他还补充说:“因此,我们基金会在美国之外最大的办事处就设在印度……我们的合作方大多都来自印度。”

  《印度时报》评论称,比尔·盖茨本意是想阐明印度的发展潜力,但却在印度社交网络上引发强烈不满。

  报道称,在社交媒体X上,有印度网友对此发表评论说:“印度是一个实验室,我们印度人是比尔·盖茨的‘小白鼠’”。还有网友称:“印度民众是比尔・盖茨的实验样本,用来试验各种举措,一旦被证明有效,就会被带到美国。”

  同时,报道提到,也有网友对比尔·盖茨的言论进行辩护,称他的言论被误解了。一名网友写道:“我真的不理解印度国内针对比尔・盖茨的这种阴谋论态度,在印度根本不存在(这种)‘小白鼠’一样的疫苗试验!”

" alt="印媒:比尔·盖茨将印度比作“实验室”,引发印度网友强烈不满" title="印媒:比尔·盖茨将印度比作“实验室”,引发印度网友强烈不满">
反转!Claude 3.5超大杯没有训练失败,最新爆料:内部自留,用于合成数据和RL训练

  使用这种方法,推理成本没有明显提升,但是模型性能更好了。

  这么好用的模型,为啥不发布?

  不划算。

  semianalysis分析,相较于直接发布,Anthropic更倾向于用最好的模型来做内部训练,发布Claude 3.5 Sonnet就够了。

  这多少让人不敢相信。

反转!Claude 3.5超大杯没有训练失败,最新爆料:内部自留,用于合成数据和RL训练

  但是文章作者之一Dylan Patel也曾是最早揭秘GPT-4架构的人。

  除此之外,文章还分析了最新发布的o1 Pro、神秘Orion的架构以及这些先进模型中蕴藏的新规律。

  比如它还指出,搜索是Scaling的另一维度,o1没有利用这个维度,但是o1 Pro用了。

  网友:它暗示了o1和o1 Pro之间的区别,这也是之前没有被披露过的。

反转!Claude 3.5超大杯没有训练失败,最新爆料:内部自留,用于合成数据和RL训练

  新旧范式交迭,大模型还在加速

  总体来看,semianalysis的最新文章分析了当前大模型开发在算力、数据、算法上面临的挑战与现状。

  核心观点简单粗暴总结,就是新范式还在不断涌现,AI进程没有减速。

  文章开篇即点明,Scaling law依旧有效。

  尽管有诸多声音认为,随着新模型在基准测试上的提升不够明显,现有训练数据几乎用尽以及摩尔定律放缓,大模型的Scaling Law要失效了。

  但是顶尖AI实验室、计算公司还在加速建设数据中心,并向底层硬件砸更多钱。

  比如AWS斥巨资自研了Trainium2芯片,花费65亿美元为Anthropic准备40万块芯片。

  Meta也计划在2026年建成耗电功率200万千瓦的数据中心。

  很明显,最能深刻影响AI进程的人们,依旧相信Scaling Law。

  为什么呢?

  因为新范式在不断形成,并且有效。这使得AI开发还在继续加速。

  首先在底层计算硬件上,摩尔定律的确在放缓,但是英伟达正在引领新的计算定律。

  8年时间,英伟达的AI芯片计算性能已经提升了1000倍。

  同时,通过芯片内部和芯片之间的并行计算,以及构建更大规模的高带宽网络域可以使得芯片更好在网络集群内协同工作,特别是推理方面。

反转!Claude 3.5超大杯没有训练失败,最新爆料:内部自留,用于合成数据和RL训练

  其次在数据方面也出现了新的范式。

  已有公开数据消耗殆尽后,合成数据提供了新的解决途径。

  比如用GPT-4合成数据训练其他模型是很多实验团队都在使用的技术方案。

  而且模型越好,合成数据质量就越高。

  也就是在这里,Claude 3.5 Opus不发布的内幕被曝光。

  它承担了为Claude 3.5 Sonnet合成训练数据、替代人类反馈的工作。

  事实证明,合成数据越多,模型就越好。更好的模型能提供更好的合成数据,也能提供更好的偏好反馈,这能推动人类开发出更好的模型。

  具体来看,semianalysisi还举了更多使用综合数据的例子。

  包括拒绝采样、模式判断、长上下文数据集几种情况。

  比如Meta将Python代码翻译成PHP,并通过语法解析和执行来确保数据质量,将这些额外的数据输入SFT数据集,解释为何缺少公共PHP代码。

反转!Claude 3.5超大杯没有训练失败,最新爆料:内部自留,用于合成数据和RL训练

  比如Meta还使用Llama 3作为拒绝采样器,判断伪代码,并给代码进行评级。一些时候,拒绝抽样和模式判断一起使用。这种方式成本更低,不过很难实现完全自动化。

  在所有拒绝抽样方法中,“判官”模型越好,得到数据集的质量就越高。

  这种模式,Meta今年刚刚开始用,而OpenAI、Anthropic已经用了一两年。

  在长上下文方面,人类很难提供高质量的注释,AI处理成为一种更有效的方法。

  然后在RLHF方面,专门收集大量的偏好数据难且贵。

  对于Llama 3,DPO(直接偏好优化)比PPO(最近策略优化)更有效且稳定,使用的计算也少。但是使用DPO就意味着偏好数据集是非常关键的。

  如OpenAI等大型公司想到的一种办法是从用户侧收集,有时ChatGPT会给出2个回答并要求用户选出更喜欢的一个,因此免费收集了很多反馈。

  还有一种新的范式是让AI替人类进行反馈——RLAIF。

反转!Claude 3.5超大杯没有训练失败,最新爆料:内部自留,用于合成数据和RL训练

  它主要分为两个阶段。第一阶段模型先根据人类编写的标准对自己的输出进行修改,然后创建出一个修订-提示对的数据集,使用这些数据集通过SFT进行微调。

  第二阶段类似于RLHF,但是这一步完全没有人类偏好数据。

  这种方法最值得关注的一点是,它可以在许多不同领域扩展。

反转!Claude 3.5超大杯没有训练失败,最新爆料:内部自留,用于合成数据和RL训练

  最后,值得重点关注的一个新范式是通过搜索来扩展推理计算。

  文章中表明,搜索是扩展的另一个维度。OpenAI o1没有利用这个维度,但是o1 Pro用了。

  o1在测试时阶段不评估多条推理路径,也不进行任何搜索。

  Self-Consistency / Majority Vote就是一种搜索方法。

  这种方法中,只需在模型中多次运行提示词,产生多个相应,根据给定的样本数量,从相应中选出出现频率最高的来作为正确答案。

反转!Claude 3.5超大杯没有训练失败,最新爆料:内部自留,用于合成数据和RL训练

  除此之外,文章还进一步分析了为什么说OpenAI的Orion训练失败也是不准确的。

  本文作者:量子位,来源:量子位,原文标题:《反转!Claude 3.5超大杯没有训练失败,最新爆料:内部自留,用于合成数据和RL训练》

  风险提示及免责条款

  市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

" alt="反转!Claude 3.5超大杯没有训练失败,最新爆料:内部自留,用于合成数据和RL训练" title="反转!Claude 3.5超大杯没有训练失败,最新爆料:内部自留,用于合成数据和RL训练">
梅州启动新调增普通省道管养权移交工作

梅州启动新调增普通省道管养权移交工作

北京雅思培训学校 69 家教25元一小时贵吗

股指期货小幅下挫 IH主力合约跌1.32%

股指期货小幅下挫 IH主力合约跌1.32%

  2024年11月25日,股指期货小幅下挫,沪深300股指期货(IF)主力合约跌1.16%,上证50股指期货(IH)主力合约跌1.32%,中证500股指期货(IC)主力合约跌1.04%,中证1000股指期货(IM)主力合约跌0.27%。

股指期货小幅下挫 IH主力合约跌1.32%

  三大指数延续调整,科创50跌超1%。板块方面,旅游酒店板块延续强势,凯撒旅业、南京商旅、大连圣亚涨停;固态电池板块午后掀涨停潮,殷图网联、灵鸽科技双双30cm涨停,领湃科技、盟固利20cm涨停;服装纺织概念上涨,日播时尚、三夫户外、真爱美家等涨停;AI设备概念股集体调整,天音控股跌停封板;军工装备板块走弱,迈信林跌幅居前;可控核聚变板块陷入回调,久盛电气跌超10%。总体来看,个股涨多跌少,上涨个股超3700只。 截至收盘,沪指报3263.76点,跌0.10%;深成指报10420.52点,跌0.17%;创指报2175.18点,跌0.02%。 盘面上,固态电池、赛马概念、低辐射玻璃板块涨幅居前,贵金属、机场航运、华为手机板块跌幅居前。

" alt="股指期货小幅下挫 IH主力合约跌1.32%" title="股指期货小幅下挫 IH主力合约跌1.32%">

股指期货小幅下挫 IH主力合约跌1.32%

学it一年学费大概多少 36895 国家公务员考试报名官网