苹果一篇论文得罪大模型圈?Transformer不会推理,只是高级模式匹配器!所有LLM都判死刑
29天前新智元报道 编辑:peter东 Aeneas 【新智元导读】苹果研究者发现:无论是OpenAI GPT-4o和o1,还是Llama、Phi、Gemma和Mistral等开源模型,都未被发现任何 …
Yann LeCun最新万字演讲:致力于下一代AI系统,我们基本上不做LLM了!(阅)
29天前作者:Datawhale 链接:https://mp.weixin.qq.com/s/fzxIH2X-yvBfQXyJWiRo_w 本文仅用于学术分享,如有侵权,请联系后台作删文处理 导读 Yann …
以图灵机为师:通过微调训练让大语言模型懂执行计算过程
29天前本文来自南京大学计算机学院软件研究所,聚焦于开放环境下的智能软件新技术研究,定位国际学术前沿,面向国家关键需求,承担了一系列国家科技部和基金委重大/重点科研项目。团队拥有包括中科院院士等多名国家级人才 …
深入了解大模型的微调——什么是LoRA,PEFT,DeepSpeed,ZeRO
1个月前自从谷歌的那篇开创性的论文《注意力就是你所需要的一切》发表以来,大型语言模型 (LLM) 就随着ChatGPT的发布而风靡全球,这导致了生成式人工智能和 OpenAI 等公司的兴起。现在,一些大型商业 …
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
1个月前论文主要作者: 1. 王智超:本科就读于厦门大学土木工程系,研究生博士就读于佐治亚理工并获得土木工程和计算机工程硕士及机械工程博士,现任职于 Salesforce,专注于 LLM Alignment。 …
内部先验知识与RAG冲突了怎么办?对LLM如何平衡内外部知识的一些思考
1个月前LLM 内部先验知识与 RAG 冲突了怎么办? 前段时间在华为诺亚完成了一篇有关 Adaptive RAG 的工作,现在在做对齐架空世界知识与现实世界知识,尤其是智能游戏 NPC 的工作。分享一下有关 …
大佬亲身示范:操纵AI如此简单,LLM不仅「发疯」还造谣诽谤
1个月前新智元报道 编辑:乔杨 Frey 【新智元导读】当谷歌的Gemini建议给比萨加胶水时,网友尚能发挥娱乐精神玩梗解构;但当LLM输出的诽谤信息中伤到到真实人类时,AI搜索引擎的未来是否值得再三 …
Transformer推理天花板被谷歌打破?DeepMind首席科学家亮出84页PPT,却遭LeCun反对
1个月前新智元报道 编辑:编辑部 HXZ 【新智元导读】随OpenAI爆火的CoT,已经引发了大佬间的激战!谷歌DeepMind首席科学家Denny Zhou拿出一篇ICLR 2024论文称:CoT可 …
从架构、工艺到能效表现,全面了解LLM硬件加速,这篇综述就够了
1个月前机器之心报道 编辑:陈陈、杜伟 大语言模型(LLM)的发展同时往往伴随着硬件加速技术的进化,本文对使用 FPGA、ASIC 等芯片的模型性能、能效表现来了一次全面概览。 对人类语言进行大规模建模是一个 …
CoT神话破灭,并非LLM标配!三大学府机构联手证实,CoT仅在数学符号推理有用
1个月前新智元报道 编辑:桃子 【新智元导读】CoT只对数学、符号推理才起作用,其他的任务几乎没什么卵用!这是来自UT-Austin、霍普金斯、普林斯顿三大机构研究人员联手,分析了100+篇论文14类 …