AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@ ...
近日,上海径硕网络科技有限公司提交了一项名为“一种基于大语言模型的文本生成方法、系统、设备及介质”的专利申请(公开号CN119337870A),该申请旨在解决现有Transformer模型在文本生成中的局限性。这一请求的关键在于其动态调整因子的引入, ...
继公布全模态模型家族后,时隔5个月,MiniMax再亮相两大模型,且模型权重完全开源。而且与GPT-4o和Claude-3.5-Sonnet性能平起平坐,尤其在上下文窗口方面表现出色,处理能力甚至达到其他顶尖模型的 20 - 32倍。
iVideoGPT是一种通用高效的世界模型架构。它通过提出的条件VQGAN进行视频压缩标记化,减少标记数量,加快生成速度并保持时间一致性。之后,经标记化的视频用自回归Transformer实现逐帧预测,能灵活整合多模态输入输出、兼容不同任务。
在这项工作中,作者提出了一种极性感知线性注意力(PolaFormer)机制,旨在通过纳入被忽略的负交互作用来解决先前线性注意力模型的局限性。与此同时,为了解决线性注意力中常见的注意力权重分布信息熵过高的问题,他们提供了数学理论基础,表明如果一个逐元素 ...
在这项新专利中,佳源科技将Transformer蒸馏技术应用于仪表检测中,旨在提高检测的准确性和效率。这一方法能够快速分析和处理大量数据,实时监测各种仪表的状态,进而为工业自动化提供更智能的解决方案。这样的创新应用对于制造业、智能家居以及其他自动化系 ...
中国 AI 公司 DeepSeek 近期发布了新一代模型 DeepSeek-R1,在复杂领域的推理能力上媲美 OpenAI 的 o1,甚至在多个数学和编程基准测试上超越了它。
更重要的是,这两款全新模型扩展了新型Lightning Attention架构,突破了传统Transformer架构,同时也是线性注意力机制的首次大规模实现。 什么概念?
据介绍,DeepSeek V3 和 R1 模型基于 Transformer 架构 ,采用了 Multi-Head Latent Attention(MLA)和 DeepSeek MoE 两大核心技术。MLA 通过减少 KV ...
智东西9月27日消息,国内AI大模型创企岩芯数智(RockAI,简称岩芯)昨日发布了自研的新一代非Transformer架构大模型,名为Yan1.3多模态大模型。
IT之家 2 月 1 日消息,近日,DeepSeek 发布 Janus Pro 模型,英特尔 Gaudi 2D AI 加速器现已针对该模型进行优化,为 AI 应用的落地和规模化发展提供的支持。IT之家获悉,DeepSeek Janus ...
近日,DeepSeek发布Janus Pro模型,其超强性能和高精度引起业界关注。英特尔? Gaudi 2D ...