屿鹿 AI 情报站 · 全部动态

全部模型发布产品动态行业新闻论文研究教程观点融资商业

2026-07-03

15:35量子位精选 · 40

AI找出4种全新超导体，只用28个GPU时！人类此前完全未知

AI用28 GPU时发现4种人类未知的超导体

AI应用材料科学超导体

09:19量子位精选 · 50

世界模型的新用途：不做选手，去当裁判

世界模型提出新用途：作为评估AI agent行为的裁判，而非仅生成视频。

世界模型AI评估Agent

2026-07-02

20:37The Decoder：AI News精选 · 60

Fable 5 在 RLI 基准中达成 16.1% 自动化率，较八个月前提升六倍

Fable 5 在 RLI 自由职业任务自动化率达 16.1%，是 GPT-5.5 的 2.5 倍

自动化对比RLI

推荐理由：可对比最强模型的自动化能力，为工具选型提供数据

🎯 给屿鹿的选题角度：制作视频「AI 替你接单做设计？最新自动化测试谁更强」，用 RLI 结果说明 Codex 与竞品差距

20:10Hacker News精选 · 30

Is One Layer Enough? A Single Transformer Layer Matches Full-Parameter RL Train

论文发现单层Transformer在RL训练中可匹配全参数微调性能，挑战深层模型必要性。

TransforRL训练单层模型

14:44Hacker News精选 · 80

The gauge broke: devs felt 20% faster with AI, measured 19% slower

研究显示开发者使用AI编程时自感快20%，实测却慢19%，感觉与实情反差大。

AI编程效率实测开发者体验错觉

推荐理由：颠覆认知的实测结果，可警示盲目依赖AI，结合Codex做实操指南。

🎯 给屿鹿的选题角度：小红书图文/视频号口播：标题如'AI写代码真的更快？实测打脸'，用此研究引出实测对比，教普通人如何用Codex真正提效，避免自欺欺人。

10:55Hacker News精选 · 70

Senior SWE-Bench: open-source benchmark that assesses agents as senior engineers

Senior SWE-Bench开源，评估AI代理作为高级软件工程师的多文件修复等复杂任务能力。

AI编程基准测试Agent软件工程

推荐理由：可作为实测对比Codex/GPT/Claude等高级编程能力的切入点。

🎯 给屿鹿的选题角度：实测对比Codex、Claude Code、Cursor在Senior SWE-Bench上的表现，分析谁更适合复杂项目，做成小红书图文或视频号避坑指南。

08:00HuggingFace Daily Pape精选 · 40

表示分布匹配（RDM）用于一步视觉生成

RDM方法一步生成图像，改进版iRDM在ImageNet达SOTA，并可后训练FLUX模型。

图像生成一步生成FLUX

08:00HuggingFace Daily Pape精选 · 30

Program-as-Weights：一种面向模糊函数的编程范式

PAW将模糊函数编译为神经制品，0.6B解释器性能匹敌32B模型，推理内存仅1/50。

模型压缩模糊函数端侧推理

08:00Apple Machine Learning精选 · 40

RL微调VLM的鲁棒性与思维链一致性研究

RL微调VLM提升准确率但降低思维链忠实性，存在准确性与鲁棒性权衡。

视觉语言模型强化学习鲁棒性

08:00Apple Machine Learning精选 · 30

VideoFlexTok：可变长度粗到细视频分词

VideoFlexTok用可变长度token序列高效表示视频，1.1B参数实现5.2B模型生成质量。

视频生成分词器模型压缩

08:00Apple Machine Learning精选 · 50

多智能体团队阻碍专家发挥

多智能体LLM系统中团队倾向于整合妥协，阻碍专家能力发挥，性能损失最高41.1%。

多智能体团队协作专家利用

06:48Hacker News精选 · 20

Healthy but Sedentary People Show Early Decline in Cellular Energy Production

研究发现健康但久坐者细胞能量生产早期下降。

健康久坐细胞能量

01:21Hacker News精选 · 50

Are readers generating fiction with AI models?

研究：读者正使用 AI 模型生成虚构作品。

AI生成虚构创作用户行为

2026-07-01

15:29量子位精选 · 30

群核科技三项成果入选ECCV 2026，联手英伟达等探索物理AI仿真平台

群核科技ECCV论文，联手英伟达探索物理AI仿真，与通用创作工具关联弱。

物理AI仿真ECCV

15:24量子位精选 · 40

Loop世界模型论文登顶Hugging Face，来自中国一家初创，周鸿祎陆奇都投了

Loop世界模型论文登顶HuggingFace，来自中国初创，研究方向与核心赛道无直接交集。

世界模型初创HuggingF

13:13Hacker News精选 · 30

Matrix Orthogonalization Improves Memory in Recurrent Models

矩阵正交化技术可改善循环神经网络记忆能力，为学术研究。

深度学习RNN记忆优化

06:32X：AI Safety Memes精选 · 30

AI 用 prover-verifier LLM 循环攻克 9 个未解数学难题

AI通过prover-verifier LLM循环攻克9个未解数学难题，拟扩展至全科学。

LLM数学科学发现

06:08Hacker News精选 · 30

TabFM: A zero-shot foundation model for tabular data

Google 发布表格数据零样本基础模型 TabFM

表格数据基础模型Google

05:29Hacker News精选 · 30

Meta's brain-scanning system reads sentences non-invasively, code open source

Meta 开源非侵入式脑机接口系统，能从脑信号解码句子。

Meta脑机接口非侵入式

02:32Hugging Face精选 · 30

ScarfBench: Benchmarking AI Agents for Enterprise Java Framework Migration

AI代理企业Java框架迁移基准测试，与Codex/GPT工作流无直接关联。

基准测试Java迁移AI代理企业应用

2026-06-30

08:00OpenAI精选 · 20

Introducing GeneBench-Pro

OpenAI 发布 GeneBench-Pro 基准，测试 AI 在基因组学等领域的性能。

OpenAI基准测试生物学

08:00OpenAI精选 · 20

Inside Genebench-Pro

深入介绍 GeneBench-Pro 基准测试。

OpenAIGeneBenc生物学

06:18Hacker News精选 · 10

Scientists find molecular-level evidence for two structures in liquid water

科学家发现液态水中存在两种分子结构的证据

液态水分子结构科学研究

02:03Hacker News精选 · 60

Micro-Agent: Beat Frontier Models with Collaboration Inside Model API

vLLM 发布 Micro-Agent，利用模型 API 内部协作以超越前沿模型。

AI代理模型协作性能提升

推荐理由：多代理协作范式可能为 Codex 工作流设计带来新思路。

🎯 给屿鹿的选题角度：对比 Micro-Agent 与 Codex 的代理协作机制，探讨能否将类似模式引入 Codex 任务委派，适合社群技术讨论。

02:02Hugging Face精选 · 30

DiScoFormer: One transformer for density and score, across distributions

一种用于密度和分数估计的通用Transformer，跨分布使用。

Transfor学术论文

2026-06-29

22:33量子位精选 · 40

全球首个：隐空间世界模型，打通长时序双向物理因果链了！

研究人员发布全球首个隐空间世界模型，打通长时序双向物理因果链，具身智能公司新融资2亿美元。

世界模型具身智能融资

12:47Hacker News精选 · 20

Some Simple Economics of AGI

SSRN论文探讨通用人工智能（AGI）的简单经济学。

AGI经济学学术论文

06:32Hacker News精选 · 40

Knowledge Distillation of Black-Box Large Language Models

论文研究黑盒大语言模型的知识蒸馏方法，将大模型能力迁移至小模型。

知识蒸馏黑盒模型LLM模型压缩

03:06Hacker News精选 · 30

Do LLMs pass the mirror test?

博客探讨大型语言模型能否通过镜像测试，检验其自我认知能力。

LLM镜子测试自我认知

02:59Hacker News精选 · 0

Computer-Aided Language Development in Nonspeaking Children (1968) [pdf]

1968年论文：计算机辅助语言开发非言语儿童，与当前AI无关。

语言开发

2026-06-28

23:55Hacker News精选 · 10

Programmable Probabilistic Computer with 1M p-bits

关于包含 100 万 p-bit 的可编程概率计算机的学术论文。

概率计算硬件

2026-06-27

17:18Hacker News精选 · 40

DeepSeek open-sources inference optimizations with 60–85% faster generation [pdf]

DeepSeek 开源推理优化技术，声称生成速度提升60-85%。

DeepSeek推理优化开源

2026-06-26

11:47量子位精选 · 20

让机器人学会“预判接触”：它石智航牵头四大顶尖机构发布TacForeSight，破解精细操作难题

它石智航等发布机器人预判接触技术TacForeSight。

机器人预判

11:23量子位精选 · 40

英伟达MoE新开源：一行import，微调加速3.7倍

英伟达开源MoE训练加速方案，通过Transformers v5一行import微调加速3.7倍。

英伟达MoE训练加速

04:50Hacker News精选 · 10

Un-0: Generating Images with Coupled Oscillators

论文介绍用耦合振荡器生成图像的新方法

图像生成振荡器

04:12Hacker News精选 · 10

Parallel Parentheses Matching

并行括号匹配算法介绍

算法括号匹配

00:11Hugging Face精选 · 10

Which tokens does a hybrid model predict better?

学术文章分析混合模型 token 预测，与创作者赛道无关。

模型分析学术

2026-06-25

23:11Hacker News精选 · 10

Physicists Track and Trap the Elusive Neutrino

物理学家成功追踪和捕获中微子

物理学中微子

21:08Hacker News精选 · 50

Where every major LLM stands politically

分析各主流 LLM 的政治立场与偏见

LLM政治偏见分析工具

10:00OpenAI精选 · 80

How agents are transforming work

OpenAI 论文显示代理可完成更长更复杂的任务，扩大生产力边界。

Agent生产力OpenAI

推荐理由：官方背书代理能力升级，可用论文结论指导普通人构建 Codex/GPT 工作流。

🎯 给屿鹿的选题角度：解读论文核心发现：代理现在擅长多步骤、长时任务，做一份《一人公司代理任务清单》。社群分享：如何将复杂工作拆解给 Codex Agent，小红书图文对比传统方法与代理效率。

09:36Hacker News精选 · 10

Exploring the internal representations of Pangram 3.3.2

探索Pangram 3.3.2的内部表示，可能涉及字体或AI模型的嵌入空间分析。

内部表示AI模型

09:11Hacker News精选 · 30

Mixing Visual and Textual Code

一篇关于混合视觉与文本代码的论文，探讨在编程中结合视觉元素的可能性。

多模态编程视觉代码

2026-06-24

23:37Hacker News精选 · 20

Boffin claims Microsoft's "quantum leap" is invalid due to "basic Python errors"

研究者指出微软量子计算研究存在基础Python错误

量子计算错误

18:38量子位精选 · 20

1小时真机RL微调成功率破95%！HIL-ResRL：即插即用的VLA“外挂”神器

研究提出HIL-ResRL方法，1小时真机RL微调成功率超95%，针对VLA模型。

VLARL微调具身智能

10:21Hacker News精选 · 30

Qwen-AgentWorld: Language World Models for General Agents

Qwen-AgentWorld论文提出语言世界模型，用于通用Agent环境模拟与训练。

QwenAgent世界模型论文

10:12Hacker News精选 · 20

DiffusionBench: Towards Holistic Evaluation of Generative Diffusion Transformers

DiffusionBench：面向生成扩散变换器（DiT）的整体性评估基准开源项目。

评估基准扩散模型图像生成

02:24Hacker News精选 · 90

The End of Code Review: Coding Agents Supersede Human Inspection

论文声称编程代理将取代人工代码审查，引发HN热议

代码审查编程代理CodexAI取代人工

推荐理由：直接命中Codex实操对比：是否能做代码审查？适合做实测对比教程

🎯 给屿鹿的选题角度：视频号口播：用Codex实际审查代码，对比传统review，给出“AI能不能替代人审代码”的结论，附社群作业：让Codex审查你自己的项目

2026-06-23

22:40Hacker News精选 · 30

Lift4D: Harmonizing Single-View 3D Estimation for 4D Reconstruction In-the-Wild

学术论文 Lift4D 提出单视图 3D 估计用于 4D 重建。

3D重建学术论文

19:07Hacker News精选 · 50

The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A"

新讨论旧论文：LLM训练于“A是B”却学不会“B是A”，揭示逻辑反转局限。

逆转诅咒LLM局限

16:31Hacker News精选 · 20

Show HN: Neural Particle Automata

神经粒子自动机：粒子可自由移动并自组织成复杂形态。

神经网络粒子自动机自组织模式形成

12:00arXiv cs.AI精选 · 10

On the Identifiability of User Adaptation in Co-Adaptive Neural Interfaces

论文分析共适应性神经接口中用户适应的可识别性问题。

神经接口可识别性

12:00arXiv cs.AI精选 · 60

Beyond Fixed Budgets: Characterizing the Inelasticity and Limitations of Tree-of-Thought Reasoning Strategies

论文揭示Tree-of-Thought推理策略的弹性和局限性。

思维树推理策略LLM

推荐理由：ToT是热门推理技巧，了解其局限性可帮助用户更高效使用AI。

🎯 给屿鹿的选题角度：出一期解读「ToT思维树并非万能」的口播，结合论文实测不同推理方法对比，给出适用场景建议，帮助创作者优化AI使用流程。

12:00arXiv cs.AI精选 · 10

The New Associationism: Lessons from Deep Learning

论文认为监督学习支持关联主义模型，探讨AI成功对人类学习的启示。

关联主义深度学习学习理论

10:28Hacker News精选 · 30

Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models

YOLO26 统一实时端到端视觉模型发布，提升检测速度与精度。

YOLO目标检测计算机视觉

10:01Hacker News精选 · 90

VibeThinker: 3B param model that beats Opus 4.5 on reasoning with novel SFT+GRPO

VibeThinker: 3B模型用新训练方法在推理上击败Opus 4.5。

小模型推理能力模型训练降本增效

推荐理由：小模型击败大模型，适合演示低成本AI推理，契合一人公司提效。

🎯 给屿鹿的选题角度：制作短视频实测VibeThinker与Opus 4.5在逻辑题、商业分析等场景的表现，突出小模型省钱优势，引导观众思考如何用AI降本增效，结尾引导社群。

07:59Simon Willison精选 · 60

Prompt Injection as Role Confusion

Simon Willison将提示注入论文转化为博客，用角色混淆解读攻击原理。

提示注入AI安全提示词技巧

推荐理由：Simon的科普让提示注入风险更易懂，可提醒创作者防范AI输出被操控。

🎯 给屿鹿的选题角度：口播短视频拆解‘角色混淆’攻击，给出3个简单防护建议，比如限制系统提示、检查用户输入，帮助自媒体人安全使用AI。

2026-06-22

23:48Hacker News精选 · 60

A Theory of Why Prompt Injection Works

论文提出角色混淆理论解释提示注入成因，可为提示词安全提供底层认知。

提示注入AI 安全提示词

推荐理由：可转化为防注入技巧，切合提示词使用赛道，满足科普需求。

🎯 给屿鹿的选题角度：小红书图文/视频号口播：解析提示注入案例，教用户用分隔符、角色限定等方式规避风险，落点“让AI听话更安全”。

18:50Hacker News精选 · 60

LLMs do not merely reflect the bias of their training, they police it

LLMs不仅反映训练数据偏见，还会监管偏见，引发讨论。

LLM偏见观点

推荐理由：探讨LLM偏见行为，有助于理解模型特性，可转化为警示或避坑指南。

🎯 给屿鹿的选题角度：小红书图文：用通俗案例解释LLM如何“监管”偏见，落点提醒创作者注意AI输出多样性，避免内容同质化。

16:1536氪精选 · 50

逻辑智能低资源语音研究入选ICML 2026，将赴韩国首尔参会

逻辑智能SE-Bridge-TTS入选ICML，提升小语种语音合成的自然度和克隆能力。

语音合成小语种ICML

推荐理由：语音克隆可用于数字人口播，值得持续跟踪。

🎯 给屿鹿的选题角度：后续关注论文开源，可实测小语种克隆效果，制作《AI模拟小语种，数字人出海必备》教程。

06:16Hacker News精选 · 50

I Gave an AI a Civilization to Run. It Built a Nuke – Launching CivBench

CivBench基准测试：让AI管理文明，它造了核弹

AI智能体基准测试决策

2026-06-21

08:00Hacker News精选 · 60

Project Fetch: Phase Two

Anthropic发布Project Fetch第二阶段研究，提升AI从网络检索信息的能力。

AI Agent信息检索Anthropi

推荐理由：了解AI Agent获取实时信息的前沿，对测评AI工具有参考价值。

🎯 给屿鹿的选题角度：若开放测试，可实测其检索精度与速度，对比GPT等，制作小红书图文或视频，强调对一人公司调研提效的潜力。

07:04MarkTechPost精选 · 50

Cisco AI Introduces FAPO: Pipeline-Aware Prompt Optimization With Step-Level Failure Attribution and Claude Code Orchestration

Cisco开源FAPO：基于Claude Code自动优化多步LLM流水线的提示词工具

提示词优化Claude C工作流自动化开源工具

06:22Hacker News精选 · 10

Slow breathing modulates brain function and risk behavior

慢呼吸调节脑功能与风险行为

神经科学呼吸脑功能风险行为

2026-06-20

19:56量子位精选 · 40

陶哲轩12年前的预言，现在AI帮他兑现了

陶哲轩 12 年前预言 AI 将辅助数学研究，如今 AI 帮其实践。

AI 数学陶哲轩学术突破

06:37Hacker News精选 · 30

How do flocking birds and schools of fish move?

纽约大学新研究揭示鸟群和鱼群如何协调群体运动。

群体行为生物运动

2026-06-19

12:00arXiv cs.AI精选 · 20

Deontic Policies for Runtime Governance of Agentic AI Systems

提出对自主AI智能体进行运行时治理的义务政策，以应对安全与合规挑战。

智能体治理安全合规

12:00arXiv cs.AI精选 · 10

Measuring Curriculum Alignment across Topical Coverage, Competency, and Cognitive Depth: A Longitudinal Framework Applied to CS2013 and CS2023

提出衡量计算机科学课程与CS2013/CS2023标准对齐度的纵向框架。

课程对齐计算机教育

12:00arXiv cs.AI精选 · 20

Diffusion Language Models: An Experimental Analysis

对扩散语言模型进行实验分析，相较于自回归模型，探讨其生成范式。

扩散语言模型模型对比

12:00arXiv cs.AI精选 · 30

Hidden Anchors in Multi-Agent LLM Deliberation

揭示多智能体LLM审议中的隐藏锚点，解释审议为何有效及其局限。

多智能体LLM审议

12:00arXiv cs.AI精选 · 10

DeXposure-Claw: An Agentic System for DeFi Risk Supervision

提出针对去中心化金融风险监管的智能体系统DeXposure-Claw。

DeFi风险管理

12:00arXiv cs.AI精选 · 10

LLM Doesn't Know What It Doesn't Know: Detecting Epistemic Blind Spots via Cross-Model Attribution Divergence on Clinical Tabular Data

检测LLM在临床表格数据上的认知盲点，通过跨模型归因分歧。

LLM认知盲点临床数据

12:00arXiv cs.AI精选 · 10

REVEAL++: Differentiable Phenotypic Grouping for Vision-Language Retinal Modeling of Alzheimer's Disease Risk

利用视网膜图像建模阿尔茨海默病风险的视觉-语言对齐方法。

视网膜成像疾病预测

12:00arXiv cs.AI精选 · 40

Emergent Alignment

赋予LLM自我校准能力，通过训练使其识别并修正自身伦理无关输出。

LLM对齐自我纠正

12:00arXiv cs.AI精选 · 20

ITNet: A Learnable Integral Transform That Subsumes Convolution, Attention, and Recurrence

提出可学习积分变换ITNet，统一卷积、注意力和循环网络归纳偏置。

网络架构积分变换

12:00arXiv cs.AI精选 · 30

Uncertainty Decomposition for Clarification Seeking in LLM Agents

为交互式LLM智能体提供不确定性分解框架，以决定何时寻求澄清。

LLM智能体不确定性

03:25Hacker News精选 · 30

Integer Quantization: Deep Dive

一篇关于神经网络整数量化技术的深度解析文章。

模型压缩量化技术深度学习

02:13Hugging Face精选 · 40

MosaicLeaks: Can your research agent keep a secret?

HuggingFace发布MosaicLeaks基准，评估AI研究代理防止信息泄露能力。

Agent安全基准测试AI隐私

2026-06-18

17:14MarkTechPost精选 · 40

The KV Cache Compression Race: TurboQuant vs OSCAR vs EpiCache

比较TurboQuant、OSCAR、EpiCache三种KV缓存压缩方法，缓解长上下文内存瓶颈。

KV缓存长上下文模型压缩

17:12量子位精选 · 90

全员本科生！何恺明组新作：文生图，258M参数就够了

何恺明团队推出仅258M参数的文生图模型，作者多为本科生，参数极小。

文生图轻量模型何恺明

推荐理由：极小模型文生图，可能大幅降低AI生图门槛和成本，非常适合一人公司创作者。

🎯 给屿鹿的选题角度：待模型开源后，实测对比SDXL，展示在小红书封面生成上的速度与质量优势，突出低成本提效。

12:00arXiv cs.AI精选 · 20

NAVI-Orbital: First In-Orbit Demonstration of a Zero-Shot Vision-Language Model for Autonomous Earth Observation

首次在轨演示零样本视觉语言模型用于自主地球观测。

视觉语言模型地球观测在轨演示零样本

12:00arXiv cs.AI精选 · 30

CaVe-VLM-CoT: An Interpretable Vision-Language Model Framework

CaVe-VLM-CoT框架通过可解释推理链缓解VLM幻觉。

视觉语言模型可解释性推理链幻觉缓解

12:00arXiv cs.AI精选 · 30

Searching for Synergy in Shared Workspace Human-AI Collaboration

研究共享工作空间中人类与AI代理如何协同分工。

人机协作共享工作空间AI代理

12:00arXiv cs.AI精选 · 40

CEO-Bench: Can Agents Play the Long Game?

CEO-Bench基准测试AI代理在长期战略游戏中的表现。

AI代理基准测试决策能力长期规划

12:00arXiv cs.AI精选 · 20

DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

DeFAb基准测试基础模型的可废止推理能力。

基础模型推理基准逻辑推理

12:00arXiv cs.AI精选 · 10

Optimizing Lithium Production Decisions under Geological, Demand, and Pricing Uncertainties: A POMDP Framework for Multi-Objective Decision Making

用POMDP框架优化锂矿生产中的不确定决策。

锂矿生产决策优化POMDP

12:00arXiv cs.AI精选 · 20

ForecastBench-Sim: A Simulated-World Forecasting Benchmark

ForecastBench-Sim提供模拟世界中的AI预测基准。

预测基准模拟世界AI系统

12:00arXiv cs.AI精选 · 20

What Must Generalist Agents Remember?

形式化分析通用智能体在跨域决策中需记忆的内容。

通用智能体记忆需求理论分析

12:00arXiv cs.AI精选 · 10

R2D-RL: A RoboCup 2D Soccer Environment for Multi-Agent Reinforcement Learning

开源RoboCup 2D足球环境用于多智能体强化学习。

多智能体强化学习机器人足球

12:00arXiv cs.AI精选 · 30

ProfiLLM: Utility-Aligned Agentic User Profiling for Industrial Ride-Hailing Dispatch

提出基于LLM的智能体用户画像方法，用于网约车调度优化

大语言模型智能体用户画像网约车

10:28MarkTechPost精选 · 40

OpenAI Releases LifeSciBench, a 750-Task Benchmark Grading AI Models on Real Life-Science Research With Expert-Written Rubric

OpenAI发布LifeSciBench基准，用750个任务评估AI在真实生命科学研究的推理能力。

OpenAI基准测试生命科学

2026-06-17

23:26Hugging Face精选 · 40

MolmoMotion: Language-guided 3D motion forecasting

MolmoMotion 是一个语言引导的 3D 人体运动预测模型。

3D运动预测语言引导学术研究

23:00Google AI精选 · 40

New research shows how AMIE, our medical AI, could help manage health conditions.

Google医疗AI系统AMIE在复杂疾病管理中达到初级保健医生水平，研究发表于Nature。

AI医疗大模型对话系统

17:28Hacker News精选 · 70

Show HN: High-Res Neural Cellular Automata

神经网络元胞自动机可实时生成高清图案、PBR和3D纹理，支持自愈。

AI生图元胞自动机纹理生成

推荐理由：可实测的AI生图新工具，展示自我修复和纹理生成，适合制作新奇内容。

🎯 给屿鹿的选题角度：实测该工具，录制从种子生成图案、破坏后自动修复的过程，并演示导出纹理用于视频封面或设计素材，发布小红书图文或视频号口播，突出AI创意的降本增效。

15:44MarkTechPost精选 · 70

MiniMax Sparse Attention (MSA): a Two-Branch Block-Sparse Attention Trained on a 109B-Parameter MoE With a 3T-Token Budget

MiniMax发布稀疏注意力MSA，在109B模型上减少注意力计算28.4倍。

稀疏注意力MiniMax大模型效率

推荐理由：MiniMax新注意力技术可大幅降低大模型推理成本，影响未来AI应用。

🎯 给屿鹿的选题角度：用通俗比喻解读MSA原理，对比普通注意力与稀疏注意力的算力差异，结合“一人公司降本”落点，适合小红书图文，突出“更便宜的AI”。

13:49MarkTechPost精选 · 60

OpenAI’s Deployment Simulation Extends Pre-Deployment Risk Assessment to Agentic Coding Through Simulated Tool Calls

OpenAI发布部署模拟方法，通过重放对话评估新模型在智能编码等场景的风险

OpenAIAgent安全部署模拟智能编码

推荐理由：OpenAI在Agent安全评估的新方法，可转化为AI Agent风险探讨

🎯 给屿鹿的选题角度：视频号口播：“OpenAI如何确保AI Agent不乱来？”切入，解读部署模拟技术，落点创业者使用Agent的安全边界

12:00arXiv cs.AI精选 · 50

Beyond Parallel Sampling: Diverse Query Initialization for Agentic Search

论文提出多样化查询初始化方法，提升Agent搜索广度缩放效率，突破并行采样收益递减。

Agent搜索查询初始化测试时缩放论文

12:00arXiv cs.AI精选 · 20

When Rules Learn: A Self-Evolving Agent for Legal Case Retrieval

自进化智能体用于法律案例检索，通过规则学习提升精确匹配。

法律案例检索自进化智能体论文

12:00arXiv cs.AI精选 · 10

SkillChain-Gym: A Benchmark for Reskilling-Aware Production-Inventory Control under Disruptions

SkillChain-Gym基准测试用于评估生产库存控制中的技能重塑决策。

生产控制技能重塑基准

12:00arXiv cs.AI精选 · 10

Skill-Constrained Model Predictive Control for Resilient Manufacturing Supply Chains

技能约束模型预测控制方法用于弹性制造供应链管理。

模型预测控制制造供应链技能约束

12:00arXiv cs.AI精选 · 30

Nothing from Something: Can a Language Model Discover 0?

探究语言模型能否自主发现数字零的数学概念

数学推理语言模型

12:00arXiv cs.AI精选 · 40

Quantifying Consistency in LLM Logical Reasoning via Structural Uncertainty

通过结构不确定性量化LLM逻辑推理的一致性

推理评估一致性

12:00arXiv cs.AI精选 · 50

MemTrace: Probing What Final Accuracy Misses in Long-Term Memory

提出MemTrace评估LLM智能体长期记忆的一致性

智能体记忆评估

12:00arXiv cs.AI精选 · 30

SpeechDx: A Multi-Task Benchmark for Clinical Speech AI

临床语音AI多任务基准SpeechDx

语音识别医疗AI

12:00arXiv cs.AI精选 · 60

Distributed General-Purpose Agent Networks: Architecture, Key Mechanisms, and Prototypes

分布式通用智能体网络的架构、关键机制与原型

智能体网络分布式系统

推荐理由：分布式Agent网络可能成为未来人机协作基础设施，与一人公司提效潜在相关

🎯 给屿鹿的选题角度：解读分布式智能体如何通过协作实现复杂任务自动化，切入一人公司如何用多个AI Agent分工协作降低成本，适合小红书图文或视频号口播简析。

12:00arXiv cs.AI精选 · 30

Treatment Response Optimized Clinical Decision Support AI System via Digital Twin Simulation

利用数字孪生模拟优化临床决策支持的AI系统

数字孪生医疗AI

11:25Hacker News精选 · 20

Semiclassical Gravity Efficiently Solves NP-Complete Problems

论文声称半经典引力可高效解决NP完全问题

理论物理学NP完全量子计算

08:00OpenAI精选 · 50

Introducing LifeSciBench

OpenAI推出LifeSciBench，评估AI在生命科学真实研究任务的表现。

OpenAI基准测试生命科学

2026-06-16

23:46DeepMind精选 · 40

Securing the future of AI agents

DeepMind发布AI控制路线图，结合传统安全与实时监控保障AI智能体。

AI安全AI智能体DeepMind

19:07Hacker News精选 · 30

DuckDB Internals: Why Is DuckDB Fast? (Part 1)

技术文章分析DuckDB内部原理，解释其高性能原因。

DuckDB数据库性能优化

12:00arXiv cs.AI精选 · 30

A Definition of Good Explanations and the Challenges Explaining LLM Outputs

论文探讨了LLM输出解释的定义和挑战，偏向学术理论，实操转化难度高。

LLM可解释性解释质量

12:00arXiv cs.AI精选 · 70

Dr-DCI: Scaling Direct Corpus Interaction via Dynamic Workspace Expansion

论文提出Dr-DCI框架，通过动态扩展工作区让智能体直接与大规模语料交互，提升Agent搜索效率。

Agent搜索动态工作区知识检索

推荐理由：提出让AI智能体像人类一样边搜边思考的方法，可能显著提升内容创作中的资料收集和信息整合效率。

🎯 给屿鹿的选题角度：解读Dr-DCI论文：如何用“动态工作区”让AI搜索效率翻倍？可制作小红书图文“我让AI学会了边找边想，做内容快多了”，展示对比案例，落点：一人公司用AI智能体做选题调研的提效技巧。

12:00arXiv cs.AI精选 · 30

Relational Structural Causal Models

论文提出关系结构因果模型，涉及因果推理基础理论，实操性较低。

因果模型

12:00arXiv cs.AI精选 · 50

Trust Between AI Agents: Measuring Formation, Breakage, and Recovery, with Implications for Governing Multi-Agent Systems

提出基于代价验证的行为度量，衡量AI智能体间信任的建立、破裂与恢复。

AI智能体信任测量多智能体系统

12:00arXiv cs.AI精选 · 50

PrologMCP: A Standardized Prolog Tool Interface for LLM Agents

提出PrologMCP接口，用符号推理增强LLM智能体的深度演绎任务性能。

LLM智能体符号推理PrologMCP

12:00arXiv cs.AI精选 · 20

Semantics-Enhanced Retrieval-Augmented Time Series Forecasting

语义增强的检索增强时间序列预测方法，利用语义信息改进检索。

时间序列预测RAG语义增强

12:00arXiv cs.AI精选 · 10

AI Engram: In Search of Memory Traces in Artificial Intelligence

提出几何框架识别深度神经网络中的AI印迹，类比生物记忆单位。

记忆痕迹AI理论几何框架

12:00arXiv cs.AI精选 · 40

Metric Match: A Subset Selection Approach to Evaluating LLM Judge Reliability

子集选择方法评估LLM裁判可靠性，减少对人工对齐的昂贵依赖。

LLM评估可靠性子集选择

12:00arXiv cs.AI精选 · 50

OSGuard: A Benchmark for Safety in Computer-Use Agents

引入OSGuard双粒度基准，评估计算机使用代理的任务成功与安全合规。

AI代理安全基准计算机使用

12:00arXiv cs.AI精选 · 10

Fusion is not one-size-fits-all: Cross-Modal Representation Alignment for Time-to-Event Modeling

基础模型驱动的跨模态对齐框架，用于CT影像与临床数据的时间到事件建模。

跨模态对齐医学AI时间到事件预测

08:00OpenAI精选 · 50

Predicting model behavior before release by simulating deployment

OpenAI推出部署模拟方法，用真实对话数据预测模型发布前行为，提升安全评估。

部署模拟模型安全OpenAI

2026-06-15

17:16MarkTechPost精选 · 40

Meet Flash-KMeans: An IO-Aware, Exact K-Means That Runs Over 200× Faster Than FAISS on GPUs

开源 GPU K-Means 比 FAISS 快 200 倍，精确无近似，基于 Triton 内核。

K-MeansGPU加速Triton开源

12:00arXiv cs.AI精选 · 20

A Deep Reinforcement Learning (DRL)-Based Transformer Method for Solving the Open Shop Scheduling Problem

DRL-Transformer方法解决开放式车间调度问题。

深度强化学习调度优化

12:00arXiv cs.AI精选 · 30

UP-NRPA: User Portrait based Nested Rollout Policy Adaptation for Planning with Large Language Models in Goal-oriented Dialogue Systems

基于用户画像的LLM对话策略规划框架UP-NRPA。

对话系统LLM智能体

12:00arXiv cs.AI精选 · 10

History of the Muddy Children Puzzle

追溯Muddy Children Puzzle历史起源的论文。

逻辑谜题

12:00arXiv cs.AI精选 · 70

Orchestra-o1: Omnimodal Agent Orchestration

Orchestra-o1: 全模态多智能体编排框架。

多智能体系统Agent编排Omnimoda

推荐理由：新的多模态Agent编排框架，可能影响未来Agent产品设计，值得关注。

🎯 给屿鹿的选题角度：可以出一期视频/图文，介绍Orchestra-o1的核心思路，并讨论它对未来AI应用的影响，落点在一人公司如何利用多Agent协作提效。

12:00arXiv cs.AI精选 · 60

Hybrid Open-Ended Tri-Evolution Makes Better Deep Researcher

Hybrid Open-Ended Tri-Evolution提升深度研究智能体性能。

深度研究智能体进化AI Resea

推荐理由：提升AI研究智能体的新方法，可能启发未来工具。

🎯 给屿鹿的选题角度：做个科普解读：这篇论文如何让AI像人类研究员一样进化？结合日常用AI做调研的场景，讨论未来可能性。

12:00arXiv cs.AI精选 · 70

WorkBench Revisited: Workplace Agents Two Years On

WorkBench重测：智能体两年任务成功率提升，有害行为减少

AI智能体基准测试职场自动化Claude

推荐理由：展示AI智能体在真实办公任务中的实测进展，对比两年前数据，适合做‘AI员工进化’选题

🎯 给屿鹿的选题角度：制作对比短视频：用两年前GPT-4与当前Claude Opus在邮件、文档等任务的完成率/失误率，突出‘现在哪些工作可放心交给AI’，引导评论分享体验

12:00arXiv cs.AI精选 · 30

Refusal Beyond a Single Direction: A Preliminary Comparison of Diff-in-Means and INLP

对比两种方法移除LLM安全微调中的拒绝方向

安全对齐LLM表示工程

12:00arXiv cs.AI精选 · 40

YeasierAgent: Agentic Social Sandbox as a Canvas for Intent-Driven Creation of Platform-Agnostic Symbiotic Agent-Native Applications

提出YeasierAgent，基于共生智能体和叙事世界的应用构建范式

智能体应用叙事世界应用范式

12:00arXiv cs.AI精选 · 40

TwinBI: An Agentic Digital Twin for Efficient Augmented Interactions with Business Intelligence Dashboards

提出TwinBI，通过智能体数字孪生增强BI仪表盘交互

BI数字孪生智能体

12:00arXiv cs.AI精选 · 30

When Sample Selection Bias Precipitates Model Collapse

研究样本选择偏差如何加速模型崩溃

模型崩溃合成数据数据选择

2026-06-14

10:55Hacker News精选 · 50

Making Claude a Chemist

Anthropic 发布研究：让 Claude 扮演化学家执行推理与实验设计。

Claude化学推理能力

2026-06-13

10:02Hacker News精选 · 20

TycoonLE: A Jax reinforcement learning environment for long-horizon planning

Jax强化学习环境TycoonLE开源，面向长程规划任务训练。

强化学习Jax长程规划

04:14Hacker News精选 · 20

Can I Buy Your KV Cache?

论文探讨KV Cache交易市场，属于LLM推理优化，与创作者内容赛道关联弱。

KV CacheLLM推理

2026-06-12

20:00Hacker News精选 · 20

Maxproof

论文Maxproof涉及数学证明，与AI核心赛道无关。

论文数学证明

12:24Hacker News精选 · 20

Device Clock Generation

技术文章介绍设备时钟生成原理。

时钟硬件

12:00arXiv cs.AI精选 · 60

ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs

ToolSense框架可诊断LLM代理的参数化工具知识，解决工具检索瓶颈。

AI智能体工具检索LLM

推荐理由：为AI Agent工具选择提供诊断思路，可引申为提升代理可靠性的实操话题。

🎯 给屿鹿的选题角度：可做一期「如何确保AI Agent选对工具？」的科普视频，结合实测Demo展示ToolSense思想在Coze或Dify中的简单应用，落点提升自动化工作流稳定性。

12:00arXiv cs.AI精选 · 70

Arbor: Tree Search as a Cognition Layer for Autonomous Agents

Arbor框架为自主Agent引入树搜索认知层，用于大规模状态动作空间决策。

AI智能体树搜索认知架构

推荐理由：树搜索增强Agent决策可启发复杂任务自动化思路，适合做「一人公司如何用Agent搞定多步复杂任务」的选题。

🎯 给屿鹿的选题角度：策划一期小红书图文，用信息图拆解树搜索如何让Agent更像人一样思考，结合案例演示通过Coze或AutoGPT实现多步决策，突出降本增效。

12:00arXiv cs.AI精选 · 60

Strategic Decision Support for AI Agents

论文探讨AI代理作为决策者、人类作为支持者的新型决策支持模式。

AI智能体决策支持人机协作

推荐理由：角色反转视角新颖，可延伸为「未来老板只需审核，AI员工做决策」的内容话题。

🎯 给屿鹿的选题角度：制作视频口播，讨论AI代理如何替老板做初步决策，结合自动化数据复盘工作流，展示一人公司管理提效的想象空间。

12:00arXiv cs.AI精选 · 30

Pythagoras-Prover: Advancing Efficient Formal Proving via Augmented Lean Formalisation

Pythagoras-Prover通过增强Lean形式化提升定理证明效率。

定理证明Lean

12:00arXiv cs.AI精选 · 20

PersonaDrive: Human-Style Retrieval-Augmented VLA Agents for Closed-Loop Driving Simulation

PersonaDrive提出检索增强VLA代理，模拟人类驾驶风格用于闭环仿真。

自动驾驶仿真

12:00arXiv cs.AI精选 · 50

"Did you lie?" Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms

研究通过模型尺度对比评估语言模型测谎器，构建信念验证模型有机体。

AI安全测谎模型审计

推荐理由：测谎话题有传播力，可轻科普，但离提效较远。

🎯 给屿鹿的选题角度：可做趣味科普图文「如何测试你的AI有没有撒谎？」，提及论文思路，但需注意转化实用性，否则易成纯猎奇。

12:00arXiv cs.AI精选 · 20

TrajGenAgent: A Hierarchical LLM Agent for Human Mobility Trajectory Generation

TrajGenAgent为LLM代理，用于生成人类移动轨迹数据。

轨迹生成LLM代理

12:00arXiv cs.AI精选 · 40

Evoflux: Inference-Time Evolution of Executable Tool Workflows for Compact Agents

Evoflux方法让小型模型在推理时动态生成工具工作流

AI智能体工具工作流紧凑模型

12:00arXiv cs.AI精选 · 20

From AGI to ASI

论文探讨从AGI到ASI的演进路径与影响

AGIASI宏观展望

12:00arXiv cs.AI精选 · 20

Deployment-Centered Evaluation: Predicting Query-Level Rejection Risk in a Clinical LLM System

论文提出预测临床LLM系统查询级拒绝风险的部署评估方法

医疗LLM部署评估风险预测

08:45Hacker News精选 · 20

Deconstructing Datalog

解构Datalog查询语言的文章，作者发布研究论文。

Datalog查询语言论文

08:38Hacker News精选 · 0

Nobody ever gets credit for fixing problems that never happened (2002) [pdf]

MIT论文探讨预防问题却得不到认可的悖论。

MIT管理悖论

07:33Hacker News精选 · 0

Biological Evolution and Information Acquisition

生物进化与信息获取研究

生物进化信息获取

03:54Hacker News精选 · 30

Shall we play a game? – LLMs use tactical nukes in 95% of simulations

LLMs在95%的模拟中选择使用战术核武器，引发AI决策风险讨论。

AI安全LLM行为模拟研究

2026-06-11

19:00MIT Tech Review精选 · 70

Google DeepMind is worried about what happens when millions of agents start to interact

Google DeepMind资助研究数百万AI代理在线交互的潜在安全风险。

AI Agent安全DeepMind

推荐理由：AI代理规模化带来新风险，可做警示性观点内容吸引关注。

🎯 给屿鹿的选题角度：解读DeepMind对多代理交互风险的担忧，讨论一人公司使用多Agent的注意事项，制作视频口播观点。

12:00arXiv cs.AI精选 · 30

From Explicit Elements to Implicit Intent: A Predefined Library for Auditable Behavioral Inference

提出SemantiClean框架从电商会话数据提取语义信号。

行为推断电商

12:00arXiv cs.AI精选 · 40

Position: Hippocampal Explicit Memory Is the Cornerstone for AGI

论文主张显式记忆是实现AGI的基石。

AGI记忆模型

12:00arXiv cs.AI精选 · 50

Can AI Agents Synthesize Scientific Conclusions?

引入SciConBench评估科学AI智能体综合能力。

AI智能体科学综合

12:00arXiv cs.AI精选 · 50

Knowing When to Ask: Self-Gated Clarification for Hierarchical Language Agents

提出自门控澄清机制提升分层语言智能体表现。

AI智能体分层推理

12:00arXiv cs.AI精选 · 40

Automated Mediator for Human Negotiation: Pre-Mediation via a Structured LLM Pipeline

基于LLM的结构化预调解流程辅助人类谈判。

LLM应用调解

12:00arXiv cs.AI精选 · 50

INFRAMIND: Infrastructure-Aware Multi-Agent Orchestration

提出基础设施感知的多智能体编排方法INFRAMIND。

多智能体基础设施

12:00arXiv cs.AI精选 · 30

Forecasting Future Behavior as a Learning Task

将预测大推理模型未来行为作为学习任务建立信任。

模型行为信任

12:00arXiv cs.AI精选 · 60

Search Discipline for Long-Horizon Research Agents

论文研究长周期科研智能体的搜索纪律，指出聚合指标可能忽视科学有效性。

AI智能体科研自动化长周期任务

推荐理由：智能体前沿研究，可科普给受众看AI如何自动做科研提效。

🎯 给屿鹿的选题角度：做成图文科普：“AI智能体帮科学家做实验？靠谱吗？”拆解论文核心观点，落点在AI辅助决策的局限性。

12:00arXiv cs.AI精选 · 70

MoCA-Agent: A Market-of-Claims Code Agent for Financial and Numerical Reasoning

MoCA-Agent金融数值推理智能体，通过声明市场机制确保计算精确。

AI智能体金融推理代码生成

推荐理由：金融领域AI Agent可辅助老板快速分析财报，展现一人公司提效潜力。

🎯 给屿鹿的选题角度：实测对比：用MoCA-Agent与普通GPT算财报数据，看谁更准。小红书图文展示过程，标题“AI算账比会计还稳？”

12:00arXiv cs.AI精选 · 50

SkillJuror: Measuring How Agent Skill Organization Changes Runtime Behavior

SkillJuror研究技能组织方式对智能体行为的影响，提出渐进披露评估法。

AI智能体技能组织评估方法

07:35Hacker News精选 · 40

Deficient executive control in transformer attention

研究指出Transformer注意力机制存在执行控制缺陷。

Transfor注意力机制学术研究

推荐理由：学术论文，与实操提效关联度低。

00:11TechCrunch AI精选 · 60

How memory tools can make AI models worse

新研究发现AI记忆系统可能降低模型性能，并加剧谄媚倾向。

AI记忆模型性能谄媚倾向

推荐理由：可警示用户避免盲信AI记忆功能，提升内容可控性。

🎯 给屿鹿的选题角度：实测对比：开启与关闭记忆功能的ChatGPT输出差异，展示谄媚倾向实例，提供关闭记忆或重置技巧。落点：创作者如何避免AI盲目附和导致内容失真，适合小红书图文/视频口播。

2026-06-10

12:00arXiv cs.AI精选 · 40

Business World Model

论文提出企业AI工具转型需构建智能系统

AI转型商业模型

12:00arXiv cs.AI精选 · 60

Deployment-Time Memorization in Foundation-Model Agents

论文研究基础模型代理在部署时的记忆功能

AI智能体记忆隐私

推荐理由：探讨AI代理记忆用户互动的机制，与Agent赛道相关

🎯 给屿鹿的选题角度：可做一期视频：「AI代理会记住你什么？」，结合论文讨论记忆带来的便利与隐私风险，落地到如何安全使用Agent工具。

12:00arXiv cs.AI精选 · 30

Exploratory Responsiveness and Adaptive Rigidity under AI-Assisted Optimization

论文探讨AI辅助优化中的适应性僵化问题

AI优化

12:00arXiv cs.AI精选 · 20

Predictive Assistance and the Temporal Dynamics of Exploratory Compression

论文研究预测性AI如何压缩探索性搜索

认知科学

12:00arXiv cs.AI精选 · 50

From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs

论文分析多模态LLM中视听信息流动路径

多模态LLM

12:00arXiv cs.AI精选 · 70

Less Context, Better Agents: Efficient Context Engineering for Long-Horizon Tool-Using LLM Agents

论文提出减少上下文可提升长任务LLM代理效率

AI智能体上下文工程效率

推荐理由：针对Agent工作流中的上下文溢出问题，提出效率优化方法，可转化为实操技巧

🎯 给屿鹿的选题角度：做一期实操内容：「如何让AI代理执行长任务不“失忆”？」，将论文中的上下文工程技巧转化为普通人能用的提示词策略，结合Coze或AutoGPT演示。

12:00arXiv cs.AI精选 · 20

Minimalist Genetic Programming

论文提出极简遗传编程方法

遗传编程

12:00arXiv cs.AI精选 · 30

Regimes: An Auditable, Held-Out-Gated Improvement Loop Demonstrated on LongMemEval with ActiveGraph

提出可审计的自主改进循环架构，并在LongMemEval上验证其效果。

AI Agent改进循环可审计性

12:00arXiv cs.AI精选 · 20

RealMath-Eval: Why SOTA Judges Struggle with Real Human Reasoning

研究发现顶尖LLM在评估真实人类数学推理过程时表现不佳。

LLM评估数学推理Reasonin

12:00arXiv cs.AI精选 · 20

Supervised Fine-tuning with Synthetic Rationale Data Hurts Real-World Disease Prediction

合成理由数据微调会损害阿尔茨海默症等疾病预测任务性能。

微调合成数据医疗预测

03:38Hugging Face精选 · 80

Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech

前沿ASR系统在语码转换语音上的基准测试，评估双语语音助手能力

语音智能体双语ASR客服

推荐理由：展示语音AI在多语场景的进展，直接帮助老板们搭建双语客服降低成本。

🎯 给屿鹿的选题角度：制作小红书图文或视频，标题‘AI语音客服能说中英混合了？实测双语效果’，演示如何用现成工具搭建双语语音助手，强调降本增效，引导社群。

2026-06-09

21:27Hacker News精选 · 60

Is Grep All You Need? How Agent Harnesses Reshape Agentic Search

论文研究Agent如何用类似grep的方法重塑Agentic Search。

AI Agent搜索论文

推荐理由：Agent搜索能力提升可帮内容创作者更准抓取灵感，是打造AI研究助手的关键。

🎯 给屿鹿的选题角度：视频号演示：把论文思路转化为实操，教用户用AI Agent做深度主题搜索，快速收集写作素材，突出“一人成团队”的研究提效。

13:53MarkTechPost精选 · 90

A New Study from Harvard and Perplexity Finds AI Agents Perform 26 Minutes of Autonomous Work per Session vs 33 Seconds for Search

哈佛与Perplexity研究发现：AI智能体单次会话平均自主工作26分钟，远超搜索助手的33秒。

AI智能体自主工作效率对比

推荐理由：直观数据展示AI智能体长时自主工作的提效潜力，适合吸引创业者。

🎯 给屿鹿的选题角度：拍口播视频，标题“AI帮我打工26分钟，我只花33秒”，实测自主代理连续完成任务，强调“一人顶一个团队”的降本增效。

12:00arXiv cs.AI精选 · 10

PathoSage: Towards Multi-Source Evidence Adjudication in Pathology via Experience-Aware Agentic Workflow

PathoSage论文：病理学多源证据裁决的智能体工作流，与创作者核心赛道无关。

医疗AI智能体

12:00arXiv cs.AI精选 · 30

OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

OmniMem：面向流式音视频LLM的记忆压缩，学术底层技术，与创作者直接关联弱。

视频理解记忆压缩

12:00arXiv cs.AI精选 · 80

Syll: Open-Source Personal Automation with Cross-Surface Execution

Syll开源自托管个人AI代理，可跨API、Web、桌面等多种界面自动执行任务。

开源代理个人自动化跨界面执行

推荐理由：若可部署，能自动处理多平台重复操作，实现一人公司的多任务自动化。

🎯 给屿鹿的选题角度：做一个“开源工具Syll介绍”视频，展示其跨平台自动发帖、数据抓取的潜力，引导观众持续关注自动化提效。

12:00arXiv cs.AI精选 · 10

A case study of evaluating AI agents on a neuroscience data-to-discovery pipeline

评估AI智能体在神经科学数据发现管道上的案例研究，与创作者无关。

科学AI智能体

12:00arXiv cs.AI精选 · 20

Why Limit the Residual Stream to Layers and Not Tokens? Persistent Memory for Continuous Latent Reasoning

关于LLM残差流与连续潜在推理的理论研究，与直接应用关联弱。

LLM理论推理

12:00arXiv cs.AI精选 · 10

Automatic Extraction of Structured Information from Brain MRI Reports Using an Open-Weight Large Language Model

用LLM自动提取脑MRI报告结构化信息，医疗领域，不相关。

医疗AI信息提取

12:00arXiv cs.AI精选 · 50

Some hypotheses on how chatbots work in problem-solving-driven conversations. Large Language Models as confirmation of the Innovation Illusion

探讨聊天机器人在问题解决对话中的局限性，提出创新幻觉的假设。

聊天机器人局限性创新幻觉

12:00arXiv cs.AI精选 · 30

Land cover and flood type govern the detection limits of satellite-based flood mapping across diverse global flood events

卫星洪水制图检测限受土地覆盖和洪水类型影响

洪水制图遥感基础模型

12:00arXiv cs.AI精选 · 30

Reconstructing and forecasting disease trajectories of patients with Alzheimer's disease using routine data in resource-constrained settings

用常规数据重建和预测阿尔茨海默病患者疾病轨迹

医疗AI疾病预测

12:00arXiv cs.AI精选 · 40

Improving Multimodal Reasoning via Worst Dimension Optimization

通过最差维度优化改进多模态推理过程奖励模型

多模态推理奖励模型

02:57MarkTechPost精选 · 20

ClawHub Security Signals: A Coding Guide to End-to-End Security Signal Analysis and Verdict Classification on the AI Skills Dataset

ClawHub安全信号分析编码指南，评估AI技能数据集

安全分析AI技能

2026-06-07

14:25MarkTechPost精选 · 40

Meet Harness-1: A 20B Retrieval Subagent Trained With Reinforcement Learning Inside a Stateful Search Harness on gpt-oss-20b

Harness-1发布，一个20B检索子代理，在搜索框架中用强化学习训练。

检索代理强化学习搜索增强

2026-06-03

20:29AI News精选 · 20

How E.ON uses SAP S/4HANA to modernise the grid with AI

Direct Preference Optimization（DPO）在聊天机器人之外的应用探索。

DPO对齐技术

2026-05-27

08:00Hugging Face精选 · 30

Shipping a Trillion Parameters With a Hub Bucket: Delta Weight Sync in TRL

TRL 中实现 Delta Weight Sync：一种高效传输万亿参数模型的方法。

大模型训练参数同步

2026-05-16

16:16DeepMind精选 · 10

Finding the molecular switches behind new infectious diseases

Co-Scientist 帮助识别新传染病的基因触发器。

AI 科学传染病

16:08DeepMind精选 · 10

Opening new paths in aging research

Co-Scientist 连接衰老研究的分散发现，生成新线索。

AI 科学衰老

16:00DeepMind精选 · 10

Accelerating discovery of liver disease mechanisms

Co-Scientist 加速肝病机制发现，解释药物差异性。

AI 科学肝病

15:53DeepMind精选 · 10

Uniting biological toolkits for a new approach to ALS

Co-Scientist 联合波士顿儿童医院和 MIT 探索 ALS 的 RNA 疗法。

AI 科学ALS

15:40DeepMind精选 · 10

Uncovering repurposed medicines to fight liver fibrosis

Co-Scientist 帮助发现肝纤维化的药物再利用。

AI 科学肝纤维化

11:14DeepMind精选 · 10

How WeatherNext helped the National Hurricane Center better predict Hurricane Melissa’s historic landfall in Jamaica

WeatherNext AI 模型助力预测飓风 Melissa 登陆，提前预警。

AI 天气预测飓风

2024-11-28

08:00Lilian Weng精选 · 40

Reward Hacking in Reinforcement Learning

强化学习中奖励黑客行为剖析：代理利用奖励函数漏洞获取高分。

强化学习奖励黑客漏洞

2024-07-07

08:00Lilian Weng精选 · 70

Extrinsic Hallucinations in LLMs

聚焦LLM的外在幻觉：生成违背事实的内容，探讨成因与缓解方案。

幻觉大模型内容真实性防幻觉

推荐理由：AI创作常见陷阱，可教用户如何避免胡编乱造，提升内容可信度。

🎯 给屿鹿的选题角度：小红书图文：《AI总爱编造事实？3个方法让它说真话》，结合RAG、来源验证等技巧，用案例对比演示。

2024-04-12

08:00Lilian Weng精选 · 80

Diffusion Models for Video Generation

扩散模型从图像合成迈向视频生成，梳理技术挑战与前沿进展。

视频生成扩散模型AI工具

推荐理由：最新视频生成技术综述，可横向对比主流工具，为创作者提供选型参考。

🎯 给屿鹿的选题角度：视频号实测：对比Runway、Pika等工具生成视频的质量，引用文中技术原理解释差异，最后推荐适合一人公司的视频AI工具。

2024-02-05

08:00Lilian Weng精选 · 60

Thinking about High-Quality Human Data

高质量人类数据是模型训练关键，探讨数据获取与质量评估方法。

数据质量人类标注提示词

推荐理由：提示词即数据，可借助高质量数据思维优化提示词设计，提升AI输出。

🎯 给屿鹿的选题角度：短视频：你的提示词是‘垃圾数据’吗？借鉴高质量数据标准，分享撰写有效提示词的5个原则。