2026-07-03
AI找出4种全新超导体,只用28个GPU时!人类此前完全未知
AI用28 GPU时发现4种人类未知的超导体
世界模型的新用途:不做选手,去当裁判
世界模型提出新用途:作为评估AI agent行为的裁判,而非仅生成视频。
2026-07-02
Fable 5 在 RLI 基准中达成 16.1% 自动化率,较八个月前提升六倍
Fable 5 在 RLI 自由职业任务自动化率达 16.1%,是 GPT-5.5 的 2.5 倍
推荐理由:可对比最强模型的自动化能力,为工具选型提供数据
🎯 给屿鹿的选题角度:制作视频「AI 替你接单做设计?最新自动化测试谁更强」,用 RLI 结果说明 Codex 与竞品差距
Is One Layer Enough? A Single Transformer Layer Matches Full-Parameter RL Train
论文发现单层Transformer在RL训练中可匹配全参数微调性能,挑战深层模型必要性。
The gauge broke: devs felt 20% faster with AI, measured 19% slower
研究显示开发者使用AI编程时自感快20%,实测却慢19%,感觉与实情反差大。
推荐理由:颠覆认知的实测结果,可警示盲目依赖AI,结合Codex做实操指南。
🎯 给屿鹿的选题角度:小红书图文/视频号口播:标题如'AI写代码真的更快?实测打脸',用此研究引出实测对比,教普通人如何用Codex真正提效,避免自欺欺人。
Senior SWE-Bench: open-source benchmark that assesses agents as senior engineers
Senior SWE-Bench开源,评估AI代理作为高级软件工程师的多文件修复等复杂任务能力。
推荐理由:可作为实测对比Codex/GPT/Claude等高级编程能力的切入点。
🎯 给屿鹿的选题角度:实测对比Codex、Claude Code、Cursor在Senior SWE-Bench上的表现,分析谁更适合复杂项目,做成小红书图文或视频号避坑指南。
表示分布匹配(RDM)用于一步视觉生成
RDM方法一步生成图像,改进版iRDM在ImageNet达SOTA,并可后训练FLUX模型。
Program-as-Weights:一种面向模糊函数的编程范式
PAW将模糊函数编译为神经制品,0.6B解释器性能匹敌32B模型,推理内存仅1/50。
RL微调VLM的鲁棒性与思维链一致性研究
RL微调VLM提升准确率但降低思维链忠实性,存在准确性与鲁棒性权衡。
VideoFlexTok:可变长度粗到细视频分词
VideoFlexTok用可变长度token序列高效表示视频,1.1B参数实现5.2B模型生成质量。
多智能体团队阻碍专家发挥
多智能体LLM系统中团队倾向于整合妥协,阻碍专家能力发挥,性能损失最高41.1%。
Healthy but Sedentary People Show Early Decline in Cellular Energy Production
研究发现健康但久坐者细胞能量生产早期下降。
Are readers generating fiction with AI models?
研究:读者正使用 AI 模型生成虚构作品。
2026-07-01
群核科技三项成果入选ECCV 2026,联手英伟达等探索物理AI仿真平台
群核科技ECCV论文,联手英伟达探索物理AI仿真,与通用创作工具关联弱。
Loop世界模型论文登顶Hugging Face,来自中国一家初创,周鸿祎陆奇都投了
Loop世界模型论文登顶HuggingFace,来自中国初创,研究方向与核心赛道无直接交集。
Matrix Orthogonalization Improves Memory in Recurrent Models
矩阵正交化技术可改善循环神经网络记忆能力,为学术研究。
AI 用 prover-verifier LLM 循环攻克 9 个未解数学难题
AI通过prover-verifier LLM循环攻克9个未解数学难题,拟扩展至全科学。
TabFM: A zero-shot foundation model for tabular data
Google 发布表格数据零样本基础模型 TabFM
Meta's brain-scanning system reads sentences non-invasively, code open source
Meta 开源非侵入式脑机接口系统,能从脑信号解码句子。
ScarfBench: Benchmarking AI Agents for Enterprise Java Framework Migration
AI代理企业Java框架迁移基准测试,与Codex/GPT工作流无直接关联。
2026-06-30
Introducing GeneBench-Pro
OpenAI 发布 GeneBench-Pro 基准,测试 AI 在基因组学等领域的性能。
Inside Genebench-Pro
深入介绍 GeneBench-Pro 基准测试。
Scientists find molecular-level evidence for two structures in liquid water
科学家发现液态水中存在两种分子结构的证据
Micro-Agent: Beat Frontier Models with Collaboration Inside Model API
vLLM 发布 Micro-Agent,利用模型 API 内部协作以超越前沿模型。
推荐理由:多代理协作范式可能为 Codex 工作流设计带来新思路。
🎯 给屿鹿的选题角度:对比 Micro-Agent 与 Codex 的代理协作机制,探讨能否将类似模式引入 Codex 任务委派,适合社群技术讨论。
DiScoFormer: One transformer for density and score, across distributions
一种用于密度和分数估计的通用Transformer,跨分布使用。
2026-06-29
全球首个:隐空间世界模型,打通长时序双向物理因果链了!
研究人员发布全球首个隐空间世界模型,打通长时序双向物理因果链,具身智能公司新融资2亿美元。
Some Simple Economics of AGI
SSRN论文探讨通用人工智能(AGI)的简单经济学。
Knowledge Distillation of Black-Box Large Language Models
论文研究黑盒大语言模型的知识蒸馏方法,将大模型能力迁移至小模型。
Do LLMs pass the mirror test?
博客探讨大型语言模型能否通过镜像测试,检验其自我认知能力。
Computer-Aided Language Development in Nonspeaking Children (1968) [pdf]
1968年论文:计算机辅助语言开发非言语儿童,与当前AI无关。
2026-06-28
Programmable Probabilistic Computer with 1M p-bits
关于包含 100 万 p-bit 的可编程概率计算机的学术论文。
2026-06-27
DeepSeek open-sources inference optimizations with 60–85% faster generation [pdf]
DeepSeek 开源推理优化技术,声称生成速度提升60-85%。
2026-06-26
让机器人学会“预判接触”:它石智航牵头四大顶尖机构发布TacForeSight,破解精细操作难题
它石智航等发布机器人预判接触技术TacForeSight。
英伟达MoE新开源:一行import,微调加速3.7倍
英伟达开源MoE训练加速方案,通过Transformers v5一行import微调加速3.7倍。
Un-0: Generating Images with Coupled Oscillators
论文介绍用耦合振荡器生成图像的新方法
Parallel Parentheses Matching
并行括号匹配算法介绍
Which tokens does a hybrid model predict better?
学术文章分析混合模型 token 预测,与创作者赛道无关。
2026-06-25
Physicists Track and Trap the Elusive Neutrino
物理学家成功追踪和捕获中微子
Where every major LLM stands politically
分析各主流 LLM 的政治立场与偏见
How agents are transforming work
OpenAI 论文显示代理可完成更长更复杂的任务,扩大生产力边界。
推荐理由:官方背书代理能力升级,可用论文结论指导普通人构建 Codex/GPT 工作流。
🎯 给屿鹿的选题角度:解读论文核心发现:代理现在擅长多步骤、长时任务,做一份《一人公司代理任务清单》。社群分享:如何将复杂工作拆解给 Codex Agent,小红书图文对比传统方法与代理效率。
Exploring the internal representations of Pangram 3.3.2
探索Pangram 3.3.2的内部表示,可能涉及字体或AI模型的嵌入空间分析。
Mixing Visual and Textual Code
一篇关于混合视觉与文本代码的论文,探讨在编程中结合视觉元素的可能性。
2026-06-24
Boffin claims Microsoft's "quantum leap" is invalid due to "basic Python errors"
研究者指出微软量子计算研究存在基础Python错误
1小时真机RL微调成功率破95%!HIL-ResRL:即插即用的VLA“外挂”神器
研究提出HIL-ResRL方法,1小时真机RL微调成功率超95%,针对VLA模型。
Qwen-AgentWorld: Language World Models for General Agents
Qwen-AgentWorld论文提出语言世界模型,用于通用Agent环境模拟与训练。
DiffusionBench: Towards Holistic Evaluation of Generative Diffusion Transformers
DiffusionBench:面向生成扩散变换器(DiT)的整体性评估基准开源项目。
The End of Code Review: Coding Agents Supersede Human Inspection
论文声称编程代理将取代人工代码审查,引发HN热议
推荐理由:直接命中Codex实操对比:是否能做代码审查?适合做实测对比教程
🎯 给屿鹿的选题角度:视频号口播:用Codex实际审查代码,对比传统review,给出“AI能不能替代人审代码”的结论,附社群作业:让Codex审查你自己的项目
2026-06-23
Lift4D: Harmonizing Single-View 3D Estimation for 4D Reconstruction In-the-Wild
学术论文 Lift4D 提出单视图 3D 估计用于 4D 重建。
The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A"
新讨论旧论文:LLM训练于“A是B”却学不会“B是A”,揭示逻辑反转局限。
Show HN: Neural Particle Automata
神经粒子自动机:粒子可自由移动并自组织成复杂形态。
On the Identifiability of User Adaptation in Co-Adaptive Neural Interfaces
论文分析共适应性神经接口中用户适应的可识别性问题。
Beyond Fixed Budgets: Characterizing the Inelasticity and Limitations of Tree-of-Thought Reasoning Strategies
论文揭示Tree-of-Thought推理策略的弹性和局限性。
推荐理由:ToT是热门推理技巧,了解其局限性可帮助用户更高效使用AI。
🎯 给屿鹿的选题角度:出一期解读「ToT思维树并非万能」的口播,结合论文实测不同推理方法对比,给出适用场景建议,帮助创作者优化AI使用流程。
The New Associationism: Lessons from Deep Learning
论文认为监督学习支持关联主义模型,探讨AI成功对人类学习的启示。
Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models
YOLO26 统一实时端到端视觉模型发布,提升检测速度与精度。
VibeThinker: 3B param model that beats Opus 4.5 on reasoning with novel SFT+GRPO
VibeThinker: 3B模型用新训练方法在推理上击败Opus 4.5。
推荐理由:小模型击败大模型,适合演示低成本AI推理,契合一人公司提效。
🎯 给屿鹿的选题角度:制作短视频实测VibeThinker与Opus 4.5在逻辑题、商业分析等场景的表现,突出小模型省钱优势,引导观众思考如何用AI降本增效,结尾引导社群。
Prompt Injection as Role Confusion
Simon Willison将提示注入论文转化为博客,用角色混淆解读攻击原理。
推荐理由:Simon的科普让提示注入风险更易懂,可提醒创作者防范AI输出被操控。
🎯 给屿鹿的选题角度:口播短视频拆解‘角色混淆’攻击,给出3个简单防护建议,比如限制系统提示、检查用户输入,帮助自媒体人安全使用AI。
2026-06-22
A Theory of Why Prompt Injection Works
论文提出角色混淆理论解释提示注入成因,可为提示词安全提供底层认知。
推荐理由:可转化为防注入技巧,切合提示词使用赛道,满足科普需求。
🎯 给屿鹿的选题角度:小红书图文/视频号口播:解析提示注入案例,教用户用分隔符、角色限定等方式规避风险,落点“让AI听话更安全”。
LLMs do not merely reflect the bias of their training, they police it
LLMs不仅反映训练数据偏见,还会监管偏见,引发讨论。
推荐理由:探讨LLM偏见行为,有助于理解模型特性,可转化为警示或避坑指南。
🎯 给屿鹿的选题角度:小红书图文:用通俗案例解释LLM如何“监管”偏见,落点提醒创作者注意AI输出多样性,避免内容同质化。
逻辑智能低资源语音研究入选ICML 2026,将赴韩国首尔参会
逻辑智能SE-Bridge-TTS入选ICML,提升小语种语音合成的自然度和克隆能力。
推荐理由:语音克隆可用于数字人口播,值得持续跟踪。
🎯 给屿鹿的选题角度:后续关注论文开源,可实测小语种克隆效果,制作《AI模拟小语种,数字人出海必备》教程。
I Gave an AI a Civilization to Run. It Built a Nuke – Launching CivBench
CivBench基准测试:让AI管理文明,它造了核弹
2026-06-21
Project Fetch: Phase Two
Anthropic发布Project Fetch第二阶段研究,提升AI从网络检索信息的能力。
推荐理由:了解AI Agent获取实时信息的前沿,对测评AI工具有参考价值。
🎯 给屿鹿的选题角度:若开放测试,可实测其检索精度与速度,对比GPT等,制作小红书图文或视频,强调对一人公司调研提效的潜力。
Cisco AI Introduces FAPO: Pipeline-Aware Prompt Optimization With Step-Level Failure Attribution and Claude Code Orchestration
Cisco开源FAPO:基于Claude Code自动优化多步LLM流水线的提示词工具
2026-06-20
陶哲轩12年前的预言,现在AI帮他兑现了
陶哲轩 12 年前预言 AI 将辅助数学研究,如今 AI 帮其实践。
How do flocking birds and schools of fish move?
纽约大学新研究揭示鸟群和鱼群如何协调群体运动。
2026-06-19
Deontic Policies for Runtime Governance of Agentic AI Systems
提出对自主AI智能体进行运行时治理的义务政策,以应对安全与合规挑战。
Measuring Curriculum Alignment across Topical Coverage, Competency, and Cognitive Depth: A Longitudinal Framework Applied to CS2013 and CS2023
提出衡量计算机科学课程与CS2013/CS2023标准对齐度的纵向框架。
Diffusion Language Models: An Experimental Analysis
对扩散语言模型进行实验分析,相较于自回归模型,探讨其生成范式。
Hidden Anchors in Multi-Agent LLM Deliberation
揭示多智能体LLM审议中的隐藏锚点,解释审议为何有效及其局限。
DeXposure-Claw: An Agentic System for DeFi Risk Supervision
提出针对去中心化金融风险监管的智能体系统DeXposure-Claw。
LLM Doesn't Know What It Doesn't Know: Detecting Epistemic Blind Spots via Cross-Model Attribution Divergence on Clinical Tabular Data
检测LLM在临床表格数据上的认知盲点,通过跨模型归因分歧。
REVEAL++: Differentiable Phenotypic Grouping for Vision-Language Retinal Modeling of Alzheimer's Disease Risk
利用视网膜图像建模阿尔茨海默病风险的视觉-语言对齐方法。
Emergent Alignment
赋予LLM自我校准能力,通过训练使其识别并修正自身伦理无关输出。
ITNet: A Learnable Integral Transform That Subsumes Convolution, Attention, and Recurrence
提出可学习积分变换ITNet,统一卷积、注意力和循环网络归纳偏置。
Uncertainty Decomposition for Clarification Seeking in LLM Agents
为交互式LLM智能体提供不确定性分解框架,以决定何时寻求澄清。
Integer Quantization: Deep Dive
一篇关于神经网络整数量化技术的深度解析文章。
MosaicLeaks: Can your research agent keep a secret?
HuggingFace发布MosaicLeaks基准,评估AI研究代理防止信息泄露能力。
2026-06-18
The KV Cache Compression Race: TurboQuant vs OSCAR vs EpiCache
比较TurboQuant、OSCAR、EpiCache三种KV缓存压缩方法,缓解长上下文内存瓶颈。
全员本科生!何恺明组新作:文生图,258M参数就够了
何恺明团队推出仅258M参数的文生图模型,作者多为本科生,参数极小。
推荐理由:极小模型文生图,可能大幅降低AI生图门槛和成本,非常适合一人公司创作者。
🎯 给屿鹿的选题角度:待模型开源后,实测对比SDXL,展示在小红书封面生成上的速度与质量优势,突出低成本提效。
NAVI-Orbital: First In-Orbit Demonstration of a Zero-Shot Vision-Language Model for Autonomous Earth Observation
首次在轨演示零样本视觉语言模型用于自主地球观测。
CaVe-VLM-CoT: An Interpretable Vision-Language Model Framework
CaVe-VLM-CoT框架通过可解释推理链缓解VLM幻觉。
Searching for Synergy in Shared Workspace Human-AI Collaboration
研究共享工作空间中人类与AI代理如何协同分工。
CEO-Bench: Can Agents Play the Long Game?
CEO-Bench基准测试AI代理在长期战略游戏中的表现。
DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models
DeFAb基准测试基础模型的可废止推理能力。
Optimizing Lithium Production Decisions under Geological, Demand, and Pricing Uncertainties: A POMDP Framework for Multi-Objective Decision Making
用POMDP框架优化锂矿生产中的不确定决策。
ForecastBench-Sim: A Simulated-World Forecasting Benchmark
ForecastBench-Sim提供模拟世界中的AI预测基准。
What Must Generalist Agents Remember?
形式化分析通用智能体在跨域决策中需记忆的内容。
R2D-RL: A RoboCup 2D Soccer Environment for Multi-Agent Reinforcement Learning
开源RoboCup 2D足球环境用于多智能体强化学习。
ProfiLLM: Utility-Aligned Agentic User Profiling for Industrial Ride-Hailing Dispatch
提出基于LLM的智能体用户画像方法,用于网约车调度优化
OpenAI Releases LifeSciBench, a 750-Task Benchmark Grading AI Models on Real Life-Science Research With Expert-Written Rubric
OpenAI发布LifeSciBench基准,用750个任务评估AI在真实生命科学研究的推理能力。
2026-06-17
MolmoMotion: Language-guided 3D motion forecasting
MolmoMotion 是一个语言引导的 3D 人体运动预测模型。
New research shows how AMIE, our medical AI, could help manage health conditions.
Google医疗AI系统AMIE在复杂疾病管理中达到初级保健医生水平,研究发表于Nature。
Show HN: High-Res Neural Cellular Automata
神经网络元胞自动机可实时生成高清图案、PBR和3D纹理,支持自愈。
推荐理由:可实测的AI生图新工具,展示自我修复和纹理生成,适合制作新奇内容。
🎯 给屿鹿的选题角度:实测该工具,录制从种子生成图案、破坏后自动修复的过程,并演示导出纹理用于视频封面或设计素材,发布小红书图文或视频号口播,突出AI创意的降本增效。
MiniMax Sparse Attention (MSA): a Two-Branch Block-Sparse Attention Trained on a 109B-Parameter MoE With a 3T-Token Budget
MiniMax发布稀疏注意力MSA,在109B模型上减少注意力计算28.4倍。
推荐理由:MiniMax新注意力技术可大幅降低大模型推理成本,影响未来AI应用。
🎯 给屿鹿的选题角度:用通俗比喻解读MSA原理,对比普通注意力与稀疏注意力的算力差异,结合“一人公司降本”落点,适合小红书图文,突出“更便宜的AI”。
OpenAI’s Deployment Simulation Extends Pre-Deployment Risk Assessment to Agentic Coding Through Simulated Tool Calls
OpenAI发布部署模拟方法,通过重放对话评估新模型在智能编码等场景的风险
推荐理由:OpenAI在Agent安全评估的新方法,可转化为AI Agent风险探讨
🎯 给屿鹿的选题角度:视频号口播:“OpenAI如何确保AI Agent不乱来?”切入,解读部署模拟技术,落点创业者使用Agent的安全边界
Beyond Parallel Sampling: Diverse Query Initialization for Agentic Search
论文提出多样化查询初始化方法,提升Agent搜索广度缩放效率,突破并行采样收益递减。
When Rules Learn: A Self-Evolving Agent for Legal Case Retrieval
自进化智能体用于法律案例检索,通过规则学习提升精确匹配。
SkillChain-Gym: A Benchmark for Reskilling-Aware Production-Inventory Control under Disruptions
SkillChain-Gym基准测试用于评估生产库存控制中的技能重塑决策。
Skill-Constrained Model Predictive Control for Resilient Manufacturing Supply Chains
技能约束模型预测控制方法用于弹性制造供应链管理。
Nothing from Something: Can a Language Model Discover 0?
探究语言模型能否自主发现数字零的数学概念
Quantifying Consistency in LLM Logical Reasoning via Structural Uncertainty
通过结构不确定性量化LLM逻辑推理的一致性
MemTrace: Probing What Final Accuracy Misses in Long-Term Memory
提出MemTrace评估LLM智能体长期记忆的一致性
SpeechDx: A Multi-Task Benchmark for Clinical Speech AI
临床语音AI多任务基准SpeechDx
Distributed General-Purpose Agent Networks: Architecture, Key Mechanisms, and Prototypes
分布式通用智能体网络的架构、关键机制与原型
推荐理由:分布式Agent网络可能成为未来人机协作基础设施,与一人公司提效潜在相关
🎯 给屿鹿的选题角度:解读分布式智能体如何通过协作实现复杂任务自动化,切入一人公司如何用多个AI Agent分工协作降低成本,适合小红书图文或视频号口播简析。
Treatment Response Optimized Clinical Decision Support AI System via Digital Twin Simulation
利用数字孪生模拟优化临床决策支持的AI系统
Semiclassical Gravity Efficiently Solves NP-Complete Problems
论文声称半经典引力可高效解决NP完全问题
Introducing LifeSciBench
OpenAI推出LifeSciBench,评估AI在生命科学真实研究任务的表现。
2026-06-16
Securing the future of AI agents
DeepMind发布AI控制路线图,结合传统安全与实时监控保障AI智能体。
DuckDB Internals: Why Is DuckDB Fast? (Part 1)
技术文章分析DuckDB内部原理,解释其高性能原因。
A Definition of Good Explanations and the Challenges Explaining LLM Outputs
论文探讨了LLM输出解释的定义和挑战,偏向学术理论,实操转化难度高。
Dr-DCI: Scaling Direct Corpus Interaction via Dynamic Workspace Expansion
论文提出Dr-DCI框架,通过动态扩展工作区让智能体直接与大规模语料交互,提升Agent搜索效率。
推荐理由:提出让AI智能体像人类一样边搜边思考的方法,可能显著提升内容创作中的资料收集和信息整合效率。
🎯 给屿鹿的选题角度:解读Dr-DCI论文:如何用“动态工作区”让AI搜索效率翻倍?可制作小红书图文“我让AI学会了边找边想,做内容快多了”,展示对比案例,落点:一人公司用AI智能体做选题调研的提效技巧。
Relational Structural Causal Models
论文提出关系结构因果模型,涉及因果推理基础理论,实操性较低。
Trust Between AI Agents: Measuring Formation, Breakage, and Recovery, with Implications for Governing Multi-Agent Systems
提出基于代价验证的行为度量,衡量AI智能体间信任的建立、破裂与恢复。
PrologMCP: A Standardized Prolog Tool Interface for LLM Agents
提出PrologMCP接口,用符号推理增强LLM智能体的深度演绎任务性能。
Semantics-Enhanced Retrieval-Augmented Time Series Forecasting
语义增强的检索增强时间序列预测方法,利用语义信息改进检索。
AI Engram: In Search of Memory Traces in Artificial Intelligence
提出几何框架识别深度神经网络中的AI印迹,类比生物记忆单位。
Metric Match: A Subset Selection Approach to Evaluating LLM Judge Reliability
子集选择方法评估LLM裁判可靠性,减少对人工对齐的昂贵依赖。
OSGuard: A Benchmark for Safety in Computer-Use Agents
引入OSGuard双粒度基准,评估计算机使用代理的任务成功与安全合规。
Fusion is not one-size-fits-all: Cross-Modal Representation Alignment for Time-to-Event Modeling
基础模型驱动的跨模态对齐框架,用于CT影像与临床数据的时间到事件建模。
Predicting model behavior before release by simulating deployment
OpenAI推出部署模拟方法,用真实对话数据预测模型发布前行为,提升安全评估。
2026-06-15
Meet Flash-KMeans: An IO-Aware, Exact K-Means That Runs Over 200× Faster Than FAISS on GPUs
开源 GPU K-Means 比 FAISS 快 200 倍,精确无近似,基于 Triton 内核。
A Deep Reinforcement Learning (DRL)-Based Transformer Method for Solving the Open Shop Scheduling Problem
DRL-Transformer方法解决开放式车间调度问题。
UP-NRPA: User Portrait based Nested Rollout Policy Adaptation for Planning with Large Language Models in Goal-oriented Dialogue Systems
基于用户画像的LLM对话策略规划框架UP-NRPA。
History of the Muddy Children Puzzle
追溯Muddy Children Puzzle历史起源的论文。
Orchestra-o1: Omnimodal Agent Orchestration
Orchestra-o1: 全模态多智能体编排框架。
推荐理由:新的多模态Agent编排框架,可能影响未来Agent产品设计,值得关注。
🎯 给屿鹿的选题角度:可以出一期视频/图文,介绍Orchestra-o1的核心思路,并讨论它对未来AI应用的影响,落点在一人公司如何利用多Agent协作提效。
Hybrid Open-Ended Tri-Evolution Makes Better Deep Researcher
Hybrid Open-Ended Tri-Evolution提升深度研究智能体性能。
推荐理由:提升AI研究智能体的新方法,可能启发未来工具。
🎯 给屿鹿的选题角度:做个科普解读:这篇论文如何让AI像人类研究员一样进化?结合日常用AI做调研的场景,讨论未来可能性。
WorkBench Revisited: Workplace Agents Two Years On
WorkBench重测:智能体两年任务成功率提升,有害行为减少
推荐理由:展示AI智能体在真实办公任务中的实测进展,对比两年前数据,适合做‘AI员工进化’选题
🎯 给屿鹿的选题角度:制作对比短视频:用两年前GPT-4与当前Claude Opus在邮件、文档等任务的完成率/失误率,突出‘现在哪些工作可放心交给AI’,引导评论分享体验
Refusal Beyond a Single Direction: A Preliminary Comparison of Diff-in-Means and INLP
对比两种方法移除LLM安全微调中的拒绝方向
YeasierAgent: Agentic Social Sandbox as a Canvas for Intent-Driven Creation of Platform-Agnostic Symbiotic Agent-Native Applications
提出YeasierAgent,基于共生智能体和叙事世界的应用构建范式
TwinBI: An Agentic Digital Twin for Efficient Augmented Interactions with Business Intelligence Dashboards
提出TwinBI,通过智能体数字孪生增强BI仪表盘交互
When Sample Selection Bias Precipitates Model Collapse
研究样本选择偏差如何加速模型崩溃
2026-06-14
Making Claude a Chemist
Anthropic 发布研究:让 Claude 扮演化学家执行推理与实验设计。
2026-06-13
TycoonLE: A Jax reinforcement learning environment for long-horizon planning
Jax强化学习环境TycoonLE开源,面向长程规划任务训练。
Can I Buy Your KV Cache?
论文探讨KV Cache交易市场,属于LLM推理优化,与创作者内容赛道关联弱。
2026-06-12
Maxproof
论文Maxproof涉及数学证明,与AI核心赛道无关。
Device Clock Generation
技术文章介绍设备时钟生成原理。
ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs
ToolSense框架可诊断LLM代理的参数化工具知识,解决工具检索瓶颈。
推荐理由:为AI Agent工具选择提供诊断思路,可引申为提升代理可靠性的实操话题。
🎯 给屿鹿的选题角度:可做一期「如何确保AI Agent选对工具?」的科普视频,结合实测Demo展示ToolSense思想在Coze或Dify中的简单应用,落点提升自动化工作流稳定性。
Arbor: Tree Search as a Cognition Layer for Autonomous Agents
Arbor框架为自主Agent引入树搜索认知层,用于大规模状态动作空间决策。
推荐理由:树搜索增强Agent决策可启发复杂任务自动化思路,适合做「一人公司如何用Agent搞定多步复杂任务」的选题。
🎯 给屿鹿的选题角度:策划一期小红书图文,用信息图拆解树搜索如何让Agent更像人一样思考,结合案例演示通过Coze或AutoGPT实现多步决策,突出降本增效。
Strategic Decision Support for AI Agents
论文探讨AI代理作为决策者、人类作为支持者的新型决策支持模式。
推荐理由:角色反转视角新颖,可延伸为「未来老板只需审核,AI员工做决策」的内容话题。
🎯 给屿鹿的选题角度:制作视频口播,讨论AI代理如何替老板做初步决策,结合自动化数据复盘工作流,展示一人公司管理提效的想象空间。
Pythagoras-Prover: Advancing Efficient Formal Proving via Augmented Lean Formalisation
Pythagoras-Prover通过增强Lean形式化提升定理证明效率。
PersonaDrive: Human-Style Retrieval-Augmented VLA Agents for Closed-Loop Driving Simulation
PersonaDrive提出检索增强VLA代理,模拟人类驾驶风格用于闭环仿真。
"Did you lie?" Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms
研究通过模型尺度对比评估语言模型测谎器,构建信念验证模型有机体。
推荐理由:测谎话题有传播力,可轻科普,但离提效较远。
🎯 给屿鹿的选题角度:可做趣味科普图文「如何测试你的AI有没有撒谎?」,提及论文思路,但需注意转化实用性,否则易成纯猎奇。
TrajGenAgent: A Hierarchical LLM Agent for Human Mobility Trajectory Generation
TrajGenAgent为LLM代理,用于生成人类移动轨迹数据。
Evoflux: Inference-Time Evolution of Executable Tool Workflows for Compact Agents
Evoflux方法让小型模型在推理时动态生成工具工作流
From AGI to ASI
论文探讨从AGI到ASI的演进路径与影响
Deployment-Centered Evaluation: Predicting Query-Level Rejection Risk in a Clinical LLM System
论文提出预测临床LLM系统查询级拒绝风险的部署评估方法
Deconstructing Datalog
解构Datalog查询语言的文章,作者发布研究论文。
Nobody ever gets credit for fixing problems that never happened (2002) [pdf]
MIT论文探讨预防问题却得不到认可的悖论。
Biological Evolution and Information Acquisition
生物进化与信息获取研究
Shall we play a game? – LLMs use tactical nukes in 95% of simulations
LLMs在95%的模拟中选择使用战术核武器,引发AI决策风险讨论。
2026-06-11
Google DeepMind is worried about what happens when millions of agents start to interact
Google DeepMind资助研究数百万AI代理在线交互的潜在安全风险。
推荐理由:AI代理规模化带来新风险,可做警示性观点内容吸引关注。
🎯 给屿鹿的选题角度:解读DeepMind对多代理交互风险的担忧,讨论一人公司使用多Agent的注意事项,制作视频口播观点。
From Explicit Elements to Implicit Intent: A Predefined Library for Auditable Behavioral Inference
提出SemantiClean框架从电商会话数据提取语义信号。
Position: Hippocampal Explicit Memory Is the Cornerstone for AGI
论文主张显式记忆是实现AGI的基石。
Can AI Agents Synthesize Scientific Conclusions?
引入SciConBench评估科学AI智能体综合能力。
Knowing When to Ask: Self-Gated Clarification for Hierarchical Language Agents
提出自门控澄清机制提升分层语言智能体表现。
Automated Mediator for Human Negotiation: Pre-Mediation via a Structured LLM Pipeline
基于LLM的结构化预调解流程辅助人类谈判。
INFRAMIND: Infrastructure-Aware Multi-Agent Orchestration
提出基础设施感知的多智能体编排方法INFRAMIND。
Forecasting Future Behavior as a Learning Task
将预测大推理模型未来行为作为学习任务建立信任。
Search Discipline for Long-Horizon Research Agents
论文研究长周期科研智能体的搜索纪律,指出聚合指标可能忽视科学有效性。
推荐理由:智能体前沿研究,可科普给受众看AI如何自动做科研提效。
🎯 给屿鹿的选题角度:做成图文科普:“AI智能体帮科学家做实验?靠谱吗?”拆解论文核心观点,落点在AI辅助决策的局限性。
MoCA-Agent: A Market-of-Claims Code Agent for Financial and Numerical Reasoning
MoCA-Agent金融数值推理智能体,通过声明市场机制确保计算精确。
推荐理由:金融领域AI Agent可辅助老板快速分析财报,展现一人公司提效潜力。
🎯 给屿鹿的选题角度:实测对比:用MoCA-Agent与普通GPT算财报数据,看谁更准。小红书图文展示过程,标题“AI算账比会计还稳?”
SkillJuror: Measuring How Agent Skill Organization Changes Runtime Behavior
SkillJuror研究技能组织方式对智能体行为的影响,提出渐进披露评估法。
Deficient executive control in transformer attention
研究指出Transformer注意力机制存在执行控制缺陷。
推荐理由:学术论文,与实操提效关联度低。
How memory tools can make AI models worse
新研究发现AI记忆系统可能降低模型性能,并加剧谄媚倾向。
推荐理由:可警示用户避免盲信AI记忆功能,提升内容可控性。
🎯 给屿鹿的选题角度:实测对比:开启与关闭记忆功能的ChatGPT输出差异,展示谄媚倾向实例,提供关闭记忆或重置技巧。落点:创作者如何避免AI盲目附和导致内容失真,适合小红书图文/视频口播。
2026-06-10
Business World Model
论文提出企业AI工具转型需构建智能系统
Deployment-Time Memorization in Foundation-Model Agents
论文研究基础模型代理在部署时的记忆功能
推荐理由:探讨AI代理记忆用户互动的机制,与Agent赛道相关
🎯 给屿鹿的选题角度:可做一期视频:「AI代理会记住你什么?」,结合论文讨论记忆带来的便利与隐私风险,落地到如何安全使用Agent工具。
Exploratory Responsiveness and Adaptive Rigidity under AI-Assisted Optimization
论文探讨AI辅助优化中的适应性僵化问题
Predictive Assistance and the Temporal Dynamics of Exploratory Compression
论文研究预测性AI如何压缩探索性搜索
From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs
论文分析多模态LLM中视听信息流动路径
Less Context, Better Agents: Efficient Context Engineering for Long-Horizon Tool-Using LLM Agents
论文提出减少上下文可提升长任务LLM代理效率
推荐理由:针对Agent工作流中的上下文溢出问题,提出效率优化方法,可转化为实操技巧
🎯 给屿鹿的选题角度:做一期实操内容:「如何让AI代理执行长任务不“失忆”?」,将论文中的上下文工程技巧转化为普通人能用的提示词策略,结合Coze或AutoGPT演示。
Minimalist Genetic Programming
论文提出极简遗传编程方法
Regimes: An Auditable, Held-Out-Gated Improvement Loop Demonstrated on LongMemEval with ActiveGraph
提出可审计的自主改进循环架构,并在LongMemEval上验证其效果。
RealMath-Eval: Why SOTA Judges Struggle with Real Human Reasoning
研究发现顶尖LLM在评估真实人类数学推理过程时表现不佳。
Supervised Fine-tuning with Synthetic Rationale Data Hurts Real-World Disease Prediction
合成理由数据微调会损害阿尔茨海默症等疾病预测任务性能。
Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech
前沿ASR系统在语码转换语音上的基准测试,评估双语语音助手能力
推荐理由:展示语音AI在多语场景的进展,直接帮助老板们搭建双语客服降低成本。
🎯 给屿鹿的选题角度:制作小红书图文或视频,标题‘AI语音客服能说中英混合了?实测双语效果’,演示如何用现成工具搭建双语语音助手,强调降本增效,引导社群。
2026-06-09
Is Grep All You Need? How Agent Harnesses Reshape Agentic Search
论文研究Agent如何用类似grep的方法重塑Agentic Search。
推荐理由:Agent搜索能力提升可帮内容创作者更准抓取灵感,是打造AI研究助手的关键。
🎯 给屿鹿的选题角度:视频号演示:把论文思路转化为实操,教用户用AI Agent做深度主题搜索,快速收集写作素材,突出“一人成团队”的研究提效。
A New Study from Harvard and Perplexity Finds AI Agents Perform 26 Minutes of Autonomous Work per Session vs 33 Seconds for Search
哈佛与Perplexity研究发现:AI智能体单次会话平均自主工作26分钟,远超搜索助手的33秒。
推荐理由:直观数据展示AI智能体长时自主工作的提效潜力,适合吸引创业者。
🎯 给屿鹿的选题角度:拍口播视频,标题“AI帮我打工26分钟,我只花33秒”,实测自主代理连续完成任务,强调“一人顶一个团队”的降本增效。
PathoSage: Towards Multi-Source Evidence Adjudication in Pathology via Experience-Aware Agentic Workflow
PathoSage论文:病理学多源证据裁决的智能体工作流,与创作者核心赛道无关。
OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs
OmniMem:面向流式音视频LLM的记忆压缩,学术底层技术,与创作者直接关联弱。
Syll: Open-Source Personal Automation with Cross-Surface Execution
Syll开源自托管个人AI代理,可跨API、Web、桌面等多种界面自动执行任务。
推荐理由:若可部署,能自动处理多平台重复操作,实现一人公司的多任务自动化。
🎯 给屿鹿的选题角度:做一个“开源工具Syll介绍”视频,展示其跨平台自动发帖、数据抓取的潜力,引导观众持续关注自动化提效。
A case study of evaluating AI agents on a neuroscience data-to-discovery pipeline
评估AI智能体在神经科学数据发现管道上的案例研究,与创作者无关。
Why Limit the Residual Stream to Layers and Not Tokens? Persistent Memory for Continuous Latent Reasoning
关于LLM残差流与连续潜在推理的理论研究,与直接应用关联弱。
Automatic Extraction of Structured Information from Brain MRI Reports Using an Open-Weight Large Language Model
用LLM自动提取脑MRI报告结构化信息,医疗领域,不相关。
Some hypotheses on how chatbots work in problem-solving-driven conversations. Large Language Models as confirmation of the Innovation Illusion
探讨聊天机器人在问题解决对话中的局限性,提出创新幻觉的假设。
Land cover and flood type govern the detection limits of satellite-based flood mapping across diverse global flood events
卫星洪水制图检测限受土地覆盖和洪水类型影响
Reconstructing and forecasting disease trajectories of patients with Alzheimer's disease using routine data in resource-constrained settings
用常规数据重建和预测阿尔茨海默病患者疾病轨迹
Improving Multimodal Reasoning via Worst Dimension Optimization
通过最差维度优化改进多模态推理过程奖励模型
ClawHub Security Signals: A Coding Guide to End-to-End Security Signal Analysis and Verdict Classification on the AI Skills Dataset
ClawHub安全信号分析编码指南,评估AI技能数据集
2026-06-07
Meet Harness-1: A 20B Retrieval Subagent Trained With Reinforcement Learning Inside a Stateful Search Harness on gpt-oss-20b
Harness-1发布,一个20B检索子代理,在搜索框架中用强化学习训练。
2026-06-03
How E.ON uses SAP S/4HANA to modernise the grid with AI
Direct Preference Optimization(DPO)在聊天机器人之外的应用探索。
2026-05-27
Shipping a Trillion Parameters With a Hub Bucket: Delta Weight Sync in TRL
TRL 中实现 Delta Weight Sync:一种高效传输万亿参数模型的方法。
2026-05-16
Finding the molecular switches behind new infectious diseases
Co-Scientist 帮助识别新传染病的基因触发器。
Opening new paths in aging research
Co-Scientist 连接衰老研究的分散发现,生成新线索。
Accelerating discovery of liver disease mechanisms
Co-Scientist 加速肝病机制发现,解释药物差异性。
Uniting biological toolkits for a new approach to ALS
Co-Scientist 联合波士顿儿童医院和 MIT 探索 ALS 的 RNA 疗法。
Uncovering repurposed medicines to fight liver fibrosis
Co-Scientist 帮助发现肝纤维化的药物再利用。
How WeatherNext helped the National Hurricane Center better predict Hurricane Melissa’s historic landfall in Jamaica
WeatherNext AI 模型助力预测飓风 Melissa 登陆,提前预警。
2024-11-28
Reward Hacking in Reinforcement Learning
强化学习中奖励黑客行为剖析:代理利用奖励函数漏洞获取高分。
2024-07-07
Extrinsic Hallucinations in LLMs
聚焦LLM的外在幻觉:生成违背事实的内容,探讨成因与缓解方案。
推荐理由:AI创作常见陷阱,可教用户如何避免胡编乱造,提升内容可信度。
🎯 给屿鹿的选题角度:小红书图文:《AI总爱编造事实?3个方法让它说真话》,结合RAG、来源验证等技巧,用案例对比演示。
2024-04-12
Diffusion Models for Video Generation
扩散模型从图像合成迈向视频生成,梳理技术挑战与前沿进展。
推荐理由:最新视频生成技术综述,可横向对比主流工具,为创作者提供选型参考。
🎯 给屿鹿的选题角度:视频号实测:对比Runway、Pika等工具生成视频的质量,引用文中技术原理解释差异,最后推荐适合一人公司的视频AI工具。
2024-02-05
Thinking about High-Quality Human Data
高质量人类数据是模型训练关键,探讨数据获取与质量评估方法。
推荐理由:提示词即数据,可借助高质量数据思维优化提示词设计,提升AI输出。
🎯 给屿鹿的选题角度:短视频:你的提示词是‘垃圾数据’吗?借鉴高质量数据标准,分享撰写有效提示词的5个原则。