博客

All Articles

12 articles

A/B 测试陷阱：为什么标准实验设计在 AI 功能中会失效
标准的 A/B 测试在 LLM 驱动的功能中往往会失效 —— 非确定性的输出、异方差性以及无法体现语义质量的参与度指标，这些因素共同导致了虚假的信心。本文将探讨你应该采取的替代方案。
insiderllm
5月4日10 min
当准确率成为负债：用户如何围绕 AI 的失败模式构建工作流
提升 AI 模型的准确率可能会让你最忠实的用户遭受重创——因为他们已经在旧的失败模式上构建了承重的变通方案。以下是 AI 团队在发布模型更新前需要具备的向后兼容思维。
ai-engineeringllmops
5月4日11 min
智能体爆炸半径：在生产事故发生前界定最坏情况的影响范围
一个在生产环境中误触发的 AI 智能体，不只是失败——它会在权限范围内真实行动。本文介绍大多数团队跳过的上线前演练：对每个工具的最坏情况建模、按可逆性分类操作，并在第一次事故教会你边界在哪里之前，强制执行权限上限。
insiderllm-agents
5月4日11 min
智能体记忆污染：一次错误工具响应如何毒害整个会话
一次事实错误或恶意构造的工具响应，可以污染 LLM 智能体整个会话的推理。本文分析失败的解剖结构，并给出真正有效的防御措施。
ai-engineeringagents
5月4日11 min
智能体系统就是分布式系统：在遭遇惨痛教训前应用微服务经验
当今困扰多智能体 AI 系统的失败模式，其实是伪装成新问题的 2015 年分布式系统老问题。那些在构建智能体之前就内化了微服务经验的团队，正在交付更可靠的系统。
ai-engineeringagents
5月4日16 min
为什么 AI 工程培训项目永远落后于模型
AI 工程培训项目在结构上注定落后于当前工具 12–18 个月。能跨越模型世代存续的第一性原理课程体系——以及当工具过期速度快于掌握速度时，资历究竟意味着什么。
insiderai-engineering
5月4日10 min
AI 功能回报期：让财务团队不再质疑的 ROI 模型
传统 ROI 电子表格无法适用于 AI 功能。本文提供一套工程和财务团队都能接受的成本拆解与回报模型。
insiderai
5月4日11 min
AI 辅助开发中无人谈及的合规认证缺口
SOC 2、HIPAA 和 PCI-DSS 都假定审批你代码的人理解代码内容。AI 生成的代码打破了这一假设——审计人员已经开始注意到这个问题。
insidercompliance
5月4日10 min
AI 模型 API 是你看不见、固定不了、也追踪不到的软件依赖
基础模型 API 在没有语义化版本控制的情况下改变行为，从不出现在你的锁文件中，也不被 SBOM 工具追踪——以下是防止由此导致生产故障的规范实践。
ai-engineeringllmops
5月4日10 min
AI 原生 API 设计：构建智能体真正能调用的后端
REST API 是为人工编写的客户端设计的。AI 智能体会以完全可预见的方式破坏它们——幻觉出端点名称、在没有幂等性的情况下重试、忽略稀疏的错误信息。本文介绍如何构建智能体能够可靠调用的后端。
ai-engineeringapi-design
5月4日11 min
AI 原生日志：捕获决策过程，而不仅仅是 I/O
传统日志告诉你 LLM 系统做了什么，AI 原生日志告诉你为什么——捕获决策逻辑、被拒绝的备选方案以及能够解释生产故障的置信度信号。
llmobservability
5月4日11 min
AI 入职差距：为什么工程师无法学习他们无法测试的东西
新工程师无法对 LLM 回归进行二分查找，无法读懂嵌入提示词中的隐性约束，也无法通过测试建立信心。这里是让 AI 系统对没有参与构建的人员也能清晰可读的脚手架。
insiderai-engineering
5月4日12 min

较旧的博文

All Articles

A/B 测试陷阱：为什么标准实验设计在 AI 功能中会失效

当准确率成为负债：用户如何围绕 AI 的失败模式构建工作流

智能体爆炸半径：在生产事故发生前界定最坏情况的影响范围

智能体记忆污染：一次错误工具响应如何毒害整个会话

智能体系统就是分布式系统：在遭遇惨痛教训前应用微服务经验

为什么 AI 工程培训项目永远落后于模型

AI 功能回报期：让财务团队不再质疑的 ROI 模型

AI 辅助开发中无人谈及的合规认证缺口

AI 模型 API 是你看不见、固定不了、也追踪不到的软件依赖

AI 原生 API 设计：构建智能体真正能调用的后端

AI 原生日志：捕获决策过程，而不仅仅是 I/O

AI 入职差距：为什么工程师无法学习他们无法测试的东西

关于 Tian Pan