我为什么开始做自己的 AI 助手

前言

大概从四年前第一次接触到 ChatGPT 之后，我就一直在想一个问题： AI 距离真正像人类一样工作和陪伴，到底还有多远？

一开始，AI 已经能做不少事情了。聊天、写代码、回答问题，很多场景都已经能用了。当然，它也很容易出现“信心满满地胡说八道”的情况，尤其是在幻觉比较明显的时候，回复和代码都可能看起来很像真的，但其实并不可靠。

不过随着后来的发展，AI 的能力确实越来越强。

联网搜索、多轮思考、更加稳定的推理能力……这些功能陆续出现之后，AI 在“助手”这个方向上的表现，已经变得非常实用了。对我来说，它不再只是一个“会聊天的玩具”，而是逐渐变成了日常里真正会依赖的工具。

我为什么越来越依赖 AI

现在我几乎每天都会用 AI。

以前我还会担心，AI 的训练数据更新不及时，很多最新信息没法直接回答，只能自己去搜索。但后来各大模型都逐渐支持联网搜索之后，这个差距就没那么明显了。很多时候，我用浏览器能查到的内容，AI 也一样能帮我整理出来，甚至更快、更干净。

它最大的优势之一，是能帮我过滤掉广告和噪音信息，把大量搜索结果压缩成更容易理解的结论。在现在这种信息环境里，机器人、水军、营销内容到处都是，自己手动筛信息其实也未必更“客观”。很多时候，不是 AI 容易被污染，而是整个网络本身就已经很难完全相信了。

所以我现在甚至有点把 AI 当成了搜索引擎的替代品。

当然，这也让我有点担心。我怕自己用得太多之后，会慢慢失去独立判断的习惯，变成只会跟着 AI 的结论走。但反过来说，我自己接触到的信息也同样带着偏见。既然人类本来就不可能完全客观，那我和 AI 的差距，似乎也没有想象中那么大。

如果一定要说人比 AI 现在还明显占优的地方，我觉得其中一个就是：记忆。

记忆，是我觉得 AI 现在最重要的短板之一

AI 在多轮对话里，一旦上下文变长，输出质量就很容易下降，之前说过的内容也容易被忘掉。这件事我一直觉得是个比较大的问题。

后来也出现了不少解决办法，比如：

把短期内容做归纳总结，压缩上下文；
把长期信息存进数据库，需要时再取出来；
甚至根据当前任务决定调用哪些记忆。

这些思路各有优缺点。归纳会损失细节，数据库会增加调用复杂度和延迟，但从工程角度看，它们都很有价值。我个人比较倾向于“归纳 + 数据库”一起用，这样灵活性更大，整体也更适合做成一个真正可用的助手。

不过这些技术细节先不展开了，这篇主要还是记录我的搭建过程。

为什么我想做一个自己的 AI 伴侣

作为一个死宅和管人痴，我一直都很想要一个能陪伴日常生活的虚拟存在。

我第一次看到 Kizuna AI 的时候，是真的有一瞬间以为，未来可能真的会有那种“像人一样”的 AI。后来才知道，那时候更多还是皮套和演出效果，并不是真正意义上的智能体。

直到 ChatGPT 真的出现，我才重新觉得： 也许这件事真的能做出来。

只不过，当时的 AI 还没有现在这么强，也没有这么多现成工具，所以我没有马上去做。真正让我开始认真动手的，是后来看到 Nerosama 的视频之后，那种“我也想做一个属于自己的 AI 助手”的想法，突然变得特别强烈。再加上《超时空辉夜姬》这类作品带来的影响，我对“做一个自己的陪伴型 AI”这件事，开始有了非常具体的执念。

而且现在工具已经比过去丰富太多了，搭建难度也没那么夸张。比起 Vedal 那种路线，我现在要尝试的事情，其实已经轻松了很多。

于是，我开始动手搭建。

我的第一版架构

我最先设想的结构很简单：

STT / 文字输入 / 图片输入 / 视频输入 → 多模态大模型 → TTS 输出

然后再让 AI 自己判断哪些内容要保留成短期记忆，哪些内容需要进入数据库，作为长期记忆保存。

这个思路的目标很明确：我不想做一个只会“说一句回一句”的工具，而是想做一个能够持续陪伴、逐渐积累记忆的系统。

第一次搭建：ComfyUI + Ollama + Index TTS

我最开始选择的是 Qwen 系列模型作为主模型。主要原因是它可以比较方便地通过 Ollama 部署，而且也支持多模态输入，能直接处理图片和视频。

在搭建环境上，我最初选的是 ComfyUI。原因很简单：它不用写太多代码，输入输出接口也比较直观，适合先快速搭出一个可跑的 demo。

但真正开始做之后，问题也跟着来了。

由于模型迭代速度太快、部分旧版本兼容性差，再加上国内网络环境的限制，我在 ComfyUI 上的部署过程并不顺利。中间折腾了很多轮，包括更换不同的 LLM 加载器、尝试各种 TTS 合成方案，才终于把整条链路打通。

最后跑通的方案是：

ComfyUI + Ollama + Index TTS

这个组合的效果其实很不错。尤其是 Index TTS 的克隆效果，确实让我很惊喜。有些动漫角色或者虚拟主播声线克隆出来之后，效果好到会让我有种“熟悉的声音又回来了”的感觉，甚至有点感动。

但它也有一个很明显的问题：慢。

ComfyUI 的流程是节点式串联，一个节点跑完之后才会传给下一个节点。这就意味着，TTS 必须等 LLM 的输出完全结束之后才能开始合成语音。如果回答内容稍微长一点，等待时间就会变得很长，实时性几乎不存在。

而且 Index TTS 虽然效果好，但合成速度本身也不快，还不支持流式合成，这进一步拖慢了整个系统。

最终方案：自己写 Python 脚本整合流程

后来我还是决定，干脆自己写 Python 脚本，把输入、模型调用和输出全都整合起来。

同时，我把 TTS 方案换成了 ZipVoice。它支持流式输入，处理速度也比较合适，在保证可接受的克隆效果的前提下，实时性明显更好。

再加上屏幕捕获和 STT 输入之后，我终于做出了第一个完整版本的 AI 伴侣。

这个版本让我比较满意的地方是：从输入到开始输出语音，基本上能控制在 5 秒左右。对日常陪伴来说，这个响应速度已经够用了，甚至也能拿去做一些直播间的虚拟主播效果。

现在做到哪一步了

目前这个系统已经能跑起来了，但离我理想中的状态还有不少差距。

我现在最明显的两个升级方向是：

一方面是算力。我目前只能在显卡上部署 Qwen3.5-9B 这种相对较小的模型，能力上还是会受限。如果后面能换到更大的模型，整体表现应该会更好。

另一方面是记忆。目前我只有短期记忆，长期记忆和数据库还没有真正完成。这部分应该是接下来最值得继续做的内容。

我也注意到了另一条路线：端到端大模型

后来我又看到了另一条很有意思的路线，像 Qwen3-Omni 这种端到端多模态模型，能直接输入语音和视频流，再直接输出音频。

从演示效果来看，这条路线确实很强，体验也很未来。但目前我的电脑还跑不动它，所以这部分只能先放进以后再试的清单里了。

结语

对我来说，这个项目不只是一个技术实验。它更像是我一直以来对“AI 作为陪伴者”这个想法的一次真正实践。

从最初看到 ChatGPT，到后来不断思考 AI 和人的差距，再到现在真的把一个可运行的 AI 助手搭出来，这条路其实挺长的。它不一定完美，也不一定足够先进，但它确实是我自己一点一点搭出来的。

前言