前言
大概从四年前第一次接触到 ChatGPT 之后,我就一直在想一个问题: AI 距离真正像人类一样工作和陪伴,到底还有多远?
一开始,AI 已经能做不少事情了。聊天、写代码、回答问题,很多场景都已经能用了。 当然,它也很容易出现“信心满满地胡说八道”的情况,尤其是在幻觉比较明显的时候,回复和代码都可能看起来很像真的,但其实并不可靠。
不过随着后来的发展,AI 的能力确实越来越强。
联网搜索、多轮思考、更加稳定的推理能力……这些功能陆续出现之后,AI 在“助手”这个方向上的表现,已经变得非常实用了。对我来说,它不再只是一个“会聊天的玩具”,而是逐渐变成了日常里真正会依赖的工具。
我为什么越来越依赖 AI
现在我几乎每天都会用 AI。
以前我还会担心,AI 的训练数据更新不及时,很多最新信息没法直接回答,只能自己去搜索。 但后来各大模型都逐渐支持联网搜索之后,这个差距就没那么明显了。很多时候,我用浏览器能查到的内容,AI 也一样能帮我整理出来,甚至更快、更干净。
它最大的优势之一,是能帮我过滤掉广告和噪音信息,把大量搜索结果压缩成更容易理解的结论。 在现在这种信息环境里,机器人、水军、营销内容到处都是,自己手动筛信息其实也未必更“客观”。很多时候,不是 AI 容易被污染,而是整个网络本身就已经很难完全相信了。
所以我现在甚至有点把 AI 当成了搜索引擎的替代品。
当然,这也让我有点担心。 我怕自己用得太多之后,会慢慢失去独立判断的习惯,变成只会跟着 AI 的结论走。 但反过来说,我自己接触到的信息也同样带着偏见。既然人类本来就不可能完全客观,那我和 AI 的差距,似乎也没有想象中那么大。
如果一定要说人比 AI 现在还明显占优的地方,我觉得其中一个就是:记忆。
记忆,是我觉得 AI 现在最重要的短板之一
AI 在多轮对话里,一旦上下文变长,输出质量就很容易下降,之前说过的内容也容易被忘掉。 这件事我一直觉得是个比较大的问题。
后来也出现了不少解决办法,比如:
- 把短期内容做归纳总结,压缩上下文;
- 把长期信息存进数据库,需要时再取出来;
- 甚至根据当前任务决定调用哪些记忆。
这些思路各有优缺点。归纳会损失细节,数据库会增加调用复杂度和延迟,但从工程角度看,它们都很有价值。 我个人比较倾向于“归纳 + 数据库”一起用,这样灵活性更大,整体也更适合做成一个真正可用的助手。
不过这些技术细节先不展开了,这篇主要还是记录我的搭建过程。
为什么我想做一个自己的 AI 伴侣
作为一个死宅和管人痴,我一直都很想要一个能陪伴日常生活的虚拟存在。
我第一次看到 Kizuna AI 的时候,是真的有一瞬间以为,未来可能真的会有那种“像人一样”的 AI。 后来才知道,那时候更多还是皮套和演出效果,并不是真正意义上的智能体。
直到 ChatGPT 真的出现,我才重新觉得: 也许这件事真的能做出来。
只不过,当时的 AI 还没有现在这么强,也没有这么多现成工具,所以我没有马上去做。 真正让我开始认真动手的,是后来看到 Nerosama 的视频之后,那种“我也想做一个属于自己的 AI 助手”的想法,突然变得特别强烈。 再加上《超时空辉夜姬》这类作品带来的影响,我对“做一个自己的陪伴型 AI”这件事,开始有了非常具体的执念。
而且现在工具已经比过去丰富太多了,搭建难度也没那么夸张。 比起 Vedal 那种路线,我现在要尝试的事情,其实已经轻松了很多。
于是,我开始动手搭建。
我的第一版架构
我最先设想的结构很简单:
STT / 文字输入 / 图片输入 / 视频输入 → 多模态大模型 → TTS 输出
然后再让 AI 自己判断哪些内容要保留成短期记忆,哪些内容需要进入数据库,作为长期记忆保存。
这个思路的目标很明确: 我不想做一个只会“说一句回一句”的工具,而是想做一个能够持续陪伴、逐渐积累记忆的系统。
第一次搭建:ComfyUI + Ollama + Index TTS
我最开始选择的是 Qwen 系列模型作为主模型。 主要原因是它可以比较方便地通过 Ollama 部署,而且也支持多模态输入,能直接处理图片和视频。
在搭建环境上,我最初选的是 ComfyUI。 原因很简单:它不用写太多代码,输入输出接口也比较直观,适合先快速搭出一个可跑的 demo。
但真正开始做之后,问题也跟着来了。
由于模型迭代速度太快、部分旧版本兼容性差,再加上国内网络环境的限制,我在 ComfyUI 上的部署过程并不顺利。 中间折腾了很多轮,包括更换不同的 LLM 加载器、尝试各种 TTS 合成方案,才终于把整条链路打通。
最后跑通的方案是:
ComfyUI + Ollama + Index TTS
这个组合的效果其实很不错。尤其是 Index TTS 的克隆效果,确实让我很惊喜。 有些动漫角色或者虚拟主播声线克隆出来之后,效果好到会让我有种“熟悉的声音又回来了”的感觉,甚至有点感动。
但它也有一个很明显的问题:慢。
ComfyUI 的流程是节点式串联,一个节点跑完之后才会传给下一个节点。 这就意味着,TTS 必须等 LLM 的输出完全结束之后才能开始合成语音。 如果回答内容稍微长一点,等待时间就会变得很长,实时性几乎不存在。
而且 Index TTS 虽然效果好,但合成速度本身也不快,还不支持流式合成,这进一步拖慢了整个系统。
最终方案:自己写 Python 脚本整合流程
后来我还是决定,干脆自己写 Python 脚本,把输入、模型调用和输出全都整合起来。
同时,我把 TTS 方案换成了 ZipVoice。 它支持流式输入,处理速度也比较合适,在保证可接受的克隆效果的前提下,实时性明显更好。
再加上屏幕捕获和 STT 输入之后,我终于做出了第一个完整版本的 AI 伴侣。
这个版本让我比较满意的地方是: 从输入到开始输出语音,基本上能控制在 5 秒左右。 对日常陪伴来说,这个响应速度已经够用了,甚至也能拿去做一些直播间的虚拟主播效果。
现在做到哪一步了
目前这个系统已经能跑起来了,但离我理想中的状态还有不少差距。
我现在最明显的两个升级方向是:
一方面是算力。 我目前只能在显卡上部署 Qwen3.5-9B 这种相对较小的模型,能力上还是会受限。 如果后面能换到更大的模型,整体表现应该会更好。
另一方面是记忆。 目前我只有短期记忆,长期记忆和数据库还没有真正完成。 这部分应该是接下来最值得继续做的内容。
我也注意到了另一条路线:端到端大模型
后来我又看到了另一条很有意思的路线,像 Qwen3-Omni 这种端到端多模态模型,能直接输入语音和视频流,再直接输出音频。
从演示效果来看,这条路线确实很强,体验也很未来。 但目前我的电脑还跑不动它,所以这部分只能先放进以后再试的清单里了。
结语
对我来说,这个项目不只是一个技术实验。 它更像是我一直以来对“AI 作为陪伴者”这个想法的一次真正实践。
从最初看到 ChatGPT,到后来不断思考 AI 和人的差距,再到现在真的把一个可运行的 AI 助手搭出来,这条路其实挺长的。 它不一定完美,也不一定足够先进,但它确实是我自己一点一点搭出来的。