Dolly对比：一次内网问答复盘

2026-07-03

Dolly对比最有价值的方式，不是拿排行榜截图互怼，而是放进真实小场景里跑一遍。下面复盘一个“公司制度问答助手”的测试过程：同样资料、同样问题，把Dolly和中文开源模型放在一起看，差距会非常直观。

第1步：先定一个很小的业务场景

这次Dolly对比没有选大而全的聊天机器人，而是选了一个窄场景：公司制度问答。资料包括假期规则、报销说明、远程办公流程，合计约2万字。这样做的好处是边界清楚，模型答错也容易定位。

对比对象不追求豪华阵容，只放三类：Dolly 7B或12B作为开源学习代表，一个中文生态模型作为中文基线，一个商业API作为效果上限参考。目的不是判冠军，而是看Dolly放在实际任务里短板在哪。

为了公平，三组模型都接同一套检索结果。每次问题只给前3段相关资料，并要求：只能根据资料回答，找不到就说资料不足，回答后列出依据编号。

这里有个内行小窍门：别只问资料里有答案的问题。一定要混入30%左右“资料没有答案”的问题，比如“宠物医疗能报销吗”。这类题最能测出模型会不会一本正经胡说。

会员专享，海量内容

问题分成四类：直接查规则、跨段整合、边界条件、无答案拒答。每类大约7到8题。打分不看文采，只看准确、引用、简洁、是否幻觉。

Dolly的表现比较典型：直接查规则能答一部分，英文式表达痕迹偶尔出现；跨段整合会漏条件；无答案拒答不够稳定，提示词稍微软一点就会补内容。中文模型在表达和中文制度理解上更顺，商业API整体最稳。

复盘时别把锅全甩给Dolly。有些错误来自检索切片，比如报销上限和审批流程被切到不同段落，模型拿不到完整依据，当然答不全。

但也有明显模型问题：Dolly对中文长句里的限制条件抓得不够稳，比如“连续请假超过三天需提前审批”这种规则，它可能只记住“需要审批”，漏掉“三天”。这类问题不是调温度就能完全解决。

这次Dolly对比后的结论很清楚：如果目标是内部技术学习，Dolly值得保留；如果目标是中文制度问答上线，它更适合做对照组，不适合单独当主力。

真正落地的方案是：用中文表现更稳的模型做主回答，Dolly用于教学、回归测试或低成本实验。这个结果不刺激，但很实用。选模型不是选偶像，谁能在你的场景里少犯错，谁才该上桌。

Dolly对比时要不要看排行榜？

可以参考，但不能替代业务测试。排行榜题型和你的真实问题往往不一样，尤其中文内网问答更要自建评测集。

Dolly做RAG问答最大的短板是什么？

主要是中文约束理解和拒答稳定性。资料不足时，必须用强提示词和测试集反复压幻觉。

Dolly对比商业API有优势吗？

优势在可控、可研究、可本地化实验；劣势是效果、维护和安全策略都要自己补。生产上线要算总成本。