第1步:先定一个很小的业务场景
这次Dolly对比没有选大而全的聊天机器人,而是选了一个窄场景:公司制度问答。资料包括假期规则、报销说明、远程办公流程,合计约2万字。这样做的好处是边界清楚,模型答错也容易定位。
对比对象不追求豪华阵容,只放三类:Dolly 7B或12B作为开源学习代表,一个中文生态模型作为中文基线,一个商业API作为效果上限参考。目的不是判冠军,而是看Dolly放在实际任务里短板在哪。
Dolly对比最有价值的方式,不是拿排行榜截图互怼,而是放进真实小场景里跑一遍。下面复盘一个“公司制度问答助手”的测试过程:同样资料、同样问题,把Dolly和中文开源模型放在一起看,差距会非常直观。
这次Dolly对比没有选大而全的聊天机器人,而是选了一个窄场景:公司制度问答。资料包括假期规则、报销说明、远程办公流程,合计约2万字。这样做的好处是边界清楚,模型答错也容易定位。
对比对象不追求豪华阵容,只放三类:Dolly 7B或12B作为开源学习代表,一个中文生态模型作为中文基线,一个商业API作为效果上限参考。目的不是判冠军,而是看Dolly放在实际任务里短板在哪。
为了公平,三组模型都接同一套检索结果。每次问题只给前3段相关资料,并要求:只能根据资料回答,找不到就说资料不足,回答后列出依据编号。
这里有个内行小窍门:别只问资料里有答案的问题。一定要混入30%左右“资料没有答案”的问题,比如“宠物医疗能报销吗”。这类题最能测出模型会不会一本正经胡说。
问题分成四类:直接查规则、跨段整合、边界条件、无答案拒答。每类大约7到8题。打分不看文采,只看准确、引用、简洁、是否幻觉。
Dolly的表现比较典型:直接查规则能答一部分,英文式表达痕迹偶尔出现;跨段整合会漏条件;无答案拒答不够稳定,提示词稍微软一点就会补内容。中文模型在表达和中文制度理解上更顺,商业API整体最稳。
复盘时别把锅全甩给Dolly。有些错误来自检索切片,比如报销上限和审批流程被切到不同段落,模型拿不到完整依据,当然答不全。
但也有明显模型问题:Dolly对中文长句里的限制条件抓得不够稳,比如“连续请假超过三天需提前审批”这种规则,它可能只记住“需要审批”,漏掉“三天”。这类问题不是调温度就能完全解决。
这次Dolly对比后的结论很清楚:如果目标是内部技术学习,Dolly值得保留;如果目标是中文制度问答上线,它更适合做对照组,不适合单独当主力。
真正落地的方案是:用中文表现更稳的模型做主回答,Dolly用于教学、回归测试或低成本实验。这个结果不刺激,但很实用。选模型不是选偶像,谁能在你的场景里少犯错,谁才该上桌。
可以参考,但不能替代业务测试。排行榜题型和你的真实问题往往不一样,尤其中文内网问答更要自建评测集。
主要是中文约束理解和拒答稳定性。资料不足时,必须用强提示词和测试集反复压幻觉。
优势在可控、可研究、可本地化实验;劣势是效果、维护和安全策略都要自己补。生产上线要算总成本。