我日常开发较少编写代码,主要使用 Trae-CN。
使用中发现:Trae 思考短-快、逻辑清晰;而本地部署 Qwen3.5-397B 时,模型哔哔哔哔思考没完没了。
其次在Deepseek官方和APi也出现同样问题,官网思考过程简单明了,API思考过程絮絮叨叨,但模型是同一个,很困扰我,因为思考过程耗时的问题,有一段时间我们业务是使用Qwen3-MAX 指令模型来控制速度。
初期猜想:
猜想1:类似 Gemini、Qwen,思考过程按固定格式输出并标记标题
猜想2:对思考过程做了摘要(类似Gemini )
推翻:
在Trae上接了第三方 API 来使用,第三方api token速率懂的都懂,证明思考阶段为真实结束,并非截断或隐藏。
问题验证:
今日发现 Trae 已支持自定义第三方 API,然后我对本地 Qwen3.5-397B 做一层包装,拦截 Trae 发出的 LLM 请求。
实测结论:
Trae 未做额外处理,仅携带内置系统提示词。
复制提示词复现,使用Trae提示词+用户输入,思考长度仅数十字符;
仅使用用户输入,思考过程约 1.4w 字符(VS Code 统计)。
联想与疑问:
验证前我以为 Trae 关闭了思考模式、或用工具封装屏蔽思考过程。实测结果仅靠系统提示词,就能显著压缩思考长度,且 Trae 提示词并未显式限制思考过程。
有无大佬能解释背后原理?
个人的一点想法
提示词中限制好了边界,避免模型过度思考?
附件:两份请求,数据是mock的,但是可以复现这个问题。
短思考过程入参 (点击了解更多详细信息) 长思考过程入参 (点击了解更多详细信息) Trae提示词-翻译版 (点击了解更多详细信息)1 个帖子 - 1 位参与者