现在的视觉模型里面有没有能在10秒内以高正确率识别这种菜单的

发布时间：2026-04-18T19:29:42.257091 阅读：25980 分类：tech

识别里面的"菜品名"与"点菜数量"只有出现黑色打勾的行才算点菜，如果价格“XX元”后面出现了手写数字，则该手写数字为“点菜数量”，否则“点菜数量”默认为1“菜品名”永远原样输出“·······”之前的文本，不要自行篡改菜品名，比如，严禁将“炒二冬”自行改名“炒冬笋”
只输出 YAML，严格使用以下格式：

菜品名A: 点菜数量
菜品名B: 点菜数量

举例：

溪水石斑鱼: 1
手抓羊排: 1

除 YAML本体 外不要输出任何解释、前后缀、标题或 Markdown code fence

试了下 GLM-5V-Turbo、qwen3.6plus、qwen3 VL plus、minimax2.7、kimi k2.5 、gemini3.1pro没一个能识别对的，难道是我姿势不对？

20 个帖子 - 10 位参与者

阅读完整话题

来源: linux.do查看原文

延伸阅读