现在的视觉模型里面有没有能在10秒内以高正确率识别这种菜单的

现在的视觉模型里面有没有能在10秒内以高正确率识别这种菜单的
现在的视觉模型里面有没有能在10秒内以高正确率识别这种菜单的

image

识别里面的"菜品名"与"点菜数量"只有出现黑色打勾的行才算点菜,如果价格“XX元”后面出现了手写数字,则该手写数字为“点菜数量”,否则“点菜数量”默认为1“菜品名”永远原样输出“·······”之前的文本,不要自行篡改菜品名,比如,严禁将“炒二冬”自行改名“炒冬笋”
只输出 YAML,严格使用以下格式:

菜品名A: 点菜数量
菜品名B: 点菜数量

举例:

溪水石斑鱼: 1
手抓羊排: 1

除 YAML本体 外不要输出任何解释、前后缀、标题或 Markdown code fence

试了下 GLM-5V-Turbo、qwen3.6plus、qwen3 VL plus、minimax2.7、kimi k2.5 、gemini3.1pro没一个能识别对的,难道是我姿势不对?

20 个帖子 - 10 位参与者

阅读完整话题

来源: linux.do查看原文