最近有个朋友跟我讨论技术问题，他在用个第三方的OCR的服务，用来提取发票上的文字为结构化数据。但收费较高，想自己实现一套，试了开源的PaddleOCR，识别可以，但是无法转成结构化的数据。我建议他试试多模态的LLM，比如Gemini 1.5 Flash，用来做 OCR 效果非常好，可以在 Prompt 里面定制要输出的格式，并且成本极低。参考提示词： *** Extract text fr

@dotey@x.good.news

最近有个朋友跟我讨论技术问题，他在用个第三方的OCR的服务，用来提取发票上的文字为结构化数据。但收费较高，想自己实现一套，试了开源的PaddleOCR，识别可以，但是无法转成结构化的数据。我建议他试试多模态的LLM，比如Gemini 1.5 Flash，用来做 OCR 效果非常好，可以在 Prompt 里面定制要输出的格式，并且成本极低。参考提示词： *** Extract text from the provided image and organize it into a structured JSON format. *** 如果要自定义JSON格式，给一个样例应该就可以了。

查看详情

@dotey@x.good.news

0/481