Modelo MiniCPM para visión multimodal con 8B parámetros
MiniCPM O-2.6 es un modelo multimodal con 8B parámetros que rivaliza con GPT-4o en visión, con capacidad de conversación de voz bilingüe en tiempo real, transmisión en vivo y OCR. Enlaces a la noticia y al GitHub.
Mensaje original
Tengo que probar este modelo MiniCPM para ver si es verdad lo que dicen (que iguala en vision a GPT4o) con tan solo 8B, multimodal: liderando en vision, conversaciones de voz bilingües en tiempo real, transmisión en vivo multimodal, Fuerte capacidad de OCR, etc 😱🤔
Noticia:
https://www.marktechpost.com/2025/01/14/openbmb-just-released-minicpm-o-2-6-a-new-8b-parameters-any-to-any-multimodal-model-that-can-understand-vision-speech-and-language-and-runs-on-edge-devices/
GitHub: https://github.com/OpenBMB/MiniCPM-o
Hugging Face: https://huggingface.co/openbmb/MiniCPM-o-2_6
😱
