My Thoughts on Ollama (for a Serious Project) 🚀

Hi everyone!

I’m currently enrolled in a Full Stack AI Master’s program, and I just wrapped up one of our final projects. I wanted to share the experience because it was quite a ride — especially trying to get local LLMs to behave :sweat_smile:

The project is an automated incident management system. It uses natural language processing, a vector database (Qdrant), and LLaMA 2 and 3 models running locally through Ollama. I also used GPT-4o-mini in the production version, but my main goal was to see how far I could get running everything locally without relying too much on cloud-based APIs.

:light_bulb: Spoiler: you can go surprisingly far with solid prompt design and some error handling (those malformed JSONs, you know the pain). The system handles over 50% of cases automatically and flags the rest for manual review. Not bad for something running on my own machine, right? :grinning_face_with_smiling_eyes:

One big takeaway: the solution dictionary is everything. The better and more up-to-date it is, the more effective the system becomes. That’s why I’m already thinking about a next step — maybe adding an agent that can analyze past incidents and help keep the dictionary fresh and growing.

If you’re curious, here’s the link with full details. It explains the setup, architecture, and how to run the system using Docker. I think it could be a solid starting point for anyone who wants to experiment with LLMs on their own machine.

:backhand_index_pointing_right: Has anyone else tried working with Ollama? Or used LLaMA 3 with non-English languages? I noticed a real difference between LLaMA 2 and 3 in Spanish, but I’d love to hear your experiences!

Greetings from Madrid and thanks for reading!

¡Hola comunidad!

Estoy cursando un máster en Inteligencia Artificial Full Stack y acabo de terminar uno de los proyectos finales. Quería compartir la experiencia porque fue bastante interesante y aprendí mucho —especialmente peleándome con modelos LLM en local :sweat_smile:

Monté un sistema de gestión automática de incidencias, usando un stack que incluye procesamiento de lenguaje natural, base de datos vectorial (Qdrant) y modelos LLaMA 2 y 3 corriendo localmente con Ollama. También uso GPT-4o-mini para producción, pero me centré en el reto de trabajar local sin depender tanto de la nube. Quería ver qué tan lejos se puede llegar con modelos modestos y buenos prompts.

:light_bulb: Spoiler: se puede llegar bastante lejos si los prompts están bien diseñados y se blinda el sistema para los típicos errores (como JSONs mal formateados). De hecho, el sistema resuelve más del 50% de los casos automáticamente, y deja el resto listo para revisión humana. No está mal para algo que corre en mi máquina, ¿no? :grinning_face_with_smiling_eyes:

También me llevé un aprendizaje muy importante: el diccionario de soluciones es clave. Cuanto más afinado esté, mejor resuelve el sistema. Así que estoy pensando en seguir evolucionando el proyecto, quizá añadiendo un agente que aprenda del histórico de incidencias y ayude a mantener ese diccionario actualizado.

Si alguien quiere curiosear, aquí dejo el link del proyecto. Está explicado paso a paso, incluyendo cómo levantar todo con Docker y cómo se integran los distintos módulos. A cualquier principiante que quiera trastear con LLMs locales, le puede servir como referencia o punto de partida.

:backhand_index_pointing_right: ¿Alguien más ha trabajado con Ollama? ¿O ha intentado correr LLaMA 3 en castellano? Yo noté diferencias claras entre LLaMA 2 y 3 en español, ¡pero me interesa mucho saber vuestras experiencias!

¡Un saludo desde Madrid y gracias por leer!

2 Likes

This reminded me of a problem with Ollama in the production environment. Well, if there are a lot of tokens or languages other than English are used, it might be better to consider other engines…

vLLM is the only choice for production RAG! - Ollama followers hit the “8000 token wall”
本番RAGはvLLM一択!? 〜Ollama信者がぶち当たった"8000トークンの壁"〜|709s (in Japanese language)

1 Like

Congratulations!

1 Like