Esta semana he estado jugando con LLMs en local. He probado modelos 7B, 13B y 34B usando solo CPU y consiguiendo 4 tokens/s usando 12 hilos de los 24 disponibles.
Por otra parte, el consumo de RAM no ha subido de 6-7 Gb incluso con modelos de 34B (phind-codellama y WizardCoder). Esto es raro.
Los resultados han sido un desastre pero no he hecho absolutamente nada para adaptarlos ni mejorarlos. Tengo que leer algo más sobre esto. Quizá en 2025, cuando saque otro par de horas libres :blobpeek: