@pybonacci la capa de contexto puede evaluar todos los tokens a la vez, teniendo en cuenta su posición. Y eso importa.
Con capas de markov, que no aprenden, usando un par de n-gramas o tres podía salir algún texto resultón. Pero generaba mucha basura porque era miope más allá de sus n-gramas y era incapaz de formar gramáticas válidas. Creo que la capa de contexto y un buen dataset de entrenamiento (con ejemplos 100% válidos) produce sintaxis válida, pero sin sentido semántico (solo inducción).