Salut !
J'espère que mon post n'est pas hors sujet. Je vais me concentrer en partie sur les modèles légers que l'on peut essayer facilement en local (si c'est hors sujet, dites-moi et je supprimerai le post).
Pour les petits modèles, ne vous attendez pas à de bons résultats pour des problèmes généralistes en dessous de 32B, mais notez en revanche que des modèles ultra-spécialisés, en code par exemple, même petits, peuvent donner d'excellents résultats pour leur tâche spécifique. Voyez ça comme un tour d'horizon... Je me permets d'autant plus d'en parler, dans ce monde de DIYers, faire marcher un mini ChatGPT sur son robot en local... c'est cool non ? Moi, je trouve ça cool.
La liste est tout sauf exhaustive, et je ne parlerai QUE des modèles basés sur Transformer, qui ont le plus fait leurs preuves (on laisse xLSTM, Mamba ou autres Coconut au placard).
Le domaine est en ébullition, alors ce post sera sûrement en partie obsolète dans 3 mois.
Je prends aussi le parti de parler des MODÈLES car, perso, ce qui m'intéresse, c'est plus la tech et la science que l'intégration web. Je ne parlerai donc pas des plateformes, qui sont cependant très critiques pour rendre un modèle utilisable, comme le souligne Arthur Mensch (cofondateur de Mistral). Mais voilà, moi l'intégration ça ne m'amuse pas trop...
Open weight :
Bien sûr, les modèles open sont déclinés en autant de fin-tunings communautaires (ou pro d'ailleurs) qu'il existe d'idées ou d'envies.
Si vous voulez rigoler / avoir froid dans le dos / que le modèle arrête de vous dire "c'est mal, je ne réponds pas", allez découvrir les modèles "uncensored" de "Cognitive Computation" (https://huggingface.co/cognitivecomputations). Ceux qui marchent bien chez moi sont Dolphin-Mistral-8x7B, Dolphin-Llama-7B et Dolphin-Mistral-7B. Vous pouvez leur demander comment tuer vos voisins, ils répondent presque sans poser de questions....au dela du coté rigolo, il parait que le "bridage" des LLM a tendance a nuire a leurs performances globales (c'est ce que j'ai lu, difficile de se faire une vrai idée car les entrainements fait par des grosses boites ne font pas de tels entrainements, en tout cas pas publiquement a ma conaissance).
+++ Notez que pour la majorité, les gros modèles (Deepseek V3, R1, etc.) peuvent être testés sur une plateforme mise à disposition par l'entreprise qui en est à l'origine (sur un modèle freemium en général, comme ChatGPT).
100% propriétaire (je m'y intéresse moins, donc juste ce dont on entend parler) :
- Le chat de Mistral AI : permettant d'essayer les modèles propriétaires de Mistral (Mistral Large1 et Large2, avec beaucoup trop de paramètres pour les compter lol).
- ChatGPT (4o, 4o mini, o3, o3 mini, o1, o1 mini) : ....... voilà.
- Claude (3 Haiku, 3 Sonnet, 3 Opus, 3.5 Sonnet, 3.5 Opus, récemment 3.7 sonnet .... allez savoir pourquoi ils n'ont pas fait 4, ca devait faire too much) d'Anthropic : déjà dit.
- Grok : de notre "ami" Musk, jamais utilisé perso... mais ça marche bien il paraît.
- Perplexity : déjà dit.
- Command R+ de Cohere pour les tâches orientées prod et RAG apparament je connait peu.
Voilà, ce post est excessivement long... je me suis amusé à l'écrire.
Pour le "second temps", je peux si vous voulez faire l'inference chez moi pour des models jusque a 12B en fp32 ou environ 24B en fp16... donc si vous voulez que l'on fasse des essais comparatifs vous me direz!
PS : Notez pour vous y retrouver que Mistral et maintenant Deepseek utilisent des noms de modèles avec la date, comme Ubuntu... on sait si c'est nouveau on le sait du premier coup d'œil maintenant !
PS 2 : Pour les curieux des modèles open qui n'ont jamais fait mumuse, vous pouvez installer les images Docker d'Ollama et OpenWebUI (si vous ne connaissez pas, les projets sont ultra soutenus, 100% open, et complètement hyperactifs du push github), c'est super facile!