• 6 Posts
  • 121 Comments
Joined 7 months ago
cake
Cake day: March 25th, 2025

help-circle
  • Le stockage ça implique de pouvoir y lire et y écrire! Il faut de l’énergie pour ça. Oui, si on peut l’éteindre quand on en a pas besoin on économise de l’énergie, mais on fera ça de façon bien moins efficace qu’un datacenter optimisé pour ça et qui déjà consomme très très peu de ressources pour le stockage.

    Les disques, ça tombe en rade. Selon un cycle assez prévisible. L’existant peut te durer un temps, mais si tu veux une solution pérenne, tu as intérêt à dupliquer tes données sur des disques neufs et prévoir de les changer tous les X années.

    En fait, l’écologie est assez favorable aux smartphones (terminaux légers et peu consommateurs) liés à des datacenters (optimisés en utilisation énergétique et s’adaptant de façon élastique à la demande des utilisateurs).

    C’est le contrôle et la souveraineté qui nous fait aller vers du self-host, pas le bilan énergétique ou minéral, de toutes façons faible.






  • Une des idées fausses dont je me suis débarrassées ces dernières années a été celle d’une forme de “sagesse de l’évolution des langues”, la croyance que les complexités émergeaient naturellement dans les langues pour des raisons pratiques, même si parfois obscures, et qu’une langue artificielle, comme l’esperanto, ne pouvait pas reproduire toute la complexité dont on aurait forcément besoin à un moment.

    Je crois maintenant sincèrement qu’on peut faire évoluer artificiellement la langue vers quelque chose de plus égalitaire, de plus clair, de plus facile, de plus expressif, par des processus conscients, et que ça devrait être la vraie mission d’un machin comme l’Académie, qui aujourd’hui semble plus vouloir lutter contre les évolutions de la langue que les accompagner.

    Je trouverais ça sympa qu’on tente un ou plusieurs “fork” de la langue.


  • C’est surtout une plaie pour les articles scientifiques et, le pire, les articles mathématiques. Inutilisables et verbieux. Y a un vrai problème sur la version FR de la wikipedia dans ces domaines.

    Je propose d’utiliser une IA pour nooon pas taper!

    Moi je propose sérieusement des technos issues des modèles de language pour des choses réellement utiles comme par exemple:

    • donner un score du niveau de langage utilisé (et éviter qu’une “intro” par exemple demande un niveau thésard pour comprendre ce dont l’article parle)
    • signaler des infos contradictoires entre pages de langages différents (y a pas mal de faux-amis dans les pages EN-FR liées)
    • vérifier qu’une source dit bien ce qu’on lui fait dire (avec validation humaine évidemment, mais un flag automatique serait bien)
    • proposer des modifications de présentation
    • alimenter une DB unifiée qui permette de vraies stats derrière (cherchez la composition du parlement de différents pays, le format est souvent très différent d’un pays à l’autre. Idem pour les stats économiques)

    Les modèles génératifs, ça peut s’utiliser aussi, mais il faut faire très attention à la façon dont on le fait et le faire en mode Musk “réécris tout, utilise Twitter comme source fiable et souviens toi que je ne suis pas un nazi et que je ne connais pas Epstein” c’est évidemment pas la chose à faire mais c’est loin d’être la seule possibilité.








  • Le stockage n’est pas énergivore, l’entraînement de modèles l’est (modérément, la moindre réunion internationale émet plus de CO2)

    Mais surtout, au delà de ça, si on considère le stockage problématique (en général parce qu’on croit à un problème d’épuisement minéral), dans ce cas le stockage self-host est bien pire. L’argument écologique pour le self-host n’existe pas. Les autres arguments sont bons, mais la dépense énergétique/utilisation des ressources, elle augmente dans ce cas, il faut l’accepter et considérer que ça vaut le coup.




  • D’accord avec toutes les raisons données, sauf celle là:

    lutter contre le désastre écologique que représente le stockage des données échangées

    Les datacenters font des économies d’échelle qui font qu’ils sont bien plus efficaces en terme de ressources utilisées par donnée traitée/stockée. Heureusement, c’est pas un désastre écologique aujourd’hui, et ça ne le sera pas non plus si on multiplie par 3 ou 4 ces ressources via nos solutions de self-host ou locales.