Vue lecture

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

Wikipedia vs archive.today - 700 000 liens en sursis

Un peu moins de 700 000 liens, c'est le nombre de références vers archive.today que Wikipedia envisage de supprimer d'un coup ! Et la raison est assez dingue... en fait le service d'archivage a planqué du code DDoS dans son CAPTCHA afin d'attaquer le blog d'un mec qui a eu le malheur de chercher l'identité du fondateur du site.

L'histoire est tordue vous allez voir...

En 2023, un blogueur du nom de Jani Patokallio publie un article sur son blog Gyrovague pour tenter d'identifier le créateur d'archive.today, un certain "Denis Petrov" (probablement un pseudo). Pas de quoi fouetter un chat, sauf que le principal intéressé n'a visiblement pas kiffé.

Du coup, un bout de JavaScript s'est retrouvé comme de par hasard dans la page CAPTCHA du service, exécutant une requête vers le blog de Patokallio toutes les 300 millisecondes. Chaque visiteur qui passait par le CAPTCHA devenait alors un soldat involontaire d'une attaque DDoS.

Et le bonhomme ne s'est pas arrêté là... il a ensuite menacé de créer un site porno avec le nom du blogueur. On est vraiment dans la réponse proportionnée, clairement.

Le souci, c'est que Wikipedia utilise archive.today de manière MASSIVE. Cela représente 695 000 liens répartis sur environ 400 000 pages. C'est le deuxième fournisseur d'archives de toute l'encyclopédie !

Du coup, les éditeurs se retrouvent face à un sacré dilemme. D'un côté, on a ceux qui veulent tout blacklister parce que "la sécurité de vos lecteurs, ça passe avant les citations". Et de l'autre, ceux qui rappellent que le service contient des archives qu'on ne trouve NULLE PART ailleurs, même pas sur la Wayback Machine .

Bon courage pour trouver un remplaçant les mecs !

Et petit détail qui n'en est pas un, au passage... En fait, archive.today sert aussi à contourner des paywalls. C'est pratique pour vérifier des sources, ou lire de supers articles sans payer mais techniquement c'est illégal.

Mais quand la source originale a disparu, on fait comment ? Et c'est là tout l'intérêt de ces services d'archivage.

Bon, les paywalls, on comprend tous pourquoi ça existe. Produire de l'info de qualité, ça coûte un bras. Sauf que c'est quand même un truc un peu naze. Vous bossez, vous produisez un contenu top, et au final y'a que 10 personnes qui payent pour le lire. Et ce sont les mêmes 10 personnes qui sont pigistes et qui vont reprendre votre info pour la diffuser gratuitement sur leur média ! On le voit avec Mediapart... des enquêtes énormes derrière un paywall, et toute la presse qui reprend leurs scoops sans payer. Je trouve ça vraiment dommage.

Moi, ce que j'aime dans le fait d'écrire sur le web, c'est que vous me lisiez. Et mettre du contenu derrière un paywall, ça voudrait dire que plein d'entre vous ne me liraient plus. C'est pour cela que même le contenu que je réserve en avant-première sur Patreon , au bout de quelques semaines, je le libère pour tout le monde.

Quand je vois The Verge par exemple qui en met dans tous les sens... ben j'y vais plus. J'ai pas envie de payer un abonnement de plus pour une valeur ajoutée pas folle. C'est un peu comme les bandeaux cookies, à savoir un effet de bord regrettable du web moderne. On doit faire avec parce que personne n'a trouvé mieux comme idée...

Bref, entre les DDoS vengeurs, les 700 000 liens en sursis et les paywalls qui pourrissent tout ... le web ouvert, c'est pas gagné les amis. Voilà voilà.

Source

NVIDIA négociait avec Anna's Archive pour entraîner ses IA... et les emails ont fuité

Bon, celle-là elle est gratinée. NVIDIA, le géant des GPU, a directement contacté Anna's Archive pour accéder à environ 500 To de livres piratés. Contacté, négocié, payé. Comme ça, tranquillou.

C'est une class action (dossier n°1:26-cv-00002 au tribunal fédéral de New York, pour ceux qui veulent aller checker) qui a fait fuiter ces fameux emails internes. En gros, un membre de l'équipe "data strategy" de NVIDIA a négocié un accès haute vitesse aux collections piratées de la bibliothèque. Et le plus beau dans l'histoire c'est qu'Anna's Archive les a PRÉVENUS que les données étaient illégales. Genre, texto : "Vous avez une autorisation interne pour ça ?"

La réponse est arrivée en moins d'une semaine. Feu vert. Sauf que bon, quand on lit ça avec du recul, c'est quand même sacrément culotté.

Le contexte, c'était surtout la pression de livrer pour la GTC 2023 (la Developer Conference de NVIDIA). Fallait nourrir les modèles d'IA coûte que coûte, et le dataset Books3 (196 000 bouquins issus de Bibliotik), plus LibGen, Sci-Hub, Z-Library... ça faisait un buffet de 500 To et de leur côté Anna's Archive facturait des dizaines de milliers de dollars pour l'accès rapide.

Sérieux, j'aurais aimé voir la tête du service juridique de NVIDIA en lisant cet email...

En parallèle, Anna's Archive se prend un procès complètement délirant puisque Spotify, Universal Music, Warner et Sony réclament 13 000 milliards de dollars (13 TRILLIONS, soit à peu près le PIB de la Chine). C'est en lien avec leur backup de 300 To de Spotify dont je vous avais parlé ici. Le juge Rakoff a émis une injonction mondiale le 20 janvier, ce qui a fait tomber plusieurs domaines du site .

NVIDIA plaide le "fair use" évidemment. Mouais. On verra bien ce qu'en pensera le juge, mais quand les emails prouvent qu'on t'a prévenu que c'était illégal et que t'as quand même dit "go"... c'est pas ouf comme défense.

En attendant, entre le procès Spotify et ces emails, Anna's Archive est devenue l'ennemi public numéro un de toute l'industrie du contenu sur le web.

Affaire à suivre !

Source

File-Hunter - L'archive MSX qui aurait rendu fou votre moi de 1985

Vous vous souvenez du MSX, cette machine 8 bits des années 80 qui a fait rêver toute une génération avant que le PC ne vienne tout écraser ? Hé bien y'a un site qui a décidé de préserver absolument TOUT ce qui existe pour cette plateforme, et quand je dis tout, c'est vraiment tout.

File-Hunter , c'est le projet d'un gars passionné, Arnaud de Klerk , qui depuis 1999 (oui, ça a 25 ans ce truc) archive méticuleusement chaque fichier, chaque jeu, chaque démo, chaque magazine lié à l'écosystème MSX. Le site existe même depuis l'époque où FONY créait encore du contenu pour les systèmes 8-bit . Donc autant dire que c'est une vraie institution de la préservation rétro.

Le site propose au téléchargement pas moins de 24 catégories de contenu. Des jeux évidemment (MSX1, MSX2, MSX2+, Turbo-R), mais aussi des démos, des disk-magazines, des émulateurs, des polices, des systèmes d'exploitation, des ROMs système, du contenu technique, des manuels, des livres, des magazines numérisés, de la musique, des programmes, du code source... Bref, si ça concerne le MSX et que ça existe quelque part sur Terre, y'a de fortes chances que ce soit archivé ici.

Côté formats, c'est la fête du slip vintage ^^ puisqu'on y trouve des fichiers DMK pour les disquettes, des TSX et CAS pour les cassettes, des conversions ROM, des fichiers VHD pour les disques virtuels, et même des trucs en LaserDisc. Y'a aussi des versions modifiées de jeux, des traductions anglaises, des cheats, des maps, des sauvegardes... C'est vraiment le genre de collection qui fait baver n'importe quel collectionneur.

Et le truc cool c'est que vous pouvez jouer directement dans votre navigateur sans rien installer . En effet, le site propose une plateforme de jeux MSX et même Amiga jouables online, optimisée pour téléphones et tablettes. Et pour ceux qui préfèrent tout récupérer d'un coup, pas la peine de tout scraper (vous finiriez pas vous faire bannir votre IP), car y'a un torrent complet disponible et même une appli Android. Le fichier allfiles.txt pèse plus de 3 Mo, ce qui vous donne une idée de l'ampleur du bazar.

Bref, si vous avez un petit coup de nostalgie MSX ou si vous voulez découvrir ce que c'était que le gaming avant que tout devienne du photorealistic next-gen, File-Hunter est votre destination du jour. Et comme d'hab, un grand merci à Lorenper pour le partage !

❌