Je ressens beaucoup d’amertume face à l’Institutional Data Initiative d’Harvard qui a fait l’objet, notamment, de ces 2 papiers
https://www.wired.com/story/harvard-ai-training-dataset-openai-microsoft/
Il faut que cela soit les sirènes de l’IA qui poussent les institutions à changer de modèle et mettre à disposition du contenu du domaine public. Si c’est une bonne chose pour les LLM, c’est d’un immense mépris pour le savoir et la connaissance libre. L’article de WIRED mentionne les institutions culturelles qui avaient, depuis longtemps, choisi d’autres modèles (car oui l’open content c’est pas nouveau).