Interesting (short) paper of game-based training and evaluation of agentic behaviour in LLMs: Leon Guertler, Bobby Cheng, Simon Yu, Bo Liu, Leshem Choshen, Cheston Tan.: "Textarena"
Interesting (short) paper of game-based training and evaluation of agentic behaviour in LLMs: Leon Guertler, Bobby Cheng, Simon Yu, Bo Liu, Leshem Choshen, Cheston Tan.: "Textarena"
Une belle ressource qui permet de donner des repères sur les nouvelles modalités d'#évaluation des écrits des élèves. #algorithmes @canotech #education vidéo 4 minutes https://www.canotech.fr/a/37903/comment-evaluer-une-production-decrits-assistee-par-une-ia
Système d’évaluation individuelle des agents de la fonction #publique en Tunisie
> Une plateforme #digitale dédiée au processus d’ #évaluation est par ailleurs en cours de développement, illustrant la volonté d’intégrer pleinement les outils #numériques dans la #gestion des ressources humaines.
Mirjam Stieger (Lucerne Uni) and I are invited to present
"Contemporary #Evaluation of Interventions: Mobile, Digital, and Pragmatic"
at @unibern
https://www.bbs.unibe.ch/training/summer_course/index_eng.html
This is the annual Summer Course of the Doctoral Program Brain and Behavioral Sciences, and comprises a mixture of keynotes, masterclasses, hidden curriculum etc.
I am very much looking forward to it, and also very honoured to be invited once again to Bern to train #ECRs!
On correct but wrong responses
For a research project I am currently evaluating all kinds of generative AI models (mostly for visual artifacts but some text based ones as well). There also is somewhat of a push at my employer to use those systems more because of "efficiency". So we all know that LLMs fabricate facts, meaning: They produce text that is factually untrue. Happens a lot, those so-called hallucinations are a structural property of those kinds of systems. But I kept wondering about something else that I keep […]via @TheMetaNews Avis de tempête sur les labos ?
Les plus de 2000 répondants au baromètre CPESR/TheMetaNews dépeignent un tableau plus que contrasté de leur métier et des institutions, entre passion et "quiet quitting".
https://themeta.news/avis-de-tempete-sur-les-labos/
« On nous empêche de fonctionner et ensuite on nous reproche de dysfonctionner »
#ESR #financements #evaluation
Published at #IRRJ: "Don't Use LLMs to Make Relevance Judgments" by Ian Soboroff. #evaluation #relevance #llm https://doi.org/10.54195/irrj.19625
Utiliser les IA génératives pour concevoir des séquences pédagogiques
https://tube.reseau-canope.fr/videos/watch/fc57c133-100a-4915-98d3-3ad591b47609
Ein kleiner Eindruck von der idw-Jubiläumsveranstaltung am 13. und 14. März in der @BBAW in Berlin.
Auf dem Festakt gab es mehrere Grußworte, ein #KI-Vortrag von Prof. Katharina Zweig und die Verleihung des idw-Preis für #wisskomm: https://idw-online.de/de/news848988
Nach der #idwMV25 haben wir eine spannende Arbeitstagung zu den Themen #socialmedia #evaluation und Pressemitteilung als Multimediapaket durchgeführt.
Es hat uns große Freude gemacht mit euch zu feiern!
Fotos von Judith Affolter
Development of a tool to assess the compliance of cafeteria menus with the Mediterranean Diet | BMC Nutrition https://www.diningandcooking.com/1960084/development-of-a-tool-to-assess-the-compliance-of-cafeteria-menus-with-the-mediterranean-diet-bmc-nutrition/ #ClinicalNutrition #Evaluation #HealthPromotionAndDiseasePrevention #index #Mediterranean #MediterraneanDiet #MediterraneanFood #menus #PublicHealth
Rebooting AI from the Ground Up | SXSW LIVE www.youtube.com/live/91I7AGb... (excellent talk by Dr. Rumman Chowdhury) #AI #ResponsibleAI #bias #jobs #evaluation #geopolitics
Rebooting AI from the Ground U...
J'ai fait une intervention au siège du CNRS mercredi sur les biais et plus généralement les pbs d'évaluation des LLMs.
Pour celles et ceux que ça intéresse, les diapos sont ici :
https://members.loria.fr/KFort/files/fichiers_cours/KarenFort_LLMEvaluation.pdf
#LLM #evaluation #IA #nlp #tal
We readily inquire, “Does he know Greek or Latin?” “Can he write poetry and prose?” But what matters most is what we put last: “Has he become better and wiser?” We ought to find out not who understands most but who understands best. We work merely to fill the memory, leaving the understanding and the sense of right and wrong empty.
[Nous enquerons volontiers, Sçait-il du Grec ou du Latin ? escrit-il en vers ou en prose ? mais, s’il est devenu meilleur ou plus advisé, c’estoit le principal, & c’est ce qui demeure derriere. Il falloit s’enquerir qui est mieux sçavant, non qui est plus sçavant. Nous ne travaillons qu’à remplir la memoire, & laissons l’entendement & la conscience vuide.]
Michel de Montaigne (1533-1592) French essayist
Essay (yyyy), “Of Pedantry[Du pedantisme] (1572-1578), Essays, Book 1, ch. 24 (1.24) (1595) [tr. Screech (1987), ch. 25]
Sourcing, notes, alternate translations: wist.info/montaigne-michel-de/…
"Trier, évaluer, la fabrique du mineur non accompagné" https://www.radiofrance.fr/franceculture/podcasts/lsd-la-serie-documentaire/trier-evaluer-la-fabrique-du-mineur-non-accompagne-3661421
Bin dann auch bald auf dem Weg zur #DHd2025, die Vorfreude steigt!
Für das @tcdh haben wir hier mal notiert, was wir alles machen: https://tcdh.uni-trier.de/de/event/das-tcdh-bei-der-dhd2025-bielefeld
Kommt gerne vorbei! Es geht um #Evaluation von #Keyness-Maßen, #Shakespeare #Editionen, #LLMs und #SetFit für #Metaphern, #Vokabulare für #LOD und #Forschungsdaten für die DH-#Wissenschaftsgeschichte!
U.a. mit @ClaudiaBamberg, @cnDuKeli Julia Dudar, @moulin, Marina Spielberg, @MariaHinzmann, Julia Röttgermann.
Après 3 ans sur mastodon, je change d'instance pour me créer un vrai compte public pour parler de boulot et de biblio !
Didactique des sciences : j'ai passé pas mal de temps dans le monde universitaire, maintenant je vole de mes propres ailes.
Les sujets qui m'intéressent en particulier : #Maths4Sciences, #MesureEtIncertitudes, #QCM, #Evaluation et le rôle de la formation dans la transformation des comportements.
À titre perso, j'ai quelques compagnons à 4 pattes (
,
,
;
) et j'ai vraiment besoin de passer du temps avec elleux !
J'essaie de m'approprier les outils libres : #inkscape, #Python, #R, #Libreoffice, #Zaclys, #Twine, #Scenari, #Framasoft ... Mais je sais toujours rien faire avec des lignes de commande... #GeekEnCarton
#Évaluation des #licences et #masters : « C’est une #attaque #politique contre l’ #université de #masse », dénonce le #chercheur Stéphane Bonnéry
Morgen von 12-13 Uhr stellt die Impact Unit in einer digitalen Infoveranstaltung das kostenlose Multiplikator*innen-Programm “Wissen, was wirkt!” zur Evaluation der Wisskomm vor. Ihr könnt dem Team eure Fragen stellen und erfahren, ob das Programm für euch passt. Zur Anmeldung:
https://eveeno.com/infoveranstaltung_wissenwaswirkt