On biased data sets & AI

Yesterday, I attended a series of presentations, organized by CCU, on AI and data from a feminist perspective. Or rather, from the acknowledgement that datasets are never neutral.

I especially enjoyed listening to Caroline Sinders and Hannah Davis. They shared interesting thoughts and examples that I’d like to share with you here.

Caroline Sinders

I am a machine learning designer/user researcher, artist, and digital anthropologist obsessed with language, culture and images.

Caroline Sinders

Caroline referred to the library of missing data sets, an art project from Mimi Onuoha. It’s a filing cabinet filled with missing data sets in a data saturated environment. I love this project!

She showed a screen capture from a google search. One is on the term “professional haircut” the other from “unprofessional haircut”. You can probably guess which images represent the unprofessional results.

Screen capture from two google searches: “unprofessional haircut” versus “professional haircut”

Caroline’s own project, the feminist data set, is also a very cool project to investigate.

During the Q&A, she got a bit more specific about using AI to counter online abuse on the big social networking platforms. Caroline made a very good point that AI will not offer a solution, since the real problem lies with the content moderators. Every post that is being marked will be reviewed by moderator and does so without context and often based on a different world view than the person marking something as harassment, simply based on the fact that the moderator probably lives in a different country and culture. You can’t blame them for that, they just lack the right tools to do their job properly.

Hannah Davis

I’m a generative musician and researcher based in NYC. My work generally falls along the lines of music generation, composing, machine learning, and natural language processing.

Hannah Davis

Hannah explained that she has been using data sets for her project TransProse, in which she translates literature into music. For instance this is the basic emotion captured in Le Petit Prince:

When she dug into the data sets she found this:

Childbirth is classified as an emotionless event in the data set

Childbirth was classified as without any emotion. This is a very obvious example how data sets are not neutrally created. Hannah raised the question what type of world view a data set creates?

She argues that all data sets are created with bias, especially when you look at data sets that are created at one point in history and then still being used half a century later. Classifications from fifty years ago might not reflect current world views.

The problem with many data sets is that it takes a lot of effort to create them, therefore we use them for a long time, sometimes without proper updating. Hannah pleas for two things being attached to data sets: a list of ingredients (like we have on our food) and an expiration date.

Door |2019-12-13T15:10:13+02:0013 december 2019|flow, vrouw|8 Reacties

Stapjes voorwaarts

De kamer stemde vandaag voor een vrouwenquotum voor de raden van commissarissen van beursgenoteerde bedrijven. Waar moeten deze raden straks naar streven? 30% vrouw. Dat is een klein beetje meer dan dat er gemiddeld voor deze bedrijven nu gehaald worden met 26,8% *. De winst van dit quotum is dat als er minder dan 30% vrouw is de positie leeg blijft en niet gevuld mag worden door een man.

Het is een zeer bescheiden maatregel om meer vrouwen op belangrijke posities te krijgen. De maatregel treft namelijk een heel klein deel van de bedrijven in Nederland, namelijk 88 in 2019 met in totaal 455 commissarissen. Daarvan zijn nu 122 vrouw. Over de gehele groep genomen moeten daar dus minstens veertien vrouwen bij. Die veertien extra vrouwen zullen geen lans breken.

Als je vervolgens kijkt naar het aantal vrouwen in de besturen van de bedrijven, dan begrijp je dat hier pas echt een uitdaging ligt. 8,5% van alle bestuurders is vrouw. De motie die de kamer vandaag accepteerde gaat niet over besturen. Een gemiste kans, maar het zal politiek allemaal nog wel té gevoelig liggen.

Lees ook de mening van een aantal topvrouwen in De Volkskrant.

* alle cijfers afkomstig uit The Dutch Female Board Index 2019

Door |2019-12-03T22:40:40+02:003 december 2019|flow, vrouw|0 Reacties

Dat heeft Pippi dus nooit gezegd

In een week tijd had ik twee gesprekken waarin Pippi werd geciteerd.

Ik heb het nog nooit gedaan dus ik denk dat ik het wel kan

In een artikel dat ik aan het schrijven ben wilde ik dit citaat gebruiken. Ik ben dan wel het type dat eerst even gaat uitzoeken hoe die dan precies hoort te zijn en wat de bron is. In die zoektocht stuit ik op een artikel waar iemand deze vraag onderzocht. Wat blijkt? Het citaat is helemaal niet van Pippi en Astrid Lindgren heeft het nooit geschreven.

Ik heb de link naar de FAQ van de Astrid Lindgren company gevolgd waar dit zou staan. En inderdaad. Daar staat onder het kopje ‘popular misquotes’:

“I have never tried that before, so I think I should definitely be able to do that.”

This quote is widely available and is often assumed to be said by Pippi Longstocking, but Astrid Lindgren did not write it and there is no known source reference to it.

FAQ on Astrid Lindgren Company website

Gelukkig las Katinka Polderman de biografie van Lindgren en vond ze wat Pippi dan wel zegt:

Wat ze wél zegt, als Tommy oppert dat ze waarschijnlijk niet kan pianospelen: ‘Hoe kan ik dat nou weten als ik het nog nooit geprobeerd heb?’

Katinka Polderman in De Volkskrant

En dit citaat wordt dan weer bevestigd in het eerste artikel waar ik op stuitte. Deze variant gebruik ik dan maar in mijn andere artikel. En ik zal mijn gesprekspartners nog even op dit artikel wijzen.

Door |2019-11-27T15:46:34+02:0027 november 2019|flow|1 Reactie

European Podcast found: The Europeans

In September I asked whether anyone knew a European equivalent of This American Life, a very well known US podcast show. Well, today during my search for a European based podcast hosting company I stumbled upon the website of The Europeans podcast show. When I went to take a look at their Twitter feed I saw that they relaunched the show today. Serendipity in its purest form!

https://twitter.com/EuropeansPod/status/1196710314068369408

What I can tell from their website is that the show has been running since 2017, but now received funding from the European Cultural Foundation. That’s why they were able to create new episodes.

I can’t wait to have some time to listen to the latest episode.

Door |2019-11-19T15:48:03+02:0019 november 2019|flow|10 Reacties

Stereotypen in de lesmethode

Vandaag kopt nu.nl:

‘Vrouwen en niet-westerse personen komen minder voor in schoolboeken’

De Volkskrant:

‘Kees bouwt een schuurtje’ of ‘Annemarie bakt een taart’: het wemelt in Nederlandse schoolboeken nog van stereotypen

Als het gaat om verschillen tussen mannen en vrouwen ben ik meteen alert. Deze koppen gaan over een rapport dat vandaag gepubliceerd is over de representatie van mannen, vrouwen en etnische groepen in lesmethodes. De nieuwsartikelen suggereren dat er verschillen zijn, maar het nieuws beschrijft nooit het hele verhaal. Ik lees liever de bron.

Ik heb de rapporten deze ochtend gelezen. Het betreft twee documenten van elk ongeveer dertig pagina’s. Eén behandelt de verschillen tussen mannen en vrouwen, de ander de verschillen in etnische representatie. Voor het onderzoek (geleid door Judi Mesman) hebben ze de lesboeken van twee vakken, Nederlands en Wiskunde, onder de loep genomen.

De echte conclusie? Als het gaat om de verschillen tussen mannen en vrouwen is er eigenlijk maar één echt belangrijk verschil: het aantal vrouwen dat voorkomt in de boeken is minder. In iets meer dan een derde van de boeken was het aandeel vrouwen minder dan 40%. Als het dan om stereotypering gaat, zijn de verschillen klein. Mijn conclusie na het lezen van dit rapport: de uitgevers van deze boeken doen het zo slecht nog niet.

Gaan we naar het rapport over etniciteit in de lesmethodes, dan ligt daar nog wel een taak. In de teksten is er een onderrepresentatie van individuen met een niet-westerse etniciteit. In de plaatjes daarentegen doen uitgevers het heel netjes. Sterker nog, in sommige boeken zelfs twee keer meer dan het landelijk gemiddelde (13,4% niet-westerse personen in Nederland). Stereotypering in de afbeeldingen is er niet echt, maar kijkend naar de beroepen en activiteiten, dan is er wel degelijk een lichte stereotypering. Zo zijn onder topsporters zwarte personages oververtegenwoordigd.

Mijn conclusie na het lezen van deze twee rapporten is dat de uitgevers van deze lesboeken goed hun best hebben gedaan om de hele maatschappij goed te weerspiegelen. Het is niet zoals de Volkskrant beweert: het wemelt in de Nederlandse schoolboeken NIET van de stereotypen. Althans niet in de boeken die voor dit onderzoek zijn gebruikt.

Desondanks sluipen er wel subtiele verschillen in. En daar schijnt dan weer onderzoek naar gedaan zijn dat ook deze subtiele verschillen door kinderen opgepikt worden. Het is dus wel belangrijk alert te blijven op de voorbeelden die in lesmethodes worden gebruikt.

Door |2019-11-13T13:50:48+02:0013 november 2019|flow, vrouw|0 Reacties

Op de leeslijst: De lekkende bèta/technische pijpleiding en hoe deze te repareren

Vrouwen nemen nog steeds veel minder vaak dan mannen deel aan bèta/technische beroepsopleidingen in mbo en hoger onderwijs, terwijl werkgevers toch staan te springen om bèta/technisch opgeleid personeel (ROA, 2015) en de overheid zich al jaren inspant om samen met het onderwijs en bedrijfsleven de belangstelling voor bèta/techniek te verhogen (Techniekpact, 2013).

Uit de inleiding van De lekkende bèta/technische pijpleiding en hoe deze te repareren (2019)

Een rapport naar aanleiding van een onderzoek uitgevoerd door KBA Nijmegen en Universiteit Twente. Staat bij deze op de leeslijst voor deze week.

Door |2019-11-11T15:15:33+02:0011 november 2019|flow, gelezen, links, vrouw|0 Reacties
Laad meer berichten