close
close

first Drop

Com TW NOw News 2024

We moeten de lat hoger leggen voor AI-productmanagers
news

We moeten de lat hoger leggen voor AI-productmanagers

Hoe u kunt stoppen met het beschuldigen van het ‘model’ en kunt beginnen met het bouwen van succesvolle AI-producten

We moeten de lat hoger leggen voor AI-productmanagersAfbeelding gegenereerd door de auteur met behulp van Midjourney

Productmanagers zijn verantwoordelijk voor het bepalen wat ze bouwen en zijn verantwoordelijk voor de uitkomsten van hun beslissingen. Dit geldt voor alle soorten producten, inclusief die welke worden aangestuurd door AI. De afgelopen tien jaar is het echter gebruikelijk geweest dat PM’s AI-modellen als black boxes behandelen, waardoor de verantwoordelijkheid voor slechte uitkomsten wordt afgewenteld op modelontwikkelaars.

PM: Ik weet niet waarom het model dat doet, vraag het maar aan de ontwikkelaar van het model.

Dit gedrag is ongeveer net zo logisch als de ontwerper de schuld geven van slechte registratiecijfers na een herontwerp van de site. Techbedrijven gaan ervan uit dat PM’s die aan consumentenproducten werken de intuïtie hebben om weloverwogen beslissingen te nemen over ontwerpwijzigingen en eigendom van de resultaten.

Waarom is deze hands-off-benadering van AI de norm?

Het probleem: PM’s hebben er belang bij om afstand te houden van het modelontwikkelingsproces.

Hands-on versus hands-off AI-productmanagement: overzicht

Deze striktere, praktische aanpak zorgt ervoor dat modellen succesvol zijn en gebruikers de beste ervaring bieden.

Voor een praktische aanpak is het volgende nodig:

  • Meer technische kennis en inzicht.
  • Meer risico en verantwoordelijkheid nemen voor eventuele bekende problemen of afwegingen die zich bij de lancering voordoen.
  • 2–3x meer tijd en moeite: het maken van evaluatiedatasets om het modelgedrag systematisch te meten kan uren tot weken duren.

Weet u niet wat een eval is? Bekijk dan mijn bericht over Wat is precies een “Eval” en waarom zouden productmanagers zich hier druk om moeten maken?.

Negen van de tien keer werd er een hands-off-benadering gebruikt als een modellancering mislukte. Dit is minder het geval bij grote bedrijven met een lange geschiedenis van het inzetten van AI in producten, zoals Netflix, Google, Meta en Amazon, maar dit artikel is niet voor hen bedoeld.

Het overwinnen van de traagheid van de hands-off-benadering kan echter een uitdaging zijn. Dit geldt met name wanneer het management van een bedrijf niets meer verwacht, en een PM kan zelfs te maken krijgen met tegenwerking als hij de ontwikkelingscyclus “vertraagt” bij het aannemen van hands-on-praktijken.

Hands-on versus hands-off productmanagement – Modelontwikkelingsproces

Stel je een PM voor op een marktplaats als Amazon die belast is met het ontwikkelen van een aanbevelingssysteem voor productbundels voor ouders. Overweeg de twee benaderingen.

Hands-off AI PM — Modelvereisten

Doel: meer aankopen doen.

Evaluatie: Wat de modelontwikkelaar het beste vindt.

Metrieken: Gebruik een A/B-test om te bepalen of we de campagne bij 100% van de gebruikers willen implementeren en of er sprake is van een statistisch significante verbetering in het aankooppercentage.

Hands-on AI PM — Modelvereisten

Doel: Ouders helpen om kwalitatief hoogwaardige producten te ontdekken waarvan ze niet wisten dat ze die nodig hadden, om zo hun ouderschap gemakkelijker te maken.

Metrics: De primaire metriek is het stimuleren van aankopen van producten voor ouders van jonge kinderen. Secundaire, langetermijnmetrieken die we zullen monitoren zijn het aantal herhaalde aankopen van merken die voor het eerst in de bundel zijn ontdekt en de diversiteit van merken in de markt in de loop van de tijd.

Evaluatie: Naast het uitvoeren van een A/B-test, zal onze offline evaluatieset kijken naar voorbeeldaanbevelingen voor meerdere voorbeeldgebruikers uit belangrijke fasen van het ouderschap (prioriteit geven aan zwangeren, pasgeborenen, oudere baby’s, peuters, jonge kinderen) en vier inkomensgroepen. Als we hier verrassingen zien (bijv. ouders met een laag inkomen die de duurste producten worden aanbevolen), moeten we de trainingsgegevens en het modelontwerp nader bekijken.

In onze evaluatieset zullen we het volgende overwegen:

  • Personalisatie — kijk hoeveel mensen dezelfde producten krijgen. We verwachten verschillen tussen inkomensgroepen en leeftijdsgroepen van kinderen
  • Vermijd redundantie: bestraf dubbele aanbevelingen voor duurzame artikelen (kinderbedje, flessenwarmer) als er al een in de bundel zit of als de gebruiker dit type artikel al bij ons heeft gekocht (bestraf niet verbruiksartikelen zoals luiers of verzamelobjecten zoals speelgoed).
  • Samenhang — producten uit verschillende stadia mogen niet worden gecombineerd (bijv. babyfles en kleding voor 2-jarigen)
  • Samenhang — vermijd het mengen van enorm verschillende producten, bijvoorbeeld: superduur handgemaakt houten speelgoed met heel goedkoop plastic speelgoed, schreeuwerige prints met gelicentieerde karakters in gedempte pasteltinten.

Mogelijke drijfveren van secundaire doelen

  • Overweeg om te experimenteren met een bonusgewicht voor producten die u vaker koopt. Zelfs als we iets minder bundels verkopen, is dat een goede afweging als het betekent dat mensen die dat wel doen, in de toekomst waarschijnlijk meer producten zullen kopen.
  • Om de gezondheid van de markt op de langere termijn te ondersteunen, willen we niet alleen de voorkeur geven aan bestsellers. Terwijl we kwaliteitscontroles handhaven, streven we naar ten minste 10% van de aanbevelingen met een merk dat niet de nummer 1 is in hun categorie. Als dit niet vanaf het begin gebeurt, kan het model standaard terugvallen op het gedrag van de “laagste gemene deler” en voert het waarschijnlijk geen goede personalisatie uit.

Praktische AI Productbeheer— Modelontwikkelaarssamenwerking

De specifieke modelarchitectuur moet door de modelontwikkelaar worden bepaald, maar de projectmanager moet een sterke inspraak hebben in:

  • Waar het model voor optimaliseert (dit zou een of twee niveaus dieper moeten gaan dan ‘meer aankopen’ of ‘meer klikken’)
  • Hoe de modelprestaties worden geëvalueerd.
  • Welke voorbeelden worden gebruikt voor evaluatie?

De hands-on aanpak is objectief gezien zoveel meer werk! En dit is ervan uitgaande dat de PM überhaupt bij het proces van modelontwikkeling betrokken is. Soms heeft de modelontwikkelaar goede PM-instincten en kan hij rekening houden met de gebruikerservaring in het modelontwerp. Een bedrijf moet hier echter nooit op rekenen, want in de praktijk is een UX-savvy modelontwikkelaar een eenhoorn uit de duizend.

Bovendien zou de hands-off-benadering nog steeds kunnen werken soort van werk sommige van de tijd. In de praktijk resulteert dit echter meestal in:

  • Suboptimale modelprestaties, waardoor het project mogelijk wordt stopgezet (bijvoorbeeld: leidinggevenden concluderen dat bundels gewoon een slecht idee waren).
  • Gemiste kansen voor significante verbeteringen (bijvoorbeeld een stijging van 3% in plaats van 15%).
  • Ongecontroleerde langetermijneffecten op het ecosysteem (bijvoorbeeld: kleine merken verlaten het platform, waardoor de afhankelijkheid van een paar grote spelers toeneemt).

Hands-on versus hands-off productmanagement — een productbeoordeling

De praktische aanpak brengt niet alleen meer werk vooraf met zich mee, maar kan ook het proces van productbeoordelingen radicaal veranderen.

Hands-off AI PM-productbeoordeling

Leider: Bundels voor ouders lijken een geweldig idee. Laten we eens kijken hoe het presteert in de A/B-test.

Praktische AI ​​PM-productbeoordeling

Leider: Ik heb uw voorstel gelezen. Wat is er mis met alleen bestsellers voor te stellen als dat de beste producten zijn? Zouden we niet moeten doen wat het beste is voor de gebruiker?

(een half uur debat later)

PM: Zoals je kunt zien, is het onwaarschijnlijk dat de bestseller daadwerkelijk het beste is voor iedereen. Neem luiers als voorbeeld. Ouders met een lager inkomen zouden moeten weten over het merk luiers van Amazon dat de helft kost van de bestseller. Ouders met een hoog inkomen zouden moeten weten over het nieuwe dure merk waar rijkere klanten dol op zijn omdat het voelt als een wolk. En als we altijd de bestaande winnaars in een categorie bevoordelen, zullen op de lange termijn nieuwere maar betere producten moeite hebben om naar voren te komen.

Leider: Oké. Ik wil er alleen zeker van zijn dat we niet per ongeluk een slecht product voorstellen. Welke kwaliteitscontrole-maatstaven stelt u voor om ervoor te zorgen dat dit niet gebeurt?

Modelontwikkelaar: Om ervoor te zorgen dat alleen producten van hoge kwaliteit worden getoond, gebruiken we de volgende signalen…

De verborgen kosten van hands-off AI-productmanagement

De contrasterende scenario’s hierboven illustreren een kritieke fase in AI-productmanagement. Hoewel de hands-on PM succesvol door een uitdagend gesprek navigeerde, is deze aanpak niet zonder risico’s. Veel PM’s, geconfronteerd met de druk om snel te leveren, kiezen mogelijk voor de weg van de minste weerstand.

De hands-off-aanpak belooft immers soepelere productbeoordelingen, snellere goedkeuringen en een handige zondebok (de modelontwikkelaar) als het misgaat. Deze kortetermijngemakkelijkheid brengt echter hoge kosten op de lange termijn met zich mee, zowel voor het product als voor de organisatie als geheel.

Wanneer projectmanagers zich terugtrekken uit de intensieve betrokkenheid bij AI-ontwikkeling, blijven voor de hand liggende problemen en cruciale afwegingen verborgen, wat tot verschillende belangrijke gevolgen kan leiden, waaronder:

  1. Niet op elkaar afgestemde doelstellingen: Zonder inzicht van PM in de behoeften van gebruikers en bedrijfsdoelen, kunnen modelontwikkelaars optimaliseren op basis van eenvoudig meetbare statistieken (zoals doorklikpercentages) in plaats van op basis van de werkelijke waarde voor de gebruiker.
  2. Onbedoelde ecosysteemeffecten: Modellen die geïsoleerd zijn geoptimaliseerd, kunnen verstrekkende gevolgen hebben. Bijvoorbeeld, het altijd aanbevelen van bestsellerproducten zou kleinere merken geleidelijk uit de markt kunnen drukken, waardoor de diversiteit afneemt en de gezondheid van het platform op de lange termijn mogelijk wordt geschaad.
  3. Verspreiding van verantwoordelijkheid: Wanneer beslissingen worden overgelaten aan het model, ontstaat er een gevaarlijk vacuüm van verantwoording. PM’s en leiders kunnen niet verantwoordelijk worden gehouden voor uitkomsten die ze nooit expliciet hebben overwogen of goedgekeurd. Dit gebrek aan duidelijk eigenaarschap kan leiden tot een cultuur waarin niemand zich bevoegd voelt om problemen proactief aan te pakken, waardoor kleine problemen kunnen uitgroeien tot grote crises.
  4. Perpetuation of Subpar Models: Zonder een nauwkeurig onderzoek van modeltekortkomingen door een productlens, kunnen de grootste impactverbeteringen niet worden geïdentificeerd en geprioriteerd. Het erkennen en accepteren van deze tekortkomingen is noodzakelijk voor het team om de juiste afwegingen te maken bij de lancering. Zonder dit worden ondermaatse modellen de norm. Deze cyclus van vermijding belemmert de evolutie van modellen en verspilt het potentieel van AI om echte gebruikers- en bedrijfswaarde te genereren.

De eerste stap die een PM kan zetten om meer hands-on te worden? Vraag je modelontwikkelaar hoe je kunt helpen met de eval! Er zijn zoveel geweldige gratis tools om te helpen met dit proces, zoals promptfoo (een favoriet van de CEO van Shopify).

De leiderschapsimperatief: verwachtingen herdefiniëren

Productleiderschap speelt een cruciale rol bij het verhogen van de normen voor AI-producten. Net zoals UI-wijzigingen meerdere beoordelingen ondergaan, vereisen AI-modellen evenveel, zo niet meer, toezicht gezien hun verstrekkende impact op de gebruikerservaring en de resultaten van producten op de lange termijn.

De eerste stap om PM’s nauwer te betrekken bij de ontwikkeling van modellen, is door ze verantwoordelijk te houden voor het begrijpen van wat ze verzenden.

Stel vragen zoals:

  • Welke eval-methodologie gebruikt u? Hoe hebt u de voorbeelden verkregen? Kan ik de voorbeeldresultaten zien?
  • Welke use cases zijn volgens jou het belangrijkst om te ondersteunen met deze eerste versie? Moeten we concessies doen om dit te faciliteren?

Denk goed na over welke soorten evaluaties u gebruikt als:

  • Voor een model dat op een high stakes-oppervlak is ingezet, kunt u overwegen om het gebruik van eval-sets als vereiste te stellen. Dit moet ook gepaard gaan met een rigoureuze impact- en gedragsanalyse na de lancering, zo ver mogelijk in de funnel.
  • Voor een model dat op een lager inzetgebied wordt ingezet, kunt u overwegen om een ​​snellere eerste lancering toe te staan ​​met een minder rigoureuze evaluatie. Zorg er echter wel voor dat het model snel wordt herhaald na de lancering, zodra er gegevens over het gebruikersgedrag zijn verzameld.
  • Onderzoek feedbackloops in modeltraining en -scores, waarbij menselijk toezicht verder gaat dan alleen precisie-/recall-metrieken.

En vergeet niet dat iteratie de sleutel is. Het eerste model dat wordt verzonden, mag zelden het laatste zijn. Zorg ervoor dat er middelen beschikbaar zijn voor vervolgwerk.

Uiteindelijk brengt de wijdverbreide adoptie van AI zowel immense beloften als significante veranderingen in wat producteigenaarschap inhoudt. Om het potentieel ervan volledig te realiseren, moeten we verder kijken dan de hands-off-benadering die te vaak tot suboptimale resultaten heeft geleid. Productleiders spelen een cruciale rol in deze verschuiving. Door van PM’s een dieper begrip van AI-modellen te eisen en een cultuur van verantwoording te bevorderen, kunnen we ervoor zorgen dat AI-producten zorgvuldig zijn ontworpen, rigoureus zijn getest en echt nuttig zijn voor gebruikers. Dit vereist omscholing voor veel teams, maar de middelen zijn direct beschikbaar. De toekomst van AI hangt ervan af.


We Need to Raise the Bar for AI Product Managers werd oorspronkelijk gepubliceerd in Towards Data Science op Medium. Mensen zetten de discussie voort door dit verhaal te markeren en erop te reageren.