Rijstrookwisselingen en invoegen natuurlijk modelleren

Van rijstrook wisselen en invoegen op een wat drukke snelweg: voor autonome voertuigen zijn deze manoeuvres nog duidelijk een brug te ver. Wat is ervoor nodig om de auto’s ook op dit punt voldoende intelligent te maken? Olger Siebinga promoveerde onlangs met het onderzoek Communication-Enabled Interactions in Highway Traffic. In deze bijdrage vertelt hij over zijn bevindingen.




De manoeuvres rijstrook wisselen en invoegen op een snelweg lijken misschien eenvoudig, maar zijn het zeker niet. De uitdaging zit ‘m in de interacties met medeweggebruikers. De bestuurders van twee of meer voertuigen moeten samen zien te bepalen wie voor mag gaan en welke veiligheidsmarge wordt aangehouden. Dat betekent rekening houden met de beschikbare ruimte en tijd. De relatieve snelheden en afstanden inschatten. Continu het rijgedrag aanpassen om botsingen te voorkomen. De positie en snelheid van de auto gebruiken om te communiceren wat de bedoeling is. En ondertussen de signalen van anderen oppikken.

Een beetje ervaren automobilist doet dat allemaal zonder er echt bij na te denken. Maar autonome voertuigen hebben hier veel moeite mee. Op Youtube staat een interessant dashcamfilmpje van hoe dat fout kan gaan: een autonoom voertuig wil invoegen op een drukke snelweg, ziet geen opening die ruim genoeg is, begrijpt niet dat een andere bestuurder die ruimte aanbiedt, moet uiteindelijk afremmen en komt aan het eind van de invoegstrook tot stilstand. Mission aborted.

Autonome voertuigen hebben veel moeite met de manoeuvres rijstrook wisselen en invoegen op een snelweg.

Waar gaat het mis? Om de werkelijkheid buiten te doorgronden, is een autonoom voertuig afhankelijk van ‘rijgedragmodellen’. Die voorspellen wat een andere bestuurder de komende paar seconden doet. We stelden net vast dat van rijstrook wisselen en invoegen een gezamenlijke inspanning van individuele bestuurders is. Het model moet dus niet alleen de bestuurders individueel voorspellen, maar ook de gezamenlijke dynamiek en onderlinge communicatie die nodig zijn om in te voegen. Zo’n model is er nog niet.

De afgelopen vier jaar hebben we aan de TU Delft onderzoek gedaan om deze ‘witte vlek’ deels in te vullen. We hebben bestaande rijgedragmodellen tegen het licht gehouden, een nieuw (nog relatief eenvoudig) model ontwikkeld en daar hebben we enkele gecontroleerde experimenten mee gedaan.

HighD-dataset
Om bestaande rijgedragmodellen te kunnen beoordelen, is het belangrijk om deze niet slechts in simulaties te valideren, maar juist te confronteren met ‘real life’ data. In ons onderzoek hebben we hiervoor goed gebruik kunnen maken van de dataset HighD. Deze set is gebaseerd op dronebeelden van zes locaties (snelwegen) in Duitsland. Uit deze beelden zijn automatisch de trajectoriën van de voertuigen geëxtraheerd.

Voor ons onderzoek hebben we een open-source softwarepakket ontwikkeld om deze en andere datasets te visualiseren en ermee te werken: TraViA, de Traffic Visualisation and Annotation tool.

Ook hebben we een methode ontwikkeld om de dataset te scannen op voor ons interessante scenario’s. Zo konden we de natuurlijke (= menselijke) respons in op elkaar lijkende situaties snel ‘lokaliseren’ en analyseren. Die analyses leerden ons bijvoorbeeld dat in vergelijkbare gevallen op zowel tactisch niveau (welke manoeuvre wordt gekozen) als operationeel niveau (hoe een manoeuvre wordt uitgevoerd) steeds verschillende uitkomsten mogelijk zijn. Zo kan een bestuurder achter een langzamer rijdend voertuig beslissen om af te remmen, maar ook om van baan te wisselen (tactische variabiliteit). Als de bestuurder besluit om af te remmen kan dit op meerdere manieren (operationele variabiliteit).

Validatie
Dezelfde HighD-dataset hebben we gebruikt om de interaction-aware controller, IAC, tegen het licht te houden. Deze controller is naar voren geschoven als mogelijke oplossing voor het interactieprobleem in autonoom rijden. Maar ‘onder de motorkap’ gebruikt IAC rijgedragmodellen die nauwelijks zijn gevalideerd – hooguit in simulaties.

Wij hebben daarom een model genomen dat in veel IAC’s wordt gebruikt, een model van het type inversed reinforcement learning,1Inverse reinforcement learning is een vorm van machine learning waarbij ‘real life’ data worden gebruikt om de beloningsfunctie die een mens gebruikt te schatten. Die beloningsfunctie kan dan vervolgens worden gebruikt om gedrag te voorspellen. en hebben dat gevalideerd met een aantal scenario’s uit de HighD-set. Wat bleek? In slechts 40 procent van de gevallen voorspelt het model de juiste manoeuvre van menselijke medeweggebruikers. Op het operationele niveau is het model ook voor een groot deel inconsistent met menselijk gedrag. Dit laat nog zien hoe belangrijk het is alle onderdelen van (autonome) oplossingen te valideren met ‘echte’ data.

Dit laat zien hoe belangrijk het is alle onderdelen van (autonome) oplossingen te valideren met ‘echte’ data.

Analyse bestaande modellen
In een tweede deel van ons onderzoek hebben we ons verdiept in de onderliggende principes van de huidige generatie rijgedragmodellen: wat maakt dat de verschillende benaderingen, ook al kunnen ze in zekere mate overweg met interacties, niet geschikt zijn voor het modelleren van rijstrookwisselingen en invoegen?

Een belangrijk punt is dat veel van de modellen slechts één enkele bestuurder beschrijven. Ook gaan ze ervan uit dat deze bestuurder reageert op zijn of haar omgeving, maar dat de omgeving (inclusief alle andere bestuurders) niet reageert op de gemodelleerde bestuurder. We noemen dit de aanname van eenzijdige interactie. Met deze aanname is het uiteraard onmogelijk de interacties tussen meerdere bestuurders te beschrijven.

Een bekend alternatief waarbij wel meerdere bestuurders worden beschreven, maakt gebruik van de speltheorie. Deze theorie is oorspronkelijk ontwikkeld om de beste strategie te vinden bij het spelen van een spel. Het probleem van deze benadering is dat de stapsgewijze beslissingen uit een spel weinig gemeen hebben met de praktijk van continue dynamische aanpassingen in het gedrag van weggebruikers. Ook kent de speltheorie de aanname dat mensen zich rationeel gedragen en niet communiceren (wie wil winnen vertelt niet wat hij van plan is in de volgende zet). Terwijl we juist weten dat bestuurders hun gedrag niet voortdurend optimaliseren (= ze zijn niet voortdurend rationeel, integendeel) en dat communicatie juist een belangrijk aspect is bij de manoeuvres van rijstrookwisselingen en invoegen.

Nieuw model
Op basis van onze bestudering van HighD-data en ons onderzoek naar de huidige (ongeschikte) modellen, hebben we een nieuw ontwerpkader ontwikkeld voor modellen die dynamische interacties tussen bestuurders beschrijven. Dit kader heeft als uitgangspunt dat communicatie tussen bestuurders een belangrijke rol speelt bij interacties. Vandaar ook de naam die we het hebben gegeven: het Communication-Enabled Interaction ontwerpkader. Zie figuur 1.


Figuur 1: Een overzicht van het Communication-Enabled Interaction (CEI)-kader. Elke bestuurder heeft een deterministisch plan voor zichzelf en een probabilistische overtuiging over wat de ander gaat doen. Deze overtuiging wordt continu geüpdatet met de communicatie die een bestuurder ontvangt over het plan van de ander. Het plan en de overtuiging samen vormen de basis voor het gepercipieerde risico. Als het waargenomen risico boven een persoonlijke grens komt, updatet een bestuurder zijn of haar plan om het risico weer onder controle te krijgen.

Ons kader gaat ervan uit dat bestuurders een deterministisch plan hebben voor hun acties in de nabije toekomst. Ze communiceren dit plan naar anderen door middel van impliciete of expliciete communicatie. Ook ‘ontvangen’ ze communicatie van andere bestuurders. Op basis van de ontvangen communicatie vormen bestuurders een probabilistische overtuiging (belief) over wat de andere bestuurders gaan doen. De combinatie van dit plan (wat de bestuurder wil doen) en de overtuiging (wat hij denkt dat medeweggebruikers gaan doen) vormen de basis voor een risico-inschatting: wat is de kans op bijvoorbeeld een botsing? Als het waargenomen risico hoger is dan een persoonlijke norm werkt de bestuurder zijn of haar plan bij om het risico onder controle te krijgen. Deze plan-updates die getriggerd worden door risicoperceptie, zijn gebaseerd op het concept satisficing: het idee dat mensen niet is staat zijn en niet voldoende tijd hebben om continu hun gedrag te optimaliseren, dus in plaats daarvan zoeken naar een oplossing die ’goed genoeg’ is.

In een casestudie met een invoegscenario laat een CEI-model plausibel gedrag zien van twee bestuurders. Dit op basis van modelparameters die elk een begrijpelijke functie hebben.

Gecontroleerde experimenten
We hebben deze nieuwe theorie geprobeerd te valideren met gecontroleerde experimenten in een rijsimulator. Hiermee kunnen we de effecten van (gecontroleerde) parameters op het gedrag van individuele bestuurders onderzoeken. Deze experimenten worden echter nauwelijks gedaan om de interacties tussen meerdere bestuurders te bestuderen. Meerdere bestuurders laten deelnemen aan één experiment is namelijk complex door het grote aantal signalen dat moet worden gemeten en verwerkt per bestuurder (bijvoorbeeld de stuur- en gaspedaal-hoeken). Bovendien zijn er geen goede analytische tools (zoals statistieken) om die gegevens te analyseren.

In ons onderzoek hebben we een eerste poging gedaan om wel meerdere bestuurders mee te nemen: een gecontroleerd experiment met twee bestuurders in één simulator. Hierbij werken we met een invoegscenario, maar dan wel een vereenvoudigde versie met minder signalen per bestuurder. Zo is er alleen gekeken naar versnellen of remmen en niet naar stuurbewegingen. Dit scenario is gebruikt in een gekoppelde rijsimulator met twee bestuurders en een simulatie in vogelperspectief. We hebben drie tools ontwikkeld om het gedrag van de bestuurders te analyseren, waaronder een statistiek om de duur van het conflict te meten: de Conflict Resolution Time.

De resultaten van het experiment met het vereenvoudigde invoeg-scenario hebben we empirisch geanalyseerd. Daaruit hebben we een aantal interessante gedragsaspecten van bestuurders in interacties kunnen destilleren. Ten eerste gebruiken mensen discontinue constante inputs voor de acceleratie van hun voertuigen. Dat wil zeggen dat ze voor korte tijd constant versnellen of afremmen waarna ze die constante acceleratie veranderen en weer voor korte tijd vasthouden. Verder laat het experiment zien dat de uitkomst van de interactie – welke auto eerst gaat – voornamelijk afhangt van de kinematica van de voertuigen aan het begin van de interactie, niet van individuele verschillen tussen de bestuurders. Oftewel: de snelheid en versnelling zijn bepalend, niet het type bestuurder. Deze effecten hebben we kunnen kwantificeren in een statistisch model. Ook de effecten van voertuigkinematica op de Conflict Resolution Time zijn gekwantificeerd.

Met deze inzichten hebben we een nieuw bestuudersmodel kunnen maken op basis van ons Communication-Enabled Interaction-kader. Dit nieuwe model maakt gebruik van constante inputs. De belief-module is vernieuwd om de afstanden tussen voertuigen (veiligheidsmarges) te reproduceren. Ten slotte heeft dit model een ingebouwde stimulans voor individuele bestuurders om te handelen op basis van relatieve kinematica. Hierdoor kan het model bijvoorbeeld beschrijven dat een bestuurder die een auto volgt eerder geneigd is om actie te ondernemen om de afstand tussen de twee te vergroten dan de bestuurder van het voorste voertuig.

Met dit model lukt het ons om het individuele en gezamenlijke rijgedrag uit het gecontroleerde experiment met een vereenvoudigd invoegscenario kwalitatief en kwantitatief te beschrijven op meerdere niveaus. Beslissingen van individuele bestuurders (zoals: wel of niet voorrang verlenen) leiden tot gezamenlijke uitkomsten (welke bestuurder eerst gaat). Snelheidsprofielen met menselijke karakteristieken beschrijven nauwkeurig de individuele bijdragen aan de gezamenlijke veiligheidsmarges (zoals de ruimte tussen de voertuigen). Ten slotte reproduceert het model typische kwalitatieve interacties tussen bestuurders die zijn waargenomen in het experiment, zoals een miscommunicatie als beide bestuurders in eerste instantie dezelfde actie ondernemen.

Tot slot
Op basis van ons onderzoek kunnen we drie conclusies trekken. Ten eerste dat verschillende bestuurders tactisch en operationeel verschillend reageren op vergelijkbare interactieve situaties. Daarom moeten modellen van menselijk rijgedrag operationele en tactische variabiliteit kunnen beschrijven.

Een tweede punt is dat dat bestuurders hun acceleratie-inputs niet voortdurend (rationeel) optimaliseren. In plaats daarvan gebruiken ze discontinue constante inputs, zoals empirisch waargenomen in ons vereenvoudigd invoegscenario.

Een laatste conclusie is dat met het modelleren van communicatie en op risico gebaseerde discontinue constante inputs het Communication-Enabled Interaction-kader abstracte interacties tussen twee bestuurders kan beschrijven, inclusief hun beslissingen (wie gaat er eerst), veiligheidsmarges over tijd, en het onderliggende individuele gedrag (remmen/accelereren). Let wel, onze gecontroleerde experimenten waren met een vereenvoudigd invoegscenario met slechts twee bestuurders. Om de resultaten van ons onderzoek toe te kunnen passen in dagelijks verkeer is het uitbreiden van het model naar scenario’s met meer voertuigen en volledige controle noodzakelijk.

Samenvattend heeft het onderzoek een bijdrage geleverd aan de kennis over en het modelleren van menselijke gedrag bij interacties tijdens rijstrookwisselingen en invoegen. De studies hebben een potentiële oplossing voorgesteld voor het modelleren van verkeersinteracties. Dit model heeft in een vereenvoudigd invoegscenario al veelbelovende resultaten laten zien. Hiermee hopen we hebben een nieuwe stap te hebben gezet om autonome voertuigen beter, veiliger en natuurlijker te laten rijden.

____

De auteur
Dr. ir. Olger Siebinga is onderzoeker bij de TU Delft en auteur van het proefschrift Communication-Enabled Interactions in Highway Traffic – A joint driver model for merging, mei 2024.