Haku

Control policy training for a Simulation-to-Real transfer: Simulation-to-real case study

QR-koodi

Control policy training for a Simulation-to-Real transfer: Simulation-to-real case study

Robottien määrä on yleistynyt teollisuuden eri aloilla sillä oletuksella, että ne kykenisivät toteuttamaan entistä enemmän ihmisille tarkoitettuja tehtäviä. Perinteisten menetelmien lisäsi robottien ohjelmointia voidaan lähestyä ’simulaatiosta todellisuuteen’ tieteenalan keinoin, joka on suhteellisen uusi robotiikan haara. ’Simulaatiosta todellisuuteen’ perustuu robotin kouluttamiseen simulaatiossa ja koulutetun tiedon siirtämiseen fyysiselle vastinparille. Tieto sijoittuu syvään vahvistelun oppimisen menettelytapaan, joka on huolellisesti valittu ja viritetty aiottua tehtävää varten. Diplomityössä tutkittiin työkaluja ja vaiheita, joita tarvitaan ’simulaatiosta-todellisuuteen’ siirto-oppimisen avulla koulutetun fyysisen järjestelmän toteuttamiseen. Valittu ympäristö on Universal Robots UR10e-manipulaattori, jonka tehtävänä on paikantaa ja saavuttaa paikallaan oleva kohde fyysisessä maailmassa. Koska työn tarkoituksena on tarjota konsepti ’simulaatiosta todellisuuteen’ prosessille, ainoa mukautumista vaativa osa käyttötapauksessa on kohteen muuttuva sijainti. Huomioitavaa on, että kohteen saavuttaminen on kuitenkin robotiikan perustehtäviä, johon monimutkaisemmat tehtävät perustuvat. Simulaatioympäristö rakennettiin fyysisen robottisolun CAD-mallista, jota päivitettiin myöhemmin valitussa CoppeliaSim-simulaattorissa. Työn helpottamiseksi, simulaatiossa hyödynnetään vanhempaa manipulaattorimallia UR10:ä, joka sisälsi nativisti kinemaattisen ketjun. Myös tarttuja vaihdettiin vanhempaan malliin simulaattorissa. Simulaatioympäristön ohjaus seurasi Markovin päätösprosessia, jossa agentti eli manipulaattori on vuorovaikutuksessa ympäristön kanssa. Kun agentti suoritti toimintoja mahdollisissa tiloissa, se pyrki maksimoimaan kumulatiivisen kokonaispalkkion ja oppi sen mukaisesti. Simuloidun robotin kohteen paikka vaihteli satunnaisesti työalueella olevalla janalla, ja robotin ohjaus toteutettiin nopeuteen perustuvalla suoralla kinematiikalla. Prosessi toteutettiin Python moduuleilla ja valitut oppivat algoritmit olivat Deep Deterministic Policy Gradient sekä Soft Actor-Critic. Algoritmit validoitiin simulaatiossa ja Deep Deterministic Policy Gradient valittiin ’simulaatiosta todellisuuteen’ siirtoa varten sen tuottamien vakaampien ja turvallisempien liikeratojen johdosta. Tiedon siirto perustui zero-shot menetelmään, jossa menettelytapa ohjasi fyysistä manipulaattoria simulaation välityksellä. Nivelten paikkatiedot välitettiin simulaatiosta fyysiselle robotille Robot Operating System-verkon kautta. Koska ainoa välitetty tieto simulaatiosta fyysiselle robotille on paikkaperusteista, on kehitetty menetelmä käytännössä vain kinemaattinen. Käytetty tietoverkko yhdisti simulaattorin, manipulaattorin sekä konenäköjärjestelmän, joka vastasi ArUco merkkitunnisteen paikantamisesta. Kyseisen tunnisteen sijainti korvasi simulaatiossa olevan satunnaisesti vaihtelevan kohteen sijainnin. Esitetty ’simulaatiosta-todellisuuteen’ tiedonsiirtoprosessi osoittaa toimivan vaiheittaisen toteutusketjun, jollaista ei ollut julkisesti saatavilla tätä diplomityötä kirjoitettaessa. Koulutettu algoritmi kykenee vastaamaan geometrisin rajoituksin ja redundanttisten vapausasteiden mukaisen liikkeen suunnittelun ongelmaan. Fyysinen manipulaattori saavuttaa kohteen törmäysvapaalla liikerajalla annetun tarkkuuskynnyksen rajoissa. Samalla simulaation ja todellisuuden välillä olevan todellisuuseron vaikutukset pystytään selittämään ja vaikutukset esittämään. Vaikka kohteen saavuttamistehtävään liittyvät tulokset eivät ole yleistettävissä muihin tehtäviin, on esitetty ’simulaatiosta todellisuuteen’ konsepti sovellettavissa vaativampikin tehtäviin.

Tallennettuna: