Wykorzystanie technologii uczenia maszynowego ze wzmocnieniem w procesie szkolenia nowoczesnych algorytmów sztucznej inteligencji może poprawić funkcjonalność zaawansowanych systemów automatycznych i zwiększyć zdolności predykcyjne w dynamicznym środowisku. Zespół Google udowodnił ich przydatność w ramach projektu Loon. Stosując tego typu narzędzia, firma utrzymała internetowe balony stratosferyczne w ściśle określonym miejscu przez blisko rok. Eksperyment ten otwiera przed naukowcami drogę do wykorzystania podobnych algorytmów w innych równie nieprzewidywalnych środowiskach.
– Głębokie uczenie się ze wzmocnieniem to pewnego rodzaju technika uczenia maszynowego, która umożliwia tzw. agentowi naukę metodą prób i błędów w interaktywnym środowisku z wykorzystaniem informacji zwrotnych z własnych działań i doświadczeń. Kontrastuje to z konwencjonalnym podejściem systemu zautomatyzowanego, zgodnie z ustalonymi procedurami rzemieślniczymi stworzonymi przez inżynierów – tłumaczy Salvatore Candido, szef technologii w firmie Loon.
Innowacyjny system szkolenia sztucznej inteligencji na potrzeby projektu Loon jest odpowiedzią na wyjątkowo nieprzewidywalne warunki atmosferyczne, z którymi muszą zmagać się balony stratosferyczne Google. Wykorzystanie algorytmów zaprogramowanych przy użyciu klasycznych narzędzi uczenia maszynowego nie pozwalało z wysoką precyzją przewidzieć zachowania balonów w powietrzu, a co za tym idzie – nie pozwalało dynamicznie reagować na zmieniającą się sytuację.
– Chcieliśmy usprawnić nasz system nawigacji na potrzeby misji łączności stratosferycznej. Niewielka grupa współpracowników z Loon i Google AI pracowała więc nad opracowaniem bardziej wydajnego systemu, który wykorzystuje technikę uczenia się z głębokim wzmocnieniem – wskazuje Salvatore Candido. – O ile nam wiadomo, jest to pierwsze na świecie wdrożenie tej technologii w produkcyjnym systemie lotniczym.
Wykorzystanie technologii uczenia ze wzmocnieniem (RL) pozwoliło zaprojektować taki system kontroli położenia balonów, który umożliwia w czasie rzeczywistym analizowanie różnych scenariuszy na podstawie szkoleniowych danych zestawionych z informacjami rejestrowanymi w czasie rzeczywistym. W przypadku algorytmu Google rolę danych wsadowych pełnią historyczne zapisy dotyczące kierunku wiatru czy prognozy pogody, które porównuje się do bieżącego zachowania mas powietrza. Sztuczna inteligencja wyznacza na podstawie tych komplementarnych danych kilka możliwości korygowania kursu balonu i wdraża ten, który z najwyższym prawdopodobieństwem pozwoli zrealizować zakładany cel, czyli utrzymać balon w pozycji docelowej.
Taki rozszerzony system nawigacji ma zasadniczą przewagę nad klasycznymi inteligentnymi algorytmami tego typu. Bierze pod uwagę nie tylko aktualną sytuację, jest też w stanie przewidzieć, jak będzie się ona zmieniać w ciągu najbliższych godzin. Dzięki temu system może oszczędzać paliwo, jeśli w najbliższym czasie spodziewa się gwałtownych zmian pogodowych, w trakcie których będzie potrzebował większego zapasu mocy.
Nowy system wykazał się wysoką sprawnością praktyczną. Nie tylko pozwolił skutecznie utrzymać balony internetowe w zasięgu stacji naziemnej, przyspieszył także proces powrotu na docelową pozycję i zauważalnie wydłużył czas operacyjny jednostek Loon. Balony wyposażone w nawigację starszego typu ustanowiły rekord nieprzerwanego lotu równy 223 dniom, a po wdrożeniu nowego kontrolera wykorzystującego metodę uczenia ze wzmocnieniem udało się wypracować nowy rekord – 312 dni pracy.
– Mamy nadzieję, że nasza praca nad nawigacją w stratosferze posłuży jako dowód na to, że technika RL może być przydatna do kontrolowania skomplikowanych, rzeczywistych systemów ciągłej i dynamicznej aktywności – podkreśla szef technologii w firmie Loon. – Będziemy nadal współpracować z zespołem Google nad ulepszaniem nie tylko nawigacji dla balonów stratosferycznych, lecz także nad rozwojem całej dziedziny uczenia maszynowego ze wzmocnieniem, by była wykorzystywana w coraz większej liczbie systemów.
Potencjał technologii RL nie ogranicza się wyłącznie do systemów nawigacji. Z algorytmami tego typu eksperymentuje również firma Microsoft, która wykorzystała je w usłudze Personalizacja, pozwalającej na błyskawiczne wdrożenie narzędzi do analizy zachowania i preferencji klientów korzystających z serwisów opartych na chmurze Azure.
Bądź pierwszy, który skomentuje ten wpis