28 marca 2017

Rozpoznawanie mowy w chmurze i z procesorem języka naturalnego NLP-5x

Ostatnio wiele trendów wskazuje na to, że analiza i synteza mowy ludzkiej to niedaleka przyszłość branży IT. Chciałbym zwrócić uwagę, że już 5 lat temu wiele startupów podchodziło do tego tematu z niemal tytanicznym wysiłkiem konstruując dedykowany hardware. Oczywiście współcześnie wiemy, że zatrudnia się do tego całe chmury komputerów oraz sieci neuronowe, aby uzyskać wartościowe efekty. Wynalazcy, o których jest ten wpis stale wierzyli w powodzenie swojego pomysłu i utworzyli coś co nazwali procesorem języka naturalnego NLP-5x. Przyjrzymy się również historii rozpoznawania mowy oraz jakie produkty są obecnie na rynku konsumenckim dostępne.

Okazuje się, że słynny wynalazca Alexander Graham Bell, któremu przypisujemy taki wynalazek jak telefon pracował nad maszyną, której można dyktować tekst. Nie udało mu się osiągnąć celu, ale efektem ubocznym jego pracy jest mikrofon i oczywiście otwarcie epoki komunikacji międzyludzkiej w kolejnym ważnym wymiarze.
To dzięki telefonii mamy tak znaczący postęp technologiczny i szacunek dla Pana Bella za ten wynalazek :-) bo zsiedliśmy z siodła i możemy wymieniać informację siedząc :-)
W historii rozpoznawania mowy mamy niewiele znaczących wydarzeń od roku 1952, kiedy to Fonetograf Drayfusa-Grafa, maszyna zapisująca fonemy pokazała, że coś w tej dziedzinie można osiągnąć. Podstawowym i najbardziej naturalnym sposobem komunikacji międzyludzkiej jest mowa. Oczywistym faktem jest, że człowiek chciałby się w ten sposób komunikować również z maszynami. Własnie dlatego powstające odkrycia doprowadziły do utworzenia przez Google korpusu słownikowego rozpoznającego mowę w 2011 roku. Od tej daty, kiedy wiele firm i instytucji testuje i używa produktu Google do tłumaczeń oraz rozpoznawania mowy w wyszukiwaniu, wiele inwencji ukazuje nam rynek.

Dokonania lat 60-tych XX wieku to opracowania algorytmu szybkiej transformacji Fouriera (ang. Fast Fourier Transform - FFT), która skróciła znacznie obliczenia pozwalające na analizę widma oraz niejawne modele Markowa (ang. Hidden Markov Model- HMM) stosowane do modelowania mowy. HMM wykorzystuje prawdopodobieństwo wystąpienia głosek przy zaobserwowanych parametrach mowy. Zarówno FFT jak i HMM do dzisiaj są podstawami systemów rozpoznawania mowy.
W latach 90-tych wprowadzono pierwsze dostępne dla przeciętnego użytkownika systemy ASR (ang. Automatic Speech Recognition - systemy rozpoznawania mowy) takie jak Dragon, czy IBM ViaVoice.

Obecnie systemy ASR możemy podzielić na dwa podstawowe typy: systemy rozpoznawania słów izolowanych z ograniczonym słownikiem (IWRS, ang Isolated Word Recognition Systems) oraz system rozpoznawania mowy ciągłej i swobodnej z bardzo duzym słownikiem (LVCSR, ang. Large Vocabulary Continuous Speech Recognition).

Analiza mowy to wyzwanie dość śmiałe i każda firma w tych czasach chciałaby wykrywać i rozpoznawać mowę, analizować i móc wyciągać wnioski lub oferować coś za pieniądze. Marzenia te powolnie się spełniają i co tutaj kryć napędzają je dość prozaiczne sprawy: literatura/kino SCI-FI; potrzeba posiadania przez konsumentów np: do sterownia otoczeniem przy pomocy głosu (urządzeniami w domu, drzwiami do garażu, telewizorem); zmierzenie się z algorytmami z dziedziny analizy sygnałowej (DSP) oraz możliwość serwowania takiej usługi w chmurze. Ten ostatni punkt to ciasteczko na torcie, bo kolejne produkty będą płaciły za używanie takiej chmury "gadająco-słuchającej" :-) Przykład, który najbardziej dałoby się spieniężyć to doradca telefoniczny, który potrafi z nami porozmawiać o problemach technicznych i nigdy się nie myli. Sprzedawca, który zna dokładnie szczegóły całej oferty i dobiera nam idealnie do potrzeb produkt, a jeśli nie dobierze i tak coś sprzeda (patrz konsultaci w bankach). Taki bot gadający na VoIP to idealny produkt przyszłości.

Na rynku obecnie istnieje coraz więcej produktów sterowanych głosem hucznie nazywanych Internet Of Things, które zapoczątkował produkt Amazon Echo. W jednej z pierwszych wersji wyglądał tak:

Kolumna widoczna powyżej to komputer, który posiada stałe połączenie z chmurą obliczeniową firmy Amazon. Potrafi słuchać rozkazów i kilka sztuczek związanych z zakupami. Doradza jak ubrać się zależnie od pogody i przypomina wydarzenia z terminarza. Ogólnie może być użyty w różnych aplikacjach, bo posiada dedykowane API. Nowsza wersja tego wynalazku to ALEXA lub Echo Dot/ Informacyjnie filmik, jakie są podstawowe możliwości tego wynalazku:

Niezbyt długo trzeba było czekać na odpowiedź konkurencji i tak pojawił się Google Home - oto proste porównanie:

Oczywiście Siri to odpowiedź firmy Apple na potrzeby rozpoznawania mowy i aplikacje wokół tego tematu. Oto rzut okiem i uchem:

Mercedes, Audi, Ford i Fiat wykorzystują do sterowania wyposażeniem multimedialnym i telefonem pokładowym samochodu rozwiązania lidera rynku – firmy Nuance. Podobnie jak Siri w iPhone'ie 4S, sterowany głosem system nawigacji jest w stanie rozpoznawać nazwiska z książki adresowej podłączonego do niego telefonu.

Skoro już przebrnęliśmy przez przedstawienie tematu rozpoznawania mowy, czas na prezentację firmy, która zamknęła rozpoznawanie mowy w krzem i postanowiła, że wyda procesor mowy NLP-5x.

A całość to RISC 16-bitowy DSP dedykowany do dziedziny ASR. Posiada specyfikację techniczną wraz z szeroko rozumianym opisem możliwości aplikacyjnych. Posiada w sobie HMM i jest energetycznie mało zasobożerny jeśli chodzi o zasilanie. Jest to pierwszy tego typu kompletny produkt na rynku, ale rodzi się pytanie, czy rynek na pewno potrzebuje takiego podejścia ... zobaczymy wkrótce.
Poniżej diagram blokowy takiego procesora:

Przykłady działania dostępne są w sieci:

Dużo napisałem o generowaniu mowy, ale synteza mowy też jest elementem ten dziedziny i można poznać jej historię w przystępny sposób tutaj
Na szczególną uwagę zasługuje też nowy kierunek Biometryczna Identyfikacja Tożsamości, który rokuje wielkie nadzieje w użyciu unikalnych cech każdego człowieka jakim jest aparat mowy do potwierdzenia wiarygodności danej osoby rozpoznawalnej wysławianiem się.

Czekam z niecierpliwością, kiedy ten chip stanie się standardem w wyposażeniu wielu urządzeń RTV/AGD i będzie można poznać jego kolejne generacje, jak ma to miejsce w mikrokontrolerach z rodziny ARM.

Linki:
Rozpoznawanie mowy w python wlasny jarvis kopii zapasowej speech_recognition moduł języka Python Kolejny projekt Elona Muska rodem z science-fiction. Chce połączyć komputer z mózgiem - nowa firma Elona Muska NEURALINK

5 grudnia 2016

FPGA w chmurze - Amazon EC2 F1 - logika programowalna dla każdego

Na ostatniej konferencji re:Invent organizowanej od kilku ładnych lat przez firmę Amazon pojawił się ciekawy smaczek Amazon EC2 F1 instances with field programmable gate arrays (FPGA). Chciałbym wypowiedzieć się na ten temat, bo uważam, że jest to kolejny krok milowy w dziejach rozwiązań dedykowanych, które dotyczą programowalnej elektroniki. A tam gdzie jest software oraz hardware jest też moje zainteresowanie ;-) szczególnie, kiedy jest wzmianka o develop, simulate, debug, and compile your hardware acceleration code

Tym wpisem chciałbym przybliżyć tych, którzy nie widzą co to FPGA i do czego można tego wynalazku użyć. Wspomnę też o płytkach rozwojowych, na których można ćwiczyć programowanie matryc programowalnych. Jako smaczek dnia zapodam swoją wizję użycia FPGA w chmurze - Amazon EC2 F1 a dokładnie jaką widzę przyszłość chmur internetowych wspieraną przez matryce programowalne.

Jakie rozwiązania poprzedzały FPGA ?

Jest to sprzęt w elektronice nazywany reprogramowalną macierzą, w której można odwzorować układy logiczno sekwencyjne bez specjalnego lutowania ich, czyli wykonywania projektowania obwodów drukowanych i montażu podzespołów bazowych, w tym układów z bramkami logicznymi. W latach 80-tych do późnych 90-tych poprzedniego wieku używało się układów TTL oraz w bogatszych wersjach MOS i CMOS, które miały określone bramki, poprzez ścieżki na płytce łączyło się bramki w układy sekwencyjno-logiczne i dawało to efekt jak poniżej prosta płyta główna CPU zbudowana z bramek:

Na drodze rozwoju matryc programowalnych były jeszcze układy PLD i CPLD, które były bardzo dobrym wstępem FPGA. Kiedyś używałem PLD do dekodowania adresów w systemach mikroprocesorowych MCS-51. Wyglądało to dość obiecująco, kiedy równanie logiczne można było wypalić w układzie wielokrotnie podczas dopracowywaania prototypu.

A tak wyglądał prototyp z układem CPLD, który umożliwiał eksperymentowanie i uruchamianie macierzy logicznych (1 układ scalony zamiast ~40 - patrz na drugi obrazek powyżej):

Czym jest FPGA ?

Prześledziliśmy historię i doszliśmy do FPGA, czyli układów charakteryzujących się strukturą, która jest prostokątną macierzą elementów składającą się z części logicznych nazywanych komórkami. Komórki umieszczone są w otoczeniu komutacyjnym kanałów połączeniowych. Dzięki zastosowaniu standaryzacji można te układy programować i nadawać im przeznaczenie w dowolnym momencie zmieniając ich wnętrze.

Układy FPGA używane są w cyfrowym przetwarzaniu sygnałów, lotnictwie i wojsku, w fazie prototypowej układów ASIC i w wielu innych dziedzinach. Aby zdefiniować zachowanie układu FPGA używa się języka opisu sprzętu takiego jak Verilog czy VHDL. Następnie przy pomocy narzędzi syntezy generuje się listę połączeń, która potem w procesie implementacji jest odwzorowywana w konkretnym układzie. Należy zwrócić uwagę, że proces syntezy dopuszcza tworzenie układów logicznych dowolnych rozmiarów, podczas gdy proces implementacji jest próbą wpisania go do konkretnego układu FPGA, gdzie może zabraknąć zasobów do realizacji zadanej logiki. Dlatego większość środowisk pozwala na przeprowadzenie pełnej symulacji działania i rozmieszczenia bramek na macieży FPGA. W oprogramowaniu firmy Altera wygląda to tak:

Jak zaprogramować FPGA ?

W celu zdefiniowania działania naszej logiki na układach FPGA używamy języka opisu sprzętu HDL takiego jak Verilog czy VHDL. Producenci układów FPGA udostępniają nieodpłatnie bardzo zaawansowane symulatory i kompilatory, które ułatwiają uruchomienie wytworzonej macierzy na układzie FPGA. Oto lista popularnych symulatorów HDL dla FPGA. Oto filmik pokazujący jak dalece zaawansowane są takie środowiska do symulacji FPGA:



Warto wspomnieć o tym, że FPGA to świat, w którym można zrealizować wiele różnych przedsięwzięć. Np. chcemy mieć ATARI lub inną architekturę to w serwisie Open Cores znajdziemy wiele projektów związanych z ciekawymi tematami wokół logiki programowalnej. Przykład starych mikrokontrolerów jest błachy, gdyż coś co rzuca się w ochy na OpenCores to PicoBlaze, czyli procesor zbudowany pod FPGA / ASIC i umożliwiający zrównoleglanie obliczeń, kiedy takich procesorów softwarowych na jednen układ FPGA wrzucimy np: kilka tysięcy :-) Tak, to jest możliwe i jeszcze jedno: tak działają karty graficzne GPU, które posiadają często układy ASIC i potrafią się przeprogramowywać w locie zależnie od zastosowania. A jak wiadomo GPU w obliczeniach przoduje i to dzięki mocy reprogramowanych matryc mamy takie wielkie krajowe produkty jak np: gra Wiedźmin wykorzystujące moc GPU. Do innych typów jednostek należą procesowy sygnałowe DSP, dla których też jest wiele propozycji na stronie Open Cores. A co ciekawe popularne stają się bardzo układy kryptograficzne oparte na FPGA, co w świecie szyfrowanych połączeń i zmierzchu HTTP/2 coraz bardziej nabiera na wartości :-)

Jakie moduły do nauki FPGA polecam ?

Oto lista płytek z FPGA, które mogę polecić. Bawiłem się DE10-Lite Board i uważam to za pełen wypas na początek przy relatywnie niskiejj cenie w stosunku do możliwości. Wygląda to tak:



Nie przypadkowa jest też możliwość podłączania modułów w formie wyprowadzeń modułów dla Arduino Uno.
Na płytce znajdziecie: 2x20 GPIO, ADC, SDRAM, akcelerometer, wyjście VGA, wyświetlacze 7-segmentowe, przełączniki. To wszystko + 50000 elementów logicznych do zaprogramowania stwarza optymalne warunki deweloperskie.

Co robi FPGA wśród usług firmy Amazon ?

Niewątpliwie karierę konkurencyjną w świecie chmur i wirtualizacji wszystkiego co możliwe w IT. Dodatkowo ułatwia programistom FPGA eksperymenty. Najpewniej otwiera nowe okno w świecie symulatorów i prototypów, których zbudowanie to był dla wielu innowacyjnych firm ogromny krok milowy.

Co może zrobić użycie "FPGA in the Cloud" w niedalekiej przyszłości ?

W zastosowaniu Cloud widać trendy związane z obliczeniami, czyli przetwarzanie dedykowanymi algorytmami obrazów/dźwięków/filmów/danych. Jak można sobie wyobrazić serwerownia przyszłości może zawierać klocki zmieniane w ramach potrzeb, bo przeprogramujemy sobie FPGA i mamy wydajny system do obsługi storage, a np: nocą w ramach przestojów przetwarzamy obrazki i przerzucamy instancję na inny tryb, która jest lepiej utylizowana w tych zadaniach batchowych. Daje to nam obraz wyprzedzający to co mamy dzisiaj: do masowego przetwarzania obrazków (lub AI) najlepszy będzie rack z kartami GPU. Jeśli chcemy taniej to teraz wiele tańszych skrzynek przeznaczamy do czegośtam a może wystarczą dwie instacje F1 nafaszerowane różnymi dziedzinowymi blokami i to pospinane z logiką usług backendowych.
Ta wizja związana z F1 to początek innego sposobu (softwerowego) patrzenia na możliwości rekonfiguracji dedykowanych usług. Kto wie, czy po czasie nie stanie się to tańsza metoda serwowania czegokolwiek, bo mając macierz można na niej osadzić softwerowe procesory do przetwarzania sygnałów, zbudować komórki pamięci, mostki, generatory sygnałów, AI, etc...
Zobaczymy, jak się to spopularyzuje, bo AWS market pokazuje, że będzie można używać lub kupować wiele gotowych aplikacji osadzanych na F1.
Wśród zainteresowanych F1 nie zabraknie pewnie górników BitCoin. Jeśli przy okazji dla nich zrobili w Amazonie usługę F1, to oddali wielki ukłon w stronę ich dziedziny. Na pewno chęć zysku kopaczy bitcoin spowoduje spływ kasy za czas działania na kopaniu instancji Amazon F1. Tak na serio to jest przykłąd spłycający możliwości FPGA i Amazon F1.

23 października 2016

Platforma programistyczna do tworzenia robotów ROS (Robot Operating System) pomaga inżynierom już 8 lat

Jak większość ludzi z branży IT w tym również ja, nie przechodzę obojętnie obok robotów i tematów związanych z robotyką. Tym razem warto spojrzeć na platformę do oprogramowania robotów ROS.

Tak wiele jest przeróżnych amatorskich rozwiązań do zbudowania robotów w oparciu o OpenSource + Arduino + gotowe moduły, że każdy z Nas, po zbudowaniu kilku robotów i skopiowaniu/zmodyfikowaniu poprzedniej wersji kodu (udoskonaleniu lub zmianie algorytmów) przychodzi w stan refleksyjny z serii "co dalej...". Jak to była w inżynierii warto zastanowić się, jak daleko chcemy zajść w konstrukcjach robotycznych. Każda sklejanka bibliotek różnej maści, która działa i cieszy amatora konstruktora jest czymś pozytywnym i jak najbardziej odkrywczym. Jednak kiedy mamy plany dalekosiężne w budowanie robotów i chcemy odkrywać więcej ciekawych możliwości - i rozwijać się w oprogramowaniu ciekawszych - robotów przychodzi nam na myśl słowo framework. Najbardzej marzy się nam platforma do konstruowania robotów. Właściwą odpowiedzią an takie potrzeby będzie ROS (Robot Operating System), czyli projekt OpenSource, który doczekał się wersji produkcyjnej i w zagościł w laboratoriach wielu dużych graczy na rynku w konstrukowaniu nowoczesnych robotów.

Na wstępnie filmik pokazujący możliwości jakie na dzień dzisisejszy posiada ROS - miłego oglądania.

Spróbuję wyjaśnić pokrótce, dlaczego platformę ROS uważam za profesjonalny produkt OpenSource.
Na wielu forach internetowych i w dyskusjach z ludźmi spotykam się z opiniami, że programiści oprogramowania robotów nie mają czasu poznać ROS, chociaż bardzo by chcieli. Jawi się im to jako zbyt duży system i niezbyt pasujący do ich np: samojezdnych robotów. Z drugiej strony wszelkie nowoczesne funkcjojnalności t.j. rozpoznawanie otoczenia przez robota, unikanie przeszkód, komunikacja intersystemowa, wizualizacja trasy w 3D, itp. chętnie by uruchomili na swoim robocie. Czas najwyraźniej zmienić sposóśb patrzenia na budowanego robota z zabawki na produkt. Jest wówczas spora szansa na uzyskanie wymienonych wyżej funkcjonalności niejako z paczki :-) Tak, dokładnie chodzi mi o "nie wymyślanie koła od nowo" i to daje programistom robotów platforma ROS.

Chciałbym przedstawić, co można zrobić w takiej platformie oprogramowania robotów Open Source jaką jest ROS. Przede wszystkim ROS to ekosystem, który składa się z:

Na poniższym filmie widać, że ROS to nie tylko soft do robotów, ale również do prototypowania interfejsów bazujących na szkieletowych/szablonowych ruchach człowieka używanych do sterowania (w tym przypadku żółwiem)

Poniżej zamieszczam przykład użycia platformy ROS do eksperymentu z robotem, który porusza się w środowiksu i poznaje je, dzięki czemu prędkość robota zależy od wiedzy o otoczeniu a nie jest blokowana przez kolizję z otoczeniem. Bardzo kompleksowy eksperyment, który naświetla też, jak wybgląda zestaw narzędziowy ROS i jak elastycznie można się nim posługiwać.

Kolejny przykład to połączenie ROS i OpenCV, czyli biblioteki do rozpoznawania/przetwarzania obrazów. Jest to bardzo silny trend w kierunku AI w robotach, aby używając kamery rozpoznawać kształy, kolory, śledzić cele.

Symulacja i możliwości uruchomienia robota "na sucho" stanowi założenie platformy ROS, więc jeśli chcesz stworzyć coś ciekawego i używać ROS możesz rozpocząć od serii dostępnych tutoriali. Polecam, jest to dość przemyślana platforma robotyczna i dzięku dodatkom rozwiążemy najczęstsze zagadki z robotycznego świata sprawniej, bo użyjemy implementacji wartościowych algorytmów w wersji Open Source. Więc nie trać czasu na zastanawianie się, gdzie warto zacząć uczyć się systemu operacyjnego robotów ROS - poniżej załączam szybki start.

Warto wspomnieć tutaj o wbudowanym w platformę ROS symulatorze 3D o nazwie GAZEBO, dzięki któremu można przećwiczyć system operacyjny naszego robota w wirtualnej rzeczywistości. Tak, można poustawiać meble, przeszkody, ściany, labirynty i obejrzeć, co zrobi nasz robot ew. farma robotów. Najważniejsze jest to, że zdarzenia systemowe na kolejkach oraz zmienne wystawione z robota możemy róœeniż podglądać na bierząco, co pozwoli nam wychwycić wcześnie wady naszego oprogramowania i pozwoli zaoszczędzić cenny czas.

Linki:
Wprowadzenie do systemu operacyjnego robotów ROS - przykład kodu w języku Python
Pi Robot - ROS pomaga w nawigacji
Polecane książki n.t. ROS Mastering ROS robotic programming ROS w przykładach
Hardware ROS
KOnferencja ROS 2016 - dostępne są filmy i filmy z każdej prelekcji
Nauka programowania robotów z użyciem języka Python