•  

    pokaż komentarz

    Pieprzony zlodziej Zuckerberg (ukradł pomysłna Facebooka braciom Winklevoss). Nie dość że ukradł pomysł to jeszcze kradnie dane.

  •  

    pokaż komentarz

    xD coś machine learning wujowo im działa

  •  

    pokaż komentarz

    Z dupy trochę ten problem. Wysyłają zewnętrznym firmom rozmowy audio, żeby je przetłumaczyli na tekst w celu budowania baz testowych do uczenia sieci neuronowych, które potem będą automatycznie tłumaczyć mowę na tekst.

    Wszyscy tak robią lub robili... Google, Amazon, MS, IBM, etc... Każda duża firma która ma swoje algorytmy do automatycznej transkrypcji nie ma innego wyjścia. Obecnie tego typu algorytmy się nie projektuje tylko uczy... Do uczenia potrzebne są gigantyczne bazy z przykładami. Trzeba mieć zarejestrowane pary nagrań i tekstu który jest na tych nagraniach. Im więcej będzie takich danych, dla większej liczby mówców, w różnych warunkach, dla różnych urządzeń rejestrujących tym sieci neuronowe nauczą się robić dokładniejszą transkrypcję.

    Język mówiony jest bardzo trudny do automatycznego rozpoznawania. Jest ogromna wariancja, są slangi, narzecza, często wyraz jest niezrozumiały ale wynika z kontekstu więc można go estymować, czasami słowo może znaczyć co innego w zależności od kontekstu, jeżeli chce się dobrze rozpoznawać to trzeba analizować dłuższe sekwencje a nie pojedyncze wyrazy.

    W rezultacie zgaduję, że dla każdego języka trzeba przygotować setki tysięcy albo wręcz miliony porcji danych. Dlatego robi się to zewnętrznymi firmami.

    Sam proces opisywania nie powoduje wycieku danych. Opisują to tysiące osób, każda otrzyma max kilkusekundowy fragment rozmowy. Można bez problemu zapewnić, żeby żaden "opisywacz" nie otrzymał dłuższego fragmentu rozmowy. Z kilku sekund wyrwanych z kontekstu nic nie wycieknie, zwłaszcza że pracownik robiący transkrypcję nie zna osoby mówiącej.

    Jeżeli proces ręcznej transkrypcji jest robiony poprawnie to żadnego wycieku danych nie będzie. Żadnego pogwałcenia regulaminu też nie będzie bo to na pewno mieści się w zakresie EULA na którą użytkownicy FB się zgodzili...

    Czy jest się o co oburzać? Wątpię. Jak chcemy mieć elektronicznych asystentów reagujących precyzyjnie na to co do nich mówimy to nie ma obecnie innej opcji jak uczy je tak jak opisałem wyżej. Jeżeli ktoś nie chce żeby jego głos był automatycznie tłumaczony to niech nie kupuje takiego sprzętu, wyłączy tą funkcję w komórce i nie gada przez aplikacje FBukowe/Googlowe. Są apki do gadania z szyfrowaniem end-to-end.

    Taki mamy nowy-wspaniały-świat ;-) trzeba się pogodzić z tym, że jak coś gadamy publicznie to będzie to analizowane. Nie ma się co kopać z koniem, tylko zaakceptować ten fakt i dostosować się do niego. Jak idziemy do sklepu i rozmawiamy z ekspedientką to nikt jej nie robi wyrzutów że słucha ;-), nikt jej też nie każe wymazać sobie z pamięci tego co powiedzieliśmy, barwy naszego głosu, widoku twarzy, etc... Jak wrócimy to sklepu ponownie i ekspedientka nas rozpozna i zapyta czy "to co wczoraj" to nikt awantury nie robi że sobie zapamiętała nas i co kupowaliśmy wczoraj.

    •  

      pokaż komentarz

      Można bez problemu zapewnić, żeby żaden "opisywacz" nie otrzymał dłuższego fragmentu rozmowy. Z kilku sekund wyrwanych z kontekstu nic nie wycieknie, zwłaszcza że pracownik robiący transkrypcję nie zna osoby mówiącej.

      @kwanty: no na pewno tak robili, w trosce moralność świadczonych usług xD a chociaż, jak sam zauważyłeś, kontekst jest często kluczowy, to względy etyczne wzięły górę nad chęcią poprawy tego altruistycznego algorytmu

    •  

      pokaż komentarz

      @kwanty: ej, ale nie ma serio zadnych innych źródeł danych?
      Filmy, audycje radiowe, sluchowiska, ebooki, piosenki. Ch!? z tym, na youtube jest masa filmików, ktore tez mozna użyć i bedziesz mial rożne narzecza/slangi/jezyki/terminologie, jakości nagrania, odszumowane i zanieczyszczone.

      Z kilku sekund wyrwanych z kontekstu nic nie wycieknie, zwłaszcza że pracownik robiący transkrypcję nie zna osoby mówiącej.

      Jestes absolutnie pewien, ze taka sytuacja nie zaistnieje?

    •  

      pokaż komentarz

      Filmy, audycje radiowe, sluchowiska, ebooki, piosenki.

      @bacanahali: stosunkowo wzorcowy i poprawny język z małą ilością slangu

      Ch$# z tym, na youtube jest masa filmików, ktore tez mozna użyć i bedziesz mial rożne narzecza/slangi/jezyki/terminologie, jakości nagrania, odszumowane i zanieczyszczone.

      @bacanahali: Youtube nie jest ich. I nie żebym bronił FB, ale akurat Twoje argumenty tu nie pasują.

    •  

      pokaż komentarz

      @metaxy: Wzorcowy jezyk w ebookach i słuchowiskach - tu sie zgodze i przyznam, ze sie zapedzilem. Ale filmów, piosenek (zobacz sobie jak ludzie pisza o swoichpiosenkach 'misheard') i audycji, gdzie ktos dzwoni do radia i jest na antenie, jest uwazam masa do wykorzystania.

      YT nie ich - ok, ale czy to oznacza, ze nie moga z niego skorzystac?

    •  

      pokaż komentarz

      Ale filmów, piosenek (zobacz sobie jak ludzie pisza o swoichpiosenkach 'misheard') i audycji, gdzie ktos dzwoni do radia i jest na antenie, jest uwazam masa do wykorzystania.

      @bacanahali: nadal zobacz jak dalekie jest to od codziennych rozmów. Tych dzwoniących do radia po pierwsze jest mało, po drugie - nadal nie ich.

      YT nie ich - ok, ale czy to oznacza, ze nie moga z niego skorzystac?

      @bacanahali: no to zacytuję samego siebie

      nie żebym bronił FB, ale akurat Twoje argumenty tu nie pasują.

      @metaxy: nie wiem czy z legalnego punktu widzenia mogą - pewnie mogą przy założeniu odpowiedniego anonimizowania danych. Czy to "moralne i właściwe" - też nie wiem.

    •  

      pokaż komentarz

      ej, ale nie ma serio zadnych innych źródeł danych?
      Filmy, audycje radiowe, sluchowiska, ebooki, piosenki. Ch#? z tym, na youtube jest masa filmików, ktore tez mozna użyć i bedziesz mial rożne narzecza/slangi/jezyki/terminologie, jakości nagrania, odszumowane i zanieczyszczone.


      @bacanahali: Oczywiście, że są inne dane ale "swoje" dane mają o wiele większą wartość bo:

      - zostały zgromadzone w ten sam sposób w jaki będą później używane (np. komórka w trybie głośnomówiącym a nie pro-mikrofon jakiegoś youtbera),

      - mają mnóstwo dodatkowych metadanych i kontekst, wiadomo kto gadał, gdzie mieszkał, jaki ma profil, co kupował, jakie strony WWW odwiedzał, w jakich warunkach było robione nagranie, etc...

      - jest ciągłość danych, możemy zgromadzić od jednej osoby dużo danych i sprawdzać jaki jest postęp uczenia na tej osobie czy robić wręcz algorytm do profilowanego uczenia (coś na zasadzie reinforcment learning),

      - dane są o wiele bogatsze niż to co jest publicznie dostępne, jest więc szansa na zrobienie lepszego algorytmu niż to co jest dostępne.

      Nie bez powodu mówi się, że wyścig w ML wygrywają nie najlepsze zespoły, tylko te które mają dostęp do najlepszych danych.

      Jestes absolutnie pewien, ze taka sytuacja nie zaistnieje?

      Absolutnie nie, ale jest to skrajnie mało prawdopodobne. No pomyśl jaki użytek może zrobić jakiś tester, który usłyszał kilka sekund rozmowy randomowego gościa. Tester najpewniej podpisał jakiś papier o poufności pod groźbą gigantycznej kary (jak to w USA), wiadomo co tester słuchał więc gdyby były jakieś problemy to FB przerzuci karną i majątkową odpowiedzialność na tego gościa. Ryzykują co najwyżej jakieś wpadki wizerunkowe, co w przypadku FB nie jest niczym nowym...

    •  

      pokaż komentarz

      @kwanty:

      Obecnie tego typu algorytmy się nie projektuje tylko uczy.

      ( ͡°( ͡° ͜ʖ( ͡° ͜ʖ ͡°)ʖ ͡°) ͡°) #nieznamsiealesiewypowiem
      Algorytmów SI się nie projektuje, dlatego wszędzie trzeba na gwałt inżynierów SI #fucklogic

    •  

      pokaż komentarz

      @kwanty: A skoro już uzyskali ten algorytm, w taki czy inny sposób, to co właściwie z nim robią? Do czego mogliby użyć algorytmu zdolnego spisać rozmowy swoich użytkowników? Pewnie nie z algorytmem, który wyciąga z tego dane.

    •  

      pokaż komentarz

      @Okcydent: To jest dobre pytanie. Wydaje mi się, że głównie po to żeby zrobić dobrze działającego asystenta. Z tekstem o wiele lepiej się pracuje niż z dźwiękiem. Łatwiej się przeszukuje, archiwizuje i analizuje.

    •  

      pokaż komentarz

      że jak coś gadamy publicznie to będzie to analizowane.

      @kwanty: ,,że jak coś gadamy publicznie to będzie to analizowane.,,
      to transkrypcja nagrania prywatnych rozmów, czyli ...........nielegalne ,
      problem jest może inny bo będąc użytkownikiem srejsa, zgadzasz się w regulaminie, nawet nie do końca wiadomo co

  •  

    pokaż komentarz

    A wykopki i tak będą płakać na Huaweia, bo szpiegujo xDDD

  •  

    pokaż komentarz

    Kogo to obchodzi? Z fejsbuka korzystają już tylko spamerzy i kretyni.