Remek Kinas's banner
Remek Kinas's profile picture

Remek Kinas

@KinasRemek9,335 subscribers

AI Researcher | Bielik LLM co-creator | Kaggle Grand Master

Shorts

Optymalizuję ⚡️⚡️⚡️ więc … tradycyjnie już Windows - bye bye 👋 Fedora wleciała 💪👍💪 Benchmark dla DGX to 67 tok/sec dla GPT- OSS-20B 4bit. No to zobaczymy …. Platforma AMD w HP Z2 G1a. W środku AMD Ryzen™ Al Max+ 395 iGPU. #HP #ZbyHP #HPIncPolska #StacjeRoboczeHP [płatna współpraca]

Optymalizuję ⚡️⚡️⚡️ więc … tradycyjnie już Windows - bye bye 👋 Fedora wleciała 💪👍💪 Benchmark dla DGX to 67 tok/sec dla GPT- OSS-20B 4bit. No to zobaczymy …. Platforma AMD w HP Z2 G1a. W środku AMD Ryzen™ Al Max+ 395 iGPU. #HP #ZbyHP #HPIncPolska #StacjeRoboczeHP [płatna współpraca]

26,820 次观看

Videos

KinasRemek's profile picture

W Polsce ekscytacja „Oze sr…e”, a w San Francisco i okolicach „Waymo sr…jmo”. Śmieję się bo mój wniosek po jeżdżeniu tym wynalazkiem jest taki, że wolę niekiedy oddać się robotowi, autonomii niż człowiekowi. Ale po kolei … Autonomia wtopiła się u ulice Doliny Krzemowej. Waymo ale też inne (na razie w fazie testów) to bardzo częsty widok. W zasadzie nic specjalnego …. Widzisz albo samochód widmo - ktoś siedzi zwykle z tyłu, albo kompletne widmo … wóz samotnie jadący gdzieś … gdzie? On tylko wie. Oglądam te stwory w różnych sytuacjach - pusta ulica, zmiana organizacji ruchu i kompletny chaos przed koncertem, ruch uliczny i centrum miasta. We wszystkich tych punktach czasoprzestrzeni radzą sobie wyśmienicie. Wzorce, które łatwo dostrzec: zdecydowanie (niektórzy mówią agresja) - starają się wcisnąć na pasy między przechodniami, chcą zmieniać pasy ruchu, wykorzystują różne takie luki, widzą przestrzennie ale też czytają (napisy na drodze - gdzie zostawić miejsce wolne), przepuszczają bardzo kulturalnie samochody włączające się do ruchu (no ja bym kiwnął ręką w podziękowaniu za takie ustąpienie), współpracują. Ten ostatni element jest ciekawy - tworzą autonomiczne swarmy. Wykorzystują mądrość grupową. Widziałem takie sytuacje gdzie Waymo między sobą współgrały i przepuszczały się na wzajem. To robiło ogromne wrażenie jak same się organizowały. Z punktu widzenia AI - fajna fuzja różnych modalności - LiDAR, wizja, radar, czujki dźwięku, świadomość grupowa pojazdów.

Remek Kinas

57,050 次观看 • 2 个月前

KinasRemek's profile picture

Kolejny etap software engineering’u 🤩 Brak kodu!!! Zamiast dawać repo z kodem przekazywać repo z wymaganiami - product requirements documentation, architecture requirements, standards w etc. Wszystko zapisane w markdown. Zero kodu. Niech odbiorca sam sobie zakoduje :) Wczoraj wieczorem skończyłem właśnie pisać takie repo (Antec - personalny system agentowy - integruje najlepsze praktyki z 16 przebadanych systemów typu Clawd). W repo jest TYLKO komplet "ludzkich" dokumentów (jak kartki zapisane z koncepcją biznesową). Bez implementacji. Założenie jest takie, że klient pobiera repo, modyfikuje pliki wymagań markdown pod swoje potrzeby (dodanie, zmiana wymagań, wymagania technologiczne - typy baz danych, język programowania, jak ma być wdrażane np. docker czy w usłudze chmurowej). Uruchamiamy Claude Code (Codex) i system ten developuje całość do wdrożenia i utworzenia CD/CI. Puściłem dzisiaj rano implementację. Claude Code chodzi w 100% autonomicznie. Zarządza contextem przez podział wszystkiego na epic oraz user stories (tak opisałem wymagania). Fazy przekazywane są za pomocą tzw. handoverów (między fazami implementacji) - plików rozgrzebanej pracy (chociaż zakładam jak w scrum, że funkcjonalność jeśli podjęta musi być zaimplementowana, przetestowana - najwyżej może być różnica w zakresie implementacji np. 80%). Oprócz tego oczywiście wszystko opisane w Dodatkowo pliki (jako lessons learned) oraz plan (do planowania kolejnych sprintów). Stan na teraz: - liczba linii kodu - 16.006 l- iczba testcasów (trzy poziomy - komponent, integracja, e2e) - 283 - work in progress - zaimplementowano fazę 1 na 4 - planowane oddanie produktu jutro nad ranem (tak szacuję) Jak skończy implementację to zdam Wam raport ile było poprawek. Cel jest taki by doprowadzić do sytuacji gdzie kopiujecie repo, robicie zmiany, uruchamiacie klienta (Codex, Claude) po jakimś czasie otrzymujecie finalny produkt. Zobaczymy czy wyjdzie.

Remek Kinas

52,000 次观看 • 3 个月前

KinasRemek's profile picture

Obiecałem napisać o pre-prototypie Bielik-11B-R1 🦅 (nazwany przeze mnie alpha) :) Celem eksperymentu R&D SpeakLeash | Spichlerz było sprawdzenie na ile wykonalny jest trening Bielika-11B w formule DeepSeek-Zero (czyli tylko RL -GRPO). Zrobiliśmy to! Wiązało się to z przygotowaniem odpowiedniego datasetu, walidatorów oraz treningu. I teraz ... wstępne myśli: *️⃣ Przetrenowaliśmy dwa modele Bielik-1.5-mini oraz Bielik-11B w pełni po polsku (polskie dane, polskie promptowanie modelu tak by model "myślał" po polsku). Nie ma destylatów z R1 - mamy zadanie oraz polityki (sprawdzają poprawność odpowiedzi modelu i na tej postawie model otrzymuje "nagrodę" albo "karę" jednocześnie pilnując by model nie "odleciał" w kierunku nagród - ma być blisko oryginalnego modelu ale jednak zachowywać się trochę inaczej - "myśleć"). *️⃣ Wiele obecnie trenowanych modeli (tych pokazywanych jako demo) ma bardzo ograniczone możliwości (ograniczają się do prostych zadań i jednorodnych) - DeepSeek zrobił OGROMNĄ pracę by generalizować liczbę zastosowań (myśli w zadaniach matematycznych, w testach, zagadkach logicznych, medycynie itd). *️⃣ Droga do przygotowania takiego modelu wymaga sporego nakładu pracy na przygotowanie zdywersyfikowanych datasetów (mnie się udało dosłownie dotknąć kilkunastu różnych typów w zakresie reasoningu ale to kropla w morzu - nadal są jednolite i ograniczają się do prostych sposobów walidacji) oraz wymyślenie sposobu walidacji prawidłowości odpowiedzi (to Verifiable Reinforcement Learning) - tzw. oracle (może być reguła jeśli się da lub metamodel). *️⃣ Zaskakujące jest jak model sam z siebie kombinuje by "odkryć" i dopasować się do reguł (policy) - to otwiera ogromny obszar do badań związanych z tym jak budować polityki RL (pewnie można kilka doktoratów na tym zrobić) - poprawność odpowiedzi, styl odpowiedzi, "a'ha momenty", weryfikacje odpowiedzi itd. *️⃣ Z "pamiętnika" treningowego (logów treningu) widać jak na początku model nie bardzo wie jak nauczyć się "rozumowania" - reward=0, loss=0, KL=0 po czym następuje punkt przełomowy - model generuje jedną odpowiedź, która jest "blisko" polityk i następuje moment "olśnienia" i podążanie za danym przykładem - od tego momentu mózg ożywa :) *️⃣Im dalej model się uczy tym widać, że optymalizuje długość procesu myślowego (thinking się skraca, staje się ubogi - więc szacun dla DeepSeek, że u nich to jest takie obszerne). *️⃣Im większy model (testowałem R1 na Bieliku-1.5-mini oraz na 11B) tym pełniejsze i bardziej rozbudowane ciągi myśli - kusi mnie by puścić na jeszcze większym modelu. *️⃣ Ogólnie metoda GRPO wymaga dużych zasobów, jest stosunkowo wolna ponieważ musimy generować w locie odpowiedzi modelu (by stworzyć grupę odpowiedzi i ją ocenić). *️⃣ Śmieszne ale nie widziałem w logach momentów "a-ha", o których pisze DeepSeek - może w polskim ich nie ma? :) A może są ale nie znalazłem ich podczas poszukiwania odpowiedzi modelu. Być może zadania były zbyt proste. Na pewno sprawdzimy.

Remek Kinas

71,383 次观看 • 1 年前

KinasRemek's profile picture

Sylwestrowe kodowanie nie jest złe ... 🥳 2500 cząsteczek z własnym DNA (kolor, rozmiar, zachowanie) rozpoczyna w całkowitym chaosie. Każda ma przypisany cel - punkt w napisie "2026". Stopniowo, jak w prawdziwej ewolucji, z chaosu wyłania się porządek. Fazy: - CHAOS - cząsteczki błądzą losowo, zachodzą intensywne mutacje - EWOLUCJA - pojawia się słabe "przyciąganie" do celów, cząsteczki zaczynają wędrować organicznymi trajektoriami - KONWERGENCJA - ruch staje się coraz bardziej uporządkowany - STABILIZACJA - napis "2026" jest gotowy Każdy organizm posiada genom z kilkoma genami: - Barwa, nasycenie, jasność - determinują kolor - Rozmiar - jak duży jest organizm - Prędkość - jak szybko się porusza - Metabolizm - jak efektywnie zbiera energię z odbić - Płodność - jak łatwo osiąga próg podziału - Długość życia - ile sekund przeżyje Zbieranie energii - Organizmy odbijają się od ścian i liter napisu "2026" - każde odbicie to źródło energii - jak jedzenie dla komórki. Żółty pasek pod organizmem pokazuje poziom energii. - Mitoza (podział komórkowy) - gdy organizm zbierze wystarczająco dużo energii, dzieli się na dwa potomki: Rodzic "umiera" (transformuje się): - Powstają dwoje dzieci, każde z 75% rozmiaru rodzica - Potomkowie dziedziczą DNA z mutacjami - mogą mieć inny kolor, prędkość, metabolizm... - Dzieci rozlatują się w przeciwnych kierunkach Starzenie i śmierć: - Każdy organizm ma ograniczoną długość życia (gen lifespan, średnio ~20 sekund): - Po 70% życia zaczyna się starzenie - organizm blednie, zwalnia, zbiera mniej energii - Po 80% życia nie może się już rozmnażać - Na końcu życia organizm umiera - kurczy się, wypuszcza iskry unoszące się w górę (dusza!), i znika - Zielony pasek pod organizmem pokazuje pozostałe życie (zielony → żółty → czerwony)

Remek Kinas

12,294 次观看 • 5 个月前