Duży model językowy PLLuM pochłonął 14,5 mln zł. Zapytaliśmy twórców, co zyskają Polacy

PLLuM to obok Bielika jeden z dwóch najpopularniejszych polskich dużych modeli językowych. Wkrótce ma się stać integralną częścią cyfrowych usług publicznych i aplikacji mObywatel. O tym, czym jest PLLuM, a czym nie jest, co w kontekście dużych modeli językowych oznacza ich "polskość" oraz jakie będą korzyści dla przeciętnego Kowalskiego z polskiego LLM-a opowiedział Biznes Info dr inż. Jan Kocoń z Wydziału Informatyki i Telekomunikacji Politechniki Wrocławskiej.
PLLuM – "polska sztuczna inteligencja" zasili cyfrowe usługi publiczne, w tym mObywatela
"Tworzymy fundament pod inteligentne usługi publiczne i innowacje, które będą realnym wsparciem zarówno dla administracji, jak i biznesu" – tak w lutym br. minister cyfryzacji Krzysztof Gawkowski prezentował PLLuM – duży model językowy określany mianem polskiego, który powstał we współpracy polskich uczelni, na czele z Politechniką Wrocławską, Centralnego Ośrodka Informatyki i instytutów Polskiej Akademii Nauk. Od tego czasu minął kwartał i coraz częściej mówi się o rychłej implementacji PLLuM-a w aplikacji mObywatel.
Według zapewnień ministra PLLuM to dowód na to, że w Polsce można rozwijać nowoczesne technologie na własnych warunkach, po polsku i z korzyścią dla obywatelek i obywateli. Budżet projektu przekroczył 14 mln zł, postanowiliśmy więc u źródła, tj. w zespole rozwijającym model, co za te pieniądze udało się uzyskać.
Ostrożności wobec ambitnych państwowych projektów informatycznych nigdy za wiele
Do ambitnych państwowych projektów będących odpowiedzią na nowinki techniczne w dziedzinie informatyki podchodzić należy z ostrożnością. Wieloletnie doświadczenie pokazuje, że najczęściej przedsięwzięcia przekształcane są w komercyjne projekty, zgodnie ze smutnym, acz popularnym w Polsce modelem uspołeczniania kosztów i prywatyzacji zysków. Dość wspomnieć Chmurę Krajową, która dziś, by zatrzeć konotacje, funkcjonuje już jako komercyjny biznes pod zmienioną nazwą OChK.
Czy z PLLuM-em będzie inaczej? Pewne zastrzeżenia może już budzić jego "polskość". Wbrew pierwszym sygnałom płynącym z ministerstwa cyfryzacji nie jest to bowiem autorski model, lecz oprogramowanie bazujące na otwartych LLM-ach, jak francuski Mistral czy opracowany przez Meta LLama. Rzecz w tym, że to wcale nie musi być wada, przeciwnie – praktyka racjonalizująca wydatki. Po co wymyślać koło na nowo, skoro można przeznaczyć budżet na prace lokalizacyjne, tj. "spolszczenie" modelu?

Jak powstaje polski duży model językowy – PLLuM od kuchni
Jak dowiadujemy się od dr. Koconia, PLLuM nie jest zwyczajnym forkiem czy sklonowanym repozytorium, przeciwnie. Choć bazuje technicznie na architekturach takich jak francuski Mistral czy LLama od Meta AI, jego polskość nie kończy się na warstwie językowej – różnicę ma czynić przede wszystkim zawartość korpusu, na którym został wytrenowany PLLuM. Oprócz takich zasobów jak Common Crawl (o którym szerzej – w kontekście bezpieczeństwa – za moment) PLLuM-a trenowano na danych licencjonowanych, tekstach specjalistycznych i urzędowych. Na tym jego lokalizacja się nie kończy:
Zespół projektowy ręcznie dostroił model przy użyciu polskich instrukcji i preferencji językowych, co czyni z PLLuM projekt unikalny i dostosowany do lokalnych realiów. Poprawa kompetencji modelu w zakresie języka polskiego jest widoczna w wielu benchmarkach uwzględniających zadania związane z językiem polskim. Dodatkowo model został już wdrożony w kilku firmach, które mogły wybrać inne modele językowe, a jednak wybrały PLLuMa do obsługi polskich użytkowników, m.in. firma Comarch.
Bazowanie na już opracowanych LLM-ach ma swoje konsekwencje licencyjne. W Polsce mamy bowiem w tej kwestii pewne zaniedbania – o ile coraz częściej mówi się, że oprogramowanie powstające za pieniądze podatników powinno mieć otwarte źródła i być do ich pełnej dyspozycji, to nadal zamknięty jest kod np. mObywatela. Choć COI jest zobowiązany do jego udostępnienia ustawowo, ważą się kwestie bezpieczeństwa. W przypadku PLLuM-a sprawa ma być prostsza:
PLLuM dostępny jest w kilku wariantach. Część modeli udostępniona została na licencji Apache 2.0, umożliwiającej swobodne – także komercyjne – wykorzystanie oraz modyfikację kodu źródłowego. Inne modele objęto licencją CC-BY-NC-4.0, która ogranicza użycie do celów niekomercyjnych (głównie badawczych), ale pozwala każdemu obywatelowi korzystać z efektów publicznie finansowanego projektu. Modele i dokumentacja są publicznie dostępne, m.in. przez platformę Hugging Face.
Skoro PLLuM dziedziczy po opracowanych już wcześniej część kodu i licencjonowanie, to myślący stricte transakcyjnie podatnik może sobie zadawać pytanie, na co zostało przeznaczone 14,5 mln zł z budżetu projektu. Oprócz wynagrodzeń, które stanowiły największy wydatek (co powinno być oczywistością, a nie zarzutem), prawdziwą gąbką na fundusze są moce obliczeniowe niezbędne do wytrenowania modeli:
Środki zostały przeznaczone przede wszystkim na wynagrodzenia specjalistów i infrastrukturę obliczeniową – w tym na dostęp do superkomputerów udostępnionych przez ACK Cyfronet AGH. Szczególnie zasobochłonne były procesy przygotowania i ręcznego opracowania danych treningowych – m.in. stworzenie ponad 40 tysięcy instrukcji oraz polskojęzycznego korpusu ponad 100 tysięcy preferencji,
Jak wyjaśnia dr. Kocoń, wszystko po to, aby pozwolić modelowi lepiej "rozumieć" i interpretować specyfikę języka oraz kontekstu kulturowego Polski.
Bezpieczeństwo – jak polski LLM jest chroniony przed zatruciem danych?
Obok takich kwestii jak "polskość" PLLuM-a czy jego licencjonowanie pytaliśmy także twórców o bezpieczeństwo modelu. Te są bowiem coraz częściej sygnalizowanym mankamentem współczesnego podejścia do rozwoju tzw. sztucznej inteligencji. O ile taka korporacja jak Meta może sobie pozwolić na trenowanie swoich modele na skradzionych za pośrednictwem torrentów utworach literackich, to w przypadku inicjatywy w dużej mierze państwowej jest to nie do pomyślenia.
Podejrzenia o wykorzystanie do nauki PLLuM zatrutych źródeł danych są uzasadnione. Twórcy deklarują, że korzystali m.in. z repozytorium Common Crowler, w przypadku którego analitycy cyberbezpieczeństwa dowiedli, że zindeksował on także wrażliwe dane, m.in. adresy mailowe.
Naukowiec zapewnił, że jednym z obszarów działań jego zespołu jest ścisła selekcja i filtrowanie danych. W sposób zautomatyzowany, z użyciem odpowiednich algorytmów, z danych, na których uczono PLLuM-a, odsiane miały zostać adresy e-mail, dane osobowe oraz szkodliwe treści, choć – co ciekawe – te ostatnie w kontrolowanym zakresie pozostały w zbiorach. "W pewnej ilości wręcz musiały się pojawić, by model rozumiał również takie treści" – wyjaśnia naukowiec.
Kiedy z PLLuM-a będziemy mogli skorzystać w administracji publicznej? W połowie maja podczas konferencji IMPACT 2025 minister Gawkowski zapewnił, że wdrażanie przebiega sprawnie. Przed upowszechnieniem dostępu, np. poprzez implementację w mObywatelu, potrzebne będzie jeszcze przeprowadzanie analiz ryzyka, co nie pozwoliło szefowi resortu cyfryzacji na wskazanie konkretnych terminów. Każdy może już jednak porozmawiać z czatbotem bazującym na PLLuM-ie – dostępny jest na stronie projektu pod adresem pllum.org.pl.





































