DAJ CYNK

Karmienie sztucznej inteligencji publicznymi danymi to błąd

Lech Okoń

Aplikacje

Sztuczna inteligencja nie powinna być karmiona danymi publicznymi

W dobie intensywnego rozwoju sztucznej inteligencji, firmy takie jak OpenAI, Meta i Google intensywnie poszukują danych do trenowania swoich modeli. W tym celu przeszukują internet, książki, podcasty i filmy. Jest jednak lepsze rozwiązanie.

Dane syntetyczne zamiast analizy chaosu, jaki stworzyliśmy w sieci

Syntetyczne dane to dane generowane sztucznie przez algorytmy uczenia maszynowego, często na podstawie niewielkiej ilości oryginalnych danych. Ali Golshan, którego firma Gretel umożliwia eksperymentowanie i budowanie na bazie syntetycznych danych, twierdzi, że są one bezpieczniejsze i bardziej prywatne niż dane publiczne. Dzięki syntetycznym danym można uniknąć luk, niekonsekwencji i uprzedzeń, które często występują w surowych danych publicznych.

Co więcej, syntetyczne dane pozwalają na precyzyjne zaprojektowanie zestawów danych dostosowanych do konkretnych aplikacji AI. Dzięki temu modele są dokładniejsze i niezawodne.

Korzystanie z danych publicznych wcale nie jest też takie łatwe

Korzystanie z danych publicznych wiąże się z wieloma wyzwaniami. Po pierwsze, surowe dane często zawierają niekompletne informacje, co ogranicza ich użyteczność w specjalistycznych zastosowaniach, takich jak prognozowanie wyników zdrowotnych. Po drugie, rosnąca presja regulacyjna ogranicza praktyki zbierania danych, co utrudnia firmom dostęp do świeżych, aktualnych informacji. Opóźnione informacyjnie dane publiczne są przy tym traktowane jako mniej wartościowe.

Społeczeństwo zorientowało się już, co z naszymi danymi najchętniej zrobiłyby firmy IT i era szybkiego działania i łamania zasad dobiega właśnie końca. Co warto przy tym zauważyć, firmy wykorzystują zwykle zaledwie 1-10% zebranych danych, a reszta to niewykorzystany balast, zwiększający jedynie koszty i ryzyko wycieku danych.

Syntetyczne dane mogą zmienić tę sytuację, umożliwiając bezpieczne udostępnianie danych w całej organizacji, bez ryzyka naruszenia prywatności.

Zobacz: Google dużo ryzykuje wprowadzając AI do wyników wyszukiwania
Zobacz: "Rozbieranie" kobiet przez AI to trend, który rośnie za szybko

Chcesz być na bieżąco? Obserwuj nas na Google News

Źródło zdjęć: Shutterstock - Andrii Yalanskyi

Źródło tekstu: Business Insider, oprac. wł