Jak działają detektory AI?
Detektory AI testują tekst w poszukiwaniu specyficznych wzorców. Oto najważniejsze metody, które stosują:
Analiza statystyczna
Teksty tworzone przez AI mogą różnić się pod względem układu słów, długości zdań i stylu. Detektory porównują te elementy z danymi zawierającymi teksty napisane przez ludzi.
Jak działa analiza statystyczna?
Algorytmy sztucznej inteligencji, takie jak GPT-4 czy podobne modele językowe, generują teksty na podstawie ogromnych zbiorów danych. W związku z tym, mimo że teksty te mogą wyglądać naturalnie, mają pewne specyficzne cechy, które różnią się od tych napisanych przez człowieka. Analiza statystyczna polega na wykrywaniu tych różnic poprzez badanie:
-
Rozkładu słów (statystyka n-gramów) – Modele AI generują teksty na podstawie prawdopodobieństw wystąpienia kolejnych słów. W detekcji używa się analizy tzw. n-gramów, czyli sekwencji słów o długości n. Na przykład, dwugram to para dwóch słów występujących obok siebie. Detektor może porównać, czy dane n-gramy występują z takim samym prawdopodobieństwem w tekstach pisanych przez ludzi i przez AI. Algorytmy często generują nienaturalnie powtarzalne sekwencje n-gramów, co może świadczyć o użyciu AI.
-
Częstotliwość słów – W tekstach tworzonych przez AI niektóre słowa mogą pojawiać się częściej niż w naturalnych tekstach ludzkich. Wynika to z faktu, że algorytmy często wybierają najczęściej występujące w bazie danych słowa, co prowadzi do powtarzalności. Detektory analizują, jak często występują poszczególne słowa i porównują to z typowym rozkładem słów w tekstach napisanych przez człowieka.
-
Długość i struktura zdań – Algorytmy AI mogą generować zdania o przewidywalnej długości. Zdania tworzone przez człowieka mają bardziej zróżnicowaną długość, są bardziej nieregularne, zarówno pod względem liczby słów, jak i złożoności struktury gramatycznej. AI, mimo że potrafi generować skomplikowane zdania, często stosuje bardziej jednolite wzorce. Analiza statystyczna może wykryć, czy długość zdań w tekście jest zbyt regularna, co może być wskaźnikiem wygenerowania przez AI.
-
Rozkład części mowy – Sztuczna inteligencja generująca teksty często korzysta z pewnych uproszczeń językowych, szczególnie w obszarze gramatyki. Na przykład, może częściej używać prostych czasowników, przymiotników lub fraz. Detektory AI analizują rozkład różnych części mowy, takich jak rzeczowniki, czasowniki, przymiotniki i przyimki. Jeśli występują duże różnice w porównaniu do typowego rozkładu w tekstach ludzkich, może to świadczyć o wygenerowaniu tekstu przez AI.
-
Styl i ton pisania – Sztuczna inteligencja, szczególnie w prostszych modelach, generuje teksty o bardziej neutralnym tonie, unikając nadmiernie emocjonalnego lub kreatywnego stylu. Analiza statystyczna może uwzględniać takie aspekty, jak użycie stylu formalnego lub nieformalnego, liczba pytań, wykrzykników, czy użycie trybu przypuszczającego. AI może mieć tendencję do używania bardziej formalnego, neutralnego języka, co można zidentyfikować statystycznie.
-
Powtarzalność i przewidywalność – Modele AI często powtarzają pewne frazy lub wyrażenia, szczególnie w dłuższych tekstach. Wynika to z faktu, że algorytm generuje tekst na podstawie wzorców z przeszłości. W przypadku ludzi taka powtarzalność nie jest aż tak widoczna, ponieważ człowiek ma tendencję do unikania nadmiernego powtarzania tych samych słów i fraz. Detektory analizują, jak bardzo powtarzalne są fragmenty tekstu, co może świadczyć o użyciu AI.
Mimo że analiza statystyczna jest skuteczną metodą wykrywania tekstów stworzonych przez AI, nie jest pozbawiona wyzwań. Modele AI, takie jak GPT-4, stają się coraz bardziej zaawansowane, co sprawia, że różnice między tekstami pisanymi przez ludzi a tymi generowanymi przez algorytmy są coraz mniej widoczne. AI potrafi symulować bardziej zróżnicowane struktury zdań, zmieniać długość i ton pisania, co utrudnia detekcję.
Ponadto analiza statystyczna opiera się na porównywaniu z wcześniej zebranymi danymi. Jeśli modele AI będą trenowane na coraz bardziej zróżnicowanych danych, detektory będą musiały być stale aktualizowane, aby nadążać za postępem technologicznym.
Modelowanie językowe
Detektory używają specjalnych modeli, które uczą się różnic między tekstami ludzkimi a generowanymi przez AI. Dzięki temu mogą rozpoznać wzorce typowe dla algorytmów.
Analiza logiczna i stylistyczna
AI często generuje teksty, które są mniej logiczne i mniej spójne. Detektory sprawdzają, czy tekst jest logiczny i poprawny pod względem gramatycznym.
Powtarzalność
AI bywa przewidywalne, zwłaszcza w dłuższych tekstach. Detektory szukają powtarzających się struktur i wyrażeń, co może wskazywać na tekst wygenerowany przez maszynę.
Kiedy warto używać detektora AI?
Detektory AI znajdują zastosowanie w wielu dziedzinach. Oto najważniejsze przykłady:
Edukacja
Nauczyciele mogą używać detektorów, aby sprawdzać, czy uczniowie nie posługiwali się AI przy pisaniu prac - zadań domowych, esejów, rozprawek itp.
Media
Redaktorzy mogą używać narzędzi do sprawdzania, czy artykuły lub felietony nie zostały napisane automatycznie.
Rekrutacja
Pracodawcy działów HR - rekruterzy - mogą sprawdzać, czy listy motywacyjne kandydatów zostały napisane przez nich, a nie przez sztuczną inteligencję.
Branża prawna
Detektory mogą pomóc w upewnieniu się, że ważne dokumenty prawne nie są dziełem AI, co mogłoby prowadzić do błędów.
Branża kreatywna
W branżach twórczych, takich jak literatura czy reklama, ważne jest, aby tekst był oryginalny. Detektor pomoże Ci sprawdzić, czy tekst jest efektem pracy człowieka.
Co zrobić, jeśli detektor powie, że tekst pochodzi od AI?
Kiedy detektor AI wykryje, że tekst może pochodzić od algorytmu, możesz zastosować poniższe działania.
Sprawdzenie ponownie
Detektory to algorytmy, więc nie są idealne i mogą popełniać błędy. Możesz więc sprawdzić tekst w innym narzędziu lub poprosić o ocenę eksperta. Korzystając z kilku popularnych narzędzi takich jak isgen.ai, notorycznie zdarzało mi się, że napisane przeze mnie samodzielnie w trakcie pracy z detektorem zdania, uznawał za stworzone przez AI. Ewidentnie więc popełniają one błędy typu false positive, czyli oznaczają teksty napisane przez człowieka jako teksty sztuczne. (BTW. Ciekawe jak zostanie ocenione to zdanie i ten napisany właśnie przez człowieka akapit :) ).
Kontakt z autorem
Skontaktuj się z autorem tekstu i zapytaj, czy rzeczywiście pisał go samodzielnie. O ile fałszywie pozytywny wynik na niektórych zdaniach tekstu jest czymś, co możesz uznać za niedokładność detektora to jednak ogólna ocena na poziomie 50-60% szans, że tekst został napisany przez AI każe stwierdzić, że coś jest nie tak. Detektory nie mylą się w aż tak dużym stopniu.
Poprawienie tekstu
W sytuacjach edukacyjnych autor może mieć możliwość napisania tekstu ponownie bez użycia AI.
Odrzucenie tekstu
Jeśli tekst został napisany przez AI wbrew ustalonym z autorem tekstu zasadom, może zostać odrzucony. To istotne w kontekście aplikacji o pracę czy publikacji naukowej lub tekstów, ktore z założenia powinny być autorskie.
Konsultacja prawna
W niektórych przypadkach, na przykład przy plagiacie, wykrycie tekstu stworzonego przez AI może mieć konsekwencje prawne.
Jak działają detektory AI w języku polskim?
Wykrywanie tekstów AI w języku polskim jest znacznie trudniejsze niż w języku angielskim. Modele AI są bardziej rozwinięte w języku angielskim, więc i detektory działają tam też skuteczniej. Oto główne wyzwania, przed którymi stoją detektory AI w Polsce:
Mniej danych
AI działa lepiej tam, gdzie ma więcej danych do nauki. W języku polskim tych danych jest zdecydowanie mniej niż w języku angielskim.
Złożoność języka
język polski jest trudniejszy do analizy ze względu na swoją gramatykę i fleksję. To utrudnia dokładne wykrywanie wzorców AI.
Ograniczona liczba narzędzi
Na rynku nie ma wielu zaawansowanych detektorów AI dla języka polskiego.
Adaptacja narzędzi z angielskiego
Niektóre narzędzia detekcji AI opracowane dla języka angielskiego są dostosowywane do polskiego. Jednak ich skuteczność jest niższa.
Wnioski
Detektory AI są pomocnymi narzędziami do wykrywania tekstów generowanych przez sztuczną inteligencję. Technologie te są coraz bardziej skuteczne, szczególnie w języku angielskim. W języku polskim napotykają jednak szereg trudności. Warto z nich korzystać w sytuacjach, gdzie autentyczność tekstu ma kluczowe znaczenie, np. w edukacji, mediach czy rekrutacji.