Як виявити плагіат ChatGPT і чому це так складно

Зараз чат-боти дуже популярні ChatGPT є головним серед них. Але завдяки тому, наскільки потужними та людськими є його відповіді, науковці, викладачі та редактори мають справу з наростаючою хвилею плагіату та шахрайства, породженого ШІ. Ваших старих інструментів виявлення плагіату може бути недостатньо, щоб відрізнити справжній від підробки.

Зміст

Багато варіантів виявлення
Перевірте їх
Закриття

У цій статті я трохи розповім про цю жахливу сторону чат-ботів штучного інтелекту, ознайомлюся з кількома онлайн-інструментами виявлення плагіату та досліджу, наскільки жахливою стала ситуація.

Багато варіантів виявлення

Останній випуск стартапу за листопад 2022 року ChatGPT від OpenAI в основному привернув доблесть чат-бота в центр уваги. Це дозволяло будь-якому звичайному Джо (чи будь-якому професіоналу) створювати розумні, зрозумілі есе чи статті та розв’язувати текстові математичні задачі. Для необізнаного чи недосвідченого читача контент, створений штучним інтелектом, може досить легко видатися за законний твір, тому учні люблять його, а вчителі ненавидять.

Пов'язані

Розробник ChatGPT OpenAI стикається з розслідуванням FTC щодо законів про захист прав споживачів
Трафік веб-сайту ChatGPT впав вперше
Найкращі чат-боти штучного інтелекту, які можна спробувати: ChatGPT, Bard тощо

Величезною проблемою для інструментів AI для письма є їхня здатність палити з двома кінцями використання природної мови та граматику для створення унікального та майже індивідуального вмісту, навіть якщо сам вміст було взято з a бази даних. Це означає, що гонка за перемогу над шахрайством на основі ШІ триває. Ось деякі варіанти, які я знайшов, які зараз доступні безкоштовно.

Рекомендовані відео

Вихідний детектор GPT-2 надійшов безпосередньо від розробника ChatGPT OpenAI, щоб продемонструвати наявність бота, здатного виявляти текст чат-бота. Output Detector простий у використанні — користувачам достатньо ввести текст у текстове поле, і інструмент негайно надасть свою оцінку того, наскільки ймовірно, що текст надійшов від людини чи ні.

Ще два інструменти мають чистий інтерфейс Детектор вмісту Writer AI і Вміст у масштабі. Ви можете додати URL-адресу для сканування вмісту (лише для запису) або додати текст вручну. Результати отримують у відсотковому відношенні оцінку ймовірності того, що контент створено людиною.

GPTZero це домашній бета-інструмент, розміщений на Streamlit і створений студентом Прінстонського університету Едвардом Зеном. Вона відрізняється від інших тим, як модель «алгіату» (плагіат за допомогою ШІ) представляє свої результати. GPTZero розбиває показники на здивування та вибух. Burstiness вимірює загальну випадковість для всіх речень у тексті, тоді як здивування вимірює випадковість у реченні. Інструмент призначає номер обом показникам — чим менше число, тим більша ймовірність того, що текст створено ботом.

Просто для розваги, я включив Гігантська мовна модель тестової кімнати (GLTR), розроблений дослідниками з MIT-IBM Watson AI Lab і Harvard Natural Language Processing Group. Як і GPTZero, він не представляє свої кінцеві результати як чітку відмінність між «людським» і «ботовим». GLTR в основному використовує ботів для ідентифікації тексту, написаного ботами, оскільки боти рідше вибирають непередбачувані слова. Таким чином, результати представлені у вигляді кольорової гістограми, яка класифікує текст, створений ШІ, порівняно з текстом, створеним людиною. Що більше непередбачуваного тексту, то ймовірніше, що це текст від людини.

Перевірте їх

Усі ці параметри можуть змусити вас подумати, що ми в хорошому місці з виявленням ШІ. Але щоб перевірити фактичну ефективність кожного з цих інструментів, я хотів випробувати його на собі. Тож я провів кілька прикладів абзаців, які я написав у відповідь на запитання, які я також поставив, у цьому випадку, ChatGPT.

Моє перше запитання було простим: чому не сприймають купівлю попередньо зібраного ПК? Ось як мої власні відповіді порівнюються з відповідями ChatGPT.

Моє справжнє письмо	ChatGPT
Вихідний детектор GPT-2	1,18% підробка	36,57% підробка
Письменник А.І	100% людина	99% людина
Вміст у масштабі	99% людина	73% людина
GPTZero	80 здивування	50 здивування
GLTR	12 із 66 слів, ймовірно, написаних людиною	15 або 79 слів, ймовірно, від людини

Як ви можете бачити, більшість із цих додатків могли визначити, що мої слова були справжніми, причому перші три були найточнішими. Але ChatGPT також обдурив більшість цих програм-детекторів своєю відповіддю. Для початку він оцінив 99% людей у програмі Writer AI Content Detector, а детектор на основі GPT позначив лише 36% як підробку. GLTR був найбільшим правопорушником, стверджуючи, що мої власні слова з такою ж імовірністю були написані людиною, як і слова ChatGPT.

Виведення за допомогою Write AI Detector.

Однак я вирішив спробувати ще раз, і цього разу відповіді значно покращилися. Я попросив ChatGPT надати підсумок досліджень Швейцарського федерального технологічного інституту щодо запобігання запотіванню за допомогою частинок золота. У цьому прикладі програми-детектори набагато краще схвалили мою власну відповідь і виявили ChatGPT.

Моє справжнє письмо	ChatGPT
Вихідний детектор GPT-2	9,28% підробка	99,97% підробка
Письменник А.І	95% людина	2% людини
Вміст у масштабі	92% людина	0% (очевидно ШІ)
GPTZero	41 здивування	23 збентеження
GLTR	15 із 79 слів, ймовірно, написаних людиною	4 із 98 слів, ймовірно, написані людиною

Три кращих тести дійсно показали свою силу в цій відповіді. І хоча GLTR все ще було важко сприймати мій власний текст як людину, принаймні він добре впіймав ChatGPT цього разу.

Закриття

З результатів кожного запиту очевидно, що онлайн-детектори плагіату не ідеальні. Для більш складних відповідей або письмових уривків (наприклад, у випадку мого другого запиту) це трохи простіше щоб ці програми виявили написання на основі штучного інтелекту, тоді як простіші відповіді набагато складніше виводити. Але, очевидно, це не те, що я б назвав надійним. Інколи ці інструменти виявлення неправильно класифікують статті чи есе як створені ChatGPT, що є проблемою для вчителів або редакторів, які бажають покладатися на них для лову шахраїв.

Розробники постійно вдосконалюють точність і рівень помилкових спрацьовувань, але вони також готуються до появи GPT-3, який рекламує значно покращений набір даних і більш складні можливості, ніж GPT-2 (з яким навчено ChatGPT від).

На даний момент, щоб ідентифікувати контент, створений штучним інтелектом, редакторам і викладачам потрібно буде поєднати розсудливість і трохи людської інтуїції з одним (чи кількома) з цих детекторів ШІ. А для користувачів чат-ботів, які мають або мають спокусу використовувати такі чат-боти, як Chatsonic, ChatGPT, Notion або YouChat, щоб видати свою «роботу» за законну — будь ласка, не робіть цього. Перепрофілювання вмісту, створеного ботом (який отримує джерела зі фіксованих джерел у своїй базі даних), все ще є плагіатом, як би ви на це не дивилися.