Диплом. Использование ИИ.
Вкалывают роботы, а не человек или немного про ИИ
ВАЖНО!
Все выпускные работы (и бакалавров и магистров) в обязательном порядке проверяются в системе Антиплагиат (если что это требование федерального уровня) для определения степени заимствований в работе, или другими словами оригинальности. Соответственно требования к оригинальности (условие - не менее) для бакалавров - 60%, для магистров - 70%. Данные по оригинальности работы озвучиваются в процессе защиты. Не достигли показателей – не допускаетесь к защите
Вывод 1. Просто и быстро написать диплом кусочно надергав контент из нескольких источников – не выйдет.
И тут современный студент вспоминает что есть умные машины которые вроде бы успешно генерят любой текст. И тут упс.... эта же система успешно находит и выделяет сгенерированный контент. Да бывают у нее ошибки, но в целом ответ о наличии и количестве сгенерированного текста дается правильный. Могу судить даже по своим дипломникам, с которыми могу достаточно откровенно поговорить о том почему использовалась генерация после проверки.
Снова ВАЖНО!
В 2024 году руководством кластера было принято решение, что работы содержащие сгенерированный контент к защите не допускаются. И дальше будет так же
И стал возникать у студентов вопрос - а как определяется такой контент. Во-первых, надо отметить что при внимательном прочтении и наличии опыта сгенерированный текст достаточно точно может быть определен человеком. Вот основные признаки такого текста:
- Нейросеть пишет слишком конкретно. Например, исследователи из Google Brain еще в 2019 году пришли к выводу, что ИИ слишком часто использует артикль the, потому что работает на предсказание следующего слова в предложении. Но понятно, что этот признак присущ только англоязычным текстам.
- Также нейросеть может очень уверенно написать абсолютную неправду — это называется галлюцинацией. Такое происходит, когда у ИИ недостаточно данных о реальном мире. Поэтому он начинает компенсировать пробел в знаниях выдумками.
- Нейросеть опускает контекст и персонализацию текста. ChatGPT не сможет передать опыт конкретного человека — только попытаться имитировать опыт миллионов людей, на чьих текстах обучена модель. Но таким материалам обычно не хватает глубины и авторского ощущения: одно дело — написать шаблонное сочинение по литературному произведению, и другое — рассказать, как ты провел лето.
- С экспертностью то же самое. Многие тексты ChatGPT достаточно полезны, но в них нет углубления в тему. Это может сделать только человек с богатым личным опытом.
- При этом новая версия языковой модели гораздо лучше работает с контекстом, чем ее предшественники. Поэтому теоретически уже после генерации можно попросить ChatGPT подредактировать текст и сделать его «более человеческим». Но от этого он не станет выглядеть полностью живым. Добиться хорошего результата можно, только если редактурой займется человек.
- Нейросеть пишет большинство текстов по одинаковой структуре. Обычно они состоят из вступления, основной части и вывода. Во вступлении нейросеть представляет тему, дает общий контекст. Основная часть текста состоит из нескольких абзацев, каждый раскрывает отдельный аспект темы. Но переходы могут быть нелогичными, а связь между абзацами — не очень четкой. В заключении нейросеть старается подвести итог, сделать выводы из сказанного. Но они общие и предсказуемые.
- Стиль текста безэмоциональный. Нейросетям сложно передавать эмоции, сарказм, иронию, юмор. Поэтому их тексты часто выглядят сухими и формальными по стилю. Еще нейросети обучены быть нейтральными и объективными, поэтому они стараются избегать резких, категоричных суждений. В их текстах мало критики, негативных оценок, субъективных мнений.
- В сгенерированном тексте много «воды». Это связано с особенностями обучения нейросетей: они стараются генерировать связные правдоподобные тексты, имитируя стиль и приемы человеческих. При этом нейросети не всегда четко выделяют главную мысль, повторяют одно и то же разными словами, используют ничего не добавляющие к сути фразы. Часто из нескольких абзацев сгенерированного текста вытекает только одна мысль.
- Нейросеть не допускает грамматических ошибок. В Google Brain отмечают: люди чаще указывают, что логичный текст без ошибок написал человек. Хотя идеальная грамотность как раз больше присуща ИИ: люди не там ставят запятые, опечатываются, используют сленг и сокращения. Такого уровня имитации нейросети пока не достигли.
- Нейросеть может противоречить сама себе. Поскольку она генерирует текст на основе паттернов и статистики, а не глубокого понимания темы, в разных частях текста могут встречаться противоречащие друг другу утверждения. Особенно это заметно в длинных текстах, где нейросеть может «забыть», о чем писала ранее.
Вернемся теперь к системе Антиплагиат. Сервис запустил поверку на сгенерированный текст в мае 23 года. И если в прошлом году мы только просили студентов у которых было очень много сгенерированного текста привести работу в порядок, то в этом году как вы поняли правила ужесточились. Функция выявления ИИ-текстов доступна только в платной версии. В этом году некоторые ребята потратили по несколько тысяч рублей в процессе борьбы с автогенерацией.
Система анализирует текст на наличие фрагментов, созданных с помощью языковых моделей GPT-2, GPT-3 и ChatGPT — версий GPT-3.5 и GPT-4. Если система находит такой фрагмент, она выделяет его красным цветом, а документ маркируют как подозрительный.
Естественно про подробности работы алгоритма разработчики не распространяются, но скорее всего они работают по одному и тому же принципу: смотрят на «предсказуемость» каждого следующего слова в тексте. Например, если дополнять приложение «Каждый день он ходит на…», то очевидные ответы — «работу» или «учебу». Нейросети, особенно устаревшие, составляют именно такие предсказуемые цепочки, чтобы не потерять связность. Людям тоже свойственна шаблонность, но не на протяжении всего текста.
Ну и последняя часть, написана по результатам тестирования Антиплагиата в прошлом году (не мной, найдено в интернете и отредактировано). Вопрос, а можно ли обмануть систему и как?
И перед тем как перейти к ответу, добавлю свой комментарий. Как по мне - вопрос в большой степени бессмысленный. По тому что я вижу - усилия (а иногда и финансовые средства) направленные на обман системы, часто превышают усилия которые бы были затрачены если текст писать самому. Да, вот так просто, надеюсь я не зря написал практически методичку о том как писать диплом и презентацию к нему.
Но вернемся к обману системы. По прошлому году было 2 популярных способа:
1 - попросить о помощи систему генерации, т.е. попросить ChatGPT переписать текст заново. Скормить сгенерированный текст с дополнительным запросом типа: «Перепиши этот текст так, чтобы он был оригинальным и проходил проверку сервисов, которые определяют, что текст сгенерировала нейросеть. Сделай его более читаемым». Результат - не работает.
2 - текст первоначально генерируется на английском языке, а потом переводится на русский. В прошлом году проходило, в этом не знаю. Но опять же, машинный перевод может заметить любой из вас, и если ваш научный руководитель внимательно прочитает диплом, наверняка заметит. Плюс примите во внимание, что для зарубежных LLM которые являются самыми мощными "родным" языком является английский. Т.е. ваш запрос переводится на английский, генерится англоязычный же ответ и вам он выдается уже в переводе на русский. А тут получается еще один цикл.
Единственный способ надежно пройти Антиплагиат при использовании генерации, это ГЛУБОКОЕ редактирование сгенерированного текста. Впрочем об этом в канале я статейку кидал еще в конце мая. На что смотреть при редактировании вы теперь знаете. Но мне кажется самому написать будет точно быстрее :) Уважаемые господа студенты, вы часто забывайте одну простую вещь, LLM не заменит автора, это не более чем инструмент, и как всяким инструментом им надо уметь пользоваться. Но есть варианты, вот вам собственно ссылочка на текст где рассмотрена ПРАВИЛЬНАЯ методика работы с LLM. Она предполагает совместную работу автора и нейросети. И обратите внимание на компанию, где работает автор. Отечественная частная компания - Gerwin, которая создала свою LLM, по ряду параметров стоящую сразу после Яндекса и Сбера.
https://www.cossa.ru/gerwin/330624/