скачать книгу бесплатно
Перефразируй текст, используя следующие параметры:
– max_length: 130
– min_length: 100
– diversity_penalty: 0.5
– top_k: 40
– temperature: 0.75
– no_repeat_ngram_size: 2
– early_stopping: true
Текст:
Рисунок 28 – Перефразированный текст, левое окно, источник – правое окно, отличие Ш2=100%
Пример 10, управление стилем и частотой слов, рис. 29.
Перефразируй текст, используя следующие параметры:
– frequency_penalty: 0.7
– repetition_penalty_weight: 1.2
– top_p: 0.9
– max_length: 150
– min_length: 100
– diversity_penalty: 0.5
– early_stopping: true
Текст:
Рисунок 29 – Перефразированный текст, левое окно, источник – правое окно, отличие Ш2=100%
Пример 11, акцент на оригинальность и краткость, рис. 30.
Перефразируй текст, используя следующие параметры:
– diversity_temperature: 0.9
– top_k: 20
– length_penalty: 0.6
– max_length: 100
– min_length: 70
– coherence_threshold: 0.8
– no_repeat_ngram_size: 1
– early_stopping: true
Текст:
Рисунок 30 – Перефразированный текст, левое окно, источник – правое окно, отличие Ш2=100%
Пример 12, поддержка краткости и специфики, рис. 31.
Перефразируй текст, используя следующие параметры:
– max_length: 120
– min_length: 85
– repetition_penalty: 1.1
– no_repeat_ngram_size: 3
– presence_penalty: 0.5
– temperature: 0.65
– top_p: 0.9
– early_stopping: true
Текст:
Рисунок 30.1 – Перефразированный текст, левое окно, источник – правое окно, отличие Ш2=96%
ЧР Синонимайзеры, синонимизация – ручной и с помощью программ
Метод синонимов, достаточно архаичен и не работает со дня его изобретения. Синомизацию эффективно использовать как метод доводки перевода или применения ИИ GPT. Синонимизацией можно заниматься как вручную, так и с использованием программного обеспечения. Сегодня все еще считается, что метод является одним из способов повышения оригинальности текста.
Автоматическая синонимизация, рис. 31, даже если вы используете профессиональные базы синонимов (Словари синонимов русского языка А. П. Евгеньевой, З. Е. Александровой, Н. Абрамова и т.д.), всегда была неприемлемой, так как результаты стабильно плохие. Синонимизация делает текст непонятным. Практически все системы антиплагиата распознают использование синонимов. С текстами, полученными с помощью синонимизации, можно бороться, например, с помощью переводчика Google. Однако доля ручного труда, связанного с просмотром текста и исправлением неточностей.
В интернете «гуляет» макрос, который позволяет выполнять синонимизацию локально, в WORD, используя базу синонимов MS Office. Особенность макроса в том, что он имеет настраиваемый параметр синониммизации, например можно задать требование – синонимизировать каждое третье слово текста. Результат, при проверке в антиплагиат ВУЗ положительный, но читабельность текста крайне низка.
Рисунок 31 – Автоматическая локальная синонимизация, USyn, словарь синонимов Н. Абрамова
Явным недостатком авто синонимайза является то, что текст нельзя уникализировать до 100% оригинальности, в том числе и путём многократного прогона. После любой синонимизации текст становится практически непонятным, и его трудно исправить.
Напомним, что ручную синонимизацию мы рекомендуем использовать после автоматизированных методов рерайта, на этапе доводки отличия текста до нужных параметров, что позволяет быстро выполнить большой объём работы и достичь высокого показателя оригинальности.
Производительность, при норме впечатывания синонимов 10—20 слов на страницу, 1800 знаков, 150 зн./мин.
Добавление в текст «воды», вводных фраз и академических штампов
Метод используется для повышения его уникальности и читабельности.
«Вода» в тексте – это избыточная информация, которая не несет значимой смысловой нагрузки. Это могут быть общие фразы, повторения, длинные вводные конструкции и т. д. Как правило «вода» отсекается антиплагиатом, т.к. все это относится к стоп-словам.
Умеренное добавление «воды» увеличивает объем текста и изменяет структуру n-грамм, что может помочь обойти системы проверки на плагиат.
Академические штампы – это стандартные фразы и выражения, часто используемые в научных и академических текстах. Примеры включают «следует отметить», «в данном исследовании», «на основании вышеизложенного» и т. д. Данные конструкции также могут относится к стоп-словам и отсекаться АП ВУЗ до лемматизации текста.
Чрезмерная загрузка текста стоп-словами может перевести его в разряд генеративных, поэтому ниже мы даем примеры разнообразия, которое можно использовать в процессе наводнения текста.
– Введение и обзор литературы
«В данном исследовании рассматривается…»
«Настоящая работа посвящена изучению…»
«В последние годы наблюдается рост интереса к…»
«Следует отметить, что…»
– Методология
«Экспериментальное исследование было проведено для изучения…»
«В данном исследовании использовались методы…»
«Для анализа данных использовались следующие методы…»
– Результаты и обсуждение
«Результаты показывают, что…»
«На основании полученных данных можно сделать вывод, что…»
«Полученные результаты свидетельствуют о том, что…»
«Следует отметить, что…»
– Заключение
«Таким образом, можно сделать вывод, что…»
«В заключение следует отметить, что…»
«Дальнейшие исследования могут быть направлены на…»
«На основании вышеизложенного можно заключить, что…»
Эти штампы помогают структурировать текст и делают его более формальным и соответствующим академическим стандартам. Важно не злоупотреблять ими, чтобы текст не стал однообразным и генеративноподобным.
ЧР Удалить лишнее, в том числе и текст, который показан в отчете АП ВУЗ плагиатом
Удаление лишних слов и фраз, без учета проверки в АП ВУЗ, – не является эффективным способом повышения оригинальности текста. Для того чтобы удаление слов влияло на оригинальность, необходимо удалить примерно каждое третье-четвёртое слово. Это требует значительных усилий и времени, так как весь текст должен быть существенно отредактирован, в том числе и за счёт впечатывания новых слов.
Удаление неоригинальных блоков текста, согласно отчету АП ВУЗ может повлиять на оригинальность работы, метод работает, если текст перефразировался полностью, от «корки и до корки». Если перефразирования не было, после удаления фрагментов текста и проверки в антиплагиат, плагиатом могут быть отмечены места, которые раньше таковыми не были.
Наибольшую эффективность показывает скальпирующее удаление участков плагиата, при котором текст вычищается до достижения отличия по показателю Ш2 = 100%.
Р метод шингла, состоящего из двух слов, Ш2
Шингл (от английского слова «shingle», что означает «ячейка» или «кирпичик») представляет собой фрагмент канонизированного текста, состоящий из заданного количества слов (обычно от 3 до 8). Канонизированный текст – это текст, из которого удалены слова, не несущие смысловой нагрузки, такие как союзы, предлоги и знаки препинания.
Отличие между шинглами и биграммами заключается в длине. Биграммы – это последовательности из двух слов, тогда как шинглы могут содержать от 3 до 8 слов. Шинглы используются для определения уникальности контента на веб-сайтах. Поисковые системы используют алгоритм шинглов для проверки текста на плагиат. Сайты с высокой уникальностью материалов ранжируются выше в результатах поиска.
Метод шинглов нашел свое применение в области копирайтинга, а также в анализе текстов для определения схожести и уникальности контента.
Как видно, наименьшее значение шингла = 3 словам, для получения уникального текста, который успешно пройдет проверку в АП ВУЗ необходимо добиться отличие текста рерайта от текста источника на уровне 100%.
Рассматриваемый нами шаг шингла = 2 словам, для успешного прохождения проверки в антиплагиат ВУЗ текст источника должен отличаться от полученного рерайта на показатель Ш2 = 80—95%. В случае, если текст высокочастотен на 100%.
Р Метод биграмм, отличие от метода шингла – Ш2
Биграммы – это последовательности из 2 слов, они не накладываются друг на друга как шинглы. Для успешного прохождения проверки в АП ВУЗ необходимо, при сверке по биграммам из 2 слов добиваться отличия текстов на уровне 100%.
Р КонтрПлагиат
В основе КонтрПлагиата академическая нейросеть, которая обрабатывает рутинные задачи (предложение синонимов, сверка n-грамм НКРЯ, отчеты сверки текстов индексом антиплагиат). КонтрПлагиат использует архитектуру трансформеров, в его основе также лежат рекуррентные нейронные сети (RNN). Рекуррентные нейронные сети эффективны для обработки последовательных данных, таких как текст. Они могут учитывать контекст предыдущих слов в предложении, что позволяет создавать более точные перефразирования, с учетом пересечения шинглов.
Говоря о глубоком рерайте рассмотрим результат КонтрПлагиата, рис. 32 и 33. Как видно из скриншота, красный, зачеркнутый текст выделяет слова и фразы, удаленные из текста, синим цветом помечен текст, который написан заново, остатки текста источника, в виде одиночных слов выделены черным шрифтом.
Результат проверки Ш2 показывает уникальность 97%, поэтому данный рерайт заслуженно можно отнести к глубокому перефразированию. Отличие КонтрПлагиата в его принудительным воздействием на текст, которые выходят из правил и норм русского языка, КонтрПлагиат исходит из требований антиплагиат ВУЗ.
Рисунок 32 – Процесс глубокого перефразирования – КонтрПлагиат
Рисунок 33 – Сверка текстов на отличие по методу Ш2, левое окно – текст КонтрПлагиата, правое окно – контекст, отличие текстов 97%
Производительность – заметно медленней переводчиков и нейросетей за счет большего числа процессов и повышенной уникальности – 1—10 тыс. знаков в минуту.
КонтрПлагиат эффективен для всех способов проверки на заимствования. Идея КонтрПлагиата – в том, чтобы после каждого второго-четвёртого слова вставить новое, авторское слово, разбивающее шинглы из 2 слов, также можно заменять каждое второе-четвёртое слово. Текст при этом не теряет смысловую нагрузку, Приложение 2, а системы антиплагиат не имеют возможности зацепиться за последовательности хешей шинглов, пропуская текст как уникальный.
Р – Пересказ (подъём оригинальности методом изложения)