Об одном методе детектирования искусственных и ненаучных текстов в обширной коллекции документов

Main Article Content

Олег Юрьевич Бахтеев
Маргарита Валерьевна Кузнецова
Алексей Владимирович Романов
Юрий Викторович Чехович

Аннотация

Работа посвящена описанию метода детектирования искусственных и ненаучных текстов в коллекции научных статей. Предлагаемый метод основан на лексическом и морфологическом анализе проверяемого документа, позволяющем оценить вероятность его принадлежности к классу научных документов. Эксперименты подтверждают возможность практического применения метода.

Ключевые слова:

обработка естественного языка, классификация документов, анализ текстов, статистические языковые модели, детектирование искусственных текстов.

Article Details

Как цитировать
Бахтеев, О. Ю., Кузнецова, М. В., Романов, А. В., & Чехович, Ю. В. (2017). Об одном методе детектирования искусственных и ненаучных текстов в обширной коллекции документов. Электронные библиотеки, 20(5), 298-304. извлечено от https://elbib.ru/article/view/431
Биографии авторов

Олег Юрьевич Бахтеев

Старший исследователь компании Антиплагиат.

Маргарита Валерьевна Кузнецова

Руководитель отдела исследований компании Антиплагиат.

Алексей Владимирович Романов

Ассистент, компания Abbyy.

Юрий Викторович Чехович

Исполнительный директор компании Антиплагиат, кандидат физико-математических наук.

Библиографические ссылки

1. Arase Y., Zhou M. Machine Translation Detection from Monolingual Web-Text // ACL (1). 2013. P. 1597–1607.
2. Labbé C., Labbé D. Duplicate and fake publications in the scientific literature: how many SCIgen papers in computer science? //Scientometrics. 2013. V. 94, No 1. P. 379–396.
3. Van Noorden R. Publishers withdraw more than 120 gibberish papers //Nature. 2014. V. 24.
4. Гречников Е. А. и др. Поиск неестественных текстов // Тр. XI Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Петрозаводск, 2009. С. 306–308.


Наиболее читаемые статьи этого автора (авторов)