Автоматическая система классификации текстов для базы знаний предприятия

М.И. Попков

Abstract


В работе рассмотрены методы машинного обучения для решения задачи классификации данных. Проведено исследование методов индексации, взвешивания и классификации для корпуса документов базы знаний предприятия. Рассмотрены метрики сравнения классификаторов и получены результаты сравнений в рамках существующей инфраструктуры.

Предложен способ использования существующего поискового индекса для решения задачи классификации документов. Разработана реализация и сценарии работы автоматической системы классификации текстов.


Full Text:

PDF (Russian)

References


John Gantz, David Reinsel, «The Digital Universe: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East», December 2012.

«Находимость корпоративных данных. Обзор опыта пользователей ECM-систем»// Docflow, Abbyy, 2014.

«Корпоративная база знаний», Ноябрь 2010 (http://enterprisekb.ucoz.ru/news/korporativnoj_bazy_znanij/2010-11-25-1).

Юрий Лифшиц, «Автоматическая классификация текстов» // Лекция №6 из курса «Алгоритмы для интернета», Ноябрь 2006.

Агеев М. С. «Методы автоматической рубрикации текстов, основанные на машинном обучении знаниях экспертов» 2004.

Губин М. В. «Модели и методы представления текстового документа в системах информационного поиска», 2005.

Abdur Rehman, Haroon A. Barbi, Mehreen Saeed, «Feature Extraction for Classification of Text Documents», 2012.

Токарева Е. И. «Иерархическая классификация текстов», 2010.

Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze, «An Introduction to Information Retrival» // Cambridge UP, 2009.

Jon Flanders «Введение в службы RESTful с использованием WCF», Январь 2009 (http://msdn.microsoft.com/ru-ru/magazine/dd315413.aspx).


Refbacks

  • There are currently no refbacks.


Abava  Кибербезопасность IT Congress 2024

ISSN: 2307-8162