Text & Log processing toolbox

Существенным аспектом построения точной модели предприятия для автоматизации и трансформации бизнеса является обработка и синхронизация данных о событиях информационных систем, как правило, представленных в виде текстовых данных (логов). В то же время, для значимого повышения качества, скорости и информационного сопровождения процессов необходимо переводить взаимодействие с пользователем в цифровой домен — то есть, в вид электронного текста. Возникающие при этом задачи, такие как:

подключение алгоритмов для распознавания речи
автоматическая классификация обращений клиентов,
поиск и связывание информационного контекста,
выделение именованных сущностей,
распознавание и шаблонирование необходимой информации
обогащение информационного контекста необходимыми пользователю комментариями и справочной информацией
автоматическое информационное сопровождение прохождения процесса на естественном языке и ответы на вопросы пользователя, и прочие, обычно, решаются с применением технологий машинного обучения.

Многообразие алгоритмов и решений в этой области огромно. При этом решение о выборе того или иного инструмента является сложным, и зависит от динамически меняющегося контекста задачи, наличия данных, и т.д. Зачастую наилучшие решение дает применение ансамблевых методов, позволяющих применять несколько алгоритмов одновременно. Библиотека обработки текстов TLP toolbox была разработана для решения данных задач.

Библиотека состоит из следующих блоков:

1. Блок токенизации — выполняет разбиение текста на токены с учетом грамматики и морфологии русского языка.
2. Блок классификации — относит текст, разбитый на токены к определенным, известным, классам.
3. Блок извлечения именованных сущностей – извлекает значения из текста, отнесенного к определенным классам.
4. Блок решения — выводит конечный результат по принципу работы экспертной системы.
5. Блок справочной информации — позволяет использовать дополнительную структурированную информацию в процессе решения.
6. Блок тематического моделирования — решает задачу кластеризации текстов, для автоматизации разметки исходных текстов.
7. Блок генерации — решает задачу генерации подобных текстов в случае малого количества исходного материала.
8. Блок конечных автоматов — решает задачу обработки информации от сложных ИТ — систем
9. Блок поиска и выделения структур — позволяет находить в тексте повторяющиеся структуры

Библиотека построена по принципу канала обработки (pipeline-а), от токенизации к решению. Отличительной особенность библиотеки является возможность применять на каждом шаге pipeline-а несколько блоков одного типа. Такая техника AutoML-я дает возможность в run-time-е определять лучший алгоритм для каждого из блоков.
Библиотека разработана на языке Python и позволяет работать с блоками непосредственно из кода Python.

Для эффективной работы на многоядерных серверах библиотека поддерживает параллельную обработку текстов внутри блоков по принципу map-reduce. В роадмап-е планируется поддержка параллелизма на уровне нескольких серверов (горизонтальное масштабирование на кластер).

Запросить информацию

Наши предложения

У вас есть вопросы, проекты, интересные задачи для нас?

ООО "Медиа-тел"

Наши предложения

IT Service Excellence

Applied Data Sсience

Telecom Solutions

Business Automation

Consulting

Digital Twin

У вас есть вопросы, проекты, интересные задачи для нас?

ООО "Медиа-тел"

2002 — 2024 Media-tel. All rights reserved