Существенным аспектом построения точной модели предприятия для автоматизации и трансформации бизнеса является обработка и синхронизация данных о событиях информационных систем, как правило, представленных в виде текстовых данных (логов). В то же время, для значимого повышения качества, скорости и информационного сопровождения процессов необходимо переводить взаимодействие с пользователем в цифровой домен — то есть, в вид электронного текста. Возникающие при этом задачи, такие как:

  • подключение алгоритмов для распознавания речи
  • автоматическая классификация обращений клиентов,
  • поиск и связывание информационного контекста,
  • выделение именованных сущностей,
  • распознавание и шаблонирование необходимой информации
  • обогащение информационного контекста необходимыми пользователю комментариями и справочной информацией
  • автоматическое информационное сопровождение прохождения процесса на естественном языке и ответы на вопросы пользователя, и прочие, обычно, решаются с применением технологий машинного обучения.

Многообразие алгоритмов и решений в этой области огромно. При этом решение о выборе того или иного инструмента является сложным, и зависит от динамически меняющегося контекста задачи, наличия данных, и т.д. Зачастую наилучшие решение дает применение ансамблевых методов, позволяющих применять несколько алгоритмов одновременно. Библиотека обработки текстов TLP toolbox была разработана для решения данных задач.

Библиотека состоит из следующих блоков:

1. Блок токенизации — выполняет разбиение текста на токены с учетом грамматики и морфологии русского языка.
2. Блок классификации — относит текст, разбитый на токены к определенным, известным, классам.
3. Блок извлечения именованных сущностей – извлекает значения из текста, отнесенного к определенным классам.
4. Блок решения — выводит конечный результат по принципу работы экспертной системы.
5. Блок справочной информации — позволяет использовать дополнительную структурированную информацию в процессе решения.
6. Блок тематического моделирования — решает задачу кластеризации текстов, для автоматизации разметки исходных текстов.
7. Блок генерации — решает задачу генерации подобных текстов в случае малого количества исходного материала.
8. Блок конечных автоматов — решает задачу обработки информации от сложных ИТ — систем
9. Блок поиска и выделения структур — позволяет находить в тексте повторяющиеся структуры

Библиотека построена по принципу канала обработки (pipeline-а), от токенизации к решению. Отличительной особенность библиотеки является возможность применять на каждом шаге pipeline-а несколько блоков одного типа. Такая техника AutoML-я дает возможность в run-time-е определять лучший алгоритм для каждого из блоков.
Библиотека разработана на языке Python и позволяет работать с блоками непосредственно из кода Python.

Для эффективной работы на многоядерных серверах библиотека поддерживает параллельную обработку текстов внутри блоков по принципу map-reduce. В роадмап-е планируется поддержка параллелизма на уровне нескольких серверов (горизонтальное масштабирование на кластер).

Наши предложения

IT Service Excellence

В рамках процессов цифровой трансформации команда профессионалов ООО "Медиа-тел" помогает своим…

Read More

Applied Data Sсience

Получение инсайтов из данных и повышение эффективности бизнеса путем применения методов и…

Read More

Telecom Solutions

Разработка высоконагруженных систем Telecom Core. Полный цикл разработки на универсальной платформе…

Read More

Business Automation

Новый уровень операционной эффективности и ценности для бизнеса за счет внедрения технологий…

Read More

Consulting

Портфель наших консалтинговых услуг сфокусирован на обеспечении развития вашего бизнеса через…

Read More

Digital Twin

Виртуальные модели систем, бизнес - процессов, сотрудников и клиентов, связанные постоянным потоком…

Read More

Privacy Preference Center