Сообщество RSS DEV

Нецензурная лексика: практический набор инструментов для модерации контента

Glin-Profanity — это библиотека на JavaScript/TypeScript и Python для модерации контента, предназначенная для фильтрации ненормативной лексики и оскорбительных выражений. Она превосходит простые фильтры на основе списков слов, обнаруживая различные методы уклонения, такие как "leet speak" и Unicode-омоглифы. Библиотека предлагает встроенные словари для 23 языков и опциональное обнаружение токсичности с помощью машинного обучения через TensorFlow.js. Она отличается впечатляющей производительностью, обрабатывая миллионы операций в секунду с помощью LRU-кэширования. Glin-Profanity может использоваться в средах Node.js, браузерах и Python. Установка проста через npm или pip, с предоставленными шаблонами примеров кода для различных сценариев использования. Ключевые функции включают нормализацию "leet speak" и Unicode, поддержку нескольких языков и автоматическую замену нецензурных слов. Библиотека поддерживает модерацию на основе уровня серьезности и предоставляет React-хук для ввода в реальном времени. Она также интегрирует обнаружение токсичности с помощью машинного обучения, анализируя контент локально. Наконец, библиотека является открытым исходным кодом, имеет живую демонстрацию и обширную документацию.
favicon
dev.to
Glin Profanity: A Practical Toolkit for Content Moderation
Изображение к статье: Нецензурная лексика: практический набор инструментов для модерации контента
Create attached notes ...