URL and IP filtering

2024-06-07 00:33:47 -04:00 · 2024-06-07 00:33:47 -04:00 · 1cc854f0da
commit 1cc854f0da
parent f5b07e9c12
4 changed files with 77 additions and 6 deletions
--- a/API/src/main/java/me/braydon/profanity/model/response/ContentProcessResponse.java
+++ b/API/src/main/java/me/braydon/profanity/model/response/ContentProcessResponse.java
@ -12,6 +12,11 @@ import java.util.List;
 */
@AllArgsConstructor @Getter
 public final class ContentProcessResponse {
+    /**
+     * Does the content contain profanity?
+     */
+    private final boolean containsProfanity;
+
    /**
     * The replacement for the content.
     */
--- a/API/src/main/java/me/braydon/profanity/processor/impl/AdTextProcessor.java
+++ b/API/src/main/java/me/braydon/profanity/processor/impl/AdTextProcessor.java
@ -0,0 +1,58 @@
+package me.braydon.profanity.processor.impl;
+
+import lombok.NonNull;
+import me.braydon.profanity.common.ContentTag;
+import me.braydon.profanity.model.ProfanityList;
+import me.braydon.profanity.processor.TextProcessor;
+
+import java.util.List;
+import java.util.concurrent.atomic.AtomicInteger;
+import java.util.function.Consumer;
+import java.util.regex.Matcher;
+import java.util.regex.Pattern;
+
+/**
+ * A text processor to filter advertisement content.
+ *
+ * @author Braydon
+ */
+public final class AdTextProcessor extends TextProcessor {
+    private static final Pattern URL_REGEX = Pattern.compile("(?i)\\b((?:https?://)?(?:www\\.)?[a-z0-9.-]+(?:\\.[a-z]{2,})+(?:/\\S*)?)\\b");
+    private static final Pattern IPV4_REGEX = Pattern.compile("(([0-1]?[0-9]{1,2}\\.)|(2[0-4][0-9]\\.)|(25[0-5]\\.)){3}(([0-1]?[0-9]{1,2})|(2[0-4][0-9])|(25[0-5]))");
+
+    public AdTextProcessor() {
+        super(ContentTag.ADVERTISEMENT);
+    }
+
+    /**
+     * Processor the given content.
+     *
+     * @param profanityList the profanity list to use
+     * @param content       the content to process
+     * @param replacement   the replacement content to modify
+     * @param replaceChar   the replace char to use
+     * @param matched       the matched content to add to
+     * @return the replaced content
+     */
+    @Override @NonNull
+    public StringBuilder process(@NonNull ProfanityList profanityList, @NonNull String content,
+                                 @NonNull StringBuilder replacement, int replaceChar, @NonNull List<String> matched) {
+        AtomicInteger offset = new AtomicInteger();
+        Consumer<Matcher> handleReplacements = matcher -> {
+            while (matcher.find()) {
+                String matchedGroup = matcher.group();
+                matched.add(matchedGroup);
+
+                // Replace the matched group with the replace char
+                int start = offset.get() + matcher.start();
+                int end = offset.get() + matcher.end();
+                String matchedWord = matcher.group();
+                replacement.replace(start, end, Character.toString(replaceChar).repeat(matchedWord.length()));
+                offset.set(offset.get() + (matchedWord.length() - (end - start)));
+            }
+        };
+        handleReplacements.accept(URL_REGEX.matcher(content)); // Handle URLs
+        handleReplacements.accept(IPV4_REGEX.matcher(content)); // Handle IPs
+        return replacement;
+    }
+}
--- a/API/src/main/java/me/braydon/profanity/processor/impl/VulgarityTextProcessor.java
+++ b/API/src/main/java/me/braydon/profanity/processor/impl/VulgarityTextProcessor.java
@ -18,7 +18,7 @@ import java.util.regex.Pattern;
 *
 * @author Braydon
 */
-public final class VulgarityProcessor extends TextProcessor {
+public final class VulgarityTextProcessor extends TextProcessor {
    private static final String PUNCTUATION_PATTERN = "[\\p{Punct}]*";

    /**
@ -44,7 +44,7 @@ public final class VulgarityProcessor extends TextProcessor {
        charSubstitutions.put('1', Collections.singletonList('!'));
    }

-    public VulgarityProcessor() {
+    public VulgarityTextProcessor() {
        super(ContentTag.VULGARITY);
    }

@ -74,6 +74,8 @@ public final class VulgarityProcessor extends TextProcessor {

            while (matcher.find()) {
                matched.add(word);
+
+                // Replace the matched group with the replace char
                int start = offset + matcher.start();
                int end = offset + matcher.end();
                String matchedWord = matcher.group();
--- a/API/src/main/java/me/braydon/profanity/service/FiltrationService.java
+++ b/API/src/main/java/me/braydon/profanity/service/FiltrationService.java
@ -13,7 +13,8 @@ import me.braydon.profanity.model.ProfanityList;
 import me.braydon.profanity.model.input.ContentProcessInput;
 import me.braydon.profanity.model.response.ContentProcessResponse;
 import me.braydon.profanity.processor.TextProcessor;
-import me.braydon.profanity.processor.impl.VulgarityProcessor;
+import me.braydon.profanity.processor.impl.AdTextProcessor;
+import me.braydon.profanity.processor.impl.VulgarityTextProcessor;
 import me.braydon.profanity.repository.ProfanityListRepository;
 import org.apache.commons.text.StringEscapeUtils;
 import org.springframework.beans.factory.annotation.Autowired;
@ -51,7 +52,8 @@ public final class FiltrationService {
        this.profanityListRepository = profanityListRepository;

        // Register text processors
-        textProcessors.add(new VulgarityProcessor());
+        textProcessors.add(new VulgarityTextProcessor());
+        textProcessors.add(new AdTextProcessor());
    }

    /**
@ -116,8 +118,12 @@ public final class FiltrationService {

        // Calculate the score based on
        // the matched profane content, that cannot be bypassed by changing the content length
-        double score = Math.min(matched.stream().mapToDouble(String::length).sum() / content.length(), 1D);
+        double score = 0D;
+        for (String match : matched) {
+            score+= 2D / (double) match.length();
+        }
+        score = Math.min(score, 1D);

-        return new ContentProcessResponse(replacement.toString(), matched, tags, score);
+        return new ContentProcessResponse(!matched.isEmpty(), replacement.toString(), matched, tags, score);
    }
 }