django-shared-utils/shared/utils/text.py

import codecs
import html
import re
import translitcodec  # provides 'translit/long', used by codecs.encode() # noqa

from django.conf import settings
from django.utils.encoding import force_str
from django.utils.functional import keep_lazy_text
from django.utils.html import mark_safe, strip_tags
from django.utils.text import slugify as django_slugify, normalize_newlines
from django.utils.translation import gettext_lazy


@keep_lazy_text
def downgrade(value):
    """
    Downgrade unicode to ascii, transliterating accented characters.
    """
    value = force_str(value or "")
    return codecs.encode(value, 'transliterate')


@keep_lazy_text
def slugify_long(value):
    return django_slugify(downgrade(value))


# Spreading umlauts is included in the translit/long codec.
slugify_german = slugify_long


@keep_lazy_text
def downgrading_slugify(value):
    # Slugfiy only allowing hyphens, numbers and ASCII characters
    # FIXME django_slugify might return an empty string; take care that we always return something
    return re.sub("[ _]+", "-", django_slugify(downgrade(value)))


SLUGIFY_FUNCTION = getattr(settings, 'SLUGIFY_FUNCTION', downgrading_slugify)
slugify = SLUGIFY_FUNCTION


@keep_lazy_text
def html_entities_to_unicode(html_str):
    return html.unescape(html_str)


# Translators: Separator between list elements
DEFAULT_SEPARATOR = gettext_lazy(", ")

# Translators: Last separator of list elements
LAST_WORD_SEPARATOR = gettext_lazy(" and ")


@keep_lazy_text
def text_joined(list_, separator=DEFAULT_SEPARATOR, last_word=LAST_WORD_SEPARATOR):
    list_ = list(list_)
    if len(list_) == 0:
        return ''
    if len(list_) == 1:
        return force_str(list_[0])
    return '%s%s%s' % (
        separator.join(force_str(i) for i in list_[:-1]),
        force_str(last_word), force_str(list_[-1]))


# TODO Don't match escaped stars (like \*)

b_pattern = re.compile(r"(\*\*)(.*?)\1")
i_pattern = re.compile(r"(\*)(.*?)\1")
u_pattern = re.compile(r"(__)(.*?)\1")
link_pattern = re.compile(r"\[([^\[]+)\]\(([^\)]+)\)")


@keep_lazy_text
def slimdown(text):
    """
    Converts simplified markdown (`**`, `*`, `__`) to <b>, <i> und <u> tags.
    """
    if text:
        text, n = re.subn(b_pattern, "<b>\\2</b>", text)
        text, n = re.subn(i_pattern, "<i>\\2</i>", text)
        text, n = re.subn(u_pattern, "<u>\\2</u>", text)
        text, n = re.subn(link_pattern, "<a href=\'\\2\'>\\1</a>", text)
        return mark_safe(text)
    else:
        return ""


@keep_lazy_text
def strip_links(text):
    return re.sub(r'<a[^>]+>', '', text, flags=re.DOTALL).replace('</a>', '')


COLLAPSE_WHITESPACE_RE = re.compile(r"\s+")


@keep_lazy_text
def collapse_whitespace(text):
    return COLLAPSE_WHITESPACE_RE.sub(" ", text).strip()


@keep_lazy_text
def html_to_text(text):
    print(text)
    rv = collapse_whitespace(strip_tags(html_entities_to_unicode(str(text))))
    print(rv)
    return rv


try:
    from html_sanitizer.django import get_sanitizer

    def sanitized_html(html, config_name='default'):
        return get_sanitizer(config_name).sanitize(html)
except ImportError:
    pass
Improved slug functions, mixins; etc. 7 years ago			`import codecs`
Cleanup, removing Python 2 compat. 4 years ago			`import html`
Added slimdown functionality. 8 years ago			`import re`
Cleanup, removing Python 2 compat. 4 years ago			`import translitcodec # provides 'translit/long', used by codecs.encode() # noqa`
Fixed html_entities_to_unicode (works only in Python 3). 8 years ago
Improved slug functions, mixins; etc. 7 years ago			`from django.conf import settings`
Cleanup, removing Python 2 compat. 4 years ago			`from django.utils.encoding import force_str`
Improved slug functions, mixins; etc. 7 years ago			`from django.utils.functional import keep_lazy_text`
Added HTML to text utilities. 4 years ago			`from django.utils.html import mark_safe, strip_tags`
			`from django.utils.text import slugify as django_slugify, normalize_newlines`
Removed Python 2 compatibility. 4 years ago			`from django.utils.translation import gettext_lazy`
Added version from HFI. 9 years ago

Improved slug functions, mixins; etc. 7 years ago			`@keep_lazy_text`
Added version from HFI. 9 years ago			`def downgrade(value):`
			`"""`
			`Downgrade unicode to ascii, transliterating accented characters.`
			`"""`
Removed Python 2 compatibility. 4 years ago			`value = force_str(value or "")`
Use "transliterate" alias for "translit/long" codec (Python 3.9 codecs compatibility) 5 years ago			`return codecs.encode(value, 'transliterate')`
Added version from HFI. 9 years ago

Improved slug functions, mixins; etc. 7 years ago			`@keep_lazy_text`
Added version from HFI. 9 years ago			`def slugify_long(value):`
Improved slug functions, mixins; etc. 7 years ago			`return django_slugify(downgrade(value))`
Added version from HFI. 9 years ago

Added html_entities_to_unicode function and template tag. 9 years ago			`# Spreading umlauts is included in the translit/long codec.`
			`slugify_german = slugify_long`
Added version from HFI. 9 years ago
Added html_entities_to_unicode function and template tag. 9 years ago
Improved slug functions, mixins; etc. 7 years ago			`@keep_lazy_text`
			`def downgrading_slugify(value):`
			`# Slugfiy only allowing hyphens, numbers and ASCII characters`
Make sure the slug field is never empty. 7 years ago			`# FIXME django_slugify might return an empty string; take care that we always return something`
Improved slug functions, mixins; etc. 7 years ago			`return re.sub("[ _]+", "-", django_slugify(downgrade(value)))`


			`SLUGIFY_FUNCTION = getattr(settings, 'SLUGIFY_FUNCTION', downgrading_slugify)`
			`slugify = SLUGIFY_FUNCTION`


Added HTML to text utilities. 4 years ago			`@keep_lazy_text`
Cleanup, removing Python 2 compat. 4 years ago			`def html_entities_to_unicode(html_str):`
			`return html.unescape(html_str)`
Added get_text_joined function. 8 years ago

Improved slug functions, mixins; etc. 7 years ago			`# Translators: Separator between list elements`
Removed Python 2 compatibility. 4 years ago			`DEFAULT_SEPARATOR = gettext_lazy(", ")`
Added get_text_joined function. 8 years ago
Improved slug functions, mixins; etc. 7 years ago			`# Translators: Last separator of list elements`
Removed Python 2 compatibility. 4 years ago			`LAST_WORD_SEPARATOR = gettext_lazy(" and ")`
Improved slug functions, mixins; etc. 7 years ago
Fixed html_entities_to_unicode (works only in Python 3). 8 years ago
Added get_text_joined function. 8 years ago			`@keep_lazy_text`
Cleanup, removing Python 2 compat. 4 years ago			`def text_joined(list_, separator=DEFAULT_SEPARATOR, last_word=LAST_WORD_SEPARATOR):`
Added get_text_joined function. 8 years ago			`list_ = list(list_)`
			`if len(list_) == 0:`
			`return ''`
			`if len(list_) == 1:`
Removed Python 2 compatibility. 4 years ago			`return force_str(list_[0])`
Added get_text_joined function. 8 years ago			`return '%s%s%s' % (`
Removed Python 2 compatibility. 4 years ago			`separator.join(force_str(i) for i in list_[:-1]),`
			`force_str(last_word), force_str(list_[-1]))`
Added slimdown functionality. 8 years ago

Cleanup, removing Python 2 compat. 4 years ago			`# TODO Don't match escaped stars (like \*)`

			`b_pattern = re.compile(r"(\\)(.*?)\1")`
			`i_pattern = re.compile(r"(\)(.?)\1")`
			`u_pattern = re.compile(r"(__)(.*?)\1")`
			`link_pattern = re.compile(r"\[([^\[]+)\]\(([^\)]+)\)")`


Improved slug functions, mixins; etc. 7 years ago			`@keep_lazy_text`
Added slimdown functionality. 8 years ago			`def slimdown(text):`
			`"""`
Improved slug functions, mixins; etc. 7 years ago			Converts simplified markdown (`*`, ``, `__`) to <b>, <i> und <u> tags.
Added slimdown functionality. 8 years ago			`"""`
- Empty string handling for slimdown. 7 years ago			`if text:`
			`text, n = re.subn(b_pattern, "<b>\\2</b>", text)`
			`text, n = re.subn(i_pattern, "<i>\\2</i>", text)`
			`text, n = re.subn(u_pattern, "<u>\\2</u>", text)`
Add markdown link syntax to slimdown. 6 years ago			`text, n = re.subn(link_pattern, "<a href=\'\\2\'>\\1</a>", text)`
- Empty string handling for slimdown. 7 years ago			`return mark_safe(text)`
			`else:`
			`return ""`
Add markdown link syntax to slimdown. 6 years ago

Added HTML to text utilities. 4 years ago			`@keep_lazy_text`
Add markdown link syntax to slimdown. 6 years ago			`def strip_links(text):`
			`return re.sub(r'<a[^>]+>', '', text, flags=re.DOTALL).replace('</a>', '')`
Added HTML to text utilities. 4 years ago

			`COLLAPSE_WHITESPACE_RE = re.compile(r"\s+")`


			`@keep_lazy_text`
			`def collapse_whitespace(text):`
			`return COLLAPSE_WHITESPACE_RE.sub(" ", text).strip()`


			`@keep_lazy_text`
			`def html_to_text(text):`
			`print(text)`
			`rv = collapse_whitespace(strip_tags(html_entities_to_unicode(str(text))))`
			`print(rv)`
			`return rv`


			`try:`
			`from html_sanitizer.django import get_sanitizer`

			`def sanitized_html(html, config_name='default'):`
			`return get_sanitizer(config_name).sanitize(html)`
			`except ImportError:`
			`pass`