Saltar al contenido principal
short.cl

Limpiar formato de texto

Remueve HTML, espacios extra, caracteres invisibles y comillas tipográficas con un clic.

100% local, tu archivo no sale de tu navegador

Todo el procesamiento ocurre en tu dispositivo. No subimos nada a ningún servidor.

Operaciones a aplicar

Texto original

0 caracteres

Texto limpio

Por qué el texto viene sucio

Copiar y pegar es engañoso. Lo que ves no es todo lo que recibís: junto con el texto visible, el portapapeles acarrea formato, caracteres invisibles y artefactos del origen. Fuentes típicas de suciedad:

  • Word / Google Docs. Agregan NBSP (espacios no-rompibles), comillas tipográficas (“smart quotes”), guiones em, y tags de estilo al copiar a editores web que aceptan HTML.
  • Emails. Los clients insertan espacios unicode raros, pueden incluir firmas automáticas con caracteres invisibles, y rompen el formato cuando los pegás en un campo limpio.
  • Páginas web. Pegar desde una página trae tags HTML, atributos inline, entidades (&), y caracteres de formateo de JavaScript templating.
  • PDFs. La extracción de PDF a texto frecuentemente agrega saltos de línea por ancho de columna, guiones de corte de palabra, y caracteres de control.
  • Terminal / logs. ANSI escape codes, caracteres de control, BOM al inicio si vienen de archivos Windows.

Operaciones ofrecidas

Quitar HTML. Remueve tags HTML y decodifica entidades básicas. Si pegás <p>Hola &amp; bienvenida</p>, obtenés Hola & bienvenida.

Colapsar espacios múltiples. Secuencias de 2 o más espacios/tabs se reducen a uno. Útil cuando el texto original tenía alineación con espacios o tabs inconsistentes.

Colapsar saltos de línea. Si hay tres o más saltos seguidos (lo que se ve como líneas en blanco múltiples), se reducen a dos (un párrafo en blanco). No aplasta párrafos distintos — los separa limpiamente con UN espacio entre ellos.

Trim por línea y total. Remueve espacios al inicio y fin de cada línea, y al inicio y fin del texto completo. Hace que cada línea empiece limpia en la columna 1.

Caracteres invisibles. El que más sorpresas da. NBSP (U+00A0, un espacio que parece espacio pero no lo es), zero-width space (U+200B, literalmente invisible ocupando posición), zero-width joiner/non-joiner, byte-order mark al inicio, soft hyphen, varios espacios unicode (em-space, en-space, figure-space, etc.). Todos se convierten a espacios ASCII normales.

Normalizar comillas tipográficas. Word y publicaciones usan comillas inteligentes: “texto” (U+201C/U+201D) en vez de "texto" (U+0022). Aesthéticamente mejores pero rompen código fuente, regex, JSON. La opción las pasa a ASCII.

Quitar emojis. Remueve emojis y símbolos pictóricos Unicode. Útil cuando el texto debe ir a sistemas que no manejan emojis bien (SMS 7-bit, logs plain, algunas bases de datos legacy).

Casos de uso

Preparar texto para SMS. SMS 7-bit GSM tiene rango limitado. Acentos se convierten en múltiples bytes, y caracteres raros cuentan como múltiples caracteres. Limpiar antes baja el costo del SMS.

Importar texto a base de datos. Un INSERT con caracteres invisibles puede romper queries posteriores. Limpiar primero previene bugs misteriosos de búsqueda.

Pegar a campos de formulario estrictos. APIs que validan email, username, SKU, y rechazan caracteres fuera de ASCII. Limpiar antes evita errores.

Publicar a sistemas legacy. CMS antiguos, páginas estáticas, PDFs a texto que no aceptan Unicode completo. Limpiar caracteres invisibles y comillas tipográficas asegura compatibilidad.

Debug de texto misterioso. Un string no matchea en código a pesar de verse igual. Casi siempre es un carácter invisible. Limpiar y volver a comparar resuelve.

Casos en Chile

Exports del SII pegados como texto. Los portales del SII a veces permiten copiar tablas al portapapeles, pero el resultado trae NBSP entre celdas y formato peculiar. Limpiar antes de procesar evita que “12.345.678-9” aparezca con un NBSP entre los dígitos.

Copy de contratos legales. Contratos Word circulan por email y se copian entre colegas. Pegado a un formulario web arrastra formato que puede distorsionar el texto final. Limpiar asegura consistencia.

Descripciones de producto para e-commerce. Textos de catálogo copiados desde Word con viñetas, colores, fuentes. El CMS los recibe con HTML corrupto o se ven mal en el front. Limpiar a texto plano y re-formatear en el CMS es el workflow correcto.

Envío de mensajes masivos. Plataformas de email marketing o WhatsApp Business cobran por carácter y rechazan ciertos caracteres Unicode. Limpiar previamente optimiza costo y deliverability.

Qué NO hace esta herramienta

  • No remueve HTML profundo con JavaScript embebido o scripts. Para eso usa un sanitizer específico.
  • No corrige ortografía ni gramática. Solo remueve artefactos mecánicos.
  • No traduce. Preserva el idioma original.
  • No cambia el sentido. Solo limpia la envoltura.

Privacidad

Las transformaciones usan regex y métodos string nativos del navegador. Tu texto — posiblemente un contrato sensible, un email interno, un borrador confidencial — no sale de tu dispositivo. Importante para manejo de información sujeta a deber de confidencialidad.

Relacionadas

Preguntas frecuentes

¿Qué problemas resuelve?

Texto pegado desde Word, emails, PDFs o páginas web que trae contaminación invisible: NBSP (espacios no-rompibles), zero-width joiners, BOM, saltos de línea múltiples, comillas tipográficas '“…”' en vez de comillas rectas, emojis ornamentales. Todo eso rompe parsers, validadores, o formularios estrictos.

¿Quitar HTML remueve el contenido?

No. Remueve solo los tags <b>, <p>, <span>, etc. El texto entre los tags se preserva. Además decodificamos entidades HTML básicas (&amp; → &, &nbsp; → espacio). Es la operación típica para convertir HTML a texto plano.

¿Qué son 'caracteres invisibles'?

Caracteres Unicode que ocupan posición pero no se ven: NBSP (U+00A0), zero-width space (U+200B), zero-width joiners (U+200C/D), byte-order mark (U+FEFF), soft hyphen, y varios espacios unicode raros. Al pegar desde Word o email aparecen solos y rompen comparaciones de texto, búsquedas, validaciones.

¿Preserva saltos de línea?

Sí. 'Colapsar saltos de línea' solo reduce secuencias de 3 o más saltos a 2 (párrafo doble). No aplasta párrafos distintos. Si quieres remover TODOS los saltos, usa el checkbox de 'trim por línea' con un script adicional o copia una línea a la vez.

¿Se puede invertir?

No. La limpieza es destructiva. Tené el original guardado si vas a aplicar cambios grandes. Lo que quitás (formato, emojis, HTML) no vuelve a aparecer automáticamente.

¿Los textos se envían a algún servidor?

No. La limpieza ocurre 100% en tu navegador con regex locales. Útil para limpiar documentos confidenciales antes de subirlos a otros sistemas.

Otras herramientas en este cluster