Limpiar formato de texto
Remueve HTML, espacios extra, caracteres invisibles y comillas tipográficas con un clic.
100% local, tu archivo no sale de tu navegador
Todo el procesamiento ocurre en tu dispositivo. No subimos nada a ningún servidor.
Operaciones a aplicar
Texto original
0 caracteres
Texto limpio
Por qué el texto viene sucio
Copiar y pegar es engañoso. Lo que ves no es todo lo que recibís: junto con el texto visible, el portapapeles acarrea formato, caracteres invisibles y artefactos del origen. Fuentes típicas de suciedad:
- Word / Google Docs. Agregan NBSP (espacios no-rompibles), comillas tipográficas (“smart quotes”), guiones em, y tags de estilo al copiar a editores web que aceptan HTML.
- Emails. Los clients insertan espacios unicode raros, pueden incluir firmas automáticas con caracteres invisibles, y rompen el formato cuando los pegás en un campo limpio.
- Páginas web. Pegar desde una página trae tags HTML, atributos inline, entidades (&), y caracteres de formateo de JavaScript templating.
- PDFs. La extracción de PDF a texto frecuentemente agrega saltos de línea por ancho de columna, guiones de corte de palabra, y caracteres de control.
- Terminal / logs. ANSI escape codes, caracteres de control, BOM al inicio si vienen de archivos Windows.
Operaciones ofrecidas
Quitar HTML. Remueve tags HTML y decodifica entidades básicas. Si pegás <p>Hola & bienvenida</p>, obtenés Hola & bienvenida.
Colapsar espacios múltiples. Secuencias de 2 o más espacios/tabs se reducen a uno. Útil cuando el texto original tenía alineación con espacios o tabs inconsistentes.
Colapsar saltos de línea. Si hay tres o más saltos seguidos (lo que se ve como líneas en blanco múltiples), se reducen a dos (un párrafo en blanco). No aplasta párrafos distintos — los separa limpiamente con UN espacio entre ellos.
Trim por línea y total. Remueve espacios al inicio y fin de cada línea, y al inicio y fin del texto completo. Hace que cada línea empiece limpia en la columna 1.
Caracteres invisibles. El que más sorpresas da. NBSP (U+00A0, un espacio que parece espacio pero no lo es), zero-width space (U+200B, literalmente invisible ocupando posición), zero-width joiner/non-joiner, byte-order mark al inicio, soft hyphen, varios espacios unicode (em-space, en-space, figure-space, etc.). Todos se convierten a espacios ASCII normales.
Normalizar comillas tipográficas. Word y publicaciones usan comillas inteligentes: “texto” (U+201C/U+201D) en vez de "texto" (U+0022). Aesthéticamente mejores pero rompen código fuente, regex, JSON. La opción las pasa a ASCII.
Quitar emojis. Remueve emojis y símbolos pictóricos Unicode. Útil cuando el texto debe ir a sistemas que no manejan emojis bien (SMS 7-bit, logs plain, algunas bases de datos legacy).
Casos de uso
Preparar texto para SMS. SMS 7-bit GSM tiene rango limitado. Acentos se convierten en múltiples bytes, y caracteres raros cuentan como múltiples caracteres. Limpiar antes baja el costo del SMS.
Importar texto a base de datos. Un INSERT con caracteres invisibles puede romper queries posteriores. Limpiar primero previene bugs misteriosos de búsqueda.
Pegar a campos de formulario estrictos. APIs que validan email, username, SKU, y rechazan caracteres fuera de ASCII. Limpiar antes evita errores.
Publicar a sistemas legacy. CMS antiguos, páginas estáticas, PDFs a texto que no aceptan Unicode completo. Limpiar caracteres invisibles y comillas tipográficas asegura compatibilidad.
Debug de texto misterioso. Un string no matchea en código a pesar de verse igual. Casi siempre es un carácter invisible. Limpiar y volver a comparar resuelve.
Casos en Chile
Exports del SII pegados como texto. Los portales del SII a veces permiten copiar tablas al portapapeles, pero el resultado trae NBSP entre celdas y formato peculiar. Limpiar antes de procesar evita que “12.345.678-9” aparezca con un NBSP entre los dígitos.
Copy de contratos legales. Contratos Word circulan por email y se copian entre colegas. Pegado a un formulario web arrastra formato que puede distorsionar el texto final. Limpiar asegura consistencia.
Descripciones de producto para e-commerce. Textos de catálogo copiados desde Word con viñetas, colores, fuentes. El CMS los recibe con HTML corrupto o se ven mal en el front. Limpiar a texto plano y re-formatear en el CMS es el workflow correcto.
Envío de mensajes masivos. Plataformas de email marketing o WhatsApp Business cobran por carácter y rechazan ciertos caracteres Unicode. Limpiar previamente optimiza costo y deliverability.
Qué NO hace esta herramienta
- No remueve HTML profundo con JavaScript embebido o scripts. Para eso usa un sanitizer específico.
- No corrige ortografía ni gramática. Solo remueve artefactos mecánicos.
- No traduce. Preserva el idioma original.
- No cambia el sentido. Solo limpia la envoltura.
Privacidad
Las transformaciones usan regex y métodos string nativos del navegador. Tu texto — posiblemente un contrato sensible, un email interno, un borrador confidencial — no sale de tu dispositivo. Importante para manejo de información sujeta a deber de confidencialidad.
Relacionadas
- Convertir mayúsculas
- Quitar acentos
- Encode/decode
- Contar palabras para verificar tamaño post-limpieza.
Preguntas frecuentes
¿Qué problemas resuelve?
Texto pegado desde Word, emails, PDFs o páginas web que trae contaminación invisible: NBSP (espacios no-rompibles), zero-width joiners, BOM, saltos de línea múltiples, comillas tipográficas '“…”' en vez de comillas rectas, emojis ornamentales. Todo eso rompe parsers, validadores, o formularios estrictos.
¿Quitar HTML remueve el contenido?
No. Remueve solo los tags <b>, <p>, <span>, etc. El texto entre los tags se preserva. Además decodificamos entidades HTML básicas (& → &, → espacio). Es la operación típica para convertir HTML a texto plano.
¿Qué son 'caracteres invisibles'?
Caracteres Unicode que ocupan posición pero no se ven: NBSP (U+00A0), zero-width space (U+200B), zero-width joiners (U+200C/D), byte-order mark (U+FEFF), soft hyphen, y varios espacios unicode raros. Al pegar desde Word o email aparecen solos y rompen comparaciones de texto, búsquedas, validaciones.
¿Preserva saltos de línea?
Sí. 'Colapsar saltos de línea' solo reduce secuencias de 3 o más saltos a 2 (párrafo doble). No aplasta párrafos distintos. Si quieres remover TODOS los saltos, usa el checkbox de 'trim por línea' con un script adicional o copia una línea a la vez.
¿Se puede invertir?
No. La limpieza es destructiva. Tené el original guardado si vas a aplicar cambios grandes. Lo que quitás (formato, emojis, HTML) no vuelve a aparecer automáticamente.
¿Los textos se envían a algún servidor?
No. La limpieza ocurre 100% en tu navegador con regex locales. Útil para limpiar documentos confidenciales antes de subirlos a otros sistemas.
Otras herramientas en este cluster
Convertir mayúsculas/minúsculas
6 modos de case: UPPER, lower, Title, Sentence, toggle, invert.
Limpiar formato de texto
Remueve HTML, espacios dobles, saltos extra y caracteres invisibles.
Generar slug URL
Convierte un título en slug URL-amigable.
Quitar acentos
Remueve tildes y diacríticos con control fino sobre ñ y ü.