Saltar al contenido principal
short.cl

Extraer datos de texto

Emails, URLs, RUTs validados, teléfonos, IPs y fechas — todo desde un texto bruto.

100% local, tu archivo no sale de tu navegador

Todo el procesamiento ocurre en tu dispositivo. No subimos nada a ningún servidor.

Texto fuente

Qué extraer

Scraping local de texto: por qué importa

Tienes un bloque de texto — un export de CRM, un email largo, un reporte en PDF pegado, un chat de trabajo — y necesitas solo los datos estructurados que contiene: los emails mencionados, los RUTs citados, las URLs referidas. Esta herramienta automatiza esa extracción con regex afinados, sin subir el texto a ningún servicio externo.

Qué detecta cada patrón

Emails. Matchea local@dominio.tld con variaciones comunes: puntos, guiones, + (para filtros en Gmail). No valida el dominio como existente, solo la forma.

URLs. http:// o https:// seguido de dominio y path. Incluye query strings y fragmentos. No valida que el sitio exista, solo la estructura.

Teléfonos chilenos. Formato móvil de 9 dígitos con el 9 inicial, con o sin prefijo +56, con o sin espacios o guiones. Ejemplos válidos: +56 9 1234 5678, 912345678, 9 1234 5678, +56912345678. No matchea teléfonos fijos (22 XXXX XXXX) por falta de ambigüedad con otros números de 8 dígitos.

RUTs chilenos. 7-8 dígitos seguidos de guion opcional y dígito verificador (0-9 o K). Con o sin puntos como separadores. Ejemplos: 12.345.678-9, 12345678-9, 123456789, 12345678-K. Con validación activada, aplicamos módulo 11 y filtramos los que no pasan.

IPs v4. Cuatro octetos separados por punto: 192.168.1.1, 10.0.0.1, 8.8.8.8. No validamos rangos (por ej. 999.999.999.999 matchea estructuralmente aunque no sea IP válida). No detectamos IPv6.

Fechas DD/MM/AAAA. Formato chileno: 03/05/2026, 3/5/26, 03/05/2026. No distinguimos DD/MM/YYYY de MM/DD/YYYY. En contexto chileno asumimos DD/MM.

Validación de RUT

El dígito verificador del RUT se calcula con el algoritmo módulo 11. Cada dígito del cuerpo se multiplica por la secuencia 2, 3, 4, 5, 6, 7, 2, 3, ... (de derecha a izquierda), se suman, y se calcula 11 menos el módulo. El resultado 11 es 0, el 10 es K, el resto es el dígito mismo.

Esto significa que solo 1 de cada 11 combinaciones de 8 dígitos + dígito tiene dígito verificador correcto. Sin validación, un texto largo puede tener muchos “falsos RUTs” (números con formato RUT pero no válidos). Con validación activada, solo pasan los reales.

Casos de uso

Reclutamiento. Copiar una lista de CVs en un solo bloque y extraer todos los emails y RUTs de los postulantes. Base de datos instantánea sin ingreso manual.

Procesamiento de emails. Pegar el cuerpo de un email largo y extraer solo los links (para verificar), los emails de CC mencionados, o los RUTs referenciados.

Limpieza de exports desordenados. Un export CSV mal formado con datos mezclados en una sola columna. Pegar y extraer reconstituye las estructuras.

Auditoría de documentos. Un PDF legal con muchos RUTs mencionados (firmantes, testigos, partes). Pegar el texto y extraer confirma quiénes aparecen sin leer cada línea.

Logs de aplicaciones. Extraer todas las IPs que accedieron, o todos los emails de los usuarios que reportaron errores, desde un log de texto crudo.

Análisis de mensajes masivos. WhatsApp export de un grupo grande. Extraer teléfonos, emails y links compartidos para agregar a una base estructurada.

Casos en Chile

Libros de ventas del SII pegados como texto. Si tienes un export que no está estructurado (a veces el SII entrega reportes en formato mixto), extraer los RUTs de los receptores permite cruzar con otras fuentes.

Listados de contactos desde redes. LinkedIn exports, listados de profesionales copiados de sitios web. Los emails y teléfonos emergen con este procesamiento.

Aviso legal de portales. Términos de servicio que mencionan RUTs de empresas, emails de contacto legal, sitios asociados. Extraer para catalogar.

Validación de contratos. Un contrato con múltiples partes. Extraer los RUTs mencionados, validar todos con módulo 11, y confirmar que ninguno está mal digitado.

Limitaciones a considerar

Regex vs NLP. Esta herramienta es basada en patrones regulares. No entiende contexto. Un RUT dentro de una oración como “mi número es 12345678-9” se detecta. Pero no distingue entre “un RUT de ejemplo” y “el RUT del cliente” — ambos se extraen.

Falsos positivos. Ciertos números pueden matchear teléfono sin serlo (ej: una hora formateada como 9 1200 0000 podría no ser teléfono). El validar dígito verificador filtra muchos falsos en RUTs pero no resuelve otros casos.

Falsos negativos. Si los datos están formateados de forma no estándar (ej: RUT escrito con espacio en vez de guion), no se detectan. Podés normalizar con limpiar-formato antes para mejorar detección.

Solo Chile. Los patrones de teléfono y RUT son específicos. Para textos con datos internacionales, usa herramientas dedicadas por país.

Privacidad crítica

Los RUTs, emails y teléfonos son datos personales bajo Ley 19.628. Procesarlos en un servicio web externo sin consentimiento explícito es problemático desde perspectiva legal y de seguridad. Nuestra herramienta corre íntegramente en tu navegador — los patrones se aplican localmente, los datos nunca viajan a un servidor.

Esto es relevante para procesos de compliance: RR.HH. procesando CVs, áreas legales validando contratos, ventas segmentando leads. En todos los casos, mantener los datos locales respeta las obligaciones de custodia.

Relacionadas

Preguntas frecuentes

¿Qué puede extraer?

Seis tipos de datos. Emails (patrón estándar RFC-lite). URLs (http/https). Teléfonos chilenos (+56 9 XXXX XXXX con variaciones de espacios y guiones). RUTs chilenos (con o sin puntos/guion, con validación opcional de dígito verificador). IPs v4. Fechas en formato DD/MM/AAAA (chileno).

¿Valida el dígito verificador del RUT?

Sí, si activas la opción. Aplicamos el módulo 11 chileno para validar que el dígito verificador corresponda a los números del RUT. Esto filtra RUTs inválidos — secuencias de 8-9 dígitos que parecen RUT pero no lo son (típico en extracciones masivas).

¿Deduplica resultados?

Por default sí. Cada valor aparece una vez aunque se repita en el texto. Si quieres contar apariciones, desactiva la opción — te mostrará cada match separado. Para análisis estadístico con frecuencias, descarga el CSV con todos los matches.

¿Detecta teléfonos internacionales?

No. El patrón está afinado para Chile: +56 9 XXXX XXXX, 9XXXXXXXX, o con guiones/espacios. No captura +1, +44 u otros formatos. Para números internacionales conviene un regex específico por país.

¿Funciona con textos grandes?

Sí, hasta varios MB instantáneamente. Un documento de 100 páginas con cientos de emails y RUTs se procesa en menos de un segundo. Los regex son O(n) sobre el texto.

¿Los textos se suben a un servidor?

No. Todo ocurre con regex en tu navegador. Útil cuando el texto contiene información sensible (exports del SII, emails corporativos, base de contactos) que no quieres pasar por un servicio web.

Otras herramientas en este cluster