cadena: elimina las primeras n palabras de un documento de texto en R

CorePress2024-01-24 7

Tengo un problema en R y no encuentro una solución similar en Stackoverflow.

Tengo un marco de datos con muchos documentos de texto diferentes. Intenté gsub para eliminar algunos caracteres de un documento de texto siguiendo un patrón específico. Esto funciona bien, pero ahora tengo el problema de que me gustaría eliminar las primeras 5 palabras de cada documento de texto.

Con los ejemplos:

"Oye, soy Tom y me gustan los plátanos" "Oye, soy Moritz y me gusta el chocolate"

Y la solución debería ser:

"Me gustan los plátanos" "Me gusta el chocolate"

¿Es posible esto con una función específica en R? Esto me ayudaría mucho.

Saludos cordiales, Tom

------------------------------------

Opción similar con str_remove

library(stringr)
str_remove(s, '(\w+\s+){5}')
#[1] "I like Bananas"   "I like Chocolate"

datos

s <- c("Hey I am Tom and I like Bananas", "Hey I am Moritz and I like Chocolate")

------------------------------------

Pruebe gsub como se muestra a continuación

> gsub("(\w+\s+){5}", "", s)
[1] "I like Bananas"   "I like Chocolate"

Datos

s <- c(
  "Hey I am Tom and I like Bananas",
  "Hey I am Moritz and I like Chocolate"
)

------------------------------------

Podemos usar strsplit, sapply y pegar

xx <- c("Hey I am Tom and I like Bananas", "Hey I am Moritz and I like Chocolate")

sapply(strsplit(xx, split = " "),
       FUN = function(x) paste(x[6:length(x)], collapse = " "))

# [1] "I like Bananas"   "I like Chocolate"

------------------------------------

opción de cadena:

library(stringr)

s <- c("Hey I am Tom and I like Bananas", "Hey I am Moritz and I like Chocolate")
word(s, 6, str_count(s, '\s')+1)
#[1] "I like Bananas"   "I like Chocolate"

randomThread

r: cree múltiples gráficos circulares con porcentajes recorriendo las columnas usando ggplot Ruby on Rails - ¿Cómo encontrar los elementos que no tienen relación (con un estado activo)?Rust - sin(), cos(), log10() (flotante) no encontrado para el objetivo thumbv7em-none-eabihf reaccionarjs - Obtención de datos del archivo JSON java: implementa un controlador de excepciones global de asesoramiento de controlador, intercepta las excepciones de tiempo de e javascript - Definición de una función usando los genéricos java - Tirar para actualizar en Webview para actualizar el contenido sql: ¿creé una tabla con una clave primaria compuesta (asignada a dos columnas) y creé otra tabla que hace referencia a una clav xml - Android Studio convierte los colores negros en blanco cuando se cambia al modo oscuro Python: cómo encontrar etiquetas dentro de una clase con Beautiful Soup ¿Por qué Java no ingresa a este bloque de código?Python - TypeError:, _AtIndexer, el objeto no se puede llamar en pandas

cadena: elimina las primeras n palabras de un documento de texto en R

Su guía para un futuro mejor - libreflare

Categoría