Separate contents of field
我确定这很简单,我认为这是使用分离和聚集的情况。
我在数据框中有一个字段,作者列表,已编辑的 pubmed 搜索导出。它包含出版物的作者。显然,它可以包含单个作者或作者的合作。
例如,这只是可用选项的选择:
1
2 |
Author
Drijgers RL, Verhey FR, Leentjens AF, Kahler S, Aalten P. |
我想做的是创建一个所有作者的单一列表,这样我就会有类似
的东西
1
2 3 4 5 6 |
Author
Drijgers RL Verhey FR Leentjens AF Kahler S Aalten P |
我该怎么做?
我以为它会像
1
|
authSpread<-authorlist%>%separate(Author,sep =”,”,extra =”drop”)
|
但它不起作用。
如果我输入 = “NA”
我只在一个专栏中列出了第一作者。
我想做的是将文本复制到 excel 中的列功能,您可以在其中指定要拆分的字符,并将单元格的内容投射/传播到新单元格。然后将它们重新收集到一列中。
我不知道作者的最大数量,因此不知道以编程方式分割的列数(或如何标记它们)。
编辑:澄清
我不知道我是否想制作一个长宽的数据框然后收集 – 因为我不知道会生成多少个字段。这是明智之举吗?
我想我可以将单独的输出写入 “,” 到一个列表中,然后将该列表的内容写入单个数据框。
这听起来更有效率吗?
你正在寻找 separate_rows.
输入:
1
2 3 4 |
df <- data.frame(authors = c(“Drijgers RL, Verhey FR, Leentjens AF, K????hler S, Aalten P.”))
authors |
功能:
1
2 3 |
library(tidyverse)
df %>% separate_rows(authors, sep =”,”) |
输出:
1
2 3 4 5 6 |
authors
1 Drijgers RL 2 Verhey FR 3 Leentjens AF 4 K????hler S 5 Aalten P. |
您可以将它们保存在这样的列表中:
1
|
authors_list <- df %>% separate_rows(authors, sep =”,”) %>% pull(authors)
|
输出:
1
|
[1]”Drijgers RL” “Verhey FR” “Leentjens AF””K????hler S” “Aalten P.”
|
如果您的列表中有多篇文章的作者,并且您只想要唯一的出现,只需在末尾添加 unique():
1
|
authors_list <- df %>% separate_rows(authors, sep =”,”) %>% pull(authors) %>% unique()
|
- 感谢您提供出色的解决方案。我可以在 excel 中简单地做到这一点:分出第一作者,分出最后一个作者。然后计算作者作为第一作者或最后作者出现的次数。如何在 R 中复制它?我可以从上面的单独行答案中计算作者发表出版物的总次数。 (很抱歉挤了一个额外的问题)
- 最后的附加问题(我希望)。我将如何将第一作者和最后作者分开以分隔列。将来知道这可能很有用。在这个答案 stackoverflow.com/questions/46717210/… 中,列数是已知的。怎么说”以逗号分割这个字符串,并根据作者列表中的姓名数量将它们放入未知数量的列中”?
- @damo,不客气,如果有帮助,请考虑接受答案。我认为最好将第二个问题变成 SO 上的另一个问题,因为内容不同。
- 行。会做。再次感谢。
来源:https://www.codenong.com/53309849/