[BioMart Users] SNP info

classic Classic list List threaded Threaded
2 messages Options
Reply | Threaded
Open this post in threaded view
|

[BioMart Users] SNP info

Jean-Baptiste Cazier
Dear all,

First of all a warning as I am a very fresh member of a this mailing list. So apologises in advance for asking the wrong question at the wrong place.

I searched the archive for more information about the snp/hsapiens_snp data with no success. 
So I post my question here.

I am trying to annotate variants I have by position and thought to do so using BioMart. 
However I have observed behaviour that seems odd to me, and would like some clarification:

A- There seem to be multiple attributes with the same name
B- There is a need to match both chrom_start and chrom_end to get a unique hit for a given position
C- I cannot find any trace of 1000Genome annotation

I focus on the R interface which seems the only way to retrieve information about the content.
Detail for each problem can be found below:


A-multiple attributes
---------------------------
If I use the R interface (version 2.0.0 on R 2.9.0) I see the same variable 1-57, 2-54 and 3-55
> library(biomaRt)
> snpmart = useMart("snp", dataset="hsapiens_snp")
Checking attributes ... ok
Checking filters ... ok
> listAttributes(snpmart)
                                          name
1                                    refsnp_id
2                                     chr_name
3                                  chrom_start
4                                 chrom_strand
5                                       allele
6                                    mapweight
7                                    validated
8                                     allele_1
9                        phenotype_description
10                                       study
11                             variation_names
12                                  study_type
13                                 source_name
14                             associated_gene
15                               ega_stable_id
16                              phenotype_name
17              associated_variant_risk_allele
18                risk_allele_freq_in_controls
19                                     p_value
20                             set_description
21                                    set_name
22                                   name_2030
23                      illumina_human660wquad
24                       illumina_human1mduov3
25                        illumina_cytosnp12v1
26                                       affy6
27 variation_synonym_affy6_mb001__dm_name_2030
28                                     affy500
29                                     affy100
30  variation_synonym_hgmdpublic__dm_name_2030
31                             uniprot_synonym
32                                       dbsnp
33           population_genotype__dm_name_2019
34                                   size_2019
35              population_genotype__dm_allele
36                              frequency_2016
37                              variation_name
38                         consequence_type_tv
39                                ensembl_type
40             ensembl_transcript_chrom_strand
41                ensembl_transcript_stable_id
42                      ensembl_gene_stable_id
43                       ensembl_peptide_shift
44                                  cdna_start
45                                    cdna_end
46                           translation_start
47                             translation_end
48                                   cds_start
49                                     cds_end
50                                         snp
51                              upstream_flank
52                            downstream_flank
53                                chrom_strand
54                                    chr_name
55                                 chrom_start
56                                      source
57                                   refsnp_id
58                                      allele
59                                   validated
60                                   mapweight
61                       ensembl_peptide_shift
                           description
1                         Variation ID
2                      Chromosome name
3          Position on Chromosome (bp)
4                               Strand
5                               Allele
6                            Mapweight
7                    Validation status
8                     Ancestral allele
9                Phenotype description
10                   Study Information
11          Associated variation names
12                          Study type
13                         Source name
14                     Associated gene
15                        Source ID(s)
16                      Phenotype name
17      Associated variant risk allele
18   Risk allele frequency in controls
19                             P value
20           Variation Set Description
21                  Variation Set Name
22                     Ensembl synonym
23            Illumina Human 660W quad
24            Illumina Human 1M duo V3
25              Illumina CytoSNP 12 v1
26              Affy GenomeWideSNP 6.0
27                        Affy 6 mb001
28               AFFY GeneChip 500K ID
29               AFFY GeneChip 100K ID
30                             HGMD ID
31                     UniProt synonym
32                       dbSNP synonym
33                     Population Name
34                     Population Size
35                 Population Genotype
36                  Genotype Frequency
37                      Variation Name
38           Consequence to transcript
39                             Biotype
40                   Transcript strand
41               Ensembl Transcript ID
42                     Ensembl Gene ID
43                       Peptide shift
44        Variation start in cDNA (bp)
45          Variation end in cDNA (bp)
46 Variation start in translation (aa)
47   Variation end in translation (aa)
48         Variation start in CDS (bp)
49           Variation end in CDS (bp)
50                  Variation sequence
51                      upstream_flank
52                    downstream_flank
53                              Strand
54                     Chromosome name
55         Position on Chromosome (bp)
56                              Source
57                        Variation ID
58                              Allele
59                   Validation status
60                           Mapweight
61                       Peptide shift

What is the difference between these fields ?



B- Double match
----------------------

Still with the R interface above I get multiple hits if I only filter by chromosome and chrom_start.
Those hits are not multiples names for the same markers, but nearby markers.
Below is an example if I check position 81,190,378 on chr17:

> getBM(c('refsnp_id','allele','chr_name','chrom_start','chrom_strand'), filters = c('chr_name','chrom_start'), values = list('17','81190378'),mart=snpmart)
      refsnp_id                      allele chr_name chrom_start chrom_strand
1       rs13313                         G/T       17    81190705           -1
2      rs475301                         G/C       17    81193477            1
3      rs478891                         G/C       17    81193866            1
4      rs479959                         T/C       17    81194014            1
5      rs504073                         T/C       17    81194319            1
6      rs504890                         T/G       17    81194378            1
7      rs525143                         A/C       17    81191445            1
8      rs526166                         T/C       17    81191572            1
9      rs528160                         G/C       17    81191818            1
10     rs529711                         C/G       17    81191928            1
11     rs610444                         C/A       17    81193773            1
...
335 rs113232142                         A/C       17    81190641            1
336 rs113415424                      -/ACTC       17    81193914            1
337 rs113454131                         A/T       17    81194495            1
338 rs113537103                         A/G       17    81192076            1
339 rs113554302                         C/T       17    81191109            1
340 rs113647593                         A/G       17    81193785            1
341 rs113976139                         C/G       17    81190820            1

I need to match both start and end (to the same position) to get a single answer:


> getBM(c('refsnp_id','allele','chr_name','chrom_start','chrom_strand'), filters = c('chr_name','chrom_start','chrom_end'), values = list('17','81190378','81190378'), mart=snpmart)
   refsnp_id allele chr_name chrom_start chrom_strand
1 rs71264801    A/G       17    81190378            1

> listFilters(snpmart)
                                            name
1                                       chr_name
2                                    chrom_start
3                                      chrom_end
4                                     band_start
5                                       band_end
6                                     marker_end
7                                   marker_start
8                             chromosomal_region
9                                         strand
10                     with_variation_annotation
11                  with_variation_set_variation
12                  with_variation_synonym_affy6
13                with_variation_synonym_affy500
14                with_variation_synonym_affy100
15                  with_variation_synonym_dbsnp
16                with_variation_synonym_ensembl
17                with_variation_synonym_uniprot
18   with_variation_synonym_illumina_cytosnp12v1
19 with_variation_synonym_illumina_human660wquad
20  with_variation_synonym_illumina_human1mduov3
21             with_variation_synonym_hgmdpublic
22                                        refsnp
23                             validation_status
24                         phenotype_description
25                            variation_set_name
26                                with_validated
27                                  ensembl_gene
28                              consequence_type
                            description
1                       Chromosome name
2                                 Start
3                                   End
4                            Band Start
5                              Band End
6                            Marker End
7                          Marker Start
8                    Chromosome Regions
9                                Strand
10                  with Phenotype data
11                   with Variation Set
12                     with Affy6 ID(s)
13                   with Affy500 ID(s)
14                   with Affy100 ID(s)
15           with dbSNP synonym rsID(s)
16                   with Ensembl ID(s)
17 with Variation synonym uniprot ID(s)
18      with Illumina CytoSNP12v1 ID(s)
19  with Illumina Human 660W quad ID(s)
20  with Illumina Human 1M duo V3 ID(s)
21                      with HGMD ID(s)
22                        dbSNP rsID(s)
23                    Validation status
24                Phenotype description
25                   Variation Set Name
26  Variations that have been validated
27                  Ensembl Gene ID(s):
28                     Consequence type

Is there a better way to check for info on a SNP than giving a start-end filter ?



C-1000 Genome
-------------------

Finally from the list above I do not see any information about the presence of the variant in the 1000 Genome project.
Am I missing the attribute, or should I look at other table/DB ?




In general, I wonder if I am having problem with the R interface to BioMart, or am I misusing the DB itself

Answer, or link to info, for any of these problems would be greatly appreciated.


Thank you

Best regards
Jean-Baptiste


_______________________________________________
Users mailing list
[hidden email]
https://lists.biomart.org/mailman/listinfo/users
Reply | Threaded
Open this post in threaded view
|

Re: [BioMart Users] SNP info

Elena Rivkin

Dear Jean-Baptiste, 


The query you are describing can also be performed using the BioMart Martview interface (http://www.biomart.org/biomart/martview). As with the R interface, this will include selecting datasets, filters and attributes.

 

Database: Ensembl Variation. Dataset: Ensembl Variation  (dbSNP 132).


Filters: To select SNPs from the 1000 Genome Projects, you can set Variation Set Name under General Variation Filters, and/or select Variation Set Name in the in the attributes. For SNP location, select Chromosome, the Start and End in Region section (see answer 2 below for explanation).

 

Attributes

To view the location of the SNPs, select Chromosome name and Position on Chromosome (bp) in section: Variation>Sequence variation.

 

To answer your questions:

 

1.     There are two Chromosome name attributes, one under the Variation section, and one under the Sequences section. Because these two sections are mutually exclusive (i.e. you can select one or the other), the Chromosome name filter appears in both. These two Chromosome name attributes correspond to numbers 2 and 54 on your list. Both attributes come from the same DB table, so they should be identical.

2.     The Start filter identifies SNPs starting at or upstream of the entered bp. The End filters identifies SNPs located at or downstream of the entered bp. Thus, for specific bp locations, you will need to set both filters to be the same.

3.     The majority of variants in Ensembl variation are imported from NCBI dbSNP. Data from 1000 Genomes are included once it has been submitted to dbSNP. You can see the source of the data by selecting Variation Set Name in the attributes. 


Please let me know if you have additional questions regarding this query or BioMart in general, and I will be glad to assist you in these matters. 


Regards, 


Elena


From: Jean-Baptiste Cazier <[hidden email]>
Date: Fri, 15 Apr 2011 02:35:32 -0400
To: "[hidden email]" <[hidden email]>
Subject: [BioMart Users] SNP info

Dear all,

First of all a warning as I am a very fresh member of a this mailing list. So apologises in advance for asking the wrong question at the wrong place.

I searched the archive for more information about the snp/hsapiens_snp data with no success. 
So I post my question here.

I am trying to annotate variants I have by position and thought to do so using BioMart. 
However I have observed behaviour that seems odd to me, and would like some clarification:

A- There seem to be multiple attributes with the same name
B- There is a need to match both chrom_start and chrom_end to get a unique hit for a given position
C- I cannot find any trace of 1000Genome annotation

I focus on the R interface which seems the only way to retrieve information about the content.
Detail for each problem can be found below:


A-multiple attributes
---------------------------
If I use the R interface (version 2.0.0 on R 2.9.0) I see the same variable 1-57, 2-54 and 3-55
> library(biomaRt)
> snpmart = useMart("snp", dataset="hsapiens_snp")
Checking attributes ... ok
Checking filters ... ok
> listAttributes(snpmart)
                                          name
1                                    refsnp_id
2                                     chr_name
3                                  chrom_start
4                                 chrom_strand
5                                       allele
6                                    mapweight
7                                    validated
8                                     allele_1
9                        phenotype_description
10                                       study
11                             variation_names
12                                  study_type
13                                 source_name
14                             associated_gene
15                               ega_stable_id
16                              phenotype_name
17              associated_variant_risk_allele
18                risk_allele_freq_in_controls
19                                     p_value
20                             set_description
21                                    set_name
22                                   name_2030
23                      illumina_human660wquad
24                       illumina_human1mduov3
25                        illumina_cytosnp12v1
26                                       affy6
27 variation_synonym_affy6_mb001__dm_name_2030
28                                     affy500
29                                     affy100
30  variation_synonym_hgmdpublic__dm_name_2030
31                             uniprot_synonym
32                                       dbsnp
33           population_genotype__dm_name_2019
34                                   size_2019
35              population_genotype__dm_allele
36                              frequency_2016
37                              variation_name
38                         consequence_type_tv
39                                ensembl_type
40             ensembl_transcript_chrom_strand
41                ensembl_transcript_stable_id
42                      ensembl_gene_stable_id
43                       ensembl_peptide_shift
44                                  cdna_start
45                                    cdna_end
46                           translation_start
47                             translation_end
48                                   cds_start
49                                     cds_end
50                                         snp
51                              upstream_flank
52                            downstream_flank
53                                chrom_strand
54                                    chr_name
55                                 chrom_start
56                                      source
57                                   refsnp_id
58                                      allele
59                                   validated
60                                   mapweight
61                       ensembl_peptide_shift
                           description
1                         Variation ID
2                      Chromosome name
3          Position on Chromosome (bp)
4                               Strand
5                               Allele
6                            Mapweight
7                    Validation status
8                     Ancestral allele
9                Phenotype description
10                   Study Information
11          Associated variation names
12                          Study type
13                         Source name
14                     Associated gene
15                        Source ID(s)
16                      Phenotype name
17      Associated variant risk allele
18   Risk allele frequency in controls
19                             P value
20           Variation Set Description
21                  Variation Set Name
22                     Ensembl synonym
23            Illumina Human 660W quad
24            Illumina Human 1M duo V3
25              Illumina CytoSNP 12 v1
26              Affy GenomeWideSNP 6.0
27                        Affy 6 mb001
28               AFFY GeneChip 500K ID
29               AFFY GeneChip 100K ID
30                             HGMD ID
31                     UniProt synonym
32                       dbSNP synonym
33                     Population Name
34                     Population Size
35                 Population Genotype
36                  Genotype Frequency
37                      Variation Name
38           Consequence to transcript
39                             Biotype
40                   Transcript strand
41               Ensembl Transcript ID
42                     Ensembl Gene ID
43                       Peptide shift
44        Variation start in cDNA (bp)
45          Variation end in cDNA (bp)
46 Variation start in translation (aa)
47   Variation end in translation (aa)
48         Variation start in CDS (bp)
49           Variation end in CDS (bp)
50                  Variation sequence
51                      upstream_flank
52                    downstream_flank
53                              Strand
54                     Chromosome name
55         Position on Chromosome (bp)
56                              Source
57                        Variation ID
58                              Allele
59                   Validation status
60                           Mapweight
61                       Peptide shift

What is the difference between these fields ?



B- Double match
----------------------

Still with the R interface above I get multiple hits if I only filter by chromosome and chrom_start.
Those hits are not multiples names for the same markers, but nearby markers.
Below is an example if I check position 81,190,378 on chr17:

> getBM(c('refsnp_id','allele','chr_name','chrom_start','chrom_strand'), filters = c('chr_name','chrom_start'), values = list('17','81190378'),mart=snpmart)
      refsnp_id                      allele chr_name chrom_start chrom_strand
1       rs13313                         G/T       17    81190705           -1
2      rs475301                         G/C       17    81193477            1
3      rs478891                         G/C       17    81193866            1
4      rs479959                         T/C       17    81194014            1
5      rs504073                         T/C       17    81194319            1
6      rs504890                         T/G       17    81194378            1
7      rs525143                         A/C       17    81191445            1
8      rs526166                         T/C       17    81191572            1
9      rs528160                         G/C       17    81191818            1
10     rs529711                         C/G       17    81191928            1
11     rs610444                         C/A       17    81193773            1
...
335 rs113232142                         A/C       17    81190641            1
336 rs113415424                      -/ACTC       17    81193914            1
337 rs113454131                         A/T       17    81194495            1
338 rs113537103                         A/G       17    81192076            1
339 rs113554302                         C/T       17    81191109            1
340 rs113647593                         A/G       17    81193785            1
341 rs113976139                         C/G       17    81190820            1

I need to match both start and end (to the same position) to get a single answer:


> getBM(c('refsnp_id','allele','chr_name','chrom_start','chrom_strand'), filters = c('chr_name','chrom_start','chrom_end'), values = list('17','81190378','81190378'), mart=snpmart)
   refsnp_id allele chr_name chrom_start chrom_strand
1 rs71264801    A/G       17    81190378            1

> listFilters(snpmart)
                                            name
1                                       chr_name
2                                    chrom_start
3                                      chrom_end
4                                     band_start
5                                       band_end
6                                     marker_end
7                                   marker_start
8                             chromosomal_region
9                                         strand
10                     with_variation_annotation
11                  with_variation_set_variation
12                  with_variation_synonym_affy6
13                with_variation_synonym_affy500
14                with_variation_synonym_affy100
15                  with_variation_synonym_dbsnp
16                with_variation_synonym_ensembl
17                with_variation_synonym_uniprot
18   with_variation_synonym_illumina_cytosnp12v1
19 with_variation_synonym_illumina_human660wquad
20  with_variation_synonym_illumina_human1mduov3
21             with_variation_synonym_hgmdpublic
22                                        refsnp
23                             validation_status
24                         phenotype_description
25                            variation_set_name
26                                with_validated
27                                  ensembl_gene
28                              consequence_type
                            description
1                       Chromosome name
2                                 Start
3                                   End
4                            Band Start
5                              Band End
6                            Marker End
7                          Marker Start
8                    Chromosome Regions
9                                Strand
10                  with Phenotype data
11                   with Variation Set
12                     with Affy6 ID(s)
13                   with Affy500 ID(s)
14                   with Affy100 ID(s)
15           with dbSNP synonym rsID(s)
16                   with Ensembl ID(s)
17 with Variation synonym uniprot ID(s)
18      with Illumina CytoSNP12v1 ID(s)
19  with Illumina Human 660W quad ID(s)
20  with Illumina Human 1M duo V3 ID(s)
21                      with HGMD ID(s)
22                        dbSNP rsID(s)
23                    Validation status
24                Phenotype description
25                   Variation Set Name
26  Variations that have been validated
27                  Ensembl Gene ID(s):
28                     Consequence type

Is there a better way to check for info on a SNP than giving a start-end filter ?



C-1000 Genome
-------------------

Finally from the list above I do not see any information about the presence of the variant in the 1000 Genome project.
Am I missing the attribute, or should I look at other table/DB ?




In general, I wonder if I am having problem with the R interface to BioMart, or am I misusing the DB itself

Answer, or link to info, for any of these problems would be greatly appreciated.


Thank you

Best regards
Jean-Baptiste


_______________________________________________
Users mailing list
[hidden email]
https://lists.biomart.org/mailman/listinfo/users