mongodb 学习笔记之二 mongodb入门(数据库、文档和集合)
MongOdb 基本概念:
1、文档是Mongodb中数据的基本单元,类似于关系型数据库中的行。(但比行要复杂的多)
2、集合可以看出是没有字段属性的表。
3、Mongodb 的单个实列可以包含独立的多个数据库,每一个都有自己的集合和权限。
4、Mongodb 自带简洁但功能强大的javasrcipt shell ,这个工具对于管理Mongodb实列和操作数据非常有用。
5、每一个文档都有一个特殊的键“_id”它在文档所处的集合是唯一。
文档
文档是MongoDB的核心概念.多个键及其关联的值有序的放置在一起便是文档.
大多数语言都有想通的一种数据结构,比如:映射,散列或字典.在javascript里面,文档表示为对象:
{"greeting":"Hello world","age":30}
这个文档只有一个键"greeting",其对应的值为"Hello world".绝大数情况下,文档会比这复杂的多,
经常会包含多个键值对:
{"greeting":"Hello world","Hello":"Refactor"}
文档中的键值对是有序的,上面的文档与下面的文档是不同的:
{"Hello":"Refactor","greeting":"Hello world"}
文档中的值可以是字符串,也可以是其他几种数据类型.如例子中的"age"的值是整数
文档中的键是字符串,除了少数例外的情况下,键可以是任意utf-8字符
键不能含有\0(空字符),这个字符表示键的结尾
.和$只有在特定的环境下才能使用,使用不当的话,驱动程序会提示
下划线"_"开头的键是保留的,虽然这个并不是严格要求的
MongoDB不但区分类型,也区分大小写,下面两个文档是不同的:
{"age":"30"}
{"age":30}
以下文档也是不同的:
{"age":30}
{"Age":30}
MongoDB文档不能有重复键
{"Hello":"Hello world","Hello":"Refactor"}这是不正确的
如果我们会json,那么bson我们就已经掌握了一半了,至于新添加的数据类型后面我会介绍。
文档例子如下:
通常,"object(对象)" 术语是指一个文件。
文件类似于一个RDBMS的记录。
我们可以对集合(collection)进行插入,更新和删除操作。
下表将帮助您更容易理解Mongo中的一些概念:
RDBMS | MongoDB |
---|---|
Table(表) | Collection(集合) |
Column(栏) | Key(键) |
Value(值) | Value(值) |
Records / Rows(记录/列) | Document / Object(文档/对象) |
下表为MongoDB中常用的几种数据类型。
数据类型 | 描述 |
---|---|
string(字符串) | 可以是一个空字符串或者字符组合。 |
integer(整型) | 整数。 |
boolean(布尔型) | 逻辑值 True 或者 False。 |
double | 双精度浮点型 |
null | 不是0,也不是空。 |
array | 数组:一系列值 |
object | 对象型,程序中被使用的实体。可以是一个值,变量,函数,或者数据结构。 |
timestamp | timestamp存储为64为的值,只运行一个mongod时可以确保是唯一的。前32位保存的是UTC时间,单位是秒,后32为是在这一秒内的计数值,从0开始,每新建一个MongoTimestamp对象就加一。 |
Internationalized Strings | UTF-8 字符串。 |
Object IDs | 在mongodb中的文档需要使用唯一的关键字_id来标识他们。几乎每一个mongodb文档都使用_id字段作为第一个属性(在系统集合和定容量集合(capped collection)中有一些例外)。_id值可以是任何类型,最常见的做法是使用ObjectId类型。 |
集合
集合是一组文档,如果说文档相当于关系型数据库中的行,那么集合相当于表
集合是无模式的,这意味着一个集合里面的文档可以是各种各样的,下面两个文档可以存在同一个集合中:
{"Hello":"Refactor"}
{"Age":30}
注意,上面的文档不光是值的类型不同(字符串和整数),他们的键也是不一样的.因为集合里面可以放置任何文档,
那么就有一个问题:还有必要使用多个集合吗?要是没必要对各种文档划分模式,那么为什么还要使用多个结合呢?
理由如下:
1.把各种各样的文档都混在一个集合里面,开发者要么确保每次查询只返回需要的文档种类,要么让执行查询的
应用程序来处理所有不同类型的文档.如:查询博客文章,还要剔除那么包含有作者数据的文档
2.在一个集合里面查询特定类型的文档在速度上不划算,分开做多个集合要快的多.如:集合里面有个标注类型的键
要查询其值为"Refactor1","Refactor2"或"Refactor3"的文档,就会很慢,如果按照名字分割成3个集合的话,查询会
快的多(参见"子集合")
3.把同种类型的文档放在一个集合里,这样数据很集中.从只含有博客文章的集合里面查询几篇文章,会比从含有文章
和作者数据的集合里面查几篇文章少消耗磁盘寻道操作.
4.当创建索引的时候,文档会有附加的结构(尤其是有唯一索引的时候).索引是按照集合来定义的.把同种类型的文档
放在同一个集合里面.使索引更有效.
合法的集合名
集合名称必须以字母或下划线开头。
集合名可以保护数字
集合名称不能使美元符"$","$"是系统保留字符。
集合的名字 最大不能超过128个字符 。
另外,"."号的使用在集合当中是允许的,它们被成为子集合(Subcollection);比如你有一个blog集合,你可以使用blog.title,blog.content或者blog.author来帮组你更好地组织集合。
如下实例:
capped collections
Capped collections 就是固定大小的collection。
它有很高的性能以及队列过期的特性(过期按照插入的顺序). 有点和 "RRD" 概念类似。
Capped collections是高性能自动的维护对象的插入顺序。它非常适合类似记录日志的功能 和标准的collection不同,你必须要显式的创建一个capped collection, 指定一个collection的大小,单位是字节。collection的数据存储空间值提前分配的。
要注意的是指定的存储大小包含了数据库的头信息。
- 在capped collection中,你能添加新的对象。
- 能进行更新,然而,对象不会增加存储空间。如果增加,更新就会失败 。
- 数据库不允许进行删除。使用drop()方法删除collection所有的行。
- 注意: 删除之后,你必须显式的重新创建这个collection。
- 在32bit机器中,capped collection最大存储为1e9( 1X109)个字节。
子集合
组织集合的一种惯例是使用"."字符分开的按命名空间划分的子集合.如:一个带有博客功能的应用可能包含两个集合,
分别是blog.posts和blog.authors.这样做的目的是为了使组织结构更好些,也就是说blog这个集合(可能根本就不存在)
及其子集合没有任何关系.
很多MongoDB工具中都包含子集合
1.GridFS是一种存储大文件的协议,使用子集合来存储文件的元数据,这样就与内容块分开了
2.MongoDB的web控制台通过子集合的方式将数据组织在DBTOP部分
3.数据库shell里面,db.blog代表blog集合,db.blog.posts代表blog.posts集合
在MongoDB中使用子集合是组织数据的最好方法.
数据库
MongoDB中多个文档组成集合,同样多个集合组成数据库.一个MongoDB实例可以有多个数据库,它们之间可视为完全独立的.每个数据库都有独立的权限控制,即便是在磁盘上,不同的数据库也放置
在不同的文件中.将一个应用的所有数据存储在同一个数据库中.
和集合一样,数据库也通过名字来标识,数据库名必须满足如下条件的utf-8字符:
1.不能是空字符串("")
2.不能含有''(空格),.,$,/,\和\0(空字符)
3.应全部小写
4.最多64字节
之所以有这么限制,是因为数据库名最终会变成文件系统里的文件.
有些数据库名是保留的,可以直接访问这些有特殊作用的数据库,如:
1.admin
从权限的角度看,这是"root"数据库.要是将一个用户添加到这个数据库,这个用户自动继承所有数据库的权限.
一些特定的服务器端命令也只能从这个数据库运行,如:列出所有的数据库或者关闭服务器
2.local
这个数据库不会被复制,可以用来存储限于本地单台服务器的任意集合
3.config
当MongoDB用于分片设置时,config数据库在内部使用,用于保存分片的相关信息.
重点注意:
把数据库的名字放在集合名前,得到就是集合的完全限定名,称为命名空间.如:如果在cms数据库中
使用blog.posts集合,那么这个集合的命名空间就是cms.blog.posts.命名空间不得超过121字节,
在实际应用中应该小于100字节.
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。