Runtime内存模型探究
- 23 Feb, 2020
Objective-C是一种通用、高级、面向对象的编程语言。它扩展了标准的ANSI C编程语言,将Smalltalk式的消息传递机制加入到ANSI C中。
可以这么理解,Objective-C = C + Runtime,Runtime是将C语言具有面向对象功能的推动剂,是iOS开发中的核心概念。我们可以在苹果开源的 runtime(当前的最新版本objc4-779.1.tar.gz)中可以发现一些 Objective-C 对象模型的实现细节。
NSObject的实现
OC中几乎所有的类都继承自NSObject
,OC的动态性也是通过NSObject实现的,那就从NSObject开始探索。
在runtime
源码中的NSObject.h
中,我们可以找到NSObject
的定义:
@interface NSObject <NSObject> {
Class isa OBJC_ISA_AVAILABILITY;
}
可以看出NSObject
里有一个指向Class
的isa
,其中对于Class的定义在objc.h
:
/// An opaque type that represents an Objective-C class.
typedef struct objc_class *Class;
/// Represents an instance of a class.
struct objc_object {
Class _Nonnull isa OBJC_ISA_AVAILABILITY;
};
objc_class
代表类对象,objc_object
代表实例对象,objc_object
的isa
指向objc_class
。
这里可以得出一个结论,实例对象的isa是指向类(类对象)的。其实类(objc_class)也有一个isa属性,那它指向什么呢?
Meta Class(元类)
这里runtime为了设计上的统一性,引入了元类(meta class)的概念。
对象的实例方法调用时,通过对象的 isa 在类中获取方法的实现。类对象的类方法调用时,通过类的 isa 在元类中获取方法的实现。
objc_class
的isa指向meta class,甚至meta class也有isa指针,它指向根元类(root meta class)。实例对象,类对象,元类和根元类的关系如下图所示:
类和元类形成了一个完整的闭环,其中有两条关系需要注意:
- 元类的isa均指向根元类,根元类指向自己
- 根元类继承根类(NSObject)
objective-c1.0数据模型
我们可以在runtime.h
中查看objc_class
的定义。
struct objc_class {
Class _Nonnull isa OBJC_ISA_AVAILABILITY;
#if !__OBJC2__
Class _Nullable super_class OBJC2_UNAVAILABLE;
const char * _Nonnull name OBJC2_UNAVAILABLE;
long version OBJC2_UNAVAILABLE;
long info OBJC2_UNAVAILABLE;
long instance_size OBJC2_UNAVAILABLE;
struct objc_ivar_list * _Nullable ivars OBJC2_UNAVAILABLE;
struct objc_method_list * _Nullable * _Nullable methodLists OBJC2_UNAVAILABLE;
struct objc_cache * _Nonnull cache OBJC2_UNAVAILABLE;
struct objc_protocol_list * _Nullable protocols OBJC2_UNAVAILABLE;
#endif
} OBJC2_UNAVAILABLE;
/* Use `Class` instead of `struct objc_class *` */
注意这两个宏命令:!__OBJC2__
和OBJC2_UNAVAILABLE
,他们均是为了提示当前的objc_class
结构是Objc2之前的结构设计,即Objc1.0的设计。
从这个objc_class
的定义我们可以看出它包含了超类的指针(super_class
),类名(name
),实例大小(instance_size
),objc_ivar_list
成员变量列表的指针(ivars
),指向objc_method_list
指针的指针(methodLists
)。
注意*methodLists
是指向方法列表的指针,可以动态修改*methodLists
的值来添加成员方法,这也是Category实现的原理,同样解释了Category不能添加属性的原因。
剩下的objc_cache
代表函数的缓存列表,objc_protocol_list
代表协议列表。
Objective语言历史
我在网上查资料的时候发现关于runtime的文章非常多,但提示数据模型在OC1.0和2.0之间区别的非常少,其实这一点很重要的。这也是为什么我将这段标题命名为Objective-C1.0数据模型的原因。
这里补一点Objective-C
语言的发展历史(维基百科):
Objective-C1.0 即Objective-C++ 由Stepstone 公司的布莱德·考克斯(Brad Cox)和 汤姆·洛夫(Tom Love) 在 1980 年代发明。它是GCC的一个前端,它可以编译混合C++与Objective-C语法的源文件。Objective-C++是C++的扩展,类似于Objective-C是C的扩展。
Objective-C2.0 在2006年7月苹果全球开发者会议中,Apple宣布了“Objective-C 2.0”的发布,其增加了“现代的垃圾收集,语法改进,运行时性能改进,以及64位支持”。
Objective2.0数据模型
可以在objc-runtim-new.h文件找到新版对objc_class
的数据模型定义:
struct objc_class : objc_object {
// Class ISA;
Class superclass;
cache_t cache; // formerly cache pointer and vtable
class_data_bits_t bits; // class_rw_t * plus custom rr/alloc flags
class_rw_t *data() const {
return bits.data();
}
}
struct objc_object {
private:
isa_t isa;
}
union isa_t
{
isa_t() { }
isa_t(uintptr_t value) : bits(value) { }
Class cls;
uintptr_t bits;
}
会发现objc_class
不再是一个单独的结构体,而是继承于objc_object
,objc_object内部的isa
变成了isa_t
的联合体。
class_data_bits_t
我们再回来看类中的其他属性,之前表示类的属性、方法、以及遵循的协议都放在了class_data_bits_t
中,更准确的说是放在了class_rw_t
。
struct class_data_bits_t {
friend objc_class;
// Values are the FAST_ flags above.
uintptr_t bits;
class_rw_t* data() const {
return (class_rw_t *)(bits & FAST_DATA_MASK);
}
}
struct class_rw_t {
// Be warned that Symbolication knows the layout of this structure.
uint32_t flags;
uint16_t version;
uint16_t witness;
const class_ro_t *ro;
method_array_t methods;
property_array_t properties;
protocol_array_t protocols;
}
struct class_ro_t {
uint32_t flags;
uint32_t instanceStart;
uint32_t instanceSize;
#ifdef __LP64__
uint32_t reserved;
#endif
const uint8_t * ivarLayout;
const char * name;
method_list_t * baseMethodList;
protocol_list_t * baseProtocols;
const ivar_list_t * ivars;
const uint8_t * weakIvarLayout;
property_list_t *baseProperties;
}
这里面引入了class_rw_t
和class_ro_t
(rw-readwrite,ro-readonly)两个结构体。可以看到class_rw_t
是包含一个常量指针ro
,结构体为class_ro_t
。这里存储了当前类在编译期就已经确定的属性、方法以及遵循的协议。在 ObjC 运行时的时候会调用 realizeClass
方法,将class_ro_t
传入class_rw_t
,所以新版的动态性是通过这种方式实现的。
cache_t
struct cache_t {
static bucket_t *emptyBuckets();
struct bucket_t *buckets();
mask_t mask();
mask_t occupied();
}
struct bucket_t {
// IMP-first is better for arm64e ptrauth and no worse for arm64.
// SEL-first is better for armv7* and i386 and x86_64.
#if __arm64__
explicit_atomic<uintptr_t> _imp;
explicit_atomic<SEL> _sel;
#else
explicit_atomic<SEL> _sel;
explicit_atomic<uintptr_t> _imp;
#endif
}
cache_t
是objc_class
中的缓存结构体,里面通过bucket_t
结构体存储一些最近调用的函数。设置cache最大的原因就是OC为动态语言,函数的执行是通过消息调用实现的,消息调用会首先查找当前类中的方法列表,如果找不到会查找父类,直到检索至NSObject
依然找不到函数实现,就会进入消息转发流程。而为了节省每次查找函数表的开销,发明了cache_t
。我们从bucket_t
的内联函数中可以看出,缓存的SEL和IMP都是在内存中进行加载的。
method_t
struct method_t {
SEL name;
const char *types;
MethodListIMP imp;
struct SortBySELAddress :
public std::binary_function<const method_t&,
const method_t&, bool>
{
bool operator() (const method_t& lhs,
const method_t& rhs)
{ return lhs.name < rhs.name; }
};
};
这是函数的结构体,里面包含3个成员变量。SEL
是方法的名字name。types
是类型编码,类型可参考Type Encoding。IMP
是一个函数指针,指向的是函数的具体实现。在runtime中消息传递和转发的目的就是为了找到IMP,并执行函数。
数据模型对比
最后总结下,Objc1.0到2.0的对比: 这两张图片引用自寒神博客。