c79cf61225bf770448d284d82c0a7fc9090c64ec
[web.git] / personal / _posts / 2018-07-24-pointers-and-bytes.md
1 ---
2 title: "Pointers Are Complicated, or: What's in a Byte?"
3 categories: internship rust
4 forum: https://internals.rust-lang.org/t/pointers-are-complicated-or-whats-in-a-byte/8045
5 ---
6
7 This summer, I am again [working on Rust full-time]({{ site.baseurl }}{% post_url 2018-07-11-research-assistant %}), and again I will work (amongst other things) on a "memory model" for Rust/MIR.
8 However, before I can talk about the ideas I have for this year, I have to finally take the time and dispel the myth that "pointers are simple: they are just integers".
9 Both parts of this statement are false, at least in languages with unsafe features like Rust or C: Pointers are neither simple nor (just) integers.
10
11 I also want to define a piece of the memory model that has to be fixed before we can even talk about some of the more complex parts: Just what *is* the data that is stored in memory?
12 It is organized in bytes, the minimal addressable unit and the smallest piece that can be accessed (at least on most platforms), but what are the possible values of a byte?
13 Again, it turns out "it's just an 8-bit integer" does not actually work as the answer.
14
15 I hope that by the end of this post, you will agree with me on both of these statements. :)
16
17 <!-- MORE -->
18
19 ## Pointers Are Complicated
20
21 What is the problem with "pointers are just integers"?  Let us consider the following example:<br>
22 (I am using C++ code here mostly because writing unsafe code is easier in C++, and unsafe code is where these problems really show up.)
23 {% highlight c++ %}
24 int test() {
25     auto x = new int[8];
26     auto y = new int[8];
27     y[0] = 42;
28     int i = /* some side-effect-free computation */;
29     auto x_ptr = &x[i];
30     *x_ptr = 23;
31     return y[0];
32 }
33 {% endhighlight %}
34 It would be beneficial to be able to optimize the final read of `y[0]` to just return `42`.
35 The justification for this optimization is that writing to `x_ptr`, which points into `x`, cannot change `y`.
36
37 However, given how low-level a language C++ is, we can actually break this assumption by setting `i` to `y-x`.
38 Since `&x[i]` is the same as `x+i`, this means we are actually writing `23` to `&y[0]`.
39
40 Of course, that does not stop C++ compilers from doing these optimizations.
41 To allow this, the standard declares our code to have [undefined behavior]({{ site.baseurl }}{% post_url 2017-07-14-undefined-behavior %}).
42
43 First of all, it is not allowed to perform pointer arithmetic (like `&x[i]` does) that goes [beyond either end of the array it started in](https://timsong-cpp.github.io/cppwp/n4140/expr.add#5).
44 Our program violates this rule: `x[i]` is outside of `x`, so this is undefined behavior.
45 To be clear: Just the *computation* of `x_ptr` is already UB, we don't even get to the part where we want to *use* this pointer![^1]
46
47 [^1]: It turns out that `i = y-x` is *also* undefined behavior because [one may only subtract pointers into the same allocation](https://timsong-cpp.github.io/cppwp/n4140/expr.add#6). However, we could use `i = ((size_t)y - (size_t)x)/sizeof(int)` to work around that.
48
49 But we are not done yet: This rule has a special exception that we can exploit to our advantage.
50 If the arithmetic ends up computing a pointer *just past* the end of an allocation, that computation is fine.
51 (This exception is necessary to permit computing `vec.end()` for the usual kind of C++98 iterator loop.)
52
53 So let us change this example a bit:
54 {% highlight c++ %}
55 int test() {
56     auto x = new int[8];
57     auto y = new int[8];
58     y[0] = 42;
59     auto x_ptr = &x[8]; // one past the end
60     if (x_ptr == &y[0])
61       *x_ptr = 23;
62     return y[0];
63 }
64 {% endhighlight %}
65 Now, imagine that `x` and `y` have been allocated *right next to each other*, with `y` having the higher address.
66 Then `x_ptr` actually points *right at the beginning* of `y`!
67 The conditional is true and the write happens.
68 Still, there is no UB due to out-of-bounds pointer arithmetic.
69
70 This seems to break the optimization.
71 However, the C++ standard has another trick up its sleeve to help compiler writers: It doesn't actually allow us to *use* our `x_ptr` above.
72 According to what the standard says about [addition on pointers](https://timsong-cpp.github.io/cppwp/n4140/expr.add#5), `x_ptr` points "one past the last element of the array object".
73 It does *not* point at an actual element of another object *even if they have the same address*. (At least, that is the common interpretation of the standard based on which [LLVM optimizes this code](https://godbolt.org/g/vxmtej).)
74
75 The key point here is that just because `x_ptr` and `&y[0]` point to the same *address*, that does not make them *the same pointer*, i.e., they cannot be used interchangeably:
76 `&y[0]` points to the first element of `y`; `x_ptr` points past the end of `x`.
77 If we replace `*x_ptr = 23` by `*&y[0] = 0`, we change the meaning of the program, even though the two pointers have been tested for equality.
78
79 This is worth repeating:
80
81 > *Just because two pointers point to the same address, does not mean they are equal and can be used interchangeably.*
82
83 If this sounds subtle, it is.
84 In fact, this still causes miscompilations in both [LLVM](https://bugs.llvm.org/show_bug.cgi?id=35229) and [GCC](https://gcc.gnu.org/bugzilla/show_bug.cgi?id=65752).
85
86 Also notice that this one-past-the-end rule is not the only part of C/C++ where this effect can be witnessed.
87 Another example is the [`restrict`](https://en.wikipedia.org/wiki/Restrict) keyword in C, which can be used to express that pointers do not alias:
88 {% highlight c %}
89 int foo(int *restrict x, int *restrict y) {
90     *x = 42;
91     if (x == y) {
92         *y = 23;
93     }
94     return *x;
95 }
96
97 int test() {
98     int x;
99     return foo(&x, &x);
100 }
101 {% endhighlight %}
102 Calling `test()` triggers UB because the two accesses in `foo` must not alias.
103 Replacing `*y` by `*x` in `foo` changes the meaning of the program such that it no longer has UB.
104 So, again, even though `x` and `y` have the same address, they cannot be used interchangeably.
105
106 Pointers are definitely not integers.
107
108 ## A Simple Pointer Model
109
110 So, what *is* a pointer?
111 I don't know the full answer to this.
112 In fact, this is an open area of research.
113
114 One important point to stress here is that we are just looking for an *abstract model* of the pointer.
115 Of course, on the actual machine, pointers are integers.
116 But the actual machine also does not do the kind of optimizations that modern C++ compilers do, so it can get away with that.
117 If we wrote the above programs in assembly, there would be no UB, and no optimizations.
118 C++ and Rust employ a more "high-level" view of memory and pointers, restricting the programmer for the benefit of optimizations.
119 When formally describing what the programmer may and may not do in these languages, as we have seen, the model of pointers as integers falls apart, so we have to look for something else.
120 This is another example of using a "virtual machine" that's different from the real machine for specification purposes, which is an idea [I have blogged about before]({{ site.baseurl }}{% post_url 2017-06-06-MIR-semantics %}).
121
122 Here's a simple proposal (in fact, this is the model of pointers used in [CompCert](https://hal.inria.fr/hal-00703441/document) and my [RustBelt work]({{ site.baseurl }}{% post_url 2017-07-08-rustbelt %}), and it is also how [miri](https://github.com/solson/miri/) implements pointers):
123 A pointer is a pair of some kind of ID uniquely identifying the *allocation*, and an *offset* into the allocation.
124 Adding/subtracting an integer to/from a pointer just acts on the offset, and can thus never leave the allocation.
125 Subtracting a pointer from another is only allowed when both point to the same allocation (matching [C++](https://timsong-cpp.github.io/cppwp/n4140/expr.add#6)).[^2]
126
127 [^2]: As we have seen, the C++ standard actually applies these rules on the level of arrays, not allocations. However, LLVM applies the rule on a [per-allocation level](https://llvm.org/docs/LangRef.html#getelementptr-instruction).
128
129 It turns out (and miri shows) that this model can get us very far.
130 We always remember which allocation a pointer points to, so we can differentiate a pointer "one past the end" of one allocation from a pointer to the beginning of another allocation.
131 That's how miri can detect that our second example (with `&x[8]`) is UB.
132
133 ## The Model Falls Apart
134
135 In this model, pointers are not integers, but they are at least simple.
136 However, this simple model starts to fall apart once you consider pointer-integer casts.
137 In miri, casting a pointer to an integer does not actually do anything, we now just have an integer variable (i.e., its *type* says it is an integer) whose *value* is a pointer (i.e., an allocation-offset pair).
138 However, multiplying that "integer" by 2 leads to an error, because it is entirely unclear what it means to multiply such an abstract pointer by 2.
139
140 This is the most lazy thing to do, and we do it because it is not clear what else to do -- in our abstract machine, there is no single coherent "address space" that all allocations live in, that we could use to map every pointer to a distinct integer.
141 Every allocation is just identified by an (unobservable) ID.
142 We could now start to enrich this model with extra data like a base address for each allocation, and somehow use that when casting an integer back to a pointer... but that's where it gets really complicated, and anyway discussing such a model is not the point of this post.
143 The point it to discuss the *need* for such a model.
144 If you are interested, I suggest you read [this paper](http://www.cis.upenn.edu/%7Estevez/papers/KHM+15.pdf) that explores the above idea of adding a base address.
145
146 Long story short, pointer-integer casts are messy and hard to define formally when also considering optimizations like we discussed above.
147 There is a conflict between the high-level view that is required to enable optimizations, and the low-level view that is required to explain casting a pointer to an integer and back.
148 We mostly just ignore the problem in miri and opportunistically do as much as we can, given the simple model we are working with.
149 A full definition of a language like C++ or Rust of course cannot take this shortcut, it has to explain what really happens here.
150 To my knowledge, no satisfying solution exists, but academic research is [getting closer](http://sf.snu.ac.kr/publications/llvmtwin.pdf).
151
152 This is why pointers are not simple, either.
153
154 ## From Pointers to Bytes
155
156 I hope I made a convincing argument that integers are not the only data one has to consider when formally specifying low-level languages such as C++ or (the unsafe parts of) Rust.
157 However, this means that a simple operation like loading a byte from memory cannot just return a `u8`.
158 Imagine we [implement `memcpy`](https://github.com/alexcrichton/rlibc/blob/defb486e765846417a8e73329e8c5196f1dca49a/src/lib.rs#L39) by loading (in turn) every byte of the source into some local variable `v`, and then storing it to the target.
159 What if that byte is part of a pointer?  When a pointer is a pair of allocation and offset, what is its first byte?
160 We have to say what the value of `v` is, so we have to find some way to answer this question.
161 (And this is an entirely separate issue from the problem with multiplication that came up in the last section. We just assume some abstract type `Pointer`.)
162
163 We cannot represent a byte of a pointer as an element of `0..256`.
164 Instead, we will remember both the pointer, and which byte of the pointer we got.
165 So, a byte is now *either* an element of `0..256` ("raw bits"), *or* the n-th byte of some abstract pointer.
166 If we were to implement our memory model in Rust, this might look as follows:
167 {% highlight rust %}
168 enum ByteV1 {
169   Bits(u8),
170   PtrFragment(Pointer, u8),
171 }
172 {% endhighlight %}
173 For example, a `PtrFragment(ptr, 0)` represents the first byte of `ptr`.
174 This way, `memcpy` can "take apart" a pointer into the individual bytes that represent this pointer in memory, and copy them separately.
175 On a 32bit architecture, the full value representing `ptr` consists of the following 4 bytes:
176 ```
177 [PtrFragment(ptr, 0), PtrFragment(ptr, 1), PtrFragment(ptr, 2), PtrFragment(ptr, 3)]
178 ```
179 Such a representation supports performing all byte-level "data moving" operations on pointers, which is sufficient for `memcpy`.
180 Arithmetic or bit-level operations are not fully supported; as already mentioned above, that requires a more sophisticated pointer representation.
181
182 ## Uninitialized Memory
183
184 However, we are not done yet with our definition of a "byte".
185 To fully describe program behavior, we need to take one more possibility into account: A byte in memory could be *uninitialized*.
186 The final definition for a byte (assuming we have a type `Pointer` for pointers) thus looks as follows:
187 {% highlight rust %}
188 enum Byte {
189   Bits(u8),
190   PtrFragment(Pointer, u8),
191   Uninit,
192 }
193 {% endhighlight %}
194
195 `Uninit` is the value we use for all bytes that have been allocated, but not yet written to.
196 Reading uninitialized memory is fine, but actually *doing* anything with those bytes (like, using them in integer arithmetic) is undefined behavior.
197
198 This is very similar to the rules LLVM has for its special value called `poison`.
199 Note that LLVM *also* has a value called `undef`, which it uses for uninitialized memory and which works somewhat differently -- however, compiling our `Uninit` to `undef` is actually correct (`undef` is in some sense "weaker"), and there are proposals to [remove `undef` from LLVM and use `poison` instead](http://www.cs.utah.edu/~regehr/papers/undef-pldi17.pdf).
200
201 You may wonder why we have a special `Uninit` value at all.
202 Couldn't we just pick some arbitrary `b: u8` for each newly allocated byte, and then use `Bits(b)` as the initial value?
203 That would indeed also be an option.
204 However, first of all, pretty much all compilers have converged to having a sentinel value for uninitialized memory.
205 Not doing that would not only pose trouble when compiling through LLVM, it would also require reevaluating many optimizations to make sure they work correctly with this changed model.
206 The key point is that it is always safe, during compilation, to replace `Uninit` by any value: Any operation that actually observes this value is UB anyway.
207
208 For example, the following C code becomes easier to optimize with `Uninit`:
209 {% highlight c %}
210 int test() {
211     int x;
212     if (condA()) x = 1;
213     // Lots of hard to analyze code that will definitely return when condA()
214     // does NOT hold, but will not change x.
215     use(x); // want to optimize x to 1.
216 }
217 {% endhighlight %}
218 With `Uninit`, we can easily argue that `x` is either `Uninit` or `1`, and since replacing `Uninit` by `1` is okay, the optimization is easily justified.
219 Without `Uninit`, however, `x` is either "some arbitrary bit pattern" or `1`, and doing the same optimization becomes much harder to justify.[^3]
220
221 [^3]: We could argue that we can reorder when the non-deterministic choice is made, but then we have to prove that the hard to analyze code does not observe `x`.  `Uninit` avoids that unnecessary extra proof burden.
222
223 Finally, `Uninit` is also a better choice for interpreters like miri.
224 Such interpreters have a hard time dealing with operations of the form "just choose any of these values" (i.e., non-deterministic operations), because if they want to fully explore all possible program executions, that means they have to try every possible value.
225 Using `Uninit` instead of an arbitrary bit pattern means miri can, in a single execution, reliably tell you if your programs uses uninitialized values incorrectly.
226
227 ## Conclusion
228
229 We have seen that in languages like C++ and Rust (unlike on real hardware), pointers can be different even when they point to the same address, and that a byte is more than just a number in `0..256`.
230 With this, I think we are ready to look at a first draft of my "2018 memory model" (working title ;) -- in the next post. :)
231
232 Thanks to @rkruppe and @nagisa for help in finding arguments for why `Uninit` is needed.
233 If you have any questions, feel free to [ask in the forums](https://internals.rust-lang.org/t/pointers-are-complicated-or-whats-in-a-byte/8045)!
234
235 #### Footnotes