a61343077127b1689f8522e7262f391baf4d38d0
[rust-101.git] / src / part16.rs
1 // Rust-101, Part 16: Unsafe, Drop (WIP)
2 // ===============================
3
4 use std::ptr;
5 use std::mem;
6 use std::marker::PhantomData;
7
8 //@ As we saw, the rules Rust imposes can get us pretty far: A surprising amount of programming patterns
9 //@ can be written within safe Rust, and, more importantly, library code like iterators or threads can make
10 //@ use of the type system to ensure some level of correctness beyond basic memory safety.
11 //@ 
12 //@ However, there will still be programs that one cannot write in accordance with the borrow checker. And there
13 //@ will be cases where it may be possible to satisfy the compiler, but only at the cost of some run-time overhead,
14 //@ as we saw with `RefCell` - overhead which may not be acceptable. In such a situation, it is possible to
15 //@ use *unsafe* Rust: That's a part of the language that is *known* to open the gate to invalid pointer access
16 //@ and all other sorts of memory safety. It is typically disabled, guarded by the keyword `unsafe`. Of course,
17 //@ `unsafe` also means "Here Be Dragons": You are on your own now. Types like `Rc` and `Vec` are implemented
18 //@ `using unsafe Rust.
19 //@ 
20 //@ ## Unsafe Code
21 //@ As an example, let us write a doubly-linked list. Clearly, such a data-structure involves aliasing and mutation:
22 //@ Every node in the list is pointed to by its left and right neighbor, but still we will want to modify the nodes
23 //@ (either to change the value at that place, or to insert new nodes). We could now try some clever combination of
24 //@ `Rc` and `RefCell`, but this would end up being quite annoying - and it would incur some over-head. For a low-level
25 //@ data-structure like a doubly-linked list, it makes sense to implement an efficient version *once*, that is unsafe
26 //@ internally, but taht can be used without any risk by safe client code.
27
28 //@ As usually, we start by defining the types. Everything is parameterized by the type `T` of the data stored in the list.
29 // A node of the list consists of the data, and two node pointers for the predecessor and successor.
30 struct Node<T> {
31     next: NodePtr<T>,
32     prev: NodePtr<T>,
33     data: T,
34 }
35 // A node pointer is a *mutable raw point* to a node.
36 //@ Raw pointers (`*mut T` and `*const T`) are the Rust equivalent of pointers in C. Unlike borrows, they do not come with
37 //@ any guarantees: Raw pointers can be null, or they can point to garbage. They don't have a lifetime.
38 type NodePtr<T> = *mut Node<T>;
39
40 // The linked list itself stores pointers to the first and the last node. In addition, we tell Rust that this type
41 // will own data of type `T`.
42 //@ The type `PhantomData<T>` does not actually store anything in memory - it has size zero. However, logically,
43 //@ Rust will consider a `T` to be present. In this case, Rust knows that data of type `T` may be dropped
44 //@ whenever a `LinkedList<T>` is dropped. The checks involving destructors are pretty subtle, so it's always
45 //@ a good idea to provide such extra information. In safe Rust, this can all be done automatically, but here,
46 //@ we just have a `*mut Node<T>`, which Rust does not consider as actually owning the data it points to.
47 pub struct LinkedList<T> {
48     first: NodePtr<T>,
49     last:  NodePtr<T>,
50     _marker: PhantomData<T>,
51 }
52
53 //@ Before we get to the actual linked-list methods, we write two short helper functions converting between
54 //@ mutable raw pointers, and owned pointers (aka `Box`). Both employ `mem::transmute`, which is Rust's
55 //@ `reinterpret_cast`: It can convert anything to anything, by just re-interpreting the bytes. Clearly,
56 //@ that's an unsafe operation.
57
58 //@ We declare `raw_into_box` to be an `unsafe` function, telling Rust that calling this function is not generally safe.
59 //@ The caller will have to ensure that `r` is a valid pointer, and that nobody else has a pointer to this data.
60 unsafe fn raw_into_box<T>(r: *mut T) -> Box<T> {
61     mem::transmute(r)
62 }
63 //@ The case is slightly different for `box_into_raw`: Converting a `Box` to a raw pointer is always safe. I just drops some
64 //@ information. Hence we keep the function itself safe, and use an *unsafe block* within the function. This is an (unchecked)
65 //@ promise to the Rust compiler, saying that even though the code inside that block *could* go wrong, we actually know that
66 //@ it will not.
67 fn box_into_raw<T>(b: Box<T>) -> *mut T {
68     unsafe { mem::transmute(b) }
69 }
70
71 impl<T> LinkedList<T> {
72     // A new linked list just contains null pointers. `PhantomData` is how we construct any `PhantomData<T>`.
73     pub fn new() -> Self {
74         LinkedList { first: ptr::null_mut(), last: ptr::null_mut(), _marker: PhantomData }
75     }
76
77     // Add a new node to the end of the list.
78     pub fn push_back(&mut self, t: T) {
79         // Create the new node, and make it a raw pointer.
80         //@ Calling `box_into_raw` gives up ownership of the box, which is crucial: We don't want the
81         //@ memory that it points to to be deallocated!
82         let new = Box::new( Node { data: t, next: ptr::null_mut(), prev: self.last } );
83         let new = box_into_raw(new);
84         // Update other points to this node.
85         if self.last.is_null() {
86             debug_assert!(self.first.is_null());
87             // The list is currently empty, so we have to update the head pointer.
88             self.first = new;                                       /*@*/
89         } else {
90             debug_assert!(!self.first.is_null());
91             // We have to update the `next` pointer of the tail node.
92             //@ Since Rust does not know that a raw pointer actually to anything, dereferencing such a pointer is
93             //@ an unsafe operation. So this unsafe block promises that the pointer will actually be valid.
94             unsafe { (*self.last).next = new; }                     /*@*/
95         }
96         // Make this the last node.
97         self.last = new;
98     }
99
100     // **Exercise 16.1**: Add some more operations to `LinkedList`: `pop_back`, `push_front` and `pop_front`.
101     // Add testcases for `push_back` and all of your functions. The `pop` functions should take `&mut self`
102     // and return `Option<T>`.
103
104     // Of course, we will also want to provide an iterator.
105     //@ This function just creates an instance of `IterMut`, the iterator type which does the actual work.
106     pub fn iter_mut(&self) -> IterMut<T> {
107         IterMut { next: self.first, _marker: PhantomData  }
108     }
109 }
110
111 //@ What does the iterator need to store? Strictly speaking, all it needs is the pointer to the next node
112 //@ that it is going to visit. However, how do we make sure that this pointer remains valid? We have to
113 //@ get this right ourselves, as we left the safe realms of borrowing and ownership. Remember that the
114 //@ key ingredient for iterator safety was to tie the lifetime of the iterator to the lifetime of the
115 //@ borrow used for `iter_mut`. We will thus give `IterMut` two parameters: A type parameter specifying
116 //@ the type of the data, and a lifetime parameter specifying for how long the list was borrowed to the
117 //@ iterator.
118 //@ 
119 //@ For Rust to accept the type, we have to add two more annotations. First of all, we have to ensure that
120 //@ the data in the list lives at least as long as the iterator: If you drop the `T: 'a`, Rust will tell
121 //@ you to add it back. And secondly, Rust will complain if `'a` is not actually used in the struct.
122 //@ It doesn't know what it is supposed to do with that lifetime. So we use `PhantomData` again to tell
123 //@ it that in terms of ownership, this type actually (mutably) borrows a linked list. This has no
124 //@ operational effect, but it means that Rust can deduce the intent we had when adding that
125 //@ seemingly useless lifetime parameter.
126 pub struct IterMut<'a, T> where T: 'a {
127     next: NodePtr<T>,
128     _marker: PhantomData<&'a mut LinkedList<T>>,
129 }
130
131 //@ When implementing `Iterator` for `IterMut`, the fact that we have the lifetime `'a` around immediately
132 //@ pays of: We would not even be able to write down the type `Item` without that lifetime.
133 impl<'a, T> Iterator for IterMut<'a, T> {
134     type Item = &'a mut T;
135
136     fn next(&mut self) -> Option<Self::Item> {
137         // The actual iteration is straight-forward: Once we reached a null pointer, we are done.
138         if self.next.is_null() {
139            None
140         } else {
141             // Otherwise, we can convert the next pointer to a borrow, get a borrow to the data
142             // and update the iterator.
143             let next = unsafe { &mut *self.next };
144             let ret = &mut next.data;
145             self.next = next.next;
146             Some(ret)
147         }
148     }
149 }
150
151 //@ In `next` above, we made crucial use of the assumption that `self.next` is either null or a valid pointer.
152 //@ This only works because if someone tries to delete elements from a list during iteration, we know that the borrow checker
153 //@ will catch them: If they call `next`, the lifetime `'a` we artificially added to the iterator has to still be
154 //@ active, which means the mutable borrow passed to `iter_mut` is still active, which means nobody can delete
155 //@ anything from the list. In other words, we make use of the expressive type system of Rust, decorating
156 //@ our own unsafe implementation with just enough information so that Rust can check *uses* of the linked-list.
157 //@ If the type system were weaker, we could not write a linked-list like the above with a safe interface!
158
159 // **Exercise 16.2**: Add a method `iter` and a type `Iter` providing iteration for shared borrows.
160 // Add testcases for both kinds of iterators.
161
162 // ## `Drop`
163 //@ The linked list we wrote is already working quite nicely, but there is one problem: When the list is removed,
164 //@ nobody bothers to deallocate the remaining nodes. Even worse, if `T` itself has a destructor that needs to
165 //@ clean up, it is not called for the element remaining in the list. We need to take care of that ourselves.
166 //@ 
167 //@ In Rust, adding a destructor for a type is done by implementing the `Drop` trait. This is a very special trait.
168 //@ It can only be implemented for *nominal types*, i.e., you cannot implement `Drop` for `&mut T`. You also cannot
169 //@ restrict the type and lifetime parameters further - the `Drop` implementation has to apply to *all* instances
170 //@ of `LinkedList`.
171 impl<T> Drop for LinkedList<T> {
172     // The destructor itself is a method which takes `self` in mutably borrowed form. It cannot own `self`, because then
173     // the destructor of `self` would be called at the end pf the function, resulting in endless recursion...
174     fn drop(&mut self) {
175         let mut cur_ptr = self.first;
176         while !cur_ptr.is_null() {
177             // In the destructor, we just iterate over the entire list, successively obtaining ownership
178             // (`Box`) of every node. When the box is dropped, it will call the destructor on `data` if
179             // necessary, and subsequently free the node on the heap.
180             //@ We call `drop` explicitly here just for documentation purposes.
181             let cur = unsafe { raw_into_box(cur_ptr) };
182             cur_ptr = cur.next;
183             drop(cur);
184         }
185     }
186 }
187
188 //@ ## The End
189 //@ Congratulations! You complete Rust-101. This was the last example of the last part. I hope you enjoyed it.
190 //@ If you have feedback, please head to the [Rust-101](https://www.ralfj.de/projects/rust-101/) website
191 //@ and let me know how you liked it. The entire course is open-source (under CC-BY-SA 4.0), and contributions are welcome!
192 //@ 
193 //@ The [index](main.html) contains some more links to additional resources you may find useful. With that, there's
194 //@ only one thing left to say: Happy Rust Hacking!
195
196 //@ [index](main.html) | [previous](part15.html)