Boosting Up JSON Performance of Unstructured Structs in Go

Motivation

When we think about JSON parsing, the first use case that pops to mind usually involves a predetermined structure. It’s the simplest way for two components to interact: they both agree on a message schema and then use JSON to carry it around – super easy.

This is a very popular and intuitive choice, although it’s not the most efficient. ⚠️

When the structure of the message is fully expected, libraries that leverage code generation perform best. However, using other protocols to communicate improves performance by a lot more. For instance, strict, binary protocols like protobuf and avro would improve networking efficiency due to reduced message size and then trim down CPU usage due to a much more efficient encoding and decoding mechanism.

This is to be expected. Strict schema environments are not where JSON protocol really shines. JSON, however, possesses something that the others don’t: it fully specifies the name and the type of each field in the data. In other words, it carries both the data and the structure itself. This makes it the go-to choice for document databases and other non-schema-strict use cases. In our case, it was unstructured structs: when some of the fields are known and some aren’t. We’ll provide an example shortly.

Performance-Driven

Marshmallow’s journey began with an important StackOverflow question. It simply asks what’s the best way to parse a JSON object when some of the fields are known and some aren’t. We were facing the same problem and actively looked for a solution, so we started digging into it, investigating and exploring the solutions proposed and any other solution we could find. ‍ ‍♀️

Use a Map

The first thing we can do is use a native map[string]any. This captures all the data and allows you to access it. However, it’s inefficient, inconvenient and unsafe. Consider the following use case: in order to determine whether a user is allowed to drive, you need to reference two specific fields from the data (age and has_drivers_license), then, iterate the rest of the fields and look for prior convictions.

    func <span class="token function">isAllowedToDrive</span><span class="token punctuation">(</span>data <span class="token punctuation">[</span><span class="token punctuation">]</span>byte<span class="token punctuation">)</span> <span class="token punctuation">(</span>bool<span class="token punctuation">,</span> error<span class="token punctuation">)</span> <span class="token punctuation">{</span>
      result <span class="token operator">:</span><span class="token operator">=</span> <span class="token function">make</span><span class="token punctuation">(</span>map<span class="token punctuation">[</span>string<span class="token punctuation">]</span>any<span class="token punctuation">)</span>
      err <span class="token operator">:</span><span class="token operator">=</span> json<span class="token punctuation">.</span><span class="token function">Unmarshal</span><span class="token punctuation">(</span>data<span class="token punctuation">,</span> <span class="token operator">&</span>result<span class="token punctuation">)</span>
      <span class="token keyword">if</span> err <span class="token operator">!=</span> nil <span class="token punctuation">{</span>
         <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> err
      <span class="token punctuation">}</span>
    
      age<span class="token punctuation">,</span> ok <span class="token operator">:</span><span class="token operator">=</span> result<span class="token punctuation">[</span><span class="token string">"age"</span><span class="token punctuation">]</span>
      <span class="token keyword">if</span> <span class="token operator">!</span>ok <span class="token punctuation">{</span>
         <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> nil
      <span class="token punctuation">}</span>
      a<span class="token punctuation">,</span> ok <span class="token operator">:</span><span class="token operator">=</span> age<span class="token punctuation">.</span><span class="token punctuation">(</span>float64<span class="token punctuation">)</span>
      <span class="token keyword">if</span> <span class="token operator">!</span>ok <span class="token punctuation">{</span>
         <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> nil
      <span class="token punctuation">}</span>
      <span class="token keyword">if</span> a <span class="token operator"><</span> <span class="token number">17</span> <span class="token punctuation">{</span>
         <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> nil
      <span class="token punctuation">}</span>
    
      hasDriversLicense<span class="token punctuation">,</span> ok <span class="token operator">:</span><span class="token operator">=</span> result<span class="token punctuation">[</span><span class="token string">"has_drivers_license"</span><span class="token punctuation">]</span>
      <span class="token keyword">if</span> <span class="token operator">!</span>ok <span class="token punctuation">{</span>
         <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> nil
      <span class="token punctuation">}</span>
      h<span class="token punctuation">,</span> ok <span class="token operator">:</span><span class="token operator">=</span> hasDriversLicense<span class="token punctuation">.</span><span class="token punctuation">(</span>bool<span class="token punctuation">)</span>
      <span class="token keyword">if</span> <span class="token operator">!</span>ok <span class="token punctuation">{</span>
         <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> nil
      <span class="token punctuation">}</span>
      <span class="token keyword">if</span> <span class="token operator">!</span>h <span class="token punctuation">{</span>
         <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> nil
      <span class="token punctuation">}</span>
    
      <span class="token keyword">for</span> key <span class="token operator">:</span><span class="token operator">=</span> range result <span class="token punctuation">{</span>
         <span class="token keyword">if</span> strings<span class="token punctuation">.</span><span class="token function">Contains</span><span class="token punctuation">(</span>key<span class="token punctuation">,</span> <span class="token string">"prior_conviction"</span><span class="token punctuation">)</span> <span class="token punctuation">{</span>
            <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> nil
         <span class="token punctuation">}</span>
      <span class="token punctuation">}</span>
    
      <span class="token keyword">return</span> <span class="token boolean">true</span><span class="token punctuation">,</span> nil
    <span class="token punctuation">}</span>

Obviously this is a lot of code to write for such a simple task. But more importantly, this is error-prone. Typos and bad casting cannot be enforced by the compiler, which makes refactoring a nightmare. Changing a field name or type requires manual searching and fixing of all relevant places, otherwise your code breaks in runtime.

Additionally, it has performance implications – map lookups and casting are slower than simple field referencing.

Lastly, everything turns into chaos when the structure contains non-primitives. Handling just this data: {"foo":[{"counter":15},{"counter":"16"}]} requires the following code:

    func <span class="token function">handle</span><span class="token punctuation">(</span>input <span class="token punctuation">[</span><span class="token punctuation">]</span>byte<span class="token punctuation">)</span> error <span class="token punctuation">{</span>
      data <span class="token operator">:</span><span class="token operator">=</span> <span class="token function">make</span><span class="token punctuation">(</span>map<span class="token punctuation">[</span>string<span class="token punctuation">]</span>any<span class="token punctuation">)</span>
      err <span class="token operator">:</span><span class="token operator">=</span> json<span class="token punctuation">.</span><span class="token function">Unmarshal</span><span class="token punctuation">(</span>input<span class="token punctuation">,</span> <span class="token operator">&</span>data<span class="token punctuation">)</span>
      <span class="token keyword">if</span> err <span class="token operator">!=</span> nil <span class="token punctuation">{</span>
         <span class="token keyword">return</span> err
      <span class="token punctuation">}</span>
      rawFoo<span class="token punctuation">,</span> exists <span class="token operator">:</span><span class="token operator">=</span> data<span class="token punctuation">[</span><span class="token string">"foo"</span><span class="token punctuation">]</span>
      <span class="token keyword">if</span> <span class="token operator">!</span>exists <span class="token punctuation">{</span>
         <span class="token keyword">return</span> errors<span class="token punctuation">.</span><span class="token function">New</span><span class="token punctuation">(</span><span class="token string">"missing foo"</span><span class="token punctuation">)</span>
      <span class="token punctuation">}</span>
      foo<span class="token punctuation">,</span> ok <span class="token operator">:</span><span class="token operator">=</span> rawFoo<span class="token punctuation">.</span><span class="token punctuation">(</span><span class="token punctuation">[</span><span class="token punctuation">]</span>any<span class="token punctuation">)</span>
      <span class="token keyword">if</span> <span class="token operator">!</span>ok <span class="token punctuation">{</span>
         <span class="token keyword">return</span> errors<span class="token punctuation">.</span><span class="token function">New</span><span class="token punctuation">(</span><span class="token string">"invalid foo"</span><span class="token punctuation">)</span>
      <span class="token punctuation">}</span>
      <span class="token keyword">for</span> _<span class="token punctuation">,</span> rawElement <span class="token operator">:</span><span class="token operator">=</span> range foo <span class="token punctuation">{</span>
         element<span class="token punctuation">,</span> ok <span class="token operator">:</span><span class="token operator">=</span> rawElement<span class="token punctuation">.</span><span class="token punctuation">(</span>map<span class="token punctuation">[</span>string<span class="token punctuation">]</span>any<span class="token punctuation">)</span>
         <span class="token keyword">if</span> <span class="token operator">!</span>ok <span class="token punctuation">{</span>
            <span class="token keyword">return</span> errors<span class="token punctuation">.</span><span class="token function">New</span><span class="token punctuation">(</span><span class="token string">"invalid element"</span><span class="token punctuation">)</span>
         <span class="token punctuation">}</span>
         rawCounter<span class="token punctuation">,</span> exists <span class="token operator">:</span><span class="token operator">=</span> element<span class="token punctuation">[</span><span class="token string">"counter"</span><span class="token punctuation">]</span>
         <span class="token keyword">if</span> <span class="token operator">!</span>exists <span class="token punctuation">{</span>
            <span class="token keyword">return</span> errors<span class="token punctuation">.</span><span class="token function">New</span><span class="token punctuation">(</span><span class="token string">"missing counter"</span><span class="token punctuation">)</span>
         <span class="token punctuation">}</span>
         floatCounter<span class="token punctuation">,</span> ok <span class="token operator">:</span><span class="token operator">=</span> rawCounter<span class="token punctuation">.</span><span class="token punctuation">(</span>float64<span class="token punctuation">)</span>
         <span class="token keyword">if</span> <span class="token operator">!</span>ok <span class="token punctuation">{</span>
            <span class="token keyword">return</span> errors<span class="token punctuation">.</span><span class="token function">New</span><span class="token punctuation">(</span><span class="token string">"invalid counter"</span><span class="token punctuation">)</span>
         <span class="token punctuation">}</span>
         counter <span class="token operator">:</span><span class="token operator">=</span> <span class="token function">int</span><span class="token punctuation">(</span>floatCounter<span class="token punctuation">)</span>
         fmt<span class="token punctuation">.</span><span class="token function">Printf</span><span class="token punctuation">(</span><span class="token string">"counter is %d"</span><span class="token punctuation">,</span> counter<span class="token punctuation">)</span>
      <span class="token punctuation">}</span>
      <span class="token keyword">return</span> nil
    <span class="token punctuation">}</span>

Ugh!

Unmarshal Twice

Unmarshalling twice solves all of those problems – you unmarshal once into a struct, then unmarshal once again into a map. This way, you get efficient, safe and convenient access to known fields via struct, and dynamic access to all the data like before. The first example once again:

    type driver struct <span class="token punctuation">{</span>
      Age               int  <span class="token template-string"><span class="token template-punctuation string">`</span><span class="token string">json:"age"</span><span class="token template-punctuation string">`</span></span>
      HasDriversLicense bool <span class="token template-string"><span class="token template-punctuation string">`</span><span class="token string">json:"has_drivers_license"</span><span class="token template-punctuation string">`</span></span>
    <span class="token punctuation">}</span>
    
    func <span class="token function">isAllowedToDrive</span><span class="token punctuation">(</span>data <span class="token punctuation">[</span><span class="token punctuation">]</span>byte<span class="token punctuation">)</span> <span class="token punctuation">(</span>bool<span class="token punctuation">,</span> error<span class="token punctuation">)</span> <span class="token punctuation">{</span>
      d <span class="token operator">:</span><span class="token operator">=</span> driver<span class="token punctuation">{</span><span class="token punctuation">}</span>
      err <span class="token operator">:</span><span class="token operator">=</span> json<span class="token punctuation">.</span><span class="token function">Unmarshal</span><span class="token punctuation">(</span>data<span class="token punctuation">,</span> <span class="token operator">&</span>d<span class="token punctuation">)</span>
      <span class="token keyword">if</span> err <span class="token operator">!=</span> nil <span class="token punctuation">{</span>
         <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> err
      <span class="token punctuation">}</span>
    
      result <span class="token operator">:</span><span class="token operator">=</span> <span class="token function">make</span><span class="token punctuation">(</span>map<span class="token punctuation">[</span>string<span class="token punctuation">]</span>any<span class="token punctuation">)</span>
      err <span class="token operator">=</span> json<span class="token punctuation">.</span><span class="token function">Unmarshal</span><span class="token punctuation">(</span>data<span class="token punctuation">,</span> <span class="token operator">&</span>result<span class="token punctuation">)</span>
      <span class="token keyword">if</span> err <span class="token operator">!=</span> nil <span class="token punctuation">{</span>
         <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> err
      <span class="token punctuation">}</span>
    
      <span class="token keyword">if</span> d<span class="token punctuation">.</span>Age <span class="token operator"><</span> <span class="token number">17</span> <span class="token operator">||</span> <span class="token operator">!</span>d<span class="token punctuation">.</span>HasDriversLicense <span class="token punctuation">{</span>
         <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> nil
      <span class="token punctuation">}</span>
    
      <span class="token keyword">for</span> key <span class="token operator">:</span><span class="token operator">=</span> range result <span class="token punctuation">{</span>
         <span class="token keyword">if</span> strings<span class="token punctuation">.</span><span class="token function">Contains</span><span class="token punctuation">(</span>key<span class="token punctuation">,</span> <span class="token string">"prior_conviction"</span><span class="token punctuation">)</span> <span class="token punctuation">{</span>
            <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> nil
         <span class="token punctuation">}</span>
      <span class="token punctuation">}</span>
    
      <span class="token keyword">return</span> <span class="token boolean">true</span><span class="token punctuation">,</span> nil
    <span class="token punctuation">}</span>

And the second one:

    type data struct <span class="token punctuation">{</span>
      Foo <span class="token punctuation">[</span><span class="token punctuation">]</span>struct <span class="token punctuation">{</span>
         Counter int <span class="token template-string"><span class="token template-punctuation string">`</span><span class="token string">json:"counter"</span><span class="token template-punctuation string">`</span></span>
      <span class="token punctuation">}</span> <span class="token template-string"><span class="token template-punctuation string">`</span><span class="token string">json:"foo"</span><span class="token template-punctuation string">`</span></span>
    <span class="token punctuation">}</span>
    
    func <span class="token function">handle</span><span class="token punctuation">(</span>input <span class="token punctuation">[</span><span class="token punctuation">]</span>byte<span class="token punctuation">)</span> error <span class="token punctuation">{</span>
      d <span class="token operator">:</span><span class="token operator">=</span> data<span class="token punctuation">{</span><span class="token punctuation">}</span>
      err <span class="token operator">:</span><span class="token operator">=</span> json<span class="token punctuation">.</span><span class="token function">Unmarshal</span><span class="token punctuation">(</span>input<span class="token punctuation">,</span> <span class="token operator">&</span>d<span class="token punctuation">)</span>
      <span class="token keyword">if</span> err <span class="token operator">!=</span> nil <span class="token punctuation">{</span>
         <span class="token keyword">return</span> err
      <span class="token punctuation">}</span>
      <span class="token keyword">for</span> _<span class="token punctuation">,</span> element <span class="token operator">:</span><span class="token operator">=</span> range d<span class="token punctuation">.</span>Foo <span class="token punctuation">{</span>
         fmt<span class="token punctuation">.</span><span class="token function">Printf</span><span class="token punctuation">(</span><span class="token string">"counter is %d"</span><span class="token punctuation">,</span> element<span class="token punctuation">.</span>Counter<span class="token punctuation">)</span>
      <span class="token punctuation">}</span>
      <span class="token keyword">return</span> nil
    <span class="token punctuation">}</span>

Ah, that’s more like it!

…But wait, JSON parsing is a very expensive operation. The portion of compute cost and time that was devoted to JSON parsing has now doubled. In our case that was a LOT.

Unmarshal Into a Raw Map

Let’s try to keep the benefits, but optimize performance. For that end, we’ll try passing over the JSON data just once:

    type driver struct <span class="token punctuation">{</span>
      Age               int  <span class="token template-string"><span class="token template-punctuation string">`</span><span class="token string">json:"age"</span><span class="token template-punctuation string">`</span></span>
      HasDriversLicense bool <span class="token template-string"><span class="token template-punctuation string">`</span><span class="token string">json:"has_drivers_license"</span><span class="token template-punctuation string">`</span></span>
    <span class="token punctuation">}</span>
    
    func <span class="token function">isAllowedToDrive</span><span class="token punctuation">(</span>data <span class="token punctuation">[</span><span class="token punctuation">]</span>byte<span class="token punctuation">)</span> <span class="token punctuation">(</span>bool<span class="token punctuation">,</span> error<span class="token punctuation">)</span> <span class="token punctuation">{</span>
      fields <span class="token operator">:</span><span class="token operator">=</span> <span class="token function">make</span><span class="token punctuation">(</span>map<span class="token punctuation">[</span>string<span class="token punctuation">]</span>json<span class="token punctuation">.</span>RawMessage<span class="token punctuation">)</span>
      err <span class="token operator">:</span><span class="token operator">=</span> json<span class="token punctuation">.</span><span class="token function">Unmarshal</span><span class="token punctuation">(</span>data<span class="token punctuation">,</span> <span class="token operator">&</span>fields<span class="token punctuation">)</span>
      <span class="token keyword">if</span> err <span class="token operator">!=</span> nil <span class="token punctuation">{</span>
         <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> err
      <span class="token punctuation">}</span>
    
      d <span class="token operator">:</span><span class="token operator">=</span> driver<span class="token punctuation">{</span><span class="token punctuation">}</span>
      result<span class="token punctuation">,</span> err <span class="token operator">:</span><span class="token operator">=</span> <span class="token function">unmarshal</span><span class="token punctuation">(</span>fields<span class="token punctuation">,</span> <span class="token operator">&</span>d<span class="token punctuation">)</span>
    
      <span class="token keyword">if</span> d<span class="token punctuation">.</span>Age <span class="token operator"><</span> <span class="token number">17</span> <span class="token operator">||</span> <span class="token operator">!</span>d<span class="token punctuation">.</span>HasDriversLicense <span class="token punctuation">{</span>
         <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> nil
      <span class="token punctuation">}</span>
    
      <span class="token keyword">for</span> key <span class="token operator">:</span><span class="token operator">=</span> range result <span class="token punctuation">{</span>
         <span class="token keyword">if</span> strings<span class="token punctuation">.</span><span class="token function">Contains</span><span class="token punctuation">(</span>key<span class="token punctuation">,</span> <span class="token string">"prior_conviction"</span><span class="token punctuation">)</span> <span class="token punctuation">{</span>
            <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> nil
         <span class="token punctuation">}</span>
      <span class="token punctuation">}</span>
    
      <span class="token keyword">return</span> <span class="token boolean">true</span><span class="token punctuation">,</span> nil
    <span class="token punctuation">}</span>
    
    func <span class="token function">unmarshal</span><span class="token punctuation">(</span>fields map<span class="token punctuation">[</span>string<span class="token punctuation">]</span>json<span class="token punctuation">.</span>RawMessage<span class="token punctuation">,</span> v any<span class="token punctuation">)</span> <span class="token punctuation">(</span>map<span class="token punctuation">[</span>string<span class="token punctuation">]</span>any<span class="token punctuation">,</span> error<span class="token punctuation">)</span> <span class="token punctuation">{</span>
      refValue <span class="token operator">:</span><span class="token operator">=</span> reflect<span class="token punctuation">.</span><span class="token function">ValueOf</span><span class="token punctuation">(</span>v<span class="token punctuation">)</span>
      result <span class="token operator">:</span><span class="token operator">=</span> <span class="token function">make</span><span class="token punctuation">(</span>map<span class="token punctuation">[</span>string<span class="token punctuation">]</span>any<span class="token punctuation">)</span>
      <span class="token keyword">for</span> key<span class="token punctuation">,</span> value <span class="token operator">:</span><span class="token operator">=</span> range fields <span class="token punctuation">{</span>
         <span class="token keyword">var</span> parsed any
         fieldValue <span class="token operator">:</span><span class="token operator">=</span> refValue<span class="token punctuation">.</span><span class="token function">FieldByName</span><span class="token punctuation">(</span>key<span class="token punctuation">)</span>
         <span class="token keyword">if</span> <span class="token operator">!</span>fieldValue<span class="token punctuation">.</span><span class="token function">IsZero</span><span class="token punctuation">(</span><span class="token punctuation">)</span> <span class="token punctuation">{</span>
            parsed <span class="token operator">=</span> fieldValue<span class="token punctuation">.</span><span class="token function">Interface</span><span class="token punctuation">(</span><span class="token punctuation">)</span>
         <span class="token punctuation">}</span>
         err <span class="token operator">:</span><span class="token operator">=</span> json<span class="token punctuation">.</span><span class="token function">Unmarshal</span><span class="token punctuation">(</span>value<span class="token punctuation">,</span> <span class="token operator">&</span>parsed<span class="token punctuation">)</span>
         <span class="token keyword">if</span> err <span class="token operator">!=</span> nil <span class="token punctuation">{</span>
            <span class="token keyword">return</span> nil<span class="token punctuation">,</span> err
         <span class="token punctuation">}</span>
         result<span class="token punctuation">[</span>key<span class="token punctuation">]</span> <span class="token operator">=</span> parsed
      <span class="token punctuation">}</span>
      <span class="token keyword">return</span> result<span class="token punctuation">,</span> nil
    <span class="token punctuation">}</span>

This unmarshal function is now reusable. What json.RawMessage does is actually instruct the parser to skip this field, keeping it in its raw []byte shape. This allows us to first parse the structure into a raw map, and then parse the actual fields in it one by one, according to our struct’s schema. Note that this way we unmarshal each piece of the data only once.

High expectations, great disappointments. This approach doesn’t have any significant impact, it performs much like the unmarshal twice approach (see benchmark results below). Let’s move on then.

Unmarshal Into a Pointer Map

Using go/codec or similar libraries, you can initialize a new map and point its keys to the struct fields.

    type driver struct <span class="token punctuation">{</span>
      Age               int  <span class="token template-string"><span class="token template-punctuation string">`</span><span class="token string">json:"age"</span><span class="token template-punctuation string">`</span></span>
      HasDriversLicense bool <span class="token template-string"><span class="token template-punctuation string">`</span><span class="token string">json:"has_drivers_license"</span><span class="token template-punctuation string">`</span></span>
    <span class="token punctuation">}</span>
    
    func <span class="token function">isAllowedToDrive</span><span class="token punctuation">(</span>data <span class="token punctuation">[</span><span class="token punctuation">]</span>byte<span class="token punctuation">)</span> <span class="token punctuation">(</span>bool<span class="token punctuation">,</span> error<span class="token punctuation">)</span> <span class="token punctuation">{</span>
      d <span class="token operator">:</span><span class="token operator">=</span> driver<span class="token punctuation">{</span><span class="token punctuation">}</span>
      result <span class="token operator">:</span><span class="token operator">=</span> <span class="token function">make</span><span class="token punctuation">(</span>map<span class="token punctuation">[</span>string<span class="token punctuation">]</span>any<span class="token punctuation">)</span>
      result<span class="token punctuation">[</span><span class="token string">"age"</span><span class="token punctuation">]</span> <span class="token operator">=</span> <span class="token operator">&</span>d<span class="token punctuation">.</span>Age
      result<span class="token punctuation">[</span><span class="token string">"has_drivers_license"</span><span class="token punctuation">]</span> <span class="token operator">=</span> <span class="token operator">&</span>d<span class="token punctuation">.</span>HasDriversLicense
      err <span class="token operator">:</span><span class="token operator">=</span> codec<span class="token punctuation">.</span><span class="token function">NewDecoderBytes</span><span class="token punctuation">(</span>data<span class="token punctuation">,</span> <span class="token operator">&</span>codec<span class="token punctuation">.</span>JsonHandle<span class="token punctuation">{</span><span class="token punctuation">}</span><span class="token punctuation">)</span><span class="token punctuation">.</span><span class="token function">Decode</span><span class="token punctuation">(</span><span class="token operator">&</span>result<span class="token punctuation">)</span>
      <span class="token keyword">if</span> err <span class="token operator">!=</span> nil <span class="token punctuation">{</span>
         <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> err
      <span class="token punctuation">}</span>
    
      <span class="token keyword">if</span> d<span class="token punctuation">.</span>Age <span class="token operator"><</span> <span class="token number">17</span> <span class="token operator">||</span> <span class="token operator">!</span>d<span class="token punctuation">.</span>HasDriversLicense <span class="token punctuation">{</span>
         <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> nil
      <span class="token punctuation">}</span>
    
      <span class="token keyword">for</span> key <span class="token operator">:</span><span class="token operator">=</span> range result <span class="token punctuation">{</span>
         <span class="token keyword">if</span> strings<span class="token punctuation">.</span><span class="token function">Contains</span><span class="token punctuation">(</span>key<span class="token punctuation">,</span> <span class="token string">"prior_conviction"</span><span class="token punctuation">)</span> <span class="token punctuation">{</span>
            <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> nil
         <span class="token punctuation">}</span>
      <span class="token punctuation">}</span>
    
      <span class="token keyword">return</span> <span class="token boolean">true</span><span class="token punctuation">,</span> nil
    <span class="token punctuation">}</span>

This method produces two nice outcomes. Not only will the unmarshalling of those keys be typed according to the struct schema, but it will also populate both the struct and the map in a single iteration.

Still, there are two significant downsides. First, it performs better than the previous approaches, yet not as good as it could (see benchmark results below). Second, it requires additional coding to manually point the map keys to the struct fields. This is a problem not because we’re lazy, but because it introduces potential maintainability issues – adding new fields to the struct requires manual hooking, otherwise parsing behavior breaks. Once again – extra manual coding now means refactoring becomes harder later.

You can sort out this issue by using the reflection API, however, this will hurt performance even more.

Marshmallow’s Solution

Marshmallow optimizes all of that – both the need for explicit coding and the performance overhead.

Equipped with a dedicated JSON tokenizer, marshmallow uses the given struct as schema instructions and populates both the struct and a resulting map. It keeps the usage of reflection API to a bare minimum, to even further optimize performance.

The results are beautiful and proof of a worthy effort. Marshmallow outperformed unmarshalling into a raw map by ~x3 ‍♀️ (see benchmark results below).

After stabilizing the API and fully testing the behavior, we decided to gradually integrate marshmallow into production. Despite the significant buildup, the results in production did not let us down. Aside from a much cleaner and more maintainable source code, we examined profiling results and our monitoring tools and discovered we trimmed 70% of our JSON parsing CPU usage.

This number is insane. How is marshmallow able to boost by x3 the performance of unmarshaling twice, although it must at least perform half the work? It does it by reducing reflect operations and caching their results when possible. The resulting code is lean enough to reach this type of performance.

Full benchmark results:

The full benchmark test can be found here.

And how does the code look? Clean and beautiful. But most of all – maintainable.

    type driver struct <span class="token punctuation">{</span>
      Age               int  <span class="token template-string"><span class="token template-punctuation string">`</span><span class="token string">json:"age"</span><span class="token template-punctuation string">`</span></span>
      HasDriversLicense bool <span class="token template-string"><span class="token template-punctuation string">`</span><span class="token string">json:"has_drivers_license"</span><span class="token template-punctuation string">`</span></span>
    <span class="token punctuation">}</span>
    
    func <span class="token function">isAllowedToDrive</span><span class="token punctuation">(</span>data <span class="token punctuation">[</span><span class="token punctuation">]</span>byte<span class="token punctuation">)</span> <span class="token punctuation">(</span>bool<span class="token punctuation">,</span> error<span class="token punctuation">)</span> <span class="token punctuation">{</span>
      d <span class="token operator">:</span><span class="token operator">=</span> driver<span class="token punctuation">{</span><span class="token punctuation">}</span>
      result<span class="token punctuation">,</span> err <span class="token operator">:</span><span class="token operator">=</span> marshmallow<span class="token punctuation">.</span><span class="token function">Unmarshal</span><span class="token punctuation">(</span>data<span class="token punctuation">,</span> <span class="token operator">&</span>d<span class="token punctuation">)</span>
      <span class="token keyword">if</span> err <span class="token operator">!=</span> nil <span class="token punctuation">{</span>
         <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> err
      <span class="token punctuation">}</span>
    
      <span class="token keyword">if</span> d<span class="token punctuation">.</span>Age <span class="token operator"><</span> <span class="token number">17</span> <span class="token operator">||</span> <span class="token operator">!</span>d<span class="token punctuation">.</span>HasDriversLicense <span class="token punctuation">{</span>
         <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> nil
      <span class="token punctuation">}</span>
    
      <span class="token keyword">for</span> key <span class="token operator">:</span><span class="token operator">=</span> range result <span class="token punctuation">{</span>
         <span class="token keyword">if</span> strings<span class="token punctuation">.</span><span class="token function">Contains</span><span class="token punctuation">(</span>key<span class="token punctuation">,</span> <span class="token string">"prior_conviction"</span><span class="token punctuation">)</span> <span class="token punctuation">{</span>
            <span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">,</span> nil
         <span class="token punctuation">}</span>
      <span class="token punctuation">}</span>
    
      <span class="token keyword">return</span> <span class="token boolean">true</span><span class="token punctuation">,</span> nil
    <span class="token punctuation">}</span>

Schema Flexibility and Error Handling

Most JSON parsing libraries conduct strict schema validations. If they encounter an unexpected type, they stop and return an error. In some use cases, a more robust parsing is required. For instance – parse and return just the valid data, or report all schema errors instead of just the first one. Other use cases require a different approach – retain all the original data at any cost. Marshmallow provides all of those by setting an unmarshalling mode.

Marshmallow mode allows you to control how unmarshaling should behave when encountering unexpected values.

ModeFailOnFirstError is the default mode. It makes unmarshalling terminate immediately on any kind of error.
ModeAllowMultipleErrors makes unmarshalling keep decoding even if errors are encountered. In case of such an error, the erroneous value will be omitted from the result. Eventually, all errors will all be returned, alongside the partial result. This mode provides solutions for both use cases of parse and return just the valid data, and report all schema errors.
ModeFailOverToOriginalValue makes unmarshalling keep decoding even if errors are encountered too. In case of an error, the original external value will be placed in the result data even though it does not meet the schematic requirements. Eventually, all errors will be returned, alongside the full result. Note that the result map may contain values that do not match the struct schema. This mode provides a solution for the use case of retaining all the original data at any cost.

Quick Examples

Marshmallow provides an API to unmarshal either from a []byte, or from an already unmarshalled JSON map. The latter provides a cheap ability to fix and validate concrete typing in already existing JSON maps.

Full examples can be found on marshmallow’s GitHub.

    type exampleStruct struct <span class="token punctuation">{</span>
    	Foo string <span class="token template-string"><span class="token template-punctuation string">`</span><span class="token string">json:"foo"</span><span class="token template-punctuation string">`</span></span>
    	Boo <span class="token punctuation">[</span><span class="token punctuation">]</span>int  <span class="token template-string"><span class="token template-punctuation string">`</span><span class="token string">json:"boo"</span><span class="token template-punctuation string">`</span></span>
    <span class="token punctuation">}</span>
    
    func <span class="token function">ExampleUnmarshal</span><span class="token punctuation">(</span><span class="token punctuation">)</span> <span class="token punctuation">{</span>
    	<span class="token comment">// enable marshmallow cache to boost up performance by reusing field type information.</span>
    	marshmallow<span class="token punctuation">.</span><span class="token function">EnableCache</span><span class="token punctuation">(</span><span class="token punctuation">)</span>
    
    	<span class="token comment">// unmarshal with mode marshmallow.ModeFailOnFirstError and valid value</span>
    	<span class="token comment">// this will finish unmarshalling and return a nil err</span>
    	v <span class="token operator">:</span><span class="token operator">=</span> exampleStruct<span class="token punctuation">{</span><span class="token punctuation">}</span>
    	result<span class="token punctuation">,</span> err <span class="token operator">:</span><span class="token operator">=</span> marshmallow<span class="token punctuation">.</span><span class="token function">Unmarshal</span><span class="token punctuation">(</span><span class="token punctuation">[</span><span class="token punctuation">]</span><span class="token function">byte</span><span class="token punctuation">(</span><span class="token template-string"><span class="token template-punctuation string">`</span><span class="token string">{"foo":"bar","boo":[1,2,3]}</span><span class="token template-punctuation string">`</span></span><span class="token punctuation">)</span><span class="token punctuation">,</span> <span class="token operator">&</span>v<span class="token punctuation">)</span>
    	fmt<span class="token punctuation">.</span><span class="token function">Printf</span><span class="token punctuation">(</span><span class="token string">"ModeFailOnFirstError and valid value: v=%+v, result=%+v, err=%Tn"</span><span class="token punctuation">,</span> v<span class="token punctuation">,</span> result<span class="token punctuation">,</span> err<span class="token punctuation">)</span>
    	<span class="token comment">// Output: ModeFailOnFirstError and valid value: v={Foo:bar Boo:[1 2 3]}, result=map[boo:[1 2 3] foo:bar], err=<nil></span>
    
    	<span class="token comment">// unmarshal with mode marshmallow.ModeFailOnFirstError and invalid value</span>
    	<span class="token comment">// this will return nil result and an error</span>
    	v <span class="token operator">=</span> exampleStruct<span class="token punctuation">{</span><span class="token punctuation">}</span>
    	result<span class="token punctuation">,</span> err <span class="token operator">=</span> marshmallow<span class="token punctuation">.</span><span class="token function">Unmarshal</span><span class="token punctuation">(</span><span class="token punctuation">[</span><span class="token punctuation">]</span><span class="token function">byte</span><span class="token punctuation">(</span><span class="token template-string"><span class="token template-punctuation string">`</span><span class="token string">{"foo":2,"boo":[1,2,3]}</span><span class="token template-punctuation string">`</span></span><span class="token punctuation">)</span><span class="token punctuation">,</span> <span class="token operator">&</span>v<span class="token punctuation">)</span>
    	fmt<span class="token punctuation">.</span><span class="token function">Printf</span><span class="token punctuation">(</span><span class="token string">"ModeFailOnFirstError and invalid value: result=%+v, err=%Tn"</span><span class="token punctuation">,</span> result<span class="token punctuation">,</span> err<span class="token punctuation">)</span>
    	<span class="token comment">// Output: ModeFailOnFirstError and invalid value: result=map[], err=*jlexer.LexerError</span>
    
    	<span class="token comment">// unmarshal with mode marshmallow.ModeAllowMultipleErrors and valid value</span>
    	<span class="token comment">// this will finish unmarshalling and return a nil err</span>
    	v <span class="token operator">=</span> exampleStruct<span class="token punctuation">{</span><span class="token punctuation">}</span>
    	result<span class="token punctuation">,</span> err <span class="token operator">=</span> marshmallow<span class="token punctuation">.</span><span class="token function">Unmarshal</span><span class="token punctuation">(</span><span class="token punctuation">[</span><span class="token punctuation">]</span><span class="token function">byte</span><span class="token punctuation">(</span><span class="token template-string"><span class="token template-punctuation string">`</span><span class="token string">{"foo":"bar","boo":[1,2,3]}</span><span class="token template-punctuation string">`</span></span><span class="token punctuation">)</span><span class="token punctuation">,</span> <span class="token operator">&</span>v<span class="token punctuation">,</span>
    		marshmallow<span class="token punctuation">.</span><span class="token function">WithMode</span><span class="token punctuation">(</span>marshmallow<span class="token punctuation">.</span>ModeAllowMultipleErrors<span class="token punctuation">)</span><span class="token punctuation">)</span>
    	fmt<span class="token punctuation">.</span><span class="token function">Printf</span><span class="token punctuation">(</span><span class="token string">"ModeAllowMultipleErrors and valid value: v=%+v, result=%+v, err=%Tn"</span><span class="token punctuation">,</span> v<span class="token punctuation">,</span> result<span class="token punctuation">,</span> err<span class="token punctuation">)</span>
    	<span class="token comment">// Output: ModeAllowMultipleErrors and valid value: v={Foo:bar Boo:[1 2 3]}, result=map[boo:[1 2 3] foo:bar], err=<nil></span>
    
    	<span class="token comment">// unmarshal with mode marshmallow.ModeAllowMultipleErrors and invalid value</span>
    	<span class="token comment">// this will return a partially populated result and an error</span>
    	v <span class="token operator">=</span> exampleStruct<span class="token punctuation">{</span><span class="token punctuation">}</span>
    	result<span class="token punctuation">,</span> err <span class="token operator">=</span> marshmallow<span class="token punctuation">.</span><span class="token function">Unmarshal</span><span class="token punctuation">(</span><span class="token punctuation">[</span><span class="token punctuation">]</span><span class="token function">byte</span><span class="token punctuation">(</span><span class="token template-string"><span class="token template-punctuation string">`</span><span class="token string">{"foo":2,"boo":[1,2,3]}</span><span class="token template-punctuation string">`</span></span><span class="token punctuation">)</span><span class="token punctuation">,</span> <span class="token operator">&</span>v<span class="token punctuation">,</span>
    		marshmallow<span class="token punctuation">.</span><span class="token function">WithMode</span><span class="token punctuation">(</span>marshmallow<span class="token punctuation">.</span>ModeAllowMultipleErrors<span class="token punctuation">)</span><span class="token punctuation">)</span>
    	fmt<span class="token punctuation">.</span><span class="token function">Printf</span><span class="token punctuation">(</span><span class="token string">"ModeAllowMultipleErrors and invalid value: result=%+v, err=%Tn"</span><span class="token punctuation">,</span> result<span class="token punctuation">,</span> err<span class="token punctuation">)</span>
    	<span class="token comment">// Output: ModeAllowMultipleErrors and invalid value: result=map[boo:[1 2 3]], err=*marshmallow.MultipleLexerError</span>
    
    	<span class="token comment">// unmarshal with mode marshmallow.ModeFailOverToOriginalValue and valid value</span>
    	<span class="token comment">// this will finish unmarshalling and return a nil err</span>
    	v <span class="token operator">=</span> exampleStruct<span class="token punctuation">{</span><span class="token punctuation">}</span>
    	result<span class="token punctuation">,</span> err <span class="token operator">=</span> marshmallow<span class="token punctuation">.</span><span class="token function">Unmarshal</span><span class="token punctuation">(</span><span class="token punctuation">[</span><span class="token punctuation">]</span><span class="token function">byte</span><span class="token punctuation">(</span><span class="token template-string"><span class="token template-punctuation string">`</span><span class="token string">{"foo":"bar","boo":[1,2,3]}</span><span class="token template-punctuation string">`</span></span><span class="token punctuation">)</span><span class="token punctuation">,</span> <span class="token operator">&</span>v<span class="token punctuation">,</span>
    		marshmallow<span class="token punctuation">.</span><span class="token function">WithMode</span><span class="token punctuation">(</span>marshmallow<span class="token punctuation">.</span>ModeFailOverToOriginalValue<span class="token punctuation">)</span><span class="token punctuation">)</span>
    	fmt<span class="token punctuation">.</span><span class="token function">Printf</span><span class="token punctuation">(</span><span class="token string">"ModeFailOverToOriginalValue and valid value: v=%+v, result=%+v, err=%Tn"</span><span class="token punctuation">,</span> v<span class="token punctuation">,</span> result<span class="token punctuation">,</span> err<span class="token punctuation">)</span>
    	<span class="token comment">// Output: ModeFailOverToOriginalValue and valid value: v={Foo:bar Boo:[1 2 3]}, result=map[boo:[1 2 3] foo:bar], err=<nil></span>
    
    	<span class="token comment">// unmarshal with mode marshmallow.ModeFailOverToOriginalValue and invalid value</span>
    	<span class="token comment">// this will return a fully unmarshalled result, failing to the original invalid values, and an error</span>
    	v <span class="token operator">=</span> exampleStruct<span class="token punctuation">{</span><span class="token punctuation">}</span>
    	result<span class="token punctuation">,</span> err <span class="token operator">=</span> marshmallow<span class="token punctuation">.</span><span class="token function">Unmarshal</span><span class="token punctuation">(</span><span class="token punctuation">[</span><span class="token punctuation">]</span><span class="token function">byte</span><span class="token punctuation">(</span><span class="token template-string"><span class="token template-punctuation string">`</span><span class="token string">{"foo":2,"boo":[1,2,3]}</span><span class="token template-punctuation string">`</span></span><span class="token punctuation">)</span><span class="token punctuation">,</span> <span class="token operator">&</span>v<span class="token punctuation">,</span>
    		marshmallow<span class="token punctuation">.</span><span class="token function">WithMode</span><span class="token punctuation">(</span>marshmallow<span class="token punctuation">.</span>ModeFailOverToOriginalValue<span class="token punctuation">)</span><span class="token punctuation">)</span>
    	fmt<span class="token punctuation">.</span><span class="token function">Printf</span><span class="token punctuation">(</span><span class="token string">"ModeFailOverToOriginalValue and invalid value: result=%+v, err=%Tn"</span><span class="token punctuation">,</span> result<span class="token punctuation">,</span> err<span class="token punctuation">)</span>
    	<span class="token comment">// Output: ModeFailOverToOriginalValue and invalid value: result=map[boo:[1 2 3] foo:2], err=*marshmallow.MultipleLexerError</span>
    <span class="token punctuation">}</span>

Conclusion

We faced an engineering problem and identified its unique set of constraints, then we wrote code to directly tackle the problem with a proper solution, and the numbers were beautiful.

We were able to boost performance by ~x3 in benchmarking tests and trim down ~70% of our JSON CPU usage in production.

Marshmallow does not perform any kind of magic to achieve these results, rather, those are an indication of the impact of choosing the right tool for the job. ⚒️

Shout out to the amazing team at PerimeterX for brainstorming, consulting, contributing, reviewing and naming. You guys are awesome as always.

Spread the Word

PREVIOUS POST Next Post

Boosting Up JSON Performance of Unstructured Structs in Go

Motivation

Performance-Driven

Use a Map

Unmarshal Twice

Unmarshal Into a Raw Map

Unmarshal Into a Pointer Map

Marshmallow’s Solution

Schema Flexibility and Error Handling

Quick Examples

Conclusion

Spread the Word

Platform

Advertising Protection Solutions

Application Protection Use Cases

Industries

Company

Learn

Features

Partners

Contact Us