Every document you upload will be “chunked”. A chunk is just a way of aggregating blocks of documents. A block is a single element of your document e.g. a title, a paragraph or a table.
The chunks are mainly used for the extract and search tasks.

You can access the chunks with the following recipe:

the version_id being the id of the document you wish to display the chunks from.

A chunk structure looks like this:

author: Melk
coordinates: {92: [326.9842, 271.9391, 546.610418, 520.3880999999999]}
created_on: "2021-03-05T17:47:07.870145"
display_name: "ra-amf-2019 (1).pdf"
div_idxs: {92: [51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67]}
extension: ".pdf"
folder_id: 1458
id: "6719_298"
item_id: 6719
metadata: {"Type of document": "Guide" }
name: "ra-amf-2019 (1).pdf"
num_pages: 126
ocr: false
pages: [92]
size: 5155736
text: "-  de sensibiliser les collaborateurs de la société de gestion aux risques de cybersécurité en intégrant ces derniers au plan de formation annuel et réaliser, au moins annuellement, un test de réaction des colla- borateurs à une tentative d’hameçonnage par cour- riel (« phishing »). Peuvent également être mises en exergue les mau- vaises pratiques suivantes : -  déployer un dispositif de cybersécurité en l’absence d’identification préalable, de classification par niveau de criticité (en fonction des critères DICT) et de revue régulière des données et des systèmes informatiques sensibles ; -  cantonner, dans la cartographie des risques des socié- tés de gestion, l’analyse des risques de cybersécurité aux seuls impacts de risque opérationnel sur les fonds et/ou mandats gérés ;"
updated_on: "2021-03-05T17:47:07.870153"
version_id: 6719

The different attributes of the chunks are defined like this:

  • author : author of the document if found in the metadatas of the file
  • coordinates: coordinates of the chunk in it's page
  • display_name: name of document it comes from
  • div_idxs: indexes of the divs in its HTML representation
  • metadata: {"Type of document": "Guide" }
  • ocr: if it comes from a page that has been ocrisez
  • size: size in byte
  • text: full text of chunl
  • version_id: id of file it comes from

Did this page help you?