Romanrama

Classifications automatisées des romans de Gallica (1815-1850)

Ce tableau interactif permet d'explorer les genres de 1458 éditions de romans numérisés par Gallica sur la période 1815-1850 (approximativement 20-25% de la totalité des éditions parues sur la période). Afin de constituer plus rapidement un corpus diversifié, nous n'avons pris d'un volume par parution (lorsque les textes étaient édités en plusieurs volumes)

La classification a été réalisée par un modèle non supervisé expérimental sur l'ensemble du texte numérisé, en s'inspirant des classifications d'époque (souvent portées dans le titre des romans eux-mêmes, même si le modèle, uniquement lexical, n'en a aucune idée).

Vous pouvez ici repérer la répartition des genres au sein d'un seul roman.

L'outil fonctionne globalement mieux pour les romans qui relèvent d'un genre bien affirmé (typiquement tous ceux qui portent « roman de mœurs » dans le titre)

Vous pouvez ici repérer l'évolution de la répartition des genres dans le déroulement du roman

Les résultats ont été cette fois-ci obtenus à partir d'une classification supervisées sur les corpus les plus emblématiques dans les genres identifiés avec la classification non supervisée.

Certains genres peuvent être assez nettement polysémiques (par exemple la robinsonade semble aussi recouvrir plus largement les évocations de la nature, assez courantes dans le roman romantique)

La classification s'appuie sur un modèle non supervisé interprété a posteriori. L'outil a dégagé spontanément six ensembles a priori cohérents sur le plan stylistique.

Les mots utilisés pour la classification et les sous-titre paratextuels utilisés dans les titres des romans ont permis de raccrocher ces ensembles à des genres pertinents pour l'époque considérée.

Ce panel présente une classification par "genre" dans l'autre sens du terme : nous avons entraîné un modèle à reconnaître l'identité de genre des autrices et auteurs dès qu'elle était connue sur Data BNF

Le modèle concorde avec Data BNF dans 90% des cas. Les discordances correspondent à l'usage de registres d'écriture inhabituels pour l'époque, tel que les romans comiques de Virginie de Sénancourt (la Conquêtomanie). Il est possible de les sélectionner à partir des catégories Féminin/masculin (écriture masculine avec un auteur féminin d'après Data BNF) ou Masculin/féminin (écriture féminine avec un auteur masculin d'après Data BNF).

Dans quelques cas, les suggestions du modèles amènent à interroger l'identité de genre documentée par Data BNF : l'auteur de La Maîtresse et la femme mariée n'est probablement pas le Frédéric Castillon indiqué et pourrait bien être le pseudonyme d'une romancière