barry писал(а):
Дубликаты и мусор образовались в основном на начальном этапе. Хотя парсинг -это дело тонкое... всегда найдется пример, о который "сломает зубы" любой парсер. Ну и каждую запись проверять не будешь - что там в списке авторов получилось и куда что занеслось. По идее от дубликатов и мусорных записей (если они привязаны именно на таксоны) можно избавиться только через перепривязку или обновление соотв. таксонов - если конечно говорить о "корректном" способе.
Угу, возложить всё на парсер вряд ли возможно.
Что же до ручного набора, то я тут тоже придерживаюсь такого общего взгляда на вещи: "чем больше ручного набора - тем больше очепяток в автоматически пополняемой БД, тем она избыточно пухлее и тем менее функциональна". Соответственно, я сам использую только копи-пастинг/импорт готовых списков, взятых из каких-либо хороших источников. Хотя, судя по наблюдениям, даже в солидных источниках наблюдается разброд и шатание в этой части, отсутствие единого формата (что несколько удручает).
Сейчас БД авторов выглядит довольно удручающе из-за этого начального этапа: пожалуй, я бы мог взяться за её несрочное "причёсывание" на досуге, всё равно это надо сделать, а БД авторов пока не запредельно большая...

Но тут возникает ещё вот такой технический вопрос:
Скажем, я хочу избавиться от написания "Linne" и привести всё к "Linneaus"- а там 13 записей, хочу раскидать "Denis & Schiffermuller" на две фамилии - а там 196 таксонов (и плюс серия дублей). Есть ли возможность провести такие операции пачкой, не перебирая таксон за таксоном?

P.S. И ещё вдогонку: там первые две записи в БД пустые(?) - это служебные или тоже ошибочные?