To jest tylko wersja do druku, aby zobaczyć pełną wersję tematu, kliknij TUTAJ


Summa Technologiae - Obróbka tekstu

ketyow - 20 Wrzeœśnia 2013, 12:31
Temat postu: Obróbka tekstu
Co jakiś czas pojawiają się pytania odnośnie jakiejś funkcji w wordzie, excelu itp., a że bardzo wielu z nas pracuje z tekstem na co dzień, to może się przyda taki wątek.

Czy ktoś wie może jak przy konwersji PDF -> Word w ABBYY Finereader usunąć łamanie tekstu? Tzn. możliwe, że jest to całkowicie w automacie, bo część wyrazów przenoszonych do następnego wiersza po konwersji jest już sklejone i jest ok, ale niestety sporo nadal po konwersji ma myślnik gdzieś w środ-ku. Może jest jakaś funkcja, która pozwala kontrolować gdzie i kiedy (nie mogę znaleźć)?

Dunadan - 20 Wrzeœśnia 2013, 12:54

ctr+f i szukasz "-"

Problem taki że znajdzie ci tez normalne myślniki :D ale tych nie jest znowu tak wiele... może je potem hurtowo usunąć (zastępując wyszukany znak "niczym"). W sumie, to prawidłowe myślniki są zwykle innym znakiem niż "-".

thomas2411 - 20 Wrzeœśnia 2013, 12:57

A nie ma przypadkiem opcji w Wordzie, żeby wyłączyć łamanie tekstu? Coś mi tak świta.
ketyow - 20 Wrzeœśnia 2013, 13:12

W wordzie można, ale po konwersj z pdf łamanie zostaje częściowo zgubione. Word widzi wtedy tylko zwykły myślnik w środ-ku wyrazu, który jest dla niego nie łamaniem, a elementem tego wyrazu. W związku z czym ten myślnik występuje nawet jeśli wyraz jest w środku linijki, a nie na jej końcu, a także całkowite wyłączenie łamania w tekście powoduje, że ten myślnik nie znika. Dlatego szukam rozwiązania po stronie konwertera, żeby on wyłapał te myślniki łamiące (w niektórych dokumentach wycina wszystkie, w innych zostawia - ciężko określić dlaczego).
mesiash - 20 Wrzeœśnia 2013, 13:15

ketyow, najpierw zamień wszystkie "- " na "_ ", potem "-" na "" i zakończ zamianą "_" w "-" :D

w pierwszej zmianie musisz mieć spację po myślniku, bo tam gdzie powininen być zwykły myślnik, następuje po nim spacja zazwyczaj

ketyow - 20 Wrzeœśnia 2013, 13:27

mesiash, a co z wyrazem betonowo-szklane, albo nazwami własnymi z myślnikiem wewnątrz? O ile jestem w stanie określić, że w wyrazie "śro-dek" nie powinno być myślnika, o tyle przy nazwach własnych będzie sprawdzaniaaaa...

W każdym razie wydaje mi się, że odgadłem kiedy następuje usunięcie łamania, a kiedy myślniki zostają w wyrazach. Zostają w wyrazach, których nie ma w słowniku. Program nie wie czy myślnik jest celowo czy przypadkiem, więc zostawia. Niegłupie w sumie. Więc mój problem jednak można rozwiązać tylko ręczną korektą.

thomas2411 - 20 Wrzeœśnia 2013, 13:32

No miałem proponować korektę w Wordzie po wyłączeniu łamania. Śro-dek nie ma w słowniku, więc wyłapie błąd.
ketyow - 20 Wrzeœśnia 2013, 13:42

No, to był przykładowy wyraz tylko. Mam jednak nazwy własne i np. mili-tarystycznie. Żeby ABBYY poprawnie go skonwertował, muszę jednak najpierw wejść w worda, usunąć myślnik ręcznie, dodać wyraz do słownika. Więc w takim wypadku po ponownej konwersji otrzymam to samo, co po ręcznej poprawce. Czyli - tak czy owak, trzeba bawić się ręcznie.
Dunadan - 20 Wrzeœśnia 2013, 13:49

ketyow, nie musisz ręcznie, zapuszczasz hurtową zmianę znaku "-" na "null" i tyle...
ketyow - 20 Wrzeœśnia 2013, 13:55

Dunadan, ale myślniki występują też w wielu miejscach gdzie są potrzebne. Pomyśl co by taka operacja zrobiła z Fidelem ;P:
Dunadan - 20 Wrzeœśnia 2013, 14:43

ketyow, już pisałem, że myślnik myślnikowi (znak "minus") nie równy ;)
ketyow - 20 Wrzeœśnia 2013, 14:59

Dunadan, po konwersji z pdf niestety równy.
Dunadan - 20 Wrzeœśnia 2013, 15:02

ketyow, nie wiem jak wygląda tekst ale może właściwy myślnik wygląda tak: " - " zamiast "-" - wtedy też prosto odróżnić... gorzej jak wszystkie nie mają spacji przed i po :-/
ketyow - 20 Wrzeœśnia 2013, 15:26

Są myślniki wewnątrz wyrazów, także nic to nie da. Zresztą... Po 3 godzinach roboty spostrzegłem, że prawie wszystkie trzykropki zamienił na pojedynczą, a one w tekście występują kilka tysięcy razy :cry: :cry: :cry:
ketyow - 24 Wrzeœśnia 2013, 12:51

Konwersja zjadła z półtora tysiąca trzykropków i potrzebuję je namierzyć. Część mógłbym wypatrzeć łatwiej, gdyby autokorekta podkreślała mi początki zdania z małej litery

Cytat
jak by to powiedzieć. jego


Np., gdyby w tym wypadku "jego" było podkreślone na czerwono, to z daleka widziałbym, że po "powiedzieć" miał być trzykropek. Wiem, że autokorekta przy pisaniu robi coś odwrotnego, tzn. automatycznie zmieniłaby na "Jego" zatem jest jakiś moduł, który to sprawdza... Ktoś ma pomysł?

Godzilla - 24 Wrzeœśnia 2013, 22:13

Dawno tego nie sprawdzałam, ale kiedyś błędy składniowe podkreślane były na zielono.
ketyow - 25 Wrzeœśnia 2013, 15:37

Nic takiego nigdzie nie widziałem do ustawienia. Tak czy siak te wielokropki wszystkie znalazłem i poprawiłem ręcznie. Ponad dzień roboty. To samo czeka mnie jeszcze z jedną książką, ale na razie poprawiam wy- razy, którym nie uda- ło się scalić po usuwaniu łamania. To też można zrobić tylko ręcznie. Potem tylko zbędne jedynki zamienić na "i", zera na "o" i mnóstwo innych rzeczy. Parszywa robota, ale poprawiam już ostatnią powieść.

Duże znaczenie ma chyba program/wtyczka jaką DTP zapisuje plik do postaci PDF. Krój, rozmiar czcionki, interlinie są mnie więcej identyczne we wszystkich książkach, które konwertuję, dla oka ciężko wyczuć różnicę, ale mam pliki od dwóch różnych składaczy i pliki jednego z nich są do poprawek prawdziwym koszmarem, powstają w nich zupełnie inne błędy, więc coś musi być na rzeczy. Głupio że program nie wyciąga tekstu i formatowania ze środka kodu pliku PDF, a zwyczajnie robi skan tego PDFa i odgaduje litery itd.

gorat - 25 Wrzeœśnia 2013, 15:40

Czytam, czytam i się dziwię, czemu normalnego składu tekstu nie można zastosować, albo przynajmniej przesłać kod źródłowy tekstu zamiast jego postaci skompilowanej.
ketyow - 25 Wrzeœśnia 2013, 16:04

gorat, nie bardzo rozumiem co masz na myśli, ale jeśli pytasz dlaczego DTP nie dysponuje plikami np. wordowskimi, a zostawiają sobie tylko pdfy, do których naniesienie poprawek jest niemal niemożliwe - to nie wiem. Tzn. domyślam się, że dostają pliki w wordzie, dalej łamią je w innym oprogramowaniu, w nim też nanoszone są ostatnie poprawki, nie wiem - tłumaczenia, błędów itp., a następnie z tego powstaje pdf. Więc rozumiem, że ich pliki wordowskie są wybrakowane, ale to oprogramowanie DTP zapisuje tylko do PDF? W każdym razie, poprawki które robi DTP nie są nanoszone do Wordów. I jak potem przychodzi taka sytuacja, że na przykład trzeba ebooka zrobić, to dostaję PDF :roll: To w ogóle jest głupie, bo niemożliwe jest przecież nawet zrobienie kolejnego wydania poprawionego - książka po konwersji z PDF wymaga kilkanaście-kilkadziesiąt godzin ponownej korekty, żeby w ogóle nadawała się do czytania.
Pako - 25 Wrzeœśnia 2013, 16:19

Bo worda się powinno używać w sumie chyba tylko do jakichś małych tekstów lub tekstów wewnątrzfirmowych, a pdfów jako formatu zamkniętego, zaspawanego i nietykalnego. A do jakiejkolwiek innej pracy z tekstem jedyne sensowne wydają się być inne formaty (LaTeX etc., damn, nawet dobry html powinno się dać obrabiać z dziecinną łatwością). Byś miał plaintexta to takie problemy można by wyrażeniami regularnymi załatwić w pół godziny, no ale w pdfie za dużo grzebania by było, o ile udało by się coś w sensownym czasie osiągnąć.
gorat - 25 Wrzeœśnia 2013, 16:19

No właśnie to - to takie coś, jakby programiści po ukończeniu cyklu rozwoju aplikacji zostawiali sobie takie .exe, cały kod usuwając... a potem wychodziłoby, że jeszcze są konieczne poprawki.
ketyow - 25 Wrzeœśnia 2013, 16:36

Pako, czemu worda do małych tekstów? Ciekawe kto by wydał pisarza, który by wysyłał do korekty pdfa. Moim zdaniem to jest po prostu niedopatrzenie, pewnie sporo wydawnictw nie wydaje swoich nieco starszych książek w formie ebooków, bo nie zostawili sobie furtki w postaci worda/open office'a. A teraz płacz nad rozlanym mlekiem. Jestem pewien, że wydawnictwa które teraz masowo wydają książki w formie ebooków doskonale już wiedzą, że pdf to tylko coś, co powinno jechać do drukarni, a wszystko trzeba trzymać w edytowalnej postaci. Przykład gorata najlepiej to oddaje.
Pako - 25 Wrzeœśnia 2013, 17:54

Worda do małych tesktów - inaczej, może, worda do tesktów w fazie produkcji. Jak sobie pisarz klepie w wordzie to jest git (chociaż myślę, że dałoby radę znaleźc lepsze narzędzia do pisania). Ale Z tego co słyszałem, to do jakiejkolwiek obróbki dalszej, drukarskiej i te pe nikt tego nie będzie używał, tylko wszyscy skaczą w mądrzejsze formaty, lepiej pracujące ze składem. A PDF, jak napisałem, powinien stanowić tylko i wyłącznie produkt końcowy, nie tykany, publikowany na necie, czy może lecący do drukarni (jeśli drukarnie akurat pdfów używają, nie wiem).

Z innych rzeczy, które mi się teraz w głowie pojawiły, to ciekawe, jak pisarze, wydawnictwa itp. zarządzają swoimi tekstami na dłuższą skalę. Śledzenie zmian w wordzie jest ubożusie, a jakikolwiek system kontroli wersji plików umiera, bo to nie dośc że format dziwny, to (w nowych wordach) jeszcze zzipowany, czyli prostym okiem nieczytelny. No ale jak nikt nie pracuje w wydawnictwie większym, to mi pewnie nie odpowie. A jak pracuje, to pewnie tez nie bedzie chciał odpowiedzieć ;)

ketyow - 25 Wrzeœśnia 2013, 18:07

Tylko pisarz, tłumacz i może korektor, to właśnie raczej w Wordzie będą robić, bo to jest program o dużej liczbie funkcji i łatwy w obsłudze. I jak skład nanosi ostateczne poprawki przed sklepaniem PDFa, który pójdzie do drukarni, to te same poprawki (jeśli nie dotyczą oczywiście samego składu) powinny iść do Worda. Nawet jak osoba w składzie będzie zmuszona poprawić w tekście 50 błędów i te poprawki nanieść jeszcze raz do Worda oprócz softu DTP, to jest to parę minut roboty. Jeśli jednak nie zrobi się poprawek w Wordzie, to potem przy wznawianiu/wypuszczaniu ebooków okazuje się, że jedyna aktualna wersja książki jest w PDF i już do poprawy jest nie 50 błędów, a kilka-kilkanaście tysięcy. I można powiedzieć, że jest to chyba po trochu efektem zwykłego lenistwa. Jak się o to nie zadba, to potem nawet zwykłe wznowienie książki musiałoby być w identycznym formacie, kroju i rozmiarze tekstu itp. Więc może nawet jestem wyjątkiem i na ogół poprawki są jednak nanoszone też do Worda etc.
Pako - 25 Wrzeœśnia 2013, 18:14

No nie wyobrażam sobie inaczej.
Inna sprawa, to dlaczego tych wordów po prostu nie ma. Kurde, chmury pół darmo, dysku darmo na ulicach leżą, a firmy nie trzymają danych i ich 10 kopii.

ketyow - 25 Wrzeœśnia 2013, 18:44

Tak czy owak, miałem robić konwersję, robię głównie korektę, ale owoce już wkrótce. I jak ktoś ma czytnik, to sądzę, że mocno wiele osób ucieszą :)
ketyow - 18 Października 2013, 11:55

ABBYY Finereader po OCR podświetlił mi na niebiesko miejsca w dokumencie, przy których nie był pewien, czy poprawnie rozpoznał tekst, aby łatwiej było wyłapać jego błędy. Wygląda to tak:



Myślałem, że pozbycie się tego niebieskiego tła (jest nadal widoczne w ebookach) będzie prostą sprawą, np. zaznaczę cały tekst i ustawię tło na białe. Niestety, nie jest do końca tak. Jeżeli zaznaczę tylko tekst, który ma niebieskie tło, to da się je zmienić na białe. Jeśli jednak zaznaczę partię tektu, w którym jest parę takich wyrazów (np. jakiś cały akapit), to zmiana tła nic nie daje. Mogę ustawić tło np. na szare i wszystkie wyrazy będą na szarym tle, ale ten jasnoniebieski pozostanie nadal niebieski. Nie mam pojęcia czemu.

Czy ktoś wie jak usuwać całkowicie kolory tekstu i wszystkiego w Wordzie?

Mógłbym zaznaczać każdy wyraz oddzielnie i zmieniać tło na białe, ale nie dość, że to cały dzień roboty, to nadal jest to tylko metoda kompromisowa, bo widać to w html:

Tak jest z niebieskim


A tak z białym tłem


Więc to tło nadal nie jest tak naprawdę usunięte.

Usuwanie śmieci z HTML też mija się z celem, bo niestety znaczniki są po obu stronach trefnego wyrazu.

Przy okazji, jeśli nic nie wymyślimy, to zmienię to tło zwyczajnie na białe, a w takim wypadku inne pytanie: jest jakiś program do masowej zamiany tekstu w html (tzn. wpisałbym sobie #80FFFF i kazał wszystkie zamienić na white) - jakiś notepad ++ coś takiego oferuje etc.?

hrabek - 18 Października 2013, 12:12

Zwykły notepad ma przycisk Replace All.
ketyow - 18 Października 2013, 12:22

A racja, nie spodziewałem się po nim.

W każdym razie, jestem bliski załamania nerwowego - mnóstwo godzin poprawek, ebook gotowy do konwersji, a tu znowu jakieś cholerne jajca... Co za denne oprogramowanie :omg:

ketyow - 21 Października 2013, 12:07

Mam coś takiego:



Tzn. w Wordzie wszystkie początki dialogów nie są traktowane jako myślniki, tylko jako punktory o wyglądzie myślników (ta strzałka na obrazku na to wskazuje). Pytanie: jak usunąć wypunktowanie w całym dokumencie? Tzn. jeśli wyłączę je tak "po prostu", to wraz z wypunktowaniem znikają wszystkie myślniki, a te oczywiście mają zostać. Jak to zrobić?

Nie może to zostać w formie punktorów, bo po konwersji docx do html wszystkie te "myślniki" zamienia na "minusy"...

To co przyszło mi do głowy, to usuwanie tego w HTML, tak to w HTML wygląda:
Kod
<span lang=pl style='font-family:Symbol'>-<span style='font:7.0pt "Times New Roman"'>&nbsp; </span></span><span lang=pl>


A tak wygląda zwykły myślnik
Kod
<span lang=pl>–


Tylko ani notepad, ani notepad++ nie potrafi znaleźć tak długiego tekstu jak cytowany powyżej. Czym można by to zamienić?

Oczywiście preferuję zamianę punktorów na myślniki w Wordzie, nie wiem tylko jak.



Partner forum
Powered by phpBB modified by Przemo © 2003 phpBB Group